基于区域提案孪生网络的优化目标跟踪算法

2021-03-29 02:52秦晓飞张一鹏陈浩胜何致远
光学仪器 2021年1期
关键词:锚点池化分支

秦晓飞,张一鹏,陈浩胜,李 夏,何致远

(1.上海理工大学 光电信息与计算机工程学院,上海 200093;2.上海理工大学 机械工程学院,上海 200093)

引 言

目标跟踪是计算机视觉中的一个重要分支,在人机交互、自动驾驶等领域都有着广泛的应用。目标跟踪的一般要求是仅仅根据第一帧中给出的边界框,就能准确地估计目标在后续帧中的位置和尺度。由照明、变形、遮挡、旋转和运动模糊引起的外观差异都是很大的挑战,而且跟踪速度在实际应用中也是必须考虑的一个方面。通常,实时跟踪的帧率至少为25 帧/s。

近几年,目标跟踪技术迅速发展,涌现出了大批优秀的跟踪算法。在普通的卷积神经网络中,卷积核或者池化核是正方形的,这对于长宽比比较接近的目标进行采样时,可以取得较好的效果。然而,当物体的长宽比比较悬殊的时候,网络往往显得比较乏力,特别是在骨干网络中,这样的操作直接影响了后续的信息处理。本文通过引入条形池化模块[1]来增加网络对于细长物体的采样能力,同时,由于是轻量级模块,计算量和参数量的增加微乎其微。

区域提案孪生网络[2]的分类分支作用是将目标的前景区域和背景区域分开,从而获取跟踪物的位置信息,给边界框回归提供参考,从而得到高质量的预测框。所以分类分支的分类性能,直接影响了整个跟踪器的跟踪效果,若能抑制干扰信息,就可得到一个更加具有判别力的分类器。通道注意力模块[3-7]的作用是根据神经网络的不同输入对不同部分适应性地分配权重。本文引进了高效通道注意力模块[8],可以从神经网络的通道维度有效抑制干扰信息,而使有用的信息得到有效保留。同时还在OTB100[9]、VOT2016[10]和VOT2019[11]等数据集中对提出的方法进行了评估。

1 目标尺度感知的区域提案孪生网络目标跟踪

1.1 网络整体框架

网络整体框架如图1所示,由2个子网络构成,分别是左侧的孪生子网络和右侧的提案生成子网络。视频的第一帧从模板分支输入,而后续帧从搜索分支输入,2个子窗口的片段经相同的网络(网络结构和参数均相同)AlexNet[12]后,再将模板分支的特征图送入条形池化模块(即SPM)[1]进行进一步的处理。

图 1 本文网络的整体框架Fig. 1 The overall framework of this paper

提案生成子网络由分类分支和回归分支2个部分构成:前者负责前景和背景分类,在每个锚点的位置生成2k个得分,分别是k个前景得分和k个背景得分,用于后续的锚点框筛选;后者负责生成锚点框,在每个锚点的中心位置预设了5个尺度的锚点框,长宽比分别为1∶1、1∶2、2∶1、1∶3、3∶1。网络的输出是每个框的边界框的中心点的横坐标、纵坐标和宽度、高度的修正量,而每个锚点框与分类分支的得分一一对应,这样每个框就有了得分,然后根据惩罚函数得到最终的预测框。

1.2 条形池化模块

在目标跟踪任务中,目标物的尺度是实时变化且未知的,很有可能会出现物体的边界框长宽比悬殊的情况。这个时候,普通的卷积神经网络就不能很好地采样,会严重影响跟踪算法的尺度估计。本文引入的条形池化模块[1],如图2所示,通过在狭长区域进行采样,很好地缓解了这个问题。

图 2 条形池化模块的网络框架Fig. 2 Network framework of strip pooling module

该模块的具体工作过程可分为三步:(1)对输入的一个H×W的特征图,先在横向和纵向区域分别进行平均池化,池化核大小分别为W×1和 1 ×H并分别得到2个向量,向量尺寸为H×1和 1 ×W,然后再通过一维的卷积建立相邻区域的联系。(2)采用复制的方式对特征图进行横向和纵向扩张,然后再进行融合,融合方式为直接逐元素相加。(3)采用 1 ×1 的卷积对整个特征图进行变换,然后再通过Sigmoid函数进行权重归一化,最后分配到各个空间位置并与其进行相乘。

1.3 高效通道注意力模块

高效通道注意力模块[8]是在著名的通道注意力模块(即:SE模块)[3]的基础之上改进得到的模块。研究发现,普通的SE模块存在2个方面的问题:首先,SE模块虽然是轻量化的模块,可是参数量还是比较大;其次,传统的SE模块在通道转换部分是2个全连接层,这样做可以节省计算量和参数量,可同时也破坏了原有的权重和通道之间的对应关系。高效通道注意力模块是传统SE模块的改进版,如图3所示。

图 3 高效通道注意力模块的网络框架Fig. 3 Network framework of efficient channel attention module

首先,对输入的特征图进行全局平均池化,其目的是对每个通道的压缩信息进行压缩,得到一个向量。其次,通过一个一维的same卷积进行处理,得到一个相同维度的向量,而这个卷积操作,其实就已经建立了每个通道及其相邻通道之间的函数关系。再次,通过Sigmoid函数在对数据进行数值归一化的同时增加网络的非线性。最后,再作为权重分配到各个通道,与各个通道的特征相乘之后得到最后的输出。

2 实 验

2.1 实验细节

本文把ImageNet[13]预先训练的AlexNet[12]作为骨干网络,共训练20个epoch。先将骨干网络的参数固定,训练其他部分,训练10个epoch后,解除骨干网络后两层的冻结,并将其和网络的其他部分一起训练。

训练时,将模板帧的图像大小调整为255×255个像素点,搜索帧的图像大小调整为127×127个像素点。为了得到更好的训练效果,将 COCO[14]、Youtube-BB[15]、ImageNet VID 和ImageNet DET4个数据集作为训练集。并采用随机梯度下降法(SGD)进行训练。前5个epoch仅仅训练区域提议网络(RPN)部分。学习率从0.005均匀增加到0.010。在随后的 25个epoch中,整个网络的端到端训练的学习速率呈指数衰减,从0.010 0衰减到0.000 5。使用0.000 5的重量衰减和0.9的动量。训练总损失是分类损失与回归的标准平滑L1损失之和。本文实验使用 PyTorch框架,硬件采用了 Intel(R)Xeon(R)CPU E5-1620 v3 @3.50 GHz,2台英伟达GTX 1080Ti GPU,内存19 GB。

2.2 数据集与实验结果分析

使用标准的OTB100[9]基准和100个视频序列来评估本文提出的跟踪算法性能。对此前的OTB2013数据集[16]进行了进一步的扩增,这些序列共有11种类型挑战,即:光照变化(IV)、变形(DEF)、运动模糊(MB)、平面外旋转(OPR)、低分辨率(LR)、遮挡(OCC)、快速运动(FM)、平面内旋转(IPR)、视野消失(OV)、背景混乱(BC)和尺度变化(SV)。评估指标有2个,分别为预测框与标准框的交并比(即成功率)和中心定位误差(即准确度),图4为10个常见方法与本文方法的准确度和成功率曲线。

图 4 不同算法在 OTB100 上的结果Fig. 4 Results of different algorithms on OTB100

在图4中,精确度的纵坐标显示了满足中心定位要求的帧所占的百分比,成功率的纵坐标显示了满足该重叠率的帧所占的百分比。经本文与其他10个常见的方法相比,可以得到:本文的跟踪算法取得了很好的跟踪效果,无论是在成功率还是在准确度方面,都取得了第1名的好成绩;与基准算法SiamRPN[17]相比,本文算法的成功率提高了3.1个百分点,准确度提高了2.5个百分点,提升较为明显。

图5为本文算法与经典的2个目标跟踪算法 SiamRPN[17]和 SiamFC[18]在 OTB100[9]数据集的 CliBar、Woman、DragonBaby、Coke、Jump和Matrix 6个视频序列的部分视频帧的跟踪效果。从图5可以看出:本文提出的算法,无论是在定位,还是在尺度估计上,都明显优于其他2个跟踪算法;特别是当物体出现较快的位移(第1行的杂志和第3行的小孩)或者部分遮挡(第2行的行人和第4行的可乐瓶)时,本文的跟踪算法仍然可以保持良好的跟踪性能。

图 5 不同算法在 OTB100 上的跟踪效果Fig. 5 Tracking effect of different tracking algorithms on OTB100

在VOT2016[10]数据集上做了测试,并且与最先进的9个跟踪算法做了比较。VOT2016公开数据集用于单目标的短期跟踪,其中包含60个视频序列。采用Expected Average Overlap(EAO), Accuracy(A)和 Robustness(R)3个指标进行比较不同的跟踪器,A、R结果如表1所示,EAO结果如图6所示。

从表1和图6可以看出:本文算法的EAO、A和R都处于第2名的位置(其中①,②和③分别代表第1、第2和第3名,EAO、A数值越高性能越好,R数值越低性能越好),EAO和A仅仅比第1名低了0.2和0.1个百分点,鲁棒性也只差0.4个百分点;总体效果上,排名第1的DaSiamRPN[19]跟踪算法,虽然在准确度上取得了领先,但是由于其采用了全局搜索操作影响了跟踪的速度,因而在速度方面低于本文算法。综合以上考虑,本文的跟踪算法取得了较为良好的效果。

VOT2019[11]是在VOT2018[20]的基础上改进的,替换了其中的部分序列,视频总数依然是60个,仍然采取EAO、A和R3个指标进行不同跟踪算法的比较。A、B比较结果如表2所示,EAO结果如图7所示。

表 1 不同跟踪算法在 VOT2016 上的结果Tab. 1 Results of different tracking algorithms on VOT2016

图 6 不同跟踪算法在 VOT2016 的 EAOFig. 6 EAO of different tracking algorithms in VOT2016

表 2 不同跟踪算法在 VOT2019 上的结果Tab. 2 Results of different tracking algorithms on VOT2019

图 7 不同跟踪算法在 VOT2019 的 EAOFig. 7 EAO of different tracking algorithms in VOT2019

从表2和图7可以看出:本文的EAO、A和R都处于第一名的位置(其中①,②和③分别代表第1,第2和第3名,EAO、A数值越高性能越好,R数值越低性能越好),EAO和A分别比第2名的算法高了4.1和6.9个百分点,鲁棒性也好了1.2个百分点;总体效果上,比第2名的跟踪算法优秀很多,比经典的跟踪算法SiamRPNX也高出很多。

3 结束语

针对目标跟踪中物体长宽比比较悬殊和有干扰信息的问题,分别加入了条形池化模块和高效通道注意力模块,使得该问题得到了较好的解决,而且都是轻量级模块,对网络的推理速度影响可以忽略不计,且很容易训练,后续的实验也充分证明了,这样的改进,对于原本跟踪算法提升精度较为明显。

猜你喜欢
锚点池化分支
面向神经网络池化层的灵活高效硬件设计
基于Sobel算子的池化算法设计
卷积神经网络中的自适应加权池化
基于NR覆盖的NSA锚点优选策略研究
5G手机无法在室分NSA站点驻留案例分析
5G NSA锚点的选择策略
5G NSA组网下锚点站的选择策略优化
巧分支与枝
基于卷积神经网络和池化算法的表情识别研究
一类拟齐次多项式中心的极限环分支