南京工程学院 陶媛媛
目标跟踪是计算机视觉领域的作用是举足轻重的,它在生活的各个领域中都有极其重要的研究价值。然而,大多数目标跟踪算法由于其只使用离线训练的方法,一定程度上存在着局限性。故本文将提出一种基于SiamRPN与自适应模板更新的目标跟踪方法,以SiamRPN算法为基础进行目标的特征提取,通过利用目标物体在初始模板、累积模板及预测模板的信息以及UpdateNet,并采用了相应的残差策略,从而得到需要的更新模板,以此来提升算法的鲁棒性。
数十年以来,尽管众多研究者对目标跟踪中出现的问题进行了持续地理论研究,也得到了对应的可行方案。但是鉴于目标跟踪过程中复杂的变化特性,想要真正将其广泛应用于生活中任然需要不断地对目标跟踪模型进行优化。目前而言,目标跟踪面临几个问题:形状及光照变化,快速移动、旋转、背景模糊、干扰物遮蔽等情况。尽管许多基于孪生网络的跟踪算法都表现出了十分优越的性能,但大多数目标跟踪器总是默认的在选取模板帧时,将目光锁定在了视频序列的第一帧,同时在后面的跟踪过程中不会对模板进行更新。因此,当目标物体受到干扰时得到的预测结果往往会相差甚大。传统的模板更新策略是线性的,由于目标在每一帧的变化范围都是不一样的,线性模板必然是无法使得我们得到理想结果的。故为解决这一问题,本文提出一种基于SiamRPN的一种自适应模板更新机制,使得目标跟踪的结果较为准确。
SiamRPN是在SiamFC的基础上加入了区域生成网络的基于区域生成网络的目标跟踪算法。全卷机孪生网络(SiamFC)是Luca Bertinetto等人提出的最早的Siamese结构,它能够得到一个较大的搜索图像,并将之输入到卷积神经网络中并求得模板之间的相似度。为使得网络可以完成分类和回归任务的联合跟踪,SiamRPN在孪生网络中加入了区域机制(RPN)。RPN利用了一个可变长宽比值的边界框来预估目标的初始位置,与原始的模型相比,在速度上拥有一定的优势。
视觉跟踪的关键是神经网络对于特征的表达能力,而对卷积层进行叠加这个方法,在模型训练过程中会造成一些梯度消失的难题。传统的卷积神经网络在深度增加的情况下,甚至会出现网格退化的问题,为此,在ILSVRC2015竞赛成绩中突出的深度残差网络ResNet-50结构很好地解决了上述问题,并且受到了广泛的应用。因此在本文中,我们将在SiamRPN的基础上,利用ResNet50代替AlexNet,同时加入多层融合,从而提高跟踪精度。
本文以SiamRPN算法为基础,利用原有的特征提取模型和深度残差网络进行对目标的特征提取。首先通过互相关的操作将问题转为模板匹配的问题,利用一个嵌入式空间来计算出与目标模板匹配的最佳位置。其次利用SiamRPN算法中的区域候选网络来产生候选目标的范围并提取特征向量,从而生成回归边界的预测框。在对候选边界框进行筛选时,利用非极大值抑制来确定预定义锚点框,再选出相应锚点框与真实目标框的长宽比例数据,进而对锚点框进行坐标回归,最后得到最终的预测框。
据上文所述,本文提出了一种自适应模板融合的更新机制。该机制将通过对一个残差计算函数进行学习从而得到更新模板。该函数利用卷积神经网络UpdateNet实现,该网络能够较好地表达出特征,同时具有较强的学习能力。自适应模板更新网络将需要三个输入:视频序列中第一帧的初始模板、前一帧的累积模板和当前帧的预测模板。残差计算函数通过集成当前帧来更新上一帧的累积模板。此外,为了提高该函数的鲁棒性,还考虑了初始模板,提高了生成的更新模板的可靠性。
首先,对初始帧的真实边界框信息进行提取得到目标模板特征。其次利用累积模板特征来预测得到当前帧模板的特征,进而得到目标位置,并得到相应的特征信息。在UpdateNet中仅仅使用到了第一帧的真实准确信息,其他的后续输入都是由目标跟踪算法预测得到的,故需要采取相应的残差策略,以便后续更好的跟踪。处理帧之间的残差计算模块中有两个组卷积层,分别为通道混洗模块和跳连操作。第一个组卷积层主要提取输入信号特征信息,并完成降维。通道混洗模块让组卷积的输入和输出通道处于完全相关的状态。第二个组卷积层则进一步提取特征信息,并完成升维。
本文采用VOT测试集中的VOT2018。该数据集包含6种视觉属性:相继移动、光照变化、目标尺寸变化、目标动作变化和未退化。它的主要评估指标包括准确性(A)、鲁棒性(R)以及预期平均重叠率(EAO)。
在进行自适应模板更新的参数设置时,本文仅在LaSOT标准数据集中挑选了20个训练视频图像序列。通过实验发现,自适应模板更新网络并不适用于较大的训练集,附加数据并不会大幅度提升模板更新网络的性能。自适应模板更新网络中两个卷积层的尺寸分别为1×1×1536×192,1×1×192×512。所有的实验是利用Pytorch进行的,为评估本文算法的性能,对自适应模板更新在相应数据集上进行测试,部分结果如表1所示。
表1 在VOT2018数据集上实验结果对比
从表1中可以看出,本文提出的目标跟踪算法具有一定的性能优势,能够达到较高的准确性和较低的跟踪次数,一定程度上证明了算法是可行的。即使在跟踪速度上不如一些算法,但在跟踪次数上展现了良好的跟踪效果。
现如今,大多数基于孪生网络的目标跟踪算法对在线模板更新机制的关注较少,仅用视频序列的第一帧不一定能得到目标处于干扰情况下的预测位置,故利用自适应模板更新策略是有必要的。为解决该问题,本文将目标的初始模板、前一帧的累积模板和预测模板输入到残差计算模块中,通过利用具有可学习的模板更新策略的卷积神经网络UpdateNet来实现残差计算函数,从而自适应当前帧的特定更新要求。实验表明,本文提出的算法虽然在某些指标上不如一些主流的目标跟踪算法,但在跟踪丢失次数和准确性上具有一定的提升效果,这也证明了本文算法的可行性。