基于孪生网络的目标跟踪算法

2023-02-17 07:29苗宗成高世严贺泽民
液晶与显示 2023年2期
关键词:跟踪器离线网络结构

苗宗成 , 高世严 , 贺泽民 , 欧 渊

(1.西京学院 西安市先进光电子材料与能源转换器件重点实验室, 陕西 西安 710123;2.西北工业大学 光电与智能研究院, 陕西 西安 710072;3.军事科学院 系统工程研究院, 北京 100039)

1 引 言

目标跟踪是计算机视觉领域中被广泛研究的问题之一,由于其会受到跟踪背景多变、复杂环境以及物体形变等因素的干扰,目前仍然具有很大的挑战性[1]。目标跟踪可分为特征提取及匹配判断、确定帧间位置关系和模板更新3个部分[2],其是指在仅给出目标在初始帧中位置的情况下,能在后续过程中估计出目标所在视频序列中的任意位置[3]。目标跟踪常应用于多种领域,如无人驾驶[4]、机器人[5]、人机交互[6]、视频编辑[7]、视频监控[8]、增强现实[9]等。随着最近相关滤波器和深度学习的加入,目标跟踪器的性能得到大幅提高,使得目标跟踪在实践中的应用越来越广泛[10]。但目标追踪仍需克服姿势变化、运动、变形、遮挡、尺度变化和背景杂波等诸多因素带来的挑战[11]。

近年来,由于卷积神经网络(CNN)在各种视觉问题中显现出强大的性能,出现了大量基于CNN的目标跟踪器[12]。大多数目标跟踪提取目标特征使用的方法都是在离线的条件下进行的,导致事先不知道所要跟踪的目标对象,从而网络就需要在线训练这些任务,这极大地影响了跟踪的速度和精度[13]。基于孪生网络的跟踪算法由于在平衡精度和速度方面展现出的优势而受到了极大的关注,其在最近几年的VOT比赛中也获得了不俗的成绩。本文梳理了近几年的孪生网络实例搜索算法(SINT),首次将孪生网络[14]嵌入到目标跟踪算法中,开创性地提出了孪生网络实例搜索跟踪器来解决目标跟踪问题。其跟踪目标的方法是:首先将跟踪模型分成两个相同的分支,并分别输入到初始框和候选框中。然后将第一帧中的初始目标与新帧中的候选目标相匹配,利用学习匹配函数返回相差最小的目标。最后通过神经网络完成跟踪[15]。但是由于SINT取样边界框过多和采用回归等改善结果的方式使得该跟踪器实时性很差[16]。为此,Bertinetto等人提出了一个完全卷积孪生神经网络目标跟踪算法(SiamFC),基本思想是利用相同的深度卷积神经网络从目标图像块和搜索区域中提取特征,然后将两个特征图互相关联之后生成响应图,其中响应最强烈的位置就是所跟踪的目标对象在搜索区域中的位置。深度卷积经过预先训练后在神经网络跟踪过程中保持稳定,使SiamFC实现了在目标跟踪时的实时跟踪功能[16]。

虽然基于孪生网络的跟踪算法相比于传统的目标跟踪算法在速度和精度上都有所提升,但是其受到遮挡、形变等干扰因素影响较大。为此,国内外学者基于孪生网络提出了许多方法进行改进以解决此类问题。本文从3个方面对基于孪生网络的目标跟踪进行总结,分别是基于全卷积孪生神经网络的目标跟踪、基于引入回归孪生网络的目标跟踪、基于在线更新孪生网络的目标跟踪,最后讨论了孪生网络现有不足并且对未来发展趋势进行了展望。

2 基于全卷积孪生神经网络的目标跟踪

SiamFC只将开头标记的第一帧用做模板,由此产生的目标变形、目标遮挡和光线变化等诸多问题会给跟踪带来困难[17],对性能也产生了极大影响,如图1所示。为此,将相关滤波器与孪生神经网络结合的不对称跟踪算法(CFNet)被研究出来,其在完全发挥相关滤波器自身优点的同时将卷积神经网络应用于目标跟踪,使其在浅层网络的运行速度更快[18]。为了获得更强大的目标特征,SiamFC融合了深度网络,但其没有仔细考虑输入样本之间的关系,对此,通过将三重丢失(Triplet loss)方法加入到孪生网络框架中来代替训练中的两两丢失,从而提取更加具有表现力的深度特征。该方法使性能提高而且不会降低跟踪器速度[19]。

图1 视觉目标跟踪在复杂外观变化下的效果呈现。(a)环境光照变化;(b)相机快速运动;(c)完全遮挡;(d)噪声干扰;(e)非刚性形状变形;(f)平面外对象旋转和姿势。这些因素引起的对象外观变化可能会导致跟踪性能下降甚至失败[5]。Fig.1 Effects of visual object tracking under complex appearance changes.(a) Ambient lighting changes;(b) Fast camera motion; (c) Complete occlusion; (d) Noise interference; (e) Non-rigid shape deformation;(f) Plane outer object rotation and pose.Changes in the appearance of objects caused by these factors can cause tracking performance to degrade or even fail[5].

SiamFC能够充分利用离线训练数据,使其自身具有很高的判别力,图2为SiamFC网络结构。当追踪对象受到遮挡或者产生形变的情况下,SiamFC泛化能力会下降从而影响性能。为此,由语义分支和外观分支组成的双重孪生网络跟踪器(SA-Siam)通过设计两个不同分支在不同的网络层次使用特征,二者经过联合训练从而避免同质化。受益于两者的异质性,该跟踪器采取的双重设计为跟踪性能带来了显著提升[17]。具有多分支、可以在线选择的孪生网络跟踪器(MBST)可以根据其自身的辨别能力动态选择分支。当追踪对象发生形变等情况时,选择效果最好和适合度最高的分支,通过对多个孪生网络集成以使目标特征表示多样化[20]。SA-Siam和MBST在SiamFC的基础上将泛化能力进一步提升,获得了突出的性能。同时,SiamBM跟踪器能够解决SiamFC不能正确处理大物体的旋转与背景包含目标时跟踪乏力等问题,在SA-Siam的基础上做了改进,加入不同机制实现对追踪对象的位置、尺度与角度进行预测,跟踪性能提升明显[21]。

图2 SiamFC的网络结构[16]Fig.2 Network structure of SiamFC[16]

目标跟踪可以利用离线训练平衡目标跟踪的精度和速度,但是离线训练模型和跟踪时的特定目标有时候无法充分适应[22]。在SiamFC的基础上提出的新深度架构残差注意力孪生网络(RASNet)能够使离线训练模型与在线目标跟踪相适应,RASNet从回归的角度重新制定了孪生网络跟踪,而且探索了一般注意力机制、残差注意力机制和通道注意力机制3种注意力机制[22]。自适应的深度特征级联跟踪方法(EAST)采用类似方法解决了离线训练的深度模型不能适应在线跟踪目标的问题[23]。现有基于卷积神经网络的方法大多从全局视角描述目标外观,忽略了所跟踪物体的局部结构对于跟踪鲁棒性的影响。为此,DensSiam跟踪器加入了注意力模块,其在目标对象出现遮挡和外观变化时通过减少共享网络中的参数数量解决问题使目标跟踪的精度和鲁棒性得到提高[24]。基于局部结构的孪生网络(StructSiam)同时执行判别模式检测、局部结构学习和集成[25],克服了在跟踪对象时出现的外观变化、旋转、部分遮挡等挑战。

基于全卷积孪生神经网络的目标跟踪算法相比于SiamFC在性能上均有很大的改进。表1是各算法在数据集VOT2017上的具体表现。VOT2017数据集是公正的评价工具。从表1可见,在基于SiamFC所做的孪生网络算改进中,除了CFNet以精度的损失换取了速度的提升,使预期平均重叠率(EVO)有所下降,其他的改进算法在EVO方面的表现均优于SiamFC。

表1 基于全卷积孪生网络算法对比Tab.1 Comparison based on full-convolutional Siamese network algorithms

3 基于引入回归孪生神经网络的目标跟踪

SiamFC已经使用了多种尺度与目标变化相适应的方法进行目标跟踪。最近有学者开始将目标检测领域尺度变化的解决方法与孪生网络相结合,从而弥补SiamFC在性能方面的欠缺[26],其中GOTURN方法的特征提取器采用了孪生网络,使用全连接层作为融合张量,通过使用最后一帧的预测边界框作为建议来提高性能[27]。最具代表性的是将孪生网络与区域建议网络(RPN)相结合来预测目标位置的跟踪算法SiamRPN[28],其网络结构见图3。整个SiamRPN结构由孪生网络和具有分类分支和回归分支的RPN组成。在跟踪阶段,模型被进行端到端的训练并且包含该对象的边界框信息被直接回归[29]。由于Siam-RPN在模型识别方面仍有相对较低的泛化能力,难以处理与目标对象外观相似的干扰物,串并联匹配框架(SPM-Tracker)通过将专注于增强鲁棒性的粗匹配阶段和专注于提高辨别能力的精细匹配阶段进行串并联结构融合来提升性能[30]。而后DaSiamRPN方法进一步引入了分心器感知模块,利用更多的负样本来改进Siam-RPN跟踪器,增强了模型辨别力,获得了鲁棒性更高的跟踪结果[31]。为了应对SiamRPN在物体大尺度形变和干扰物会引起性能下降的问题,在SiamRPN的基础上引入的一种新的孪生级联网络跟踪架构(C-RPN)[32]采用多个回归步骤使定位更加精准。Ocean则通过以强大的ResNet-50代替AlexNet作为主干增强了特征表示能力,有效地改善了物体形变和遮挡因素造成的性能下降问题,并且获得了更佳的跟踪精度[33-35]。

图3 SiamRPN的网络结构[29]Fig.3 Network structure of SiamRPN[29]

虽然SiamRPN通过将孪生网络与区域建议网络(RPN)相结合来执行准确有效的目标状态估计,然而预定义的锚设置不仅引入了模糊的相似性评分,还严重降低了鲁棒性[33]。基于全卷积连体跟踪器的SiamFC++方法利用基于锚或无锚的机制进行边界框估计,在定位精度方面有极大的提升[36]。由于在区域提议引入了锚点,超参数调整的专业性对于能否跟踪成功就变得至关重要。孪生分类和回归框架SiamCAR通过端到端方式训练深度 Siamese 网络,使用完全卷积框架以逐像素的方式解决跟踪问题,避免了复杂的锚定超参数调整,从而减少了人为干预,提高了泛化能力[37]。通过直接在全卷积网络 FCN[38]中分类目标并对边界框进行回归的SiamBAN避免了相关超参数的调整,其因为无先验框的设计避免了与候选框相关的超参数交互,从而使SiamBAN更加灵活和通用。无先验框设计将复杂的超参数问题转化为分类回归问题,从而提高了性能[39]。

为了揭示孪生网络可以利用深层神经网络提取目标对象的深度特征,SiamDW将深层神经网络引入孪生框架[40],而后利用端到端训练深层孪生网络的目标跟踪算法SiamRPN++提出了互相关操作,通过逐层特征加重结构和设计深度可分离结构减少了目标模板分支中存在的参数数量,获得了显著的性能提升,网络结构如图4所示[41]。SiamMask能实时执行视觉对象跟踪和半监督视频对象分割,并且将实例分割整合到跟踪中,展现出了比其他先进跟踪器准确性更高的特点[42]。SiamRPN++、SiamMask和 Siam-DW以不同的方式消除了填充等影响因素,并将深层神经网络如ResNeXt[43]、ResNet[34]和MobileNet[44]等引入到基于孪生网络的视觉跟踪器中,进一步提高了目标跟踪精度,表现出了突出的跟踪性能。

图4 SiamRPN++的网络结构[41]Fig.4 Network structure of SiamRPN++[41]

表2是基于引入回归孪生神经网络的目标跟踪算法在VOT2017数据集上的表现对比。SiamRPN的速度与精度比之前的算法有了很大的提升,速度为160 fps。DaSiamRPN速度为160 fps,与SiamRPN保持一致,但是EAO明显高于SiamRPN。SPM-Tracker在GPU上的速度为120 fps。SiamCAR在追踪精度和速度上都有明显提高,速度达到了170 fps。SiamRPN作为首个将区域建议网络引入的孪生网络跟踪算法,虽然展现出了不错的跟踪性能,但在其之后提出的基于回归的跟踪算法展现出了更加强大的性能,具体表现在准确性、鲁棒性和预期平均重叠率均有提升。

表2 基于引入回归孪生网络的算法对比Tab.2 Comparison of algorithms based on the introduction of regression Siamese networks

4 基于在线更新孪生神经网络的目标跟踪

许多最新方法都是通过大量离线学习整合先前知识的形式进行目标跟踪。SiamRPN及在其基础上改进的算法经过广泛的离线训练已能够进行边界框回归,但是在目标分类问题上目标跟踪还存在一些挑战。为此,基于在多域学习框架中训练CNN的新型跟踪算法(MDNet)将目标跟踪看作是一种分类问题,通过学习一个离线深度特征提取器,然后添加一些可被学习的全连接层对分类器在线更新[45],在新序列的背景下在线更新预先训练好的CNN,目的是使特定领域的信息可以实现自适应学习[46]。在此之后,新型实时目标跟踪算法(RT-MDNet)被提出,通过改进的ROIALLIGN技术加速特征提取过程,从而解决目标形变、背景遮挡等因素带来的性能下降问题[47]。

大多数基于孪生网络的跟踪算法没有进行在线学习,所以一部分学者开始使用模板更新技术来弥补类似干扰因素带来的影响[47]。DSiam是具有快速转换学习模型的动态孪生网络,实现了有效的模板更新和杂乱背景抑制[48]。CFNet通过在模板分支结构中嵌入可以调节的相关过滤层架构对过滤器和模板进行在线更新[18]。SiamAttn通过新的孪生注意机制计算可变形注意力,提供一种隐式方式来自适应地更新目标模板,网络结构如图5所示[48]。通过将卷积神经网络集成到现有的孪生跟踪器中的Update-Net显著提高了跟踪器在标准线性更新方面的性能[49]。

图5 SiamAttn的网络结构[48]Fig.5 Network structure of SiamAttn[48]

虽然模板更新技术解决了部分在线学习问题,但它还未拥有强大的在线学习模型的能力。为此,有学者开始利用广泛的离线训练对目标进行在线跟踪。ATOM通过在线学习判别分类器的方式来准确区分跟踪对象与其所处背景,有效地利用背景信息增强了鲁棒性,网络结构见图6[50]。跟踪模型ROAM由可调整大小的响应生成器和边界框回归器组成,基于元学习设计了递归神经优化器以训练跟踪和更新模型[51]。此外,DIMP[52]和 PrDIMP[53]将在线更新与连体结构相结合,通过对目标特征和背景外观信息的充分利用来进行目标模型预测,解决了之前 泛化能力和鲁棒性较差的限制,展现出强大的性能。

图6 ATOM的网络结构[50]Fig.6 Network structure of ATOM [50]

基于在线更新孪生神经网络的目标跟踪算法在一定程度上改变了孪生网络目标跟踪的格局,使其可以在进行目标跟踪的同时进行更新。表3为目标在线更新跟踪算法在VOT2017数据集测试下的性能对比。

表3 基于在线更新孪生网络算法对比Tab.3 Comparison of Siamese network algorithms based on online updates

5 实验结果对比与分析

将基于全卷积孪生神经网络的目标跟踪、基于引入回归孪生网络的目标跟踪和基于在线更新孪生网络的目标跟踪3种方法中排名靠前的几种算法与其他表现较好的目标跟踪算法进行测试,算法包括SiamFC、StructSiam、DSiam、DaSiamRPN、MDNet、UpdatNet、VITAL、SINT、STRCF和ECO。测试工具使用的是最近反响很好的LaSOT数据集,其测试子集由280个序列构成,包含69万帧。LaSOT数据集使用成功图和归一化精度图来评估跟踪器。

对11种不同的基于孪生网络目标跟踪算法的性能进行对比分析,实验和用作分析的数据均来自官网或者文献提供的结果。图7给出了各个目标跟踪算法的性能评估。从图7可以看出,通过UpdateNet增强的DaSiamRPN 的更新能力在所有指标上的性能均有显著提升,引入回归方法中的DaSiamRPN对比全卷积神经网络方法中的Structsiam以0.121的差距领先,虽然二者也表现出不俗的性能,但是在线更新方法在性能提升上的表现更加优秀,进一步证明了基于孪生网络的在线更新方法在目标跟踪方面的优势。未来孪生网络目标跟踪的趋势也势必是将其与在线更新机制相结合。表4分别对3种基于孪生网络的目标跟踪算法中的代表算法进行了总结归纳。可以看出,基于孪生网络的目标跟踪算法在与时俱进,性能也随之提高。

表4 3种孪生网络方法代表算法对比Tab.4 Three Siamese network methods represent algorithmic comparisons

图7 3种方法中代表算法在LaSOT数据集上的比较。较大的值表示更好的性能。Fig.7 Comparison of the represent algorithms of the three methods on the LaSOT dataset.The larger values indicate better performance.

6 结论与展望

目标跟踪领域随着深度学习的加入使跟踪目标时的速度和精度有了大幅提高,卷积神经网络在其中的应用也使目标跟踪的性能有了显著提升。基于孪生网络的目标跟踪由于其对速度与精度出色的平衡性而被越来越多的学者关注并应用。本文介绍了基于孪生网络的目标跟踪在国内外的研究进展,根据孪生网络在目标跟踪中应用的特点,将其分为3个方面,即基于全卷积孪生神经网络的单目标跟踪、基于引入回归孪生网络的单目标跟踪、基于在线更新孪生网络的单目标跟踪。基于孪生网络的目标跟踪平衡了速度与精度,展现了优异的性能。

在总结目标跟踪文献后提出3种未来研究方向:(1)孪生网络只是预测了目标特征模板,而在实际目标跟踪过程中忽略了背景外观信息。因为孪生网络在预测模型时对目标背景识别的能力有限,所以在目标模型预测时充分利用目标和背景外观信息是未来需侧重的研究方向之一。(2)孪生网络对于物体和成像在时间变化方面的完成效果依旧不太理想,如何有效地进行有目标外观变化的在线学习和背景抑制是一个重要的待解决问题。(3)孪生网络虽然最近发展十分迅速,但是卷积计算量也随之大量增加,导致其在跟踪方面的实时性和速度受到了一些影响。如何在保证实时性和速度的前提下减少计算量也是未来需要研究的方向之一。

猜你喜欢
跟踪器离线网络结构
光伏跟踪器阵列跟踪精度的测算方法研究
异步电机离线参数辨识方法
浅谈ATC离线基础数据的准备
浅析一种风光储一体化跟踪器
超长待机的自行车位置跟踪器
FTGS轨道电路离线测试平台开发
离线富集-HPLC法同时测定氨咖黄敏胶囊中5种合成色素
双向多轨迹判定方法在目标跟踪中的应用研究
基于互信息的贝叶斯网络结构学习
知识网络结构维对于创新绩效的作用机制——远程创新搜寻的中介作用