融合时空特性的孪生网络视觉跟踪

2021-11-01 09:08姜珊底晓强韩成
兵工学报 2021年9期
关键词:模板注意力样本

姜珊, 底晓强, 韩成

(长春理工大学 计算机科学技术学院, 吉林 长春 130022)

0 引言

计算机视觉作为人工智能领域的重要组成部分,为社会发展带来了巨大变化。其中,目标跟踪作为计算机视觉领域内的重要分支,在智能视频监控、人机交互等领域应用广泛。同时,作为自主空战中的关键技术,目标跟踪为军事领域提供了有力的技术支撑。以军事侦察领域为例,近年来,随着科技的发展,无人机已经成为重要的军事侦察工具,对军事基地等敏感区域的安防造成了极大的威胁。因此,开展目标跟踪技术研究,实现对飞行器的有效监管和必要的反制,对于提升军事战场中的竞争力具有重要意义。

近年来,深度学习方法推动了计算机视觉领域的技术革新,为目标跟踪技术注入新的动力[1-6]。然而,现有跟踪算法在实际应用环境中依旧面临着复杂的考验,这些算法不仅受到遮挡、光照变换等外在因素的影响,也受到目标外观形变、运动模糊等内在因素的困扰,导致跟踪过程中跟踪框发生漂移,严重影响了对目标位置信息的判断。因此,如何实现对目标准确、稳定的跟踪,是亟待解决的问题。

Bertinetto等[7]提出的全卷积孪生网络算法SimaFC将视频序列初始帧作为模板,根据待跟踪帧中目标与模板帧的相似性定位目标;通过此种方式完成对模型的离线训练后,不对模型进行在线更新。因此,SiamFC算法在速度上优势显著,极大程度上满足了跟踪任务的实时性要求。Valmadre等[8]将相关滤波嵌入SiamFC算法中,为相似跟踪问题提供了一种端到端的解决方案。Li等[9]利用目标检测的思想将跟踪任务转化为定位目标和尺度预测两个任务的结合,取得了优异的性能。Zhu等[10]引入光流特征,丰富了对目标外观运动信息的描述。Zhang等[11]从网络结构层面分析影响跟踪精度和算法鲁棒性的原因,设计了可供优化网络结构的残差子模块。

以上算法在SiamFC算法的基础上进行改进,性能有较大提升,但仍存在一定缺陷。一方面,一些算法始终采用第1帧中的先验信息作为模板,不对其进行更新,或使用固定学习率的方式对模板进行线性更新,难以对目标在连续时间内的外观变化建模,忽略了目标外观变化在前后帧之间的时间连续性;另一方面,神经网络中采用的卷积特征感受野有限,更侧重于关注邻近位置的关联,缺乏对长距离空间关系建模的能力。

为了解决上述问题,本文提出一种融合时空特性的孪生网络跟踪算法。在SiamFC算法基础上,从3个层面对其进行改进:引入时间注意力模块,获取视频序列时间关联特性,计算历史参考帧与视频序列初始帧的相似性,生成时间注意力权重,自适应地对目标运动信息进行补充;通过空间注意力模块,获取不同区域之间长距离空间位置对应关系,从全局范围内定位目标位置;采用Focal Loss函数对网络进行离线训练,平衡正负样本比例,发掘困难样本,提升算法的判别能力。实验验证结果表明,本文算法有效提高了SiamFC算法的跟踪精度与稳定性。

1 融合时空特性的孪生网络视觉跟踪算法

融合时空特性的孪生网络视觉跟踪算法框架如图1所示,本文算法沿用SiamFC算法的相似性匹配框架,网络共有上下两个分支:上方分支中,第t-1帧至第t-T帧为历史参考帧,其中,t为待跟踪序列帧,T为历史参考帧数目。利用卷积神经网络φ分别提取第t-1帧至第t-T帧特征,并输入至时间注意力模块,输出时间注意力特征。随后,利用空间注意力模块,获取空间注意力特征。结合时间注意力特征和空间注意力特征,得到最终融合模板特征。下方分支中,利用特征提取网络φ,获取其特征,并与上方分支输出的融合模板特征进行相关度计算,将相关度得分最高的点映射至待跟踪序列帧中,对应图像区域即为目标所在位置。下面详细描述本文算法的原理和实现步骤。

图1 融合时空特性的孪生网络架构图Fig.1 Architecture of siamese network with temporal-spatial properties

1.1 全卷积孪生跟踪网络

SiamFC算法采用了一种孪生网络结构,具有两个输入,每个输入采用相同的网络结构对输入图像进行特征提取,最后通过相似度量函数比较两个特征的相似性,具体表示为

(1)

式中:f(·)为相似度量函数;z为视频序列第1帧中提取的模板图像;x为待跟踪帧中搜索图像;φρ(z)为由主干网络φ(·)提取到的模板图像特征,ρ为网络参数;φρ(x)为提取到的搜索图像特征。

SiamFC算法中的特征提取网络参考了AlexNet[12]的网络结构,共使用5层作为特征提取网络,网络结构轻便,参量较少,取得了近80帧/s的速度,满足了跟踪任务的实时性需求。经过离线训练,处理一般的跟踪任务时取得了良好的跟踪精度,但当目标自身发生快速运动以及目标附近发生相似性干扰时跟踪算法精度下降,甚至发生漂移。分析其原因,有以下3种:跟踪过程中始终不对模板进行更新,目标外观与初始帧相比发生较大变化时,相似性匹配结果受到严重影响;基准特征提取网络中卷积核更关注像素间的邻域关系,感受野范围有限,缺乏获取全局信息的能力;训练集中正负样本数目不平衡,且简单样本的比重较大时,对于算法判别能力提升有限。通过对SiamFC算法不足之处的分析,本文将从上述三方面入手,对SiamFC算法进行改进。

表1展示了本文算法与SiamFC算法部分对比实验结果(OTB2015[13]数据集中Tiger2序列、VOT2016[14]数据集中Bmx序列的跟踪结果可视化)。由表1可见,SiamFC算法对于跟踪目标的响应范围有所偏差,而本文算法响应区域范围更准确,有效提升了SiamFC算法的精确度。

表1 本文算法与SiamFC算法跟踪结果可视化对比

1.2 时间注意力模块

目标外观在视频序列中随着自身运动状态的改变而变化,在以往的跟踪算法中,仅通过一个固定模板难以描述一段时间内目标外观的连续变化。在当前帧中判别力较强的样本在长时域后可能不具有很强的参考价值。因此,本文构建了一个动态模板特征,通过引入时间注意力模块完成多个参考模板的自适应特征融合,扩充跟踪目标特征空间的多样性,有效应对跟踪过程中目标外观发生的各种变化,进而可以改善SiamFC算法中模板更新不足导致的跟踪失败问题。时间注意力模块结构如图2所示。

图2 时间注意力模块Fig.2 Temporal attention module

(2)

式中:wi为对应参考帧的融合权重,参考帧权重与其对模板的贡献呈正相关;φi为第i幅参考帧的特征。由于初始帧中含有的目标外观信息较为全面,对于目标被遮挡或发生运动模糊等情况下具有一定参考价值。因此,采用余弦函数逐一计算参考帧特征与初始帧特征的相似程度,与初始帧特征相似度更高的参考帧特征会具备更大的融合权重,计算得到权重结果后,对其进行归一化:

(3)

式中:φ0为视频初始帧图像特征。在跟踪过程中,随着参考帧模板的不断更新,根据(1)式~(3)式可以实现融合权重的自适应赋值,进而获取含有时间特性的模板特征。

由此可见,时间注意力模块通过引入视频序列初始帧作为参考,减弱了在跟踪过程中算法受累积误差的影响,因此可以提供可靠的自适应权重,进而提升模型对于相似物体的判别能力。

1.3 空间注意力模块

图3 空间注意力模块Fig.3 Spatial attention module

(4)

(5)

式中:⊕表示按位加;⊗表示按位乘。

使用空间注意力模块可对目标外观特征的长期变化建模,扩大了感受野,提升了算法对于全局特征的感知能力。使用该模块获取的空间关系可以与时间注意力模块中得到的时间关联互补,使目标外观特征表达更加全面。

至此,通过上述步骤,得到最终的模板特征φ(z),对搜索特征φ(x)与模板特征φ(z)作相关运算,选取最大值所在位置,即为跟踪结果。

1.4 损失函数

在跟踪任务中,离线训练数据集中正负样本的分布会影响算法的表现,正负样本数目的不平衡,会影响模型判别能力。大量的简单负样本占据了更大的误差比重,反向传播过程中对梯度计算影响较大,致使模型对困难样本的判别能力下降。为了改善这一情况,在离线训练阶段,本文采用Focal Loss[16]函数作为损失函数,平衡正负样本的比例,以提升SiamFC算法在相似性干扰等复杂场景中的性能。在离线训练阶段,采用的损失函数L形式为

(6)

式中:χ为平衡正负样本的平衡因子;P为预测样本为正样本的概率;γ为调节简单负样本与困难负样本比重的调制因子;y为样本标签。通过设置平衡因子χ与调制因子γ,可以提升对困难负样本的判别能力,从而提高网络的泛化能力。

2 实验结果与分析

本文算法在训练过程中通过配置11GB显存的Nvidia GeForce 1080Ti GPU,16GB内存的计算机实现。使用GOT10k[17]数据集离线训练网络参数,训练过程迭代50个周期,初始学习率设置为0.01,随迭代周期逐步降至0.000 1,T设置为3.特征提取网络φ结构如表2所示。时间注意力模块由3个卷积层构成,分别为1×1×128、3×3×128、3×3×512;空间注意力模块的网络结构为1×1×128、1×1×128、1×1×128.在离线训练阶段,损失函数L中参数χ=0.25,γ=2.为了验证本文算法的有效性,利用OTB2015数据集与VOT2016数据集对算法进行评估。

表2 特征提取网络结构

2.1 OTB数据集跟踪结果

OTB2015数据集包含了由100组视频抽取而成的图像序列,并以11种属性标注了这些序列所包含的挑战,分别为光照变化、背景干扰、运动模糊、快速运动、遮挡、目标形变、超出视野、低分辨率、平面内旋转、平面外旋转。对比算法选取HDT算法[5]、SiamFC算法[7]、CFNet算法[8]、ECO算法[18]、DSST算法[19]、KCF算法[20]、SRDCF算法[21]7种算法。利用OTB2015数据集,采用精确度与成功率两个指标对以上7种算法的性能进行评估。精确度描述了跟踪框与真实位置的偏离程度,计算跟踪框中心点与标注框中心点的距离小于给定阈值的帧数目在所有视频序列帧所占比例,阈值设置为20个像素。成功率得分为跟踪成功的帧数与总帧数的比值,其计算公式为score=area(A∩B)/area(A∪B),score表示得分,area表示面积,A表示由跟踪算法绘制的跟踪框,B表示视频真实标注框,通常二者都由矩形标注,通过计算估值、真值交集与并集的比值,取值范围为(0,1)。预设阈值δ=0.5,若score>δ,则认为算法成功跟踪指定目标。不断改变δ的值,可获得整段视频序列成功率曲线,通过比较各个算法的曲线下面积,可以实现对所有对比算法的排序。

图4展示了所有算法的精确度曲线和成功率曲线。由图4可见:本文算法在精确度指标上取得了80.6%的成绩,较基准SiamFC算法提升了2.6%,在所有算法中位列第3名;本文算法成功率成绩为76%,较SiamFC算法提高了3.2%,整体排名第2名。表3和表4分别列举了所有算法在11个视频属性上的精确度和成功率得分,其中,每种属性最优得分用红色字体表示,次优得分用蓝色字体表示,其他得分用黑色字体表示。由表3和表4可见,在11个属性中,本文算法较SiamFC算法均有一定程度的提升,并在快速运动、运动模糊、低分辨率、平面外旋转等属性取得最好成绩。

图4 OTB2015数据集跟踪结果Fig.4 Tracking results of OTB2015 benchmark

表3 OTB2015数据集视频属性准确率得分

表4 OTB2015数据集视频属性成功率得分

为了更直观地展示所有算法的跟踪效果,选取OTB2015数据集中具有代表性的视频序列进行展示,利用不同颜色矩形框对不同算法加以区分,所有算法跟踪结果如表5所示。

按照视频序列属性进行分类,下面从3个角度对实验结果进行分析。

1) 背景相似干扰及遮挡。表5中Basketball序列测试算法应对背景相似性干扰的能力。所有算法在前期均可以实现对目标的准确跟踪,但在视频序列中后期结果产生分化。分析其原因,由于SiamFC算法不对模板进行在线更新,且在离线训练阶段没有对困难样本进行标注,导致跟踪失败。表5中Tiger2序列主要考验算法处理遮挡问题的处理能力,大多数算法都可以覆盖跟踪目标,仅有部分算法精度欠佳。

2) 光照及尺度变化。表5中的Shaking序列描述了目标在不同光照环境下的状态变化,这一变化过程同时伴随着尺度变化、旋转变化等复杂挑战。实验结果表明,KCF、SRDCF及SiamFC算法不能很好地应对此场景,发生了目标跟丢,而其他算法则很好地完成了这一挑战。表5的Trans序列中,目标经历了光照变化、外观形变以及较大程度的尺度变化等多重挑战。序列开始至46帧时所有算法均能够定位目标,随后目标发生旋转并驶入光照较暗区域,各算法逐渐偏离目标中心,至121帧时结果分化较为严重,大多数算法均发生偏离,仅本文算法可以定位目标中心位置,但尺度信息不够准确。

3) 旋转及快速运动。表5的Dragonbaby序列跟踪过程中,目标与场景中的其他物体进行互动,过程中目标相对于镜头的角度发生较大变化,本文算法、SiamFC及HDT算法均能够定位目标,其他算法则发生较大程度偏离。表5的Motorolling序列中目标运动时速度较快,且运动幅度较大、画面出现模糊。只有融合了多幅参考帧特征的本文算法以及结合了浅层和深层特征信息的HDT算法可以实现准确跟踪。

2.2 VOT2016数据集跟踪结果

VOT2016数据集包含60组视频序列,并对所有序列加以标注,分别为相机抖动、光照变化、位移模糊、遮挡、尺度变化。VOT2016数据集采用的评价指标有:1)精确度,描述预测框与真实标注框之间的覆盖情况,数值越大,准确度越高;2)鲁棒性,统计跟踪算法丢失目标的次数,数值越小,算法鲁棒性越好;3)预期平均覆盖率(EAO),计算跟踪算法在同一视频序列非重置重叠区域的期望。此外,VOT2016数据库在评测算法时,采用了跟丢重新启动机制。如果某一帧中检测到跟踪器完全覆盖不到目标,则5帧之后将利用真实值重新初始化算法。

表5 OTB2015数据集实验对比结果

在VOT2016数据集实验验证环节,选取KCF、SRDCF、DCFNet[22]、MEEM[23]、ANT[24]、BACF[25]、SiamVGG[26]、SiamFC、DSST等经典算法与本文算法进行对比,所有算法测试结果的EAO曲线及EAO得分分别如图5、图6所示。由图5和图6可见:本文算法在VOT2016数据集整体表现逊色于SiamVGG算法,与SRDCF算法性能相近,在所有对比算法中位列第3名;10种算法在VOT2016数据集的精确度得分和鲁棒性得分如表6和表7所示,其中数据每项指标最优成绩用红色字体表示,次优用蓝色字体表示,其他则用黑色字体表示。由表6和表7可见,无论是准确度还是鲁棒性,本文算法较基准算法均有提升,表明时间注意力和空间注意力的引入能够有效提升算法在复杂场景下的跟踪性能。

表6 10种算法在VOT2016数据集上不同视频属性精确度得分

2.3 飞行器目标侦察仿真测试

为了检验本文算法在军事领域的有效性,选取LASOT数据集中的Airplane9、Airplane18、Airplane19序列,以对飞行器的跟踪来模拟对无人机的跟踪,测试结果如表8所示。所有测试序列中,飞行器由地面飞向高空,飞行高度不断发生变换,飞行过程中多次发生旋转运动,且在空中呈现了多种飞行姿态。该项仿真测试展示出的主要挑战有:在飞行器经历光照、场景转换等外部环境变化(Airplane 9序列);飞行器在云层中穿梭,飞行过程中被云雾遮挡,能见度较差,且目标外观与场景区分程度较小(Airplane 18序列);飞行器运动过程中拍摄的视角发生改变,外观变化程度较大,且受到外界环境的影响,摄像头抖动等因素导致成像质量较差(Airplane 19序列)。

表8 飞行器跟踪仿真测试

仿真测试结果表明,本文算法能够很好地应对旋转运动、光照变换等挑战,实现对飞行器持续准确地跟踪,具备应用于军事领域无人机侦察任务的能力。

3 结论

本文对视频序列中存在的快速运动和相似性干扰问题进行了研究,在SiamFC算法基础上,提出一种融合时空特性的孪生网络视觉跟踪算法。采用OTB2015、VOT2016数据集对本文算法性能进行验证,同时选取仿真军事侦察任务的飞行器视频序列进行测试,与多个经典目标跟踪算法进行了对比。得出以下主要结论:

1) 通过引入时间注意力模块,充分利用初始帧信息融合多幅参考帧,构建具有时序关联的匹配模板,提升了算法对近似目标的判别能力。

2) 利用空间注意力模块优化空间特征,增强感知全局信息的能力,提升了模型准确定位目标的能力。

3) 使用Focal Loss函数作为网络训练阶段的损失函数,提升了算法处理不平衡样本的能力。

猜你喜欢
模板注意力样本
高层建筑中铝模板系统组成与应用
铝模板在高层建筑施工中的应用
让注意力“飞”回来
特高大模板支撑方案的优选研究
Inventors and Inventions
规划·样本
人大专题询问之“方城样本”
随机微分方程的样本Lyapunov二次型估计
A Beautiful Way Of Looking At Things
“官员写作”的四个样本