在线目标分类及自适应模板更新的孪生网络跟踪算法

2021-08-28 10:08陈志旺张忠新宋娟雷海鹏彭勇

通信学报 2021年8期

陈志旺，张忠新，宋娟，雷海鹏，彭勇

（1.燕山大学工业计算机控制工程河北省重点实验室，河北秦皇岛 066004；2.国网黑龙江省电力有限公司佳木斯供电公司，黑龙江佳木斯 154002；3.燕山大学电气工程学院，河北秦皇岛 066004）

1 引言

视觉对象跟踪是计算机视觉任务的一个主要分支，具有重要的理论研究意义和应用价值，在车辆视觉导航系统、智能人机交互、智能视频监控系统和智能交通等方面具有广泛应用。简而言之，视觉对象跟踪旨在给定任意感兴趣目标在某一视频图像序列的第一帧中位置和形状信息的前提下，在后续帧中预测被跟踪目标的实际位置和形状大小。

解决视觉对象跟踪问题的方法主要可以分为两类：生成式跟踪算法和判别式跟踪算法。生成式跟踪算法在当前帧中对目标区域进行建模，在下一帧中寻找与模型匹配最相似的区域，从而确定该区域为预测目标位置。判别式跟踪算法将目标跟踪问题转化为一个关于目标和背景的二分类问题，通过训练一个分类器以将目标与背景区分开，从而找到预测目标位置。近年来，随着深度学习的发展，由于基于深度学习的判别式跟踪算法通过深度卷积神经网络学习到的特征具有很强的辨别性并且具有稳健的效果，因此判别式跟踪算法逐渐成为视觉对象跟踪领域中的主流方法。

判别式跟踪算法中具有代表性的是基于相关滤波类跟踪算法。其首先在第一帧中提取模板目标图像特征作为滤波器模板；然后利用后续帧的图像与滤波器模板做相关性卷积，计算后续帧图像不同部分的响应值；最后将具有最大响应值对应的部分作为跟踪的结果，使目标跟踪算法在跟踪精度和速度上均获得了显著提升。其中，比较典型的算法包括最小均方误差输出和（MOSSE,minimum output sum of squared error）滤波器[1]、基于核相关滤波器（KCF,kernelized correlation filter）[2]的目标跟踪算法、空间正则化的判别式相关滤波器（SRDCF,spatially regularized discriminative correlation filter）跟踪算法[3]、基于有效卷积运算目标跟踪（ECO,efficient convolution operator for tracking）算法[4]。

除了相关滤波类跟踪算法，随着深度学习技术的发展，基于孪生网络的跟踪算法由于其在保证实时速度运行的前提下在各种基准跟踪数据集测试中处于领先地位而受到了广泛关注。最先提出的基于孪生实例搜索的目标跟踪（SINT,Siamese instance search for tracking）[5]算法和基于全卷积孪生网络的目标跟踪（SiamFC,fully-convolutional Siamese networks for object tracking）[6]算法使用孪生网络学习目标对象和候选图像块之间的相似性度量，从而将跟踪建模为在整个图像上搜索目标对象的问题，并由此衍生出一系列基于孪生网络的跟踪算法，例如，在SiamFC 算法的基础上引入区域提议网络（RPN,region proposal network）的基于区域提议网络的目标跟踪（SiamRPN,high performance visual tracking with Siamese region proposal network）[7]算法，它由用于前景-背景估计的分类网络和用于锚点边界框修正的回归网络（即学习与预定义锚点边界框的2D 坐标偏移量）组成，允许使用可变宽高比的边界框估计目标位置和目标尺寸，从而获取一个更加准确的边界框。随后，基于干扰物感知的孪生网络跟踪（DaSiamRPN,distractor-aware Siamese network for visual object tracking）[8]算法进一步引入了干扰物感知模块，并提高了模型的辨别能力。基于更深和更宽网络的孪生网络跟踪（SiamDW,deeper and wider Siamese network for real-time visual tracking）[9]算法分别在SiamFC、SiamRPN 的基础上，通过在更深的残差网络（ResNet）、更宽的Inception 网络中引入残差块内部裁剪（CIR,cropping-inside residual）单元，进一步提高了跟踪的准确性和稳健性。基于深度网络的孪生网络跟踪（SiamRPN++,evolution of Siamese visual tracking with very deep network）[10]算法在SiamRPN 的基础上，使用更深的特征提取网络ResNet50 代替AlexNet，并且加入多层融合的策略，使用逐通道互相关操作代替SiamFC 中简单的互相关操作，从而带来更高的跟踪精度。能够进行目标分割的在线孪生网络跟踪（SiamMask,fast online object tracking and segmentation:a unifying approach）[11]算法将目标跟踪和视频语义分割统一起来，在进行目标跟踪的同时，对被跟踪目标生成一个二进制掩模，进而得到一个自适应掩模的预测边界框，大幅提高了跟踪的准确性。

虽然上述基于孪生网络的跟踪算法均取得了当时最优的性能，由于其均只使用离线训练的方法，因此存在一定的局限性。1) 基于孪生网络的跟踪算法忽略了跟踪过程中的背景信息，导致其在面临相似性干扰的情况下判别能力较弱；2) 基于相关滤波器的跟踪算法[11]通过使用手工制作的特征和预先训练得到的用于对象分类的深层特征来学习对象外观的在线模型，相对而言，在基于孪生网络的跟踪算法中使用在线学习机制的思想受到的关注较少；3) 基于孪生网络的跟踪算法仅使用第一帧作为模板帧，或者仅通过移动加权平均法更新模板帧，导致其在被跟踪目标发生巨大形变、旋转和运动模糊的情况下跟踪性能变差，在进行目标回归时，稳健性较差，容易跟丢目标。另外，基于孪生网络的目标跟踪算法使用互相关性特征图来度量模板帧特征和检测帧局部特征的相似性，从而确定跟踪目标的位置，理想的互相关得分图的尖峰位置即为被跟踪目标的实际位置。通过离线训练学习到好的特征表征进而产生一个好的互相关得分图，使跟踪算法获得更好的跟踪效果，这也是SiamFC 算法真正有效的原因，而一些基于孪生网络的跟踪算法背离了这个初衷，离线训练学习到一个扭曲的特征图，因此限制了其跟踪性能的提高。

2 算法描述

本文算法以SiamRPN++算法为基础，引入一种在线更新机制。该在线更新机制包括具有判别性的在线目标分类模块和有效的自适应模板更新模块，提出在线目标分类及自适应模板更新的孪生网络跟踪算法。整体框架如图1 所示，主要包括特征提取模块、SiamRPN 模块、分类互相关特征图监督模块、在线目标分类模块和自适应模板更新模块。

2.1 特征提取模块和SiamRPN 模块

本文将SiamRPN++算法作为基准算法，特征提取模块仍然沿用SiamRPN++使用的、修改后的ResNet50 网络，SiamRPN 模块的使用也与SiamRPN++算法保持一致。基于孪生网络的目标跟踪算法使用互相关操作将目标跟踪问题表述为模板匹配问题，通过学习一个嵌入式空间φ(·)（如图1中的特征提取模块所示）来计算待搜索区域中能够最佳匹配目标模板的位置，如式(1)所示。

其中，分支φ(z)为学习目标模板帧z的特征表示，分支φ(x)为学习检测帧x的特征表示，并且这2 个分支φ(·)的网络参数权重是共享的；b为表征相似性度量值的偏置量，*为互相关操作，M表示mathing阶段。

在式(1)基础上，SiamRPN++算法使用区域候选网络头（如图1 中RPN_head 所示）中的hcls[·] 和hreg[·]分别独立地预测目标位置和回归预测边界框，如式(2)所示。

图1 在线目标分类及自适应模板更新的孪生网络跟踪算法整体框架

其中，φcls(·) 和φreg(·) 等同于式(1)中的φ(·)，分别用于学习目标模板帧z和检测帧x的特征表示；均为4 维向量，存储了各个预定义锚点框的目标/背景得分信息，存储了相对于预定义锚点框中心点位置的坐标偏移量以及预定义锚点框与真实目标框的宽高比例信息。本文采用和 SiamRPN[7]、SiamRPN++[10]一致的候选边界框筛选策略，得到更加可靠的目标/背景得分信息，根据使用非极大值抑制（NMS,non maximum suppression）找到得分最高的预定义锚点框（如图1 的跟踪结果1 中边界框所示），从中选择得到对应锚点框中心点的坐标偏移量(dxreg,dyreg)以及该锚点框与真实目标框的宽高比例信息(dwreg,dhreg)，在此基础上，对得分最高的预定义锚点框进行边界框坐标回归，如式(3)所示，进而得到最终的目标预测边界框（如图1 的跟踪结果2 中边界框所示）。

2.2 分类互相关特征图监督模块

基于孪生网络的目标跟踪算法使用互相关特征图来度量模板帧特征和检测帧局部特征的相似性，从而确定跟踪目标的位置，理想的互相关特征图的尖峰位置即为被跟踪目标的实际位置，这也是SiamFC 真正有效的原因。SiamRPN++中的区域提议网络可以看作一个修正网络，因此，如果通过网络可以学习到一个好的互相关特征图，那么经过RPN 模块修正就会得到一个更好的响应得分图。互相关特征图与RPN 特征图如图2 所示。由于SiamRPN++采用多层融合的策略，对经过3 个RPN 模块的输出值附加相应的权重值，从图2 可以发现，SiamRPN++中互相关特征图（如图2 中互相关特征图所示）与经过RPN 模块修正之后的得分图（如图2 中RPN 特征图所示）并不是简单的正相关关系，这与3 个RPN 模块对应的权重值有关。在训练过程中，这3 个权重值也需要通过训练学习得到，并且这3 个权重值的学习变化会使整个跟踪框架中的参数学习问题变得复杂。因此，本文舍弃了多层融合的策略，直接选用来自特征提取模块的单层输出特征，受ta-SiamRPN++的启发，layer4 的输出值对跟踪效果影响较大[12]，因此本文只选用layer4。3.3.1 节实验证明，使用单层输出特征取得了比SiamRPN++使用多层输出特征更好的跟踪效果。为了得到理想的互相关特征图，本文采用对互相关特征图进行监督的策略，从而有利于克服相似干扰。

图2 互相关特征图与RPN 特征图对比

2.2.1 监督标签的设定

设监督标签与SiamRPN 模块设定的真实标签保持一致，定义为

G(i,j)=1 代表该位置至少存在一个锚点框与真实边界框的交并比（IoU,intersection over union）值大于0.6，即判别该位置为正；G(i,j)=0代表该位置所有锚点框与真实锚点框的IoU 值均小于 0.6，即判别该位置为负。IoU=，其中，Banchor为锚点的边界框，Bgroundtruth为目标的真实边界框。

2.2.2 L-softmax 损失函数

交叉熵损失和归一化指数函数（softmax）是卷积神经网络（CNN,convolutional neural network）中最常用的计算机视觉数学工具之一，而大裕度归一化指数损失函数（L-softmax,large-margin softmax loss）[13]是一种改进的softmax 分类方法，可以提高类间可分离性和类内紧凑性。此外，L-softmax 不仅可以调整所需的裕度，而且可以避免过度拟合。因此使用L-softmax 损失函数代替传统的交叉熵损失函数。

定义第i个输入特征xi对应标签值yi，传统的交叉熵损失为

其中，N为样本集合的大小；fj为类别得分f中的第j个元素值，j∈{0,…,J}，J为类别的数量，本文用于二分类判别任务，J=1，j∈{0,1}；标签值yi∈{0,1}。在目标分类任务中，f通常为全连接层W的输出值，所以，其中，Wj为W的第j列，fyi为第i个输入特征xi对应标签值yi处的类别得分值。由于fj为Wj和xi的内积，因此，其中，θj∈[0,π]为Wj与xi之间的矢量夹角，由此可得

跟踪问题实际解决的是跟踪目标的判别问题（目标为正样本，非目标为负样本），因此可以将该问题归结为二分类问题，假设样本xi为正样本，原始的softmax 函数中需满足，其中W+和W-分别为将样本xi训练为正、负样本学习得到的权重）。

如图3 所示，L-softmax 为了使正负样本之间存在一个决策裕度，即，其中，θ+∈[0,π/m]；m为与决策裕度密切相关的整数。所以必然满足

图3 2 种决策边界对比说明

式(7)中的分类标准是对样本xi进行正确分类予以更严格的要求，从而为正样本与负样本之间产生更严格的决策边界。

引入决策裕度后，L-softmax 损失函数定义为

其中，m越大，决策裕度越大，目标函数的学习越难；应该单调递减并且。为了简化前向和反向传播的计算，文献[13]将定义为

可以看出，L-softmax 在原来的基础上附加满足更严格的约束条件式(7)，对输出预测值fyi进行优化。在训练过程中，L-softmax 存在难以收敛的问题[13]，采用一种学习策略使式(12)成立。

由于实际的跟踪问题采用与目标检测任务不同的框架，因此需要对L-softmax 进行如下调整。将检测分支得到的特征图φcls(x) 作为式(8)中的xi，将模板分支得到的特征图φcls(z)作为式(8)中的Wj，则对于L-softmax，Wj、xi都已经是固定的参数，而Wj、xi也是特征提取网络F、调整（adjust）层、卷积（conv）层学习后的结果，所以最终是通过前面各个卷积层的学习，使Wj、xi满足一定的目标或者条件，即式(5)最小原则。

从图2(e)可以发现，对互相关特征图进行监督后，互相关特征图中的目标区域具有较高的响应，并且在此基础上，使用RPN 模块进行修正，得到了一个更好的响应得分图；滤除了目标周围的相似干扰；在VOT2018 数据集上取得了比SiamRPN++更好的效果。

2.3 在线目标分类模块

在线目标分类模块主要包括3 个子模块，如图4 所示。

图4 在线分类模块

1) 压缩子模块，用于减少来自特征提取模块的特征通道数，使用1×1 的卷积层加以实现，从而使其更适用于分类任务，也减少了相应的计算量。

2) 注意力子模块，用于解决原始特征在空间位置和各个通道之间的数据失衡问题，以提取特定于当前目标的特征。经过离线训练得到卷积特征φcls(x)并且在实际的跟踪过程中固定卷积层φcls的权重参数，提取得到的卷积特征φcls(x)并不针对某个特定的被跟踪对象，而是提取目标的通用特征。直接使用原始特征，相对于正样本（即目标区域）而言，负样本（即图像中的背景区域）所占比重大于正样本所占比重，导致所有负样本置信度得分的拟合将主导在线学习；另外，只有很少的卷积核在构造每个特征模式或对象类别时发挥重要作用[14]。原始特征在空间位置和各个通道之间的数据失衡都会降低模型的判别能力，基于以上问题，本文引入双重注意力机制（空间注意力机制和通道注意力机制，如图4 中sζ、cζ所示）[15]，sζ代表对每个二维空间位置平均池化后，由softmax 操作形成的二维空间注意力特征图，用于特征图位置权重的获取；cζ代表对每个通道进行平均池化之后经由2 个全连接层（包含激活函数）形成的通道注意力特征图，用于特征图通道权重的获取，最终提取到特定于当前目标的特征，从而将目标和搜索区域中的其他干扰物区分开。

3) 滤波器子模块，用于在线学习实际跟踪过程中的滤波器参数更新，使用卷积核大小为4×4 的卷积层加以实现，以抑制在线跟踪过程中的背景噪声。Da-SiamRPN[8]中指出，即使提取到能对干扰物感知（特定于当前目标）的特征，基于孪生网络的跟踪算法在跟踪过程中也容易被相似物体干扰。产生这种现象的一个更深层次的原因在于，没有执行在线权重更新来抑制在线跟踪过程中存在的背景噪声。因此，本文引入在线更新的滤波器子模块，以抑制在线跟踪过程中的背景噪声。

图4 中的压缩子模块和注意力子模块主要用于提取对当前被跟踪目标的特定特征，因此只需要在给定图像序列的第一帧中进行参数更新，在后续的跟踪过程中该参数保持不变以确保跟踪的稳定性。利用提取得到的特定于当前目标的特征来优化后续帧中的滤波器子模块，以抑制跟踪过程中的背景噪声。3.3.2 节实验验证了在线分类模块的有效性。

在线分类模块的参数求解可看成一个优化问题，可通过求解以下优化目标来获取。

针对式(13)的在线学习优化问题，本文沿用ATOM[16]中的牛顿-高斯下降法代替传统的随机梯度下降（SGD,stochastic gradient descent）作为优化策略，将式(13)重新定义为残差向量的平方范数形式

获得fC后，使用三次插值将其调整到与SiamRPN 模块中的分类得分相同的空间大小，然后，通过加权求和将它们融合在一起，得出在线目标分类得分，可以表示为

其中，βC为2 种分类分数的加权系数值。

2.4 自适应模板更新模块

2.4.1 经典的模板更新策略

一些跟踪方法（如Da-SiamRPN[8]、SiamMargin[17]）使用一种简单的移动平均策略基于给定的跟踪样本更新目标外观模型，目标模板作为滑动平均值进行更新，权重随着时间的增长呈指数衰减。选择合适的指数权重，可以得出用于更新模板的后续递推式为

其中，i为第i帧图像；Ti为使用第i帧计算得到的新模板帧；为累积模板；η为更新率，通常设置为一个固定的较小值（如η=0.01），假设对象的外观在连续帧中平稳且持续地变化。在基于孪生网络的跟踪算法中，T是由特征提取网络从特定帧中得到的目标外观模板。尽管原始的SiamFC 跟踪算法[6]和一系列基于孪生网络的跟踪算法[7,9,11]不执行任何目标模板更新，但较新的孪生网络跟踪器[8,17]已采用式(16)来更新目标模板信息。

虽然模板平均方法为整合新信息提供了一种简单的方法，在大多数跟踪情况下，这种更新机制是不够的，存在以下几个缺点。1) 目标对象可能会因变形、快速运动或遮挡而出现外观变化，从而使更新的条件不同，但它为每个图像序列应用了恒定的更新速率。即使在同一视频中，目标模板上所需的更新也可能在不同时间动态变化。2) 固定的更新策略还导致对象模板更集中于最近的帧，而遗忘了被跟踪目标的历史外观信息。3) 沿目标模板的所有空间维度（包括通道维度）的更新是恒定的。被跟踪目标面临部分遮挡情况下，仅需要更新模板中的一部分，这种更新策略并不有效。4) 跟踪算法无法在目标漂移后重新跟踪目标。部分原因是它无法访问目标的原始外观模板T0，而外观模板T0是唯一给定目标信息真实可靠的模板。目标模板更新后的特征仅限于先前帧目标外观模板和当前帧目标外观模板的简单线性组合，其严重限制了更新机制的灵活性，这在目标进行复杂外观变化时很重要，因此考虑更复杂的组合功能有望改善跟踪结果。

2.4.2 自适应模板更新策略

为了解决上述移动平均策略出现的问题，本文通过学习通用的函数φ来更新目标模板。

图5 展示了在基于孪生网络的跟踪算法上使用UpdateNet 来自适应更新目标模板信息的整体框架。本文使用图1 中的φcls提取得到目标区域的深层特征信息。首先，根据第一帧给定的目标真实边界框信息提取得到第一帧目标模板特征。为了获得当前帧的模板特征Ti，使用之前所有帧的累积模板特征为上一帧中UpdateNet 的输出值）来预测第i帧中目标位置（如图5 中虚线箭头所示），并且提取得到目标区域的特征信息Ti（如图5 中最下部实线箭头所示）。将第一帧目标模板特征、当前帧的模板特征Ti、上一帧的累积模板特征级联并送入UpdateNet。对于第一帧，将和Ti均设置为。UpdateNet 唯一使用的真实信息是第一帧给定的目标边界框信息，其他所有UpdateNet 的输入全部基于跟踪算法预测得到的目标边界框信息。可以说，是指导更新UpdateNet 最可靠的信息来源，因此，采用残差学习策略，通过从向UpdateNet 的输出添加跳连接的方式使UpdateNet学习如何修正真实目标模板特征，并将其应用于当前帧的跟踪。具体的UpdateNet 的训练细节可以参考文献[18]和3.2.2 节中关于UpdateNet 的具体参数设置。

图5 UpdateNet 的整体框架

UpdateNet 通过整合当前帧给出的信息来更新上一帧累积得到的目标模板。因此，基于当前帧目标模板和累积目标模板之间的差异，UpdateNet能够自适应当前帧的特定更新需求。此外，UpdateNet 还考虑了初始目标模板，从而提高了抵抗目标模板漂移的稳健性。

3 实验

本节采用VOT2018[19]、VOT2019[17]作为实验数据集。VOT2018 包含60 个具有精细人工标注的目标跟踪图像序列，含有摄像机运动、光照变化、运动变化、尺寸变化、遮挡5 种跟踪难点。VOT2019是通过替换VOT2018 中跟踪难度较小的20%目标跟踪图像生成得到的，跟踪难度更高。

3.1 实验平台

本节实验均在GPU 为Nvidia GTX 1080ti 的台式机上进行，操作系统为64 位Ubuntu16.04，处理器为Intel core(TM)i7-8700K，主频为3.70 GHz，内存为 32 GB，编程环境为使用 PyTorch 的Python3.7。

3.2 实验参数设置

实际应用过程中，对于不同的数据集需要采用不同的参数设置才能获取更大的性能增益。因此对不同的数据集应设置不同的算法参数，为了提高算法应用适应性，本节给出了具体的超参数搜索算法。

3.2.1 超参数设置

针对数据集VOT2018 和VOT2019，文献[10]中对penalty_k（记为κ）、window_influence（记为αwi）、scale_lr（记为αLR）设置了4 组不同的超参数。

文献[10]采用网格搜索的超参数搜索方法。本文在超参数搜索的过程中发现，这种方法会增加搜索算法的时间复杂度（其时间复杂度为 (3)O n），因而采取一种更加简单的超参数搜索方式，即控制变量法，具体过程如下：固定3 个参数中的2 个，确定剩余的一个参数的搜索区间，在相应的数据集上进行评估，找到性能表现最好的一个参数，再依次按照同样的方法寻优另外2 个参数，最终确定在当前数据集上表现最好的一组参数。这种寻优方式的时间复杂度为O(n)，相比网格搜索法，其时间复杂度大大降低，并且取得了和网格搜索法一致的最优参数组合结果。本文对于数据集VOT2018、VOT2019 设置寻优区间如下：κ为[0.01,0.62)，αwi为[0.01,0.62)，αLR为[0.01,0.62)，寻优步长为0.01。最终找到的效果最好的参数设置如下：对于VOT2018 数据集，设置κ=0.05，αwi=0.38，αLR=0.44；对于VOT2019 数据集，设置κ=0.44，αwi=0.26，αLR=0.44。

3.2.2 其他参数设置

互相关特征图监督模块的参数设置如下：m为4；λ的初始值为 100，衰减系数为 0.99，即λN+1=0.99×λN，其中N为迭代次数。

在线目标分类模块中的参数设置如下：优化训练样本池的大小M=250，训练样本池容量达到250后，用最新得到的帧替换最旧的历史帧进而添加到训练样本池中，其中训练样本权重γj的更新学习率为0.01，当在邻近目标周围检测到干扰后学习率为0.02；在线目标分类模块中的滤波器子模块每10 帧更新一次；为了有效地融合分类得分，令βC=0.8[15]。

自适应模板更新模块的参数设置主要涉及UpdateNet 离线训练的参数设置。参考文献[18]使用LaSOT标准数据集[20]中的20个训练视频图像序列，采用三阶段训练的方式，在第一阶段，在同一视频图像序列中，根据真实坐标边界框裁剪得到和，运行本文提出的跟踪算法（加入分类互相关特征图监督模块和在线目标分类模块，不加UpdateNet，下同）得到每一帧的坐标边界框，并根据其裁剪得到Ti，使；在第二和第三阶段，使用上一阶段训练好的UpdateNet 权重，在同一视频图像序列中，运行本文跟踪算法得到每一帧的预测边界框，并根据其裁剪得到Ti，将Ti一起送入UpdateNet中，得到，其中。UpdateNet 由两层卷积神经网络组成，包括一个1×1×1536×192的卷积层，经过ReLU 激活以及一个1×1×192×512的卷积层；在第一阶段，权重使用Xavier 初始化，在每个epoch，学习率从10-6呈对数下降到10-7；此后，使用上一阶段训练得到的最好模型参数进行初始化。在训练过程中发现，在训练的第二和第三阶段，学习率会不同程度地影响实际的训练效果，因而尝试使用不同学习率的对数衰减区间，依次在VOT2018 数据集上进行测试，进而寻找到最优的学习率衰减区间。在第二阶段，区间依次设定为[10-5,10-6]、[10-6,10-7]、[10-7,10-8]、[10-8,10-9]、[10-9,10-10]、[10-10,10-11]，通过测试发现，学习率的对数衰减区间设置为[10-9,10-10]效果最好。在第三阶段，区间依次设定为[10-7,10-8]、[10-8,10-9]、[10-9,10-10]、[10-10,10-11]、[10-11,10-12]、[10-12,10-13]，通过测试发现，学习率的对数衰减区间设置为[10-11,10-12]效果最好；每个训练阶段使用批次大小为64 的样本训练50 个epoch 的模型，使用动量为0.9、权重衰减为0.000 5 的随机梯度下降法进行训练。其他参数与文献[10]中的参数设置相同。

3.3 对比实验

本节在VOT2018 标准数据集上进行对比实验，评估互相关特征图监督模块、在线目标分类模块、自适应模板更新模块的作用。采用期望重叠率（EAO,expected average overlap）、准确性A、稳健性R、跟丢次数（LN,lost number）、跟踪速度VFPS这5 个评价指标对改进的算法进行评估。

3.3.1 使用互相关特征图监督模块

将SiamRPN++作为基准算法，在此基础上，只使用特征提取网络中layer4 的输出特征，并且加入分类监督模块（CS module,classification supervision module）对互相关特征图进行监督。只使用单层特征，在VOT2018 数据集上取得了比SiamRPN++更好的跟踪结果，结果如表1 所示。

表1 在VOT2018 数据集上实验结果对比

从表1 可以发现，通过对互相关特征图进行监督后在VOT2018 数据集上带来4.1%的EAO 提升。主要原因是算法跟踪稳健性提升，与SiamRPN++算法相比，本文算法跟丢次数减少了8 次。值得注意的是，这里仅仅使用了特征提取网络中的layer4的特征，却取得了比SiamRPN++中layer3、layer4、layer5 三层特征融合策略更好的结果，并且算法跟踪速度明显提升。

3.3.2 使用在线目标分类模块

在SiamRPN++算法的基础上，加入在线分类模块（OC module,online classification module），包括通道压缩子模块、注意力子模块、在线滤波器子模块，实验结果如表2 所示。在VOT2018 数据集上，EAO 提升到0.417，大幅减少了跟丢次数，从SiamRPN++的50 次减少到32 次；跟踪精度也明显提高，从0.601 提升到0.611，提高了1%。在3.3.1 节实验的基础上，加入在线分类模块在VOT2018 数据集上EAO 提升到0.463，比基准算法SiamRPN++提升了11.8%；跟丢次数也进一步减少，从50次减少到30 次，取得了和分类监督模块近似的效果。

表2 在VOT2018 数据集上实验结果对比

进一步设置对比实验，使用VOT2018 数据集作为测试集，验证在线分类模块中各子模块（压缩子模块、注意力子模块、滤波器子模块）的重要性。在3.3.1 节的最佳设置下，依次去除压缩子模块、注意力子模块、滤波器子模块，观察对应子模块的重要性，结果如表3 所示。从表3 可以看出，去除子模块后评价指标EAO 明显下降，跟丢次数增多，说明3 个子模块均对提高算法稳健性、提升EAO有所贡献。其中，滤波器子模块的贡献最大，在去除滤波器子模块后，EAO 从0.463 下降到0.406，性能下降最大，证明了本文算法中在线更新滤波器子模块的重要性，其能有效降低跟踪过程中的噪声干扰，从而提高算法稳健性，并提高跟踪算法整体性能。

表3 在VOT2018 数据集上实验结果对比

3.3.3 使用自适应模板更新模块

在SiamRPN++算法上加入分类监督模块、在线目标分类模块的基础上，进一步加入自适应模板更新模块（TU module,adaptive template update module），在VOT2018 数据集上进行对比实验，结果如表4 所示。从表4 可以看出，EAO 提升到0.471，跟丢次数减少到26 次，算法稳健性进一步提升，取得了更好的跟踪效果。

表4 在VOT2018 数据集上实验结果对比

VOT2019 与VOT2018 得到的结论相同，因此不详细论述。

3.4 实验结果与分析

3.4.1 VOT2018 实验

尽管SiamRPN++算法体现了深度神经网络强大的特征表征能力，但当前某些基于孪生网络的跟踪算法仍然会在面临相似物干扰、完全遮挡和严重形变（如VOT2018 中的hands、liquor、gymnastics3）时表现不佳。本文方法由于引入了在线更新机制，因而在处理上述问题时表现更加稳健，获得了比SiamRPN++算法更好的跟踪结果。

VOT2018 标准数据集包含许多具有挑战性的因素，因此可以被视为在准确性和稳健性方面较全面的测试平台。为了保证实验结果的客观性，对于VOT2018 标准数据集的60 组跟踪图像序列，引入近几年热门并且具有代表性的跟踪算法SiamBAN[21]、DiMP50[22]、SiamFC++[23]、SiamRCNN[24]、ATOM[14]、SiamMargin[17]、ta-SiamRPN++[12]、SiamMask[11]、SiamDW[9]、SiamRPN++[10]、DaSiamRPN[8]、SiamRPN[7]、UpdateNet[18]、SiamFC[6]，采用期望重叠率、准确性、稳健性、跟丢次数、跟踪速度这5 个评价指标对15 种性能优异的跟踪算法进行了性能比较，如表5 所示。

表5 在VOT2018 数据集上实验结果对比

从表5 可以看出，相对于该数据集上进行评测的最新跟踪算法，本文提出的跟踪算法具有良好的性能，以较高的准确性（0.588）和良好的稳健性（0.122），获得了最高的EAO（0.471），保证了算法的稳健性，这主要是因为本文算法中引入了在线更新机制。与基准算法SiamRPN++算法相比，本文算法虽然在准确性上不如SiamRPN++算法，但算法跟丢次数从SiamRPN++算法的50 次大幅度减少至26 次，使跟踪稳健性大幅提高，最终EAO 比SiamRPN++算法提升了13.5%。同时，本文在保证良好跟踪准确性的前提下，延续了基于孪生网络类跟踪算法的高效率，运行速度为34 帧/秒。

3.4.2 VOT2019 实验

同样，本文算法在VOT2019 标准数据集上进行测试与评估。与VOT2018 相比，VOT2019 跟踪难度更高。对于VOT2019 标准数据集的60 组跟踪图像序列，本节引入VOT2019 的实时组中表现较好的跟踪算法SiamMargin、DiMP、SiamBAN、SiamDW_ST[17]、SiamMask、SiamRPN++、ATOM，采用期望重叠率、准确率、稳健性、跟丢次数这4 个评价指标对12 种性能优异的跟踪算法进行了性能比较，如表6 所示。

表6 在VOT2019 数据集上实验结果对比

从表6 可以看出，SiamMargin[17]通过使用对互相关特征图监督的策略和移动平均的模板更新策略实现了较少的跟丢次数。本文算法跟丢次数最少（为59 次），因此本文算法具备较好的稳健性；准确性与SiamMargin 相同，与基准算法SiamRPN++相比有所下降；EAO 从0.285 提升至0.337，性能提升了18.2%。

4 结束语

目前，基于孪生网络的目标跟踪算法只使用离线训练好的网络进行目标的辨识和定位，在处理相似干扰、目标形变时缺乏足够的判别力，往往跟踪的稳健性较差，容易跟丢目标。为解决该问题，本文引入互相关特征图监督模块、在线目标分类模块、自适应模板更新模块。在互相关特征图监督模块中，通过在离线训练阶段使用L-softmax损失函数对互相关特征图附加更严格的约束条件，从而学习到更易区分目标和背景的互相关特征图，使网络学习到的特征更具判别力，有利于克服相似干扰。在线目标分类模块中，压缩子模块用于压缩通道信息、减少计算量；双重注意力（空间注意力和通道注意力）子模块用于提取特定于当前被跟踪目标的特征；在线更新滤波器执行判别式学习，辅助修正离线训练网络提取的特征，从而增强了孪生网络处理干扰物的判别能力。在自适应模板更新模块中，使用UpdateNet 整合第一帧目标模板、累积目标模板和当前帧目标模板的信息，自适应地更新可靠的目标模板信息，以应对目标发生严重形变的问题，并且具备抵抗目标模板漂移的稳健性。在满足实时性速度要求的前提下，利用标准数据集VOT2018 和VOT2019进行测试，相比基准算法SiamRPN++，本文算法分别带来13.5%和18.2%的性能（EAO）提升，证明了本文算法的有效性。