基于注意力机制和孪生网络的跟踪算法研究

2022-12-06 10:31白燕娥

计算机工程与应用 2022年23期

王玲，周磊，王鹏，白燕娥

长春理工大学计算机科学技术学院，长春 130022

近几年随着神经网络研究的深入，目标跟踪算法研究得到了不断的发展，无论是机器人、自动驾驶还是智能监控，都在逐步融入人们的生活。但因目标物体外形变换、光照变化、快速移动、运动模糊、遮挡和复杂相似背景等因素，目标跟踪仍然是一项具有挑战性的工作。

基于深度学习的跟踪器中，Yun等[1]提出ADNet可控跟踪器，通过深度强化学习生成动作序列，跟踪期间进行在线微调，移动或缩放搜索框来获得跟踪结果；为了提高对深层特征的识别能力，DSiam[2]引入了两种相关滤波器，分别用于在线更新目标特征和缓解背景杂波；SA-Siam[3]提出了两种互补的孪生网络来提取全局外观和语义特征；Bhat等[4]提出基于一个目标模型的预测网络，通过应用迭代优化过程，得出不同的学习损失值，可最大限度地提高预测模型的辨别能力；在后续的研究中，SiamDCN[5]构建由SiamDCN分支和SiameseFC[6]组成的孪生网络，通过互相关操作自适应地调整模板核，实现精准的视觉跟踪；李睿等[7]通过改进Siamese-FC，在目标分支与搜索分支同时使用AlexNet与ResNet作为主干网络实现参数共享，并通过多特征融合，达到对目标物体的准确定位；王希鹏等[8]也通过改进孪生网络，进行多层特征融合，并设计短时记忆模块，将响应图加权叠加，以适应目标物体动态变化，提升跟踪性能。

近几年，为了提高跟踪效果，把注意力机制融入到目标跟踪模型也成为了一个研究方向。RASNet[9]在目标物体的外观特征上增加了三种注意模块，优先选择信息丰富的特征通道，并对它们进行加权融合实现互相关操作；张汉等[10]通过融入局部注意力机制和全局注意力机制策略，采用上采样方法恢复特征图尺寸，提升模型的泛化能力；SiamAtt[11]使用孪生注意力网络，将注意力机制引入分类分支，通过分类分数来区分前景和背景，以此预测目标位置；Wang等[12]提出一种高效轻量级的通道注意力模块，应用很少参数，在图像分类和目标检测等方面有效地提升了精度。但是在跟踪器中融入注意力机制将增加一定的计算量，从而影响跟踪器的整体性能。

针对上述问题，本文基于SiameseFC，在卷积层融合卷积通道注意力机制，在不降低通道维度的情况下，提取强化的图像特征；在目标图像分支融合堆叠通道注意力机制，保证跟踪速度的同时维持跟踪器的健壮性；之后融合空间注意力机制，在低分辨率、形变和遮挡情况下，实现对目标物体的准确定位。

1 相关工作

SiameseFC作为全卷积孪生网络，使用两个对称的全卷积分支，通过共享权重方法提取目标图像与搜索图像的特征；使用互相关操作计算多个推荐框的相似分数，得分最高的推荐框将作为在搜索图上的预测位置。互相关使用下面公式进行计算：

其中，φ(·)表示全卷积网络，b表示偏移量，p(·)表示计算目标图像和搜索图像特征进行的推荐框互相关函数。这样的结构对目标物体与背景信息学习能力不足，很容易忽略它们之间联系。

注意力机制能够帮助学习目标物体与背景信息之间的联系，获取更多需要关注区域的细节信息，这使得注意力机制被应用在目标跟踪任务中。不同的注意力机制在跟踪任务中起到不同的作用，通道注意力机制注重加强各个通道内图像特征提取，同时抑制无用的特征信息；空间注意机制注重通道内图像空间特征信息，利于对目标物体的准确定位。本文结合SiameseFC和注意力机制，提出ThrAtt-Siam跟踪器用于完成目标跟踪任务。

2 ThrAtt-Siam跟踪器算法

ThrAtt-Siam跟踪器架构如图1所示。与以往深度神经网络跟踪器不同，ThrAtt-Siam跟踪器采用AlexNet变体作为特征提取主干网络，追求图像特征提取速度的同时，一定程度上降低了图像特征提取精度，为了弥补这部分损失，本研究开发一种具有高性能、高泛能力的跟踪器，将卷积通道注意力机制融合到第一层卷积和后五层卷积中，在第一卷积层中还增加两个图像特征和两个卷积块，以更好地提取图像特征信息；为了降低计算参数的工作量，仅在目标图像分支中引入堆叠通道注意力机制和空间注意力机制，利用通道内和通道间的不同特性进行特征提取，之后将目标图像分支与搜索图像分支通过改进的互相关公式（2）进行计算：

图1 ThrAtt-Siam跟踪器架构Fig.1 Tracker architecture of ThrAtt-Siam

其中，q(·)表示使用卷积通道注意力机制，两个图像特征融合于两个卷积块，φ(·)表示全卷积网络，ω表示堆叠通道注意力机制与空间注意力机制，b表示偏移量。

2.1 卷积通道注意力机制

卷积通道注意力机制可平衡图像特征提取速度与准确率。首先，它使用少量参数，采用适当的跨通道交互策略，在不增加算法复杂度的同时保证模型整体性能，有效地学习通道特征；其次，它具有模块化结构，即插即用的特点，可高效地嵌入变体AlexNet网络中，便于实际应用。具体操作如图2所示。

图2 卷积通道注意力机制Fig.2 Convolution channel attention mechanism

在不同卷积层中，接收输入XM的通道数为C，经过全局平局池化层获得特征后，继续执行1D卷积操作，使用自适应卷积核K，完成维度不变的新映射关系，随后使用Sigmoid函数学习通道信息，经过特征间相乘融合后得到XN，作为之后操作的输入。

在自适应卷积核K的取值上，各种CNN框架的1D卷积核会根据通道数手动进行调整，这样将耗费大量的计算资源。本研究依据文献[12]的方案，K值与通道数C之间存在正比关系，K值由公式（3）自适应确定：

其中，||odd表示获取最近的奇数，γ和b取值分别设置为2和1。

2.2 特征融合与卷积块

在特征提取阶段融入特征图有助于训练判别能力更强的特征提取网络[13-15]；通过卷积层提取到的特征，进一步使用1×1与3×3的组合卷积块来强化图像特征[16]。ThrAtt-Siam跟踪器为了保证性能和准确率，在卷积层提取特征时，多次融入特征图，通过两个卷积块增加网络深度，可线性组合不同通道内特征信息，以此加强和细化图像特征，具体操作如图3所示。

图3 特征融合与卷积块Fig.3 Feature fusion and convolution block

首先，对第一层卷积融合ECA后提取到的两个目标特征图1进行融合，可有效地强化基础特征信息，突出目标物体特征信息，得到新目标特征图+；其次，使用卷积核为1×1与3×3的两个卷积层，形成局部语义块，得到目标特征图++。这样既可以加强图像特征的提取，也可以细化图像轮廓信息。这种结构在不改变通道维度的同时，不增加偏移学习，减少权重计算量，使跟踪器快速地提取到更好的鲁棒特征，即使遇到图像模糊和低分辨率的情况下，也能保证对目标物体的跟踪效果。

2.3 堆叠通道注意力机制

单独使用最大池化层或平局池化层，都会忽略掉通道内部分特征信息，为了能够更好地获取图像特征，ThrAtt-Siam跟踪器采用全局最大池化（GMP）与全局平均池化（GAP）形成可融合特征的堆叠通道注意力机制，加强有用的通道信息提取的同时，减少无用通道信息的影响，从而提升跟踪器的泛化能力，具体结构如图4所示。

图4 堆叠通道注意力机制Fig.4 Attention mechanism of stacked channels

目标图像分支中通过卷积层输出的特征信息通道数为C，GMP和GAP并行处理目标特征图。GMP侧重于独特的和细致的目标物体特征，GAP侧重于目标物体整体的认知，增强通道的注意；然后分别使用卷积核为1×1的FC1全链接层，减少特征图维度，使用ReLU激活函数后使用卷积核为1×1的FC2全链接层，增加特征图维度，如公式（4）、（5）所示：

然后运用特征相加方式将两个子网络特征进行融合，如公式（6）所示：

2.4 空间注意力机制

与堆叠通道注意力机制相比，空间注意力机制更加注重目标图像在每个通道内位置特征的信息，并利用通道空间特征之间的关系构建空间注意力，关注每个通道内目标图像信息最丰富的部分，是对堆叠通道注意力机制的补充。ThrAtt-Siam跟踪器采用的空间注意力机制，具体结构如图5所示。空间注意力机制分为上下文模块和通道转换模块。上下文模块接收堆叠注意力机制的输出的特征图SH×W×CN作为输入，计算出所有特征通道的相同空间注意；上下文模块通过1×1卷积操作，将C个通道减至单通道，然后经过Softmax函数之后和输入相乘，融合传入到多层通道转换模块中；多层通道转换模块主要计算跨通道的不同空间关注，首先通过1×1卷积操作将输出通道数减至C/8，通过实验，通道数减至C/8时，特征提取效果最好；然后经过BatchNorm层和ReLU层继续应用1×1卷积操作，最后应用Sigmoid函数与输入相乘融合，得到目标特征

图5 空间注意力机制Fig.5 Spatial attention mechanism

3 实验结果及分析

3.1 实验环境

实验使用PyTorch框架进行操作，环境如表1所示。

表1 实验环境Table 1 Experimental environment

3.2 数据集

实验所用数据集如表2所示。

表2 数据集Table 2 Data sets

3.3 网络结构与参数

ThrAtt-Siam跟踪器的网络结构与相应参数如表3所示。训练时，目标图像和搜索图像分别为135×135和263×263的彩色图。批量数（batch）为32，每个批量有3 650对样本，进行15次迭代。网络模型的衰减率为10-2到10-5。

表3 卷积框架网络参数Table 3 Network parameters of convolution framework

3.4 评价标准

3.4.1 VOT评价标准

对于VOT数据集，使用精确率（accuracy）和平均重叠（expected average overlap，EAO）对跟踪器进行评测。

精确率评测标准是指在一段跟踪序列中，跟踪预测区域和目标物体真实区域的平均交并比，数值越大，表示精确率越高。

EAO评测标准是拆分出视频中跟踪成功的序列，计算几个短时序列上重叠曲线值的平均值。当重叠率为0时认为跟踪失败，模型会对目标再次进行跟踪。

3.4.2 OTB评价标准

对于OTB数据集，使用准确率（precision plot）和成功率（success plot）对跟踪器进行评测。

准确率通过下面的公式（7）进行计算：

Sall是所有跟踪帧数的误差总数，S是预测目标物体的中心点与人工标注的目标物体中心点之间的误差，p1为阈值，设为20个像素点，S可由公式（8）计算得出：

其中，x1、y1表示人工标注的真实位置，x2、y2表示预测的位置。

成功率的计算公式如公式（9）所示：IoU（intersection-over-union）是目标物体预测区域和人工标注区域的交并比，计算公式如公式（10）所示：

其中，region(A)表示跟踪器预测的区域，region(G)表示目标物体的真实区域。实验中，将阈值p2设置为0.5。IoUall是所有跟踪帧数的交并比总数。

3.5 VOT2017实验结果

ThrAtt-Siam跟踪器在VOT2017数据集上与SCSSiam[15]、SiameseFC、UCT[17]、Staple[18]、KCF[19]和DSST[20]方法进行比较，实验结果如表4所示。ThrAtt-Siam跟踪器比基准SiameseFC在精确率上提升0.01，在EAO上提升0.03；与SCS-Siam跟踪器实验结果持平，但在OTB2015数据集上实验结果优于SCS-Siam跟踪器；ThrAtt-Siam跟踪器在精确率上虽然低于Staple 0.01，但在EAO上高于Staple 0.05。整体上ThrAtt-Siam跟踪器，显示出了较好的跟踪效果。

表4 VOT2017评测结果Table 4 VOT2017 evaluation results

3.6 OTB2015实验结果

3.6.1 定量分析

ThrAtt-Siam跟踪器在OTB2015数据集上与SCSSiam、SiameseFC、BACF[21]、LMCF[22]、KCF和DSST进行比较，实验结果如图6所示。ThrAtt-Siam跟踪器的准确率为0.820，成功率为0.782。与基线SiameseFC比较准确率高出0.049，成功率高出0.023。BACF在成功率上优于ThrAtt-Siam跟踪器，但在准确率上ThrAtt-Siam跟踪器高于BACF以及其他跟踪器。通过定量分析ThrAtt-Siam跟踪器表现出了良好的跟踪效果。

图6 OTB2015实验结果图Fig.6 OTB2015 experimental results

3.6.2 定性分析

OTB2015包含11种具有挑战的跟踪场景：照明变化（IV）、比例变化（SV）、遮挡（OCC）、变形（DEF）、运动模糊（MB）、快速运动（FM）、面内旋转（IPR）、面外旋转（OPR）、视野外（OV）、背景杂波（BC）和低分辨率（LR）。表5是从11种场景中挑选出来5组序列所涉及的挑战属性和对应帧数。图7是将ThrAtt-Siam跟踪器与SCSSiam、SiameseFC、BACF、LMCF、KCF、DSST进行定性实验的比较结果。

图7 OTB2015定性分析Fig.7 OTB2015 qualitative analysis

表5 场景属性Table 5 Scene attributes

（1）复杂背景

在序列Basketball中，球场上目标物体的外形、服装十分相似，复杂背景造成了一定的干扰。使DSST和KCF完全丢失目标物体，SiameseFC和BACF后期也跟错目标。而ThrAtt-Siam跟踪器保持良好的跟踪效果。

（2）比例变化

在序列Couple和Lemming中，随着目标物体不停运动，逐步产生了不同的比例变化，尤其在Couple中，DSST、LMF、KCF和SCS-Siam都存在目标物体丢失的现象，只有ThrAtt-Siam跟踪器没有丢失跟踪目标。

（3）遮挡

在序列Jogging-2中，跟踪目标在进行运动时，由于遮挡短暂失去目标，这使得很多跟踪器不能再次识别跟踪目标，只有ThrAtt-Siam跟踪器和SCS-Siam跟踪器保持着较好的跟踪效果。

（4）面内旋转

在序列MotorRolling中，由于摩托车表演时多次产生旋转，造成模糊和形变的情况出现，其他跟踪器有的丢失目标物体，有的仅跟踪到目标的局部，只有ThrAtt-Siam跟踪器没有丢失跟踪目标。

3.7 消融实验

为了验证ThrAtt-Siam跟踪器的有效性，在OTB2015数据集上进行消融实验，分别是仅使用ECA，不添加两个卷积块和其他注意力机制的ECA-Siam，使用ECA和两个卷积块的ECATF-Siam和使用ECA，添加两个卷积块，使用堆叠注意力机制的TwoAtt-Siam。通过表6可知，所提出的ThrAtt-Siam跟踪器分别在准确率与成功率上高出ECA-Siam 0.043和0.028；高出ECATF-Siam 0.03和0.023；高出TwoAtt-Siam 0.017和0.013。由此证明ThrAtt-Siam跟踪器在SiameseFC基础上逐步引入的注意力机制及特征增强方法，对目标跟踪效果具有促进作用。

表6 消融实验Table 6 Ablation experiment

4 结语

融合三种注意力机制的ThrAtt-Siam跟踪器在公开数据集OTB2015上的准确率达到0.820，跟踪速度达到88 FPS，可用于实时跟踪。同时，ThrAtt-Siam跟踪器在VOT2017数据集也获得了较好的跟踪性能。但ThrAtt-Siam跟踪器在目标物体快速运动和光照明显变化的场景下，跟踪效果并不理想，这是将来需要改进的地方。