动态模态交互和特征自适应融合的RGBT跟踪

2022-10-21 01:56王福田张淑云李成龙罗斌

中国图象图形学报 2022年10期

王福田，张淑云，李成龙*，罗斌

1.安徽大学计算机科学与技术学院多模态认知计算实验室，合肥 230000；2.合肥综合性国家科学中心人工智能研究院，合肥 230000

0 引言

视觉目标跟踪是计算机视觉领域中的热门课题之一，在多个领域有着广泛的应用，如视频监控、无人驾驶和人机交互(Li等，2019a；Ruan等，2019；Yao等，2017；Yuan等，2015；Zhang等，2015)。红外成像具有成像距离长、对烟雾的穿透力强和对光照变化不敏感等优点。随着热红外技术的不断成熟，RGBT(RGB-thermal)目标跟踪受到越来越多学者的关注(Wu等，2011；Liu和Sun，2012；Li等，2016，2017)。RGBT目标跟踪是视觉目标跟踪的一个分支，其任务是在给定某视频序列第1帧目标状态的情况下，通过聚合不同模态数据来估计后续帧中目标的状态。虽然RGBT目标跟踪近年来取得了很大的进展，但是如何充分探索和利用不同模态的信息仍然是一个挑战。

早期的RGBT跟踪方法(Li等，2016；Liu和Sun，2012)主要依赖于传统的手工特征。例如，Liu和Sun(2012)通过在基于粒子滤波器的框架中联合稀疏表示和对稀疏系数的最小化操作融合可见光和热红外模态的跟踪结果。Li等人(2016)引入可靠的权重来自适应地融合可见光和热红外模态的信息。但是，这些方法很难应对复杂场景和环境。近年来，深度学习方法成功地应用于RGBT目标跟踪领域，并逐渐在性能上超越传统方法。Gao等人(2019)提出了一种新的机制来自适应地融合不同模态的有效信息。Zhu等人(2019)提出了一种新颖的特征聚合网络以此聚合不同层的特征，同时利用修剪技术消除冗余信息。Tu等人(2020)提出了一种多边际度量学习框架M5L(multi-modal multi-margin metric learning)来解决困难样本问题。Xu等人(2022)提出了一种跨层双线性池化网络来自适应地聚合两种模态的不同信息。但是，这些基于深度学习的跟踪方法要么仅利用高层的语义信息，要么将不同层的特征进行逐层聚合，很少去有效挖掘不同模态的互补特征，因此无法有效探索RGBT数据的优越性。

本文提出了一种基于动态交互和融合的跟踪框架来有效挖掘两个模态之间的互补性。一般来说，RGB图像主要用来捕获目标的视觉外观信息，例如颜色和纹理等，而热红外图像在光照变化剧烈和背景杂乱等条件下能提供有效信息。两个模态特征的融合方式通常是元素级相加或通道上级联。如果某种模态的信息中包含一些噪声或者是错误的信息，那么经过上述方法融合的特征里面难免会引入噪声，这样会影响跟踪的性能。因此，本文利用了基于乘法操作的模态交互模块来抑制杂波噪声，同时设计了一个融合模块来聚合不同层的多模态特征以捕获丰富的语义信息和空间信息。最后，设计了一个动态权重损失函数来优化网络参数。

图1展示了RGB模态下的特定特征和互补特征的可视化结果。本文的主要贡献有：

图1 特征图的可视化结果

1)提出了一种新颖的动态交互和融合模块，有效挖掘RGB和热红外数据的互补性；

2)提出了一种动态权重损失函数，通过对两个模态特定分支预测结果进行一致性和不确定性约束来优化整个网络中的参数；

3)在RGBT234(Li等，2019)和GTOT(grayscale-thermal object tracking)(Li等，2016)数据集上进行了实验，结果表明本文方法在跟踪性能上优于其他主流的跟踪方法，验证了有效性。

1 相关工作

1.1 RGBT目标跟踪算法

可见光信息和热红外信息的融合能够有效改善跟踪性能，且随着热红外相关产品的价格下降，越来越多的学者开始研究RGBT目标跟踪。

一些早期的工作(Li等，2016；Lan等，2018)通过为每种模态引入可靠的权重实现自适应融合。Li等人(2016)在贝叶斯框架的基础上提出了一种基于稀疏表示的自适应跟踪框架。Lan等人(2018)提出了一种新颖的判别性学习框架，以自适应和协作地学习分类器和不同模态的可靠性权重。但是，当权重不能可靠地反映模态的重要性时，跟踪器将会面临跟踪失败的状况。同时，一些工作(Li等，2017；Zhu等，2020)探索如何利用多模态数据来生成更加鲁棒的特征表示。Li等(2018c)提出了一种跨模态排序模型，该模型考虑了两种模态的异质性以及初始化排序种子点时所引起的噪声，同时使用结构化的SVM(support vector machines)来进行跟踪。这些RGBT跟踪方法依赖于传统的手工特征，而传统的手工特征无法鲁棒地表示目标对象，所以这些方法复杂场景下的跟踪性能会受到限制。

由于深度学习方法成功应用跟踪领域，因此RGBT跟踪取得了很大的进步(Xu等，2018；Zhang等，2018；Zhu等，2019；Li等，2020a)。Xu等人(2018)提出了一种像素级融合的RGBT跟踪方法，该方法直接将热红外图像作为可见光图像的额外通道。该融合方式容易引入大量噪声，从而影响跟踪的性能。Zhang等人(2018)使用VGG-M(Visual Geometry Group-middle network)网络提取两个模态的特征，然后对两个模态的特征进行级联，最后对目标进行前景和背景的分类。Zhu等人(2019)提出了一种新的跟踪框架递归的聚合不同层的特征和抑制其中的冗余信息。但上述方法没有考虑到不同模态的特征在不同场景下的重要程度。Li等人(2020a)考虑到不同模态中存在不同的和共同的挑战因素，提出了一个基于挑战感知的RGBT跟踪框架，取得了很好的效果。虽然上述RGBT跟踪方法有效地利用了两个模态的信息，但是没有对两个模态之前的互补性进行充分探索。

1.2 注意力机制

注意力机制一开始应用于自然语言领域。2014年，谷歌大脑团队利用注意力机制进行图像分类，取得了很好的效果。由于注意力机制的有效性，其广泛用于各种任务中，如目标跟踪、目标检测和语义分割。近年来，注意力机制在提高网络性能方面取得了很大的进步。Hu等人(2018)提出了一种有效的通道注意力机制，该机制通过自适应地调节各通道的特征响应值来选择性地加强有用信息和抑制无用信息。Chen等人(2018)提出了一种双重注意力机制，从输入图像或视频的时空空间中聚合和传递全局特征，从而使得后续的卷积层有效地提取特征。Fu等人(2019)引入空间注意力和通道注意力机制来聚合更多有用的信息。上述这些方法为了提升性能，都致力于研究复杂的注意力模块，但同时不可避免地增加了计算开销。为了平衡性能和资源消耗，Wang等人(2020)提出了一个轻量级的注意力模块，其通过1维卷积运算生成通道关注图。

2 网络框架及其实现

2.1 网络框架

在RGBT跟踪任务中，输入可见光和相应的热红外图像，本文网络框架如图2所示。从图2中可以看到，除了可见光和热红外分支之外，还包含跨模态交互模块和融合模块、互补特征学习模块，跨模态交互模块用来获取不同级别的多模态特征，模态融合模块用来融合不同级别的多模态特征，互补特征学习模块用来获取不同模态的互补特征。本文使用VGG-M(Simonyan和Zisserman等，2015)的前3个卷积层作为骨干网络来提取可见光和热红外模态的特定特征，其中卷积核大小分别为7×7×96、5×5×256、3×3×512。

图2 网络框架图

2.2 交互和融合模块

2.2.1 交互模块

为了减少噪声影响，本文设计了一种模态交互模块。首先，使用通道注意模块从通道方面增强不同模态的特定特征，然后将可见光和热红外特征进行元素级相乘。在某些情况下，热红外数据中有一些噪声，可见光数据也存在噪声。如果直接将RGB特征和热红外特征进行相加或级联，可能会引入许多噪声。本文将不同模态的特征进行相乘操作，可以在一定程度上抑制噪声。整个交互过程可以表示为

(1)

(2)

(3)

考虑上下文信息有助于模型捕获目标的位置，而推理跟踪中的上下文信息需要知道哪些位置是与目标相关的关键点。本文网络模型利用了通道注意力模块(Wang等，2020)从通道方面增强不同模态的特定特征。Wang等人(2020)的实验结果表明捕获所有通道之间的依赖关系是低效的，而捕获局部通道之间的信息是高效的。式(4)能够为每个通道捕获其周围的邻居信息以预测该通道的注意力预测。分组卷积在固定组数量的情况下，高维(低维)通道与长距离(短距离)卷积核大小成正比；因此，局部通道信息交互作用的范围(即1维卷积的核大小k)与通道维数C也存在一定的映射关系。

具体来说，首先将输入的特征图经过全局平均池化(global average pooling，GAP)，再执行卷积核大小为k的快速1维卷积来生成通道权值，最后将输入的特征和通道权值做相乘操作

(4)

式中，k表示1维卷积的内核大小，C表示通道数，| |odd表示奇数，b和γ的值分别设为2和1。

2.2.2 融合模块

首先将前两层获得的多模态特征图调整为与最后一层的多模态特征图相同尺寸，然后进行元素级相加。最后将融合后的特征输入到卷积核大小为3×3的深度可分离卷积中，从而减少参数量。具体为

(5)

2.3 互补特征学习模块

2.4 动态权重损失函数

RGBT目标跟踪方法(Zhu等，2019；Li等，2017)一般使用传统的二分类损失函数(L)来训练模型，即

(6)

本文提出了一个新的损失函数来动态优化模型参数。不同模态的样本输入到相应的模态特定分支中，样本的预测结果可能有所不同。通过对两个模态特定分支的预测结果进行一致性和不确定性的约束来动态优化整个网络的参数，从而提高最终预测结果的置信度。提出的动态损失函数为

L=L1+λ×L2

(7)

L1=Lrgb(y1′,y)+Lthermal(y2′,y)

(8)

L2=Lfusion(y′,y)

(9)

λ=||y1′-y2′|+1-|y1′-0.5|-|y2′-0.5||

(10)

式中，第1项|y1′-y2′|的L1损失是为了约束两个分支的预测结果，使其更加一致，而第2项1-|y1′-0.5|-|y2′-0.5|，用于限制两个特定分支的预测结果的不确定性。如果预测结果得分接近0.5，则表示网络不确定检测到的候选框是否为前景。从图3可以看出，在训练参数设置相同的情况下，本文提出的动态加权损失下降得更快，收敛得更好。这也进一步表明本文提出的动态加权损失函数的有效性。

图3 动态权重损失与二分类损失在训练期间的比较结果

2.5 训练过程

本文网络可以进行端到端的训练。在初始化时，网络主干的前3层相应权重从VGG-M网络(Simonyan和Zisserman，2015)中加载得到，全连接层和其他卷积层的权重随机初始化。采用SGD(stochastic gradient descent)算法来对整个网络进行优化。同时参考MDNet(multi-domain convolutional neural networks)(Nam等，2016)，在使用K个视频的多领域学习中，一共执行100个循环，其中每次循环包括K个迭代，每个迭代都对应一个视频。在每次训练迭代中，最小批处理由视频序列中随机选取的8帧图像组成。在每帧图像上随机采样32个正样本(与帧值的IoU(intersection over union)重叠率不小于0.7)和96个负样本(与帧值的IoU重叠率不大于0.5)。因此，每个最小批处理都包含256个正样本和768个负样本。在训练过程中，全连接层和卷积层的学习率分别设置为0.005和0.000 5，权重衰减、动量和梯度剪切阈值分别固定为0.000 5、0.9和10。在GTOT(Li等，2016)数据集上进行测试时，从RGBT234(Li和Liang，2019)数据集中随机选择了78个视频作为训练集。在RGBT234数据集上进行测试时，将GTOT数据集(50个视频序列)作为训练集。

2.6 在线跟踪过程

3 实验分析

3.1 数据集和评价标准

GTOT数据集包含50个可见光—热红外视频序列，同时包含不同的场景，如水池、公共区域和校园道路等。该数据集有7种不同的挑战因素，分别是大尺度变化(large scale variation，LSV)、快速运动(fast motion，FM)、低光照(low illumination，LI)、形变(deformation，DEF)、热交叉(thermal crossover，TC)，小目标(small object，SO)和遮挡(occlusion，OCC)。

RGBT234数据集是由RGBT210(red green blue-thermal 210)数据集(Li等，2017)扩展而来，由234个可见光—热红外视频序列组成。该数据集共有12种挑战因素，分别是运动模糊(motion blur，MB)、无遮挡(no occlusion，NO)、部分遮挡(partial occlusion，PO)、严重遮挡(heavy occlusion，HO)、低照度(low illumination，LI)、低分辨率(low resolution，LR)、热交叉(thermal crossover，TC)、形变(deformation，DEF)、快速移动(fast motion，FM)、比例变化(scale variation，SV)、背景杂乱(background clutter，BC)和相机移动(camera moving，CM)。最长的视频序列包含4 000多帧，最短的视频序列不超过100帧。

采用精确率(precision rate, PR)和成功率(success rate, SR)作为RGBT目标跟踪的评价标准，同时在RGBT234(Li等，2019)和GTOT(Li等，2016)上比较本文方法与其他跟踪方法的性能。PR是输出目标位置在标注真值的阈值距离内帧数所占的百分比。由于GTOT数据集中的大多数跟踪对象很小，因此将其阈值距离设置为5像素。将RGBT234数据集的阈值距离设置为20像素。SR是在标注的边界框和输出的边界框之间的IoU重叠率高于设定阈值的帧数所占的百分比。

3.2 在GTOT数据集上的评估

为了评估本文方法的性能，在GTOT数据集上将本文方法与10个RGBT跟踪方法进行比较，它们分别是MDNet(Nam和Han，2016)+ RGBT、KCF(kernelized correlation filter)(Henriques等，2015)+RGBT、Struck(Hare等，2016)+RGBT、CN(color name)(Danelljan等，2014)+ RGBT、SCM(sparsity-based collaborative model)(Zhong等，2012)+ RGBT、SGT(sparse graph tracker)(Li等，2017)、SiamDW(deeper and wider siamese networks)(Zhang和Peng，2019)+ RGBT、CMRT(cross-model ranking algorithm for RGB-T tracking)(Li等，2018c)、DAPNet(dense feature aggregation and pruning network)(Zhu等，2019)和RT-MDNet(real-time multi-domain convolutional neural networks)(Jung等，2018)+ RGBT。其中MDNet + RGBT、CMRT、SiamDW + RGBT、SGT和DAPNet是RGBT目标跟踪器，其他跟踪器是拓展的RGBT目标跟踪器。通过将两种不同模态的特征拼接成单个向量或将热红外特征视为可见光特征的额外通道，把原本基于RGB的跟踪器扩展为RGBT目标跟踪器。根据图4的结果，在GTOT数据集上，本文方法(86.1%，70.9%)的PR和SR分别比基准跟踪器MDNet + RGBT(80.0%，63.7%)高6.1%和7.2%。这些实验数据证明了本文方法的有效性。

从图4中可以看出，本文方法PR比DAPNet(Zhu等，2019)低2.1%。同时将本文方法和DAPNet在GTOT数据集的7种挑战因素上进行了比较。本文方法在形变(DEF)挑战下PR、SR分别为88.4%、73.7%，而DAPNet在形变挑战下的PR、SR分别为91.9%、77.1%。这表明本文方法在形变(DEF)这个挑战因素下跟踪性能低于DAPNet。原因可能是GTOT数据集上的目标相对较小，本文方法不能很好地处理小目标的尺度变化。

图4 GTOT数据集上不同跟踪器的评估曲线

3.3 在RGBT234数据集上的评估

为了评估本文方法的整体性能，在RGBT234数据集上将本文方法与一些RGBT方法进行比较，包括RT-MDNet(Jung等，2018)+RGBT、SiamDW(Zhang和Peng，2019)+RGBT、MDNet(Nan和Ham，2016)+RGBT、SOWP(spatially ordered and weighted patch)(Kim等，2015)+RGBT、DAPNet(Zhu等，2019)、CFnet(correlation filter networks)(Valmadre等，2017)+RGBT、CSR-DCF(discriminative correlation filter with channel and spatial reliability)(Lukežic等，2017)+RGBT、CMRT(Zhu等，2019)、MEEM(multi-expert entropy minimization tracking network)(Zhang等，2014)+RGBT、KCF(Henriques等，2015)+RGBT，其中RT-MDNet+RGBT、MDNet+RGBT、DAPNet、CMRT和SGT是RGBT目标跟踪器，其余的是拓展的RGBT目标跟踪器。从图5中可以看出，本文方法PR比基准跟踪器MDNet + RGBT(72.2%)高7.0%，SR比基准跟踪器MDNet + RGBT(49.5%)高6.3%。本文方法的PR和 SR(79.2%和55.8%)分别比DAPNet(76.6%和53.7%)高2.6%和2.1%。

图5 RGBT234数据集上不同跟踪器的评估曲线

在RGBT234数据集不同的挑战因素下，将本文跟踪器与其他主流跟踪器进行比较，分别是MDNet+RGBT，DAPNet，RT-MDNet+RGBT，SiamDW+RGBT，CMRT，SOWP+RGBT，M5L，CSR-DCF+RGBT。在表1中详细展示了实验结果。从表1中可以看出，本文方法几乎在所有挑战下均优于其他RGBT跟踪器，尤其是在背景杂乱(BC)，遮挡(HO)和形变(DEF)等挑战下的跟踪效果尤其突出。表明本文跟踪器在处理物体外观变化和不利条件方面具有更好的优势，但是在热交叉的情况下，本文跟踪器性能不如DAPNet，这是热交叉情况下的热红外模态的信息不可靠所致，由于本文方法是将互补特征和模态特征直接进行元素级相加，因此在热交叉情况下引入了一些噪声。但是在其他挑战中，本文跟踪器性能优于DAPNet。

表1 在RGB234数据集上，不同跟踪器在不同挑战上的PR/SR分数比较

3.4 定性分析

在RGBT目标跟踪数据集中选取了4个视频序列，将本文方法和4个RGBT跟踪方法进行了定性结果比较，其分别是SiamDW(Zhang和Peng，2019)+ RGBT，C-COT(continuous convolution operator tracker)(Danelljan等，2016)，RT-MDNet(Jung等，2018)+ RGBT和MDNet(Nam和Han，2016)+ RGBT。可视化的结果展示在图6中。本文跟踪器能够有效应对遮挡、背景杂乱和外观变化等挑战。图6(a)(c)所示的背景混乱和部分遮挡的情况下，本文方法很好地区分目标和背景，从而准确地跟踪目标。图6(b)所示的高强度照明的条件下，可见光图像几乎完全无法定位目标物体的位置，而热红外图像提供了额外的信息，本文方法充分利用了热红外图像所提供的信息来对目标的位置进行准确定位。如图6(d)所示，在摄像机强烈抖动和强光照射的情况下，只有本文方法可以准确地跟踪到目标，而其他方法都跟踪失败。

图6 不同跟踪方法的实例

3.5 消融分析

为了进一步验证本文方法的各个组成部分的有效性，在GTOT和RGBT234数据集上进行消融实验。使用“Baseline”来表示基准方法，即MDNet+RGBT，是直接在通道方向上级联两个模态的特定特征，并在训练期间使用二分类损失函数训练模型。实验包括：1)Baseline+DWL，在通道方向上级联两个模态的特定特征，同时在训练期间使用动态权重损失函数来优化整个网络;2)Baseline + DWL + MIFL，使用跨模态交互和融合模块来融合不同层的多模态特征，在训练期间使用动态损失函数训练模型;3)Baseline + DWL + MIFL+CFL，使用跨模态交互和融合模块融合不同层的多模态特征，同时利用互补特征学习模块来计算不同模态的互补特征，将模态特定特征和互补特征进行融合，最后使用动态损失函数训练网络模型。

表2展示了在GTOT和RGBT234数据集上各个组成成分的实验结果。从表2可以得出：1)Baseline+DWL的结果优于Baseline，在相同设置的测试环境下，在RGBT234数据集上PR和SR分别提升了3.4%和3.2%，在GTOT数据集上PR和SR分别提升了3.5%和3.9%。这表明在训练过程中使用动态权重损失函数以自适应优化网络中的参数，使得训练的模型的鲁棒性更高。2)Baseline+DWL+ MIFL的结果优于Baseline+DWL，这表明通过跨模态交互和融合模块后得到的多模态特征比直接在通道上级联两种模态的特征所获得的多模态特征更具有判别性。3)Baseline+DWL+MIFL+CFL优于Baseline+DWL+MIFL，这表明互补特征学习模块有效探索了两种模态之间的互补性，模态互补和特定特征的融合之后能更加鲁棒地表示目标对象。从实验结果得出，每一个模块的加入都会使跟踪精度有进一步的提升。最后，本文方法和Baseline(MDNet+RGBT)的帧速率分别为1.67帧/s和2.1帧/s。

表2 在RGBT234和GTOT数据集上的成分分析结果

4 结论

本文方法通过门机制对可见光和热红外特征之间的互补性进行了有效的挖掘。提出了一个动态权重损失函数，通过对两个特定分支的预测结果进行一致性和不确定性的约束来优化整个训练模型。在RGBT234和GTOT这两个基准数据集上将本文方法与其他跟踪方法进行对比，实验结果表明本文方法优于其他方法。

然而本文方法也存在不足，相对于实时的RGBT跟踪方法，本文方法在实时性方面存在很大的优化空间，未来会考虑加入改进的ROI-align(region of interest-align)模块来提高跟踪器的速度。同时本文方法通过门机制获取的互补特征，在获取的特征中可能仍然有一些噪声，未来也会将采取一些措施来进一步抑制噪声，以获得更加鲁棒的特征表示。