程竹轩,范慧杰,唐延东,王 强
(1.沈阳化工大学 信息工程学院,辽宁 沈阳 110142;2.中国科学院沈阳自动化研究所 机器人学国家重点实验室,辽宁 沈阳 110016;3.沈阳大学 辽宁省装备制造综合自动化重点实验室,辽宁 沈阳 110044;4.中国科学院 机器人与智能制造创新研究院,辽宁 沈阳 110016)
目标跟踪[1]是计算机视觉领域的一个热门研究课题,在视频监控、姿态分析、行为识别等领域被广泛应用,然而RGB跟踪器在遇到剧烈光照变化、低光照、雨天及大雾等跟踪场景时,输入图像的质量会受到很大影响,导致跟踪器性能严重下降,而基于可见光-热红外(RGB-Thermal,RGB-T)的多模态目标跟踪可以有效整合可见光与热红外图像信息,能克服单模态跟踪对可见光强度敏感的局限性,提高跟踪性能,因此相较于仅使用可见光模态信息进行跟踪来说,RGB-T跟踪鲁棒性更高。然而,能否设计出高效的多模态融合策略、提取两种模态的优势特征并融合出一个包含二者优势互补信息的中间态特征,将直接影响RGB-T跟踪器的整体性能。
早期的模态融合策略中,一种方法是将两个模态的特征通过级联的方式进行融合,如Zhang等[2]提出一种基于多域卷积的RGB-T目标跟踪网络,先对卷积神经网络(convolutional neural network,CNN)输出的两种模态特征执行级联操作进行融合,再将得到的融合特征输入指定层进行二分类来识别目标;另一种方法是通过逐元素相加的方式进行融合,如Zhang等[3]提出一种基于模态感知的RGB-T目标跟踪网络,通过模态感知层获得一种中间模态,并将中间模态特征分别与可见光特征和热红外特征进行逐元素相加获得融合特征。这两种融合方式并未考虑到不同模态信息在不同跟踪场景下的差异,如在图1所示的跟踪场景中,可见光模态的质量明显高于热红外模态的质量,热红外模态无法提供有效信息,此时若将两模态特征进行级联或逐元素相加会引入无效信息,削弱可见光模态的信息,降低跟踪器性能。Zhu等[4]提出一种新的融合方法,通过建立自适应聚合子网络,在跟踪过程中学习层权重和模态权重,网络在线跟踪速度仅为1.3帧/秒(frames per second,FPS),无法达到实时跟踪的效果;Zhang等[5]将孪生跟踪网络引入RGB-T跟踪任务当中,利用一对孪生网络分别提取可见光与热红外特征,用级联方式融合,形成融合后的模板特征与搜索区域特征,并对这两种特征进行互相关操作得到最终的响应图,此方法跟踪速度较高,但由于缺少有效的融合策略以及未对多尺度特征信息加以利用,跟踪精度较低。
图1 模态质量差距较大的跟踪场景
针对上述RGB-T目标跟踪的特点以及现有网络的不足,本研究提出一种基于多尺度模态融合的RGB-T目标跟踪网络,首先通过主干特征提取网络获得可见光与热红外各自的模板和搜索区域的特征,然后分别进行特征尺度拓展以引入不同语义级别的特征,并在3种尺度上分别进行模态信息融合,再将融合特征通过增强模块增强特征表示,最后通过区域建议网络(region proposal networks,RPN)获得预测结果。
Li等[8]提出的基于区域建议的孪生网络(SiamRPN)由一对主干特征提取网络和区域建议网络组成,网络分为模板分支和搜索分支。主干特征提取网络用于获得模板和搜索区域的初始特征;区域建议网络由分类分支和回归分支组成,分类分支用于区分跟踪目标与背景,回归分支用于调整候选框的大小与位置,为图像中的每个样本被预测为跟踪目标或是背景的概率提供一个置信分数,将主干特征提取网络输出的初始特征进行互相关操作。具体来说,该操作会将模板特征变成批大小×通道数个卷积核,每个卷积核的大小为模板特征的宽×高,再将搜索区域特征分为批大小×通道数个组后进行卷积操作,得到分类分支和回归分支对应的响应图,最后利用非极大抑制对候选框进行筛选得到跟踪结果。
FSRPN(fuison SiamRPN tracker)[9]是一种基于SiamRPN的RGB-T目标跟踪网络,将SiamRPN拓展到可见光与热红外两种模态,该网络将特征叠加的融合策略应用于孪生网络框架,通过主干特征提取网络ResNet-50[10]获得深层特征,并利用通道注意力对模板特征与搜索区域特征进行增强,然后将增强后的特征直接相加获得融合特征,再利用这些融合的深层特征与区域建议网络跟踪目标。该方法在一定程度上融合了两种模态的信息,但该网络仅使用深层特征,未考虑不同尺度特征对后续融合以及互相关操作的影响,忽视了两种模态特征间的差异性,难以获得鲁棒的融合特征,限制了网络的跟踪性能。
本研究提出的网络模型采用孪生网络结构,整体结构如图2所示。网络相较于基线网络FSRPN,在多尺度特征的利用、模态融合、特征增强方面进行了改进。不同于基线网络FSRPN仅使用单尺度特征以及直接相加的模态融合方式,本研究设计了一个特定的模块,在将特征拓展到多个尺度的同时,在不同尺度上分别对可见光、热红外两种模态信息进行自适应融合,并根据模板图像和搜索区域图像的特征分布差异,使用带有残差的通道自注意力以及卷积块注意力模块(convolutional block attention module,CBAM)[11]改进基线网络中对融合特征增强的过程。
图2 多尺度模态融合网络结构图
如图2所示,本研究提出的网络模型由一对AlexNet[12]组成的主干特征提取网络、多尺度模态融合模块、特征增强模块和区域建议网络组成。考虑模型跟踪速度,采用一对AlexNet作为主干特征提取网络,用于提取可见光与热红外对应的模板图像和搜索区域图像的初始特征。多尺度模态融合模块主要实现对可见光与热红外对应的初始特征在3种尺度上的拓展,实现将两种模态信息在3种尺度上分别进行模态融合。特征增强模块由残差通道自注意力和CBAM并联组成,作用是对输入的特征图进行加权操作,增强目标区域的特征表示,抑制背景信息的特征表示,提高目标区域特征在区域建议网络中的贡献,提升跟踪效果。区域建议网络用来获得分类分支和回归分支对应的响应图,最终输出跟踪结果。
对于两种模态下图像的特征提取,采用一对非共享权值的AlexNet网络作为主干特征提取网络,其网络参数如表1所示。其中,Conv表示卷积核大小不同的卷积,MaxPooling表示全局最大池化。在对数据集中每段视频序列进行跟踪时,将首帧的目标中心作为该序列的模板图像,每次跟踪只对模板图像进行一次特征提取,后续跟踪过程不对模板特征进行在线更新,这样可以有效降低运算量,提高网络跟踪速度,同时跟踪目标也不受背景信息影响,在长时间跟踪中可以有效提高跟踪性能,避免遇到遮挡时在线更新学习到背景信息。
表1 主干特征提取网络参数
可见光与热红外对应的模板图像与搜索区域图像在进入主干特征提取网络之前预先裁剪成尺寸127×127和256×256大小,最终输出的特征尺度为6×6×256和24×24×256,此过程可由式(1)表示:
(1)
式中:zv与xv分别表示可见光对应的模板图像与搜索区域图像,φ()表示特征提取操作。热红外分支处理过程同理。
使用AlexNet作为主干特征提取网络可以有效保证跟踪速度,并且SiamDW[13]通过实验表明,对于孪生网络,使用更深的主干网络并不能有效提升跟踪效果,因为更深层的主干网络在提取深层特征时会提高网络的感受野,而孪生网络的最佳感受野为整个输入图像的60%~80%。此外,深层的主干网络还会降低特征间的区分度,导致跟踪性能降低。
深层特征含有更加丰富的语义信息,但缺点是特征图的分辨率很低,无法充分表达对应的空间信息;浅层特征可以很好地表达特征中所包含的空间信息,但语义信息表达能力较弱。因此,如何将深层特征与浅层特征相结合,使不同尺度的特征起到互补效果是多尺度操作的关键。本研究提出一种多尺度模态融合模块,如图3所示。首先将初始特征经过卷积核大小为1×1的卷积调整特征的通道数,然后经过一个由若干残差卷积组成的瓶颈层(Bottleneck)改变特征的语义级别,不同级别的融合可以得到更加稳定的语义信息,利用稳定的语义信息可以使跟踪过程不再受到目标物体外观变化的影响,通过残差结构可以避免梯度消失所导致的退化问题,并且残差卷积可以通过构建恒等映射层以实现卷积层的自适应组合[14],从而构建出更加高效的卷积结构。此过程以可见光搜索区域图像为例,可由式(2)表示:
(2)
图3 多尺度模态融合模块
式中:B1、B2表示瓶颈层,L表示LeakyReLU激活函数,热红外分支对应的操作同理。通过此模块,模板图像分支与搜索区域图像分支将会各得到两种模态特征尺寸为1 024×6×6、512×12×12、256×24×24的共计6种特征。
在得到每个模态的不同尺度特征后,通过自适应融合方式在3种尺度上分别进行模态融合。不同模态信息各有优点:可见光图像可以提供丰富的背景信息,更好地区分目标与背景;热红外图像可根据热成像原理,全天候提供准确的目标轮廓信息。为了利用两种模态的互补信息,本研究通过生成模态权重的融合结构,对原特征进行自适应加权的方式融合两种模态信息,如图4所示。图4中,GAP表示全局平均池化,FC表示公共全连接层,FC1与FC2为两个非共享权重的全连接层,wv与wt表示可见光与热红外的模态权重,Cat表示级联操作。
图4 自适应模态融合
该结构中,首先将可见光与热红外特征叠加,然后利用全局平均池化以及全连接层和Softmax函数生成每个模态对应的自适应权重向量并加权。以6×6×1 024尺度的特征为例,该过程可表示为:
(3)
(4)
(5)
式中:GAP表示池化核大小为1的全局平均池化,FC表示公共全连接层,wg表示公共权重,FC1与FC2表示可见光与热红外各自的全连接层,wv与wt分别表示各自生成的权重,Cat表示级联操作,Af表示模块输出的每个尺度的融合特征。最后通过上采样与卷积操作使3种尺度特征归一化并叠加得到最终的融合特征,该融合策略通过自适应的方式避免了对有效模态信息的削弱,融合出的特征相较于级联和逐元素相加的方法有更强的鲁棒性。
特征增强模块由残差通道自注意力和CBAM并联组成,通过特征增强模块从特征中学习权重分布,利用学到的权重分布,改变原特征的特征分布,从而达到增强目标特征并抑制背景特征的目的。Hu等[15]提出一种通道自注意力结构,通过建模通道之间的关系自适应地改变通道特征分布。由于模板特征是目标最显著的特征,包含背景信息较少,使用深层的注意力机制会破坏模板图像的特征分布。本研究在通道自注意力的基础上,设计一种包含捷径连接的残差通道自注意力,在增强融合后的模板分支特征的同时,最大限度地保留其特征分布,结构如图5所示。图5中,Conv表示卷积核为1的卷积。
图5 残差通道自注意力
首先通过一个1×1的卷积调整输入特征的通道数,然后利用全局平均池化操作将特征的空间维度压缩成一个点,得到一个通道数维度的特征向量,之后通过全连接层与Sigmoid激活函数生成通道权重,并将权值向量对输入特征加权得到增强特征,最后与捷径连接相加得到最终输出,该过程可表示为:
Ae=Sigmoid[FC(GAP(Conv(Af)))]⊗Conv(Af)+Conv(Af)。
(6)
对于搜索区域图像,采用CBAM进行特征增强。CBAM比通道自注意力的结构更加复杂,可以对特征在通道和空间位置两个方面进行增强,因在不同网络结构和不同任务中具有适用性强的特点,可在任何卷积神经网络架构中灵活使用,在计算量较小的同时增强特征的表达,其结构如图6所示。
图6 CBAM结构图
CBAM会依次通过通道自注意力Mc和空间自注意力Ms求出对应的通道权重与空间权重,并对输入特征进行加权操作,得到增强后的特征,该过程可由式(7)表示:
Ac=Mc(Af)⊗Af,As=Ms(Ac)⊗Ac。
(7)
通过两种注意力结构的并联使用,可以有效地增强融合后的特征表示。
区域建议网络首先由Faster R-CNN[16]提出,可以根据输入的特征图在原图像上生成候选框,结构包含分类分支与回归分支,分别用于区分前景和背景以及对候选框位置进行回归。对特征增强模块输出的增强特征进行互相关操作后得到分类和回归响应图:
(8)
式中:★表示互相关操作,分类响应图上的每个点都是一个通道数为2 000的向量,代表原图像上锚点属于正样本或是负样本,即目标或是背景信息。而回归响应图上的每个点都是一个通道数为4 000的向量,代表锚点在原图像上的位置信息。本研究设置锚点数量为5,其宽高比分别为3、2、1、1/2、1/3,网络得到的响应图尺寸为19×19,则原图像上的锚点数为1 805,之后通过非极大抑制进行筛选,计算所有锚点对应锚框与目标框真值的交并比,其中大于0.6为正样本,小于0.3为负样本,最终选择出16个正样本和48个负样本供网络学习。
采用交叉熵函数作为分类分支的损失函数,采用L1平滑损失作为回归分支的损失函数,定义候选框与目标框真值之间的标准距离为:
(9)
式中:gx、gy、gw、gh为目标框真值的坐标,dx、dy、dw、dh为锚点相较于目标框真值的偏移量。L1平滑损失为:
(10)
因此,回归分支的损失可以表示为:
(11)
分类分支的损失可以表示为:
(12)
式中:N为样本数量;pi是网络对样本的预测值;yi是样本的真实标签,若为正样本则yi为1,若为负样本则yi为0。
网络总的损失函数L可以表示为:
L=Lcls+μLreg。
(13)
式中,μ为控制两种损失函数平衡的超参数,用来确保二者在数值上处于同一数量级,设为1。
将提出的目标跟踪网络在GTOT、RGBT-234两个公开的RGB-T目标跟踪数据集上进行实验。其中,GTOT包括50个不同场景下的可见光与热红外视频序列,共7 500个帧对,每帧图片都由人工进行真实边界框的标注,并且视频中包含了遮挡、尺寸变化、快速移动、低光照、热红外交叉、小目标、形变等7种挑战属性;RGBT-234是一个规模更大更复杂的数据集,包括234个不同场景下的可见光与热红外视频序列,共117 000个帧对,并且视频中包含了12种挑战属性。LasHeR[17]是一个大型数据集,由1 224个可见光和热红外视频序列和730 000个帧对组成,其目标类别达到32个。
所提出的网络基于深度学习框架Pytorch实现,实验使用的软件环境为Windows 10,CUDA 11.0.197,Python 3.7,硬件配置为NVIDIA TITAN XP;网络初始学习率为0.01,随着训练的进行衰减至0.000 01,整个网络采用端到端的方式训练迭代50次,批大小设置为32;使用AlexNet的预训练参数对Conv1、Conv2、Conv3的参数进行初始化,并在前10次迭代中冻结这3层参数以防止权值被破坏,使用随机梯度下降法优化损失函数;使用RGBT-234和LasHeR作为数据集训练一个网络,并在GTOT数据集上测试,然后使用GTOT和LasHeR数据集训练另一个网络,并在RGBT-234上测试。
本研究采用RGB-T跟踪中最常用的精度(precision rate,PR)和成功率(success rate,SR)两种指标来评估所提出的RGB-T目标跟踪网络的性能。精度是在给定的距离阈值内预测边界框的中心与目标真实边界框中心距离小于阈值的图像帧数占所有帧数的比值,成功率是预测边界框与目标真实边界框之间的交并比大于阈值的图像帧数占所有帧数的比值。两种指标数值越高,表示网络的跟踪性能越好。
在GTOT数据集和RGBT-234数据集上对网络进行测试,并将实验结果与已有的先进方法(HMFT[18]、ADRNet[19]、JMMAC[20]、FSRPN、MANet++[21]、DAFNet[22]、DAPNet[23]、SiamCDA[24])进行对比,对比结果如图7所示,图注中每种方法后的数值表示该方法在不同阈值下的平均精度或平均成功率。可以看出,在GTOT和RGBT-234数据集中,本研究所提网络的精度和成功率分别比基线网络FSRPN高14.9%、14.6%和4.8%、4%,证明了本研究所提网络结构的有效性,并且在测试过程中的平均跟踪帧率为37 FPS,可以达到实时跟踪的效果。
图7 不同网络在两个数据集上的对比结果
RGBT-234数据集包含12种挑战属性,分别为背景、相机移动、形变、快速移动、严重遮挡、低光照、低分辨率、运动模糊、无遮挡、部分遮挡、尺度变化、热红外交叉,与其他网络的对比结果如表2所示。表2中每种挑战表现最优结果以黄色表示,次优结果以蓝色表示。
表2 不同网络在RGBT-234不同挑战属性下的PR/SR结果对比
从表2可以看出,所提出的网络在绝大多数挑战属性中的表现优于基线网络FSRPN及其他网络,背景、形变、严重遮挡、热红外交叉等4种属性优于其他所有网络,表明通过多尺度模态融合以及对融合后模态特征的增强为网络提供了目标更加丰富的语义信息和细节特征,可以有效解决目标形变、快速移动、严重遮挡等导致的目标跟踪性能不佳的问题。
图8展示了本研究提出的网络在4个复杂跟踪场景下的跟踪效果,其中蓝色框与白色框为预测边界框,红色框与黑色框为目标真实边界框,黄色框为FSRPN的预测边界框。
图8 网络在4个复杂跟踪场景下的跟踪效果
为了验证网络中各个模块的有效性,本研究在RGBT-234数据集上进行消融实验,实验设计如下。
1) Our-ATO。仅使用特征增强模块,移除网络中的多尺度模态融合模块;
2) Our-MSO。仅使用多尺度模态融合模块,移除网络中特征增强模块;
3) Our-MSO-A。移除多尺度模态融合模块中的尺度拓展操作;
4) Our-MSO-B。移除多尺度模态融合模块中的自适应模态融合,并以特征级联替代。
表3为RGBT-234数据集上消融实验结果。由表3可见,Our-ATO和Our-MSO的PR和SR指标均高于基线网络FSRPN,表明两个模块的有效性,Our-MSO-A和Our-MSO-B的结果均低于Our-MSO,表明多尺度模态融合模块中的尺度拓展以及模态融合的有效性。为了更直观地展示二者对于网络性能的提升效果,图9以响应热力图的方式展示了4个跟踪场景下网络输出响应的比较,可以看出,在多尺度模态融合模块与特征增强模块的作用下,响应位置更趋近于目标中心区域,表明两个模块可以为网络提供有效的多尺度融合模态信息以获得更准确的响应,从而提高跟踪精度。
表3 RGBT-234数据集上消融实验结果
图9 网络输出的响应热力图比较
本研究提出的RGB-T目标跟踪网络可以在不同尺度融合两种模态信息获得更加鲁棒的模态互补特征,并且通过特征增强模块进一步增强特征表示,可以有效应对目标快速移动、目标遮挡、热红外交叉等复杂跟踪场景。在两个RGB-T跟踪数据集上的实验结果表明,本网络与其他网络相比具有更高的跟踪性能,可以通过双模态信息互补的方式获得更加准确的目标响应,提高不同场景、不同挑战下的跟踪效果。
未来考虑通过改进网络结构提升运动模糊以及像机移动跟踪场景下对目标特征的捕捉能力。