基于KL散度与通道选择的热红外目标跟踪算法

2023-02-04 03:11段艳艳马小虎

红外技术 2023年1期

吴捷，段艳艳，马小虎

吴捷1，段艳艳1，马小虎2

（1. 泰州职业技术学院信息技术学院，江苏泰州 225300；2. 苏州大学计算机科学与技术学院，江苏苏州 215006）

为了解决单一跟踪器无法有效应对复杂背景及目标外观的显著变化，对于热红外目标跟踪准确度不高的问题，基于全卷积孪生网络提出了一种多响应图集成的跟踪算法用于热红外跟踪。首先，使用预训练的卷积神经网络来提取热红外目标的多个卷积层的特征并进行通道选择，在此基础上分别构建3个对应的跟踪器，每个跟踪器独立执行跟踪并返回一个响应图。然后，利用Kullback–Leibler（KL）散度对多个响应图进行优化集成，得到一个更强的响应图。最后利用集成后的响应图来确定目标位置。为了评估所提算法的性能，在当前最全面的热红外跟踪基准LSOTB-TIR（Large-Scale Thermal Infrared Object Tracking Benchmark）上进行了实验。实验结果表明，所提算法能够适应复杂多样的红外跟踪场景，综合性能超过了现有的红外跟踪算法。

热红外；全卷积孪生网络；多响应图；通道选择；KL散度

0 引言

近年来，借助于深度学习等理论，视觉目标跟踪技术取得了重大突破。但现有跟踪算法大多是针对可见光场景，对于热红外目标跟踪的研究文献较少，只有LIU等人[1-4]进行了较为深入的研究。

与可见光目标跟踪相比，热红外跟踪具有不受照明变化影响的优点，可以在完全黑暗的情况下跟踪目标。因此，热红外跟踪在灾难救援、视频监控和夜间巡逻等领域具有广阔的应用前景[5]。随着热红外成像设备在民用领域的普及化使用，热红外目标跟踪正逐步成为计算机视觉领域的一个研究热点。

和可见光跟踪相似，热红外跟踪也面临着不少挑战。首先，热红外图像缺少颜色信息，较难获得目标对象的判别特征，从而降低了跟踪性能[6]。比如两个不同颜色的相似物体在热红外图像中几乎是相同的。除此之外，热红外跟踪还面临如遮挡、外观变化和运动模糊等挑战。

近年来，深度学习已成功应用到视觉跟踪中，取得了一系列重要成果。与基于手工特征的跟踪器相比，基于卷积神经网络（Convolutional Neural Networks，CNN）的跟踪器可以获得更优越的跟踪性能。因为单个卷积层特征对跟踪中的各种挑战（例如形变和背景杂斑）鲁棒性不强，现有基于深度学习的跟踪算法大多是融合浅层和深层特征进行跟踪，比如HCF（Hierarchical Convolutional Features）[7]基于KCF（Kernel Correlation Filter）框架，使用预训练的VGG-19（Visual Geometry Group-19）网络提取目标的Conv3-4（Convolution 3-4）、Conv4-4、Conv5-4层特征进行融合，而TADT（Target-Aware Deep Tracking）[8]基于全卷积孪生网络（Fully-Convolutional Siamese Network，SiamFC）[9]框架使用预训练的VGG-16网络提取Conv4-1、Conv4-3层特征并进行融合等等。上述算法均属于特征层融合，并没有实现决策层融合，而且使用单一跟踪器无法有效应对复杂背景及目标外观变化等挑战因素。

考虑到卷积神经网络的强大表征能力及其在视觉跟踪中的成功应用，本文将在可见光图像数据集上预训练的CNN用于热红外跟踪任务，并基于此设计了一个多响应图集成的热红外目标跟踪方法。

1 全卷积孪生网络框架

全卷积孪生网络是ECCV 2016（European Conference on Computer Vision 2016）会议[9]上提出的一种全新的目标跟踪框架，其通过比较初始目标模板和当前帧中搜索区域的特征来进行跟踪。其实现流程可以由下式定义：

(,)＝()*()＋(1)

式中：()为第一帧中模板图像对应的特征图；()为后续帧中待搜索区域的特征图；*为卷积运算符，为偏置项。图1给出了SiamFC网络结构图。

本文算法选择全卷积孪生网络作为目标跟踪的基本框架，主要原因在于：①全卷积孪生网络结构简单，可以在较大的搜索图像中定位目标模版，并且跟踪速度快。②在跟踪过程中目标模板不更新，可以有效应对目标遮挡等挑战。

图1 SiamFC网络结构

2 本文算法

2.1 预训练网络

虽然Siamese框架是在大型视频数据集 ILSVRC15（Large Scale Visual Recognition Challenge 2015）上预先训练的，但是Siamese跟踪器没有充分利用与特定目标对象相关的语义信息。因此在本文算法中，我们借鉴了TADT的做法，从一个预先训练好的CNN中选择对于目标最具判别性以及对于目标尺度变化最为敏感的卷积滤波器（特征通道）来生成目标深度特征。在本文中，我们选择使用VGG-16卷积网络来提取对于热红外目标敏感的特征。在2.2节中将给出特征通道的选择方法。

2.2 通道选择

诸如VGG、ResNet（Residual Network）等卷积网络中的参数是在庞大的数据集中预训练获得的，相对于当前要跟踪的对象存在许多冗余的特征通道信息。冗余的特征通道会占用大量的计算资源，这也是许多基于深度学习的跟踪算法执行速度较慢的原因。除此之外，冗余的特征通道还会对跟踪造成干扰，影响跟踪精度。本文在特征提取过程中进行通道选择，减少冗余特征通道对当前跟踪目标的不利影响。

本文的通道选择是基于文献[10]提出的GCAM（Grad-Class Activation Mapping）模型来实现的。GCAM模型根据每个输入像素点的梯度来表示其属于给定类别标记的重要性，通过沿特征通道计算加权和，生成一个类活动映射。特征通道的权值是通过对该通道中所有梯度的全局平均池化（Global Average Pooling，GAP）来计算的，权值高的特征通道对当前类的贡献大。公式如下：

式中：表示计算出的第个通道的重要性；AP是全局平均池化函数；是损失函数；z指的是第个过滤器的输出特征。

借鉴该理论，本文算法在提取深度特征后计算每个特征通道的梯度值，从中选择最能标记目标特征也就是重要性较高的特征通道进行后续运算。

2.3 多跟踪器设计

虽然当前主流跟踪算法都使用了深度特征，但使用单个跟踪器在某些场景下仍然很难获得优秀的跟踪性能。基于此，本文提出利用多个互补的卷积层特征构建一个集成式热红外目标跟踪方法。本文利用VGG-16卷积网络分别提取待跟踪目标的Conv4-1、Conv4-2、Conv4-3和Conv5-1层特征，并形成如下3种特征组合：{Conv4-2、Conv4-1}、{Conv4-3、Conv4-1}、{Conv5-1、Conv4-1}。利用上述3种特征组合分别设计跟踪器1、跟踪器2、跟踪器3，在3种特征组合中均包含Conv4-1层，这是因为文献[8]的实验表明Conv4-1层特征最适合用来进行目标的尺度估计。每个跟踪器的计算过程都是相似的，下面以跟踪器1为例给出具体跟踪过程：

1）提取待跟踪目标的Conv4-1和Conv4-2层特征（每层共包含512个特征通道）；

2）利用2.2节中提到的方法计算所有特征通道的梯度信息，选择对于目标活动和尺度变化较为敏感的特征通道参与后序的互相关操作。经过通道选择后，降低了卷积层的维度，提高了卷积层的有效性。本文按照重要性高低对所有特征通道进行排序并选择了Conv4-2层的前300个通道和Conv4-1层的前80个通道进行融合参与后续运算。

3）通过互相关操作获取目标响应图。

2.4 基于KL散度的集成模型

利用2.3节的方法可以获得多个响应图，在本节将给出利用KL散度将多个响应图进行集成的过程。

我们可以用P表示第个跟踪器产生的目标位置响应图，ÎR×表示集成后的响应图。然后采用KL散度度量他们之间的广义距离，该距离越小则认为他们之间的分布差异越小，也就意味着集成后的概率图更能反映每一个概率图P中一致的部分，即目标出现概率最大的区域。通过最小化该KL散度，可以达到优化概率图的目的，具体过程如下式：

其中：

由于在跟踪场景中可能存在背景杂斑等干扰，因此在响应图中会存在“多峰”现象，即存在多个目标位置响应。文献[1]提供了一个行之有效的去噪策略，本文借鉴该策略将2.3节中得到的响应图进行过滤，下式给出过滤过程：

P,z＝P⊙P(5)

式中：＝{1,2,…,－1}，＝{＋1,＋2,…,}。

在式(5)中代表跟踪器的数量；⊙表示点乘操作。按照式(5)进行去噪处理可以使过滤后的概率图具有更高的置信度，提高跟踪的精确度。个响应图进行两两去噪处理后可以得到((－1))/2个噪音更少、置信度更高的概率图＝{1,2,1,3,…,2,3,…P－1,n}。因此公式(3)可以被重写成如下形式：

根据拉格朗日乘数法，令：

对所有的p、q求偏导并令¢()和¢()等于0，最终可求得：

通过取式(8)中响应图中的最大值可以得到目标的位置(,)：

3 实验结果与分析

3.1 实验环境

我们在Win10系统中使用Matlab2016b编程语言实现了所提出的目标跟踪算法。为了验证本文所提算法的有效性，在配备I7-10700 2.9GHz CPU和GTX-1080 GPU的PC上进行了实验，对比算法有HCF[7]、SiamFC[9]、TADT[8]、MDNet（Multi-Domain Convolutional Neural Networks）[11]、ATOM（Accurate Tracking by Overlap Maximization）[12]、MCFTS（Multi-Layer Convolutional Features for Thermal Infrared Tracking）[1]、HSSNet（Hierarchical Spatial-Aware Siamese Network）[2]、MLSSNet（Multi-Level Similarity Network）[3]、MMNet（Multi-Task Matching Network）[4]。其中MCFTS、MLSSNet、HSSNet和MMNet是专用红外目标跟踪算法，其他5种算法均为近年来优秀的可见光跟踪算法。

3.2 评估数据集

因为目前公开的红外视频数据集非常少，所以很多学者使用VOT-TIR16（The Thermal Infrared Visual Object Tracking 2016）[13]和PTB-TIR（Thermal Infrared Pedestrian Tracking Benchmark）[14]作为热红外跟踪评估数据集。VOT-TIR16数据集中视频序列过少，只包含25个红外视频序列，部分跟踪算法可以通过调参的方式去适应。PTB-TIR数据集中虽然包含60个红外视频序列，但跟踪目标均为行人，类别较为单一，无法评估跟踪算法对通用目标的跟踪效果。

2020年8月发布的LSOTB-TIR[15]有效解决了上述问题。LSOTB-TIR是迄今为止规模最大，多样性最强的热红外目标跟踪数据集。包含120个跟踪序列，涵盖22个目标类别，超过8.2万帧图像。LSOTB-TIR中定义了4种场景属性，这4种场景中的红外视频分别由车载、手持、无人机载和监控设备拍摄，保证了视频来源的多样性。著名的可见光数据集OTB-100（Object Tracking Benchmark）定义了11种挑战属性，LSOTB-TIR则定义了红外目标跟踪中的12种挑战属性。在这12种挑战属性中，有8种属性和OTB-100中的类似，分别为遮挡、出视野、背景杂斑、形变、尺度变化、低分辨率、快速运动和运动模糊，这里不再赘述。剩余的4种为热红外跟踪中特有的挑战属性，具体定义在表1中列出。

因为LSOTB-TIR的全面性和多样性，所以本文选择使用LSOTB-TIR作为评估数据集。需要说明的是，本文并没有选择全部视频序列进行测试，而是从上述4种应用场景数据集中随机选择了40个典型红外短视频序列进行测试，这是因为LSOTB-TIR没有跟踪失败重启机制，在长视频序列中如果在某一帧丢失目标并且在后续帧无法找回将极大影响跟踪成功率，采用短视频序列测试更加公平。本文所提算法在40个视频序列上的平均跟踪速度约为11.2FPS。

表1 LSOTB-TIR定义的的4种热红外挑战属性

3.3 与经典跟踪算法的性能对比

3.3.1 定量分析

图2为本文算法与MDNet等9种对比算法在LSOTB-TIR上生成的总精确度图和成功率图，本文提出的算法在这两项重要指标上均排名第一。与参照算法TADT相比，跟踪精确度和成功率分别提高了3.6%和4.2%，大幅超过了MMNet等红外目标跟踪算法，证明了本文采用的响应图集成策略取得较好的效果。图3给出了10种算法在变形、背景杂斑、运动模糊、相似物干扰等4种复杂场景下的精确度曲线图，本文所提算法均体现了较强的鲁棒性。相比优秀的可见光跟踪器ATOM，本文算法的跟踪精确度率分别提高了13.2%、10.5%、13.9%和27.8%，说明本文所提算法更适合于红外目标跟踪。

图2 10种算法在LSOTB-TIR的距离精度曲线图和成功率曲线

3.3.2 定性分析

为了更直观地评估本文所提算法的跟踪性能，图4给出了本文算法与另外3种在LSOTB-TIR数据集上表现优异的算法（TADT、ATOM和MDNet）在car_S_003、cow_H_001、person_S_015、street_S_001等4个视频序列的可视化跟踪结果。这4个视频序列非常具有代表性，包括汽车、动物、行人和环境复杂的街道，几乎涵盖了重要种类的地面红外目标。定性分析过程如下：

图3 10种算法在LSOTB-TIR上4种挑战性场景下精确度曲线图

图4 本文算法与另外三种算法跟踪结果比较

1）car_S_003视频序列中跟踪目标为行进中的汽车。ATOM跟踪器在第9帧时即受到周围相似物的干扰而发生漂移，第52帧中TADT和MDNet也接近丢失目标，第105帧时只有本文算法可以准确跟踪。

2）cow_H_001跟踪目标为右起第二只羊，从视频截图可以看出，ATOM和MDNet均受到相似物和周围环境干扰丢失目标，只有本文算法和TADT可以持续准确跟踪。

3）person_S_015视频序列中跟踪目标为右边的行人，旁边有个撑伞的行人和其同步前进，存在相似物及热交叉等干扰。ATOM、TADT分别在第30帧、第210帧时跟踪失败。相比MDNet，本文算法定位更为精确。

4）street_S_001视频序列中跟踪目标为街道上背包的行人，该视频序列包含热交叉、背景杂斑、遮挡等多种挑战。从视频截图可以看出其他几种算法跟踪框均漂移到相似的行人上，而本文算法因为集成了多个跟踪器可以正确跟踪。

3.4 消融实验

本节通过标准数据集LSOTB-TIR上的消融实验来验证算法相关模块设计的合理性。首先，为了验证通道选择的有效性，以跟踪器1（Ours_1）为例，比较了不进行通道选择（No_CS）和进行通道选择的效果对比。如图5(a)所示，本文算法在只选择了300个通道的情况下跟踪精度还提高了0.6%，证明冗余通道可以丢弃，并且丢弃冗余通道后跟踪速度有了显著提升，因此利用通道选择后的跟踪器参与后续集成更加高效。其次，为了验证集成方法的有效性，将本文提出的集成方法（Ours）与跟踪器1（Ours_1）、跟踪器2（Ours_2）及跟踪器3（Ours_3）分别单独跟踪的结果进行了对比。如图5(b)所示，可以看出集成算法较其他3个单独跟踪方法在跟踪精确度上分别提升了2.5%、3.6%和1.6%。消融结果证明了本文所提算法的有效性。

图5 消融实验

4 结论

基于简洁高效的全卷积孪生网络框架提出了一种多响应图集成的红外目标跟踪算法。算法的创新之处在于利用预训练的VGG-16网络来提取热红外目标的深度特征并进行通道选择，进而通过对不同层次的深度特征进行组合设计了3个跟踪器。最后基于KL散度将3个跟踪器的响应图进行集成以获取最优结果。为了验证本文算法的实际效果，在大型热红外数据集LSOTB-TIR上进行了测试并和近年来几种先进的目标跟踪算法进行了比较。实验结果表明，本文所提算法性能良好，具有一定的实际应用价值。

[1] LIU Q, LU X H, HE Z Y, et al. Deep convolutional neural networks for thermal infrared object tracking[J]., 2017, 134: 189-198.

[2] LI X, LIU Q, FAN Nana, et al. Hierarchical spatial-aware Siamese network for thermal infrared object tracking[J].2019, 166: 71-81.

[3] LIU Q, LI X, HE Z Y, et al. Learning deep multi-level similarity for thermal infrared object tracking[J]., 2021, 23: 2124-2126.

[4] LIU Q, LI X, HE Z Y, et al. Multi-task driven feature models for thermal infrared tracking[C]//34th, 2020: 11604-11611.

[5] 张晋, 王元余, 林丹丹, 等. 基于相关滤波的红外目标跟踪抗遮挡处理[J]. 红外技术, 2022, 44(3): 277-285．

ZHANG Jin, WANG Yuanyu, LIN Dandan, et al. Anti-occlusion process of infrared target tracking based on correlation filters[J]., 2022, 44(3): 277-285.

[6] 李畅, 杨德东, 宋鹏, 等. 基于全局感知孪生网络的红外目标跟踪[J]. 光学学报, 2021, 41(6): 0615002-1-0615002-11.

LI Chang, YANG Dedong, SONG Pen, et al. Global-Aware siamese network for thermal infrared object tracking[J]., 2021, 41(6): 0615002-1-0615002-11.

[7] MA C, HUANG J B, YANG X, et al. Hierarchical convolutional features for visual racking[C]//, 2015: 3074-3082.

[8] LI X, MA C, WU B Y, et al. Target-aware deep tracking[C]//(CVPR), 2019: 1369-1378.

[9] Bertinetto L, Valmadre J, Henriques J F, et al. Fully-convolutional siamese networks for object tracking [C]//, 2016: 850-865.

[10] Selvaraju R, Cogswell M, Das A, et al. Grad-cam: visual explanations from deep networks via gradient based localization[C]//, 2017: 618-626.

[11] Nam H, Han B. Learning multi-domain convolutional neural networks for visual tracking[C]//, 2016: 4293-4302.

[12] Danelljan M, Bhat G, Khan F S, et al. Atom: Accurate tracking by overlap max-imization[C]//, 2019: 4660-4669.

[13] Felsberg M, Kristan M, others. The thermal infrared visual object tracking VOT-TIR2016 challenge results[C]//, 2016: 824-849.

[14] LIU Q, HE Z, LI X, et al. PTB-TIR: A thermal infrared pedestrian tracking bench-mark[J]., 2019, 22(3): 666-675.

[15] LIU Q, LI X, LI C L. LSOTB-TIR: A large-scale high-diversity thermal infrared object tracking benchmark[C/OL]//28, 2020, https://arxiv.org/abs/2008.00836.

Thermal Infrared Target Tracking Algorithm Based on KL Divergence and Channel Selection

WU Jie1，DUAN Yanyan1，MA Xiaohu2

(1. College of Information Technology, Taizhou Polytechnic College, Taizhou 225300, China;2. School of Computer Science and Technology, Soochow University, Suzhou 215006, China)

To solve the problem that a single tracker cannot effectively deal with the complex background and significant changes in target appearance, leading to the problem of low accuracy of thermal infrared target tracking, a tracking algorithm based on a fully-convolutional Siamese network is proposed for thermal infrared tracking. First, a pre-trained convolution neural network is used to extract the features of multiple convolution layers of thermal infrared targets and select channels. On this basis, three corresponding trackers are constructed, and each tracker performs tracking independently and returns a response map. Then, the Kullback Leibler (KL) divergence is used to optimize and integrate multiple response maps to obtain a stronger response map. Finally, the integrated response map is used to determine the target location. To evaluate the performance of the proposed algorithm, experiments were conducted using the most comprehensive thermal infrared tracking benchmark, LSOTB-TIR. The experimental results show that the proposed algorithm can adapt to complex and diverse infrared tracking scenes, and its comprehensive performance is better than that of existing infrared tracking algorithms.

thermal infrared, fully-convolutional siamese network, multi response maps, channel selection, kullback-leibler divergence

TP391.41

1001-8891(2023)01-0033-07

2022-07-25；

2022-08-23.

吴捷（1982-），男，副教授，主要研究方向：视觉目标跟踪。E-mail:37323736@qq.com。

国家自然科学基金（61402310）；江苏省自然科学基金（BK20141195）；泰州职业技术学院重点科研项目（1821819039）。