王法胜 李 富 尹双双 王 星 孙福明 朱 兵
近年来,无人机 (Unmanned aerial vehicle,UAV)目标跟踪技术在道路规划、交通监控等问题中得到广泛应用[1].目前,有两类目标跟踪算法得到研究人员的高度关注: 基于相关滤波(Correlation filter,CF)的跟踪方法和基于深度学习(Deep learning,DL)的跟踪方法[2].后者使用一个或多个深度网络对目标进行跟踪,大大提高了跟踪的准确性和鲁棒性.但是这类方法需要较高的算力,导致其在无人机平台上难以满足实时跟踪目标的要求.而CF 跟踪方法因具有较低的计算成本和较高的跟踪精度,在无人机目标跟踪领域得到了广泛的应用[3].这类方法通过空间域中的循环移位生成训练样本[4],但循环移位操作会导致出现边界效应问题,从而降低滤波器的判别力.为此,研究人员提出在跟踪框架中加入余弦窗口来抑制边界效应[4-5],并在此基础上结合其他策略来进一步增强算法的判别能力.例如,具有尺度和旋转自适应的长时目标跟踪算法[6],提出将傅里叶-梅林变换与核相关滤波方法结合,以提高滤波器对尺度和旋转参数估计的鲁棒性和准确性.融合显著性与运动信息的相关滤波跟踪算法[7],将目标的像素级概率性表征模型与相关滤波算法融合,并且提出一种基于显著性的观测模型,提高算法面对复杂跟踪场景时识别目标的能力.另有研究人员提出空间正则化[5,8-10]和上下文学习[11-14]等策略提高相关滤波的性能.但这些算法均使用余弦窗口,而余弦窗口的引入对训练样本造成了污染,降低了算法的跟踪性能.
CF 跟踪算法中采用的手工特征主要包括灰度特征、方向梯度直方图(Histogram of oriented gradient,HOG)和颜色名称(Color names,CN)等.Bolme 等[15]首次提出了仅使用灰度特征的CF 跟踪算法.后续的一些工作[4,16-17]为了学习具有多通道的滤波器,使用了灰度特征、HOG、CN 等多种特征的组合.但手工特征无法表述目标全部的语义信息.随着ResNet、VGG (Visual geometry group)等提取深度特征的卷积神经网络(Convolutional neural network,CNN)在诸如图像分类和图像识别等具有挑战性视觉任务上取得巨大成功,研究人员开始将深度特征加入到CF 跟踪框架中[18-19],显著提高了CF 跟踪算法的鲁棒性.但CNN 特征的计算负担较高,严重影响跟踪器的实时性.受到无人机平台本身计算性能的限制(仅搭载CPU),现有的无人机目标跟踪算法[20-22]大都仅使用手工特征来描述目标的外观.此外,这些跟踪算法仅能较好地处理光照条件良好的跟踪场景,而在跟踪夜间场景下的目标时则遇到性能严重下降的挑战.
为了解决以上问题,本文提出一种全天实时多正则化相关滤波算法(All-day and real-time multiregularized correlation filter,AMRCF)跟踪无人机目标,即,以多正则化的相关滤波器为基础框架[21],引入自适应图像增强模块、轻量型深度网络和高斯形状掩膜.首先,引入一个自适应图像增强模块,在不影响图像各通道颜色比例的前提下,对获得的图像进行增强,以提高夜间目标的跟踪性能.其次,引入一个轻量型的深度网络来提取目标的深度特征,并与手工特征一起来表示目标的语义信息.此外,在算法框架中嵌入高斯形状掩膜,在抑制边界效应的同时,有效避免训练样本污染.AMRCF 与其他先进的目标跟踪算法在DTB70 基准数据集[23]上的总体比较如图1 所示.
图1 AMRCF 与其他算法在DTB70 上的总体性能比较Fig.1 Overall performance of AMRCF compared with other algorithms on DTB70
本文主要贡献如下:
1)以多正则化的相关滤波器为基础框架,引入一个自适应图像增强模块,自动判别无人机目标场景的光照条件,并在不改变图像各通道颜色比例的前提下,根据判别结果对图像进行相应的处理.
2)引入轻量型的深度网络[24]来提取目标的深度特征,并与手工特征一起表示目标的语义信息.该网络的计算量小,使用CPU 平台便可以进行特征的提取,并且不会大幅降低算法的跟踪速度.
3)在CF 跟踪框架中嵌入高斯形状掩膜,建立相关滤波跟踪算法模型,并使用交替方向乘子方法优化求解,在抑制边界效应的同时,减少样本污染问题.
4)在5 个公开的无人机基准数据集DTB70[23]、UAVTrack112[25]、UAVDark135[26]、VisDrone-SOT2018[27]和UAV123[28]上进行综合实验.结果表明,所提出的算法具有较高的精确度和鲁棒性.本文算法代码及结果发布于https://gitee.com/he_bing_DLMZ/amrcf.
本节简要介绍与本文内容相关的跟踪算法,包括基于相关滤波的跟踪算法以及无人机目标跟踪算法.
基于CF 的跟踪算法将跟踪任务描述为岭回归问题,目的是训练滤波器来区分目标与背景区域.首个CF 跟踪器MOSSE[15]被提出后,Henriques 等[4,29]将核技巧(Kernel trick)引入到相关滤波公式中,并利用循环矩阵的特性将求解过程转换到傅里叶域,简化了滤波器优化过程.此后,研究人员又从很多方面提出不同方法来提高CF 跟踪器的性能,包括尺度估计[30-31]、边界效应抑制[5,8-10,32-33]、时间退化解决方案[34-36]、特征表示[19,37]、注意力机制[38-40]以及特征去冗余[14,41-42].
CF 跟踪算法通过空间域的循环移位操作来生成更多的训练样本,导致出现边界效应问题.Danelljan 等[5]提出空间正则化相关滤波跟踪算法(Spatially regularized discriminative correlation filter,SRDCF),该算法加入空间正则化组件,根据相关滤波器的空间位置,对滤波器系数进行惩罚来抑制边界效应.蒲磊等[10]结合SRDCF 与CNN,提出了基于深度空间正则化的CF 算法.该算法选取VGG网络第5 层卷积特征提取目标的空间可靠区域,将该区域信息用于对样本进行裁剪并引入目标函数,从而建立空间约束模型.Xu 等[35]在时空正则化相关滤波算法[34](Spatial-temporal regularized correlation filter,STRCF)的基础上,通过将多特征通道与滤波器的结构进行关联,以在空间维度上进行组特征选择来解决边界效应问题.王科平等[43]以跟踪目标的邻域信息为基础,引入掩膜矩阵,提取目标的空间信息,并通过在目标函数中构建时空感知约束项,强化相关滤波器对时空二元信息的学习能力,增强滤波器对干扰信息的鲁棒性.
上述方法在抑制边界效应上存在一个共同点,即使用余弦窗口.余弦窗口与采样区域相乘之后,边界附近区域被强制为零,使得获取的训练样本极易受到噪声的污染,进而导致滤波器性能下降.为此,Li 等[44]提出在背景感知相关滤波算法[8](Background aware correlation filter,BACF)中用高斯掩膜替换余弦窗口以解决样本污染问题.与使用空间域循环移位产生的样本来训练滤波器不同,文献[45]通过传统的滑动窗口对一组真实且密集的块进行采样,用采样后的样本来训练滤波器,进而从根本上抑制边界效应.
基于CF 的跟踪器在无人机目标跟踪中得到了广泛的应用,但平面内外旋转、光照不足、遮挡、形变等给无人机目标跟踪带来了极大的挑战.为了更好地应对这些挑战,研究人员进行了大量的研究工作以改进无人机目标跟踪算法.Li 等[22]提出一种自适应时空正则化无人机跟踪算法,通过超参数对正则化项进行自动调整来抑制边界效应,同时利用隐藏在响应图中的局部和全局信息平滑时间.Fu 等[46]提出一种具有双重正则化策略的无人机跟踪器,通过对涉及相关运算的滤波器直接正则化来抑制边界效应,并利用正则化器识别目标区域来减少背景噪声.为了应对无人机目标的外观突变,文献[20]在CF跟踪框架中嵌入自适应混合标签以增强算法对外观突变的抗性,并将理想标签与相关滤波器进行联合优化来保持时间一致性.传统的CF 无人机跟踪算法没有考虑历史样本信息与不同通道之间的差异性,Ye 等[21]通过规范响应的偏差对响应变化进行平滑,同时通过通道的可靠性来实现自适应通道权重分布,从而更好地适应对象外观变化,以此增强跟踪器从背景中区分目标的能力.针对目前没有专用于夜间跟踪的算法,Li 等[26]在目标跟踪框架中加入自适应光照强度模块,利用该模块改善夜间目标序列的质量,以此提高算法的夜间跟踪效果.
本节介绍所提出的跟踪算法AMRCF,算法的整体框架如图2 所示.AMRCF 由三部分组成,第一部分是自适应图像增强模块,第二部分是特征提取模块,第三部分是嵌入高斯形状掩膜的多正则化相关滤波(Multi-regularized correlation filter,MRCF)模块.对于输入的视频序列,首先将序列的第1 帧取出做光照条件判别,并根据判别结果对后续图像做不同的处理.随后,在每一帧中,计算高斯形状掩膜,并提取样本区域中的手工特征和深度特征,将两种特征进行线性加权.最后,将优化的滤波器hk,通道权重分布βk与样本特征进行相关运算以得到响应图,响应图中的最大值位置即为目标位置.
图2 AMRCF 跟踪算法框架图Fig.2 Framework of the proposed AMRCF algorithm
为了提高算法的夜间跟踪能力,本文引入一种自适应图像增强模块.该模块首先使用光照强度表达式,将图像复杂的光照信息转换成一个常数,并利用该常数构建光照条件判别式.然后在像素级别上根据判别结果对图像采取不同的处理措施,以达到到图像增强的目的.
对于一幅大小为a×b的RGB 图像I ∈Ra×b×3,利用式(1)计算出它的光照强度L
其中,L(i,j,I)表示图像I在坐标 (i,j)处的光照强度,ψm(I(i,j))表示图像I在颜色通道m的坐标 (i,j)处的光照强度值.具体来说,ψR(I(i,j))表示红色通道中对应位置的光照强度值,且颜色通道系数αR,αG,αB满足αR+αG+αB=1.
将式(1)代入式(2)中,得到图像I的光照强度对数平均值
其中,δ是一个很小的非零数.至此,便完成了由复杂光照信息到简单常数的转换.
文献[26]针对式(2)有效性的实验结果表明,光照强度的对数平均值可以有效地表达图像的光照强度信息.基于此,构建式(3)所示的判别式
式(3)是一个夜间场景判决器,其中τ为给定阈值,也就是说,S(I)=1 表明图像I是一幅夜间图像,反之则是白天图像.
通过以上公式,便可以判别图像所处的光照场景,但自适应图像增强模块的最终目的是对图像进行增强.为此,采取下面的方案对图像进行增强处理.
首先,使用L(i,j,I)和计算出式(4)所示的全局自适应因子Lgb(i,j,I)
其中,Lmax(I)=max(L(i,j,I)).
然后用全局自适应因子Lgb(i,j,I)对图像I进行像素级别的增强处理
其中,Ie为增强后的图像.
通过式(1)~(5),实现对图像的自适应增强处理,具体的实验效果对比如图3 所示.与黑暗场景下的原始图像相比,经过自适应图像增强模块处理后,图像的质量得到了明显提升,体现在光照强度变化和图像颜色变化上,这有利于特征提取模块提取目标特征.
VGG、ResNet 等深度网络大大提升了目标跟踪算法的性能,但大幅降低了跟踪的实时性,难以满足无人机目标跟踪需求.Wang 等[24]提出一种轻量型的深度网络,该网络的计算量较小,在提高算法精度的同时,能达到实时的跟踪速度.
文献[24]将VGG-M 作为教师网络,使用知识蒸馏[47]来生成轻量型的学生网络CF-VGG.教师网络和学生网络的具体架构如图4 所示.在蒸馏的过程中,使用式(6)所示的语义保真度损失Lfidelity来确保学生网络能够保持与教师网络相似的特征表示能力
图4 教师网络和学生网络的架构Fig.4 Architectures of the teacher network and the student network
其中,t和s分别表示目标区域和搜索区域,Ltarget,Lsearch是目标区域损失和搜索区域损失.φ(·)表示学生网络可训练的特征嵌入,ς(·)表示教师网络的固定嵌入.
学生网络的离线提取过程在主要面向目标识别任务的ImageNet 数据集[48]上进行.为此,文献[24]提出式(7)所示的相关跟踪损失Ltracking,将学生网络的任务从目标识别转移到目标跟踪
其中,⊙ 表示哈达玛积(Hadamard product),F-1表示逆离散傅里叶变换,c∈{low,middle,high}表征低中高卷积层的特征表示的索引,是相应卷积层滤波器的复共轭,表示相应层特征嵌入的复共轭,rc,vc分别是相关响应图和真实值标签,相关跟踪损失是两者之间的欧氏距离.相关跟踪损失将分类的源目标转换为回归目标进行跟踪,同时通过学习相似度(或模板匹配)来评估目标对象在帧之间的微小外观变化.
本文将CF-VGG 引入到AMRCF 框架中来提取目标的深度特征,与手工提取的特征一起来描述目标.具体而言,对于第k+1 帧,以上一帧k的目标位置为中心,以自适应的方式裁剪样本区域,对于该区域,CF-VGG 使用stride=2 的步长进行下采样,并用 ReLU 函数对更有助于精确定位[18]的第3 卷积层上的CNN 特征进行处理,以描述目标的语义信息.
2.3.1 基线算法
MRCF 的目标函数如式(8)所示
其中,T 表示矩阵的转置,y∈RN是期望响应,分别是第 k 帧的第 d 通道所对应的矢量化特征和滤波器.⊗代表空间域的卷积操作,而P是用于减轻边界效应的二进制矩阵.κ是预定义的系数,ε1和ε2分别是响应偏差感知正则化项(Response deviation-aware regularization)和通道可靠性感知正则化项(Channel reliability-aware regularization),表达式分别如式(9)、式 (10)所示.λ是控制响应偏差感知正则化权重的超参数,γ是预定义的常数.βk,β0分别是模型训练过程中的通道权重分布和初始权重分布,表征两个连续帧之间的响应差异,其具体表达式见式(11)
2.3.2 高斯形状掩膜
CF 跟踪器通过空间域中的循环移位操作来获取训练样本,但没有考虑到采样区域的边界而导致训练样本出现边界不连续性,从而引起边界效应.为抑制边界效应,研究人员在模型的训练过程中加入余弦窗口.但余弦窗口更强调基础图像的中心区域,与采样区域相乘之后,边界附近区域被强制为零,从而在模型训练过程中造成样本污染.为此,本文将高斯形状掩膜嵌入跟踪器的目标函数中,在抑制边界效应的同时,减少训练样本污染问题.高斯掩膜M的定义如下所示
其中,p×q和H×W分别是目标边界框和基础图像的尺寸,(i,j)是样本区域中的坐标点.υ是用来控制训练样本权重衰减速度的参数.
图5 为相关的可视化图.图5(a)中的红框是基础图像区域,用于获取训练样本,绿框是目标区域,其大小分别是H×W和p×q.训练样本附带的边界效应是基础图像循环移位而使样本边界不连续造成的,图中紫色框所代表的样本中包含了目标区域及其周围的背景区域,其内部区域为连续区域,不包含图像边界.而黄色框所代表的样本中则包含了图像边界.图5(b)是循环样本与余弦窗口相乘后的可视化图,样本的边界效应得到抑制,但也抑制了目标边界框之外的像素.黄色框中的样本存在大量的黑色区域,使得该样本被黑色区域污染.因此,引入余弦窗口后存在使远离目标中心的负样本质量降低的风险.图5(c)是高斯掩膜的可视化图像,从图像中心到四周,权值呈递减趋势,以此突出中心样本,并降低边缘样本的重要性,达到抑制边界效应和防止样本污染的目的.
图5 边界效应抑制可视化图((a)空间域循环移位产生的带有边界效应的训练样本;(b)加入余弦窗口后,带有污染的训练样本;(c)高斯形状掩膜可视化图,样本的中心距离图像中心越近,其权重越大,重要性越高,反之则越低)Fig.5 Visualization of boundary effect suppression ((a)Training samples with boundary effect generated by cyclic shifts in the spatial domain;(b)Training samples with contamination after adding cosine window;(c)Gaussian-shaped mask visualization,the closer the center of the sample is to the center of the image,the higher the weight and importance,and vice versa)
2.3.3 AMRCF 算法的建模和优化
在目标函数中嵌入高斯形状掩膜,得到本文算法AMRCF 的目标函数,如式(13)所示
为了最大限度地提高求解速度,应用交替方向乘子法(Alternative direction multiplier method,ADMM),通过迭代求解以下子问题来优化式(16).
3)子问题β
4)更新拉格朗日乘子
与文献[49]一致,本文分别使用式(23)和式(24)来更新拉格朗日乘子和惩罚因子
2.3.4 模型更新
2.3.5 跟踪框架
跟踪过程中,对于每一个视频序列,首先用式(3)来判别序列第1 帧图像的光照条件,并根据判别结果使用自适应图像增强模块对后续帧进行不同的处理.随后,对于每一帧k+1,以前一帧k中的目标位置为中心来裁剪相应尺度的样本区域,以提取其手工特征和深度特征,并采用式(26)将两种特征进行线性求和以得到最终的目标特征
其中,xh和xd分别是手工特征和深度特征,而xtotal是总特征,ϑ是平衡两种特征的参数.
最后,将每个通道的响应与优化的通道权重进行元素乘积,则最终的响应函数Rk+1为
本节采用5 个公开的无人机目标跟踪基准DTB70、UAVTrack112、UAVDark135、VisDrone-SOT2018 和UAV123,与14 个先进的相关滤波跟踪算法进行对比实验,包括ARCF[50]、AutoTrack[22]、MRCF[21]、MSCF[20]、DRCF[46]、SRDCF[5]、STRCF[34]、Staple[51]、SAMF[52]、ECO_HC[37]、DSST[30]、fDSST[30]、KCF[4]和BACF[8].
为公平起见,受测跟踪算法的参数均来自官方版本,均在同一平台进行.
1)实验平台.本文所有实验都在配备Intel(R)Xeon(R)E-2 224 CPU @ 3.4 GHz 16 GB 内存的Windows10 系统上进行,使用的软件是Matlab R2018a.
2)实验特征.AMRCF 采用HOG、CN、灰度特征和深度特征的组合来表示目标对象.其他算法采用的目标特征与原文保持一致,实验时未作修改.
3)实验参数.颜色通道强度系数αR,αG,αB分别取0.299、0.587、0.114,夜间场景指示器的判决阈值τ取0.148,光照强度对数平均值式(2)中δ取0.001.高斯掩膜中用来控制训练样本权重衰减速度的参数υ=4.在目标函数求解中,设置ADMM 的迭代次数为3,学习率是η=[0.0199,0.0199],正则化系数分别是κ=0.01,λ=0.004,γ=10,并用µ=1,µmax=100,σ=10 来更新拉格朗日乘子,用ϑ=0.7来平衡手工特征与深度特征.
4)评估指标.所有评估均基于一次性评估(Onepass evaluation,OPE),其包括两个指标,即精确度和成功率[53].通过估计边界框与真实边界框之间的中心位置误差(Center location error,CLE)来衡量精确度,用精确度图(Precision plot,PP)中CLE 低于20 像素的帧的百分比对跟踪器进行排名.通过计算估计边界框与真实边界框之间的交并比(Intersection over union,IoU)来衡量成功率,并使用成功图(Success plot,SP)的曲线下面积(Area under curve,AUC)对跟踪器进行排名.此外,使用帧率对算法的跟踪速度进行排名.
3.2.1 跟踪性能对比
为验证AMRCF 算法中自适应图像增强模块、轻量型深度网络和高斯掩膜对本文算法性能的影响,在5 个无人机目标跟踪基准数据集上进行了消融实验,实验结果如表1 所示.
表1 消融实验结果对比Table 1 Comparison of ablation experiment results
其中,与基线算法相比,双下划线表示性能增强,单下划线表示性能减弱.Baseline 是基线算法MRCF,Baseline+Ada、Baseline+CF-VGG、Baseline+M、Baseline+Ada+CF-VGG 分别表示在MRCF 框架中加入自适应图像增强模块、轻量型深度网络、高斯掩膜、自适应图像增强模块和轻量型深度网络.Baseline+Ada+CF-VGG+M 则是加了所有模块的本文算法AMRCF.
在由白天序列构成的DTB70 数据集上,根据式(4)的判别结果,不进行图像增强处理,所以只添加自适应图像增强模块的算法结果与基线算法结果持平.只添加高斯掩膜的算法结果低于基线算法结果,当某一帧的估计边界框发生漂移时,下一帧由基础图像循环移位产生的训练样本因不包含目标而使高斯掩膜无效,致使跟踪性能降低.而同时添加3 个模块的算法达到了最好的实验效果.
在由夜间序列构成的UAVDark135 基准数据集上,Baseline+Ada、Baseline+CF-VGG、Baseline+M 和Baseline+Ada+CF-VGG 算法的性能都超越了基线算法,且在只添加单个模块的算法中,Baseline+Ada 获得了最好的实验结果,与基线算法相比,在精确度和成功率上分别获得0.9% 和0.8% 的提升.这表明,自适应图像增强模块的引入能显著提升算法的夜间跟踪效果.添加3 个模块的Baseline+Ada+CF-VGG+M 提升最大,分别提升1.7%和0.9%.
在UAV123 数据集上,除Baseline+Ada 和Baseline+Ada+CF-VGG 外,其他改进算法的成功率均低于基线算法.UAV123 包含动画游戏等虚拟视频序列和较多快速移动序列,本文算法对于此类序列难以获得提升.在精确度方面,Baseline+Ada+CF-VGG 以及加入3 个模块的算法均比基线算法的精确度高,表明深度特征与其他模块共同作用能够在一定程度上提高算法精确度.
综合上述的分析,同时添加自适应图像增强模块、轻量型深度网络和高斯形状掩膜后,本文算法在5 个基准数据集、共10 组指标数据上,有8 组结果得到提升,而减弱的指标数据与基线算法的对应指标相比,其降幅较小,从而验证了AMRCF 算法中各模块的有效性.
3.2.2 跟踪速度对比
为比较不同模块对计算复杂度及跟踪速度的影响,本节在5 个数据集上,对包含不同模块的算法进行帧率对比,实验结果如表2 所示.Ada 代表自适应图像增强模块,它根据序列首帧的光照情况对整个序列采取不同的处理策略,对夜间序列需要采取逐像素重计算的方式来进行增强,因此该模块的计算复杂度取决于图像帧的大小.UAVDark135和UAVTrack112 数据集中均含有夜间序列,Baseline+Ada 对此类序列进行增强处理,相较于基线算法,计算复杂度增加,帧率都下降了约4.6 fps.DTB70、UAV123 和VisDrone-SOT2018 不含夜间序列,自适应图像增强模块判断每序列首帧的光照条件,不做增强处理,帧率下降可忽略不计.
表2 消融实验帧率对比Table 2 Frame rate comparison of ablation experiment
本文使用轻量级深度网络CF-VGG 第10 层的输出作为深度特征来描述目标的语义信息,该层数据输出的计算量大,耗费时间长,对帧率影响明显,在5 个数据集上的平均帧率下降了约5.9 fps.高斯掩膜的计算复杂度取决于目标边界框和基础图像的尺寸,嵌入跟踪框架后,算法整体复杂度略有上升,在5 个数据集上的平均帧率下降了约1.6 fps.引入3 个模块的AMRCF 算法计算复杂度最高,在UAVDark135 和UAVTrack112 上分别为14.5929 fps和28.573 fps,平均帧率约为25 fps,降低约8.5 fps,但整体上仍然可满足实时性的要求.需要强调的是,本文实验均是在仅配备有单CPU 的计算机上进行,以最大程度模拟无人机运行环境.
3.2.3 不同深度网络的对比
本节将CF-VGG 与其教师网络VGG 进行对比消融实验.在本文算法框架中,将CF-VGG 替换成其教师网络,得到Baseline+Ada+M+VGG,实验结果如表3 所示.由表3 可知,与基线算法相比,采用VGG 深度网络的特征能够显著提高跟踪的精确度和成功率,但算法帧率却急剧下降,3 个数据集分别下降约20.7 fps、16.7 fps 和21.8 fps.这表明,VGG 网络结构复杂,特征提取过程耗费大量时间.而本文算法Baseline+Ada+M+CF-VGG 在3 个数据集上的精确度和成功率均高于采用VGG 网络的算法,且帧率方面大大超过了采用VGG 网络的算法.该结果充分说明,相较于教师网络VGG,使用CF-VGG 网络能够大幅提高跟踪帧率,而其在精确度和成功率方面的提升则归因于在生成CFVGG 过程中采用了相关跟踪损失.
表3 CF-VGG 与教师网络VGG 性能对比Table 3 Comparison of performance between CF-VGG and teacher network VGG
消融实验证明了AMRCF 算法中各模块的有效性,本节为得到更加准确的实验结果,在5 个无人机目标跟踪数据集上,与14 种CF 跟踪算法进行实验对比,结果如图6 所示.
图6 AMRCF 与其他算法在5 个无人机目标跟踪基准上的实验结果Fig.6 Experimental results of AMRCF and other algorithms on five UAV target tracking benchmarks
3.3.1 整体性能评估
1)白天跟踪性能.所使用的5 个基准数据集中,DTB70、UAV123 和VisDrone-SOT2018 均由白天序列构成,使用这3 个数据集进行白天跟踪性能的评估.在DTB70 上,AMRCF 以72.6% 的精确度和48.8% 的成功率位居第1,两项指标均比排名第2 的AutoTrack 高1.0%,而且比基线算法MRCF分别高6.0% 和2.2%.在UAV123 上,本文算法虽未获得最好的性能,但以69.4% 的精确度(比MRCF 高0.1%)和47.8% 的成功率位于前列.在Vis-Drone-SOT2018 上,本文算法分别以81.6% 的精确度位居第1 和59.8% 的成功率位居第2,在成功率上比MRCF 低0.2%,但精确度要高0.4%.
2)夜间跟踪性能.UAVDark135 是包含135 个夜间序列的无人机目标跟踪数据集.为了验证AMRCF 的夜间跟踪性能,本文在该基准数据集上进行了相关实验.实验结果表明,本文算法能对夜间目标进行精确跟踪,并以61.0% 的精确度位居第1,以46.4%的成功率位居第2.在成功率上,仅比排名第1 的SRDCF (46.5%)低0.1%,但在精确度上,比排名第2 的MSCF 高1.0%.且本文算法在两组指标上分别比基线算法高1.7% 和0.9%.
3)全天跟踪性能.本文提出的跟踪器能够进行全天目标跟踪,为此,在同时含有白天序列和夜间序列的UAVTrack112 上进行验证.由图6(c)可知,AMRCF 分别以71.2% 的精确度和48.4% 的成功率位居第1.在两项指标上,比排名第2 的跟踪器分别高1.7% 和1.0%,且分别比基线算法高3.1% 和1.7%.而在UAV123 数据集上排名第1 的ECO_HC,在UAVTrack112 的精确度图上仅排名第4,比AMRCF 低2.6%.
4)跟踪速度.对无人机目标跟踪来说,帧率是至关重要的评价指标,它表征算法每秒内跟踪的序列帧数.各算法在5 个无人机基准数据集上的帧率如表4 所示.其中,粗体、双下划线、单下划线分别表示排名前3 的算法.在夜间数据集UAVDark135上,AMRCF 对每帧图像都要进行光照增强处理,会耗费大量时间,故帧率较低,约为14 fps.在其他4 个基准数据集上的帧率都超过25 fps,并且在5个数据集上达到24.6 fps 的平均帧率,能够满足实时跟踪的需求.
表4 各跟踪算法在无人机目标跟踪基准上的帧率比较Table 4 Comparison of frame rates of various tracking algorithms on UAV target tracking benchmarks
3.3.2 与无人机目标跟踪算法的比较
AMRCF 是面向无人机目标的跟踪算法,为此,将AMRCF 与5 个先进的无人机目标跟踪算法在5 个基准数据集上的性能进行比较,结果如表5 所示.其中,粗体、双下划线、单下划线分别表示排名前3 的算法.
表5 AMRCF 与无人机目标跟踪算法的性能比较Table 5 Performance comparison of AMRCF and UAV target tracking algorithms
AMRCF 在5 个基准数据集上,有9 组指标排在前3 名,且有7 组指标数据是第1 名,与排名第2 的算法相比,领先0.4%~1.7%.而基线算法MRCF 有两组指标排在第1,与排名第2 的算法相比,仅有0.2% 的提升.在UAV123 上,AMRCF 以69.4% 的精确度排第2,比排名第1 的DRCF低0.6%.在VisDrone-SOT2018 上,AMRCF 以59.8% 的成功率排第2,仅比基线算法MRCF 低0.2%,比排名第3 的ARCF 高1.4%.这表明AMRCF 在无人机目标跟踪中的出色性能.
3.3.3 针对挑战属性的评估
为评估AMRCF 在不同挑战属性上的表现,本节将跟踪算法在DTB70 数据集不同挑战属性上的性能进行了汇总,如表6 所示.其中,粗体、双下划线、单下划线分别表示排名前3 的算法.SV、ARV、OCC、DEF、FCM、IR、OR、OV、BC 和SOA 代表的挑战属性分别是尺度变化、纵横比变化、遮挡、形变、相机快速移动、平面内旋转、平面外旋转、移出视野、背景杂波和相似物体.
表6 各算法在DTB70 基准不同属性上的性能比较Table 6 Performance comparison of each algorithm on different attributes of the DTB70 benchmark
本文算法在SV、ARV、DEF、IR、OR、BC 上获得最好的性能,在精确度上分别比排名第2 的跟踪器高2.8%、5.3%、7.8%、1.2%、7.3%、0.5%,在成功率上高2.9%、3.7%、4.0%、1.2%、2.6%、0.1%.AMRCF 在OV 上位居第2 名,在OCC、FCM 和SOA 属性上没有排进前3 名,但在评测算法中依然名列前茅.由此表明,本文算法能够很好地应对无人机目标跟踪中的各种挑战.
3.4.1 跟踪成功案例分析
为更加直观地展示AMRCF 相对于其他无人机目标跟踪算法的优势,本节对以上6 个无人机算法在具有平面内外旋转、遮挡、光照不足、形变等特定场景下的跟踪结果进行了可视化,可视化结果如图7 所示(完整的视频在该站点中可以访问https://gitee.com/he_bing_DLMZ/amrcf/tree/master/A MRCF/results/vis-video).
图7 6 个无人机目标跟踪算法的跟踪结果在部分序列上的可视化对比Fig.7 Visual comparison of tracking results of six UAV tracking algorithms on selected sequences
1)平面内外旋转.在视频序列DTB70_BMX5中,相对于拍摄平面,序列中的目标做极限动作时,在第47、77、158 和200 帧图像中发生平面内外旋转.其他几个算法在前几帧对目标进行了跟踪,但在后续帧中跟踪框发生漂移而丢失目标.AMRCF 算法能够持续捕获目标,未发生目标丢失情况.在视频序列UAV123_wakeboard5 中,目标在第343、581 和643 帧中发生旋转,AMRCF 算法对目标进行了精准的定位.这表明,通过引入高斯形状掩膜并用CF-VGG 提取目标的深度特征,有效解决了因目标旋转而导致跟踪失败的问题.
2)遮挡.遮挡是无人机目标跟踪中占重要比例的挑战因素,在视频序列DTB70_BMX5 和UAV-123_wakeboard5 中都存在遮挡现象.在DTB70_BMX5 的第96 帧,目标被部分遮挡时,其他算法都丢失了目标,而AMRCF 和DRCF 成功捕获目标.不同的是,本文算法对目标进行了精准的定位,而DRCF 边界框发生漂移,导致仅捕获到部分目标.在第105 帧,目标发生完全遮挡后重现时,DRCF彻底失去目标,而本文算法对目标进行了精准捕获.在视频序列UAV123_wakeboard5 的第365 帧,目标被海浪遮挡,在第373 帧再次出现时,仅本文算法、AutoTrack 和DRCF 定位到了目标.引入高斯形状掩膜来抑制边界效应和防止样本污染,使得本文算法的定位精度要高于AutoTrack 和DRCF.
3)光照不足.UAVDark135_bike2 和UAVTrack112_dark car1-n 是夜间拍摄的,光照不足是它们共有的挑战.在视频序列UAVDark135_bike2的前30 帧,6 个算法都对目标进行了精准定位,但在第30 帧后,其他算法无法应对黑暗场景而纷纷丢失目标.在第88 帧后,除AMRCF 外,其他5 个算法彻底丢失目标.在视频序列UAVTrack112_dark car1-n 的前197 帧,测试算法都定位到目标,但AutoTrack 发生小幅度的漂移而未精准定位.在第227 帧到259 帧,目标从相对较亮的区域移至黑暗区域时,AutoTrack、ARCF 和DRCF 丢失目标,AMRCF 引入的自适应图像增强模块,可以在不改变图像各通道颜色比例的前提下对图像进行增强处理,而未丢失目标,且对目标进行精准定位.
4)形变.在视频序列UAV123_wakeboard5 的跟踪过程中,目标要通过不同的动作来维持自身平衡而发生大幅度形变,致使目标特征变化较大.在第373 帧和432 帧,随着目标形态的变化,MRCF、MSCF、ARCF 算法相继失去对目标的跟踪能力,且AutoTrack 在目标尺度估计上出现较大偏差.而本文算法使用CF-VGG 来提取深度特征,并结合CN等手工特征来描述目标的语义信息,实现了对目标的鲁棒跟踪.
通过以上分析和可视化结果可以看出,本文将MRCF 与自适应图像增强模块、CF-VGG 和高斯形状掩膜结合而构建的AMRCF,可以轻松应对诸如平面内外旋转、遮挡、光照不足、形变等挑战.
3.4.2 跟踪失败案例分析
本文所提出的AMRCF 跟踪器在5 个无人机数据集上的总体跟踪效果优于当前其他先进的无人机目标跟踪算法,但在无人机目标的跟踪过程中仍存在局限性.如图8 所示,当场景中出现完全遮挡、相似物体、背景杂波以及低分辨率等因素时,会导致AMRCF 目标框发生漂移甚至丢失目标.
图8 失败案例的可视化对比Fig.8 Visual comparison of failure cases
如图8 第1 行所示,在目标车辆未被遮挡前,AMRCF 能够对目标进行精确跟踪,未产生漂移或目标丢失现象.在第818 帧,车辆被树木遮挡致使提取的目标特征减少而产生漂移;在第920 帧,目标被完全遮挡,提取的深度特征及手工特征中不包含目标信息,目标丢失;在第1 040 帧,目标在长期完全遮挡重现后,AMRCF 算法缺少重检测策略而未能重新捕获目标.在第2 行中,目标的快速移动使其与拍摄设备之间的距离逐渐增大,在视野中的分辨率变小并受到背景杂波的干扰,提取的特征中目标特征占据极小的比重而无法继续定位并跟踪目标.
图8 第3 行是AMRCF 算法跟踪相似物体的失败情形.跟踪前期,跟踪目标未与相似目标产生重叠,目标框始终定位于跟踪目标而未产生漂移;跟踪到第18 帧时,跟踪目标与其他目标重叠,目标框发生漂移;第232 帧中,两目标之间不再重叠,跟踪框未重新找回目标,定位于错误目标直至跟踪结束.由于AMRCF 没有重检测模块,无法检测到目标何时消失及重现而导致完全遮挡挑战下的跟踪失败,未来可以通过为算法添加重检测机制来进一步提高其性能.
本文提出一种全天实时跟踪无人机目标的多正则化相关滤波算法AMRCF,在不改变图像各通道颜色比例的前提下,使用自适应图像增强模块对夜间图像进行光照增强处理,以应对夜间无人机目标跟踪的挑战;同时,在保证实时性的前提下,引入一个轻量型深度网络CF-VGG 来提取目标的深度特征,联合手工特征一起描述目标的语义信息,提高跟踪器的鲁棒性;通过嵌入高斯形状掩膜,在抑制边界效应的同时,解决训练样本污染问题,提高滤波器的训练质量.在5 个公开的无人机基准数据集上的实验结果表明,与先进的无人机目标跟踪算法相比,AMRCF 算法表现出较强的竞争力,并且具有较好的实时性.在下一步工作中,将考虑在本文算法框架中加入重检测模块,进一步提升算法的性能.