李佳文,李 建,彭 程,杨 杰
(1.上海交通大学图像处理与模式识别研究所,上海 200240;2.上海航天控制技术研究所,上海 200240;3.中国航天科技集团公司红外探测技术研发中心,上海 200240)
如今复杂的现代化战争环境中,只有及时发现目标,实现有效跟踪,才能实现精确打击。相较普通目标图像而言,红外目标图像反映的是目标表面的温度分布。通常情况下,相比于普通目标而言,红外目标信噪比低、对比度低且目标纹理较为模糊[1-2],在低信噪比低对比度的条件下,目标极易被周围噪声淹没从而跟踪失败。同时,实战环境具有复杂多变、不可预测的特性,当目标的纹理特征不清晰时,实战中可能存在的干扰源降低目标跟踪系统的跟踪性能,这也是目前的目标检测跟踪技术所关注和解决的重要问题。可以说,红外目标跟踪技术是提升现代化军事实力的重要一环。
目标跟踪是计算机视觉领域中的一个重要方向。它主要针对视频中的图像序列,其任务是通过第一帧中所给的真实目标信息构建模型,在之后所有帧的图像中准确估计目标的位置。目标跟踪技术在交通监控、导弹制导、自动驾驶等领域均有广泛应用。在军用方面[3],现阶段主要对红外图像中的目标进行跟踪,与民用领域中所采用的可见光图像有着一定区别,跟踪难度也更大。
自上个世纪70年代起,人们陆续提出了一系列经典的跟踪算法。常用的跟踪算法可以分为TBD算法和DBT算法两类。DBT(Detect-Before-Track)算法是先通过目标的像素强度检测目标,然后根据连续的图像序列得到目标轨迹;TBD(Track-Before-Detect)算法先进行扫描,将结果存储起来,然后对假设轨迹上的点做相关分析,最终得到目标轨迹[4]。DBT算法中比较典型的算法如Irani等人[5]利用像素小邻域上灰度差的加权平均度量目标的运动,得到目标的运动轨迹;2002年Markandev等人[6]利用光流法检测跟踪运动目标;2003年Wang 等人[7]提出的基于数字形态学的红外目标检测跟踪算法,利用形态膨胀运算累加同一目标在不同帧中的能量。TBD算法主要应用于低信噪比的背景,有利用方向加权的动态规划算法的检测跟踪技术[8],也有通过计算帧间的高阶相关性,在图像中检测出目标轨迹的方法[9]。近几年,基于多示例学习的跟踪方法[10]和香港理工大学的Wang等人[11]提出的基于深度学习的跟踪方法和也是目标跟踪领域研究的热点。
两类跟踪算法相比,TBD算法在计算中同时考虑了时间信息与空间信息的关系,计算量相较于DBT算法要大。但是DBT算法是通过将假设轨迹与已经存在的轨迹做相关分析,由此确定是否为目标,会有较高的误检率。通常在低信噪比的条件下,TBD算法性能优于DBT算法。本文所提出的红外目标跟踪框架属于TBD算法。
本文所提出的算法流程如图1所示。其主要并行构建两种表观模型来描述红外图像目标。图中左侧支路主要处理轮廓纹理信息流,右侧支路利用到了红外图像的能量分布信息流,而后通过动态决策融合机制来定位目标在当前帧的位置。最后,为了使算法适应目标的快速移动、形态模糊和外界遮挡等情况,利用自适应的模型更新策略来对两种模型进行更新,避免将错误的目标信息更新至模型,进而减少累计的偏移误差,有利于在之后长时间的跟踪过程中准确识别和跟踪目标。
图1 本文算法流程图
首先在轮廓纹理模型方面,对于第t帧的图像Xt,本文算法主要训练一个滤波器Ht使得两者进行相关操作后输出的响应图与期望响应图尽可能接近,即最小化下式的损失函数
(1)
其中,符号⊗代表相关操作,Y' 代表期望响应图,一般为高斯分布。另外,λ为正则化参数,用来防止模型过拟合。
由表示定理[12],可以将上述最小化问题转换到对偶空间,转变为求解对偶变量αt,利用快速傅里叶变换求得解析解,即
(2)
其中,F和F-1分别代表离散傅里叶变换及其反变换操作,<·>代表求取内积操作。φ为一映射函数,主要将低维特征空间中的特征向量映射到高维特征空间,从而在高维特征空间中找到一个更恰当的超平面进行分类判别。利用该方法的好处是无需知道映射函数的具体表达式,而通过确定该核函数即可以直接求取高维特征空间中特征向量的内积结果,避免了求解核函数的复杂过程。
基于上述训练好的滤波器模型以及提取的目标表观模型,在新的第t+1帧图像中,滤波器响应图Yt+1可以在频域中通过式(3)计算得到
Yt+1=F-1(F(αt)⊙F(〈φ(Xt),φ(Xt′)〉))
(3)
其中,⊙代表矩阵元素点乘操作,Xt'代表目标特征模板,其中存放了目标在时空序列中的表观模型信息。
(4)
而后通过图像积分,可以得到当前帧的能量响应图Et。
在之后的融合阶段,本文针对红外目标跟踪引入一种动态决策融合机制[14-15]。其主要利用平均峰值相关能量[16](Average Peak-to-Correlation Energy,APCE)来衡量响应图的起伏波动程度。对于响应图,其APCE值的计算方式为
(5)
从其计算方式可以看出,如果相关滤波器所获得的响应图单峰特性较好,即其峰值区域较为高耸而旁瓣区域较为平缓,此时计算所得的平均峰值相关能量值就会较大;反之,如果响应图起伏波动较大,则上式的分母项较大,因而其平均峰值相关能量值就会较小,由此可以实时并且动态地衡量每一帧红外视频图像的相关滤波结果的置信度。
(6)
通常而言,红外目标所包含的信息量不如彩色图像中那么丰富,因而在每一帧的跟踪结果之后,对目标表观模型的更新就尤为重要。一旦模型中累计的错误信息偏多,在之后的跟踪过程中算法就很容易丢失目标。
本文所提出的目标跟踪算法利用到自适应模型更新策略,针对当前帧的目标进行衡量,根据目标是否被遮挡的置信度,自适应地更新模型。具体而言,算法基于当前帧的滤波器响应图的APCE值衰减率,利用sigmoid函数来计算一个更新因子ηt,将当前帧的目标信息通过线性插值的方式更新至本文算法模型中,即
αt=(1-ηt)αt-1+ηtαt′
(7)
Xt′=(1-ηt)Xt-1+ηtXt′
(8)
(9)
(10)
由此,如果当前帧的目标被遮挡,所计算得到的更新因子就会较小,模型保存的更多的仍是正确的信息,进而从本质上避免了训练样本集被污染,有利于算法在之后的每帧中更准确地跟踪红外目标。
本文所提出的目标跟踪算法采用了与KCF算法相同的特征提取方法,即利用方向梯度直方图特征,各梯度区块为4×4像素大小,区块中均匀提取9个方向的梯度,所获得的特征图维数为31维。
本文算法主要针对红外视频图像,因此选取了VOT-TIR2015公开红外数据集[17]中的部分视频序列进行实验。图2、图3、图4和图5分别展示了传统的KCF算法与本文所提出的目标跟踪算法,在birds、jacket、depthwise_crossing和crowd四个视频序列上的跟踪结果。图中上一行是KCF算法的结果,下一行是本文所提出的目标跟踪算法的实验结果,图中左上角的数字代表当前图片的帧数。可以看出在图2中,KCF算法在出现鸟群干扰后会逐渐跟偏,并在目标人物突然躲闪时跟丢,而本文所提出的算法可以在快速运动的情况下较好地跟踪到目标。此外,由于传统的KCF算法只利用到了轮廓纹理特征进行建模,一旦当红外图像中的目标的轮廓信息很少或者目标很淡的时候,如图3和图4所示,KCF算法在数帧过后便逐渐脱离跟踪,不能很好地跟上目标,而本文提出的算法利用到了多模型动态决策融合机制,因而可以利用红外目标的能量分布信息与背景进行区分,有着更好的跟踪效果和更强的鲁棒性。在图5的场景中,待跟踪的目标位于人群中,跟踪过程中不断有旁人路过干扰,KCF在路人第一次干扰时就跟丢,转而跟踪了错误的目标,而本文算法一直跟踪到了正确的目标,显示了对外界环境的良好抗干扰性。
图2 KCF算法和本文算法在birds数据集实验结果比较
图3 KCF算法和本文算法在jacket数据集实验结果比较
图4 KCF算法和本文算法在depthwise_crossing数据集上结果比较
图5 KCF算法和本文算法在crowd数据集上结果比较
本文针对红外图像中的目标跟踪问题,提出了一种基于动态决策融合和自适应模型更新的红外目标跟踪方法。该方法对相关滤波器输出响应图的单峰特性进行定量的衡量,自适应地求取多模型决策融合因子以及模型更新系数,使得算法可以充分利用各表达模型在不同情况下的优势,同时有效地避免错误信息更新至跟踪模型中,提升了跟踪结果的准确率。最后在公开红外数据集上进行了实验,并与传统的目标跟踪方法进行对比,有效地证明了本文所提出跟踪算法在红外目标快速移动、形态模糊和外界遮挡等情况下的有效性与鲁棒性。