易 欣,郭武士,赵 丽
(1.四川省装备制造业机器人应用技术工程实验室, 四川 德阳 618000;2.山西大学 软件学院, 太原 030013)
红外(infrared radiation,IR)是一种看不见的电磁波谱,具有比可见光谱更长的波长[1-2]。在过去几十年里,尽管红外跟踪在RGB视频中取得了很大的进步,但是热成像中物体的特性一直都是高效跟踪器设计中的硬约束,使用单一特征或技术跟踪对象通常无法达到更高的精度。由于热像具有低信噪比(signal to noise ratio,SNR)特性,含有大量的死像素,而且通常显示为缺少纹理和颜色高光的灰度图像,因此红外跟踪十分具有挑战性[3]。
跟踪算法主要因使用的目标特征、运动模型、内存和对象表示不同而不同,已提出的算法主要分为生成式和判别式,产生了大量使用适当特征和合适分类器的检测技术。文献[4]采用AdaBoost分类器,该分类器使用了对象的Haar、取向直方图和局部二元模式特征。作为一种改进,文献[5]使用梯度信道特征直方图,通过循环数据结构进行训练和测试,提出了核化相关滤波器(kernelized correlation filters,KCF)。在此框架下,文献[6]使用了具有鲁棒尺度估计的方向梯度直方图(histogram of oriented gradient,HOG)特征和颜色统计模型,并预先识别出分散区域以避免漂移。文献[7]提出了一种基于曲线匹配和卡尔曼滤波器组合的技术来预测红外视频中目标的位置。文献[8]提出小红外目标检测技术来与前景和背景相对应的兴趣点分组,并引入了R-均值聚类技术。尽管已提出了许多算法,但有效跟踪器的设计仍具有挑战性。由于红外图像缺乏颜色和纹理属性,所以这些特征的使用受到了限制。此外,遮挡和混乱背景会给实时跟踪带来困难,从而产生错误的轨迹。
本文在KCF框架中采用梯度和空间强度直方图特征相结合的方法来解决这些问题。在判别式跟踪器中,相比于其他分类技术,KCF跟踪器在识别和定位能力方面都较为突出。核化相关滤波器的目标是从物体外观及其周围环境中进行学习,并基于输出响应峰值位置将区域分类为目标或背景。为了评估本文方法的性能,在实验数据集中13个具有挑战性的红外图像序列上进行实验。与现有的跟踪器相比,本文方法的平均距离精度和平均重叠精度有显著提高。
红外跟踪的目的是从第一帧的初始地面实况位置开始寻找目标在后续帧上的轨迹。相比RGB记录,由于以下原因,红外跟踪具有挑战性:① 热红外图像有噪声,分辨率低,含有大量的死像素;② 热红外图像多显示为缺少纹理和颜色高光的灰度图像;③ 热红外图像中物体的强度因温度不同而异,而不是因光照而异;④ 热红外图像中物体的遮挡处理和重新识别较为困难;⑤ 由于兴趣目标可能与背景混合,或目标可能在大小、形状或强度上发生变化,对于更复杂的背景,很难检测到跟踪目标。
判别式表观模型综合考虑了目标与背景的特征,着重于如何区别目标与背景[9-11]。基于判别式表观模型的目标跟踪框架如图1所示。通过检测方法的跟踪将问题视为获得每个帧中目标位置的分类任务。由于最高分类置信度值对应于最佳目标位置,易导致跟踪器漂移。因此,为了确定目标位置,使用了基于空间结构和像素强度值的两种互补方法。
图1 基于判别式表观模型的目标跟踪框架
相关滤波器是模板匹配中所使用的基本信号处理技术之一,且其对诸如目标检测、人脸识别、目标跟踪和动作识别的应用产生了很大的影响。KCF是相关滤波器的核化版本,该核化版本使用数据循环结构的性质,其目的是通过检测方法的跟踪而进行训练和测试。这两个特性分别用于训练KCF滤波器,输出概率图中的最大值表示目标的位置。
使用非线性转化从标量x中构造信道向量c,并获得:
c=[K(x-x1),K(x-x2)…K(x-x3)]T
(1)
其中:K(·)表示对称非负基函数;x1,x2,…,xn为信道中心或bin中心。因此,信道编码涉及从标量中构造信道矢量。信道表示(channel representation,CR)是用于机器视觉和跟踪中的生物启发数据表示。使用核函数K(·)(如cos2)来基本构造CRs,以获得平滑直方图。假设有n个样本xi且每个样本表示可以编码的图像的像素值。因此,从数据xi和间隔为h的bin中心中获得CR的系数,如:
(2)
在KFC中,从当前帧中裁剪出尺寸为P×Q的输入图像块xi,同时提取空间特征。利用数据的循环结构从输入样本的所有循环移位中训练滤波器以生成相同尺寸的输出y,y为在指示目标位置中心处具有最大值的高斯形状。为了避免周期性卷积引起的频谱混叠,裁剪后的图像块尺寸是目标尺寸的1.5倍。然后用余弦窗口乘以图像块来平滑尖锐的边界。通过尺寸为P×Q的滤波器w来实现输入特征到输出概率图的映射。为了学习滤波器,公式化该训练问题以最小化核映射训练样本xi与目标y之间的误差,如下所示:
(3)
其中:w表示空间域中的滤波器模板;λ为用于避免过度拟合的正则项;φ(xi)将输入模板xi映射到非线性高斯核空间。因此,对于两个输入向量xl和xj,将内积〈φ(xl),φ(xj)〉表示为Kxlxj。核相关涉及计算两个向量相对位移的核。对于高斯核,其形式为:
(4)
其展开式为:
(5)
其中:σg为高斯核函数的方差; ⊙表示数组元素依次相乘;*表示变量的复共轭,符号顶部的横杆表示离散傅里叶变换(discrete fourier transform,DFT);ξ表示正向转换(forward DFT);ξ-1表示逆向转换(inverse DFT)。滤波器模板w还可表示为输入数据样本的线性组合,如:
w=∑βiφ(xi)
(6)
其中βi为
(7)
(8)
(9)
(10)
相比原始像素值处理,多特征图像信号处理能很好地分类形状和强度特征。如所讨论的,在本文研究使用了梯度和信道编码强度特征。本文通过将预处理所提取的上下文特征与汉宁窗相乘,从而减少FFT操作带来的尖锐边界效应。
接着使用梯度和信道编码特征图训练KCF以分别获得滤波器H1和H2。梯度特征提供建立稳定外观模型的边缘信息,而信道编码的灰度图则能详细描述目标和背景像素值的强度分布(本文方法中所使用的梯度特征见图2)。为了在跟踪中结合多个特性,在每帧中分别找到梯度(og)和信道编码特征(oc)的滤波响应。在线生成自适应权重以基于峰-旁瓣比(peak-to-sidelobe ratio,PSR)融合置信度图。
图2 本文方法中所使用的梯度特征
PSR是用以在置信图中找出峰值强度的一种测量方法,这里,置信度图中的每个像素表示属于对象的像素位置。为了计算相关响应(置信图)o的PSR,需计算峰位置周围13×13区域的峰值omax、均值μo和方差σo,接着计算PSR,如:
(11)
使用权重w1和w2在每帧中生成自适应权重以加入可能性映射,并获得如下权重:
(12)
(13)
其中:PSRg表示梯度响应的PSR;PSRc表示信道编码特征响应的PSR。使用权重w1和w2生成融合置信图o,如o=w1og+w2oc。使用自适应权重的优点是:在某些序列中,梯度特征优于信道编码特征;为了提高跟踪性能,梯度特征比信道编码特征具有更大的权重。目标的位置表示为(xa,ya)或lcf,并基于输出响应图o的最大值获得该位置。
在每帧中执行模板更新以了解对象的最新外观,从而使模板与最新数据相一致。KCF使用固定的学习率更新每帧中的滤波器模板,这一步控制了跟踪器的速度。然而,相关滤波对变形、遮挡和较大的外观变化非常敏感。当滤波器模板以恒定的学习速度更新时,漂移的机会就会增加。因此,在本文提出方法中,采用质量措施并基于置信图来更新滤波模板。因此,当跟踪的置信度超过阈值时,利用初始值更新滤波器模板,如方程(8)和(9)。上述步骤在很大程度上减少了漂移,这是由于以恒定的学习速率更新了每个样本。
如上所述,相关滤波模型依赖于对变形和遮挡更敏感的空间结构,这是因为跟踪器逐渐漂移。另一方面,基于像素分类的模型对形状变化具有较强的鲁棒性,但其对目标背景对比度很敏感。为了提高相关滤波模型的鲁棒性,本文采用互补技术来提高跟踪性能。与KCF中使用的空间特征相反,该技术使用每个像素周围的图像块训练分类器。
为了更新分类器模型,本文使用2个度量确认跟踪置信度:第1种度量为PSR,用以证明相关滤波器的跟踪置信度;第2个度量为权重图的集合,用以测量分类器的置信度。权重图的集合(总和)为从分类器中获得的似然图中像素值的代数相加,该集合很可能在遮挡期间减少并在背景复杂期间增加。如果这两种置信度都超过了特定的阈值,则考虑使用模板更新分类器。
跟踪漂移是在线跟踪系统中用不准确的数据对模型进行修正的结果,本文利用Mean-Shift算法对目标位置进行细化。在基于Mean-Shift均值漂移搜索算法的跟踪模型中,通过核函数对颜色直方图进行空间上的加权,降低了目标跟踪模板对轻微变形、遮挡等的敏感度[12-13]。被跟踪目标的模型和候选目标特征分别表示为式(14)(15)。
q={qu}u=1,2,…,m
(14)
p(y)={pu(y)}u=1,2,…,m
(15)
其中:q为被跟踪目标模型的直方图;p(y)为中心位置在y处的候选目标;y是二维向量,表示可能的候选目标区域的中心位置,其中m为特征值bin的个数。q与p(y)的直方图分布满足式(16)和式(17)。
(16)
(17)
跟踪目标模型的特征分布表示如下:
(18)
目标模型与可能的候选目标的相似性采用式系数来衡量,式系数的计算方法如下:
(19)
式(19)是对2个统计样本的重叠量的近似计算。在跟踪过程中,还需要定义一个距离函数,通过最小化模板与候选目标之间的距离,从而决定最优候选目标的位置。定义跟踪目标与候选目标模型之间的式距离表示如下:
(20)
为评估本文提出的方法,选择了LTIR[14]数据集,该数据集已经整合了视频目标跟踪中的多种复杂情况。数据集中的序列是几个热传感器从不同的源捕获的。在英特尔(R)内核i5-5200U、CPU为8 GB RAM的2.20 GHz的机器中,本文使用Matlab 2012a软件对本文提出的算法进行实验。
本文提出的跟踪算法在从LTIR数据集中选取的13幅图像序列上进行了评估。该数据集将人、动物和车辆作为目标。这些序列包括移动摄像机、遮挡、外观变化、温度变化和比例变化等挑战。从数据集中提供的地面实况注释中获取目标的起始位置,以初始化跟踪。
表1提供了13个图像序列和挑战的详细信息,包括在不同气候条件下录制的室内和室外录像。在真实的文本文件中提供注释,注释每行含有边界框角落的(x,y)坐标,用于定量评估。
表1 与LTIR数据集中13个序列相关联的挑战
续表(表1)
本文方法在热红外图像序列中的跟踪效果如图3所示,可以有效定位每个帧的目标,取得了较好的跟踪效果。
图3 本文方法在图像序列中的跟踪
本节利用4种最先进的基线跟踪器评估本文提出的跟踪方法,对于视觉和热红外目标跟踪,都使用这4种跟踪器,即FCT[15]、EDFT[16]、DSST[17]、KCFHOG[5]。本文在3个性能指标[18]的基础上,阐明了本文提出方法与著名算法间的比较。这3个性能指标包括平均中心位置误差(average centre location error,ACLE)[19]、距离精度(distance precision,DP)和重叠精度(overlap precision,OP)[20]。
为了显示跟踪器跟踪的位置与每帧中的地面实况注释的偏差,本文使用地面实况和跟踪地点之间的距离计算中心位置误差(centre location error,CLE)。令(xi,yi)表示跟踪位置,(xgi,ygi)表示帧号i处的地面真实位置,M表示视频中的帧数,则获得的平均中心位置误差如下:
(21)
为了确定中心位置误差小于某一阈值(即TDP=20像素)的帧数的百分比,本文计算了距离精度分数(DP),表示如下:
(22)
(23)
其中Si表示帧i的重叠分数。
为了以图形化的方法量化跟踪方法,本文采用了精密绘图。图4为本文提出跟踪器与几个最著名跟踪器在LTIR数据集上的距离精度和重叠精度分析结果。表2为几种方法平均中心位置误差对比。其中,本文提出的方法是由未优化的Matlab代码实现(不对任何帧进行调整)的,平均每秒运行6帧。
从实验结果可以看出:本文所提出的跟踪器在平均中心位置误差、距离精度和重叠精度等方面均优于其他跟踪器。这是因为,FCT、EDFT这样的跟踪器很容易丢失或移位跟踪,当目标出现缓慢变化时,它们通过采样方法在本地窗口中搜索目标。本文所提出的方法和DSST具有最小的漂移,且可以有效定位每个帧的目标。DSST和KCFHOG由于遮挡而丢失目标,当目标重新出现时也无法重新检测到,可能是由于完全遮挡而从错误样本中进行了学习。FCT和EDFT可以在重新出现后重新检测目标,但不能很好地定位目标。本文方法在遮挡后可以重新检测目标,但不能准确估计遮挡后的尺度。
表2 几种方法平均中心位置误差对比
图4 本文提出跟踪器与几个最著名跟踪器在LTIR数据集上的定量分析结果
本文介绍了一种基于检测的跟踪方法,该方法结合了判别式方法和生成式方法。为了获得目标位置,本文自适应地结合了核化相关滤波框架下的梯度特征和信道编码特征映射。同时,利用对象图像块和背景图像块训练AdaBoost分类器以对每帧中的像素进行分类。通过对检测区域执行Mean-Shift均值偏移过程,寻找峰值以获得最优位置,将目标定位于连续帧中。
使用LTIR数据集中的13个具有挑战性的视频对本文提出的算法进行了评估,结果显示:本文提出的方法显示了出色的性能,在平均中心位置误差、距离精度和重叠精度等方面均优于对比跟踪器。
未来希望进一步完善本文方法,使之能够在更复杂的情形下对热红外目标进行跟踪。