程语嫣,张九根,杨圣伟
(南京工业大学 电气工程与控制科学学院,江苏 南京 211816)
目标跟踪算法是计算机视觉的一个重要分支,视觉目标跟踪算法主要是对视频画面中人工标定或自动检测出的目标区域实时跟踪锁定。根据构建外观模型方法的不同,目标跟踪算法主要分为两类[1]:基于生成模型的跟踪算法和基于判别式模型跟踪算法。前者的主要思想是通过寻找最佳匹配的窗口来定位,而后者的主要思想是学习从背景中区分目标来找到目标位置。
核相关滤波器跟踪算法(KCF)[2,3]属于判别式模型跟踪算法,因其极高的运算效率受到众多研究者的青睐。Martin Danelljan等提出了CN[4]和DSST[5]跟踪算法,CN通过引入CN颜色特征进一步提高跟踪算法的精度,DSST算法在KCF算法的基础增加了目标多尺度适应。
由于KCF仅使用HOG特征描述目标,且无尺度适应能力,每一帧都更新模型,无法满足复杂背景下的长时间目标跟踪场景跟踪要求[6-8]。为兼顾跟踪速度和准确准确率,本文以KCF目标跟踪为框架,提出了一种基于多特征融合和尺度自适应的核相关滤波目标跟踪算法。首先分别使用3个特征训练获得3个滤波器,在检测环节对多个响应图的结果自适应加权预测出目标位置,提高了视觉跟踪算法在复杂背景下的适应能力;然后利用图像感知哈希算法能够快速匹配合适的目标尺度;针对模型更新环节,依据响应图的震荡程度优化模型更新策略,降低模型漂移发生的概率,提高算法长时间跟踪的稳定性。
KCF的样本训练过程实际是一个正则化最小二乘[9]问题。通过训练找到一个函数f(z)=wTz使得均方误差最小
(1)
循环矩阵是KCF的重点,通过循环矩阵可以得到更多的训练样本,在基础样本上经过循环矩阵之后产生更多的训练样本。通过引入核函数,将低维线性不可分的问题映射到更高维的空间,使其在高维空间可以线性可分,利用循环矩阵与离散傅里叶变化得
(2)
KCF在样本检测阶段,也是通过傅里叶变换(FFT)和傅里叶反变换(IFFT)即可计算出所有样本的回归值,极大减少算法的运行量。
在样本的检测阶段同样需要计算核空间矩阵,核空间矩阵计算公式一般有多项式核、径向基核和高斯核,对于高斯核为
(3)
(4)
(5)
其中,α为滤波器系数,x为目标外观模型,t为视频图像帧数,γ为更新因子。
传统KCFH特征单一、目标尺度固定、每一帧都更新模型,无法满足复杂背景下的长时间目标跟踪场景跟踪要求。本文拟通过融合多特征,引入尺度适应,优化模型跟踪策略来提高跟踪算法的鲁棒性。
2.1.1 特征选择
由于HOG特征提取时先对目标图像做灰度处理,损失了对图像直观颜色的表达能力。其次HOG特征主要捕捉目标的局部形状信息,在目标外形变化较大或运动模糊时,HOG特征对目标的描述能力相对较弱。
CN特征是对图像全局的描述,对于目标形变、运动模糊有很好的适应能力。CN有11个通道的颜色特征,如果直接使用CN特征需要对每一个通道进行FFT核映射,将11通道的频域信号线性相加,进行样本训练和样本检测等。显然11通道运算量是非常大的,直接使用CN特征会降低目标跟踪算法整体的实时性,并且CN的11个通道的颜色对于区分目标和背景并非都有意义。为减少对跟踪算法运算速度的影响,利用PCA自适应降维实时选择比较显著的颜色特征来描述目标,将CN11维特征降至2维得到CN2。PCA主要是通过寻找最小均方意义下最能代表原始数据的投影方法,把主要影响因素从多元事物中解析出,揭示事物本质,将复杂问题简单化。CN颜色空间与RGB相比更接近人眼对色彩的感觉,能够更详细描述图像颜色特征,在目标发生形变和运动模糊时可以保持较高的分辨能力。
HSV(hue,saturation,value)颜色模型依据人类对于色泽、明暗和色调的直观感觉来定义颜色,其中H代表色度,S代表色饱和度,V代表亮度。HSV颜色同样描述了图像的全局特征,被广泛应用于计算机视觉领域。HSV与RGB相比可以更准确感知颜色的联系,对光照变化相对不敏感,融合HSV特征可以进一步提高算法对光照变化的适应能力。
2.1.2 特征融合策略
传统跟踪算法一般通过多特征级联或固定权重进行多特征的融合。CN2和HVS特征代表不同角度目标全局的颜色信息,而HOG特征则代表目标局部形状梯度信息,CN2、HSV和HOG表示的意义和内容不同,所适应跟踪的场景也不同。仅通过级联或固定阈值很难使3种特征在跟踪过程中发挥各自的优点。
在训练分类器阶段,设映射函数为φ(x),分类器的权重向量为
(6)
由式(6)可看出样本训练求解问题由w变为α,α=(α1,α2,α3,…)T,核函数为κ(x,x′)=φT(x)φT(x′),不同样本之间乘积构成的矩阵为
Kij=κ(xi,xj)
(7)
K为n×n的矩阵,回归函数为
(8)
由式(8)可以看出回归函数的复杂度随着样本数量的增加而增加,如果直接计算运算量是比较大的。利用循环矩阵的特性可以避免复杂的计算。依据线性最小二乘法对式(1)求解得
(9)
复数域表示为
(10)
由式(10)得
α=(K+λI)-1y
(11)
由式(11)可以推出训练样本距离目标位置的远近与相关滤波器响应值的大小有关。距离目标越近,响应值越大;距离目标越远,响应值越小。即响应值的大小可以反映跟踪目标位置预测的精确程度。
从OTB数据集人工标注的目标实际坐标中发现目标相邻两帧之间一般不会有太大的位置移动。所以在第t帧中的滤波器响应图最大值的位置,距离第t-1帧的目标位置越近,则其为真实目标位置的可能性越大。
因此根据各特征滤波器得到最大响应值的差异性和相邻两帧相对位置距离,可以计算出每个特征对应的置信度,用以实现多特征自适应加权融合,从而得到目标的最终预测位置。通过自适应融合使得每种特征在其适应能力较强的场景中得到更大的权重,从而提高跟踪精度。
设HOG,CN2,HSV的响应图分别为fhog,fcn2,fhsv通过各特征响应图上最大响应值定位各特征预测的目标位置,3个滤波器响应图中最大值的位置分别记为Lhog,Lcn2,Lhsv,上一帧的目标位置记为Lt-1。每个特征的响应图的置信度由下式求得
(12)
(13)
(14)
其中,Qhog,Qcn2,Qhsv为每个特征滤波器响应图对应的置信度。每个特征的响应图对应的权重为
(15)
(16)
(17)
其中,γhog,γcn2,γhsv为各特征的对应权值系数。从上列公式可看出特征的置信度越高,该特征获得权重就会越大。
目标最终预测的位置通过下列式计算得到Lt为多特征融合得到的目标位置。从式(18)可以看出HOG、CN2、HSV这3种特征在自己描述能力比较强的跟踪环境中可以获得更大的权重,对跟踪结果的影响就越大,从而提高跟踪精度。在其描述能力相对较弱的环境中,权重相对会下降,从而可以减少对跟踪结果的影响。
Lt=γhogLhog+γcn2Lcn2+γhsvLhsv
(18)
在多特征相关滤波器预测出当前帧目标位置后,以上一帧目标框大小为基础,基于当前帧目标预测位置,截取多尺度区域框形成图像金字塔。然后将图像金字塔内的图片利用图像感知哈希算法[10]生成对应的哈希值,分别与上一帧目标区域的哈希值计算汉明距离,得到最佳目标尺度。
2.2.1 生成多尺度哈希值集
设当前帧通过相关滤波器预测出目标位置为Lt,上一帧得到目标框大小为wt-1×ht-1。基于位置Lt和wt-1×ht-1在当前视频帧中截取多尺度区域框构建图像金字塔,如图1所示。
图1 尺度金字塔构建
白色框为基准框,白色框的中心位置坐标为Lt,尺度为wt-1×ht-1,黑色框为以白色框为基准截取多尺度区域框,白色框与黑色框截取的区域共同构建成尺度金字塔。当所取的尺度越密集、提取范围越大时,最后匹配到的尺度越精准,但同时所需时间也较长,使得跟踪算法的实时性变弱。
本章算法是以上一帧获得目标尺度大小为基准提取尺度金字塔,相邻两帧目标一般不会有太大的尺度变化,以0.05为步长在(-0.30,0.30]范围内取13个尺度。
定义获得的尺度集合为S,如式(19)所示,多尺度采样如图2所示
图2 多尺度采样
(19)
获得多尺度的目标图片之后,对13张不同尺度图片通过感知哈希算法分别提取哈希值。
图像感知哈希值生成具体步骤如下:
(1)缩小图片:将图片缩小到32×32的大小;
(2)简化色彩:将图片转化成灰度图像,进一步简化计算量;
(3)计算图片的DCT变换:将缩小后的图片分成4个16×16的矩阵,对每个矩阵进行二维DCT变换。然后分别提取其左上角4×4的16个低频系数,组成8×8的二维矩阵;
(4)计算DCT的均值:计算矩阵的DCT系数均值,通过DCT系数均值来量化矩阵,即根据均值将每一个像素二值化;
(5)计算哈希值:根据8×8的DCT矩阵,设置为0或1的64 bit的hash值。大于等于DCT均值的设为“1”,小于DCT均值的设为“0”。组合后为64 bit二进制数,即哈希值。最后得到的13个64 bit的哈希值序列集记为
(20)
2.2.2 多尺度哈希值匹配
汉明距离[11]可以用来计算图像感哈希值相似度,汉明距离越大两张图相似度越低,汉明距离越小两张图相似度越高。通过相关滤波器估计得到的位置Lt后,构建出多尺寸图像金字塔,生成哈希值库,分别于上一帧目标计算汉明距离,汉明距离最小值所对应的尺度大小作为当前帧目标尺度。设汉明距离的计算公式为
(21)
为适应跟踪过程中各种因素的变化,需要对相关滤波器进行实时更新。但如果每一帧的结果都用来更新,则存在一定风险。特别是当目标被遮挡或者出现相似物体干扰时依然更新模型,会使得跟踪器对于后续帧识别真正目标的能力越来越差,导致模型漂移。
经过实验发现,KCF的响应图在跟踪准确时存在单个较为明显的峰值,类似理想的二维高斯分布图。在跟踪效果一般时,会出现多个明显的峰值。而在跟踪效果较差时,如出现目标遮挡、跟踪漂移、运动模糊等,响应图会剧烈振荡,响应图存在多个较大的峰值,且最高峰值与次高峰值很接近,所以最高峰值对应的位置有可能不是真正的目标位置。因此可以通过响应图的震荡程度来判断是否进行模型更新。设响应图的震荡程度为V
(22)
当V和Fmax的值以一定比例大于跟踪视频序列中的历史均值时,对相关滤波器实时更新,更行策略如下式所示
(23)
整体框架流程如图3所示。
图3 整体算法流程
为验证本文整体改进后的视觉跟踪算法(多特征融合+哈希尺度自适应)的有效性,本章在OTB[12]数据上与CSK、KCF、DSST、SAMF[13]流行跟踪算法进行对比实验,算法之间的主要区别见表1。CSK、KCF、DSST、SAMF所用算法所有参数均为默认。实验所用电脑配置为Intel(R) Core(TM) i5-7300HQ CPU @ 2.50 GHz(4 CPUs),8 G内存,win10操作系统,Matlab2016。
表1 跟踪算法的差异
为直观体现本文跟踪算法效果,从跟踪结果选择3个具有代表性的视频序列来定性分析说明,分别是篮球、移动和汽车。
本文跟踪算法与CSK、KCF、DSST、SAMF跟踪算法对比结果,如图4所示。
HOG特征虽然对局部有很强的表达能力,但目标外形动作幅度过大、目标运动方向改变,HOG特征的描述能力就会变弱。
如图4(a)中,篮球运动员迈出很大的跨步,可以看出KCF和DSST在目标刚加速运动出现较大的形变导致KCF、CSK和DSST都跟踪失败。本文算法使用HOG+CN2+HSV,SAMF使用HOG+CN+GRAY多特征来描述目标,在目标发生形变时仍然可以较好进行跟踪。如图4(b)中出现了运动模糊,本文算法可以准确跟踪,得益于本文多特征融合不仅仅是特征的固定权重累加,而是多特征多滤波器自适应加权融合。在目标发生运动模糊时,HOG的权重特征会相对变小,对跟踪的结果影响也减少,而CN2的权重相对变大,对跟踪的结果影响也会较大。每种特征在自己适应能力较强的场景中,为跟踪算法的精度贡献更大的力量,从而提升跟踪精度,由于本文算法通过观察响应图的震荡程度来避免相似物体干扰和遮挡情况下的模型更新,可以很好应对形似物体和遮挡干扰的影响。从图4(c)第216帧可以看出本文的跟踪算办法更精准地锁定在目标中心位置。
图4 各算法在部分序列上的跟踪对比结果
另外本文算法与DSST不同之处还在于,本文算法是以上一帧目标尺度为基准构建尺度金字塔,尺度模板中不需要太多的尺度,可以有很强的尺度适应能力。
从表2可知,本文算法的跟踪速度为每秒32帧,能够满足实时性要求。本文提出的跟踪算法与CSK、KCF、DSST、SAMF相比,在整体性能上具有优越性。成功率(OP)比SAMF提高2.2%,比KCF提高13.1%。精确度(DP)比ASMF提高0.8%,比KCF提高5.3%。表明本算法以KCF为基本框架,通过多特征自适应融合和哈希尺度自适应能有效提高跟踪算法的整体性能。
表2 整体跟踪性能
整体跟踪对比结果如图5所示。
图5 各算法整体成功率(OP)和精确度(DP)对比
图5第一行为本文算法和对比算法整体的成功率OP图,第二行为本文算法和对比算法整体的精确度DP图。从图5的OP曲线走势数据可以看出在重叠阈值在(0.4,0.8)之间本文算法整体的成功率和空间鲁棒性均优于其它算法。由于本文算法和SAMF算法都使用多特征融合,成功率时间鲁棒性与SAMF算法很接近,但本文基于上一帧目标框使用感知哈希尺度自适应,目标尺度的适应能力高于SAMF。从图5的DP曲线走势数据可以看出本文的算法精确度的时间鲁棒性明显优于SAMF和其它算法。
本文提出了多特征融合的核相关滤波目标跟踪算法,来弥补HOG单一特征对于复杂环境适应能力差的不足。在目标跟踪算法的训练环节通过HOG、CN2、HSV多种特征分别训练得到多个相关滤波器,然后在检测环节对各个特征对应滤波器的响应图进行自适应加权得到最终的目标位置。在多特征融合的基础上,为减少对跟踪速度的影响,本文把尺度检测级联在相关滤波器之后,在相关滤波器预测出当前帧目标位置后,以上一帧目标尺度为基准获取多尺度图像金字塔,然后将图像金字塔内图片利用感知哈希生成对应的哈希值,分别与上一帧目标区域的哈希值计算汉明距离,得到最佳目标尺度。然后在检测环节对各个征对应滤波器的响应图进行自适应加权得到最终的目标位置。并针对模型更新环节,提出一种简单有效的模型更新策略,利用多峰前向检测用来避免相似物体干扰和遮挡情况下的模型更新。