龚 真,王晓凯+,陈 浩
(1.山西大学 物理电子工程学院,山西 太原 030006;2.北京航天航空大学 宇航学院,北京 100083)
相关滤波[1]在跟踪领域首次使用使得鲁棒性有了更高提升[2],通过第一帧目标训练滤波器,再与下一帧目标区域进行相关运算,搜索最大响应值为目标位置,具有高运算速度,但准确度不够好。接着在此基础上通过引入循环矩阵密集采样目标和背景信息[3],使用核技巧对非线性特征空间进行分类,提高了目标跟踪的精度。随后Henriques等[4]又提出多通道的HOG特征的核相关滤波跟踪算法(KCF)。文献[5]提出了多特征融合的自适应相关滤波器,将HOG特征与颜色特征融合,两者特征互补,提高了跟踪的准确性。
尽管核相关滤波在跟踪领域取得较好结果,但其在目标跟踪中由于单一特征容易造成误差累积导致跟踪出现差错[6]。本文在核相关滤波跟踪框架下[4]引入HOG、CN及LBP这4个特征进行线性融合,将融合的特征代替KCF中单一的HOG特征;另外,为避免由于遮挡或更新错误导致的跟踪失败,引入多峰值置信度的更新方式,降低因错误帧导致跟踪失败的几率;并且使用5个多特征融合的核相关滤波,通过鲁棒性得分在视频序列的每一帧中选出最优的结果。
KCF跟踪器的关键是循环矩阵结构在对样本进行密集采样的同时,利用检测器方案增加负样本以提高跟踪的分辨能力。并且引入核方法处理非线性分类问题,将相关滤波快速扩展到多通道情况,使得核相关滤波更加具有鲁棒性。
在目标跟踪模型中,采用岭回归可以得到一个简单的闭环解,并且达到与支持向量机SVM[7]更复杂方法相近的性能。KCF采用岭回归训练的目的是找到一个函数
f(z)=WTZ
(1)
式中:z为样本,W为滤波器系数。为了使样本xi与yi回归目标的平方误差最小化
(2)
式中:λ是控制过拟合的正则化参数,W为滤波器系数,yi是样本xi的期望输出。对式(2)求导,得到闭式解
W=(XTX+λI)-1XTy
(3)
由于在傅里叶域中是复数解,式(2)在复数情况下为
W=(XTX+λI)-1XHy
(4)
式中:XH为X的共轭转置。
而对于非线性问题,可以引入核函数从低维度映射到高维度空间,从而实现线性可分,且能大大简化计算过程。滤波器W表示为
(5)
将优化的变量从W转为变量αi,而αi是对偶空间参数。由高斯核可知
K(x,x)=φT(x)φ(x)
(6)
在N×N核矩阵K中存储着所有样本对的点积,其中Ki,j=K(xi,xj)。 所以可以得到
(7)
得到该岭回归的核化闭式解
α=(K+λI)-1y
(8)
式中:K是核矩阵,α是αi的矢量,它们表示对偶空间中的解。
与其它跟踪算法使用随机采样训练样本方式不同,KCF跟踪算法使用密集采样的方式训练得到鲁棒性强的滤波模板。使用一个n×1的基本样本x=(x1,x2,…,xn),对基样本进行循环移位得到所有的目标的密集采样
(9)
式中:Pux表示对基样本移位u次。由循环矩阵的傅里叶性质可得到
(10)
(11)
Kz是训练样本x和待选样本z的核矩阵,而Kz的每个元素由K(Px-1,Pj-1) 组成,即Kz=C(kxz)。 代入式(7)得
f(z)=(Kz)Tα
(12)
由于f(z)是z所有循环移位的输出的一个向量,所以可得到完整的检测响应。对式(10)进行对角化得
(13)
得到的最大响应的位置即为下一帧目标的位置。
本文在核相关滤波KCF算法下做了改进,在一定程度提高了算法的鲁棒性。本算法基于核相关滤波的改进算法流程如图1所示。其步骤如下:
图1 本文算法整体流程
(1)特征部分采用多特征融合提取样本特征,将HOG、CN和LBP这3个特征进行线性融合,作为核相关滤波的特征部分;
(2)接着将融合的特征代入核相关滤波模型中,计算响应值;
(3)接着为了避免错误帧或遮挡导致的更新失败,采用多峰值检测更新机制对模型进行判断并更新;
(4)使用多个专家系统进行评估选择出最可靠的结果;
(5)最后,确定目标位置,并对视频下一帧图像进行同样操作直至结束。
为解决传统KCF算法在复杂场景中使用单一特征而无法准确精准跟踪的问题,本文算法使用多特征融合的方法提升跟踪的精度。使用多种特征融合的策略对目标跟踪的性能有所提升[8]。利用多种强大的特征发挥特征融合的优势,本文算法提取了HOG特征、CN特征、原始灰度特征以及LBP特征进行融合,用于目标跟踪中。
梯度直方图(HOG)[9]在视觉领域应用中非常有效,计算效率也很高。在目标背景复杂干扰下如几何与光学形变能够具有一定的鲁棒性,但是对于遮挡以及图像模糊场景下,适应性较差。该特征在图像像素单元格中提取梯度信息,对离散方向进行计数以形成直方图。
颜色命名(CN)是一个用来描述颜色语言的颜色标签。与RGB空间相比,CN特征在空间中的距离更适合。CN特征能够提供对对象颜色的感知,包含有关目标的重要信息,对于运动模糊和光照变化强能够很好适应,但对于颜色相似无法排除干扰。为在对象检测和识别取得更好的结果[10,11],本文采用文献[12]中所述的映射方法将RGB空间转为颜色名称空间,使用11维颜色表示,并且对非彩色视频序列,使用HOG与LBP联合特征代替单一的灰度像素值。
局部二值模式(LBP)是一个描述局部空间结构的算子,常应用于图像纹理特征,具有光照不敏感、灰度不变性和选择不变性等特点。在核相关滤波目标跟踪使用LBP特征,可以降低光照对特征提取的影响,在复杂光照的情况下的跟踪性能有明显提升[13]。
HOG、CN以及LBP特征功能互补,能够在跟踪过程中提高对目标信息的采集精准度。本文使用多特征线性融合的机制,使用多个通道应用于图像特征[5]。设数据表示多个通道串联到一个向量X=[β1x1,β2x2,…,βcxc],进行如下融合
(14)
在实际跟踪过程中,由于背景复杂多变,目标会不可避免地受到外界干扰,会导致目标跟踪效果不好,这时再去更新模型会导致干扰信息不断积累,最终导致模型跟踪失败,出现模型漂移问题。Wang等[14]提出一种新的更新机制APCE如下
(15)
式中:ymax表示响应最大值,ymin表示响应最小值,yw,h表示该位置(w,h)的响应值。该判据可以反映响应的整体振荡情况,当APCE值减小时,表明该目标受到周围干扰较大,此时为避免更新错误信息,对模型不进行更新。本文算法采用此种更新方式,当前帧的APCE值大于等于APCE历史值的μ1倍时,且当前响应最大值大于等于历史最大值μ2时,对模型进行如下更新,否则不进行更新
(16)
式中:η1表示学习率,ατ表示当前帧系数向量,ατ-1表示上一帧系数向量。
为了解决单一特征追踪性能的不稳定性,Wang等[15]利用多个特征的跟踪器进行决策得到的最佳结果作为最终结果,可以有效地提高算法的鲁棒性。本文算法利用多特征线性融合的优势分别作为各专家系统,共有5个专家系统进行决策。其中进行各多特征组合的特征均有原始灰度像素值作为其特征融合,本文算法中的CN特征当检测到为1通道的灰度视频序列时,不再使用灰度像素值作为特征而是使用HOG与LBP进行线性融合取代单一的灰度像素值。具体各专家特征组成见表1。
(17)
表1 各专家系统特征组成
(18)
为了避免其性能变化,进一步考虑了时间稳定性,使用平均加权和标准差进行计算
(19)
(20)
(21)
其中,K为专家个数,Δt为相邻帧数,wτ为相邻帧的权重分数,N为所有相邻帧的wτ之和,为避免零分母的一个小常数。一般情况下,值越大表明与其它专家有更好的一致性和目标预测稳定性
(22)
(23)
最终通过选择最高的鲁棒性得分Rt(Ei)作为最终选择的专家Ei追踪目标的位置作为当前帧的结果。
本文算法的所有实验在CPU为Intel Pentium@2.16 GHZ、内存为8 G的PC机上使用 Matlab2016a开发平台进行测试。对OTB-2013所有视频序列进行跟踪性能测试,并将本文算法MCMF与SAMF算法[5]、DSST算法[16]、KCF算法[4]、CSK算法[3]、MOSSE算法[2]及OTB-2013数据集中的DFT算法比较。其它算法参数均使用默认值,本文参数取值如下:HOG特征单元尺寸使用4×4,且取9个方向;高斯函数中使用的σ=0.5,η1=0.02,μ1=0.42,μ2=0.52,β1=1,β2=0.8,β3=0.18;λ1=1,λ2=0.8,λ3=0.2;γ1=1,γ2=2.8,γ3=2.5;θ1=1,θ2=3,θ3=0.5。
在所有实验中,使用了两个评估标准,分别是精确度和成功率。精确度的评估标准是使用了平均中心位置误差(CLE),CLE是指算法跟踪结果的中心位置与目标真实位置之间的距离
(24)
(x,y)为当前目标中心位置坐标,(xc,yc)为实际的中心位置坐标。精确度是计算CLE小于某一阈值(本文算法阈值为20个像素值)的视频帧数与该视频序列总帧数的百分比。
成功率使用的是帕斯卡尔重叠率,即目标的重叠率大于重叠率阈值(本文算法阈值为0.5)的视频帧数占总帧数的百分比
(25)
式中:BT为目标边界框,BG为目标标注真实边界框。
3.2.1 定量分析与讨论
根据以上评价指标绘制本文算法的精确率和成功率如图2所示,对比各个算法性能见表2。
图2 各算法精确度和成功率曲线
表2 算法性能对比
从图2及表2可以看出,本文算法MCMF与其它6种算法相比较,精确度和成功率均排名第一。与核相关滤波KCF算法相比,精确度上提高了7.7%,成功率上提升了6.9%;与SAMF算法比较在精确度和成功率分别提高了2.9%和3.0%;与DSST算法比较在精确度和成功率分别提高了7.9%和2.4%。两项指标均有明显上升,提高了算法的鲁棒性与有效性,但是随着精确度和成功率的提升,本文算法使用多专家系统的多特征融合策略使得运算速度有所下降。
为更加进一步验证本文算法MCMF的跟踪性能,利用OTB-2013测试平台中视频数据集旋转、运动模糊、快速运动、形变、光照变化和超出视野等11个属性评估本文算法。精确度和成功率如图3和图4所示,本文算法在此方面有较大的改善,且表现优于其它对比算法,相对于KCF算法在形变、快速运动、平面内旋转、运动模糊和尺度变化场景下精确度分别提升了11.6%,5.0%,5.2%,0.8%,5.5%;在背景杂乱、形变、快速运动、运动模糊、平面外旋转和超出视野场景下成功率分别提升了2.8%,11.3%,6.7%,4.2%,7.6%,0.6%。
图3 不同属性的精确度
图4 不同属性的成功率
3.2.2 特征对比分析
为了验证本文所提出的多特征线性融合方法对于追踪效果有所提升,讨论不同特征方法对于跟踪效果的影响,表3为不同特征方法在OTB-2013中的性能比较。下面各个方法均在本文算法整体框架不变的情况下进行对比,其中HC算法使用HOG与CN特征直接融合;HCG表示使用HOG特征、CN特征和灰度像素直接融合;HCGL表示将HOG特征、CN特征、BP特征和灰度像素直接融合;而本文算法MFKCF使用HOG特征、CN特征、BP特征和灰度像素进行线性融合,为其中的一个专家系统即Expert 2。可以看出使用线性融合的算法MCKCF相对于HC、HCG、HCGL及各单特征性能均有所提升,并且比HCGL直接融合有了较大提升。使用线性融合的算法相对于各单特征或者各个特征直接进行串联组合性能均有所提升,且越多的特征若是直接融合不但跟踪性能不会有较大提升,而且反而导致特征过多造成数据冗余,大大降低了跟踪效果。在一定范围内多特征直接融合可以一定程度提升算法跟踪性能,如果越多特征采用直接融合方式效果往往会比少量特征进行线性融合的方式差。虽然多特征一定程度可以提升算法性能,但是直接进行特征串联操作效果往往比少数特征组合鲁棒性更弱,而采取权重分配的方式可以避免这种现象,并且可以提升算法鲁棒性。
3.2.3 定性分析与讨论
为了进一步验证本文算法MCMF的跟踪性能,实验选取了OTB-2013数据集其中5组视频进行分析说明,结果如图5所示。其中方框实线代表MCMF算法跟踪结果,方框双划线代表KCF算法的跟踪结果,方框虚线代表CSK算法跟踪结果,方框点划线代表MOSSE算法跟踪结果,椭圆框实线代表DFT算法跟踪结果,椭圆框双划线代表DSST算法跟踪结果,椭圆框虚线代表SAMF算法跟踪结果。
表3 各特征性能比较
图5 各算法定性对比
在图5(a)中,shaking序列中挑战因素有光照变化、遮挡、快速运动、平面旋转、背景杂乱等情况。在第10帧时,各算法都能有效的跟踪;当到第335帧时,目标出现旋转且光照变化较大情况下,SAMF、KCF、MOSSE、DFT都跟踪目标失败,此时CSK、DSST和本文算法 MCMF 能够跟踪目标,但CSK跟踪出现模型漂移;第365帧时,目标发生旋转,且伴随着尺度变化和光照变化情况,此时DSST和本文算法MCMF能够有效跟踪。
在图5(b)中,girl序列中,在第387帧时,DFT、CSK、MOSSE、KCF不能正确跟踪目标,而DSST也出现了跟踪目标不准确的情况;到第470帧时,目标发生了遮挡以及旋转,DSST彻底跟踪失败;第488帧时,仅有本文算法MCMF和SAMF跟踪未发生偏移。
在图5(c)中,couple序列第10帧时,各算法都具有一定跟踪能力;在第45帧时,目标出现尺度变化和快速运动,伴随形变和尺度变化场景,此时只剩本文算法MCMF和SAMF能够跟踪目标,剩余其它算法均跟丢目标;当第116帧时,目标出现尺度变化和快速运动,伴随形变和尺度变化场景,各算法依然未能有效跟踪目标,且SAMF丢掉跟踪目标,仅剩下本文算法MCMF能够跟踪目标。
在图5(d)和图5(e)中,freeman1序列及freeman4序列中,在刚开始各算法均有一定程度的跟踪性能,直到跟踪目标在遇到各场景情景下,除本文算法外,均丢失跟踪目标,仅剩下本文算法MCMF最终能够跟踪目标。
本文在核相关滤波算法下进行研究,针对该算法在单一特征以及目标干扰情况下出现跟踪失败的问题,提出了对多特征进行线性融合的方法,解决了单一特征对目标跟踪不准确的问题;利用多峰值检测更新机制解决目标因遮挡或学习错误帧信息造成的错误累积问题;使用多专家系统鲁棒性评分选择最优的跟踪结果。对OTB-2013整体数据集进行实验,取得较好的效果,与KCF算法相比有了较大的改善,有较强的鲁棒性,整体综合性能较好。未来作者将核相关滤波在尺度变化场景下的稳定跟踪方法展开进一步研究,并对使用多特征的核相关滤波算法在实现上进行优化,达到在相关平台上实时运行的目标。