杨春德 刘京 瞿中
摘 要:针对核相关滤波器(KCF)跟踪算法在面对尺度变化时产生的目标漂移问题,提出一种分离窗口快速尺度自适应目标跟踪算法——FSACF。首先,通过直接对原始帧图像进行特征提取得到基于显著性颜色特征的全局梯度组合特征图,以减小后续的尺度计算对性能的影响;其次,对全局特征图采用分离窗口法,自适应地选取尺度大小并计算对应的最大响应值;最后,采用定义的置信度函数自适应地更新迭代模板函数,提高模型的鲁棒性。通过带有不同干扰属性的视频集上进行实验,发现FSACF算法与KCF算法相比,在精度上提升7.4个百分点,成功率提高12.8个百分点;与未采用全局特征和分离窗口的算法对比,处理速度上提升1.5倍。实验结果表明,FSACF算法在尺度变化发生时能有效避免目标漂移的产生,同时具有一定的效率,并在精度与成功率上均优于对比算法。
关键词:目标跟踪;核相关滤波器;尺度自适应;全局特征;置信度函数
中图分类号:TP391.41
文献标志码:A
文章编号:1001-9081(2019)04-1145-05
Abstract: In order to solve the problem of object drift caused by Kernelized Correlation Filter (KCF) tracking algorithm when scale changes, a Fast Scale Adaptive tracking of Correlation Filter (FSACF) was proposed. Firstly, a global gradient combination feature map based on salient color features was obtained by directly extracting features for the original frame image, reducing the effect of subsequent scale calculation on the performance. Secondly, the method of separating window was performed on the global feature map, adaptively selecting the scale and calculating the corresponding maximum response value. Finally, a defined confidence function was used to adaptively update the iterative template function, improving robustness of the model. Experimental result on video sets with different interference attributes show that compared with KCF algorithm, the accuracy of the FSACF algorithm by was improved 7.4 percentage points, and the success rate was increased by 12.8 percentage points; compared with the algorithm without global feature and separating window, the Frames Per Second was improved by 1.5 times. The experimental results show that the FSACF algorithm avoids the object drift when facing scale change with certain efficiency, and is superior to the comparison algorithms in accuracy and success rate.
Key words: object tracking; Kernelized Correlation Filter (KCF); scale adaptive; global feature; confidence function
0 引言
目標跟踪是计算机视觉中最基本的问题之一,在视频监控[1]、行为分析等方面有着广泛的应用。尽管目标跟踪已经取得了较大的进展,但仍受众多因素的影响,如尺度变化、遮挡[2]等,所以目标跟踪仍是一个具有挑战性的课题。
Bolme等[3]提出的最小平方误差输出和(Minimum Output Sum of Squared Error, MOSSE)算法,将相关滤波引入跟踪领域,使跟踪速度得到提高。而后Henriques等[4]基于MOSSE的框架加入密集采样的思想提出核循环结构跟踪(Circulant Structure with Kernel, CSK)算法,利用循环矩阵的性质加速了求解过程。随后,Henriques等[5]
又对CSK算法加入多通道特征的方法并推导出非线性解,提出非线性核相关滤波器(Kernelized Correlation Filter, KCF)使多特征融合成为可能。Li等[6]针对KCF算法无法处理尺度变化的问题,提出尺度与位移同时计算最优的多特征尺度自适应(Scale Adaptive Multiple Feature, SAMF)跟踪算法,解决由于尺度变化而导致的目标信息丢失问题,但无法满足实时性需求,且在面对遮挡时易产生模型污染。
Kalal等[7]提出学习检测跟踪(Tracking-Learning-Detection, TLD)算法,将跟踪和检测相结合,引入在线学习机制,鲁棒性强,具有很强的学习恢复能力,但在面对光照变化等因素影响时易产生目标漂移,并且效率不高。
本文针对KCF算法在尺度变化时易产生漂移的问题,提出一种分离窗口尺度自适应跟踪算法——FSACF(Fast Scale Adaptive tracking of Correlation Filter)。首先对每帧原始图像进行全局特征提取,基于显著性颜色特征和灰度特征提取对应的梯度特征;然后采用提出的尺度自适应算法在全局特征图上进行计算,以分离窗口的方式选择合适的尺度进行响应值计算并得到模板函数;最后修改了更新策略,提出一组置信度函数的定义,采用置信度函数对模板函数学习率进行自适应的调整更新,使得模型更加稳定。
1 相关滤波跟踪算法
相关滤波器跟踪算法的主要框架包括:首先滤波器采用岭回归模型对第一帧选定的目标进行训练;然后将模型与下一帧的图像进行快速检测,通过相关运算得到响应矩阵来确定当前帧图像中目标的中心位置;最后以新的位置信息对图像的目标重采样进行模型更新迭代,重复以上过程实现跟踪。
1.1 岭回归模型建立
假定训练集的图像样本表示为z(mi,ni),则训练的目标就是找到一个函数f(z)=pTz,使得误差函数minp(f(z)-Y)2+λ‖p‖2最小。其中:Y为回归目标;λ为正则化参数,防止过拟合。
为了让检测器有更好的表现,Henriques等[5]利用循环矩阵的性质,
其中:zx表示在傅里叶域中z自身的核相关性,是标准正太分布的傅里叶变换。这样对p的求解就转变到对偶空间中对α的求解。
1.2 快速检测运算
循环矩阵的性质同样被用到了检测过程中。对下一帧历史位置提取的图像块z进行循环采样,可以由式(3)得到频域中的响应函数:
得到响应值矩阵后进行傅里叶逆变换即可得到时域中响应值矩阵,其最大值的位置就是对应目标的中心位置。
2 快速尺度自适应目标跟踪算法
在目标确定后,本文算法(FSACF)对目标原始图提取显著颜色梯度全局特征图,以避免多次重复提取特征,并提出一种特征组合方式;然后在全局特征图上采用分离窗口快速尺度估计算法得到响应矩阵,进一步加速尺度信息确定的计算;最后针对响应矩阵的数值进行分析,并代入到提出的置信度函数中,实现对模板函数自适应更新。
2.1 全局特征图
在相关方法中,傅里叶变换的计算次数与特征维数呈线性关系,为提高计算的速度,本文提出在原始图的基础上只进行一次特征提取得到全局特征图,避免多次提取的重复操作。适当的特征组合也可以显著地提高检测性能,而梯度和颜色特征的联合已被证实有着很强的互补性,但如何进行合适的组合仍是一个有待解决的问题。
常规的方向梯度直方图(Histogram of Oriented Gradients, HOG)特征[8]和颜色名称(Color Name, CN)特征[9]的融合是直接相连的,而在不同的颜色空间中,目标的梯度特征是不同的,因此从每个颜色空间中提取梯度特征是一种更好的策略。为了平衡性能,本文提出一种基于显著性颜色特征提取梯度特征的方法,其过程如下:首先将RGB图像转换为11維颜色空间,接着对其降维,提取显著性颜色特征图;然后在显著性颜色特征图的每一个通道和灰度特征图上提取HOG特征;最后将得到的梯度特征降维,连接成一个共54通道的三维矩阵为全局特征图,如图1所示,后续尺度估计算法直接在全局特征图上提取对应的目标进行计算。
2.2 快速自适应尺度
如图2所示:图2(a)为初始化状态,图2(b)~(d)为后续视频序列根据分离规则分离后得到的对应窗口位置,其中黑点处为当前最大响应值的位置。
当图2(a)中最大响应处于上半部分时,图2(b)中w1~wmid-1窗口上移;
当图2(b)中最大响应处于上半部分时,图2(c)中w1~wmid-1窗口上移;
当图2(c)中最大响应处于下半部分时,图2(d)中w1~wmid-1窗口重新初始化,wmid-1~wm窗口下移。
分离规则如表1所示。表1中:cur表示当前帧最大响应所在的窗口位置;move-1和move+1分别表示对应窗口上移/下移一个单位;stay表示维持当前位置;initialise表示重新初始化到原始位置。
采用分离窗口法可以根据上一帧得到的尺度信息,快速寻找到最适合下一帧目标特征图feature_map的最可能的m个尺度信息。如图2(b)所示,当上一帧cur指向hmid-1时,下一帧继续缩小或保持的概率更大,所以缩小窗口上移偏向选择缩放比例更小的尺度;而由实验分析可得,视频中尺度是渐变的,若此时放大部分的上一尺度不是保持部分则将放大部分初始化至原始位置,保证目标的下一帧目标若为放大时有更适合的尺度与之匹配。
按对应的尺度hisH为大小在feature_map上截取对应尺度特征图,将得到包含不同比例的正负样本信息的特征图,采用双线性插值法还原到初始尺度,然后将其映射到核空间,代入到式(5),则可以得到目标第t与t-1帧对应的高斯核函数;代入到式(3),则可得到最大响应值,即可确认位置信息和尺度信息。
2.3 自适应更新策略
由于视频序列的连续性,帧间的目标信息重复性大,大多数跟踪算法采用的是持续地对模板函数式(2)进行恒定更新迭代,导致跟踪过程中不可避免的存在模型污染、目标漂移等问题。
经研究发现持续地对模板函数进行更新,在遮挡等情况发生的情况下,不适合的更新容易导致模型污染。针对这个问题,本文提出了一个置信度函数Φ(·),如式(6)所示:
若发生遮挡,为避免采集到过多的错误信息污染模型,自适应地调整学习率。
当响应值小于门限μ时,采用αmax3函数降低学习率,降低错误采样对模型造成的影响;当响应值大于门限μ时,采用(αmax-μ)1/4函数,适当地提高更新学习率,维护模型的稳定性。
设new和pre分别表示当前帧和前一帧的模板信息,ξ表示模板函数的学习率,xnew和xpre分别表示当前帧和前一帧的目标信息,η表示目标特征的学习率,hc表示当前帧的尺度信息。根据提出的置信度函数对模板更新函数进行改进,可以得到学习率自适应更新函数如式(7)所示:
对x′目标信息保持持续更新的策略。对于模板函数加入自适应学习率,即控制模板函数在可能发生模型污染的情况下,对模板函数以自适应学习率进行选择性更新,避免模型污染。对于尺度模板sH逐帧进行更新,以t-1帧时的尺度信息作为第t帧的尺度模板。
2.4 算法流程
FSACF算法的具体流程为:
首先输入第t-1帧的目标中心位置和目标尺度信息,训练检测器,根据第t-1帧中的目标中心位置,提取当前第t帧的全局特征图;然后在全局特征图上执行快速自适应尺度估计算法进行尺度选择,将选中的尺度池S中对应的尺度在特征图中提取出目标,代入到响应值函数进行计算;最后在得到的m组响应矩阵中取最大值进行对比,找到全局最大值的位置,即可确定第t帧的目标中心位置和尺度信息,信息确认后执行自适应更新策略对模板函数和目标信息进行更新。
本文算法流程如图3所示。
具体算法步骤如下:
输入 第t-1帧目标中心位置和目标尺度信息。
输出 第t帧目标的目标中心位置和目标尺度信息。
步骤1 提取第t帧的基于显著性颜色特征的梯度特征得到全局特征图。
步骤2 采用分离窗口确定的尺度信息和第t-1帧的中心位置信息,对全局特征图使用式(5)进行目标特征图提取,并通过核函数式(6)进行融合得到样本kxx′。
步骤3 将kxx′依次与模板函数α进行相关运算式(3)得到对应响应图,选择拥有最大响应值的响应图,即可确认第t帧中目标的中心位置与目标尺度信息。
步骤4 对第t帧中的更新模板系数、基样本x和尺度模板sH采用式(7)进行更新。
重复迭代以上步骤,以实现跟踪。
3 实验与结果分析
3.1 实验参数与评价标准
实验平台为Windows 10操作系统,处理器Core i5-6200U,8GB内存,运行平台为Matlab。实验测试视频数据为OTB-50[10],选取其中40组视频,涉及到灰度图像和彩色图像,同时包含尺度变化、遮挡等11个属性,每个视频序列包含多个属性。为方便与KCF算法进行对比,实验中参数与KCF算法保持一致。本文为保证精度窗口规模m=5;尺度池S规模t=9,间隔为0.015;学习率ξ=0.01;超参数门限μ=0.25为实验经验值。选取了CSK、SAMF等5种算法和本文算法的结果进行定性定量的分析。
所有的实验均采用四个评价指标:1)精度曲线。精度曲线表示某一距离阈值的正确跟踪帧的百分比,如果预测的目标中心在距离标准值的一定阈值内,则被认为正确跟踪,较高的低阈值精度表示跟踪器更精确,在此选择的阈值为20个像素。2)平均中心位置误差(Centre Location Error, CLE)。中心位置误差是跟踪算法计算的位置中心与数据集的标准值之间的差异,误差越小效果越优。3)成功率曲线。成功率是以目标边界框的重叠率O=|Bt∩Bg|/|Bt∪Bg|进行计算的,其中∩和∪分别表示两个区域的交集和并集,|·|指的是区域内的像素点个数,Bt为跟踪的边界框,Bg是标准边界框。重叠率越高越准确,这里选择重叠率的阈值为0.5。4)每秒处理的帧数(Frames Per Second, FPS)。FPS的数值越大说明处理速度越快。
3.2 实验结果分析
为了评估本文提出的FSACF算法的有效性,选取OTB视频集中40组视频,平均所有属性下的跟踪结果,绘制出精度曲线和成功率曲线如图4所示,对比算法包括SAMF、KCF、TLD、核结构化输出跟踪算法Struck(structured output tracking with kernels)[11]和CSK算法。
从图4可看出:本文提出的跟踪器在20个像素的位置误差上精度为82.7%,在50%的重叠率上的成功率表现为76.2%,在精确性和鲁棒性方面都有很好的应用前景。本文FSACF算法与SAMF算法相比,在精度上高出1.4个百分点,成功率高出3.9个百分点;与KCF算法相比,在精度上提高7.4个百分点,成功率提高12.8个百分点;与Struck算法相比,在精度上高出12.4个百分点,成功率高出18个百分点,在精度与成功率上均优于其他对比算法。由此可以看出,显著性颜色梯度特征能在一定程度上抑制背景的干扰,经改进后算法对目标信息的捕捉能力有一定提升。
为了验证本文提出的基于显著性颜色特征的全局梯度特征法和分离窗口法对尺度计算效率的提升,将FSACF算法与尺度自适应跟踪(Scale Adaptive Correlation Filter, SACF)算法即无分离窗口和全局特征法的FSACF算法进行比较。本文提出的FSACF算法在处理速度方面如表2所示(这里只选择了部分的视频序列进行列举),平均比SACF算法提升1.5倍。
对超参数μ进行对比分析實验如图5所示,其中μ分别取值0~0.7(以0.05为间隔)。以不同μ值依次对FSACF算法进行测试,得到的精度取平均值,可以从实验结果中看出在μ=0.25时可以得到最高成功率。当给置信度函数选取适当的μ值,模型在一定程度上可以避免异常值对模型造成的污染,从而缓解因遮挡等因素而引起的目标漂移问题。
選取多组视频序列进行定性分析,各算法的跟踪结果如图6所示。实验结果显示,现有的一些跟踪算法仅能在自然场景中小部分干扰因素下正常跟踪,当有光照、尺度等因素影响时效果反差大,易产生目标漂移等问题。
而FSACF算法采用颜色梯度特征能很好地克服光照变化的影响, 同时采用了分离窗口法有效地克服了尺度变化对跟踪造成的影响。
当尺度发生较大变化时FSACF算法在三组视频中均能准确地框定出目标,其他算法则易产生不同程度的目标漂移。所以FSACF算法具有良好的鲁棒性,特别是在尺度变化方面表现优异。
4 结语
针对KCF算法在跟踪过程中面对尺度变化和遮挡发生时易产生目标漂移和模型污染的问题,对其进行改进,提出FSACF算法。本文利用颜色空间和梯度特征的互补性,提出的全局组合特征和分离窗口法,不但能处理尺度的问题,同时保证了实时性的需求。并验证了置信度函数可以在一定程度上提高模型更新策略的鲁棒性,避免模型污染。但综合所有干扰因素的情况,整体跟踪精度与成功率没有大幅度的提升。在接下来的工作中,如何在保证效率的同时对精度与成功率进行进一步的提升是下一步的研究重点。
参考文献(References)
[1] ZHENG Y, LI S E, WANG J, et al. Stability and scalability of homogeneous vehicular platoon: study on the influence of information flow topologies [J]. IEEE Transactions on Intelligent Transportation Systems, 2016, 17(1): 14-26.
[2] 勾承甫, 陈斌, 赵雪专, 等. 基于随机一致性采样估计的目标跟踪算法 [J]. 计算机应用, 2017, 36(9): 2566-2569. (GOU C F, CHEN B, ZHAO X Z, et al. Object tracking algorithm based on random sampling consensus estimation [J]. Journal of Computer Applications, 2017, 36(9): 2566-2569.)
[3] BOLME D S, BEVERIDGE J R, DRAPER B A, et al. Visual object tracking using adaptive correlation filters [C]// CVPR 2010: Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2010: 2544-2550.
[4] HENRIQUES J F, RUI C, MARTINS P, et al. Exploiting the circulant structure of tracking-by-detection with kernels [C]// ECCV 2012: Proceedings of the 12th European Conference on Computer Vision, LNCS 7575. Berlin: Springer, 2012: 702-715.
[5] HENRIQUES J F, CASEIRO R, MARTINS P, et al. High-speed tracking with kernelized correlation filters [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596.
[6] LI Y, ZHU J. A scale adaptive kernel correlation filter tracker with feature integration [C]// ECCV 2014: Proceedings of the 2014 European Conference on Computer Vision, LNCS 8926. Berlin: Springer, 2014: 254-265.
[7] KALAL Z, MATAS J. Tracking learning detection [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(7): 1409-1422.
[8] FELZENSZWALB P, GIRSHICK R, MCALLESTER D, et al. Object detection with discriminatively trained part-based models [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.
[9] DANELLJAN M, KHAN F S, FELSBERG M, et al. Adaptive color attributes for real-time visual tracking [C]// CVPR 2014: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 1090-1097.
[10] WU Y, LIM J, YANG M H. Object tracking benchmark[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1834-1848.
[11] HARE S, GOLODETZ S, SAFFARI A. Struck: structured output tracking with kernels[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(10): 2096-2109.