袁 康, 魏大鹏, 赵从梅, 傅 顺
(1.重庆邮电大学 计算机科学与技术学院,重庆 400065; 2.中国科学院 重庆绿色智能技术研究院,重庆 400714)
视觉跟踪在计算机视觉领域是一个具有挑战性的问题。在许多应用中扮演着重要角色,尤其是人机交互、智能监控、机器人等多个领域[1,2]。所谓的跟踪任务是仅给出其初始位置,估计图像序列中目标的轨迹。虽然过去几十年,视觉跟踪取得了很大的成功[3~6],但是由于光照变化、几何变形、遮挡和背景干扰等因素的存在,使得设计稳健高效的目标跟踪器依然存在诸多问题。
最近,相关滤波器被引入到视觉跟踪应用中,并取得了很好的跟踪效果。相关滤波器的本质思想是相关性可以在傅立叶域中快速计算以避免耗时的卷积运算。Bolme D S等人[7]提出了最小化输出平方误差和输出(minimizing the output sum of squared error,MOSSE)的自适应相关滤波器对目标外观进行建模跟踪,相关滤波器中使用卷积理论来加速跟踪。Henriques J等人[8]提出了采用循环结构的核跟踪器(circulant structure with kernels tracker,CSK),利用图像中邻近子窗口的循环结构,对目标特征区域进行密集采样快速训练核化正则最小方差分类器。Henriques J等人又对CSK进行了扩展,在相关跟踪中使用多通道特征的核化脊回归模型,提出了核相关滤波器(kernelized correlation filter,KCF)[9]。Danelljan M等人[10]引入了颜色名称(color names,CN)颜色信息来提高在彩色图像中的跟踪性能,随后又提出了利用一个独立的尺度滤波器来进行精确尺度评估的判别式尺度空间跟踪(discriminative scale space tracker,DSST)跟踪器[11]。张开华[12]等人利用时空上下文信息结合贝叶斯框架来进行相关跟踪。上述跟踪方法虽然取得了很好的跟踪效果,但是不能有效地进行遮挡处理,很大程度上限制了跟踪性能。
本文在传统的CSK跟踪方法基础上,提出了一种基于支持向量机(support vector machine,SVM)的重检测机制,在目标发生遮挡时,能够有效解决遮挡问题,并通过在核矩阵中引入尺度因子来提高尺度滤波器的性能。
CSK跟踪算法的主要思想是利用循环矩阵构造训练样本,通过对一个单独的图像块学习目标的正则化最小二乘法(regularized least squares,RLS)分类器[9,10],通过核函数计算候选区域与跟踪目标的相似程度,选取相似度最大的候选区域为新的跟踪目标,同时利用离散傅里叶变换降低分类器训练和检测过程中的运算量。该算法可大致分为分类器训练、快速检测和外观模型更新。
分类器训练过程的数学公式描述如公式(1)所示
(1)
式中yi为样本xi的期望输出;λ为一个固定的正则化参数。使用高斯核函数κ,将样本映射到高维特征空间,将寻找最优w问题转化为寻找最优α问题
(2)
(3)
在计算响应得到新的目标区域x′后,更新下一帧中用于分类器检测过程中用到的模型参数α和目标模型X。
传统的CSK跟踪算法采取固定大小的训练样本来训练分类器模型,无法处理尺度变化问题,最终导致分类器模型累积误差,跟踪目标产生漂移。为此,本文使用相关滤波器方法对CSK算法进行多尺度跟踪上的改进,并提出了一种基于重检测的遮挡处理机制,对遮挡情况下的模型更新进行改进。
(4)
式中x为图像样本块;φ(·)为图像特征,Φ(·)为傅立叶域中的特征映射函数;K(·,·)为计算核相关的核矩阵。得到h后便可估计下一帧中目标区域z的尺度,对z提取相应的方向梯度直方图(histogram of oriented gradient,HOG)特征,记为g,然后取F-1(F(g)⊙H*)最大值所对应的尺度si为跟踪目标的尺度,最后更新目标模型参数αs和目标模型Xs。
假定训练数据包括了N组数据对,(xi,yi),i=1,2,…,n,xi=(xi1,xi2,…,xin),yi∈(-1,1)代表点xi的类,所述SVM分类器为wx+b=0,调整w和b使min|wxi+b|≥1,边缘d定义如下
(5)
确定最佳分类平面,使两个分界面之间的距离达到最大,此时对应的参数w达到最小,于是将线性分类问题转化为最优解问题,使用拉格朗日函数求解最优问题[13],最后计算得到最佳的权重向量w*,并使用支持向量得到最佳的偏移b=1-w*·xi。计算候选目标的置信度
score=w*·f+b
(6)
最高置信度所对应位置即为输出。
当目标被遮挡时,不适当的更新会导致目标模型漂移。为了解决这个问题,引入了一个简单的判断机制来评估目标是否遮挡,同时自适应调整学习率。如果目标发生遮挡,停止目标更新;否则,保持学习率不变。判断机制是每一帧的输出响应与阈值的比较,按如下方式调整学习率β
(7)
式中βinit为学习率β的初始值;T=0.15。
整个跟踪算法步骤如下:
初始化:根据第一帧视频选取要跟踪的目标,确定相关参数;
输入:第i(i≥2)帧视频vi;上一帧的目标位置pi-1及尺度si-1,位置检测中的αi-1,Xi-1及尺度检测中的ast-1,Xst-1,阈值T;
输出:检测出当前帧目标的位置pi和尺度si。
位置检测:
a.根据pi-1及si-1从vi帧中截取搜索窗口,并提取特征x;
尺度检测:
d.根据Pi及si-1从vi帧目标窗口区域中提取特征xs;
目标重检测:
更新:
i.更新位置检测中的αi,Xi;
j.更新尺度检测中的αsi,Xsi。
从Visual Benchmark[14]选取了14组复杂场景下的视频序列,如表1所示,进行测试并与其他5种经典的跟踪算法进行对比。
表1 实验中的测试视频
全部实验中,使用中心位置误差(center location error,CLE)、距离精度(distance precision,DP)、成功率(success rate,SR)作为综合评价指标。CLE表示跟踪结果中心与Groundtruth标注中心的欧氏距离,DP表示CLE小于某个固定阈值(实验中均取20像素)的视频帧数与总测试视频帧数的比值。SR的定义如下
(8)
(9)
式中score为重叠率;Rt为实验获得的目标矩形窗口;Rgt为手动标记获得的目标矩形窗口;area()为区域面积;Sn为跟踪成功次数,如果score>0.5,则Sn增加一次。
6种跟踪方法对14组视频进行测试获得的平均CLE,SR及DP,分别如表2~表4所示,其中加粗表示最优值。
表2 平均中心位置误差 像素
从表2~表4中可以看到:本文方法和原始CSK算法相比平均中心位置误差的均值由原来的92.27像素减少到了15.63像素,距离精度的均值由原来的35.95 %提高到了81.14 %,成功率均值由原来的33.54 %提高到了81.97 %,本文算法和其他5种算法相比,3种评测值亦最优,证明本文方法的跟踪性能有明显提高。
表3 距离精度 %
表4 成功率 %
实验中绘制了6种算法对14组视频的3种评测标准曲线,但是由于篇幅限制,本文仅给出了4组视频的评测曲线,如图1所示。
图1 部分实验评价标准曲线
通过3个评价标准的定量分析,可以证明本文方法的跟踪性能优于CSK跟踪方法。为了更直观地说明对比结果,以Woman视频的测试结果为例进行实验,图2、图3分别给出了2种方法的部分跟踪结果及3个评价标准的曲线。Woman视频中的目标分别发生了尺度变换、遮挡及背景干扰等情况,从图2可以看到:第125#帧目标发生了部分遮挡和背景干扰时,CSK跟踪开始出现尺度上的细微偏差。
由于CSK的跟踪误差逐渐积累,目标运动到第149#帧时,CSK的跟踪结果已经出现明显的偏移,到161#帧以后已经无法跟踪到目标,而本文算法从发生遮挡到遮挡消失后一直能较准确地跟踪目标。从图3中可以看出本文算法的3种评价标准曲线均优于CSK。综上可知本文方法较好。
图2 跟踪结果(55#,77#,125#,149#,161#,176#)
图3 曲线
为了更直观地说明实验对比结果,本文给出了部分视频序列在6种算法上的实验结果对比,如图4。
图4 部分实验对比
视频序列David中,存在光照尺度及姿态变化等问题,从图4(a)可以看出:第471#帧目标发生旋转时,部分算法已经将目标跟丢,在光照和姿态变化影响下,仅 CT及本文方法能够正确跟踪大部分视频序列。视频序列Liquor中,目标发生了光照、尺度变化、遮挡、模糊和背景干扰,从图4(b)可以看出:从第358#帧开始,目标发生快速运动、旋转及被复杂的背景干扰,其他算法均开始出现了较大的偏差,初始阶段可以准确跟踪的CSK算法在第511#帧时也跟丢了目标,而本文算法一直能准确跟踪目标。视频序列Girl中的目标分别发生了尺度变化、旋转、姿态变化和遮挡等情况,从图4(c)可以看出:第86#帧目标发生旋转时,和第460#帧发生遮挡时,其他几种算法跟踪均出现了偏差,而本文方法从发生旋转到遮挡消失后一直能较准确地跟踪目标。视频序列Jogging中,目标发生了遮挡、形变、旋转变化,从图4(d)可以看出从第83#帧开始,由于发生遮挡,只有跟踪学习检测(tracking learning detection,TLD)算法和本文算法仍然可以准确的跟踪目标。视频序列Dog1中目标主要发生了尺度变化,从图4(e)中可以看出:第192#帧当目标没有发生尺度变化的时候,几种算法均跟踪比较准确,在第856#帧和第1 054#帧,目标发生尺度变化,本文算法表现出了明显优势。
综合以上实验结果分析可知:本文方法在目标发生尺度、光照、姿态变化、旋转、遮挡以及快速运动等情况下均具有较强的适应性,跟踪性能良好。
提出了一种结合SVM的多尺度相关滤波器跟踪算法,首先通过CSK跟踪算法计算当前目标是否受到遮挡,在未受到遮挡的情况下,对当前目标建立尺度金字塔,然后通过相关滤波器求取尺度金字塔的最大响应得到当前目标尺度信息;最后使用新目标图像为训练样本更新目标的外观模型和尺度模型;如果受到遮挡,则触发重检测机制,在目标丢失后重新获取目标。实验结果证明该方法跟踪性能和原始CSK算法相比有所提高,也明显高于其它5种经典算法,适用于具有光照变化、尺度变化和遮挡的复杂场景下的运动目标跟踪。
参考文献:
[1] Fang J,Wang Q,Yuan Y.Part-based online tracking with geometry constraint and attention selection[J].IEEE Transactions on Circuits & Systems for Video Technology,2014,24(5):854-864.
[2] Chen Z,Hong Z,Tao D.An experimental survey on correlation filter-based tracking[J].Computer Science,2015,53(6025):68-83.
[3] Babenko B,Yang M H,Belongi E S.Robust object tracking with online multiple instance learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(8):1619-1632.
[4] Zhang K,Zhang L,Yang M H.Real-time compressive tra-cking[C]∥European Conference on Computer Vision,Springer-Verlag,2012:864-877.
[5] Kalal Z,Mikolajczyk K,Matas J.Tracking-learning-detection[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2012,34(7):1409-1422.
[6] Hare S,Golodetz S,Saffari A,et al.Struck:Structured output tracking with kernels[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,23(5):263-270.
[7] Bolme D S,Beveridge J R,Draper B A,et al.Visual object tra-cking using adaptive adaptive correlation filters[C]∥IEEE Conference on Computer Vision & Pattern Recognition,IEEE,2010:2544-2550.
[8] Henriques J F,Rui C,Martins P,et al.Exploiting the circulant structure of tracking-by-detection with kernels[C]∥ECCV 2012,Springer:Berlin Heidelberg,2012:702-715.
[9] Henriques J F,Rui C,Martins P,et al.High-speed tracking with kernelized correlation filters[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,37(3):583-596.
[10] Danelljan M,Khan F S,Felsberg M,et al.Adaptive color attri-butes for real-time visual tracking[C]∥IEEE Conference on Computer Vision and Pattern Recognition,IEEE,2014:1090-1097.
[11] Danelljan M,Häger G,Khan F S,et al.Accurate scale estimation for robust visual tracking[C]∥British Machine Vision Confe-rence,2014:65.1-65.11.
[12] Zhang K,Zhang L,Liu Q,et al.Fast visual tracking via dense spatio-temporal context learning[C]∥2014 European Conference on Computer Vision(ECCV),2014:127-141.
[13] Chapelle O.Training a support vector machine in the primal[J].Neural Computation,2007,19(5):1155-1178.
[14] Wu Y,Lim J,Yang M H.Online object tracking:A Bench-mark[C]∥IEEE Conference on Computer Vision & Pattern Recognition,2013:2411-241.