具有尺度和旋转适应性的长时间目标跟踪

2019-04-12 07:03熊丹卢惠民肖军浩郑志强
自动化学报 2019年2期
关键词:置信度直方图尺度

熊丹 卢惠民 肖军浩 郑志强

目标跟踪作为计算机视觉领域的一个核心的并且极具挑战性的研究课题,在多年之前科研人员就已经开始进行深入研究.大量关于目标跟踪的参考文献和算法已经发表和提出,具体的这些文献和算法可以参考目标跟踪的一些综述[1−5]或视觉跟踪竞赛[6−8].根据视觉外观的统计模型不同,可将现有的跟踪方法分为基于生成模型的目标跟踪方法和基于判别模型的目标跟踪方法.

基于生成模型的跟踪方法一般首先构建目标的外观模型,然后通过拟合该模型在图像中找到最相似的区域作为目标区域.文献[9]提出了能够同时编码目标的颜色和颜色空间分布的空间–颜色混合高斯外观模型.文献[10]提出了一种基于向量子空间的统计模型对刚性和铰接式的跟踪目标进行建模.文献[11]提出利用增量式的核主成分分析方法为跟踪目标构建具有稳定更新速度和恒定内存需求的非线性子空间模型.基于生成模型的跟踪方法普遍对背景信息缺乏考虑,跟踪子在背景凌乱的环境中效果不是很理想.基于判别模型的跟踪方法将目标跟踪问题考虑为一个二分类问题,通过构建分类器来区分跟踪目标和背景.与仅利用目标外观信息的生成模型不同,基于判别模型的跟踪子对目标和目标周围环境都进行了建模.Grabner等利用在线Boosting算法训练级联分类器来区分目标和背景[12].文献[13]利用压缩特征对目标进行描述,并通过朴素贝叶斯分类器区分跟踪的目标和背景.Kalal等将跟踪、检测和学习结合起来,检测子能够恢复跟踪失败的跟踪子,而跟踪子的跟踪结果能够为检测子提供具有结构约束的训练样本,提高了检测子的鲁棒性和区分能力[14].

近年来,相关滤波方法在目标检测和目标跟踪中得到广泛应用,显示出较好的检测和跟踪性能.基于相关滤波的目标跟踪方法采用判别式统计模型为目标的视觉外观进行建模,该方法将两个图像块之间的卷积操作转换为傅里叶域的点乘操作,计算简单高效.文献[15]提出了一种误差最小平方和相关滤波方法(Minimum output sum of squared error filter,MOSSE),在目标跟踪中得到了成功应用.MOSSE跟踪算法对跟踪过程中的光照、局部非刚性扭曲等变化具有较好的鲁棒性,并且计算非常简单,跟踪帧速率甚至能够达到每秒几百帧,但是MOSSE跟踪子并没有考虑目标的尺度和旋转变化.文献[16]提出了一种核相关滤波方法(Kernelized correlation filter,KCF),并应用于目标跟踪中,取得了较好的跟踪效果,但是KCF同样没有考虑目标的尺度和旋转变化问题.为了解决跟踪过程中的尺度变化问题,文献[17]利用学习的滤波器在原始图像和该图像双线性插值缩放后的图像上检测目标,通过响应最大的平移位置和响应所在的尺度估计出目标的位置和尺度.文献[18]使用基于HOG特征的自适应多尺度相关滤波器(Discriminative scale space tracker,DSST)估计目标的尺度,进一步考虑到基于相关滤波的目标跟踪算法一般都是利用周期性假设产生具有循环结构的训练样本,这样不可避免在样本中引入了边界效应,为此在学习滤波器时加入了空间正则项,能够得到区分能力更强的滤波器[19].基于相关滤波跟踪子对运动模糊和光照变化具有较好的鲁棒性,但是对目标形变比较敏感,而基于颜色统计的目标外观模型受到目标的形变影响较小,Bertinetto等将两者结合起来提高了跟踪子的性能[20].文献[21]利用具有循环结构的训练样本训练支持向量机,得到具有更强区分能力的支持相关滤波器,在目标跟踪中得到了成功的应用.文献[22]提出将空间上下文模型和时间上下文模型结合起来学习相关滤波器,并且根据上下文中不同区域与跟踪目标相似度大小对目标区域进行了加权,提高了跟踪算法的鲁棒性.Ma等提出了一种长时间的相关滤波目标跟踪方法,他们学习了三个相关滤波器,分别用于估计目标的平移、尺度和跟踪结果的置信度,除此之外还专门训练了一个随机蕨分类器,用于目标丢失时再检测[23].

在目标跟踪过程中,目标出现尺度和旋转变化是一种比较常见的情况.以往的研究对目标尺度估计考虑较多,很少会专门针对目标的旋转运动进行分析,因此当目标存在旋转时,如何实现鲁棒的视觉跟踪仍然是一个极具挑战的研究问题.此外,在目标跟踪过程中,特别是长时间目标跟踪过程中,因为存在长时间半遮挡或全遮挡等情况,跟踪子有时不可避免地会跟踪失败.如何让跟踪子从失败中恢复过来是实现长时间目标跟踪的前提.文献[14]和文献[23]都设计有专门的检测模块用以恢复错误的跟踪子,但是这两种方法均没有考虑目标的旋转情况,而且检测子需要处理每一个滑动窗口来判断其是否包含目标,整个过程比较耗时,降低了跟踪算法的实时性能.本文针对上述问题,提出了具有尺度和旋转适应性的长时间目标跟踪方法.傅里叶–梅林变换能够将原始图像上的目标尺度和旋转估计转换为频域幅值谱对数极坐标图像上简单的平移估计,在图像配准领域已经得到了成功应用[24−26].本文受到该方法启发,将其与核相关滤波结合起来,提出一种鲁棒的旋转和尺度参数估计方法.为了让跟踪子具有从失败中恢复过来的能力,本文提出了基于直方图和方差加权的目标搜索算法,根据计算的权重采用蒙特卡罗随机抽样原理,能够从大量的滑动窗口中抽取其中权重比较高的进行处理,提高了整个检测的实时性能.本文还训练了两个核相关滤波器专门用于估计目标平移运动和跟踪结果的置信度.鲁棒准确的跟踪结果置信度估计能够用于激活基于直方图和方差加权的目标搜索模块,当跟踪失败时,通过激活搜索模块使得跟踪子能够从失败中恢复过来.

1 基于傅里叶−梅林变换和核相关滤波的尺度和旋转参数估计

大量图像配准方面的研究工作是通过估计图像之间的平移、旋转和尺度参数来得到像素点之间的变换关系[24−26].在目标跟踪过程中,短时间内可以将目标附近区域看作是近似静止的,如此就可将图像配准领域得到成功应用的一些成熟方法应用到目标跟踪过程中,估计前后帧目标之间的旋转和尺度关系.但是,图像配准一般针对两帧独立的图像,对目标跟踪而言,仅仅利用前后两帧图像估计目标的尺度和旋转,会使得估计的结果抗干扰能力不强,鲁棒性不高.本文将图像配准领域得到成功应用的傅里叶–梅林变换和核相关滤波方法结合起来,提高了目标尺度和旋转参数估计的鲁棒性和准确性.

1.1 傅里叶−梅林变换

笛卡尔坐标系下尺度变化和旋转运动转换到对数极坐标下表现为纯粹的平移运动.对数极坐标变换过程中在变换中心附近密集采样,在远离中心附近稀疏采样,因此对变换中心的改变非常敏感,在目标跟踪过程中会表现出对平移较为敏感.在目标跟踪过程中,通过对原始图像进行对数极坐标变换可以估计出目标的旋转和尺度参数,但是存在的目标平移运动会导致变换中心可能发生改变,使得估计出的尺度和旋转参数并不准确.先估计出目标的平移,然后估计目标的旋转和尺度参数,一定程度上能够减小变换中心对旋转和尺度参数估计的影响,但是目标存在尺度变换和旋转运动时,估计的平移参数也可能不是很准确,不能保证尺度和旋转参数估计的准确性.但是在频率域内,两幅图像仅仅存在平移时,傅里叶变换的幅值谱图像是完全相同的,仅仅存在相位上的差异,变换中心几乎是固定不变的,这就避免了平移对目标旋转和尺度参数估计的影响.傅里叶–梅林变换将原始图像上的尺度和旋转估计转换到频率域内进行,与DSST等依靠有限的尺度金字塔估计尺度信息不同,该方法能够实现连续空间的尺度和旋转参数估计.

假设存在图像s(x,y),进行旋转、平移和尺度缩放后得到图像为t(x,y),变换中心为原点(0,0),其中旋转变化为∆θ,尺度变化为α,平移向量为(∆x,∆y),变换后的图像t(x,y)可以表示为

将t(x,y)和s(x,y)进行傅里叶变换,得到傅里叶谱T(u,v)和S(u,v),两者之间存在如下关系:

对数log的底与幅值谱的长宽和变换后对数极坐标图像的距离轴的宽度有关.假设幅值谱图像的长为H,宽度为W,变换后距离轴的宽度为d,则文中对数log的底定义为.本文实验部分,令Mt和Ms分别为log(|T(u,v)|)和log(|S(u,v)|)的对数极坐标图像,,θt=arctan(v/u).用 (ε,η)表示(log(ρt),θt),则式 (3)可以表示为

最终图像之间的旋转运动和尺度缩放转换成了幅值谱对数极坐标图像距离轴和角度轴上的平移运动:∆ε=log(α),∆η=∆θ.

傅里叶–梅林变换的具体过程如下:1)对输入图像进行傅里叶变换,得到对数幅值谱图像;2)对对数幅值谱图像进行高通滤波;3)对数极坐标变换,得到图像傅里叶–梅林变换之后的特征.其中对对数幅值谱图像进行高通滤波,是因为通过高通滤波能够突出图像的边缘信息和轮廓特征,这些信息对尺度和旋转参数的估计更加重要,最终使得估计的结果更加准确.高通增强滤波器定义如下:

其中,X(u,v)=cos(π(u/H− 0.5))cos(π(v/W−0.5)),W和H为待滤波图像的宽度和高度.

1.2 核相关滤波

核相关滤波实质是一种目标检测方法,该方法将核函数脊回归与循环矩阵结合起来,提高了训练和检测的效率,增强了算法的实时性能.基于核相关滤波的目标跟踪是一种基于检测的目标跟踪方法,它在样本空间利用循环矩阵稠密采样,越靠近目标区域为正样本的可能性越大,该方法在目标跟踪中已经取得了较好的跟踪效果.

线性空间的脊回归和循环矩阵也能够结合起来训练相关滤波检测子,但是在实际应用中,并不能保证获得的样本是线性可分,利用线性脊回归处理非线性样本效果并不是非常理想.通过核策略将非线性样本映射到高维核空间后,样本在映射后的空间一般是线性可分的,因此使用核技巧使得学习的检测子更加鲁棒.假设核函数为ϕ(x),核回归模型为,xi,i=1,2,···,n为训练样本,对核脊回归求解最终得到[16]:

其中,Kij=ϕ(xi, xj).为了保证K为循环矩阵,必须满足下列两个条件:1)训练的样本集xi,i=1,2,···,n应该具有循环结构,即X=[x1, x2,···, xn]T为循环矩阵;2)核函数必须满足条件:假设x和x′满足条件1)时,对于任意的排列矩阵M,有ϕ(x, x′)=ϕ(M x,M x′),x和x′并不要求来自于同一循环结构样本集,M是每一行每一列都恰有一个元素为1,其他均为0的方阵.则求解式(6),得

其中,符号∧表示傅里叶变换后的结果,kxx为循环矩阵K的第一行向量,该向量是对称的,它的傅里叶变换结果为实数,的共轭为其本身.

在目标跟踪中,训练样本由目标区域图像块(或者图像块提取的特征)x=x1和它循环移位的候选样本xi,i=2,···,n组成,每个样本的对应标签根据移位的距离确定,越靠近目标区域为正样本的几率越大.在检测时,待检测的样本也是由一个图像块(或者图像块提取的特征)z=z1和它循环移位的样本zi,i=2,···,n构成,通过回归模型处理待检测样本,得到

其中,f(z)为所有待检测样本的检测输出(属于正样本的置信度)组成的向量,Kzij=ϕ(xi, zj).(Kz)T是一个循环矩阵,对式(8)两边进行傅里叶变换,得

其中,为Kz的第一行向量进行傅里叶变换的结果.

在基于核相关滤波的学习和检测过程中,仅仅需要通过脊回归模型计算循环矩阵第一行向量kxx和kxz即可,然后进行傅里叶变换,即可代入式(7)和式(9)进行求解.在实际应用中,高斯核函数比较常用,kxx和k xz的求解过程与kab相同[16].

1.3 尺度和旋转参数估计算法

基于相关滤波的目标跟踪算法一般利用图像块x0,0训练的滤波器对视觉外观进行建模,x0,0的长宽分别为M和N,则通过循环移位一共可以得到M×N个样本xm,n,(m,n)∈{0,1,···,M−1}×{0,1,···,N−1},每个样本通过高斯函数分配一个标签y(m,n).核函数脊回归模型为,其中ϕ为核函数,损失函数定义如下:

在目标尺度和旋转参数估计过程中,x0,0是图像块经过傅里叶–梅林变换之后的对数极坐标图像,式(11)中的训练样本集xm,n是由x0,0循环移位产生.基于傅里叶–梅林变换的核相关滤波模型学习如图1所示.为了消除傅里叶变化过程中的窗口效应,需要在对数极坐标图像上叠加具有空间权重的汉宁窗.

图1 基于傅里叶–梅林变换的核相关滤波模型学习Fig.1The kernelized correlation filtering model learning based on the Fourier-Mellin transform

在估计旋转和尺度参数时,首先得到目标区域的图像块,进行傅里叶–梅林变换后得到对数极坐标图像z,与样本集xm,n产生过程类似,对z循环移位得到待检测的样本集.快速检测方法参考式(9),对其进行傅里叶反变换得到位移的空间置信度.

通过的最大响应位置可以求得距离轴的平移∆ε和角度轴的平移∆η,最终计算出尺度α和旋转角度∆θ.

在目标跟踪中,目标的视觉外观可能会发生变化,模型应该具有适应目标的视觉外观变化的能力.如果第t−1帧训练的模型记为Mrs(t−1),模型中包含两部分:训练的样本x(t−1)和核脊回归的模型参数(t−1).在第t帧,跟踪算法最终会得到目标新的位置、尺度和旋转参数,根据这些参数剪切图像块,然后进行傅里叶–梅林变换得到新的样本x(t)和核脊回归的模型参数(t),假设学习率为β,模型更新过程如下:

2 基于核相关滤波的目标位移和跟踪结果置信度估计

在目标跟踪过程中,可能会遇到目标被遮挡、外部光照改变、目标快速运动和背景杂乱等情况,跟踪算法的最重要任务就是在这些挑战性的情形下鲁棒地估计目标的位置.在目标跟踪过程中,准确判断目标当前的跟踪状态是一件非常有意义的事情,能够给更上层的决策例如风险评估等提供支持.一般的跟踪算法在估计目标位置的同时,也会给出一个结果置信度值[16],但是在跟踪过程中,目标模型的更新经常会存在缓慢漂移等现象,如此会导致跟踪算法给出的置信度值始终比较高,该值并不能够用于准确判断目标跟踪状态.本文提出训练两个核相关滤波器分别用于估计目标在图像序列中的平移和目标跟踪结果的置信度.

用于目标位移估计和跟踪结果置信度估计的核相关滤波模型过程如图2所示.图2中的两个核相关滤波器,一个用于估计目标在图像序列中的位移,一个用于估计跟踪结果的置信度.两个滤波器的学习、检测和模型更新过程与第1节介绍的目标尺度和旋转参数估计过程一样,都是利用核相关脊回归方法来实现快速的模型学习和目标检测,具体的过程参见图1和式(11)∼(13).从图2可以看出,两个核相关滤波器都使用了HOG特征,这是因为HOG特征对外部光照变化和目标局部扭曲具有较好的鲁棒性,而且在目标跟踪过程中已经取得了较好的跟踪效果[16].在目标位移估计过程中,在目标和它的周围区域内的图像块上提取HOG视觉特征作为训练的样本,并且在提取的HOG特征上叠加具有空间权重的汉宁窗.在目标跟踪结果置信度估计时,应该减少周围环境对目标跟踪置信度估计的影响,而且跟踪结果的所有像素点应该是同等重要的,因此本文在训练置信度估计的核相关滤波器时仅仅考虑了跟踪算法定位的目标区域,并没有叠加具有空间权重的汉宁窗,如此可使得估计的置信度结果更加准确.

图2 用于目标位移估计和跟踪结果置信度估计的核相关滤波模型Fig.2The kernelized correlation filtering models for the estimation of object translation and the confidence of the tracking result

3 基于直方图和方差加权的跟踪目标搜索

直方图对目标幅度不大的平移和缩放等几何变化具有较好的鲁棒性,对观察轴为轴心的旋转变换具有较好的不变性.颜色直方图是一种比较简单的全局视觉特征,计算非常高效.对于图像I,它的颜色直方图特征是一个n维的向量HI=[h1,h2,···,hn],向量中的第j个元素hj表示图像I落在组件j确定的颜色区间像素点的个数.在目标跟踪过程中,一般需要计算特定区域的直方图(如目标区域),图像I中特定区域Ω的直方图表示为.区域Ω内像素点的数目为M×N,直方图的组件数为n,对直方图进行归一化实质上反映了图像颜色空间的一种概率分布,每个组件对应的概率为

在目标跟踪应用中,Ω表示的是跟踪目标在图像中的矩形区域.本文根据P(b)构建概率模型Mh对目标进行描述,并且将其用于目标丢失时的再搜索.Mh包含两部分:目标区域的归一化直方图Hp=[P(b1),P(b1),···,P(bn)] 和目标区域归一化概率和SΩ.

其中,xi为Ω区域内的像素点,它最终分配到的Hp中的组件表示为bxi.

在跟踪目标丢失时,需要根据构建的模型Mh在图像Is快速找到目标.对于图像Is上的任意像素点x,最终分配到的直方图组件表示为bx,则x像素点属于目标的概率表示为P(x∈Is)=P(bx),最终得到了与目标相关的似然图像L,其中L上的每个像素点x表示其对应的原始图像Is(x)属于目标的概率为P(bx).假设前一帧的目标位置矩形框记录为wt,目标框的长宽分别Wt,Ht,使用大小和wt相同的矩形框在当前帧图像Is滑动可以得到大量的滑动窗口wi,i=1,2,···,n.统计每个滑动窗口区域归一化的概率和S(wi)为

可以利用L的积分图像快速计算,最终得到每个滑动窗口是否包含有目标的权重为

利用直方图对滑动窗口进行加权,主要考虑了目标区域颜色信息概率分布情况,并没有反映出颜色信息的变化幅度,即在均值上下的波动的剧烈程度,因此对原始图像的像素分布情况考虑并不充分.方差特征能够反映目标区域颜色数据的波动大小,对于直方图特征而言是一种非常有效的补充.本文根据目标区域的方差值VΩ构建方差模型Mv.利用积分图像能够快速求解出每个滑动窗口对应图像块的方差值V(wi)[14].通过方差求得每个滑动窗口是否包含有目标的权重为

将Wh(wi)和Wv(wi)线性加权最终得到每个滑动窗口包含有目标的权重为

对所有滑动窗口的权重进行归一化,得

其中,W(wi)为i窗口被抽样的概率P(wi),故滑动窗口被抽样的概率分布已知.根据蒙特卡罗离散型分布抽样原理,可以从滑动窗口中随机抽取部分候选窗口进行处理,能够提高跟踪目标的搜索效率.

在目标跟踪失败时,短时间内目标很可能仍然在丢失位置附近,因此并不需要在整帧图像上搜索目标,通过限定搜索范围能够提高采样到目标区域的概率.本文在跟踪失败时,目标位置剪切L倍目标区域大小的图像块作为限定的搜索区域,在剪切的图像块上计算权重,采样待处理的候选样本.在目标跟踪中,模型需要实时更新以适应目标的视觉外观变化.在基于直方图和方差的跟踪目标搜索过程中,整个模型Mhv包含两部分:直方图模型Mh和方差模型Mv.假设学习率为γ,模型更新过程如下:

4 具有旋转和尺度适应性的长时间目标跟踪算法

为了实现具有旋转和尺度适应性的长时间目标跟踪,本文训练了三个核相关滤波器,分别用于估计目标的尺度和旋转参数、目标在图像中位移以及跟踪结果的置信度。同时本文提出一种基于直方图和方差加权的目标搜索方法,能够快速选择置信度高的候选目标区域,用于目标丢失时再检测.本文提出的具有尺度和旋转适应性的长时间目标跟踪(Robust long-term object tracking with adaptive scale and rotation estimation,RLOT)算法框图如图3所示.

RLOT算法的具体执行流程如下:

图3 具有尺度和旋转适应性的长时间目标跟踪算法框图Fig.3 The architecture of robust long-term object tracking with adaptive scale and rotation estimation

步骤1.初始化:

目标状态S0=(x0,y0,α0,s0),位移估计核相关滤波模型Mt,尺度和旋转估计核相关滤波模型Mrs,置信度估计核相关滤波模型Mc,直方图和方差模型Mhv.

步骤 2.对于第t帧图像Ith,根据St−1从图像中剪切块pi,提取HOG特征,通过Mt估计目标位置.

步骤3.在pi上提取傅里叶–梅林变换特征,通过Mrs估计旋转和尺度.

步骤4.根据(xt−1,yt−1,t,t)在Ith上剪切新的图像块,提取HOG特征,通过Mt估计目标位置.

步骤5.根据和(t,t,αt−1,st−1)剪切两个目标区域图像块和pti,提取HOG特征,通过Mc估计两个图像块的置信度和cti.

步骤6.

步骤7.

步骤7.1.根据St旋转Ith,然后利用Mhv加权采样得到候选的目标状态X.

步骤7.2.

根据Mc计算每个候选区域的置信度,得到Endfor.

步骤7.3.

步骤8.更新模型Mt,Mrs.

步骤9.

步骤10.如果序列没有结束,则转到步骤2,否则算法终止.

估计尺度和旋转参数的核相关滤波器的特征为幅值谱对数极坐标图像,而估计目标置信度和目标位移的两个核相关滤波器采用的是HOG特征,提取HOG特征的单元格大小定义为4,特征的维数为31.三个核相关滤波器都采用了高斯核函数.利用式(9)和式(12),在频率域内计算样本之间的相关性,运算效率有了较大提高.在估计目标的位移和跟踪结果的置信度之前,需要利用估计的旋转和尺度参数将目标及其周围区域进行旋转和缩放,使得旋转和缩放后的目标区域与核相关滤波模型Mt有同样的旋转角和尺度,可使得目标位移的估计更加准确.在目标丢失后,采用基于直方图和方差的跟踪目标搜索算法再次定位目标.本文使用的彩色直方图在Lab颜色空间上计算得到,而方差是在灰度图像上计算得到的.Lab色彩空间是颜色–对立空间,维度L表示亮度,a和b表示颜色对立维度,Lab颜色空间是描述人眼可见的所有颜色最完备的色彩模型,在计算机视觉领域已经得到了广泛的应用.Lab颜色空间每个通道离散化为32个组件,则Lab颜色空间上得到的直方图组件数为323=32768.直方图和方差的权重计算都是在积分图像上进行,运算效率很高.RLOT跟踪算法中,求解得到的跟踪结果的置信度都不小于0,当Tr参数设置为负值时,步骤7.1,7.2,7.3不会运行,相当于RLOT中的再检测模块被屏蔽,此时无需更新模型Mhv,本文将没有再检测模块的RLOT算法称为ROT.

5 目标跟踪实验

本文在目标跟踪标准数据集OTB上比较了提出的RLOT、ROT跟踪算法和目前主流的目标跟踪算法的性能[6−7].OTB数据集包含100个测试序列,这些序列包含11种不同类型的视觉跟踪挑战,包括目标突然快速运动、凌乱背景、运动模糊、扭曲、光照变化、平面内旋转、平面外旋转、低分辨率、半遮挡、出相机视野和尺度变化.OTB数据集上的所有图像序列都已经被人工标注,标注的真值在图像上表现为包含有目标的矩形框.OTB数据集提供了29个跟踪子的跟踪结果,能够用于评估跟踪算法的性能.本文使用C++实现了提出的目标跟踪算法,所有实验都在配备有3.1GHz i7-5557U CPU和8GB RAM的计算机上进行.

5.1 实验设置

OTB数据集提供了精度和成功率两种度量准则来评估目标跟踪算法性能.精度准则是基于中心的位置误差进行度量,是指跟踪算法估计的目标中心和标注的目标区域中心之间的平均距离.一个序列的所有帧的平均中心位置误差可表征该序列的总体跟踪精度性能.精度图显示了对于给定的位置误差阈值,跟踪算法估计的目标位置与真值之间距离落在阈值之内的帧数占整个测试数据集帧数的百分比.成功率是利用重叠度进行度量,实质是指跟踪算法估计的目标区域和标注的目标区域之间的重叠度.跟踪算法得到的目标区域为Bt,标注的真实区域为Ba,则定义两者的重叠度为O=|Bt∩Bs|/|Bt∪Bs|.成功率图显示了对于给定的重叠度阈值,跟踪算法估计的目标区域与真值区域之间的重叠度大于阈值的帧数占整个测试数据集帧数的百分比.使用特定的阈值来判断跟踪算法的成功率并不公平,OTB分别使用成功率图和精度图曲线下的面积(Area under curve,AUC)对跟踪算法进行排序[6].OTB标注真值为标准矩形(矩形的两边和图像的边界平行),其重叠度和精度的计算方法针对的也是两个标准矩形.本文通过估计目标的旋转参数得到了非标准的矩形,根据OTB提供的方法需要得到非标准矩形的外接矩形的中心和区域来计算中心位置误差和重叠度.目标标注真值、跟踪产生的非标准矩形和非标准矩形的外接矩形示意图如图4所示.从图4可以看出,利用外接矩形计算重叠度时,可能会降低重叠度的计算准确性,外接矩形的中心和非标准矩形的中心比较接近,该方法对中心位置误差的结果影响比较小.为了提高估计结果的准确性,本文直接求解非标准矩形和真值之间的中心位置误差和重叠度.因为标注的真值也没有考虑目标的旋转情况,标注的区域和实际目标区域还是存在一定的区别,但是标注的区域中心和实际目标的中心会比较接近,最终采用本文提出的估计方法在计算重叠度上还是存在着一定的偏差,但是偏差较原始OTB方法已经有一定程度的减小,在计算中心位置误差时则比较准确.

图4 目标标注真值、跟踪产生的非标准矩形和非标准矩形的外接矩形示意图Fig.4 The diagram of target annotations,nonstandard rectangles from our trackers and external rectangles of nonstandard rectangles

本文设计了三个核相关滤波器,相关的参数如表1所示,其中对于高斯标签宽度参数s,位移估计和置信度估计核相关滤波器中n和m指的是目标区域宽和高方向上HOG单元格的数目,尺度旋转核相关滤波器中d表示距离轴长度,a表示角度轴长度,两个轴上高斯宽度的参数不同.对于目标位移估计相关滤波器和尺度、旋转估计相关滤波器,需要将目标和它附近一定区域的背景剪切出来,提取视觉特征,训练相关滤波器、检测待跟踪的目标.本文设置剪切的初始图像块大小为目标区域的2.8倍.从RLOT算法流程可以看出,有几个阈值参数需要设置.Tr设置为0.25,通过该阈值来判断是否需要使用基于直方图和方差加权的方法搜索目标;Td设置为0.4,通过其判断搜索到的结果是否可信,是否需要用该结果重新初始化目标;Tu设置为0.4,通过该阈值判断是否需要更新置信度估计核相关滤波模型Mc,直方图和方差模型Mhv.通过基于直方图和方差加权采样得到的候选滑动窗口数量设置为150,直方图权重和方差权重的比重是相等的,即式(19)中的α设置为0.5.跟踪失败时,限定搜索区域的参数L设置为4.当运行ROT跟踪算法时,Tr设定为−1,此时Mhv不更新.

表1 三个核相关滤波器参数Table 1 The parameters of three kernelized correlation filters

5.2 定量分析

本文定量比较了提出的目标跟踪算法RLOT,ROT与目前主流的跟踪算法的性能.其中OTB已经提供了29个跟踪子,包括有TLD[14],Frag[27],Struck[28],CT[13],SCM[29],ASLA[30],CXT[31]等的算法性能,本文还比较了几个最新的跟踪算法KCF[15],SAMF[17],DSST[18],SRDCF[19],Staple[20],LCT[23].为了使得评估的效果更加公平有效,更能反映出跟踪算法的鲁棒性能.本文从传统的一次通过估算(One-pass evaluation,OPE)、时间鲁棒性估算(Temporal robustness evaluation,TRE)和空间鲁棒性估算(Spatial robustness evaluation,SRE)三个方面给出了跟踪算法的精度图和成功率图[6].其中OPE是指在整个序列第1帧用标注的真值进行初始化后,得到跟踪算法的平均精度和成功率,整个跟踪执行一次,这是一种传统的跟踪算法性能评估方法.然而,跟踪子可能对初始人工给定的真值比较敏感,并且在不同起始帧进行初始化时跟踪算法的性能也可能不同,因此通过TRE和SRE在初始化时对跟踪子添加人工的干扰以分析不同初始条件下目标跟踪算法的鲁棒性.

图5 通过OPE,SRE和TRE估算准则得到的跟踪算法精度图和成功率图Fig.5 Precision plots and success rate plots of tracking algorithms evaluated by OPE,SRE and TRE standards

在OTB数据集下,本文提出的目标跟踪算法和主流跟踪算法的性能比较结果如图5所示,为了使得结果清晰可见,图5仅显示了前10个最好的跟踪结果.从图5可以看出,SRDCF和Staple跟踪算法的性能比较优越,但是本文提出的RLOT算法性能与两者比较接近,也取得了较好的跟踪效果.没有检测模块的ROT跟踪算法性能有一定的下降,与LCT,SAMF算法的性能比较接近,但是要好于DSST,KCF等跟踪算法.对于OPE评估准则,RLOT算法的精度仅次于SRDCF,仅相差0.006(0.8%),成功率与Staple非常相近,与SRDCF也仅相差0.026(4.3%).ROT的精度性能和成功率性能略差于SAMF和LCT.采用空间鲁棒性SRE评估时,RLOT算法的精度与SRDCF和Staple相近,但是成功率性能略低于SRDCF,Staple和SAMF,要高于LCT.ROT算法同样对空间干扰比较敏感.不准确的初始值会导致估计的旋转和尺度估计准确度下降,最终导致性能一定程度的降低.对于时间鲁棒性TRE,RLOT精度性能比较高,与SRDCF和Staple仅相差0.005(0.68%),成功率与SAMF算法相同,与SRDCF和Staple性能比较接近.ROT算法性能与LCT比较接近.RLOT较之ROT,算法参数完全相同,唯一区别在于ROT屏蔽了再检测模块,从两者的性能比较可以看出,目标跟踪过程中再检测模块是有意义的,能够提高跟踪子的性能.

OTB数据集中包含11种不同类型的视觉跟踪挑战,每个序列可能遇到的视觉挑战都已经被人工标注,通过这些标注的序列可以分析跟踪算法针对不同挑战的性能.本文提出的RLOT目标跟踪算法主要有两个优点:1)目标的旋转和尺度估计;2)目标丢失时再检测.平面外旋转、平面内旋转以及尺度变换都已经被标注,通过标注的数据能够分析出算法旋转和尺度估计的有效性.在跟踪过程中,目标存在半遮挡或全遮挡时,跟踪经常会失败,通过标注的半遮挡序列能够评估再检测模块的性能.在平面外旋转、平面内旋转、尺度变化、半遮挡视觉挑战情况下,通过OPE估算准则得到的跟踪算法精度和成功率如图6所示,为了使得结果清晰可见,图6仅显示了前10个最好的跟踪结果.从图6可以看出,在平面内旋转和平面外旋转时,RLOT在精度和成功率上都取得了最好的性能.ROT在平面内旋转时与LCT的性能非常相近,仅次于RLOT跟踪算法.ROT在平面外旋转时,性能有一定程度的下降,但是较KCF和DSST也有较大提高.在目标存在尺度变化时,RLOT算法取得了最好的精度性能,成功率性能仅次于SRDCF.而ROT算法性能与SAMF非常接近.从上面分析可以看出,基于傅里叶–梅林变换和相关滤波方法的目标旋转和尺度估计是有效的,能够有效提高跟踪算法的性能.存在半遮挡时,RLOT跟踪子和SRDCF跟踪子、SAMF跟踪子和Staple跟踪子性能比较接近,要好于ROT跟踪子,验证了跟踪过程中再检测模块的有效性.

5.3 定性分析

图6 不同视觉挑战情况下通过OPE估算准则得到的跟踪算法精度图和成功率图Fig.6 Precision plots and success rate plots of tracking algorithms evaluated by OPE standard under different visual tracking challenges

图7 RLOT,ROT,SRDCF[19],LCT[23],TLD[14]和Struck[28]在11个OTB序列上的跟踪结果Fig.7 Tracking results using RLOT,ROT,SRDCF[19],LCT[23],TLD[14]and Struck[28]on 11 OTB image sequences

表2 OTB数据集中选择的11个序列包含的视觉挑战Table 2 The visual tracking challenges included in the 11 image sequences selected from the OTB datasets

本节定性分析RLOT、ROT跟踪算法与目前主流目标跟踪算法的性能,包括相关滤波跟踪算法SRDCF,具有再检测模块的相关滤波跟踪算法LCT,基于检测的目标跟踪方法Struck以及将跟踪、检测和学习结合的跟踪算法TLD.同时本文从100个图像序列中选择11个具有代表性的序列进行着重分析,这些序列包含OTB中几乎所有的视觉挑战,如表2所示.表2中0表示该序列不包含该项挑战,1表示序列包含该项挑战.跟踪算法RLOT,ROT,SRDCF,LCT,Struck以及TLD在这11个序列上的跟踪结果如图7所示.图7中,从上到下分别为David,CarScale,Dog1,FaceOcc2,Jogging-2,Lemming,MotorRolling,Shaking,Singer2,Tiger1和Soccer.SRDCF跟踪子将HOG特征、颜色特征和灰度特征结合起来训练相关滤波器,并且针对循环移位的边界效应,添加了空间正则项,提高了跟踪子的性能.SRDCF借鉴了SAMF的尺度估计方法,在原始图像和该图像缩放后图像上检测目标,最终得到最大响应值对应的尺度和位置.SRDCF没有估计目标的旋转参数,除了具有快速旋转变换的MotorRolling序列外,SRDCF在其他序列上都取得了较好的跟踪性能.LCT跟踪子将直方图特征和HOG特征结合起来训练相关滤波器,并且还专门训练了一个随机蕨分类器,用于目标丢失时再检测.LCT并没有包含旋转估计模块,当目标具有旋转运动时,跟踪效果并不理想(如MotorRolling).当背景非常凌乱,整个目标与周围区域相似性又比较高时,LCT检测模块也会发生漂移,导致跟踪失败(如Soccer).其他情况下,LCT取得了较好的跟踪性能.Struck对尺度变化的鲁棒性不好(如CarScale,Dog1),当存在快速的平面内旋转时,跟踪会失败(如MotorRolling),而且在目标存在大的平面外旋转时存在漂移(如David),对凌乱背景的序列的跟踪效果也不是太理想(如Singer2,Soccer).Struck在其他条件下的跟踪性能都比较好,特别是对重度遮挡的目标具有较好的鲁棒性.TLD算法将跟踪、检测和学习结合起来,当跟踪丢失时能够再次检测目标,而且检测子对样本的选择非常严格,使得检测子的漂移较跟踪子更慢.TLD的检测模块在凌乱背景,光照较暗的情况下性能并不好(如Singer2,Shaking,Soccer),TLD整个检测框架并没有考虑目标大的旋转运动(如MotorRolling).TLD虽然具有从错误跟踪中恢复过来的能力,但是其跟踪模块采用简单的光流法跟踪目标,整体性能比较差,而检测子依赖跟踪子提供的目标运动线索更新检测模块,如此导致TLD检测子性能也受到影响,最后虽然能再次定位目标,但是中间可能存在比较多的图像帧跟踪失败的情况(如Lemming,Tiger1).RLOT和ROT算法利用傅里叶–梅林变换和核相关滤波器估计目标的尺度和旋转参数,在目标存在旋转和尺度变化时跟踪效果比较好(如CarScale,Dog1,FaceOcc2,MotorRolling,Singer2).但是ROT没有再检测模块,当目标存在严重的半遮挡时,ROT跟踪失败后无法自行恢复,而RLOT能够再次检测到目标(如Jogging-2,Lemming,Shaking,Tiger1).与LCT类似,背景非常凌乱,整个目标与周围区域相似性又比较高时,RLOT检测模块也会发生漂移(Soccer).通过定性分析可以看出,当目标存在尺度变换和旋转运动时(特别是快速旋转运动),本文提出的RLOT、ROT算法的优势比较明显,定性分析结果也进一步验证了跟踪过程中再检测模块的有效性.

5.4 算法实时性分析

不同目标跟踪算法的平均处理帧速率如表3所示,包括RLOT,SRDCF,LCT,KCF,DSST,TLD和Struck.从表3可以看出,KCF跟踪子的平均处理帧速率最高,其次是本文提出的RLOT跟踪算法,SRDCF,LCT,DSST,TLD和Struck跟踪子处理帧速率都没超过30fps.SRDCF帧速率最低,仅为4fps.RLOT在KCF基础上整合了旋转和尺度估计、跟踪结果置信度估计和基于直方图和方差加权的目标搜索等模块,导致计算量增加,一定程度上降低了处理帧速率,但是其平均处理帧速率能达到36fps,仍然满足目标跟踪的实时性要求.

表3 不同跟踪算法的平均处理帧速率Table 3 The average frame rates of different object tracking algorithms

6 结论

本文提出了一种具有尺度和旋转适应性的长时间目标跟踪方法(RLOT).该方法可以分为三个部分:1)基于傅里叶–梅林变换和核相关滤波的尺度和旋转参数估计;2)基于核相关滤波的目标平移和跟踪结果置信度估计;3)基于直方图和方差加权的目标搜索.本文提出的方法能够准确估计出目标的尺度、旋转和平移参数,并且能够对跟踪结果的置信度进行有效评估,以判断跟踪结果是否正确,根据跟踪结果的置信度选择是否激活基于直方图和方差加权的目标搜索模块,最终使得跟踪算法具有从失败中恢复过来的能力.本文的尺度和旋转参数估计模块、跟踪结果置信度估计模块和再检测模块能够用于其他跟踪算法,提高跟踪算法的性能.本文在OTB数据集上开展了实验研究,并与当前主流的目标跟踪算法进行了比较,实验结果验证了本文提出算法的有效性和优越性.

猜你喜欢
置信度直方图尺度
置信度辅助特征增强的视差估计网络
符合差分隐私的流数据统计直方图发布
一种基于定位置信度预测的二阶段目标检测方法
硼铝复合材料硼含量置信度临界安全分析研究
基于FPGA的直方图均衡图像增强算法设计及实现
财产的五大尺度和五重应对
用直方图控制画面影调
正负关联规则两级置信度阈值设置方法
中考频数分布直方图题型展示
宇宙的尺度