田应仲,刘伊芳,李 龙
(1.上海大学 机电工程与自动化学院,上海 200444;2.上海市智能制造及机器人重点实验室,上海 200444)
计算机视觉是人工智能的一个研究热点,具有极大的理论研究价值[1-3]。目标跟踪是计算机视觉研究的热门方向之一,在各行各业都发挥着重要的作用,比如智能交通系统、无人驾驶领域、移动机器人等[4-6]。目标跟踪主要根据视频给定的第一帧确定一个区域作为目标,在接下来的帧中继续得到目标的运动及位置信息,持续跟踪该目标,并输出目标的位置。
核相关滤波(kernel correlation filter)视觉跟踪算法[7]通过循环矩阵构造正负训练样本,将时域的卷积转换到频域的点乘完成滤波器的训练,降低计算复杂度从而显著提高计算速度,因此受到广泛关注。但是,核相关滤波算法存在一定局限性。循环样本会带来不必要的边界效应,目标搜索区域将受到限制。此外,传统核相关滤波跟踪算法还存在未能充分利用颜色特征、模板单一、搜索框不能适应目标尺度变化等问题。
现实环境复杂多变,难以预测,存在遮挡、光照变化、背景模糊、尺度变化、外观变形、快速运动等挑战,给视觉跟随跟随算法的研究带来了较大困难。针对现实环境存在光照变化、目标尺度变化等干扰因素的影响,提出了多特征的核相关滤波自适应尺度变化型跟踪算法。此外,核相关滤波器没有充分运用目标的背景信息,在面对遮挡、环境复杂等挑战时,容易跟踪失败,为此提出了联合判别式的背景感知与干扰判别策略。
全文首先简要介绍核相关滤波算法[7]的原理,然后从两个方面来改进核相关滤波算法,分别是多特征的自适应尺度变化策略和联合背景感知干扰判别策略。最后通过公开视频训练集OTB-50[8]仿真实验,验证改进后算法的效果。
核相关滤波[7]基本理论是判断两个信号的相似性,如果两个信号越相似,说明相关度越高。在目标跟踪领域,运用核相关滤波跟踪器,便是通过每帧的图像和第一帧标定的目标做匹配,得到响应值最大的区域。假设目标块像素为向量x=[x1,x2,…,xn]T,把向量x作为基础样本,通过循环移位操作得到样本集[9],这样就得到了训练分类器所需要的正负样本。由循环移位构造的训练样本集可以换算到傅里叶频域实现高度对角化,避开矩阵求逆运算,提高运算速度。循环矩阵可以表示为公式(1):
(1)
在通过循环移位操作获取正负训练样本后,需要对这些样本进行训练,生成目标跟随的分类器。样本训练是一个岭回归过程或正则化最小二乘问题,这个过程有一个简单的闭式解。核相关滤波算法的目的是让训练样本集与标签集{yi}的回归误差的平方和最小,也就是使式(2)损失函数值最小[10]。
(2)
其中,λ‖w‖2是惩罚项,λ是正则化系数,用来防止目标模型出现过拟合的现象,n是训练样本总数。
令线性回归函数式(2)导数等于0,可得唯一最优解的闭合形式如下:
w=(XTX+λI)-1XTy
(3)
训练和更新滤波器的公式为:
(4)
其中,⊙表示逐元素相乘,可通过傅里叶反变换轻松得到空间域w。利用快速傅里叶变换的优势,计算效率大幅提升。
目标检测的方程如下:
(5)
(6)
其中,训练样本是z,^是傅里叶变换,⊙是元素间点乘,*是对应元素的共轭变换,F-1是傅里叶逆变换,λ是正则化参数。
通过以上证明过程,时域计算成功转化到频域,避免了大量运算,进而降低计算复杂度,核相关滤波器跟踪速度达到飞跃增长。
针对跟踪过程中背景模糊、低像素等问题,提出多特征融合方案。针对目标受到较长时间遮挡的问题,提出一种模板库策略,即用多模板替代原有的单一模板。针对目标尺度发生变化的问题,提出一种自适应尺度变化策略,让目标框尺寸随目标改变,可避免目标识别出现误差。
在跟踪器中,将各种简单而有效的特征融合进滤波器,可以有效地提高滤波器的判别能力。通过大量特征因子的调研,最终选定渐变直方图特征(HOG)、颜色特征(color-naming)和色度饱和度亮度特征(HIS)。利用颜色特征对目标快速形变的不敏感特性、渐变直方图特征对光照变化不敏感的特性以及色度饱和度亮度特征对颜色信息的补充[11],各类特征优势互补,提升跟踪器的精度。
渐变直方图是视觉组合中最受欢迎的视觉功能之一,它从图像中提取31维梯度信息来确定特征。颜色特征越来越广泛应用在目标检测领域,它采用11维的颜色向量。色度饱和度能进一步丰富颜色的表征。将三种特征线性组合,提高算法的鲁棒性。首先构造一个得分函数f(x)。f(x)是特征图像øx在通道上的线性函数。
f(x)=γhogfhog(x)+γcolorfcolor(x)
(7)
直方图分数是从特征图像φx计算得到,并定义在一个有限网络上:
fhog(x,β)=g(φx,β)
(8)
直方图特征在空间排列是不会发生变化的,所以可采用平均特征像素的线性函数。
(9)
或者是图像的得分平均值ζ(β,φ)[u]=βTφ[u]
(10)
颜色分数fcolor(x,h)是从特征图像∅x计算得到,并定义在另一个有限网络上。∅x是特征图像,h[u]是模板函数。
(11)
系数γhog和γcolor分别代表HOG特征和颜色特征的权重,隐含在h和β中。本节采用训练损失函数的方法寻找最优参数,假设融合后的结构参数为θ=(h,β),每帧图片损失的线性加权值是L(θ;XT)。
(12)
理想情况下,上式可写成:
(13)
表示通过结构化的学习优化目标约束,样本采用核相关滤波器中具有循环移位特征的样本。学习模型采用岭回归方法可得:
(14)
(15)
令λcolor=1-a,λhog=a,采用得分函数的凸组合来获得参数h和β。其中a是训练集中选用的参数,可根据实际情况测试得到,本实验中a=0.5。
多特征融合后,在提高准确率的同时,也会加大特征维度,影响跟踪速度,为此考虑加入主成分分析方法[12]。主成分分析可以对高维特征向量降维,去除冗余部分,加快滤波器的训练速度,并且保留其中主要特征。
此外,核相关滤波算法采用的是单一模板。单一模板无法应对目标物体非刚性变形的复杂场景,因此提出构造模板库。模板库的构造机制是通过采集跟踪过程中目标不同姿态构造样本模板库,用多模板库替代原有的单一模板,并及时更新模板库。
在视频训练的第一帧,给定跟踪目标作为模板,后续帧采集的图像不断与原有模板进行对比,可得到评价分数。
(16)
其中,Ci表示前i帧时的模板库,xt表示t帧检测的目标结果,f表示t帧检测结果与模板库匹配的评价函数,scoret表示一个视频训练集的平均评价分数。当scoret大于一个设定的临界τc时,认定xt即是跟踪目标的描述,于是xt将会加入模板库,该模板库得到实时的更新。
假设xt和xt-1两个相邻帧都满足条件,加入目标模板库,但是由于视频具有连贯性,xt和xt-1可能非常相似,如果都允许加入目标训练库,造成模板库的大量冗余。为此,需要挑选相邻帧的相似姿态进行融合,或挑选出姿态变化较大的样本进入模板库。同时,为了避免给滤波器造成过大的负担,给模板库T数量设置上限N。分两类进行讨论,第一种,当模板数量i小于模板库数量上限N时,模板库仍有剩余空间,用式(17)进行判断,符合条件的样本继续加入模板库。
(17)
另一种情况,当模板数量i等于模板库数量上限N时,模板库已满。此情况下,不再新加模板,只对模板库已有模板不断融合,提高模板库质量。式(18)将符合条件的样本xt与模板库中最相似模板进行融合。
(18)
式(18)第一行表示在模板库中选出与样本xt相似度最高的模板k'。第二行表示对模板库中k'和样本xt进行融合,将融合后的结果Tk'替代原有模板k',进而更新模板库。因此,模板库机制在遇到连续遮挡类问题时,为避免目标模板库错误,则停止更新。构建模板库可以有效地识别不同姿势下的目标对象,提升跟踪算法的鲁棒性。
图1中可以看出传统核相关滤波算法并没有应对目标物体尺度变化的机制。当物体的外观发生尺度变化时,跟随器的识别框依旧保持初始帧标定的大小,未能随着目标尺度的变化而变化。在图1(a)中,汽车由远及近,汽车与摄像头的距离越来越近,汽车外观尺度越来越大,直到视频训练集的后期,跟随器的识别框无法再获取目标的全部图像信息,给滤波器的模板库带来误差。与之相反,在图1(b)中,女子在商场中由近及远,女子和摄像头的距离越来越远,女子外观尺度越来越小,视频训练集的后期,跟随器的识别框无法再获取目标的图像信息,造成目标漂移。通过上面的实验可以看出,需要提出一种自适应尺度变化,来满足现实情况中目标尺度变化的挑战。
图1 传统核相关滤波算法跟随尺度变化场景
本节采用一个简单有效的特征金字塔方法。第一步,对目标位置中心M×N区域内做多尺度采样,提取anM×anN的图像块当做训练样本,其中n为特征金字塔层数,a为尺度因子,保证训练样本的尺寸。第二步,将所有的样本调整到相同的大小构造特征金字塔。设定特征金字塔的层数为s,则ft(s)表示特征金字塔第s层训练样本的特征向量。在特征图像中,目标所在区域为f,提取f1,f2,…,ft作为训练样本,每一层都有d维的特征向量。当构造好特征金字塔后,选用基于核相关滤波器的最小化分类误差准则,通过最小化代价函数训练尺度滤波器。
其中,hl为尺度滤波器的第l层通道;g为尺度滤波器的期望输出;fl为第l层通道训练样本;⊗为空间中循环样本的元素相乘;f,g和h都是d维M×N大小的矩阵;λ是正则化参数,防止过拟合。
将式(19)转换频域,通过离散傅里叶变化可得:
(20)
计算尺度滤波器和候选图像块特征金字塔的相关响应公式为:
(21)
求取最大响应结果y就是目标位置s:
s=max(F-1(Yt))
(22)
由于对每个像素求解d×d线性方程组,计算量太大,无法应用于在线学习的跟踪器,所以此处给予近似,对式(20)的分子分母分别更新。
(23)
(24)
其中,η是尺度滤波器的学习速率。
在跟踪过程中,如果出现目标出视野范围,或者长时间目标被障碍物遮挡(目标长时间失踪)的问题,模板会出现更新错误。再或者,当跟踪器出现漂移时,不正确的目标会对滤波模板进行错误修正,从而引起滤波模板的精确度越来越低,并最终造成跟踪失败。因此,需要对模板更新进一步设置条件,来防止模板过拟合。
由于传统核相关滤波算法的训练样本是通过循环移位构造而来,循环移位构造的负样本和正样本具有相同的地位,并且样本只有刚性变化。在面对环境目标旋转等挑战时,核相关滤波器的判别能力明显不足。此外,核相关滤波器没有充分运用目标的背景下信息,减少了对背景感知能力。在面对环境背景复杂等挑战时,核相关滤波器容易漂移。所以,本节在第2节的基础上进一步改进,提出基于联合判别式的背景感知与干扰判别机制。以目标对象的相近区域为正样本,以目标的背景区域为负样本,分别开展训练,使滤波器具有更强的判别能力,此外,根据响应图实时判断遮挡系数,自适应更新模型,以适应运动模糊、背景模糊,遮挡等干扰。
算法以目标为中点并联合目标周围一定区域内的上下文信息共同建立模型,当跟踪过程中目标受到遮挡时,可以通过构建的上下文信息模型中参照物的位置信息找到目标中心位置。利用目标周围背景的相关区域在时间轴上相邻帧间的相关性,通过在图像低阶特征上进行建模,来计算最大似然概率,其中概率最大值即为预测的目标位置。所以跟踪问题就可以等效为通过计算置信图中最大似然概率c(x)。目标置信图函数为:
c(x)=P(x|y)
(25)
其中,x是目标所在位置,y是跟踪区域,c(x)是最大值作为目标所在的位置。
以目标所在中心提取附近上下文背景信息:
Xc=v(c)=(I(z),z)|z∈Sc(x*)
(26)
其中,x*是目标所在位置x的中心,Sc(x*)是x*的附件上下文背景信息,I(z)是灰度值。
目标置信度函数可表达成条件概率形式:
(27)
其中,P(x|v(z),y)表示在跟踪区域中存在目标的概率值,P(v(z)|y)表示上下文背景信息先验概率模型,表达式为:
P(v(z)|y)=I(z)wσ(z-x*)
(28)
wσ是高斯加权函数:
(29)
其中,σ是x的方差,a为修正系数。
进一步可以表示为:
(30)
为了将概率模型的结果规范化,上式引入规则化常数,由此可建立背景感知模型。
将目标图像作为正样本,目标周围采集的一系列图像是负样本:
(31)
其中,正样本是f(x0),负样本是f(xi),背景样本数量是k,滤波器参数是w。由于背景样本标签值是0,回归目标是y,合并化简后可得:
(32)
(33)
式(31)是关于(wy')的凸函数,求解式最小值,可令一阶导数为0得:
(34)
其中,A是循环矩阵,可表示为如下形式:
(36)
(37)
上下文背景感知可以增强滤波器模型的判别能力,抑制背景响应值,降低噪声干扰。
(38)
仿真实验部分用公开数据集OTB(object tracking benchmark)[8]。OTB主要的评估方式:一次通过的评估(one-pass evaluation,OPE)。采用精确度和成功率两个标量来评价跟踪算法性能。精确度采用中心位置误差进行评估,中心位置误差指算法跟踪到的目标中心位置与实际目标中心位置之间的平均欧氏距离。目标跟踪精确度是跟踪过程每一帧中心位置误差小于指定阈值的帧数占总帧数百分比的平均值。通常情况下,阈值设定为20像素。成功率是通过重叠率来评估,重叠率是指跟踪器预测的目标框与真实框的重叠面积与两个目标框的面积比。
通过OTB-50实验定量分析Ours算法,并与四种流行跟踪算法fDSST[13]、Staple[14]、CSK[15]、KCF[7]相比较,如图2所示。由OTB-100中的测试结果可以看出,Ours在精确率和成功率上都排名第一,平均准确性达到了81.6%,相比于KCF提高了16.1%,平均成功率达到了79.5%,相比于KCF提高了38.5%。本节实验从定量的角度与其他四种算法进行比较,可以看出跟踪效果明显提升。
(a)准确率曲线
(b)成功率曲线图2 OPE跟踪性能对比曲线
在对核相关滤波的目标跟踪算法原理剖析的基础上,针对算法中存在的各类不足进行改进,进而提高目标跟踪算法在复杂条件下的准确性和实时性,同时也为机器视觉的发展做出积极贡献。