罗刘敏,杨铁军,崔兰超
(1.郑州工商学院 工学院,河南 郑州 451400;2.河南工业大学 人工智能与大数据学院,河南 郑州 450001;3.洛阳职业技术学院 信息技术与城建学院,河南 洛阳 471000)
目标跟踪的主要任务是根据视频第一帧中的感兴趣目标特征实现对后续视频序列中目标的位置和状态的跟踪,目前比较主流的一类跟踪算法是判别式相关滤波跟踪算法,其主要思想是通过滤波器学习实现从背景中将目标区分出来[1-5]。
判别式相关滤波类跟踪算法的开创性算法是核相关滤波算法[6](KCF),因其具有较快的跟踪速度而引起了目标跟踪领域研究者们的广泛关注。为了提高KCF算法的准确性和有效性,研究者们相继提出DeepSRDCF[7]、CSRDCF[8]、CACF[9]等跟踪算法,分别从与深度学习结合、多通道评估、上下文感知等多角度对算法进行改进。
上述改进算法具有较好的稳健性和精确性,但是仍有一些不足之处,例如没有考虑到特定帧的特征适用性,没有考虑到由于引入背景信息可能带来的响应图畸变问题。为了进一步提高算法性能,本文以判别式相关滤波算法为基础框架,提出一种学习畸变抑制滤波器的多特征决策目标跟踪算法。首先,引入裁剪矩阵方法扩大目标搜索区域;其次,利用正则化项方法限制响应图畸变;再次,采用多特征决策方案实现每帧自适应最佳特征组合筛选;最后通过公开数据集测试所提算法的有效性,实验结果表明所提算法在遮挡、形变、光照变化等场景下跟踪效果良好,性能优于多种对比算法。
判别式相关滤波跟踪算法的目标是使用视频序列中感兴趣的目标图像的循环移位样本训练滤波器,在后续帧中,利用上一帧训练好的滤波器估计当前目标的状态并利用当前帧中估计出的目标状态信息更新滤波器,进而实现目标跟踪。判别式相关滤波器通过最小化估计目标状态与实际目标状态之间的误差来实现滤波器的学习,其目标函数如下
(1)
式中:X是级联所有循环移位样本产生的数据矩阵,w是需要学习的判别式相关滤波器,y是所有循环移位样本对应的高斯真值标签,λ是用于防止过拟合的正则化因子。
目标函数(1)是一个典型的岭回归问题,而且由于X是循环移位样本产生的数据,所以其具备循环数据结构,可以将其变换到傅里叶域内求解以降低计算复杂度,通过系列求解可得如下封闭解
(2)
在下一帧中,根据上一帧循环移位样本训练得到的滤波器计算当前图像中目标响应图得分,具体如下
(3)
传统判别相关滤波跟踪算法通过正样本循环移位产生负样本,这样产生的负样本很多为虚假负样本,这样训练出的滤波器判别能力较差,为了克服这一缺点,本文算法采用文献[10]中的方法,通过扩大循环矩阵采样区域和裁剪矩阵来获得真实负样本,同时扩大了目标搜索区域。其目标函数具体如下
(4)
引入裁剪矩阵采样方法训练出的滤波器可以利用目标背景信息增强判别力,但是却又容易带来另一个问题,那就是这样容易使得滤波器过多学到背景噪声,使得在嘈杂环境下获得的目标响应图容易发生畸变,导致跟踪目标产生漂移现象。为了解决这一问题,首先需要对响应图是否发生畸变进行判别,如果发生畸变应采用适当策略进行抑制,所提算法引入正则化项对响应图畸变现象进行抑制。
为了实现响应图的畸变抑制,首先要对响应图是否发生畸变进行判断,所提算法引入欧几里德范数来定义两个响应图M1和M2的差异程度,如下所示
(5)
式中:p和q表示二维空间中两个响应图的峰值位置, [φp,q] 表示为了使得响应图M1和M2的峰值重合所采取的移位操作,Θ的值表示响应图畸变程度,当Θ的值较大时表示响应图M1和M2的相似度下降,可能发生了响应图畸变。
为了在训练过程中抑制响应图畸变,则对训练滤波器的目标函数(4)进行调整,采用下式作为优化滤波器的目标函数
(6)
式中:下标k和k-1分别表示视频序列的第k帧和第k-1帧,式(6)的第3项即为在训练过程中限制响应图畸变的正则化项,参数γ为畸变惩罚因子。
为了使式(6)中目标函数便于转化到频域求解,首先将其转化为矩阵表达形式,具体如下
(7)
式中: Xk是第k帧训练样本xk的矩阵表达形式,ID是D×D的单位矩阵,⊗表示克罗内克积,T表示共轭转置操作,Mk-1表示前一帧的响应图,其值为Xk-1(ID⊗BT)wk-1。
为了降低计算复杂度,需要将式(7)转化到频域内进行求解,转化后公式如下
(8)
由于式(8)是一个典型的凸函数,所以可以采用交替方向乘子法来获得全局最优解,因此首先需要将其写为增广拉格朗日形式
(9)
(10)
(11)
(12)
在跟踪过程中,所选用的表征目标外观模型的特征至关重要,传统判别相关滤波跟踪算法采用传统特征、深度特征或其特征组合用于跟踪,即便采用特征组合方法通常也是使用固定权重系数法将特征组合用于跟踪,这样并不能使得特征表征能力完全适应于各跟踪场景和各帧视频序列,在某些场景下可能由于当前特征不能较好描述目标外观模型导致目标跟踪失败,因此所提算法提出建立组合特征池的方式通过多种特征组合跟踪效果对比的方式决定该帧采用哪种特征进行跟踪,这样可以通过多特征决策方案解决特征不适应跟踪场景问题。
当深度语义特征引入到目标跟踪领域后,之前用于目标跟踪的HOG特征、CN特征等便视作低层特征,因为它们更多表征目标的轮廓信息,而深度特征则更多揭示了目标内在属性信息即语义信息,因此深度特征通常被视为中高层特征,而实际上根据场景的不同特征的表征能力适应性也有差别,所以所提算法采取建立组合特征池的方式来选择相对适应特征以进行目标跟踪,所用组合特征池见表1,使用HOG特征作为低层特征、VGG-19的Conv4-4层特征作为中层特征、VGG-19的Conv5-4层特征作为高层特征,通过采用文献[11]中的组合系数来对3种特征进行组合以建立特征池。在跟踪时将提取到的各特征输入到滤波器中可得到需要跟踪的目标的位置框,通过对目标位置框进行评估,选择出该帧的最优目标位置框即可得到该帧最佳目标状态信息。
表1 组合特征池
选择最佳特征组合时需要全面判断其产生的效果最佳,所提算法采用对评估与自评估方式进行判断,所谓对评估就是利用7个组合特征所得目标位置框做横向对比,自评估计就是估计相邻帧目标轨迹波动程度,从而判别目标可靠性。
4.2.1 多特征对评估方法
在跟踪过程中多数特征的跟踪相对准确,因此在对评估过程中所提算法采用折中策略,即选取与其它特征所得结果一致性最高的结果作为当前帧最优结果。按照对评估策略首先需要计算不同特征之间的重叠率,其计算公式如下
(13)
(14)
(15)
为了进一步使得评估分数更具时间稳定性,所提算法进一步引入了时间序列加权分数W={ρ0,ρ1,…,ρΔk} 去使得评估分数更接近实际情况,这里ρ>1是加权常数因子。最终采用下式作为特征对评估标准
(16)
4.2.2 特征自估方法
各特征得到的轨迹平滑度在一定程度上表明了其跟踪结果的可靠性,所提算法采用欧氏距离衡量相邻帧轨迹平滑程度,具体公式如下
(17)
(18)
4.2.3 最佳特征选择
特征对评估策略从所用特征角度客观反应了特征所得跟踪结果一致性程度,特征自评估策略则从单个特征角度反应了获得目标轨迹平滑度,将二者进行有机结合才能较好选出最优特征即最佳特征组合,因此所提算法采用下式进行最优特征筛选
(19)
式中:Rk(Ei)表示特征i的综合评估分数, Υ表示对评估与自评估折中参数,最后通过比较各特征综合评估分数,选取分数最大的作为最优特征以获得当前帧最优目标位置框。
本文算法流程如图1所示。首先,利用上一帧裁取的样本训练滤波器,即通过求解式(7)获得用于下一帧跟踪的最优滤波器,由于公式中融入了限制响应图畸变方法,所获滤波器具备抑制响应图畸变效果;然后,通过提取当前帧待搜索图像的HOG特征、深度特征,将这些特征进行组合以获得特征池;最后,利用特征池中特征分别与上一帧训练得到的滤波器进行相关运算获得多个位置框,通过自评估与互评估策略结合选择出最优目标位置框和对应最优特征。
图1 本文算法流程
为了较好评估所提算法的性能,实验中利用OTB-2015[12]中视频集测试所提算法效果,通过与KCF[6]、DeepSRDCF[7]、CSRDCF[8]、BACF[10]、MCCT[13]、ARCF[14]等多种算法进行定性与定量对比分析,从算法成功率、精确度、中心位置误差、直观效果等多角度评价对比各算法的性能,对所提算法做出客观评价。
实验硬件平台配置包括:CPU 8核3.6 G Hz Intel I7处理器,内存(RAM)为32 G,显卡为RTX2080TI。软件平台包括:64位操作系统windows10,编程环境为Matlab2016。实验参数通过大量实验挑选出较优参数值进行设定:对评估与自评估折中参数Υ设置为0.1,加权常数因子ρ值为1.1,防止过拟合的正则化因子λ设置为0.01,优化惩罚因子μ设置为0.125。
实验中通过测定算法在遮挡、形变、光照变化等场景下的9个视频序列中的成功率、精确度、中心位置误差,从而定量分析算法的性能。表2为9组视频序列的长度、属性、分辨率介绍,表中OCC、IPR、OPR、SV、DEF、MB、OV、IV、BC、FM分别对应表示遮挡、平面内旋转、平面外旋转、尺度变化、形变、运动模糊、出视野、光照变化、背景杂乱、快速运动等属性。
表2 视频序列介绍
为了定量分析算法的总体效果,实验中对7种算法的成功率和精确度进行对比分析具体如图2所示,从图中可以看出所提算法的成功率为0.828,精确度为0.881,其较基础算法KCF分别提高26.4%和28.5%,在7种算法中成功率与精确度排名第一。
图2 算法的成功率和精确度对比
为了分析算法的稳健性,实验中详细记录了7种算法在各视频的中心位置误差曲线具体如图3所示,所提算法在9个视频序列测试下中心位置误差性能均排名前三,在其中7个视频序列测试下中心位置误差性能排名第一,这说明所提算法不仅总体成功率和精确度高,而且算法在多种挑战场景下稳健性也较好。
图3 各算法的中心位置误差曲线
为了从直观角度分析算法效果,分别截取了部分实际跟踪效果图进行分析具体如图4所示,主要针对在遮挡、光照变化、尺度变化等条件下的跟踪效果进行分析。
图4(a)~图4(c)为遮挡情况下跟踪效果,在图4(a)所示的suv序列的第558帧中DeepSRDCF、KCF、BACF等算法由于缺乏最佳特征选择机制,导致发生跟踪漂移,而所提算法由于采用多特征决策方案选择出最优特征组合表征目标外观,因此能较好跟踪到目标;在图4(b)所示的faceocc1序列的第705帧中MCCT算法由于缺乏响应图畸变抑制机制导致跟踪漂移,而所提算法由于采用了正则化方法能够抑制响应图畸变因此能正确跟踪目标;在图4(c)所示girl2序列的第120帧由于出现了严重遮挡和相似目标,其它跟踪方法由于缺乏特征选择机制或响应图畸变抑制导致跟踪失败,而所提算法由于跟踪策略较完善,因此仍能准确跟踪目标。
图4(d)~图4(f)为光照变化情况下跟踪效果图,在图4(d)所示tiger1序列的第141帧、279帧、349帧和图4(f)所示coke序列的第98帧、256帧中目标所处关照环境发生明显变化,而且伴随着目标部分遮挡,因此多数算法由于缺乏抑制光照变化环境带来的响应图畸变策略和自适应选择特征机制导致跟踪失败,但是所提算法由于改进方案较为恰当,所以在各帧中都能准确跟踪目标;在图4(e)所示basketball序列第659帧、725帧中ARCF、BACF算法由于在跟踪时引入环境上下文信息,从而带来了背景干扰,因此导致其跟踪失败,但是所提算法在使用背景信息的同时利用正则化策略降低响应图畸变影响,所以跟踪较为准确。
图4(g)~图4(i)为形变情况下跟踪效果图,在图4(g)所示girl序列的第112帧、334帧和图4(h)所示diving序列的第105帧、175帧中目标发生了剧烈形变,使用传统特征且缺乏特征选择机制的ARCF、KCF、CSRDCF、BACF算法相继跟踪失败,而DeepSRDCF、MCCT算法由于使用了深度特征表征目标只发生了轻度漂移,所提算法由于采用传统特征与深度特征组合方式表征目标外观,而且使用了自适应特征选择策略使得其能够准确表征目标,因此所提算法实现了精确跟踪目标。在图4(i)所示bird1序列中鸟成群飞行过程中身体形态发生了剧烈改变,而且背景中存在大量相似目标干扰,因此特征表征能力弱的KCF、CSRDCF算法在第63帧中率先发生跟踪漂移,到后面的第332帧、403帧中其它算法均跟踪失败,所提算法综合了裁剪矩阵扩大搜索区域、多特征决策选择最佳特征、正则化项限制响应图畸变三大策略实现了准确和稳健的目标跟踪。
图4 各算法实际跟踪效果
为评价所提算法的实用性,实验中还记录了如表3所示的算法的平均运行速度以进行时间复杂度分析。可以看出所提算法速度为23.6 帧/秒,其速度低于KCF、BACF、
表3 算法平均运行速度对比
MCCT、ARCF等算法,这是由于所提算法综合了畸变抑制策略和多特征决策方案,在运行中需对多个执行多个算法操作进行对比选取最佳特征跟踪结果,所以其速度受到了较大影响,但是由于所提算法采用多个算法并行运行方案,所以常规情况下仍可以实现实时跟踪。所提算法较DeepSRDCF、CSRDCF速度快,这是由于DeepSRDCF算法不仅使用了深度特征,还需要进行比较耗时的高斯赛德尔迭代优化,因此速度比较慢,而CSRDCF需要进行较为复杂的时间和空间信道可靠性评估,所以其速度较本文所提算法稍慢。
本文在KCF算法的基础上,提出一种学习畸变抑制滤波器的多特征决策目标跟踪算法。针对在跟踪过程中KCF算法容易发生响应图畸变问题,提出采用裁剪矩阵扩大搜索区域的同时利用正则化学习方案抑制响应图畸变,使得算法能够充分利用背景信息的同时不容易引起跟踪漂移;针对传统特征和组合特征不能较好表征目标外观问题,提出使用多特征决策方案选择最佳特征方式实现最佳特征自适应,从而使得跟踪精确度获得大幅度提升。通过在公开数据集上测试,实验结果表明本文算法具备较高成功率与精确度,在遮挡、形变、光照变化等情况下能够较为准确跟踪目标。