孙雅媚,肖 嵩,2,曲家慧,董文倩
(1.西安电子科技大学 综合业务网理论及关键技术国家重点实验室,陕西 西安 710071;2.北京电子科技学院 电子与通信工程系,北京 100070)
视觉目标跟踪是计算机视觉领域的研究热点之一,被广泛应用于众多实时视觉领域,例如视频监控、人机交互、机器人技术等[1-3]。其主要任务为给定待跟踪目标的初始状态,确定在接下来视频序列中目标的位置。在几十年的发展中,已经提出了许多算法来设计鲁棒的跟踪器,并取得一定程度的成功。但是,仍然存在许多挑战性因素,例如背景杂乱、快速运动、运动模糊和遮挡等,这些因素会在不受约束的情况下妨碍精确的跟踪性能场景。因此,设计一个鲁棒的目标跟踪算法仍然是一项重要且长远的任务。
近年来,基于相关滤波的目标跟踪算法[4-5]已经成为目前主流的跟踪算法之一。文献[6]将信号处理领域的相关性理论应用于目标跟踪,提出了一种最小输出误差平方和(MOSSE)算法,奠定了基于相关滤波的目标跟踪算法的基础。文献[7]在MOSSE算法的基础上引入了循环移位操作和核函数,通过对基础样本的循环移位可以产生大量的训练样本,同时利用循环矩阵可对角化的性质在频域内加速了模型计算。然而循环移位操作在提升样本数量的同时,引入了边界效应,为了解决这一问题,文献[8]通过扩大训练样本区域,同时使用一个二进制掩码矩阵来抑制边界效应的产生,并将单通道的灰度特征扩展到多通道的HOG特征,提出了背景感知相关滤波(BACF)算法,与其不同,空间正则化相关滤波(SRDCF)算法[9]通过引入空间正则化机制来抑制边界效应的产生,但该算法计算复杂度高,跟踪速度较慢。文献[10]提出了上下文感知相关滤波(CACF)算法,通过将目标上下文信息作为负样本用于滤波器的训练,从而使模板学到上下文背景信息,提升了跟踪器的鲁棒性;但是该算法对上下文信息进行抑制时,没有具体考虑上下文信息对于目标的干扰程度,均采用一致的抑制系数。因此,笔者通过提出一个上下文信息干扰系数公式,来定量评估上下文信息对于目标的干扰程度,并基于计算结果,自适应地赋予上下文信息不同的抑制权重系数,从而提升算法整体的跟踪成功率和准确率。
传统的相关滤波器采用循环移位的方式在目标周围进行密集采样,同时利用岭回归训练分类器,其目标函数表示为
(1)
其中,w表示训练出来的相关滤波器,A0表示初始样本a0经过循环移位后得到的矩阵,y表示回归的目标,λ1表示正则化系数。令梯度为零,可得上式的封闭解为
(2)
依据循环矩阵可以被傅里叶变换矩阵对角化的性质,可以在频域得到
(3)
上下文感知相关滤波器以此为基础,将初始样本对应的循环矩阵A0作为正样本,同时采集初始样本上下左右四个方向的上下文区域作为困难负样本来训练鲁棒的滤波器,以此实现将目标周围的背景信息学习到滤波器中。上下文区域的具体采样方式如图1所示,所对应的循环矩阵记为Ai,则对应的目标函数转化为
图1 上下文信息采样区域示意图
(4)
式(4)以正样本具有较高的响应值和负样本具有尽可能小的响应值作为约束条件训练相关滤波器,在频域内可得到
(5)
上下文感知相关滤波算法中,对于目标上下文信息采用相同的抑制权重,这种上下文信息抑制方法没有考虑到上下文信息对于目标的干扰程度。针对这一问题,提出了一种自适应抑制权重系数的上下文感知跟踪算法。首先,通过对相关滤波响应图的观察,提出了一个上下文信息干扰系数公式,用于定量评估具体采样的上下文信息对于待跟踪目标的干扰程度;其次,引入一个自适应权重系数向量,用于修正基准上下文感知算法中单一的正则化系数,同时基于上下文信息干扰系数公式计算的结果,自适应地赋予上下文信息不同的抑制权重系数,从而实现对目标干扰程度越大的上下文信息,被赋予更大的抑制权重,对目标干扰程度越小的上下文信息,被赋予更小的抑制权重,以此来提升算法整体的跟踪成功率和准确率。
通过分析相关滤波跟踪算法的响应图可知,理想的响应图应该是只有一个尖峰,同时在其他区域应当平滑,响应图尖峰对应的位置即为预测的目标中心。但是当一些跟踪难点问题如形变、快速运动、运动模糊等出现时,整个响应图将进行剧烈的波动,目标周围上下文信息处的响应值会变高,对跟踪结果产生干扰;基于此,文中提出一个表征目标上下文信息对目标干扰程度的公式,即上下文信息干扰系数D:
(6)
其中,Fmax、Fi max分别表示相关滤波响应图中的峰值和每个上下文采样区域的峰值。此上下文信息干扰系数D可以反映出上下文采样区域信息对跟踪目标的干扰程度,通过观察该式可知,当在上下文采样区域内,相关滤波响应的局部峰值越大,表征此区域背景信息对于目标的干扰程度越强,即该区域被误判为目标的可能性越大,此时比值越大,对应D值越小。因此,通过计算当前帧响应中,每个上下文采样区域的D值的大小,可以定量预估出每个上下文采样区域的干扰程度,进而为后续上下文信息抑制权重的自适应作分配指导。
针对上下文感知跟踪算法对于目标上下文信息采用一致的抑制权重,没有考虑上下文信息对于目标具体的干扰程度问题,基于上节提出的上下文信息干扰系数D,提出一种自适应抑制权重的上下文感知跟踪算法。引入一个自适应权重系数向量,记为W={β1,β2,β3,β4},其中系数值以k为步长逐个下降,此自适应权重系数向量用于修正基准算法式(4)中一致的抑制系数λ2,故式(4)转化为
(7)
其中,AC1AC2、AC3、AC4分别代表对目标干扰程度从大到小的上下文采样区域对应的循环矩阵。由该式可知,对目标干扰程度越大的上下文信息,将匹配越大的抑制权重,从而实现上下文抑制权重的自适应。
关于自适应匹配的过程,采用的算法为:首先基于式(6)分别计算出图1中4个采样区域A1、A2、A3、A4的干扰系数,分别记为D1、D2、D3、D4;其次将干扰系数进行升序排序,以此可确定出对目标干扰程度大小的上下文区域排序;最后将按照干扰系数大小升序排序后的上下文区域与文中的自适应权重系数向量匹配,从而实现数值大的抑制权重匹配干扰系数值小的上下文区域,即干扰程度越大的上下文信息受到的抑制程度越大。
以式(7)为目标函数,以正样本具有较高的响应值和负样本具有尽可能小的响应值作为约束条件训练相关滤波器,利用循环矩阵卷积性质,在频域内可得到
(8)
由相关滤波知识可知,利用训练出来的滤波器模板,可用于检测当前输入帧的响应,即
(9)
其中,Z为当前输入图像块对应的循环矩阵,搜索框内最大响应处的位置即为预测的当前帧目标位置。
(1) 视频序列首帧目标位置的确定。手动确定初始帧目标位置和目标上下左右4个上下文区域。
(2) 生成n个尺度的跟踪框,并提取对应区域特征。
(3) 位置滤波器训练和位置滤波器模板的更新。若为视频序列首帧,则采用一致的抑制权重系数对目标上下文信息进行抑制;若非视频序列首帧,则首先根据式(6)分别计算上下左右4个上下文信息的干扰系数,记为D1、D2、D3、D4;其次,将计算结果进行升序排序,从而确定对目标干扰程度的大小;最后,基于式(7)进行上下文采样区域和抑制权重系数的自适应匹配,最终实现干扰程度越大的上下文信息受到的抑制程度越大。
(4) 尺度滤波器的训练和尺度滤波器模板的更新。
(5) 目标定位。采用位置滤波器计算候选窗上的响应response,求得最大响应处位置pos,在所求位置上用尺度滤波模板计算不同尺度乘子的响应,以确定目标的尺度大小。
(6) 输出跟踪结果,矩形框标定。重复执行步骤(3),直至视频序列结束。
实验采用的操作系统为Windows 10,仿真软件为MATLAB R2016a,硬件环境为AMD R7-3700X CPU,主频为4.20 GHz,内存为32 GB的计算机。笔者提出算法的主要参数设置为:搜索区域padding为2.0,正则化系数λ1为0.000 1,学习率learning-rate为0.015,权重系数向量W={30,25,20,15},步长k为5,其余参数设置与DSST算法的一致。
为验证笔者提出算法的性能,选取OTB100数据集[11]的全部视频序列进行测试,在性能评估阶段,对所提出的算法分别进行一次通过评估(OPE)、空间鲁棒性评估(SRE)和时间鲁棒性评估(TRE)[11],并基于性能评估结果与其他经典目标跟踪算法进行比较,包括CSK[12]、KCF[7]、DSST[13]、MOSSE_CA[10]、DCF_CA[10]和DSST_CA[10]共6种经典算法,实验结果如图2所示。
图2中的(a)到(f)展示了所提出算法在内的多个主流目标跟踪算法在OTB100数据集上的性能评估结果(跟踪精确度和成功率)曲线图,其中,成功率曲线度量预测框与标注框的重合度超过某一阈值的帧的占比,精确度曲线图则度量预测框与标注中心点小于某像素的帧的占比。在跟踪成功率曲线图中,文中算法Ours2_1的OPE评估结果较算法DSST(Baseline算法)和算法DSST_CA分别提高了约5.7%和2.1%;SRE评估结果较算法DSST(Baseline算法)和算法DSST_CA分别提高了约2.1%和0.4%;TRE评估结果较算法DSST(Baseline算法)和DSST_CA分别提高了约2.4%和0.5%。在跟踪精确度曲线图中,文中算法Ours2_1的OPE评估结果较算法DSST(Baseline算法)和DSST_CA分别提高了约4.3%和2.3%;SRE评估结果较算法DSST(Baseline算法)和DSST_CA分别提高了约2.9%和0.8%;TRE评估结果较算法DSST(Baseline算法)和DSST_CA分别提高了约2.6%和0.5%。综合OPE、SRE和TRE这3种评估标准,笔者所提出的算法(Ours2_1)在跟踪成功率和精确度上均优于算法DSST(Baseline算法)和算法DSST_CA。在与其他主流算法的比较中,文中算法的OPE跟踪精确度虽略低于算法DCF_CA,但是其余指标较算法DCF_CA均有较大提升。
(a) OPE成功率
为了进一步评估提出算法在各种跟踪属性下的鲁棒性,表1中列举了各算法在OTB100数据集上基于跟踪属性的SRE跟踪成功率得分,每项属性的前两名分别用粗体进行标识。
表1 与经典算法在OTB100数据集中基于属性的成功率对比
由表1可知,提出算法在11个属性序列中,6个属性位列第一,5个属性位列第二,对快速变形、背景相似干扰、运动模糊等跟踪难点问题具有较强的鲁棒性。同时,在OTB100中选择有代表性的23组具有快速变形、背景相似干扰、运动模糊等跟踪属性的视频序列,对提出算法和几个近期相关算法进行测试,包括STRCF[14]、BACF[8]、LMCF[15]共3种近期算法;结果表明,所提出算法的跟踪成功率和精确度均优于其他算法,具体实验结果如图3所示。
(a) OPE成功率
为了更直观验证文中所提出算法的有效性,图4给出了提出算法(Ours2_1)、DSST_CA和DCF_CA共3种跟踪算法在OTB100数据集中的3个代表性跟踪视频序列上的跟踪效果图。
在basketball视频序列中,目标在第22帧发生形变后,DSST_CA、DCF_CA和提出算法均能实现稳定跟踪,但是跟踪框标定位置的精确程度,提出算法明显优于前两者,前两者均出现了跟踪框向上漂移的问题。当目标发生形变后,相关滤波的响应图会发生波动,根据上下文信息区域响应对目标干扰程度的大小,自适应匹配不同的抑制权重系数,从而使得该算法具有更好的定位精确度。
在football1视频序列中,当跟踪目标出现相似背景干扰影响时,DSST_CA算法和DCF_CA算法由于不区分上下文背景区域对于目标的干扰程度,采用一致的抑制权重,造成干扰峰值过高时,跟踪算法发生漂移,因此分别在第62帧和第74帧出现明显的跟踪漂移,只有文中算法能实现稳定性跟踪。
在Human2视频序列中,跟踪目标在第213帧发生较大尺度变化时,DSST_CA和提出算法添加了尺度滤波器,能实现尺度自适应跟踪。在第622帧,当目标出现旋转、变形后,提出算法的定位精确度优于DSST_CA算法。
OTB100数据集中的每个测试视频序列长度不一,每帧图像的分辨率也不相同,为了比较提出算法和对比算法的运算量,文中统计各跟踪算法在OTB100数据集的平均运行速度,如表2所示。
表2 各跟踪算法在OTB100数据集上的平均运行速度
由表2可知,提出算法的运行速度较DSST算法(baseline)有所下降,这是因为提出算法在对滤波器进行训练时,将目标周围的背景信息也考虑在内,因此整体的运算量较基准算法有了一定增加,但是文中算法的跟踪成功率和精确度有了大幅提升,具体表现为跟踪成功率和精确度较基准算法分别提升了约5.7%和4.3%。
针对上下文感知相关滤波算法中,没有具体计算上下文信息对目标的干扰程度,直接采用相同抑制权重的问题,文中提出一个上下文信息干扰系数公式用于定量计算上下文信息对于目标的干扰程度,并基于计算结果,与引入的自适应权重系数向量进行匹配,从而实现对目标干扰程度越强的上下文区域,受到的抑制程度越大。最后,使用OTB100数据集的全部视频序列对文中算法性能进行验证。结果表明,笔者提出算法的成功率和精确度较其基准算法分别提升了约5.7%和4.3%,同时对快速变形、背景相似干扰、运动模糊等跟踪难点问题也具有较强的鲁棒性。