基于多特征融合的运动目标跟踪方法

2019-12-09 07:05益争祝玛尚振宏李润鑫
仪表技术与传感器 2019年11期
关键词:滤波器光照尺度

益争祝玛,尚振宏,刘 辉,李润鑫

(昆明理工大学信息工程与自动化学院,云南昆明 650500)

0 引言

目标跟踪是计算机视觉领域的一个热点,被广泛应用于视频监控、机器人学习、工业智能化等方面。其本质是在一段连续视频序列图像中找到目标的位置和状态[1]。虽然目前目标跟踪已经取得很大进展,但因受到遮挡、光照变化和尺度变化等众多因素影响,它仍然是一个具有挑战性的问题。

近年来,许多学者将相关滤波器引入到目标跟踪框架中。相关滤波器目标跟踪算法中特征的选择对跟踪的性能影响很大。其中,D. S. Bolme等提出的最小化输出平方误差和(minimun output sum of square error,MOSSE)算法[2],仅采用灰度特征进行跟踪,J. F. Henriques等提出将以往单通道灰度特征拓展到多通道,采用方向梯度特征(histogram of oriented gridients,HOG)跟踪目标的(kernel correlation filter,KCF)算法[3],提高了跟踪的准确度。M. Danelljan等在算法中加入颜色特征,并利用主成分分析(principal component analysis,PCA)对颜色特征CN[4]降维处理,应用在彩色视频序列中。M. Danelljan等在MOSSE的基础上提出利用HOG特征构建尺度金字塔进行目标尺度估计的DSST算法[5]。上述算法都仅使用单一特征描述目标,无法较全面的表达目标,在不同场景下跟踪性能有较大差异。另外,上述算法都采用逐帧固定更新滤波器模型的方式,但每帧跟踪情况各不相同,容易将错误的信息加到目标模型中,而导致后续帧跟踪失败。针对以上问题本文基于可以进行尺度估计的DSST算法提出以下策略:

(1)上述算法仅利用单一特征(HOG特征或颜色特征)描述目标。HOG特征是图像的局部特征,对目标细微形变、光照变化等有较好的适应能力,但是如果目标发生较大的形变和遮挡时,会发生错跟或漏跟;而人类识别图像的重要感知特征颜色特征是基于像素点的一种全局特征,对目标旋转、平移和尺度变化不敏感,但颜色特征不能很好描述目标的局部特征且无法适应光照变化。为此,本文将这两种特征融合起来描述目标模型,在获得目标全局特征的同时,也可以获取目标局部特征,提高了目标检测的准确度。

(2)上述算法使用目标模型逐帧固定更新策略,如果目标发生遮挡时,继续更新模型会将不正确的信息加到模型中,会导致目标跟踪的失败。为了提高跟踪性能,提出只有满足一定条件时才更新的策略,通过判断目标是否发生遮挡来决定是否进行模型更新,减小了遮挡对目标跟踪的影响,从而提高了算法的稳定性。

视觉跟踪中目标尺度不断发生变化,基于此DSST算法提出了一种尺度估计的策略。该算法先得到目标位置,然后估计目标尺度。为保证论文完整性,将DSST算法简述如下,该算法的详细论述见参考文献[5]。

1 DSST目标跟踪算法

DSST跟踪算法提出通过训练两个滤波器,位置滤波器和尺度滤波器,分别得到目标的位置和尺度,且两个滤波器的应用方式和原理相同。通过位置滤波器找到预测区域中目标响应值最大的位置,此处就是目标的位置;利用训练好的尺度滤波器在新位置处估计目标尺度。

1.1 位置估计

以输入图像中目标位置为中心,进行采样获得图像块P。然后,提取P的HOG特征f作为训练样本m。样本训练是为了找到最优的滤波器h, 使输入样本和需要输出之间平方误差最小。h由每个特征维度的滤波器hl组成, 通过如下最小化均方差求得:

(1)

式中:g为训练样本m的期望输出;τ为正则化参数;d为训练样本f的维数;fl为其中的第l维,l∈{1,…,d};*表示循环相关。

式(1)的最小值在频域里的解如下:

(2)

(3)

(4)

式中η为滤波器模型更新的学习率。

上述已经得到了最优滤波器模型,完成了训练过程。此处将对目标进行检测,对于新一帧得到候选样本z,计算z与滤波器的相关得分y:

(5)

y取得的最大值处即为新的目标位置。

1.2 尺度估计

为了解决目标尺度变化问题,DSST算法在目标位置确定后,通过构建尺度金字塔训练尺度滤波器估计目标尺度。确定目标位置后,以目标新位置为中心,截取构建金字塔的33个图像层,并提取这些图像层的HOG特征训练一个尺度滤波器Hscale,用来估计目标尺度,Hscale由式(2)计算可得。在新一帧中,为了得到目标尺度,利用式(5)求ys并得其最大值,确定目标当前尺度。采用式(3)、式(4)进行模型更新。

2 多特征融合跟踪方法

DSST算法是基于单一HOG特征描述目标模型,在目标发生巨大形变和遮挡时,跟踪效果并不理想。且该算法更新模型采用逐帧固定更新方式,但这种更新策略不能满足视频序列中每帧各不相同的变化情况,无法抑制模型漂移,最后可能导致跟踪失败。

本文提出基于相关滤波器跟踪方法的改进,位置估计时,为了更全面描述目标,减小跟踪错误率,采用了与HOG特征具有互补性的颜色特征CN共同描述目标以训练滤波器,并根据两个特征各自跟踪结果的PSR(peak-to-sidelobe ration)自适应融合两种特征。为提高目标模型的有效性,对算法的跟踪结果进行遮挡判断,如果目标发生遮挡,则不进行目标模型更新,未发生遮挡则更新模型,提高了目标跟踪的性能。

2.1 峰值旁瓣比

在相关滤波器算法中,滤波器响应分布可以评估跟踪结果的置信度。理想响应分布时峰值强度高,即仅在目标中心位置处产生唯一峰值,且该峰值比较突出,峰值与周围区域之间的相对高度较大。峰值旁瓣比PSR最开始是D. S. Bolme等[2]提出的是一种衡量峰值强度的指标, PSR计算方法为[2]

(6)

式中:yt,max为第t帧响应图的峰值;μt和σt为最大响应位置周围区域的均值和标准差。

PSRt越大,响应分布中峰值强度越高,则目标置信度越高。

2.2 特征融合和位置估计

不同的特征具有不同的性质。如图(1)所示,当目标发生遮挡或目标发生剧烈光照变化时,单独使用HOG或者CN特征都不能很好跟踪目标。由图1(a)可知,目标发生遮挡时,单独使用HOG特征,发生漂移,即HOG特征不能很好处理遮挡问题;由图1(b)可知,当目标发生剧烈光照变化时,单独使用CN特征跟丢目标,CN特征不能很好处理光照变化问题。

实验表明HOG特征和CN特征是一对互补特征。HOG特征对光照变化具有较好适应性,CN特征对目标形变、尺度变化具有较好适应性。为更全面描述目标,文中将利用上述两种特征描述目标模型,减小跟踪错误率。

——HOG(a)

- -CN(b)

分别提取目标的HOG和CN特征,使用式(2)分别训练两个位置滤波器,依据式(5)得到各自的目标响应图。为了让两种特征有效融合,通过比较两种特征的跟踪置信度来分配特征权值,而PSR可以较好地衡量跟踪置信度,当PSR值较大,说明目标置信度更高,跟踪效果更好。在下一帧的目标检测中应该加大该特征权重。

在t帧时,使用CN和HOG特征分别跟踪目标得到滤波器响应yt,cn和yt,hog,并在响应层面进行特征融合,利用如下加权方法得到融合后的响应yt:

yt=wt,cn×yt,cn+wt,hog×yt,hog

(7)

式中yt的最大值处就是目标最终的位置:wt,cn、wt,hog分别为CN特征和HOG特征在第t帧时归一化权重。

(8)

(9)

2.3 滤波器模型更新

传统相关滤波器算法中,采用逐帧固定更新模型方法,当目标发生遮挡时,更新过程中引入的错误信息将导致目标跟踪发生漂移甚至失败。文献[6-9]利用峰值旁瓣比PSR判断目标是否发生遮挡。图2是Jogging1视频序列的PSR响应曲线分析。目标在第24、248帧时正常运动,PSR值比较大。在第71帧时,目标被完全遮挡,PSR值较小,第80帧时PSR值上升,目标发生部分遮挡。

(a)第24帧 (b)第71帧 (c)第80帧 (d)第248帧图2 PSR值分析结果(Jogging1序列)

因此本文在目标检测过程中首先利用当前帧最终位置响应图的PSR 值判断目标是否发生遮挡,并利用PSR重新确定模型的更新率

(10)

式中N为设定的判断是否更新滤波器模型的PSR阈值。

通过对不同视频序列实验测试发现,目标正常运动时的PSR值超过7;当PSR值小于7时,目标发生遮挡,为了有效更新滤波器模型,本文中N取7。将式(3)、式(4)中上一帧的η用新的模型更新率η′替换,并在下一帧中使用,即对模型进行自适应更新。

3 实验结果与分析

3.1 实验环境及参数

实验运行平台为MATLAB R2014b, 所有实验均在Internet core i5 CPU,主频2.5 GHz,4 GB内存电脑上完成。实验中对所有测试视频采用参数一致:正则化参数设置τ=0.01,模型更新的学习率η=0.025,尺度金字塔取33层,旁瓣区域预定义的更新阈值N取7。

3.2 数据和评估方法

实验选取公开的标准测试数据集Benchmar[10]中的12段视频序列进行实验,测试视频序列依次为Jogging1、Blurface、Tiger2、Skating2、Coke、Dog、Walking、Bolt、Girl、Singer2、Carscale和FaceOcc1,其中包含了目标多种变化,如遮挡、快速运动和旋转、光照变化、尺度变化、和类目标干扰等,可验证本文算法的有效性。

采用中心位置误差(center location error,CLE)、距离精度(distance precision, DP)和帧率(frames per second, FPS)评估本文算法和其他比较算法。CLE是指目标框的中心与目标真实位置中心之间的偏差,中心误差越小,则算法性能越高。DP是指中心位置误差小于某一阈值的帧数占视频总帧数的百分比,实验中采用阈值为20像素。

3.3 与其他算法的对比分析

为了说明本文算法的有效性,选取3种对比算法进行分析。对比算法包括: (circulant structure of tracking-by-detection with kernel,CSK)算法[11]、CN算法和MOSSE算法。

3.3.1 定量分析

表1是12组视频序列的实验结果。其中最优结果加下划线表示。可以看出本文算法的平均CLE和平均DP都优于其他对比算法。和次优的CN算法相比,平均CLE降低了25.12像素,平均DP提高了29.31%。但本文的平均帧率是13.71 fps,相对于其他算法有下降。

表1 本文算法与对比算法的比较

表2列举了其中8个测试序列的平均CLE, 其中最优结果加下划线表示。本文算法的平均CLE仅在Bolt视频中次优,在其余7个视频都是最优,因此本文算法明显优于其他算法。

图3为本文算法和其他3种算法在测试序列上的距离精度与中心位置误差的关系,曲线越陡,表示跟踪精度越高,其中,中心位置误差阈值为20。由图3可看出,本文算法的距离精度为最优。

表2 部分测试视频平均CLE %

(a)Jogging1

(b)Girl

(c)Coke

(d)Singer2

(e)Skating

(f)Tiger2

3.3.2 定性分析

3.3.2.1 发生遮挡

图4(a)是Jogging1视频的部分跟踪结果,在第71帧时目标被完全遮挡时;在第98帧时,其他算法都跟踪失败,仅本文算法由于可以自适应更新目标模型,依然能够成功跟踪目标。

3.3.2.2 快速运动和旋转

由图4(b)是Tiger2视频的部分跟踪结果,序列中目标快速运动导致目标模糊,在第82帧时,除了MOSSE,其余算法都能准确跟踪目标;在第113帧时,CSK跟丢目标,CN和本文都可以精确跟踪目标。由图4(c)是Skating2视频的部分跟踪结果,第60、456帧时目标发生旋转,MOSSE、CN跟丢目标,CSK算法虽然全程都能跟踪目标,但本文算法精确度更高。

3.3.2.3 光照变化

由图4(d)是Singer2视频的部分跟踪结果,在第36帧时目标发生剧烈光照变化,对比算法都出现漂移或跟丢现象,本文算法依然可以准确跟踪;在第59帧时,目标再次发生光照变化,仅本文算法可以正确跟踪目标,其他算法都跟踪失败。目标发生光照变化时,颜色特征失效,而本文算法融合了Hog特征能适应光照变化。

3.3.2.4 尺度变化

图4(e)Carscale视频序列中目标尺度变化明显,只有本文算法可以准确更新目标尺度,精确跟踪目标。

3.3.2.5 类目标干扰

图4(f)是Girl视频的部分跟踪结果,在第440帧时出现类目标干扰,MOSSE算法依然最早丢失目标,CSK算法跟丢目标,CN算法发生目标错跟,而本文算法可以准确跟踪,在第471帧时,MOSSE和CSK发生跟踪失败,CN跟踪发生偏离,只有本文算法能够全程稳健跟踪。

由上述定量和定性分析可知,本文算法在目标发生遮挡、快速运动、光照变化、尺度变化和类目标干扰等情况下具有较鲁棒的跟踪效果,特别在目标被遮挡时效果更佳。

4 结论

本文提出基于相关滤波器跟踪算法的多特征融合和选择性更新模板的跟踪算法。首先,将CN和HOG特征在滤波器响应图层面进行融合,提高目标跟踪准确度。其次,在每一帧中,采用PSR自适应控制模型的更新率,解决模板遮挡问题。实验表明,

在目标发生遮挡、快速运动、光照变化、尺度变化和类目标干扰等问题时,本文算法具有较强稳定性,尤其在解决遮挡问题时效果更佳。但本文算法平均速度为13.71 frame/s,速度较慢,需要进一步进行优化。

猜你喜欢
滤波器光照尺度
节能环保 光照万家(公益宣传)
当幻想的光照进童心世界
财产的五大尺度和五重应对
隐蔽的力量
从滤波器理解卷积
开关电源EMI滤波器的应用方法探讨
基于Canny振荡抑制准则的改进匹配滤波器
宇宙的尺度
基于TMS320C6678的SAR方位向预滤波器的并行实现
9