孙 欣 何 宁
(北京联合大学智慧城市学院 北京 100101)
相关滤波器[1-8]跟踪成功的主要原因是通过循环位移来近似密集采样,训练样本在傅里叶域中更新相关滤波器使得计算效率提高。其前提是背景均匀,物体移动位移较小。但是这些假设并不适用于所有情况,一个主要缺点是由于循环假设存在的边界效应。此外,目标搜索区域为保持计算成本低,仅包含一个小的局部邻域来限制漂移。边界效应通常通过余弦窗口来抑制,导致减少了搜索区域。因此,相关滤波跟踪器通常关于其背景的信息是非常有限的,并且在快速运动、遮挡或背景有杂物的情况下容易漂移。为了解决这一局限性,本文将目标周围的背景信息考虑进去,并将其集成到学习的滤波器中,最终作为一个框架输出。该框架可以与大部分相关滤波跟踪器集成来提高其性能,且拥有较高的帧速率。
相关滤波是一种简单且高效的滤波器,是数字信号处理领域的一种重要算法,通常用于信号在时域与频域之间的转换。在跟踪领域,其相关性可以用来衡量目标的外观模型和其运动模型产生的候选的相似程度。结合循环矩阵的良好性质,相关滤波器在目标检测跟踪领域发挥了很大的作用。
相关滤波器允许在目标周围进行密集采样,通过固定大小的搜索窗口将目标所有可能的平移位置建模为循环位移并形成循环矩阵A0。由于循环矩阵的行列均是平移变换得到的,所以循环矩阵具有很好的性质,如:任意的循环矩阵能够被离散傅里叶变换矩阵对角化;循环矩阵的和、乘积、逆运算都是循环行列式。如下所示:
(1)
采用循环矩阵在傅里叶域中的岭回归问题来作为相关滤波器的目标函数,并利用循环矩阵的性质解决了在傅里叶域的岭回归问题,使得计算更高效,避免了复杂运算。岭回归问题如下:
(2)
式中:向量w表示学习到的相关滤波器;矩阵Α0表示图像块a0平移变换的循环矩阵;目标函数y是二维高斯图像矢量。
(3)
式中:*表示共轭。
检测时,学习更新的滤波器w在下一帧与搜索窗口z进行卷积操作,Z表示块循环矩阵。响应值最大的位置即为搜索窗口中下一帧目标的预测位置p,即rp(w,Z)=Zw,在傅里叶域转换为:
(4)
由于目标处于大量丰富的背景信息中,背景信息大部分都是连续变化或基本不变的,当目标突然快速运动或周围环境发生变化时,如果将其相邻的部分背景图像块也考虑进检测识别系统,则能够从连续的背景信息的变化或不变来反向确定目标图像块,从而相应地提高目标检测的识别率和准确性。
算法整体框架如图1所示。在相关滤波器的基础上,对目标邻近的背景图像块采集信息并以图像矩阵的形式添加到滤波器中。为保证背景信息对目标块检测的支持,避免干扰,在式(2)中,添加参数来控制背景信息的程度,使得滤波器的速率基本不受到太大的影响并提高了特定场景(遮挡、光照变化、快速运动等)中跟踪的成功率。
图1 算法整体框架
采样策略的复杂性和负样本采样数量对跟踪性能有较大的影响,所以采样策略是决定算法性能的关键。如图2所示,背景采样信息来自目标图像块相邻的4个负样本区域[Α1,Α2,Α3,Α4],这些背景区域图像块与背景图像块有小范围的区域是重叠的。负样本的作用是保证在检测过程中目标块识别率更高,不被相邻背景区域干扰发生漂移。为此,需要在目标函数中引入参数使得背景区域响应值接近于零但不等于零。所以,在目标函数中,通过设置参数使得背景区域响应值与目标块响应值相差较大,从而保证了添加背景信息后也不会对目标块响应值造成干扰。
图2 采样策略
感兴趣的目标区域块a0对应的循环矩阵为Α0,周围k个负采样区域ai经过循环移位得到对应的循环矩阵Αi。其中,ai∈Rn,Αi∈Rn*n。我们需要学习到一个滤波器w∈Rn在目标区域响应值远高于背景区域。通过在式(2)中添加背景图像块并进一步加入参数λ2控制背景区域的响应强度,使得背景区域的响应值远低于目标区域的响应值,最后给出新的目标凸函数:
(5)
将本文基于背景信息的算法添加到多个基于经典相关滤波器的跟踪算法SAMF[9]、STAPLE[10]、MOSSE[11]中,采用本文方法改进后的相关滤波器分别记作BS-SAMF、BS-STAPLE、BS-MOSSE等。并在数据集标准OTB-50/OTB-100[12-13]上与Struck、SCM、TLD、DFT、CXT、LSK、OAB等算法进行对比实验并评估结果。所有算法跟踪器均使用MATLAB在同一操作平台(Inter(R) Core(TM) i7-4790 CPU @ 3.60 GHz)上运行。
评估方法根据OTB-50/OTB-100中定义的成功率和精度值来评价。精度评估是根据跟踪目标的边界框与标定框中心位置的误差值来计算的。一般设定阈值为20个像素点。成功率评估主要测量的是跟踪框与标注框的重叠率。跟踪成功的帧数占总帧数的百分比即为成功率。一般给定重叠阈值为0.5。使用成功率图中曲线下的面积(AUC)来给跟踪算法排序。鲁棒性的评估主要分为时间(TRE)上和空间(SRE)上的评估测量。OPE 是指从视频序列第一帧开始跟踪直到视频序列结束,根据一次跟踪的结果进行评价,是 Benchmark 标准跟踪测试数据集一次性评估的结果。
为了公平比较,将基于背景空间信息的相关滤波器设置为相同参数。负采样区域(背景)个数k设置为4,因为当k大于4时,算法框架运行时间明显增加,但效果改善不明显。改进后的BS-SAMF、BS-STAPLE、BS-MOSSE算法,设置其学习率为0.005、0.015、0.025,参数λ2分别设置为0.4、0.5、20。
图3中,接近跟踪目标区域的两个框分别为BS-SAMF、BS-STAPLE算法结果,远离跟踪目标区域,甚至跟踪失败的框分别是SCM、TLD算法结果。可以看出,在刚开始的跟踪过程中,各个方法基本上都可以实现目标的跟踪,但随着目标的运动和背景的变化,一些方法受到光照变化、目标旋转等复杂环境的影响,出现了漂移的现象,导致跟踪失败,并且在跟踪失败后无法重新检测目标进行调整。所以,结合了背景空间信息的相关滤波方法可以克服在光照变化、快速运动、低分辨率以及背景混杂等复杂背景下运动目标的检测跟踪。并且在不影响跟踪速率的情况下能够以高精度和高准确性实现目标跟踪检测,不容易出现漂移的问题,能够实现目标全程实时跟踪。
图3 运行结果
图4展示了特定场景中的成功率。在光照变化、尺度变化、背景杂物、遮挡、快速运动等情况下,SRE成功率有明显的提高。特别是如果在连续几帧里,目标外观(遮挡)或者周边背景(背景杂物)发生急剧变化,基于背景空间信息的更大搜索匹配区域使得实验效果优于其他框架。同样,图5反映了其他场景下的TRE的精度结果。
(a) 光照变化 (b) 尺度变化
(c) 背景杂物 (d) 遮挡
(e) 快速运动 (f) 运动模糊图4 SRE的成功率结果图(AUC)
(a) 形变 (b) 低分辨率
总体质量评估如图6所示,可以看出,当根据实际跟踪速度调整帧速率时,大部分跟踪器的速度变慢,导致跟踪效果变差,性能显著下降。相比之下,基于背景信息的相关滤波器框架的性能只是略微降低。这更说明了本文改进的算法框架具有一定的优势,能够在保证跟踪速度的基础上,提高在复杂场景中的跟踪性能。
(a) OPE总体精度 (b) OPE总体成功率图6 OPE总体质量评估
综上所述,当根据实际跟踪速度调整帧速率时,大部分跟踪器的速度变慢,导致跟踪效果不好,性能显著下降。相比之下,基于背景信息的相关滤波器框架的性能只是略微降低,基于背景空间的相关滤波框架较其他框架的跟踪器更有优势,在保证跟踪速度的基础上,提高了在复杂场景中的跟踪性能。
本文通过对目标周围的局部背景信息采样来改进相关滤波器,在计算成本较低的同时实现了很好的跟踪效果,对一些复杂场景,如光照变化、遮挡、尺度变化、背景杂物、快速运动等发生时,表现尤其突出,能够准确地检测到目标并跟踪,避免了跟踪过程中出现漂移。实验表明,引入负样本信息的相关滤波器跟踪性能得到了提高,并且与不是相关滤波框架的算法比较也有较大的优势。