稀疏约束与时间一致的背景感知相关滤波目标跟踪

2024-03-05 01:46欧双江周婉怡

小型微型计算机系统 2024年3期

陶洋,唐函,欧双江,周婉怡

(重庆邮电大学通信与信息工程学院,重庆 400065)

0 引言

目标跟踪是计算机视觉领域中非常重要的一个研究方向,近年来,目标跟踪广泛应用在不同领域,例如智能交通监控、人机交互、医学成像、自动驾驶等[1].目标跟踪任务旨在通过第一帧感兴趣区域的初始目标框来估计后续视频序列中目标边界框.尽管目标跟踪的研究取得很大进展,不断有大量优秀的解决方案涌现,跟踪算法的综合性能也在不断提升,但要设计出鲁棒性强、稳定性高的跟踪器仍是一个充满挑战性的问题.在目标跟踪中,跟踪器性能往往受光照变化、快速运动、运动模糊、物体遮挡、旋转、复杂背景干扰等因素影响[2].

基于相关滤波的算法通常借助信号处理的思想,将相关计算转换到频域完成,再通过傅里叶逆变换确定最终响应图最大值位置[3].这样的方式大大简化了计算复杂度,同时,其保证了不俗的跟踪精度,得到了广泛应用.Bolme等[4]首次将相关滤波技术引入目标跟踪,提出的误差平方和最小滤波器MOSSE改善了传统目标跟踪方法容易过拟合和滤波模板不稳定的问题.MOSSE利用快速傅里叶变换求解相关滤波器使得其运行速度达到惊人的669帧/s.Henriques等[5]针对MOSSE滤波器在训练模板采用稀疏采样导致训练出来滤波效果一般,引入了循环矩阵的方式对样本进行密集采样,所提出的CSK算法还加入了高斯核技巧改善跟踪效果.Henriques等[6]为改善CSK目标提取的外观模型,在提出的KCF核相关滤波算法中,将CSK单通道灰度特征提取方式替换成方向梯度直方图HOG特征提取,但无法有效解决循环矩阵引起的边界效应问题.为缓解KCF算法在FFT过程中图像边缘循环拼接不连续的现象,Danelljan等[7]提出的SRDCF算法引入了掩码矩阵与空间正则项来惩罚离目标中心比较远的边缘样本,但由于空间正则项的引入破坏了目标函数的封闭解,且采用的Gauss-Seidel迭代方法求解效率低,运行效果只能达到4fps左右,远达不到实时性要求.Bertinetto等[8]提出的Staple算法利用颜色特征对目标学习能很好处理形变与运动模糊的优势与HOG特征处理光照变化的优势,将二者优势互补,提出新的融合特征因子很好的提高了目标跟踪效果,同时对跟踪速度没有较大影响.Mueller等[9]提出了一种上下文感知相关滤波CACF框架,在训练阶段采集目标上下左右区域的样本作为负样本,较好地解决了目标遮挡、背景模糊等挑战场景.Huang等[10]提出的异常抑制相关滤波器ARCF通过抑制相邻两帧的响应图变化率,有效地防止了快速运动、遮挡、形变等导致外观模型置信度迅速降低的异常检测.Li等[11]针对SRDCF中的固定的空间正则化权重不能很好适应大多数场景,其提出的自适应时空正则跟踪滤波算法Autotrack根据用局部与全局的响应图变化,自适应地调整时空正则化超参数,提高了模型的通用性与有效性.Galoogahi等[12]人提出的背景感知滤波算法通过不断裁剪目标周围的背景作为负样本,解决了大多数相关滤波算法训练样本质量差的问题,提高了模型对目标的判别正确率.

虽然背景感知滤波算法通过应用ADMM(Alternating Direction Method of Multipliers,ADMM)迭代方法[13]提高了多通道HOG特征求解效率,使用真实的移位裁剪提高训练样本质量,但其单一的HOG特征无法很好对模型外观建模,并且在提取真实负样本的过程中,扩大了搜索区域,引入了较多的背景杂波,因此BACF在面对遮挡、背景干扰、目标遮挡、形变等情况时无法很好判别目标.针对以上问题,本文采用HOG与CN特征线性融合提高外观表征能力,面对不同场景不同的挑战,引入L1正则项将目标函数改写为弹性网络约束,限制了目标区域稀疏性提高搜索区域目标判别能力.同时,BACF算法由于未考虑到目标出现被遮挡、快速移动等外观突变时,相邻两帧滤波器系数应不会出现太大变化.为防止相邻两帧位置跟踪滤波器出现突变,本文引入时间正则项来约束位置跟踪滤波器,惩罚滤波器出现的异常畸变.

1 相关工作

1.1 弹性网络

在机器学习算法中,弹性网络是一种多元线性回归模型,它同时采用了L1正则化与L2正则化对目标参数进行惩罚,其求解目标函数如式(1)所示:

(1)

在弹性网络模型中,当混合参数β=0时,弹性网络将退化成岭回归模型;而当β=1时,弹性网络则等价于Lasso回归模型.岭回归能够抑制回归系数,但不会缩减相关变量;Lasso回归在优化目标函数最小化过程中,其引入的L1正则惩罚项可以帮助模型获得稀疏系数,筛选出重要相关特征变量,并缩减掉无关特征变量.弹性其本质是将Lasso回归与岭回归的优点同时结合起来,能够使模型同时获得Lasso的稀疏性与岭回归的正则化能力.

1.2 背景感知相关滤波算法(BACF)

在传统的多通道相关滤波框架中,往往是在目标附近的固定半径内采用循环移位的方式生成训练样本.其本质是对目标样本进行周期性延拓,通过密集的循环移位采样大大提高了滤波模型的样本数量.但在样本质量方面,由于负样本都是目标样本循环移位产生的,在实际采样中,其效果是一系列扭曲的虚拟样本.其生成的正样本包含太多的背景信息,且仅有少部分是正确的.

传统相关滤波算法训练样本集质量差,从而导致滤波模型无法有效分辨真实外观模型,这增加了滤波器训练过拟合的风险,也极大限制了复杂场景下滤波器分辨目标与遮挡物的潜力.针对以上问题,BACF算法通过对整幅图片进行密集采样,扩大样本搜索区域的同时,引入一个二值化掩码矩阵来裁剪出高质量的样本,使得正样本中包含真实目标和小块的周围信息,保证了所得到的负样本包含了当前帧的所有背景信息.多通道背景感知相关滤波器最小化优化目标函数如式(2)所示:

(2)

其中,T表示图像像素个数;K表示特征通道数的数量;P是引入的D×T二值化掩码矩阵用于裁剪特征图,其中D≪T;hk∈D是所要优化的第k个通道的相关滤波器;y∈T是集中在感兴趣目标的相关响应结果;[Δτj]表示循环移位操作符,则Pxk[Δτj]是指利用掩码矩阵P不断裁剪循环移位后的特征图,最终裁剪出D个元素.

2 本文算法

2.1 基本思想

BACF算法采用单一的方向梯度直方图(Histogram of Oriented Gradient,HOG)特征来对目标进行外观描述,通过计算统计局部区域图像像素点的梯度或边缘方向的方式,很好的反应出目标的边缘轮廓,且HOG特征对光照变化、颜色变化不敏感,目标的轻微变化不会影响几何特征检测效果.但其无法很好适应,目标快速移动、目标形变、模糊背景干扰等情况.而Martin Danelljan提出的多通道颜色特征(Color Names,CN)[14]在快速移动、低分辨率等情况下表现良好,但对颜色相近的干扰敏感.

针对BACF单一的特征通道,本文采用HOG与CN特征结合的方式来描述目标,能够很好地弥补各自的缺点,提高目标外观模型的鲁棒性.然而,在实际跟踪效果中,二者的线性融合无法很好适应不同的场景.比如在复杂颜色背景干扰场景下,融合的CN特征会导致目标模板污染,造成跟踪效果的漂移.

2.2 目标函数

受弹性网络的启发,本文在BACF的基础上引入L1正则项对滤波器进行稀疏约束,使得跟踪过程中更加关注目标样本区域,降低目标周围相似背景的干扰.同时,在不同场景下筛选出更具代表性的判别特征,通过特征选择增强目标外观的抗干扰能力.考虑到相邻两帧的出现较大畸变会影响滤波模型退化的问题,引入时间正则项防止滤波器突变.构造的目标函数如式(3)所示:

(3)

2.3 目标函数优化求解

为求解公式(4),本文采用交替乘子法ADMM迭代求解.为提高计算效率以及跟踪算法实时性,首先,将目标函数中的时域计算转换到频域求解:

(4)

(5)

(6)

1)子问题h*求解

对于子问题h*,由于不涉及到相关计算,可在时域对问题进行求解.

(7)

针对式(7)中存在L1范数作为约束条件,无法直接对式(7)求导得到最优解,可通过软阈值迭代收缩算法[15]求得该最小二乘问题的唯一解析:

(8)

o(x,y)=sign(x)×max(|x|-y,0)

(9)

(10)

(11)

对其求导并令导数为0,得到最后的闭环解如式(12)所示:

(12)

(13)

3)拉格朗日乘子求解

ADMM中的增广拉格朗日乘子更新策略如式(14)所示:

(14)

其中,i表示ADMM中迭代次数,在迭代第i+1次时的拉格朗日乘子问题求解结果如式(14)所示,而拉格朗日惩罚参数μ更新公式如式(15)所示,θ为固定参数.

μi+1=min(μmax,θμi)

(15)

2.4 尺度估计

图1 算法原理Fig.1 Algorithm principle

3 实验与结果分析

OTB作为主流的单目标跟踪测试数据集,主要包括不同场景下100个带人工标注视频序列.其中有25%的视频序列为灰色图像,75%的视频序列为彩色图像,因此,OTB数据集覆盖了IV(Illumination Variation,光照变化)、SV(Scale Variation,尺度变化)、OCC(Occlusion,遮挡)、DEF(Deformation,形变)、MB(Motion Blur,运动模糊)、FM(Fast Motion,快速运动)、IPR(In-Plane Rotation,平面内旋转)、OPR(Out-of-Plane Rotation,平面外旋转)、OV(Out-of-View,离开视野)、BC(Background Clutters,背景复杂)、LR(Low Resolution,低分辨率)这11方面的挑战.OTB2013[17]是Wu等人在CVPR2013上发表论文中的51个视频序列.主要是以灰色图像序列为主,而OTB2015[18]是指OTB所有的100个视频序列,是为更好地测试跟踪算法模型的鲁棒性,在OTB2013的基础上新增了49个视频序列.

3.1 实验环境及参数设置

为验证算法提升效果,本文实验环境在win11操作系统上采用MATLAB R2018a软件,硬件配置平台CPU为Intel i5-12500H,运行内存16GB,主频2.5GHz.为方便实验对比,本文选择在OTB2013数据集与OTB2015数据集上运行本文算法与公开跟踪算法,包括SRDCF[7]、Staple[8]、Staple_CA[9]、ARCF[10]、AutoTrack[11]、BACF[12]、MSCF[19]在内的主流算法.本文的基准为BACF算法,引入的L1正则化超参数α设置为5×10-6,时间感知正则项超参数β设置为1×10-5,其余参数均与基准算法保持一致.在图像特征方面,采用手工特征HOG与CN融合的方式.

为保证对比实验的准确性,本文对照实验算法均采用默认参数设置,尽量避免实验环境不同导致算法结果与原算法出现较大偏差.

3.2 评价指标

OTB数据集主要从跟踪距离精度与跟踪成功率两方面来评估跟踪算法的鲁棒性和定量分析.通常主流方法采用一次性评估OPE(One Pass Evaluation,OPE)的方式,即以视频序列的第一帧的ground_truth值作为待评估算法的初始位置,后续算法对每一帧为位置进行计算与预测,最后输出所有视频序列的平均位置精度和跟踪成功率.

1)距离精度图

对于精度定量分析,在图像跟踪广泛使用的标准是计算图像真实目标位置与预测目标位置的欧氏距离,即中心位置误差(Center Location Error,CLE).假设每帧图像中真实像素坐标位置坐标为(ua,va),预测位置像素坐标为(ub,vb),则其计算公式如式(16)所示:

(16)

在OTB评估指标过程之中,可以通过统计中心位置误差小于等于20个像素点的帧数来评估算法的距离精度,通过距离精度图来直观展示上述帧数占总帧数的百分比.

2)成功率图

另外一个重要评估指标是成功率(Success Rate,SR),通过计算预测目标框与真实目标框像素面积的交并比获得跟踪得分,并统计目标框重叠率大于阈值的成功帧数占总帧数比率.假设真实目标跟踪框记为sa,跟踪算法所得到的目标框记为sb,则重叠率(Overlap Rate)定义如式(17)所示:

(17)

重叠率越大表明跟踪效果越好,通常成功率图设置的重叠率阈值为0.5.

3.3 定量分析

为综合对比本文算法的跟踪效果以及整体性能分析,本文选取了近年来公开的7种优秀相关滤波跟踪算法(SRDCF、Staple、Staple_CA、ARCF、AutoTrack、BACF、MSCF)与本文算法进行测试.图2是8种算法在OTB-2013数据集上测试出的距离精度图与成功率图,由图2可知,本文改进后的算法取得的不错的成绩,距离精度达到了88.2%,成功率达到了65.9%.相较于基准算法BACF,距离精度与成功率分别提升了3.3%与1.4%.同样在如图3所示的OTB-2015数据集上,本文算法同样保持了优秀的性能提升,其距离精度与成功率相较于基准算法分别提升了3.2%与1.6%.从整体上看,本文算法综合性能比基准算法BACF有了较大的提升.

图2 OTB-2013数据集上的精度图和成功率图Fig.2 Accuracy graph and success rate graph on the OTB-2013 dataset

图3 OTB-2015数据集上的距离精度图和成功率图Fig.3 Accuracy graph and success rate graph on the OTB-2015 dataset

表1与表2分别为8种算法在OTB-2015数据集上,11种挑战因素下的跟踪精度与成功率.由表1可以看出,除低分辨率(LR)属性外,本文所提出的算法在剩余场景中均取得最高的距离精度.同时,就成功率而言,本文算法在除低分辨率(LR)与平面内旋转(IPR)挑战因素外,同样是成功率排名第一.由此,本文引入的L1背景稀疏约束范数很好地在不同场景下选择出目标外观模型的关键特征,使得滤波器能够学习到正确有效的信息,在背景干扰、光照变化、物体遮挡3种场景中,跟踪精度分别达到0.9、0.852、0.794,也验证了L1范数的引入使得整个样本稀疏度分明,提高了目标特征区分度,同时也增强模型注意力,避免了模型漂移.时间一致性约束正则项帮助滤波器建立起相邻两帧之间联系,有效抑制物体快速移动导致滤波器学习突变外观信息.独立用HOG特征训练的尺度估计模块能够准确输出最佳的尺度比例,在尺度变化挑战中成功率较基准算法提升了1.3%.在表中,排名第1的结果已加粗标出,排名第2的结果已加下划线标出.

表1 8种算法在不同挑战因素下的跟踪精度Table 1 Tracking accuracy of 8 algorithms under different challenge factors

表2 8种算法在11种挑战因素下的成功率Table 2 Success rates of 8 algorithms under 11 challenge factors

本文利用了ADMM算法将目标函数分解为3个子问题,提高了局部问题最优解求解效率,但不同与基准算法,本文训练的独立尺度估计滤波器也采用了ADMM求解,在对7个尺度的HOG特征提取时,增加了额外的计算时间.如表3中BACF、STAPLE_CA、ARCF、AutoTrack、SRDCF、Staple、MSCF和本文算法在OTB-2015数据集上的平均跟踪帧数对比所示,本文算法综合性能得到提升的同时FPS达到了23.88帧/s,相较于BACF算法降低了8FPS,但跟踪速度保持了近乎人眼视觉实时的效果.

表3 OTB-2015数据集上8种跟踪算法速度对比Table 3 Speed comparison of 8 tracking algorithms on OTB-2015 dataset

3.4 定性分析

为直观对比评估本文所提出算法的跟踪效果,图4为8种算法在OTB-2015数据集上5个不同挑战属性的视频序列(DragonBaby、Jogging-1、Lemming、Sharking、Human3)上的追踪效果图,所选的这5个视频序列基本上覆盖了所有的挑战属性.本文用不同颜色、灰度和虚实线的矩形框标识出每种算法在该帧的预测位置.

图4 8种算法在5个视频序列的跟踪效果Fig.4 Tracking effect of 8 algorithms in 5 video sequences

对于视频序列DragonBaby(图4(a)),该场景给跟踪器带来了尺度变化、目标遮挡、运动模糊、离开视野等方面的挑战.由图4(a)中所示,图中目标物体快速移动,在第32帧的时候,MSCF、ARCF、SRDCF已经出现了滤波器学习到大量异常突变信息导致跟踪漂移的情况,而本文引入的时间正则化约束性有效限制了滤波器相邻两帧的一致性,很好地降低了跟踪漂移.在第44帧时,目标物出现了比较严重的运动模糊,本文算法利用背景稀疏约束,避免了对其他背景信息的学习,只有本文算法准确跟踪到目标位置.在第80帧左右,目标物出现了快速旋转、遮挡等问题,所有算法均出现了跟踪漂移.在第113帧时,BACF、ARCF、MSCF、SRDCF由于误差累积,已导致其无法很好地跟踪上目标,而本文算法仍能很好的跟踪到目标.

对于视频序列Jogging-1(图4(b)),该场景主要有遮挡、形变等挑战属性,在第68帧～第85帧之间,画面中靠左的慢跑者在遇到信号杆遮挡后,除了本文算法、SRDCF与BACF算法,其余算法在遇到遮挡后,无法再跟踪到慢跑者.滤波器搜索区域也一直停留在信号杆附近,无法继续对跑者进行特征学习,模型误差一直累积,造成滤波器性能快速退化.

对于视频序列Lemming(图4(c)),该序列具有尺度变化、遮挡、离开视野、平面内旋转等挑战属性.在第121帧时,Staple算法由于使用固定的尺度框,无法很好的满足物体尺度变化需求.而本文独立到的尺度滤波模块有效保证了目标框的大小自适应.在第345帧～第389帧之间,目标物体受到打火机的遮挡,MSCF、Staple、STPLE_CA、SRDCF、ARCF与AutoTrack学习到大面积的遮挡信息后,使得后续跟踪一直停留在遮挡物上,无法再找到目标位置,而本文与BACF算法则正确更新目标位置.在第914帧～第1146帧之间,目标在平面内不断旋转,得益于引入的时间感知信息与尺度估计模块,本文算法很好地对目标外观建模,达到了不错的跟踪效果.

对于视频序列Sharking(图4(d)),该序列具有光照变化、旋转等挑战属性.在第61帧时,画面中出现较大的光照变化,本文算法与BACF能正确跟踪到物体,而光照强度突变导致其它算法在特征提取上学习到丰富的颜色信息,进一步影响到响应图最大值位置.在后续的第131帧与271帧之间,目标出现较大旋转、尺度变化与光照强度的不断变化.除了本文算法与BACF,其余算法不断累积位置误差,进而导致跟踪失败.整体上看,本文算法所使用到的弹性特征提取到一部分比例的HOG特征有效克服了光照变化的影响.

对于视频序列Human3(图4(e)),该场景主要挑战是目标遮挡、背景模糊、形变、尺度变化等.在第10帧与第39帧之间,由于SRDCF等算法其过大的搜索区域导致其学习到较多的背景信息,导致后续目标跟踪丢失.在第39帧～第188帧之间,整个背景比较模糊,且目标行人衣服与信号杆颜色相近,在受到信号杆的遮挡之后,只有本文算法能够一直正确跟踪到目标位置.在后续画面镜头不断缩小放大过程中,分离出来的尺度滤波器能灵活适应行人轮廓,精准估计出尺度大小,使得本文算法保持了跟踪稳定性.

综上所述,本文算法在基准算法BACF上综合性能提升显著,跟踪稳定性和鲁棒性得到了进一步提升.在具体的视频序列上,抗复杂背景干扰能力、尺度估计能力提升得到了很好的验证.

4 结论

为解决BACF在背景干扰、尺度变化、运动模糊、形变、光照变化、目标消失等复杂场景下稳定性和鲁棒性差的问题,本文提出在结合CN特征来提高目标外观模型的鲁棒性,同时引入弹性网络使得模型在线更新的时候能够筛选出相关度高的融合特征,通过对目标区域的稀疏性学习到重要特征信息,较好地提高了滤波器的判别能力.由于BACF算法未考虑到连续两帧间的滤波器一致变化,本文引入时间正则项约束,有效避免了物体快速移动带来的运行模糊、目标遮挡等突变外观信息学习,从而造成滤波器逐渐学习偏移到其它背景上去.实验结果表明,本文算法采用的独立尺度估计滤波器同样采用ADMM算法降低计算时间的同时,提高了尺度估计框的精细程度,在OTB-2015数据集的跟踪性能均优于其他追踪算法.