基于高效卷积算子的异常抑制目标跟踪算法

2021-07-26 11:56苏超群朱正为郭玉英

计算机工程 2021年7期

苏超群，朱正为，郭玉英

（西南科技大学信息工程学院，四川绵阳621010）

0 概述

目标跟踪是机器视觉领域的重点研究内容之一，其广泛应用于智能监控、智能交通控制、飞行器跟踪等众多领域［1-3］。在目标跟踪过程中，目标通常会受到光照变化、尺度变化、背景干扰、目标形状旋转、遮挡等干扰的影响，因此，如何快速精准地进行目标跟踪成为国内外研究者们关注的热点问题。

近年来，相关滤波算法越来越多地被应用于目标跟踪，这不仅催生出许多改进的相关滤波算法，也促使目标跟踪技术取得突破性进展。文献［4］设计出MOOSE 相关滤波器，利用输出误差平方和损失函数训练滤波器来实现目标跟踪。文献［5-6］在MOSSE 相关滤波器的基础上引入循环矩阵和核函数，解决了稀疏采样造成的样本冗余问题。文献［7］将多通道的颜色属性引入CSK 算法中，使其具有对彩色视频的跟踪能力。文献［8］提出一种DSST 算法，分别利用位移相关滤波器和尺度相关滤波器实现目标的尺度自适应跟踪。文献［9-10］将单一特征扩展为多种特征，针对多特征尺度自适应滤波器，利用尺度池的方法实现目标自适应跟踪。文献［11］采用连续卷积方法将不同空间分辨率的特征图进行整合，可更准确地实现目标跟踪。文献［12］利用分解卷积算子和样本的紧凑生成模型解决计算复杂及过度拟合问题，提高了计算速度和算法鲁棒性。文献［13］采用多通道图像表示特征组合的选择方法提高DCF跟踪器性能。

由于相关滤波算法利用循环矩阵在频域中进行计算会产生边界效应，从而影响到目标跟踪性能，因此研究人员采用多种方法来克服边界效应。文献［14］引入空间权重函数增强目标样本对滤波器的影响，进而弱化边界效应的作用。文献［15-16］将目标背景信息作为负样本扩大搜索区域，从而降低边界效应的影响。文献［17］将空间正则化和时间正则化引入DCF 框架中，不仅减少了边界效应影响，还提升了算法的成功率。文献［18］通过为正样本采样训练相关滤波器和引入空间惩罚来抵消由过多背景信息引入的噪声，从而消除边界效应对目标跟踪结果的影响。此外，针对跟踪过程中因目标旋转、遮挡、光照变化等导致的响应图突变问题，文献［19］提出一种基于循环特征图的跟踪方法，通过在训练阶段验证响应图质量来判断是否更新滤波器，在一定程度上消除了响应图突变的影响。文献［20］将多个相关滤波器集成为一个网络，为每一帧响应图训练神经网络，并在下一帧响应图中选择合适的相关滤波器，以避免响应图突变的问题。文献［21］在背景感知滤波器的基础上加入响应图变化率，有效减少了响应图异常问题。文献［22］引入局部响应图变化情况使更多正样本用于训练滤波器，并基于整体响应图变化情况来判断是否更新滤波器。上述方法虽然针对响应图突变进行了改进，但其在抑制响应图的异常上作用有限。

为解决边界效应和响应图突变问题，本文提出一种基于高效卷积算子（Efficient Convolution Operator，ECO）的目标跟踪算法。在训练相关滤波器时引入空间惩罚和响应图变化率，使其在更大的搜索区域消除边界效应的影响，同时抑制响应图突变，并将本文算法与多种算法在OTB100 数据集上的目标跟踪性能进行对比和分析。

1 ECO 目标跟踪算法

ECO 目标跟踪算法（以下称为ECO 算法）是在C-COT 跟踪算法的基础上，利用因式分解卷积方法减少训练模型的参数量，以提高滤波器训练速度，并采用高斯混合模型生成紧凑且多样化的样本，改变了模型更新策略，从而降低过度拟合的风险和计算复杂度，提高了算法的鲁棒性。

1.1 多分辨率插值处理

ECO 算法基于M个训练样本来训练卷积滤波器。每个特征层有独立的分辨率Nd。通过引入运算符Jd得到的插值模型，将特征图转移到连续空间域t∈[0,T)，相关表达式如下：

其中：bd是周期T＞0 的插值内核，Jd{xd}是周期为T的周期函数，也是一个插值特征层。

通过训练一个连续的T周期多通道卷积滤波器f=(f1,f2，…,fD)来计算目标的响应值Sf{x}(t)，其表达式为：

其中：J{x}表示整个插值特征图。

1.2 样本空间模型生成

ECO 算法使用高斯混合模型（Gaussian Mixed Model，GMM）的不同分量来代替样本，每个分量对应一组相似样本，不同分量之间差异性较大。

通过样本特征图x及其相应响应输出值y的联合概率分布p(x,y)，确定使期望相关误差最小的滤波器，表达式如下：

其中：期望E在联合样本概率分布p(x,y)上取值，ω为解决边界效应的惩罚因子（定义在连续空间上）。样本分布为训练样本(xj,yj)的狄拉克脉冲函数。

假设目标在图像区域的中心位置且所有y=y0均相同，则样本分布可分解如下：p(x,y)=p(x)δy0(y)。采用高斯混合模型使，I为单位矩阵，L为高斯分量的数量，πl为高斯分量的权重，μl为高斯分量的平均值。

当更新模型时，针对每个新样本xj，初始化一个新分量m，其中，πm=υ，μm=xj，υ为学习速率。如果模型数量超过限制L，则丢弃权重πl小于阈值的模型；否则将两个最近的分量k和l合并为一个公共分量n，表达式如下：

因此，最小化目标函数表达式可转化为：

其中：样本数量从M减少到。

1.3 因式分解卷积算子

ECO 算法采用分解卷积的方法减少模型参数量，通过因式卷积操作后，得到目标响应值如下：

其中：P为D×C的矩阵，PT为线性降维算子，pd,c为滤波器的学习系数，是由特征层d的滤波器和pd,c构成的线性组合。

2 本文算法

本文算法是将抑制异常与相关滤波器的训练相结合，为了抑制异常，首先对异常进行识别。引入欧几里得范数定义两个响应图M1和M2的差分水平如下：

其中，p和q分别为二维空间两个响应图中峰值的位置差，[φp,q]表示使两个峰值彼此重合进行的移位操作。当发生异常时，两个响应图相似度会突然下降，式（7）的值会变大，因此可通过判断式（7）的值来判断是否发生异常。

为抑制训练过程中的偏差，对训练目标进行优化使目标函数最小化，表达式如下：

其中：k和k-1分别表示视频序列的第k帧和第k-1帧；式（8）等号右侧第3 项是限制响应图异常的正则化项；引入参数γ作为异常惩罚，将γ设置为0.7。变换和优化部分通过式（8）转换到频域内进行，以便在训练相关滤波器时进行异常抑制。

式（8）通过ECO 算法保留矩阵P并降低模型数量，使模型从D维降低到C维，同时保留惩罚因子ω以减少边界效应的影响。

2.1 优化算法

为训练滤波器f，需最小化傅里叶域中函数（见式（8））。由傅里叶分析结果可以看出，由和z=J{x}可得到插值后特征图的傅里叶系数，通过xd利用离散傅里叶变换的线性和卷积性质获得Xd[k]，进而得到输出响应函数（见式（2））的傅里叶系数，将其代入式（8）得到：

本文采用高斯-牛顿法进行迭代，并使用共轭梯度法优化二次子问题。高斯-牛顿法是通过展开一阶泰勒级数来实现式（9）中残差线性化。当前估计值周围的双线性项ˆ可近似表示为：

迭代i的高斯-牛顿子问题是通过将式（10）的一阶近似值代入式（9）而得到，表达式如下：

式（11）是线性最小二乘问题，采用共轭梯度法对每个高斯-牛顿子问题进行优化以获得新滤波器和矩阵增量ΔP*，将滤波器和矩阵估计值分别更新为和Pi+1=Pi+ΔP*。由于滤波器的适应性，仅从第一帧就可得到矩阵P，且矩阵P在第一帧之后是恒定的。

2.2 模型和尺度的更新

为避免连续更新模型导致计算量增大，本文算法采用和ECO 算法类似的稀疏更新方案，仅当目标发生一定程度的变化时才更新模型，而并非在每一帧图像都以连续方式更新模型。通过每个第N帧图像来更新滤波器，参数NS为滤波器的更新频率，在每个第NS帧图像中，执行固定数量的NCG共轭梯度迭代次数来改进模型，该稀疏更新模型可使每帧CG 迭代的平均数量减少到，本文中NS=6，以减少更新滤波器增大的计算量，降低计算复杂度，从而有效实现算法加速。

2.3 算法流程

本文提出的抑制响应图突变的跟踪算法流程如图1所示，具体步骤如下：

图1 本文算法流程Fig.1 Procedure of the proposed algorithm

1）输入视频序列，获取目标的位置信息和尺度。

2）从视频序列第一帧图像中提取目标并提取其特征，计算搜索区域和初始化比例因子，初始化相关滤波器，形成目标区域的初始样本集。

3）对初始样本集进行高斯混合模型处理以获取样本的紧凑模型。

4）对相关滤波器进行卷积分解，获取基本滤波器的紧凑集合。

5）获取新一帧多分辨率特征图，分别与滤波器卷积后将所有响应图加权得到最终响应图。

6）通过所得响应图的值M2与前一帧响应图的值M1计算出变化率φp,q。

7）将响应图的值最高的区域作为当前帧中的目标位置，并用跟踪框标记。

8）将步骤7 中目标位置所在区域作为样本集并用式（8）训练下一帧图像的滤波器。

9）循环执行步骤3～步骤8 直到视频序列的最后一帧图像结束。

3 实验与结果分析

本文使用MATLAB R2018b 软件进行仿真实验，采用Inter Core i5-8400 计算机，主频为2.80 GHz，操作系统为windows10。实验使用VGG-m网络中第一个卷积层（Conv-1）和最后一个卷积层（Conv-5）的特征组合。测试集使用目标跟踪算法评估的数据集OTB100，该数据集包含光照变化、尺度变化、遮挡或半遮挡、快速运动等多种复杂情况。

本文采用一次测试的实验结果，通过距离精度曲线和成功率曲线对算法性能进行评估。距离精度曲线计算中心位置误差低于某个阈值的帧数占所有帧数的百分比，本文设定像素阈值为25。成功率曲线用于计算跟踪重叠率大于某个阈值的帧数占所有帧数的百分比，其中跟踪重叠率指目标跟踪框与真实目标框的重叠面积与后者总面积的比值，本文设定跟踪重叠率阈值为0.5。以每秒平均帧数表示算法的跟踪速度。

3.1 不同算法性能对比

将本文算法和KCF 算法、SRDCF 算法、BACF算法、ECO 算法、ARCF 算法、GFSDCF 算法在OTB100 数据集上的目标跟踪性能进行对比和分析。

上述7种算法在100组视频序列上的成功率曲线和距离精度曲线如图2所示。由图2可知，本文算法的成功率和距离精度在7种算法中均为最高，分别是80.2%和86.4%，较GFSDCF算法分别高1.0个百分点和0.2个百分点，较ECO算法分别高3.1个百分点和1.9个百分点，较BACF算法分别高4.0个百分点和5.5个百分点，较ARCF算法分别高5.9个百分点和7.4个百分点，较SRDCF算法分别高8.5个百分点和8.6个百分点，较KCF算法分别高25.7个百分点和17.6个百分点。由此可见，增加抑制响应图突变后的ECO 算法优于改进前的ECO 算法。

图2 7 种算法在OTB100 数据集上的成功率曲线和距离精度曲线Fig.2 Success rate curve and distance accuracy curve of seven algorithms on OTB100 dataset

上述7 种算法在6 组视频序列中的跟踪速度如表1所示。由表1 可见，KCF 算法的平均跟踪速度最高，达到80.4 frame/s，其次是ECO 算法，平均跟踪速度为33.63 frame/s，本文算法平均跟踪速度为22.98 frame/s，较ECO 算法少10.65 frame/s，但成功率和距离精度却优于ECO 算法。成功率和距离精度排第二位的GFSDCF算法平均跟踪速度较慢，仅为7.96 frame/s。

表1 7 种算法在不同视频序列中的跟踪速度Table 1 Tracking speed of seven algorithms in different video sequences （frame·s-1）

图3～图6 为上述7 种算法分别在human3、lemming、shaking 和bird1 视频序列中的定性测评结果（彩色效果参见《计算机工程》官网HTML 版）。在human3 视频序列中（见图3），当存在与目标非常相似的干扰物（见图3（a））和遮挡（见图3（b）～图3（e））时，只有本文算法和ECO 算法能准确跟踪目标，其他算法均无法准确跟踪目标。从第88 帧图像开始，除了本文算法和ECO 算法，其他算法均跟踪失败。本文算法由于引入响应图异常抑制框架，因此能准确跟踪目标。在lemming 视频序列中（见图4），当目标被遮挡（见图4（a）和图4（b））时，SRDCF 算法、ARCF 算法和KCF 算法跟踪失败，当目标存在运动模糊、旋转、超出视野外（见图4（c）和图4（d））时，ECO 算法、GFSDCF 算法和BACF 算法跟踪效果较差，不能完全跟踪目标，本文算法在上述情况下均能准确跟踪目标。在shaking 视频序列中（见图5），当目标受到光照变换、背景杂波的影响（见图5（a）和图5（b））时，SRDCF 算法、ARCF 算法和KCF 算法目标跟踪失败，而目标发生旋转（见图5（c）和图5（d））后，其他算法跟踪效果均较差，仅本文算法跟踪效果较准确。在bird1 视频序列中（见图6）：当目标出现快速移动和形变（见图6（a））时，SRDCF 算法和KCF 算法目标跟踪失败，其他算法跟踪效果良好；当目标存在运动模糊和超出视野范围（见图6（b）和图6（c））时，只有GFSDCF 算法和本文算法能继续进行目标跟踪，其他算法均目标跟踪失败；从图6（d）可明显看出本文算法的跟踪效果较GFSDCF 算法更好。

图3 7 种算法在视频序列human3 中的测评结果Fig.3 Evaluation results of seven algorithms in video sequence human3

图4 7 种算法在视频序列lemming 中的测评结果Fig.4 Evaluation results of seven algorithms in video sequence lemming

图5 7 种算法在视频序列shaking 中的测评结果Fig.5 Evaluation results of seven algorithms in video sequence shaking

图6 7 种算法在视频序列bird1 中的测评结果Fig.6 Evaluation results of seven algorithms in video sequence bird1

7 种算法在不同干扰因素下的目标跟踪成功率如表2所示。由表2 可见，在相似背景、快速运动、尺度变化、形态变化、遮挡、运动模糊的情况下，本文算法的目标跟踪成功率均最高，在其他情况下目标跟踪成功率仅较表现最好的算法略低。在光照变化、平面外旋转、平面内旋转、视野外、低分辨率的情况下本文算法的目标跟踪成功率分别比表现最好的算法GFSDCF 低0.3 个百分点、3.7 个百分点、1.4 个百分点、7.7 个百分点和6.8 个百分点。在所有干扰因素中，本文算法的目标跟踪成功率仅在低分辨率情况下低于ECO 算法，在多种环境下本文算法较ECO算法具有更高的目标跟踪成功率。

表2 7 种算法在不同干扰因素下的目标跟踪成功率Table 2 Target tracking success rates of seven algorithms under different interference factors

3.2 本文算法与ECO 算法对比

将本文算法和ECO 算法对human3 和lemming两组视频序列的跟踪结果进行对比，通过比较前一帧响应图和当前响应图之间的差值来判断跟踪效果，响应图差值越小表明跟踪效果越好，结果如图7所示。图7（a）是视频序列human3 前200 帧响应图的差值曲线，从整体上来看，本文算法的响应图差值较ECO算法更小。当第53帧～第67帧、第118帧～第130帧图像中目标被遮挡时，ECO 算法的响应图差值显著变大，而本文算法的响应图差值明显更小，目标跟踪效果更好。图7（b）是视频序列lemming 第1 000 帧～第1 300 帧响应图的差值曲线，可以看出第1 020 帧响应图中目标在平面内旋转、快速移动和运动模糊时，ECO 算法的响应图差值变化较大，而本文算法的响应图差值远比ECO 算法的响应图差值更小，目标跟踪效果更好。

图7 2 种算法对2 种视频序列的响应图差值曲线Fig.7 Response graph difference curves of two algorithms for two video sequences

4 结束语

本文提出一种改进的ECO 异常抑制目标跟踪算法。在ECO 目标跟踪算法的基础上，将异常抑制与训练相关滤波器相结合，通过引入前一帧响应图变化率来限制响应图异常变化，以防止跟踪过程中目标发生漂移。在OTB100 数据集上的实验结果表明，在光照变化、尺度变化、平面内旋转、平面外旋转、背景杂波等干扰下，本文算法较其他相关滤波算法成功率更高。后续将对不同目标特征进行融合，进一步优化算法的跟踪性能。