结合目标不变矩的核相关滤波跟踪算法

2020-09-04 10:46王凯，黄山

计算机工程与设计 2020年8期

王凯，黄山

(四川大学电气工程学院，四川成都 610065)

0 引言

近年来目标跟踪受到了广泛的关注，大量的鲁棒性的跟踪方法被相继提出，而且这些算法能够对一些发生形变和复杂场景中的运动目标进行稳定的跟踪。由于在目标跟踪过程中目标背景的复杂多变性，跟踪过程中通常需要克服目标尺度变化、目标的快速运动、光照影响、旋转、遮挡、背景相似等问题，以保障其稳定性及实时性。

跟踪算法大体上可分为3种：一种是以Meanshift和Kalman Filter[1,2]为代表的经典跟踪算法，一种是基于深度学习的跟踪算法[3-5]，还有一种是基于相关滤波器的跟踪算法[6,7]。由于经典算法无法处理和适应复杂背景下的目标跟踪，所以在相关滤波和深度学习算法出现后被相继舍弃。基于深度学习的跟踪框架目前还在不断发展中，虽然在实际应用中的前景十分广阔，但受限于其庞大的计算量以及对硬件设备的高要求，相比于相关滤波等传统方法在实际应用中还有较大的不足。本文在KCF的基础上针对跟踪过程中的遮挡问题，提出一种自适应的核相关滤波器的目标跟踪算法，引入不变矩特征，以目标前后帧不变矩特征的变化来判断目标是否发生遮挡，进而实现相关滤波器的自适应更新。实验结果表明，本文算法对跟踪过程真的遮挡、运动模糊和旋转等问题有较好的鲁棒性，并满足实时性的要求。

1 KCF跟踪算法

KCF是一种鉴别式跟踪算法，即在跟踪过程中通过循环位移构造大量的训练样本，并利用循环矩阵特性和快速傅里叶变换，避免了训练分类器时相关的矩阵逆运算，从而保证了跟踪的实时性，实现了对目标的快速跟踪。

1.1 岭回归

KCF算法的初始模型是线性回归，即f(x)=<ω,x>+b，其中<.,.>为点积运算，利用训练集X和回归目标y求解目标函数

(1)

其中，λ为正则化参数，用来控制过拟合问题，w为权重。不难求出该最小化目标函数在频域的闭式解为

w=(XHX+λI)-1XHy

(2)

1.2 循环矩阵

对基样本x进行循环采样操作，得到矩阵X，我们可以观察到矩阵X的每一行都由基样本x的循环偏移向量组成

(3)

利用循环矩阵特性，可利用离散傅里叶变换将矩阵X对角化

(4)

(5)

由此，我们可以将方程式(2)中的矩阵逆运算转换为式(5)中的点积运算，这将大幅度降低计算量，是KCF实现实时性跟踪的保证。

1.3 核相关滤波器

为提升分类器的性能，将线性问题的输入映射到高维非线性空间。此时，将w权重表示为输入样本的线性组合

(6)

要优化的参数由w变为对偶空间中的α。引入核技巧φT(x)φ(x′)=k(x,x′)，上文的线性回归问题的最优解就变换为

α=(K+λI)-1y

(7)

其中，K是以Kij=k(xi,xj)为元素的核矩阵，α是由αi组成的向量。K也是循环矩阵，利用循环矩阵的特性将式(7)整理为

(8)

1.4 目标的快速检测

设当前帧输入样本为z,由上一帧得到的目标模型为x，f(z)为输出响应，引入核矩阵K，可以得到所有测试样本的响应

(9)

对式(9)进行傅里叶逆变换即可得到输入样本的响应值，响应值最大的位置就是目标在当前帧的位置。最后，我们利用线性插值法更新分类器参数和目标模型

(10)

式中：i表示当前帧，xi为第i帧预测位置的目标模型；αi为第i帧预测位置的分类器参数；zi为检测得到的目标模型；σi为检测得到的分类器参数；θ为学习率。

2 算法的改进

2.1 不变矩特征的计算及优化

Hu[8]在1962年提出了不变矩特征，也称为Hu不变矩。Hu利用二阶与三阶归一化中心矩构造了7个不变矩，并证明了不变矩在图像发生平移、旋转和尺度变化时，其特征值仍保持不变。Hu不变矩的相关概念如下。

设在尺寸为M×N的二维图像中，坐标为(x,y)处的灰度值为f(x,y)，则该图像的p+q阶几何矩可以表示为

(11)

中心矩表示为

(12)

(13)

归一化的中心矩为

(14)

利用图像的二阶及三阶矩可以构造出7个Hu不变矩，如下所示

A1=z20+z02

A3=(z30-3z12)2+(3z21-z03)2

A4=(z30+z12)2+(z21+z03)2

(15)

Hu不变矩的前3个特征值反映了图像边缘的低频信息，即粗略的整体信息，反映了图像的高频信息，即图像中的一些细节变化。又因为在实际的运动场景中对比度和尺度也会发生变化，为了得到更一般化的特征值，利用文献[9]提出的方法。设f0(x0,y0)和f1(x1,y1)为描述同一物体的图像，它们仅在对比度、尺度、位置和旋转上存在区别，则有

(16)

式中：k为对比度系数，c为尺度变化系数，θ为旋转角度，Tx和Ty为水平位移与垂直位移。利用式(15)计算f0(x0,y0)和f1(x1,y1)的特征值，并将其带入式(16)中，整理化简后得到一组特征值，具有更好的对比度、位移和旋转等不变性，如式(17)所示。其中M1-2反映图像整体信息，M3-6反映图像细节信息。为减少计算量，本文只选用M1-2作为特征值

(17)

本文采用归一化互相关算法来计算相邻帧之间ROI区域的相似度量

(18)

其中，MTk为前一帧的检测区域的不变矩特征，Mk为当前帧检测区域的不变矩特征。

2.2 遮挡问题的处理

KCF跟踪算法采用的是检测跟踪机制(tracking-by-detection)，若目标丢失，跟踪算法会将相关滤波的响应峰值处当作目标继续跟踪，从而导致跟踪失败。由于目标被遮挡后响应峰值会产生明显下降，所以以往的许多文献中利用相关滤波的响应峰值振荡程度来判断目标受遮挡情况。但在一些复杂的运动场景如目标旋转，尺度变换和模糊中，相关滤波的响应峰值也会产生剧烈的振荡，所以只用响应峰值来判断目标的遮挡情况并不合理。

由于不变矩的特征值具有旋转、平移、尺度变换的不变性，所以本文采用式(18)建立遮挡判断机制，通过对比目标在未遮挡和遮挡时，T值的变化情况来判断目标是否被遮挡。实验截取了测试视频中的第1帧，第2帧和第250帧～第253帧的检测区域图像，如图1所示。并分别计算第1帧与其它帧之间的T值，见表1。

图1 目标遮挡过程提取

表1 目标遮挡时不变矩特征值变化

从表1中数据可以看出，当物体发生遮挡时，由于检测区域中出现大面积的遮挡物，导致不变矩特征值发生较大的变化，第252帧处的值可以视为异常值。所以，本文通过T值的变化情况，利用剔除异常值的方法建立遮挡判断机制。

设跟踪置信度为BOUND，当前帧T值为Ti，当前帧和当前帧以前14帧的T值集合为Ui={Ti,Ti-1,…,Ti-14}，则有

(19)

通过分析BOUND值的大小将KCF算法中的学习率θ划分为两个不同的值，即

(20)

2.3 其它改进

由于在光照、视角、方位、噪声等因素的作用下，同一类图像的不同变形体之间的差距有时会大于该类图像与另一类图像之间的差距。所以，我们在提取目标特征之前，预先对检测区域的图像块进行灰度归一化，将图像块转换成唯一的标准形式以抵抗各种变换，从而消除图像块之间的外观差异，灰度归一化表示为

(21)

其中，MN为像素总数，ni为第i灰度级的像素个数，D为最大灰度值。

2.4 算法框架

基于KCF算法，本文所提的具体算法框架见表2。

3 实验

3.1 实验参数

我们在硬件为Intel Core i5-8250U 1.60 GHz 1.80 GHz的PC机，软件为MATLAB2016的实验环境中测试算法。我们利用Wu[10]等提出的目标追踪测试平台OTB-2015中的视频序列对本文所提算法进行评估。算法中学习率的调整如式(16)所示，采样窗口尺寸调整为目标尺寸的2.8倍，φ值设置为3.001，其余参数设置与KCF算法相同。

3.2 实验效果

我们利用KCF算法与本文所提算法作对比，进行效果展示。

表2 改进的遮挡处理算法框架

图2中，图2(a)、图2(b)为目标被遮挡的场景中，两种算法的跟踪结果；图2(c)、图2(d)为目标在运动模糊的场景中，两种算法的跟踪结果。每幅图上方标示着对应的帧数。从图2中不难看出，本文算法在大部分视频序列中取得了较好的跟踪效果，当目标发生严重遮挡和动态模糊时，具有较强的鲁棒性。

3.3 实验数据

为了准确评估本文算法的性能，采用Wu等提出的一次通过性评估(one-pass evaluation，OPE)和时间鲁棒性评估(temporal robustness evaluation，TRE)选取精度图和成功率图两个评估标准。

图2 实验结果展示

精度图(precision plot)为：跟踪算法估计的目标位置的中心点与人工标注的目标中心点，这两者的欧式距离小于给定阈值的视频帧数与总帧数之比。本文设定阈值为20个像素点。成功率图(success plot)，记跟踪算法得到的目标框为s1，人工标注的目标框为s2。则重合率定义为

(22)

其中，|·|表示区域的像素数目。当某一帧的重合率大于给定阈值时，该帧被视为跟踪成功。总的成功帧数与总帧数之比即为成功率。本文设定阈值为0.5。

本文采用OTB-2013中的50组视频序列对本文算法和OTB-2013数据库排名靠前的KCF、MOSSE、CSK、ASLA、CXT、SCM和Struck算法进行对比。

以OPE作为评价标准，如图3所示，其中本文算法表示为Our。在0.5处的成功率，本文算法比KCF高10.8%。在20像素内的精度，本文算法比KCF高7.4%，排名第一。

由于某些算法对第一帧给定的初始位置比较敏感，不同的初始位置会对算法性能造成比较大的影响，并且大多数算法跟踪失败后没有初始化机制。针对上述问题，引入TRE评估标准，结果如图4所示，本文算法与KCF算法基本持平。在0.5处的成功率，本文算法比KCF高2.3%，在20像素内的精度，本文算法比KCF高0.6%。

为了进一步分析本文算法的跟踪效果，采用OTB-2013数据集中所列的11种不同的场景，对本文算法与上文中的其它7种算法进行详细对比。

图5实验数据表明，本文算法在运动模糊、形变、平面内旋转、遮挡和平面外旋转的场景中均排名第一。与KCF算法相比，本文算法在0.5处的成功率分别提升了27.7%、25.6%、1.1%、18.8%、10.2%，在20像素内的精度分别提升了22.3%、16.9%、4.2%、10.8%、6.47%。综上所述，本文算法，相较于KCF算法在遮挡、运动模糊等复杂场景中的跟踪效果有了明显的提升，具有较强的鲁棒性。

图4 各跟踪算法TRE的成功率和精度

4 结束语

本文针对传统KCF算法在目标严重遮挡，运动模糊等场景中跟踪失败的问题，进行改进。对目标检测区域进行图像归一化，消除灰度因素(光照等)造成的目标外观变化。提取每一帧目标检测区域优化后的不变矩特征值，并根据归一化后的特征值判断目标的受遮挡情况。根据不同的遮挡情况调节学习率。利用OTB-2013数据集，对本文算法进行评估，并与多种主流算法进行实验对比。本文算法比KCF算法，在精度上提升了7.4%，综合性能也有了明显的改善，在这几种算法中排名第一。本文算法缺少尺度变换估计、更鲁棒的损失函数以及对目标背景信息的有效利用，希望能在未来的工作中对本算法有所改善。

图5 不同场景中OPE的成功率和精度