融合多层深度特征的核相关滤波跟踪算法①

2020-03-31 12:17李国友纪执安张凤煦

高技术通讯 2020年2期

李国友纪执安张凤煦

(* 燕山大学电气工程学院秦皇岛 066004 )

0 引言

目标跟踪技术是计算机视觉的重要分支，随着科学技术的发展，其在多个领域广泛应用[1]，如智能视频监控、人机互动、手势识别、虚拟现实等[2]。通常目标跟踪算法根据第1帧目标框的信息，跟踪整个视频序列感兴趣的区域。但在实际应用中，由于光照、目标旋转、遮挡等干扰[3]，跟踪过程中会产生漂移，甚至会跟丢标定目标。因此，设计一个鲁棒的目标跟踪算法是众多学者追求的热门课题。

传统的跟踪算法主要是对目标建立有效决策模型和提取有用的外观特征，提取的目标特征多为灰度、颜色、方形梯度直方图(histogram of oriented gradient，HOG)特征等[4]，统称为人工提取特征。相关滤波目标跟踪算法，如最小输出和的平方误差滤波跟踪[5](minimum output sum of squared error filter，MOSSE)、循环结构核的目标跟踪[6](circulant structure kernel，CSK)均是先对目标进行提取人工特征，然后通过分类器进行训练，最后完成对目标的跟踪。在相关滤波算法中，最为出色的就是Henriques等人[7]提出的核相关滤波算法(kernel correlation filter，KCF)，KCF通过循环矩阵和岭回归分类器[8]训练一个目标检测器，来判断目标的位置。

但人工特征仅仅能直观获得目标的外观信息，不能很好捕捉目标的语义信息[9]，对复杂环境下的目标跟踪不具有鲁棒性。最近，卷积神经网络[10](convolutional neural network，CNN)在计算机视觉领域有了突破性进展，其能对图像信息进行更深层次的数据挖掘，主要应用于图像分割、动作识别[11]、图像分类。在目标跟踪中，基于CNN的深度特征跟踪算法也相继提出。文献[12]中，Danelljan等人很早将卷积特征应用在相关滤波器框架中，和标准人工特征相比，卷积特征提供了更好的跟踪效果。Mozhdehi等人[13]结合卷积特征图，通过粒子滤波器估计标定目标的大小和位置。Zhang等人[14]在自表达相关估计方法的基础上，提出了一种新的主动半监督学习方法。尽管现有的CNN跟踪器实现了最先进的性能，但仍然有一些局限性，这些算法中的大多数只使用CNN的单层卷积特性来表示目标对象。因此，为了获得更好的跟踪性能，必须将不同卷积层的特性结合起来，以最优方式表示前景对象，并将其与背景杂波分离。

本文受KCF算法和深度特征的启发，基于KCF框架，提出了以下3种改进。(1)利用ImageNet上训练好的VGG-2048 2个卷积层(conv3和conv6)，学习其中深度特征，其后用岭回归分类器分别训练不同卷积层的深度特征，依次得出置信度得分，接着依据得分高低将2种特征加权相连，实现特征的重复利用，用融合后的多层深度特征代替KCF中的人工特征(HOG特征)。同时引入了第1帧目标的丰富信息，得到最终的位置输出响应。(2)对于目标跟踪中的全遮挡问题，设计一个抗遮挡机制，通过波峰震荡程度判断目标遮挡，当视频相邻2帧的峰值小于给定阈值时，停止对模型更新，最终实现对跟踪目标的精准定位。(3)对于目标跟踪过程中的尺度变化，本文通过双线性差值建立了6个深度特征尺度池，利用分类器进行训练，得到的最大响应即为目标的最佳尺度。

1 KCF算法分析

核相关滤波算法(KCF)是一种鉴别式跟踪算法，其主要创新是通过循环矩阵结构提高目标跟踪速度和识别能力[15]。如图1所示，算法主要流程如下：确定跟踪区域后提取其HOG特征，在频域中，对每个特征通道进行加权余弦窗口操作[16]。引入多项核函数匹配目标区域和待选择区域，选取响应峰值最高的得分即为跟踪目标。

图1 KCF流程框图

1.1 岭回归分类器训练

设训练集样本(xi,yi)，其线性函数表示为f(xi)=wTxi，训练的目的是通过样本xi找到一个分类器w让回归目标y最小，让岭回归发挥最大性能，其中最小输出误差公式为

(1)

其中λ用于控制系统的复杂性，保证分类器的泛化性能，后导出分类器w：

w=(XHX+λI)-1XHy

(2)

其中，X为样本矩阵，y为回归目矩阵，I为单位矩阵。

上述方程为线性计算，可降低存储和计算复杂性数量等级来提高跟踪器速度。对于非线性计算，引入映射函数φ(x)，使原本线性回归转化为非线性回归问题，得出：

(3)

利用循环矩阵和离散傅里叶变化，可得核化的最小二乘解为

(4)

式(4)中核函数k可用下式表示：

(5)

其中σ为带宽，x为检测样本。

1.2 快速检测

每次更新目标的位置，岭回归分类器w以m×n的窗口来搜索候选区域z，其为目标的概率分布公式为

(6)

其中f(z)表示包含z的所有循环位移输出向量，kxz表示x和z的核相关，f(z)得到的最大值即为跟踪目标。

1.3 模型更新

为满足目标过程中的变化，需要对外观模型x和分类器系数a实时更新，更新公式如下：

xi=(1-η)xi-1+ηxi

ai=(1-η)ai-1+ηai

(7)

其中，xi和xi-1分别为当前帧和上一帧的目标特征模型，ai和ai-1是当前帧和上一帧的系数矩阵，η为学习系数。

2 融合多层深度特征的抗遮挡KCF算法

在目标跟踪算法中，相比于传统的手工特征(如颜色、形状、梯度)提取，深度特征具有很好的学习能力。但单层卷积网络提取的深度特征不能处理目标本身发生的巨大变化，在恶劣环境下会产生响应峰值偏移，进而跟丢目标。为了得到期望的峰值响应和目标准确位置，本文基于KCF框架，利用低层卷积特征(conv3)的位置信息和高层卷积层特征(conv6)的语义信息，将2种特征进行加权处理后相连，实现特征的重复利用。同时，引入了第1帧目标的残留信息并加入了尺度池，最终获得目标的位置和尺度，图2为本文算法总体思路图。

2.1 融合响应输出

鉴于CNN中进行池化操作会影响目标特征图的尺寸，更深层次的卷积层，会降低空间分辨率，缩小目标的尺度，导致无法对目标进行准确定位。因此，可利用双线性插值法[17]调整目标特征图的大小：

(8)

图2 融合多层深度特征的抗遮挡KCF算法框图

其中，h是池化操作前的初始特征图，τ由相邻两特征向量i和k的位置决定，x是经双线性插值处理后的特征图。由2.2节中的公式可知，单层深度特征在频域中的响应为

(9)

在特征融合的过程中，随着卷积层的增加，深度特征会赋予不同的权重系数，越深层的特征往往会得到更大的置信度。低层卷积特征(conv3)和高层卷积层特征(conv6)响应叠加为

(10)

其中，Ω为融合双层深度特征的响应，wi为不同卷积层特征的权重系数。

由于目标跟踪过程中，第1帧的目标信息往往最丰富，因此，引入了第1帧中的目标残留信息，能得到最出色的响应输出：

(11)

其中，ψ为加入第1帧信息的响应输出，x1是第1帧目标的深度特征，f1为第1帧目标的频域响应。

2.2 抗遮挡处理

针对目标追踪过程中半遮挡、全遮挡等干扰问题，本文引入一个遮挡判断机制。如图3所示，在KCF跟踪中，每个跟踪目标对应一个高斯标签响应。在目标未遮挡时，响应图震荡平缓，仅出现一个峰值，在目标遮挡时响应图震荡剧烈，出现多峰值。可以根据峰值来判断指定跟踪目标是否被遮挡。

图3 有无遮挡波峰震荡图

根据文献[18]，得出下式计算波峰震荡程度：

(12)

(13)

2.3 尺度处理

在实际跟踪过程中，外界环境的干扰会使目标的尺度发生变化。KCF的跟踪框是固定的，其不会随着目标的大小而改变。为此在每个卷积层下，本文通过双线性插值调整深度特征图大小M×N，建立从小到大6个尺度作为尺度池S={s1,s2,s3,…,s6}，将每个尺度通过岭回归分类器训练，得到最大的响应即为目标尺度：

(14)

其中，i为卷积层数，j代表目标从低到高的尺度数，y为频域中的尺度响应。

3 实验分析

3.1 实验环境设置

本实验的硬件环境为内存为8GB，Inter(R)Core(TM) i5-44600(3.20Hhz)的CPU台式机，使用了Matlab2015b作为软件平台进行仿真。实验参数设置为：遮挡阈值L=27，第3层和第6层的卷积特征权重系数w={0.8, 0.5}，规则化范数λ=1×10-4。

3.2 定量评价

为了验证本文改进的算法，主要利用中心位置误差和重叠率2个计算公式。中心位置误差公式定义为

(15)

其中，(xi,yi)表示实际跟踪的目标位置，(xs,ys)表示标准跟踪的目标中心位置，CLE值越小，表示跟踪效果越好。

重叠率公式定义为

(16)

其中，ROIT为实际的跟踪窗口，ROIG表示标准的跟踪窗口。OR值越大，表示跟踪越佳。

实验中采用的测试集为OTB-2015中的100个标准集视频序列，所对比的算法为KCF、CN[19]、fDSST[20]、Staple[21]等35种跟踪算法，实验指标为OTB-2015中的精确率图和成功率图。精确率图是中心位置误差(CLE)小于指定阈值的帧数占视频序列总帧数的百分比，本次阈值设定为20像素。成功率图指的是重叠率(OR)值大于阈值的帧数占视频序列总帧数的百分比，本次阈值设为0.5。表1为6种跟踪算法在OTB-2015测试集中选取的7个具体视频序列的成功率数值，从表中看出，除了Jogging和CarScale视频序列外，本文提出的算法(OWN)在其他5个视频序列(MotorRolling 、David、CarScale、Couple、Coke)中，平均跟踪成功率最大，整体平均成功率为0.85，相对于其他对比的跟踪算法，为最大值，对目标跟踪效果出色。

图4 OPE精确度图和成功率图

表1 跟踪算法平均成功率

KCFfDSSTSTCTLDMEEMOWNJogging0.290.350.310.780.850.81MotorRolling0.220.310.320.260.290.76David0.750.790.320.510.850.87CarScale0.770.880.510.540.810.83Couple0.710.610.270.330.860.90Coke0.290.180.410.440.820.86Basketball0.910.900.430.520.930.95Average0.560.570.370.480.770.85

如图4所示，本次实验仅显示排名前10的跟踪算法。粗实线(OWN)代表融合多层深度特征的KCF算法，从精确率图看出，本文改进算法其精确率达到了83.8%，相比原KCF提高了16.8%。从成功率图看出，改进算法成功率为70.2%，比原KCF算法提高了21.4%。在成功率和精确率2个指标中，改进的KCF算法相比于其他35种跟踪算法，均排名第1。表2为8种跟踪算法的跟踪速度，可看出KCF算法速度最快，跟踪实时性最好，本文算法虽然跟踪精度高，但fps仅为2.5。

表2 8种跟踪算法速度比较

3.3 定性评价

本文了选取Benchmark网站上的MotorRolling、David、Jogging、Carscale 4个视频序列进行实验，如图5所示，这些视频包括多种复杂环境，如目标旋转、光照、遮挡、尺度变化等干扰条件。并与DFT、KCF、fDSST、TLD、Staple 5种现有的跟踪算法进行对比。以下是不同场景下不同跟踪算法的实际效果分析。

(1) 快速运动及旋转

在MotorRolling视频中，所跟踪的摩托车进行了旋转高速运动，目标轮廓发生变化，第36帧时，只有本文算法精确跟踪，其余算法均对目标发生漂移。在第71帧时，改进的KCF算法对目标发生局部漂移，但整体上能稳定跟踪摩托车目标。

(2) 尺度变化

在David和CarScale序列中，涉及目标尺度问题。David中，目标所处的环境由暗到亮，6种目标跟踪算法均能跟踪目标脸部特征，本文算法虽然大致能随指定目标进行尺度变化，但尺度上表现最为出色的是fDSST算法。在CarScale中，138帧前，所对比跟踪算法均能稳定跟踪目标，在第252帧时，TLD算法跟丢目标，KCF算法没有发生尺度变化，其余算法虽然对跟踪车辆进行了尺度变化处理，但都表现得不太出色，跟踪框没有和车辆大小保持一致。

(3) 遮挡物干扰

在Jogging视频序列中，目标在71帧时遇到了遮挡物，在第109帧时，目标离开遮挡物时，只有本文改进跟踪算法、TLD算法、Staple算法能继续跟踪目标，其余跟踪算法发生不同程度的漂移现象。

图5 不同跟踪算法比较图

4 结论

为解决目标在复杂环境下的跟踪问题，本文在KCF的基础上融合了多层深度特征，在频域中，将两者深度特征加权相连，通过岭回归分类器训练，同时，引入了第1帧目标的丰富信息，获得最终的响应位置。针对目标跟踪中的遮挡干扰，利用响应峰值变化，当物体受到遮挡时，响应峰值会出现抖动多峰值的情况。因此，根据相邻两帧之间的峰值变化，来判断目标是否受到障碍物的干扰，若有遮挡物，则停止对模型的更新。对于跟踪中的尺度变化问题，通过双线性插值提取不同大小的深度特征，建立尺度池，得到目标最佳尺度。最后将改进的KCF算法在OTB-100上进行测试，证明本文改进算法能处理跟踪过程的旋转、遮挡、尺度变化等问题，但跟踪算法实时性还有待进一步改进。