一种快速鲁棒的加权压缩跟踪方法

2018-06-08 10:03李玄刘倩玉

科技视界 2018年8期

李玄刘倩玉

【摘要】基于视觉的目标跟踪是计算机视觉的一个重要应用，对于视觉跟踪系统来说，跟踪算法的性能极为关键。本文提出了一种快速鲁棒的压缩跟踪方法，这种方法通过检测的方式来实现跟踪，即它通过在每一帧检测目标来实现对目标的持续跟踪。加权压缩特征的使用使得算法在存在遮挡的情况下效果很好，同时极限学习机的使用保证了跟踪速度的提升。实验结果表明算法的跟踪准确度很高，速度快，鲁棒性好，特别适用于一些存在着快速运动以及遮挡的场合。

【关键词】目标跟踪；加权压缩特征；极限学习机

中图分类号： TP391.4 文献标识码： A 文章编号： 2095-2457（2018）08-0022-003

A fast and robust weighted compressive tracking method

LI Xuan1 LIU Qian-yu2

（1.Xi'an Institute of Navigation Technology，Xi'an 710068，Shaanxi，China；

2.Xi'an Microelectronic Technology Institute，Xi'an 710000，Shaanxi，China）

【Abstract】Visual tracking system plays an important role in various computer vision applications. The tracking algorithm is very crucial for visual tracking system. A robust weighted compressive tracking method is proposed in this article. The proposed algorithm belongs to tracking by detection methods which regards tracking as detecting target in each frame. The use of weighted compressive features benefits the circumstance of occlusion while ELM guarantees the tracking speed of the algorithm. The experiment shows that the algorithm has good performance in terms of efficiency， accuracy and tracking speed. It is very robust and efficient in the case of abrupt movement and occlusion.

【Key words】Target tracking；Weighted compressive features；Extreme machine learning

0 摘要

视觉跟踪是计算机视觉的一个重要应用，很多场合都用到视觉跟踪，比如说监控、火控系统、车辆导航、智能机器人、行为识别以及导弹制导。对摄像机中的目标进行跟踪是一项富有挑战性的工作，主要是由于以下三个因素：（1）跟踪系统需要对目标的姿态变化、旋转以及遮挡具有很强的鲁棒性；（2）跟踪系统应该能够有效应对相机或者目标的突然运动；（3）跟踪系统应该能在一些对实时性要求较高的场合具有很好的表现。

通常来说，跟踪系统应该包含以下三个要素：外观模型、运动模型以及在当前帧搜寻目标位置的策略。本文主要关注的是外观模型。它是由物体的表现模型和统计模型两部分构成。物体的表现模型主要关注的是如何用不同的特征去设计一个鲁棒的特征描述子。统计特征模型研究的是如何根据特征描述子用一些统计学的方法去搜寻目标位置。

视觉跟踪领域的物体表现模型可以被分为2类：全局特征描述方式和局部特征描述方式。全局特征描述方式模拟的是对象外观的整体特征。原始像素值和颜色直方图比较简单有效，是两种使用最为广泛的全局特征描述子。例如，均值漂移[1-3]使用颜色直方图来查找下一帧的目标位置。和全局特征描述方式不同，Haar-like 特征或Hog特征等局部特征描述方式在光照变化、姿态改变以及非刚性形变中表现良好，这是因为它们可以编码物体表现模型的局部结构信息。

通过检测来实现跟踪的方法將跟踪看成一个检测问题，近年来已经引起了很多关注。通过检测来实现跟踪的方法可以被分为两类，一类是生成模型，一类是判别模型。生成模型通过学习得到一个模型来表示目标对象，然后使用它以最小的重建误差搜索图像区域。这方面的典型代表就是跟踪算法，通过一系列目标与其他模板的稀疏线性组合对物体进行建模，但是这种方法的计算复杂度非常高。判别模型将跟踪问题看成一个目标邻域内的二值分类问题，判断将目标和背景分割开来的决策边界。

本文的主要目的是寻找一个更加有效的物体表现模型以及更加鲁棒的统计模型，并提出了一种简单有效的算法。它严格意义上属于判别模型，将跟踪问题看成一个目标邻域内的二值分类问题，目标是寻找一个能将目标和背景区分开来的最佳决策边界。为了减少边界被遮挡产生的干扰以及图像质量的不利影响，本文应用高斯核函数生成加权特征图像。本文的外观模型通过测量矩阵从加权多尺度图像特征空间中提取加权压缩特征。尽管压缩特征的尺寸远远低于原始的加权多尺度图像特征空间的维度，加权压缩特征可以保留绝大部分的显著信息。最后，本文使用ELM[4-6]（极限学习机）来对正样本以及负样本进行区分，选取最有可能是目标的那个正样本。

1 加权压缩特征

为了提取加权压缩特征，执行以下一系列步骤：

首先用一个高斯低通滤波器来对每一个样本进行卷积：

式（1）中f（x，y）表示原始图像中每一点的像素值，k（.）代表高斯核函数。（x0，y0）表示样本的中心点坐标。根据每一点到中心点的距离来为它们添加权重。两者之间距离越短，权重越大，距离越长，权重越小。这样做的好处是会减小容易受到外界干扰的边缘的影响，可以进一步提高跟踪算法的有效性、准确性以及鲁棒性。

文章《实时压缩跟踪》[7]首次提出了压缩特征[11-12]，它采取了非常稀疏测量矩阵来对正样本以及负样本进行特征提取。非常稀疏测量矩阵近似保留了原始信号两两之间的距离，并且减小了计算负担。

为了更好地解决尺度问题，本文提取了目标的多尺度特征，具体方法如下：用一系列的多尺度矩形滤波器{h1，1，…，hw，h}与每一个加权样本z∈Rw×h做卷积，多尺度矩形滤波器的定义如下：

式（2）中i和j分别是矩形滤波器的宽和长。矩形滤波器的宽的最大值是加权样本的宽度，高的最大值是加权样本的高度，卷积过后可以得到一张高维多尺度特征图像I∈R。把高维多尺度特征图像的每一列拿出来连成一个超高维向量X，它的维数是在106到1010之间。为了降低计算复杂度，提高跟踪速度，本文采取了压缩感知[8]领域的非常稀疏测量矩阵来提取高维多尺度加权特征向量中的有用信息，如式（3）所示：

非常稀疏测量矩阵R的定义如下：

非常稀疏测量矩阵R可以用一个随机数发生器来产生。当s等于2或者3时，非常稀疏测量矩阵满足Johnson-Lindenstrauss定理和有限等距性质[7]。一方面，低维加权压缩特征子空间保留了原始加权多尺度特征空间的大部分信息，可以以最小误差完美重构原始信号。另一方面，v的维度比原始信号X的维度要小得多，这样可以减轻计算负担，提高跟踪速度。此外，非常稀疏测量矩阵中的大部分元素都是0，这样就可以降低存储负担。

2 极限学习机[4-6]

极限学习机最开始的时候是针对SLFNs（单隐层前馈神经网络）提出的，后来被扩展到广义SLFN中。在网络权重初始化的时候随机选择输入权重和隐藏层偏差，训练过程中不需要再调整它们，这样会使得确保训练精度的同时显著加快训练速度。此外，ELM克服了BP算法的局限性，如过度训练和局部最小化等问题。总而言之，ELM的结构比其他网络简单，其泛化能力也得到了很大的提高。

针对广义SLFN所提出的的极限学习机算法的输出函数定义如下：

式（7）中hi（xj）=h（wixj+bi），wi=[wi1，wi2，…win]T表示第i个隐藏层节点和n个输出节点之间的权重向量。bi是第i个隐藏层节点的偏置向量。式（7）中，βi=[βi1，βi2，…bim]T，βim表示第i个隐含节点和第m个输出节点之间的权重。ELM不再使用标准优化方法而是使用最小二乘法来实现神经网络的训练。

β=H+T（10）

式（10）中H+是矩阵H的Moore-Penrose广义逆矩阵，它可以通过正交投影法得到。当HTH是奇异的时候，H+=（HTH）-1HT。当HTH是非奇异的时候，H+=HT（HHT）-1。

3 所提算法

作为一种通过检测来实现跟踪的方法，本文所提算法的主要目标是寻找一个能将背景和目标区分开来的最好方式，并进一步找到当前时刻最有可能存在目标的位置。具体步骤如图1所示。

本文设置ELM输出节点的数目为2，假设第一帧目标位置已知，在当前目标位置的邻域内提取一系列的正样本，同时在远离当前目标的位置处提取一系列的负样本，将正样本的标签设为[1 0]，将负样本的标签设为[0 1]。在训练的过程中，利用N个样本根据式（10）去调整ELM的系数，以求以最小的误差将正负样本区分开来。预测阶段，在下一帧中原始目标附近的区域选取目标候选，用训练好的分类器选取得分最高的目标候选作为真实的目标。详细过程如下所示。

对于每个目标候选，本文使用已经训练好的ELM分类器去预测输出。输出神经元给出2个值，分别是z1和z2，然后再用softmax函数去计算每个目标候选分别属于目标和背景的概率p（y=1|x）和p（y=0|x），如式（11）所示。p（y=1|x）和p（y=0|x）加起来为1，根据式（12），将分类响应最大的目标候选作为当前帧的真实目标。

算法的详细步骤如表1 所示。

5 实验结果

为了验证所提算法的有效性，本文在拥有Pentium Core 2.5 GHz GPU和6GB RAM 的计算机上利用Visual Studio 2013进行了实验。本文重复测试10次，并从2方面来评估算法的性能。一方面是平均中心误差，可以通过计算人工标定的真实目标位置和预测位置之间的差異来得到，度量标准是像素。第二个指标是平均每秒跟踪帧数，这是跟踪算法速度的客观评价指标。

两个实验分别研究的是算法对遮挡的鲁棒性以及对于快速运动和旋转的鲁棒性，第一个实验中，一个男孩边跳边转动他的脸，第二个实验中，一个女孩用一本书遮住了她的大部分脸并逐渐移开。本文还通过实验将快速鲁棒的加权压缩跟踪方法和其余三种方法进行了对比，它们分别是TLD跟踪算法、l1跟踪算法以及均值漂移跟踪算法。本文利用平均中心误差（CLE）和平均每秒跟踪帧数（FPS）作为跟踪精度和跟踪速度的评价指标，来对2段实验视频进行了评估，实验结果如表 2 所示。

由表2可知，快速鲁棒的加权压缩跟踪方法和其他三种方法相比，具有更高的效率，准确性和快速性。其中一个原因是加权压缩特征的使用通过给目标中心的像素值添加更大的权重，保留了目标中心区域的有效信息，给容易受到外部环境干扰的目标边缘区域处的像素值添加更小的权重，可以有效抵抗遮挡的干扰。另一个原因是和大部分神经网络一样，经过训练的ELM分类器可以有效存储目标和背景的有用信息。和其他神经网络相比，它的结构更为简单，参数总量更小。训练时并不需要计算输入层、隐藏层以及输出层之间的权重和偏置，只需要计算输入层到输出层之间的权重即可，极大地减轻了计算负担，提高了计算速度。下面会详细解释本文算法在两段视频上的效果。

快速運动，低光照和姿态变化图 2 中蓝色、绿色、红色和黑色的框分别代表了加权压缩跟踪方法、TLD跟踪算法、均值漂移跟踪算法以及跟踪算法的实验效果。在第一段视频中男孩的面部随着他的跳跃发生了快速的剧烈运动，并且在跳跃的过程中发生了旋转等姿态变化，光照条件也较为昏暗，这对进行实时准确的跟踪都是一个不小的挑战。本文所提算法的帧率最高，为41帧每秒，平均中心误差最小，为12个像素，性能效果远远优于其他三种方法。

遮挡在第二段视频中，目标经历了很严重的遮挡。只有本文所提算法和TLD算法的实验效果很好。毫无疑问，这是由于所提算法使用了加权压缩特征。将加权多尺度特征空间投影到维数远远降低的加权压缩特征空间，这样做不仅可以减轻计算负担，极大地提高跟踪速度，同时低维特征空间保留了原始加权多尺度特征空间的绝大部分信息，利用低维压缩特征去训练分类器并预测目标位置并不会降低跟踪的准确性、有效性以及鲁棒性。此外ELM分类器的快速训练特性在保证跟踪精度的同时提高了跟踪的实时性。

5 结论

本文提出了一种快速鲁棒的加权压缩跟踪方法。它通过从目标和背景的多尺度特征空间中提取它们的加权压缩特征，充分利用了目标和背景两方面的信息，并利用训练方便快速的ELM分类器来对目标和背景进行分类，寻找当前时刻目标的位置。实验结果表明，算法在存在遮挡和快速运动情况下的实验效果均很好，既保证了跟踪精度，又提高了跟踪速度。未来还应进一步验证算法在复杂背景下的实验性能。

【Reference】

[1]SMITH S M，BRADY J M.SUSAN-a new approach to low level image processing[J].International Journal of Computer Vision.1997，23（1）：45-78.

[2]CHENG Y.Mean Shift，mode seeking，and clustering[J].IEEE Transactions on Pattern Analysis and MachineIntelligence.1995，17（8）：790-799.

[3]COMANICIU D，P M.Mean Shift：A robust application toward feature space analysis [J].IEEE Transactions on Pattern Analysis and Machine Intelligence.2002，24（5）：603～619.

[4]HUANG G B，ZHU Q U，SIEW C K.Extreme learning machine：a new learning scheme of feedforward neural networks [C]，Proceedings of IJCNN.Budapest，2004：985-990.

[5]HUANG G B， ZHU Q U， SIEW C K. Extreme learning machine： theory and applications [J]. Neurocomputing， 2006， 70（1-3）：489-501.

[6]HUANG G B， CHEN L， SIEW C K. Universal approximation using incremental constructive feedforward networks with random hidden nodes [J]. IEEE Transactions on Neural Networks， 2006， 17（4）：879.

[7]ZHANG K H， ZHANG L， YANG M S. Real-time compressive tracking [C]， Proceedings of European Conference on Computer Vision ， Florence， 2012： 864-877.

[8]DONOHO D L. Compressed sensing [J]. IEEE Transactions on Information Theory， 2006， 52（4）：1289-1306.

[9]KALAL Z， MIKOLAJCZYK K， MATAS J. Tracking-learning-detection [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence， 2012， 34（7）：1409-1422.

[10]MEI X， LING H B. Robust visual tracking using L1 minimization[C]. Proceedings of ICCV， Kyoto， 2009：1436-1443.

[11] SUBBAN R， GURIA S， PASUPATHI P， et al. Real-time compressive tracking -a study and review[J]. International Journal of Emerging Technologies in Computational and Applied Sciences， 2014， 7（2）：14-146.

[12]LI G， WANG W， WANG Y， et al. Nano-manipulation based on real-time compressive tracking[J]. IEEE Transactions on Nanotechnology， 2015， 14（5）：837-846.

[13]PAN S， SHI L， GUO S. A kinect-based real-time compressive tracking prototype system for amphibious spherical robots[J]. Sensors， 2015， 15（4）：8232.