基于在线判别式字典学习的鲁棒视觉跟踪

2015-07-18 11:10薛模根袁广林

电子与信息学报 2015年7期

关键词：判别式字典编码

薛模根朱虹袁广林

①（陆军军官学院偏振光成像探测技术安徽省重点实验室合肥 230031）

②（陆军军官学院十一系合肥 230031）

基于在线判别式字典学习的鲁棒视觉跟踪

薛模根①朱虹*①袁广林②

①（陆军军官学院偏振光成像探测技术安徽省重点实验室合肥 230031）

②（陆军军官学院十一系合肥 230031）

现有子空间跟踪方法较好地解决了目标表观变化和遮挡问题，但是它对复杂背景下目标跟踪的鲁棒性较差。针对此问题，该文首先提出一种基于Fisher准则的在线判别式字典学习模型，利用块坐标下降和替换操作设计了该模型的在线学习算法用于视觉跟踪模板更新。其次，定义候选目标编码系数与目标样本编码系数均值之间的距离为系数误差，提出以候选目标的重构误差与系数误差的组合作为粒子滤波的观测似然跟踪目标。实验结果表明：与现有跟踪方法相比，该文跟踪方法具有较强的鲁棒性和较高的跟踪精度。

视觉跟踪；模板更新；字典学习；观测似然

1 引言

视觉跟踪是通过视频图像序列不断估计目标状态的过程，它在智能监控、人机交互、机器人导航和运动分析等方面都具有重要的应用价值。一直以来，视觉跟踪都是计算机视觉领域中研究的热点，它的主要难题有目标表观变化、目标遮挡、复杂背景等。

针对以上难题，视觉跟踪领域的研究者已经提出一些视觉跟踪方法［1］，其中基于子空间的跟踪方法较好地解决了目标表观变化和目标遮挡问题，因而受到了广泛关注［2，3］。1996年，Black等人［4］首次提出了基于主成分分析的子空间跟踪方法。该方法以子空间常量为假设，不能适应目标表观的变化。为了目标表观变化，Ross等人［2］提出一种基于增量子空间学习的目标跟踪方法，较好地解决了目标表观变化问题。但是该方法对目标遮挡的鲁棒性较差，利用跟踪结果和增量子空间学习更新模板易于发生模型漂移。受到稀疏编码在人脸识别中应用的启发，Mei等人［3］提出基于稀疏编码的视觉跟踪，又称为“L1跟踪”，该方法较好地解决了目标遮挡问题。L1跟踪将视觉跟踪问题等价为候选目标在目标模板和小模板上稀疏编码系数的求解问题，它要求目标模板在自适应目标变化的同时尽可能排除遮挡信息，这对模板更新提出了更高的要求。文献［5］利用小模板系数进行目标遮挡检测，若当前跟踪结果未检测出大量遮挡信息，则直接替换模板，缓解了模型漂移现象。文献［6］借鉴文献［7］引入字典学习思想，利用训练数据学习更新得到适用于跟踪的字典（模板），提出一种基于在线字典学习的目标跟踪方法，所得模板增强了对目标变化的适应性和鲁棒性。文献［8］提出一种在线鲁棒非负字典学习算法用于模板更新，该算法结合了在线鲁棒字典学习和非负矩阵分解，采用L1数据拟合和非负约束，有效抑制了模型漂移。

综上所述，现有子空间跟踪方法较好地解决了目标表观变化和目标遮挡问题，但是仍存在一些不足：对于复杂背景下的目标跟踪鲁棒性较弱，模板中缺少判别式信息，对目标和背景的判别能力不足，从而导致跟踪失败。针对此问题，一方面，受到在线字典学习和 Fisher判别式字典学习［9］的启发，本文提出了用于视觉跟踪的在线判别式字典学习（Online Discrimination Dictionary Learning for Visual Tracking，ODDLVT）算法。该算法采用块坐标下降法［10］在线更新目标模板，利用替换操作在线更新背景模板。另一方面，利用 ODDLVT算法得到目标样本编码系数的均值，定义候选目标编码系数与它的距离为系数误差，在粒子滤波框架下，以候选目标的重构误差与系数误差的组合作为观测似然跟踪目标。

2 用于视觉跟踪的在线判别式字典学习

由文献［6，8］可知，从字典学习的角度看，视觉跟踪模板更新是在线的字典学习问题。由文献［9］可知，Fisher判别式字典学习学得的字典具有较强的判别能力。据此，结合视觉跟踪的特点，2.1节，2.2节分别给出了用于视觉跟踪模板更新的在线判别式字典学习模型与算法。

2.1 ODDLVT模型

受到在线字典学习和Fisher判别式字典学习的启发，本文提出如式（1）所示的在线判别式字典学习模型用于视觉跟踪：

其中，模板更新次数 n= 1，2，…；第n次更新时输入在线数据 An形成训练样本集 A =［A1，…， An］，样本子集 Ai=［Ai，1， Ai，2］包含N个训练样本， Ai，1，Ai，2分别为目标样本和背景样本，D2］为模板字典， D1， D2分别为目标模板和背景模板； Xi=［Xi，1， Xi，2］为 Ai在D上的稀疏编码系数，Xi，1，Xi，2分别为 Ai，1， Ai，2在D上的编码系数；λ1， λ2为调节常数；d为模板字典的任意原子。使用模板字典对每个样本子集进行稀疏表示，即 Ai≈DXi。 j= 1，2，判别保证项 r（ Ai，j， D， Xi，j）为

综上所述，ODDLVT模型不仅使模板字典能够很好地识别目标和背景，同时，编码系数也具有强判别力。求解模型式（1）的优化过程比较复杂，不利于实时目标跟踪。由文献［9］可知，利用假设条件可以得到简化模型并保留原模型的物理涵义。据此，简化ODDLVT模型如式（6）所示。

2.2 ODDLVT算法

ODDLVT算法包括3个部分：在线数据的采集、目标和背景模板更新。采集在线数据方面，假设每隔h帧图像进行一次模板更新，t时刻，当第n次更新时取 t- h + 1，…， t 时刻跟踪结果作为目标样本An，1；根据t时刻跟踪结果中心点位置 l =（x， y），在环形区域｛lB| γ＜| |lB-l ||＜ δ｝内随机采样样本作为背景样本，2nA 。背景模板更新方面，结合子空间跟踪特点可知，无需通过字典学习更新模板，利用背景样本，2nA 直接替代即可。目标模板更新方面，通过求解式（6）所示模型更新模板，式（6）的求解包括稀疏编码和字典更新两个阶段。稀疏编码阶段，确定t - h时刻目标模板 Dt-h，1求解编码系数为

表1 视觉跟踪的在线判别式字典学习（ODDLVT）算法

表2 在线更新目标模板

3 目标跟踪

本文跟踪方法是以粒子滤波为框架建立的。基于粒子滤波的跟踪方法是将目标跟踪问题转换为在贝叶斯理论框架下已知目标状态的先验概率，在获得新的观测值后求解目标状态的最大后验概率的过程。已知 1到 t- 1时刻所有图像观测 y1：t-1=｛y1， y2，…，yt-1｝，则目标状态的先验概率为

其中，tx和1t-x 分别表示t和 1t- 时刻的目标状态，p（xt|xt-1）为状态转移模型。本文采用高斯分布建立状态转移模型，如式（10）所示：

其中，Ψ为对角矩阵，其对角元素表示相应状态的方差。t时刻，当观测ty可用时，目标状态的后验概率为

其中， p（yt|xt）为观测似然模型。建立观测似然模型分为两个步骤。首先，对于任意图像观测，求解其L1范数正则化编码系数，模型如下：

以粒子滤波为框架，将状态转移模型、观测似然模型和模板更新方法相结合建立目标跟踪方法如表3所示。

表3 目标跟踪方法

4 实验结果与分析

本文提出的跟踪方法是以Matlab R2010a为开发工具实现的，并在Intel（R） Core（TM） 3.10 GHz CPU，8.00 GB内存的台式电脑上调试通过。采用Faceocc1，Dudek和CarDark序列［12］对本文跟踪方法进行了实验验证，并与FCT［13］，SPT［14］和SMTT［15］等3种跟踪方法进行了定性和定量比较。关于本文跟踪方法的参数设置说明如下：对于目标模板的初始化以及背景模板的初始化和更新，要特别注意参数的选取，确保目标模板中不包含背景信息，背景模板中不包含过多目标信息；模板更新频率取决于目标表观变化的快慢，本文设置每5帧更新一次模板。

4.1 定性分析

图1给出了对FCT，SPT，SMTT及本文跟踪方法的定性比较。对于目标遮挡问题，本文方法成功克服了模型漂移，鲁棒性能较好，见图 1（a）；对于目标表观变化，本文方法优于其他方法，其模板适应性良好，见图1（b）；对于复杂和低对比度背景，背景环境在很大程度上影响目标跟踪，这就要求跟踪方法具有较强的判别能力，由图1（b），1（c）可知，本文方法的跟踪结果更好。

4.2 定量分析

实验采用成功率指标进行定量分析［12］。给定一帧图像，已知由跟踪方法所得跟踪窗区域tr，实际跟踪窗区域ar，定义重叠率为其中， ∩，∪分别表示两个区域的交集、并集；表示区域中像素个数。成功率为重叠率大于给定重叠阈值的图像帧数比率，实验中设定重叠阈值为0到1.0。图2分别给出了4种跟踪方法对3组图像序列的成功率曲线。由图2可知，本文方法在成功率方面都优于其他方法。

4.3 鲁棒性分析

本文提出的观测似然模型是由重构误差观测似然模型 g（yt|xt）与系数误差观测似然模型 m（yt|xt）两部分组成，详情见第3节。一般情况下，观测似然模型仅使用，表示与目标模板的相似程度。本文添加的 m（yt|xt）使观测似然模型具备对目标和背景的判别力，对复杂背景下的目标跟踪更加有效。图3所示为Dudek序列在第54帧时322#候选目标（好候选目标）与 434#候选目标（差候选目标），以及目标模板字典。表4分别给出了图3所示候选目标的 g（yt|xt）与 p（yt|xt）。别表示322#，434#候选目标的重构误差观测似然概率；分别表示322#，434#候选目标的本文观测似然概率。由表 4 可知，，即当观测似然模型为 g（yt|xt）时，会选取 434#候选目标（差候选目标）为跟踪结果；另一方面，，即当观测似然模型为时，跟踪结果为322#候选目标（好候选目标）。据此，可以验证，本文模型优于重构误差观测似然模型。

5 结论

针对现有子空间跟踪对复杂背景下目标跟踪的判别力不强的问题，本文提出了用于视觉跟踪的在线判别式字典学习算法 ODDLVT更新模板，所得模板和编码系数均具有良好的判别能力；另外，根据强判别力的编码系数，在一般重构误差的基础上添加了系数误差作为观测似然，进一步增强了目标跟踪鲁棒性。在上述两方面的基础上，以粒子滤波为框架实现了基于在线判别式字典学习的鲁棒视觉跟踪。利用多个具有挑战性的图像序列对提出的跟踪方法进行了实验验证并与现有跟踪方法进行了比较，实验结果表明：与现有跟踪方法相比，本文方法更能鲁棒跟踪目标。

图1 4种方法的跟踪结果比较

图2 4种方法的成功率曲线比较

图3 Dudek序列在第54帧时322#，434#候选目标和目标模板字典

表4 图3两个候选目标的 g（ yt | xt）与 p（ yt | xt）

［1］ Li Xi，Hu Wei-ming，Shen Chun-hua，et al.. A survey of appearance models in visual object tracking［J］. ACM Transactions on Intelligent Systems and Technology，2013，4（4）：1-48.

［2］ Ross D，Lim J，Lin R S，et al.. Incremental learning for robust visual tracking［J］. International Journal of Computer Vision，2008，77（1-3）：125-141.

［3］ Mei Xue and Ling Hai-bin. Robust visual tracking using L1 minimization［C］. IEEE International Conference on Computer Vision，Kyoto，2009：1436-1443.

［4］ Black M J and Jepson A D. Eigentracking：Robust matching and tracking of articulated objects using a view-based representation［C］. European Conference on Computer Vision，London，1996：329-342.

［5］ Bao Cheng-long，Wu Yi，Ling Hai-bin，et al.. Real time robust L1 tracker using accelerated proximal gradient approach［C］. IEEE Conference on Computer Vision and Pattern Recognition，Providence，2012：1830-1837.

［6］ Xing Jun-liang，Gao Jin，Li Bing，et al.. Robust object tracking with online multi-lifespan dictionary learning［C］. IEEE International Conference on Computer Vision，Sydney，2013：665-672.

［7］ Mairal J，Bach F，Ponce J，et al.. Online dictionary learning for sparse coding［C］. The 26th International Conference on Machine Learning，Montreal，2009：539-547.

［8］ Wang Nai-yan，Wang Jing-dong，and Yeung D. Online robust non-negative dictionary learning for visual tracking［C］. IEEE International Conference on Computer Vision. Sydney，2013：657-664.

［9］ Yang Meng，Zhang Lei，Feng Xiang-chu，et al.. Sparse representation based Fisher discrimination dictionary learning for image classification［C］. IEEE International Conference on Computer Vision，Barcelina，2011：543-550.

［10］ Richtarik P and Takac M. Iteration complexity of randomized block-coordinate decent methods for minimizing a composite function［J］. Mathematical Programming，2014，144（1）：1-38.

［11］ Rosasco L，Verri A，Santoro M，et al.. Iterative projection methods for structured sparsity regularization［R］. MIT，2009.

［12］ Wu Yi，Lim J，and Yang M. Online object tracking：a benchmark［C］. IEEE Conference on Computer Vision and Pattern Recognition，Portland，2013：2411-2418.

［13］ Zhang Kai-hua，Zhang Lei，and Yang M H. Fast compressive tracking［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence，2014，36（10）：2002-2015.

［14］ Wang Dong，Lu Hu-chuan，and Yang M H. Online object tracking with sparse prototypes［J］. IEEE Transactions on Image Processing，2013，22（1）：314-325.

［15］ Zhang Tian-zhu，Ghanem B，Liu Si，et al.. Robust visual tracking via structured multi-task sparse learning［J］. International Journal of Computer Vision，2013，101（2）：367-383.

薛模根：男，1964年生，博士，教授，研究方向为图像处理、计算机视觉、光电防御等.

朱虹：女，1987年生，硕士生，研究方向为图像处理、计算机视觉等.

袁广林：男，1973年生，博士，讲师，研究方向为图像处理、计算机视觉、机器学习及其应用等.

Robust Visual Tracking Based on Online Discrimination Dictionary Learning

Xue Mo-gen①Zhu Hong①Yuan Guang-lin②

①（Anhui Province Key Laboratory of Polarization Imaging Detection Technology，Army Officer Academy of PLA， Hefei 230031， China）

②（Eleventh Department， Army Officer Academy of PLA， Hefei 230031， China）

The existing subspace tracking methods have well solved appearance changes and occlusions. However，they are weakly robust to complex background. To deal with this problem，firstly，this paper proposes an online discrimination dictionary learning model based on the Fisher criterion. The online discrimination dictionary learning algorithm for template updating in visual tracking is designed by using the block coordinate descent and replacing operations. Secondly，the distance between the target candidate coding coefficient and the mean of target samples coding coefficients is defined as the coefficient error. The robust visual tracking is achieved by taking the combination of the reconstruction error and the coefficient error as observation likelihood in particle filter framework. The experimental results show that the proposed method has better robustness and accuracy than the state-of-the-art trackers.

Visual tracking；Template updating；Dictionary learning；Observation likelihood

TP391.4

1009-5896（2015）07-1654-06

10.11999/JEIT141325

2014-10-20收到，2015-02-09改回，2015-05-08网络优先出版

国家自然科学基金（61175035，61379105），中国博士后科学基金（2014M562535）和安徽省自然科学基金（1508085QF114）资助课题

*通信作者：朱虹 729039126@qq.com