龚春红
基于多特征自适应融合的鲁棒跟踪方法
龚春红
(湖南财政经济学院信息管理系, 湖南长沙, 410205)
针对复杂场景下用单一特征描述目标导致的目标漂移问题, 基于均值漂移(Mean Shift)跟踪框架, 构建了一种有效的自适应融合特征(Adaptive Fusion Feature, AFF) 描述子, 并提出一种自适应融合多特征的跟踪方法。该方法融合了颜色特征和尺度不变转换(Scale-Invariant Feature Transform,), 并通过相邻帧间各特征的相似性来自适应动态调整特征的权值。实验结果表明, 在复杂场景下多特征自适应融合方法(AFF)比单一特征跟踪方法和经典跟踪方法减少了目标漂移、目标跟踪更加精确鲁棒。
颜色特征; 尺度不变转换; 自适应融合特征; 权值更新
运动目标跟踪在视频监督[1]、行为识别[2]和人机交互[3]等领域应用广泛。但是, 在跟踪过程中跟踪目标经常会受到背景的干扰或者自身发生形变, 使得复杂场景下的运动目标跟踪仍然是一个亟待解决的重点问题。一个好的跟踪算法[4], 必须具备较好的精确性、鲁棒性和实时性。为了提高跟踪算法的整体性能, 研究者们通常从跟踪策略和目标表达2个方面改进跟踪算法。在跟踪策略方面, Kalal等[5]将长期的跟踪过程分为“跟踪–学习–检测”3个模块, 并取得了很好的效果。Babenko等[6]运用一个包含多个正样本的样本包来更新分类器, 从而很好地解决了跟踪过程中的模糊问题。上述方法通过优化跟踪策略提高了跟踪性能, 但是由于它们都只用单一特征来表达目标, 因此在一定程度上存在局限性, 在复杂场景下存在目标漂移现象。随着计算机视觉领域的发展, 涌现出了越来越多的特征描述子, 包括全局特征描述子和局部特征描述子[7]。在目标表达方面, 研究者们一方面挖掘新颖有效的描述子来表达目标, 另一方面探究通过融合多个特征描述子来描述目标。由于单个特征描述子的目标表达能力有限, 通过融合多个特征来表达目标已经是当前运动目标跟踪的趋势。张红颖等[8]将掩膜内目标像素的LTN特征与色度信息融合生成一种新的目标模型来提供跟踪性能; 陈柄权等[9]定义了一种新型的有效结合颜色、纹理和形状特征的描述子来提高图像检索性能; 贾松敏等[10]提出了一种在均值漂移框架下融合颜色特征和纹理特征的跟踪方法, 该方法虽然取得了一定的效果, 但没能实现特征的自适应融合; 刘一鸣等[11]在粒子滤波跟踪框架下融合了颜色特征和边缘特征, 取得了较好的实时性和鲁棒性。然而, 在跟踪过程中前景和背景都是动态变化的, 各个特征在跟踪过程中的贡献程度并非一成不变, 上述方法并没有提出如何自适应地调整所融合特征的权值。虽然在目标表达方面研究者们取得了一定的进展, 但要解决复杂场景下的目标跟踪问题, 十分有必要提出一种多特征自适应表达目标的方法。
本文在均值漂移跟踪框架的基础上, 提出一种多特征自适应融合的跟踪方法, 以提高复杂场景下运动目标跟踪的精确性。首先, 构建自适应融合特征(AFF)。其次, 通过相邻帧之间单特征的相似性来自适应更新各特征的权值。再次, 在均值漂移的跟踪框架中用得到的自适应融合特征表达目标实现鲁棒而精确目标跟踪。最后, 通过对比实验从定性和定量2个方面证明所提出方法的优越性。
1.1 颜色特征
颜色特征作为最经典的全局特征, 由于其简单性和有效性在目标跟踪领域被广泛用来表达目标。可以从不同的颜色空间来提取颜色特征, 常见的有RGB空间和HSV空间。本文采用从RGB空间提取的颜色特征来表达, 将R、G、B三个颜色通道分别量化为16个颜色区间。统计目标区域内每个像素点所属的颜色特征空间, 得到特征空间中每个特征值的概率, 其概率直方图即为目标的颜色特征描述。Comaniciu等[12]提出用加权的颜色直方图来表示颜色特征。由于离中心点远的像素点经常被遮挡或者被背景干扰, 它们最不可靠, 因此在这种直方图中离中心点远的像素点权值较小, 离中心点近的像素点权值较大。
1.2 SIFT特征
尺度不变特征转换(Scale-invariant feature transform, SIFT)是一种典型的局部特征描述子, 它在空间尺度中寻找极值点, 并提取出他们的位置、尺度、旋转不变量。SIFT算法由Lowe[13]在1999年发表, 并于2004年进一步完善。由于SIFT特征描述子在尺度转换方面的不变特性, 且能够抵抗光线、噪声等的变化, 因此被广泛应用在视觉跟踪领域。SIFT特征的构建主要包括5个步骤。第1步, 构建尺度空间, 检测极值点并获得尺度不变性。这是一个初始化操作, 尺度空间理论的目的是模拟图像数据的多尺度特征。第2步, 过滤特征点, 并精确定位, 剔除不稳定的特征点, 其本质是要去掉DoG局部曲率非常不对称的像素。第3步, 在稳定特征点处提取特征描述符, 为其分配方向值, 利用关键点邻域像素的梯度方向分布特性为每个关键点指定方向参数, 使算子具备旋转不变性。幅值(,)和幅角(,)的计算公式分别为;。第4步, 生成特征描述子, 寻找匹配点。第5步, 计算变换参数。最后, SIFT特征描述子可以用一个归一化的概率直方图来表示。
1.3 MeanShift算法
均值漂移(MeanShift)由于其简单性和有效性被广泛用于运动目标跟踪领域。MeanShift跟踪算法中最关键的问题就是计算当前位置与新位置1之间的偏移量, 可以通过均值漂移的迭代公式计算得到。式中:()是核轮廓;是()的带宽;x是目标候选区域的像素; 权值w定义为。其中,是灰度级数的索引值, 当(其中是阈值, 取经验值0.5)时, 算法将会停止均值漂移的局部迭代过程。
本文旨在提出一种多特征自适应融合的目标跟踪策略, 主要贡献如下: 通过融合典型的全局特征(Color)和局部特征(SIFT), 构建自适应融合特征(AFF); 提出根据所融合特征在相邻帧之间的相似性来自适应更新特征权值的鲁棒跟踪方法。
2.1 构建自适应融合特征
很多特征描述子都可以用归一化的直方图来表示, 因此能用直方图表示的特征就可以构建融合特征。本文以颜色特征Color和SIFT特征为例来构建自适应的融合特征(AFF)。
定义1 假设Color是归一化的颜色特征直方图,SIFT是归一化的SIFT特征直方图, 则自适应融合特征(AFF)定义为, 其中,Color是颜色特征的权值,SIFT是SIFT特征的权值。显然,AFF仍然是一个归一化的直方图。
2.2 权值更新
由于跟踪过程是动态变化的, 在不同帧中不同特征的重要性程度不一样。因此, 如果在跟踪过程中将各个特征的权值在一开始就设置为固定值, 并不能在不同的条件下很好地表述目标。在跟踪过程中手动设置各帧不同特征的权值, 不但费时而且不现实。然而, 如果能在每一帧中根据特征的重要性程度自适应更新特征的权值, 那么就能很好地提高目标的表达能力, 因此动态更新特征权值非常必要。当前帧目标位置与下一帧目标的候选位置之间的相似性程度用Bhattacharyya系数
表述。式(1)中:q是目标模型;p()是中心在处的候选模型。
本文依据式(1)分别计算出颜色特征的相似度Color和SIFT特征的相似度SIFT。由于用某个特征表示目标, 当前位置与最佳候选位置相似度越大, 那么该特征也就越重要, 应该赋予相对更大的权值。颜色特征的权值Color和SIFT特征的权值SIFT可以按照如下方式更新。
其中,Color是颜色特征的相似性,SIFT是SIFT特征的相似性。Color越大说明颜色特征越重要, 同理SIFT越大说明SIFT特征越重要。
2.3 算法流程
本文所提出的多特征自适应融合跟踪方法(AFF)主要包括以下几个步骤: 首先, 初始化第1帧的多特征模型, 该步骤是通过手动划定跟踪区域完成的; 其次, 在后续的每1帧中根据式(1)分别计算颜色特征和SIFT特征的相似度; 再次, 根据式(2)和(3)计算各个特征的融合权值, 并更新目标模型中的融合权值; 最后, 根据均值漂移算法框架输出最优候选区域的空间信息作为当前帧目标的位置。多特征自适应融合算法流程如图1所示。
图1 多特征自适应融合算法流程
为了验证本文所提出的多特征自适应融合跟踪方法的有效性和优越性, 通过对比实验从定性和定量2个方面来予以证明。主要与采用单一特征(颜色或SIFT)描述目标的算法以及经典的压缩跟踪算法(CT)[14–15]进行比较。所采用的视频序列都是公开的数据集, 其详细情况如表1所示。
表1 视频序列描述
3.1 定性分析
背景混杂。图2中的Bus station序列用来证明提出的AFF算法在处理背景混杂这一复杂场景下性能的优越性。在该序列中其跟踪对象是一身穿棕色衣服的行人, 一开始他被旁边的路灯所遮挡并慢慢走向与之颜色极为相似的大树下。由图2可知: 在第18帧中仅用颜色或SIFT表达目标的算法和CT算法都产生了不同程度的漂移; 在第40帧中用颜色特征表达目标的算法和CT算法跟丢了目标, 而用局部SIFT特征表达的算法仍然能够大致定位目标; 然而, 在整个过程中所提出的AFF算法都能较好地定位目标, 其原因在于全局特征(Color)和局部特征(SIFT)的互补性, 大大提高了目标的描述能力。
图2 Bus station序列
遮挡。图3中的David3序列用来证明提出的AFF算法在处理目标遮挡时的有效性。图3中跟踪的目标David从左走向右, 再从右走向左, 期间被路灯和大树所遮挡。在第82帧中目标被大树遮挡, 颜色特征表达的算法产生了较大的漂移, 而其他3种方法基本能定位目标, 但本文提出的AFF算法定位相对最精确。当David经过大树继续往右走时, 只有AFF算法能够很好地定位目标, 其他3种(Color表达、SIFT表达和CT)都跟丢了目标。最后, 当David返回左边, 在经过大树时, CT算法能够重新定位目标, 虽然AFF算法存在一定的漂移, 但是AFF的漂移程度远小于单特征(Color和SIFT)表达的算法。可见, 本文提出的多特征自适应跟踪算法(AFF)比单一特征表达的算法在跟踪遮挡目标时存在较大优势。
图3 David3序列
光照变化。图4中的Skiing序列用来证明提出的AFF算法能够抵抗光照变化的干扰。序列中所跟踪的对象是一个滑雪的人, 其过程中存在不同程度的光照变化。在第20帧中, 目标受到了强光的干扰, 用颜色表达的算法和CT算法产生了很大的漂移, 而用SIFT表达的算法由于能够抵抗光线的干扰可以大致定位目标, 但是本文提出的AFF算法却能非常精确地定位目标。其他3种算法都跟丢了目标, 而AFF算法能够基本定位目标, 只是存在较小的漂移。因此, AFF算法在处理光照变化的目标中与单一特征表达和经典的CT算法相比较存在优势。
图4 Skiing序列
3.2 定量分析
本节通过算法的跟踪成功率(Success Rate,S)和中心点误差(Center Location Error, CLE)来定性说明本文提出的AFF算法的优越性, 并采用Wang等[16]提出的标准来衡量当前目标是否被成功定位, 即。其中,T表示跟踪框的位置,G表示目标的实际位置,表示面积,当S大于50%时, 目标就被成功定位。跟踪成功率(S)即为目标被成功定位的帧数占总帧数的比率。表2是不同方法进行跟踪的成功率比较。由表2可知, 用单一特征(Color或SIFT)表达目标的跟踪成功率都低于50%, 经典的CT算法由于只用Haar特征表达目标, 其跟踪成功率也比较低。然而, 本文方法采用了2种特征来表示目标, 且不同目标的贡献程度随着跟踪环境的变化在自适应地调整, 发挥了2种特征各自的优势。因此, 其跟踪成功率较其他3种算法都有比较大的提升。此外, 通过中心点误差(CLE)来证明本文方法的精确性。中心点误差(CLE)即为跟踪框的中心点与目标实际中心点之间的欧氏距离(像素)。图5为不同方法的中心点误差比较图, 由图5可知, 其他3种算法(CT、Color和SIFT)的中心点误差都比较大, 而本文提出的AFF算法在4种算法中中心点误差最小, 且波动最小。由此可见, 本文提出的自适应特征融合算法(AFF)在跟踪精度方面优于其他算法。
图5 中心点误差
本文在均值漂移跟踪框架下提出了一种多特征自适应融合的跟踪策略, 构建了自适应融合特征(AFF), 并根据单一特征在相邻帧之间的相似性来自适应动态调整不同情况下特征的权值。最后, 通过实验从定性和定量两方面证明了所提出的方法在处理背景混杂、目标遮挡、光照变化等复杂场景下的优越性。
[1] Wang J, Bebis G, Miller R. Robustvideo-based surve illance by integrating target detection with tracking [C]// Computer Vision and Pattern Recognition Workshop, 2006: 137–145.
[2] Sun L U, Lank K, Beetz M. EYEWATCHME: 3-D hand and object tracking for inside out activity analysis [C]// IEEE Comput Soc Conf CVPR Workshops, 2009: 9–16.
[3] Nguyen T H D, Quit C T, Xu K, et al. Real-time 3D human capture system for mixed-reality art and entertainment [J]. IEEE Transactionsons on Visualization and Computer Graphics, 2005, 11(6): 706–721.
[4] Yang H, Shao L, Zheng F, et al. Recent advances and trends in visual tracking: Areview [J]. Neurocomputing, 2011, 74(18): 3 823–3 831.
[5] Kalal Z, Mikolajczyk K, Matas J. Tracking-learning-detection [J]. IEEE Transactionsons on Pattern Analysis and Machine Intelligence , 2012, 34(7): 1 409–1 422.
[6] Babenko B, Yang M H, Belongie S. Robust object tracking with online multiple instance learning [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8): 1 619–1 632.
[7] Sunand L, Liu G. Visual Object Tracking Basedon Combination of Local Description and Global Representation [J]. IEEE transactions on Circuits and Systems for Video Technology, 2011, 21(4): 408–420.
[8] 张红颖, 胡正. 融合局部三值数量和色度信息的均值漂移跟踪[J]. 电子与信息学报, 2014, 36(3): 624–630.
[9] 陈炳权, 刘宏立. 基于颜色纹理和形状特征相结合的图像检索系统[J]. 湖南文理学院学报(自然科学版), 2009, 21(4): 67–70.
[10] 贾松敏, 王爽, 王丽佳, 等. 多特征自适应均值漂移算法的目标跟踪[J]. 光电子·激光, 2014, 25(10): 2 018–2 024.
[11] 刘一鸣, 周尚波. 基于多特征融合的粒子滤波视频跟踪算法[J]. 计算机工程, 2010, 36(22): 228–230, 235.
[12] Comaniciu D, Ramesh V, Meer P. Kernel-based object tracking [J]. IEEE Trans Pattern Anal Mach Intell, 2003, 25(5): 564–577.
[13] Lowe D G. Object recognition from local scale-invariant features [C]// iccv. IEEE Computer Society, 1999: 1 150–1 157.
[14] Fukunaga K, Hostetler L. The estimation of the gradient of a density function, with applications in pattern recognition [J]. IEEE Transactionsons on Information Theory, 1975, 21(1): 32–40.
[15] Zhang K, Zhang L, Yang M H. Real-time compressive tracking [M]. Heidelberg: Springer, 2012: 864–877.
[16] Wang Q, Chen F, Yang J, et al. Transferring Visual Prior for Online Object Tracking [J]. IEEE Transactions on Image Processing, 2012, 21(7): 3 296–3 305.
(责任编校:刘刚毅)
Robust tracking based on multi-feature adaptive fusion
Gong Chunhong
(Department of Information Management, Hunan University of Finance and Economics, Changsha 410205, China)
Aimed at using single feature to describe the target often leads to target drift in complex scenes, an effective Adaptive Fusion Feature (AFF) is constructed based on Mean Shift tracking framework, furthermore, a tracking method which used multiple fusion features to describe target adaptively is put forward. This tracking method combined color feature and SIFT feature, the similarity between adjacent frames of each feature is used to dynamically adjust the feature weights. The experimental results show that the proposed AFF tracking method is more accurate and robust than single feature tracking and state-of-the-art tracking methods in complex scenes.
color; SIFT; adaptive fusion feature; weight updating
10.3969/j.issn.1672–6146.2016.04.006
TP 391
1672–6146(2016)04–0021–06
龚春红, 290584160@qq.com。
2016–03–30
湖南省重点学科建设项目; 湖南省教育厅科学研究重点项目(13A010)。