基于多特征融合的变尺度目标跟踪方法

2016-12-22 07:09:39王玮婧

西安邮电大学学报 2016年6期

关键词：跟踪目标分类器滤波器

李凯, 刘颖, 李娜, 王玮婧

(西安邮电大学通信与信息工程学院, 陕西西安 710121)

基于多特征融合的变尺度目标跟踪方法

李凯, 刘颖, 李娜, 王玮婧

(西安邮电大学通信与信息工程学院, 陕西西安 710121)

给出一种基于多特征融合的核相关滤波器变尺度估计方法，以求解决视觉跟踪目标尺度变化问题。先提取目标所在区域的方向梯度直方图、颜色名和均匀局部二值模式，将此三种特征进行融合，构造训练样本，对目标外观建模；再求解线性岭回归函数，获得位置和尺度核相关滤波模板，对待检测帧的候选区域进行相似性度量，确定跟踪目标位置及尺度；实时更新位置模型和尺度模型的学习因子。实验结果表明，所给方法在不同挑战因素下，满足精确跟踪的要求，且在目标尺度变化、遮挡等复杂场景下，有较强鲁棒性。

目标跟踪；多特征融合；变尺度；遮挡

目标跟踪是计算机视觉研究的热点方向之一，在视频安防监控、智能人机交互、运动分析等领域都具有非常广泛的应用[1]。虽然，近年来有许多跟踪算法[2-4]被提出，但为处理目标尺度变化问题，仍有必要设计一个鲁棒精确的目标跟踪方法。

将核相关滤波器运用到目标跟踪框架中，可取得较好的跟踪效果[5]。核相关滤波器跟踪算法(Kernelized Correlation Filters, KCF)[6]将文[7]跟踪算法的灰度特征改进为多通道方向梯度直方图(Histogram of Oriented Gradient，HOG)[8]特征，使得训练所得的分类器对待检测目标的判别能力更强，但KCF跟踪算法采取固定大小的训练样本来训练分类器模型，难以对目标运动过程中出现的尺度变化进行相应的处理，最终导致分类器模型误差累积，跟踪目标漂移，且KCF无法对目标遮挡进行有效处理。针对KCF跟踪算法的改进算法中[9-10]，基于尺度自适应多特征融合(Scale Adaptive with Multiple Features, SAMF)的KCF跟踪算法[10]，采用尺度空间变化的7个训练样本来训练分类器模型，解决了KCF跟踪算法模板固定的问题，但对于目标发生较大尺度变化时，跟踪效果明显变差。

针对KCF算法跟踪过程中出现的目标尺度变化问题，本文结合高斯核相关滤波器和尺度金字塔理论,构建尺度核相关滤波器,对KCF跟踪算法进行改进，即将HOG特征、颜色名(Color Name, CN)特征和均匀局部二值模式(Uniform Local Binary Pattern, ULBP)纹理特征这三种特征相融合，以构造训练样本对目标外观建模。并且，结合核相关滤波器设计目标多尺度估计方法，以实现目标尺度自适应的跟踪。然后，实时更新位置学习因子和尺度学习因子，提高跟踪算法的准确度和稳定性。

1 KCF跟踪算法

KCF跟踪算法将跟踪目标区域特征样本进行循环移位,从而构建核相关位置滤波模板，利用核函数计算候选区域与跟踪目标的响应值大小，确定新的跟踪目标，并在频域内进行滤波模板的构建和目标检测过程。

KCF跟踪算法的流程如图1所示。

图1 KCF跟踪算法流程

1.1 分类器训练

KCF跟踪算法在进行分类器训练时，须通过样本xi找到函数

f(x)=wTx,

使正则化风险泛函最小，即求解线性岭回归函数，用数学公式描述为[6]

其中yi为样本xi的期望输出，假设yi服从高斯分布，λ为正则化参数，‖·‖为范数运算。KCF算法用多通道HOG特征构成训练样本，即找到最优的w，使得目标函数取值最小。上式的解可表示为输入的线性组合[7]

(1)

其中,bi为对应样本xi的系数,φ(xi)是将样本xi映射到高维度特征空间的映射函数。

假设有两个都具有C个通道的特征向量

则其在高维度特征空间的相关性或相似度为

φT(x)φ(x′)=κ(x,x′)。

其中κ为高斯核函数，表示为[8]

(2)

由文[7]可得式(1)的解为

b=(k+λI)-1y。

其中，I为单位矩阵，y为分类器的期望输出，服从高斯分布，其元素为yi，向量

b=(b1,b2,…,bi),

k为核矩阵，其元素

由此可得位置滤波模板[6]

B=F(b)=[F(k)+λI]-1F(y)。

其中，F(b)为系数b的傅里叶变换，F(y)是标签的傅里叶变换。由此，寻找最优w可转化为寻找b来进行分类器的训练。

1.2 目标位置检测

训练位置核相关滤波器,进行目标位置检测，具体过程可描述如下。

步骤1 初始化第一帧(t=1)，确定目标搜索区域和目标的中心位置。提取搜索区域的特征x，以式(2)计算

kp=κ(x,xi),

其中

xi=Pix(i=0,1,…,n-1)

为循环移位样本[6]，P是置换矩阵[7]。转换到频域，即F(kp)，在搜索区域内计算样本标签

其中,pi为搜索区域内目标位置，p*为目标的中心位置，σp为标准差。转化到频域，即F(yp)，计算位置滤波模板

Bp=[F(kp)+λI]-1F(y)。

其中F(kp)表示融合特征的高斯核函数矩阵kp的傅里叶变换。

步骤2 在步骤1确定t-1帧的目标搜索图像特征x，第t(t≥2)帧时,获取候选图像特征zp，以式(2)计算κ(x,zp)，并变换到频域,即Hp。

步骤3 在第t帧中找到使得

(3)

1.3 外观模型更新

在位置检测后，更新位置滤波模板和目标特征

2 改进算法

针对KCF算法无法处理目标尺度变化和目标被遮挡后会导致跟踪失败的问题，进行两点改进：

(1) 提取区域的HOG特征、CN特征和ULBP纹理特征,融合这3种特征，增强描述目标外观的能力；

(2) 结合高斯核相关滤波器和尺度金字塔理论，构建尺度核相关滤波器，以自适应目标尺度变化。

由此得出一种基于多特征融合的变尺度目标跟踪方法，其流程图如图2所示。

图2 改进算法流程

2.1 特征提取与融合

在目标跟踪中利用单一特征信息，会因外界干扰造成跟踪失败，故考虑提取区域的HOG特征、CN特征和ULBP纹理特征，将其融合，以增强描述目标外观的能力。

2.1.1 HOG特征

HOG特征对图像的几何和光学形变都具有不变性。按照改进的PCA-HOG特征的提取方法，先将目标区域分成若干个4×4的细胞单元(cell)，采用9个bin的直方图来统计这4×4个像素的梯度信息，即将cell的梯度方向分成9个方向块；然后，采集细胞单元中各像素点的梯度，或边缘的方向直方图，并利用PCA方法，对提取出的HOG特征进行降维；最后，把这些直方图组合，构成31维特征向量特征描述器。

2.1.2 CN特征

CN特征在目标跟踪[5]、检测[11]与识别[12]和行为识别[13]中有较好应用，其优点在于计算简单，且对图像本身的尺寸、方向和视角的依赖性较小。CN特征包含黑、蓝、棕、灰、绿、橙、粉红、紫、红、白和黄11个基本颜色词，11维CN特征可表示为概率值为1的RGB值映射，但11维颜色特征计算量大，故利用PCA降维方法将其降至2维。2维CN特征包含着目标重要的颜色信息。

2.1.3 ULBP纹理特征

LBP纹理特征表示图像灰度等级变化，并与空间统计有关，具有计算简单和对全局变化不敏感的优点，且对噪声有较强抵抗能力。

以邻域中心像素点灰度值为阈值，将相邻像素点与之比较,可用所得二进制编码表示局部纹理特征。LBP均匀模式(ULBP)，即在圆形的二值编码中，最多有两次0到1或者1到0的变化，不仅可以描述绝大部分纹理信息，而且能够明显减少特征数量，同时保持较强的分类能力。提取跟踪目标的LBP均匀模式，可使纹理特征模式从原来的256种降为59种，提高处理速度。

2.1.4 多特征融合

将3种特征级联，组成图像块的特征集。多通道高斯核函数具有循环移位结构[7]，故以式(2)进行多特征融合，并用于训练分类器。

2.2 目标尺度检测

使用训练尺度核相关滤波器进行目标尺度检测。假设在位置检测后，获取的目标区域大小为M×N，训练尺度滤波器大小为S×1，则在目标周围提取不同大小m×n的图像块xSi，m和n满足

其中r为尺度因子，a是选择的尺度取值范围。

尺度检测过程可描述如下。

步骤1 初始化第一帧(t=1)，提取目标区域图像特征xs，用式(2)计算κ(xs,xsi)，转换到频域F(ks)，在搜索区域内计算尺度样本标签

其中si为目标可取的所有可能尺度,1≤si≤S，S为尺度滤波器的维度,s*取[S/2]，σs为标准差，转化到频域F(ys)。尺度滤波模板

Bs=[F(ks)+λI]-1F(ys)。

其中F(ks)表示融合特征的高斯核函数矩阵ks的傅里叶变换。

步骤2 在步骤1确定t-1帧的目标特征xs，第t(t≥2)帧时,在检测到目标位置处获取候选图像特征zsi，通过线性插值变化到第一帧目标块相同大小，以式(2)计算目标区域与候选区域κ(xs,zsi)的核互相关，并变换到频域，即Hs。

步骤3 在第t帧中检测尺度响应

(4)

2.3 模型更新

在目标位置检测和尺度检测后，更新相应参数

(5)

(6)

(7)

(8)

2.4 算法框架

(1) 初始化: 选择第一帧视频的跟踪目标，确定目标参数[x,y,w,h]，其中(x,y)为目标左上角坐标，w为目标的宽度，h为目标的高度。

(6) 输出：检测出当前帧目标的位置pt以及尺度st。

3 实验及结果分析

在benchmark-2013视频数据集[14]中选取不同复杂情况下的12个视频集，测试所给改进算法，并与CSK算法[7]、KCF算法[6]、CN算法[9]和SAMF算法[10]进行对比，就实验结果作出定量和定性分析。

3.1 实验参数及评价标准

为了定量评估分析跟踪方法的性能，实验选用中心位置误差(Center Location Error, CLE)、视觉对象类率(Pascal Visual Object Classes Rate, VOR)和每秒运行帧数(Frames Per Second，FPS)3个指标[15]作为评价标准。CLE是指跟踪目标结果的中心坐标与真实目标中心的欧氏距离。视觉对象类率则可定义为[15]

式中RVOR表示跟踪目标与真实目标区域重合率，BT是跟踪目标结果的区域，BG是真实人工标注的目标区域，一般选择重合率阈值大于50%的VOR值来计算跟踪成功率。

3.2 定量分析

各跟踪方法对12组视频序列进行测试，获得的平均中心位置误差(Median Center Location Error, MCLE)、平均重叠率(Median Visual Classes Rate，MRVOR)及平均每秒运行帧数(Average Frames Per Second，AFPS)分别如表1、表2和表3所示。其中，加粗字体表示最优结果，斜体字体表示次优结果。

表1 各算法平均中心位置误差对比/Pixel

由表1可见，改进算法在12个测试视频集跟踪的MCLE值为9.54 pixel，相比其他4种算法的MCLE值取得最小，较SAMF算法的MCLE值提高1.37 pixel。在视频集BlurFace,Jogging,Box,Car1,CarScale和Dudek上都存在目标尺度变化、全部遮挡或部分遮挡等复杂情况，改进算法较其他4种算法的CLE值明显较小。

表2 各算法重叠率对比/%

由表2可见，改进算法在12个测试视频集跟踪的平均重叠率为67.68%，较SAMF算法平均重叠率提高1.48%，在一半以上的测试视频集中，改进算法的RVOR值都达到最大，在视频集BlurFace,Jogging,Box,Car1和CarScale中重叠率与其他4种算法相比较有明显提高。

表3 各算法平均每秒运行帧数对比/ 帧·s-1

由表3可见，KCF算法和CN算法采用单一的特征来描述目标外观，处理速度分别为62.94 帧/s和46.27 帧/s，CSK跟踪算法采用原始像素并进行稠密采样，故处理速度最快，达到102.02 帧/s。改进算法采用HOG特征、CN特征和ULBP纹理特征增强目标外观描述，利用高斯核函数进行多通道特征融合，并进行尺度检测，处理速度最慢，为5.75 帧/s。所以，改进算法取得较好的跟踪效果，是以牺牲时间为代价的。

3.3 定性分析

选取包含光照变化、尺度变化、遮挡、形变和运动模糊等复杂情形的视频序列，进行定性评估，各算法的跟踪结果如图3所示。

(a) Jogging

(b) Woman

(d) CarScale

(e) David

(f) Skating1

由图3可见，各算法在测试视频Jogging、Woman、Box、CarScale、David和Skating1上的运行效果有所不同，而改进算法在不同的复杂情况下都能取得较好的跟踪结果。

通过定量分析和定性分析可知，相对于其他4种算法，改进算法在跟踪性能上有很大提高。改进算法在大部分视频集上MCLE值取得最小，跟踪目标的RVOR值达到最高，跟踪效果达到最佳，虽然以牺牲时间来获取较高的鲁棒性和准确度，但在尺度变化和遮挡等复杂情况的场景中，跟踪效果优于其他算法。

4 结语

结合高斯核相关滤波器和尺度金字塔理论,构建尺度核相关滤波器，给出一种基于HOG、CN和LBP纹理特征融合的多尺度估计方法，实现目标多尺度自适应地目标跟踪，实时更新位置模型和尺度模型的学习因子，可提高对目标位置估计和尺度估计的稳定性。

实验结果表明，提取的HOG、CN和ULBP纹理特征能增强目标外观的描述能力；融合三种特征，构建位置和尺度高斯核相关滤波器，具有较好效果，能缓解目标尺度变化问题；多特征描述也能增强目标的抗遮挡能力。改进算法在复杂场景下具有较高的鲁棒性和跟踪精度，适用于在跟踪要求精度高，对实时性要求不高的复杂场景下。

[1] 高文,朱明,贺柏根,等.目标跟踪技术综述[J/OL].中国光学,2014,7(3):365-373[2016-05-20]. http://dx.chinadoi.cn/10.3788%2fCO.20140703.0365.

[2] 李娜,李大湘,刘颖.基于多示例学习的目标跟踪算法[J/OL].西安邮电大学学报,2014,19(2):43-48[2016-05-20]. http://dx.chinadoi.cn/10.13682%2fj.issn.2095-6533.2014.02.007.

[3] GALOOGAHI H K, SIM T, LUCEY S. Multi-channel correlation filters[C/OL]//Proceedings of the 2013 IEEE International Conference on Computer Vision. Piscataway:IEEE,2013:3072-3079[2016-05-20].http://dx.doi.org/10.1109/ICCV.2013.381.

[4] HARE S, SAFFARI A, TORR P H S. Struck: Structured output tracking with kernels[C/OL]//Proceedings of the 2011 IEEE International Conference on Computer Vision. Piscataway:IEEE,2011:263-270[2016-05-20].http://dx.doi.org/10.1109/ICCV.2011.6126251.

[5] BOLME D S, BEVERIDGE J R, DPAPERB A, et al. Visual object tracking using adaptive correlation filters[C/OL]//Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition. Washington,DC:IEEE Computer Society,2010:2544-2550[2016-05-20].http://dx.doi.org/10.1109/CVPR.2010.5539960.

[6] HENRIQUES J, CASEIRO R, MARTINS P, et al. High-speed tracking with kernelized correlation filters[J/OL].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(3):583-596[2016-05-20]. http://dx.doi.org/10.1109/TPAMI.2014.2345390.

[7] HENRIQUES J, CASEIRO R, MARTINS P, et al. Exploiting the circulant structure of tracking-by-detection with kernels[C/OL]//Proceedings of the 12th European Conference on Computer Vision, LNCS 7575. Berlin: Springer,2012,702-715[2016-05-20].http://dx.doi.org/10.1007/978-3-642-33765-9_50.

[8] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part-based models[J/OL].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(9):1627-1645[2016-05-20].http://dx.doi.org/10.1109/TPAMI.2009.167.

[9] DANELLJAN M, KHAN F S, FELSBERG M, et al. Adaptive color attributes for real-time visual tracking[C/OL]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society,2014:1090-1097[2016-05-20].http://dx.doi.org/10.1109/CVPR.2014.143.

[10] LI Y, ZHU J K. A scale adaptive kernel correlation filters tracker with feature integration[C/OL]//Proceedings of the 2014 European Conference on Computer Vision-ECCV 2014 Workshops, LNCS 8926.Berlin: Springer,2014:254-265[2016-05-20].http://dx.doi.org/10.1007/978-3-319-16181-5_18.

[11] KHAN F S, ANWER R M, WEIJER J, et al. Color attributes for object detection[C/OL]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition.Washington,DC:IEEE Computer Society,2012:3306-3313[2016-05-20].http://dx.doi.org/10.1109/CVPR.2012.6248068.

[12] KHAN F S, WEIJER J, VANRELL M, et al. Modulating shape features by color atention for object recognition[J/OL].International Journal of Computer vision,2012,98(1):49-64[2016-05-20].http://dx.doi.org/10.1007/s11263-011-0495-2.

[13] KHAN F S, ANWER R M, WEIJER J, et al. Coloring action recognition in still images[J/OL]. International Journal of Computer Vision,2013,105(3):205-221[2016-05-20].http://dx.doi.org/10.1007/s11263-013-0633-0.

[14] WU Y, LIM J, YANG M H. Online object tracking: a benchmark[C/OL]//Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Washington,DC:IEEE Computer Society,2013:2411-2418[2016-05-20].http://dx.doi.org/10.1109/CVPR.2013.312.

[15] EVERINGHAM M, VAN G L, CHRISTOPHER K, et al. The pascal visual object classes (VOC) challenge[J/OL].International Journal of Computer Vision,2010,88(2):303-338[2016-05-20].http://dx.doi.org/10.1007/s11263-009-0275-4.

[责任编辑:陈文学]

Scale adaptive object tracking based on multiple features integration

LI Kai, LIU Ying, LI Na, WANG Weijing

(School of Communication and Information Engineering, Xi’an University of Posts and Telecommunications, Xi’an 710121, China)

A multi-scale estimation method based on kernelized correlation filter with multi-features integration is proposed to solve the scale change problem of object tracking. Firstly, histogram of oriented gradient, color name and uniform local binary pattern features of object area are extracted to construct training samples. Then, by solving the linear ridge regression function, the position and scale kernelized correlation filter models are obtained to measure similarity of detection frames candidate area which decides tracking area. Finally, the learning factor of the position and scale model are updated in real-time. Experimental results show that, the proposed method can accurately track the object in complex scenes under different challenge factors, and it is of high robust at complex scenes such as the object scale changes and occlusion.

object tracking, multiple features integration, scale adaptive, occlusion

10.13682/j.issn.2095-6533.2016.06.009

2016-08-10

公安部科技强警基础专项资助项目(2015GABJC51)；陕西省国际科技合作计划资助项目(2015KW-014)；陕西省教育厅专项科研计划资助项目(15JK1661)；西安市碑林区应用技术研发项目(GX1502)；西安邮电大学研究生创新基金资助项目(CXL2015-22)

李凯(1992-)，男，硕士研究生，研究方向为通信与信息系统。E-mail: likai_0325@163.com 刘颖(1972-)，女，博士，高级工程师，从事图像和视频处理研究。E-mail: ly_yolanda@sina.com

TP391.41

2095-6533(2016)06-0044-07