王春平,王 暐,李 军,乔自红
(1.解放军军械工程学院,河北 石家庄 050003;2.解放军63813部队,海南 文昌 571339; 3.解放军63612部队,甘肃 敦煌 736200)
基于金字塔特征的核相关滤波跟踪算法
王春平1,王 暐1,李 军2,乔自红3
(1.解放军军械工程学院,河北 石家庄 050003;2.解放军63813部队,海南 文昌 571339; 3.解放军63612部队,甘肃 敦煌 736200)
针对核相关滤波跟踪算法(Kernelized Correlation Filter tracking, KCF)对特征表达敏感的问题,提出了基于金字塔特征的KCF跟踪算法。该算法通过实验分析发现不同空间尺度上的HOG特征具有不同的目标-背景判别力和定位能力。基于该观测,融合多个尺度上的HOG特征提出了一种金字塔HOG特征,并将该金字塔特征应用于多通道的KCF跟踪框架。实验分析表明,该金字塔特征有效提高了KCF在多达50个视频序列上的跟踪性能。相比于原始KCF算法,所提算法在跟踪精度和成功率典型值上的性能提升分别为5%和4.6%。
视觉跟踪;核相关滤波跟踪;金字塔特征;HOG特征
视觉跟踪是计算机视觉的一个基础性研究方向,在人机交互、监控、增强现实等场景中有着广泛的应用[1]。近十几年来,视觉跟踪的研究取得了长足的发展,涌现出许多优秀的算法[1-4]。其中,JOAO等[5-6]提出了一种核相关滤波跟踪算法,该算法能够应对跟踪中的光照变化、背景干扰、遮挡等挑战,同时具有很高的处理速度。由于其优异的性能,KCF已成为近两年视觉跟踪中的研究热点。文献[7—9]从特征表达的角度对KCF进行改进,分别采用角度梯度直方图[10]特征(Histogram of Oriented Gradient, HOG)、颜色特征、分层深度特征等代替灰度特征[6],均使KCF的跟踪性能有了大幅提升,也表明KCF对特征的选取非常敏感。文献[11]也指出特征提取是决定跟踪算法性能的关键,选取目标-背景判别力强的特征能够有效提高算法的跟踪性能。
HOG特征[10]在人体检测、图像分类、跟踪等应用中取得了成功。但其空间尺度参数由人工设定,无法处理跟踪所面临的多种场景,使得采用HOG特征的原始KCF算法的鲁棒性较差。本文针对该问题,提出了基于金字塔特征的KCF跟踪算法(Pyramid Feature Based KCF Tracking,PKT)。
KCF的每一帧跟踪分为训练和检测两个阶段。在训练阶段,采样目标及其背景区域作为基本样本,区域大小为M×N。在行、列方向上对基本样本进行循环位移得到M×N-1个虚拟样本,记为xi,i=0,1,…,M×N-1,并采用高斯函数yi标记。文献[5—6]采用岭回归和核戏[12]训练滤波器。
(1)
其中,αi为核空间的滤波器组合系数,用α表示所有αi的集合,κ(·)称为核函数。α的解析解在傅里叶域的快速求法为[5]:
(2)
变量的上标“^”表示变量在傅里叶域的对应值。kx0x0为核矩阵K的第一行,保存x0与x0的所有循环转移样本的核函数值,大小为MN。Y为所有标签组成的集合,λ为规则化系数。
当新的一帧图像到来时,首先进行目标检测,提取以上帧目标位置为中心的图像块z,有[5]
(3)
得到的f(z)为与z等大小的滤波响应图,响应图的最大值点即对应目标在当前帧中的中心位置。
(α,x0)为滤波器模型。根据检测的目标位置,在当前帧训练新的滤波器模型,然后对之前的滤波器模型进行更新,进入下一帧的跟踪。具体细节请参考文献[5]。
本节首先分析了HOG特征在不同尺度空间下的特点,基于此设计了金字塔特征(PHOG),并给出PHOG的具体提取步骤。然后,提出了基于该金字塔特征的KCF跟踪算法(PKT)。
2.1 空间金字塔特征
HOG特征提取和统计每个cell(一小块图像区域,如4×4像素大小)的梯度信息作为图像特征,每个cell的特征为31维[10]。通过提取cell的梯度分布,HOG特征能够有效表达图像的局部结构。但HOG特征无法提取视觉目标在不同级别(level)空间尺度(对应于不同的cell大小)上的表达。本文通过实验得到如下两个观测:1)HOG在不同尺度下的目标-背景判别力是不同的。从图1可以看出,在精细的尺度空间(level-1)下,HOG特征的定位精度更高,在粗糙的尺度空间(level-3)下,HOG特征更易于从背景中判别出目标。2)将HOG具有足够的目标-背景判别力,且尽可能精细的空间尺度定义为最佳尺度,则对于不同图像,最佳HOG尺度是不同的。观测图1可知三幅图像(从上到下)的最佳HOG尺度分别为level-2、level-3、level-1。
为满足跟踪的精度要求,需要采用低层的HOG特征;而鲁棒的跟踪,即保证跟踪算法能够应用于多数情况且抵抗背景干扰,需要采用高层的HOG特征。将不同尺度上的HOG特征进行融合,能够满足上述两个要求。因此,本文提出组合多级空间尺度中的HOG特征,构建HOG金字塔(PHOG)特征用于视觉跟踪。PHOG的提取如图2所示,包括:1)求图像梯度;2)将梯度图按不同大小的cell进行划分,求各尺度下的HOG特征,构成金字塔HOG特征;3)将所有层的特征缩放为与最底层等大小,缩放采用双线性插值,然后连接每层特征便得到了PHOG特征。
2.2PKT
本文用PHOG代替KCF中的HOG特征,提出基于金字塔特征的KCF跟踪算法(PKT)。PKT的流程图和基本步骤分别如图3和算法1所示。
算法1:基于金字塔特征的KCF跟踪
初始化:第一帧中目标状态及M,N
fort= 1 toT(T为序列的总帧数)
检测
ift>1 then
步骤1:根据目标状态,采样图像块,并采用PHOG特征表达图像;
步骤2:求图像块对应的响应图(式(3));
步骤3:求当前帧的目标状态;
end
训练/更新
步骤4:根据检测结果训练滤波器系数(式(2));
步骤5:采用线性插值对总滤波器模型进行更新
end
end
为评估所提算法的性能,在CVPR2013跟踪测评集上进行了综合测评。由于颜色特征与HOG特征互补,本文实现了采用PHOG+CN(Color Name,一种颜色特征)与HOG+CN特征的两个KCF算法,分别记为PTK-CN和KCF-CN。
实验中,PHOG设置为两层,cell尺寸分别为4×4和8×8,HOG特征采用PEDRO等[10]改进的版本,直方图量化数为9。本文的实验平台为配置2.6 GHz i5处理器、4 GB内存、6核心的普通电脑,仿真环境为Matlab 2011b,所提算法的跟踪速度达到了35帧/s(Frame per Second, FPS)。
3.1 CVPR2013 测评集及测评准则
CVPR2013视觉跟踪测评集[1]包含50个完整标注的视频序列,涵盖了视觉跟踪面临的主要挑战性场景,即光照变化、尺度变化、遮挡、变形、运动模糊、快速运动、平面内旋转、平面外旋转、目标超出视场、背景干扰和低分辨率。近年来多数跟踪算法以该测评集为基准进行实验和测评。
CVPR2013测评集从跟踪的距离精度和重叠率出发,提出了两个测评准则:精度曲线和成功率曲线。某一图像帧中,跟踪算法的跟踪框与标注的真实目标框的中心距离称为距离精度,两个框的重叠面积与总面积之比为重叠率。精度曲线的横轴为给定的距精度离阈值,纵轴为跟踪的距离精度大于给定阈值的图像帧占所有图像帧的比例。通常取阈值为20个像素时的精度曲线值为典型值Pre-20。成功率曲线的横轴为给定的重叠率阈值,当跟踪的重叠率大于给定阈值时认为该帧跟踪成功。成功率曲线的纵轴为跟踪成功的帧占所有图像帧的比例,取阈值为50%时的值为典型值Suc-50。本文算法采用上述两个准则进行对比测评。
3.2 定量分析
在CVPR2013测评集上对所提算法进行了定量的性能测评。测评算法包括表1所列的6种采用不同特征的KCF算法,以及另外三种在该测评集上表现优异的跟踪算法:Struck[2]、CXT[3]、MIL[4]。图4和表1为测评结果,可见采用了HOG特征的KCF算法,即PKT-CN、KCF-CN、PKT、KCF较其它5种算法有明显优势,相比于Struck算法,性能最优的PKT-CN在Pre-20和Suc-50上分别提高了11%(0.843 vs 0.733)和9.5%(0.738 vs 0.643)。
表1 6种采用不同特征的KCF跟踪算法性能对此
从表1可见,PHOG特征能有效提高跟踪性能。所提PKT的Pre-20和Suc-50值不仅优于KCF,也高于采用了HOG+CN特征的KCF-CN。相比于KCF, PKT-CN在Pre-20和Suc-50上分别提高了5%(0.843 vs 0.793)和4.6%(0.738 vs 0.692)。
3.3 定性分析
为进一步验证PHOG特征的有效性,图5给出了PKT-CN、KCF-CN、PKT、KCF 4种算法对测评集中几个典型序列的跟踪结果。图中序列分别(从上至下)为:Freeman4, Shaking, Tiger1, Liquor。Freeman4为黑白序列,PKT和KCF的结果分别与PKT-CN和KCF-CN相同。在第51帧时,背景变得杂乱,采用单层HOG的KCF-CN无法继续跟踪,而PKT-CN能够从杂乱背景中判别目标,实现了稳定的跟踪。Shaking序列同样存在背景杂乱的问题,而且颜色特征对跟踪有所干扰,导致KCF-CN 跟踪失败,而采用了PHOG特征的PKT-CN能够抵消颜色特征的影响,保持了与原有KCF相同的跟踪稳定性。
Tiger1序列中,玩具被前景植物干扰和遮挡,KCF和KCF-CN分别在112帧和145帧丢失目标,而所提PKT和PKT-CN始终跟踪目标,验证了PHOG特征较强的目标-背景判别力。Liquor序列中,存在与目标表观类似的干扰物体,由于没有采用颜色信息,KCF在第740帧开始跟踪干扰物体,跟踪失败。第779帧时干扰物体对目标进行了长时间的遮挡,导致KCF-CN也丢失目标,而所提PKT和PKT-CN(图中两个算法的跟踪框重合)保持了稳定的跟踪。特别是PKT在没有采用颜色信息的情况也未被类似物体所干扰,进一步验证了所提PHOG特征的有效性。
本文提出了基于金字塔特征的KCF跟踪算法。该算法从特征表达的角度出发,发现不同空间尺度上的HOG特征具有不同的目标-背景判别力和定位能力,因此提出了一种金字塔HOG特征,并将该金字塔特征应用于多通道的KCF跟踪框架。实验分析表明,该金字塔特征有效提高了KCF在多达50个视频序列上的跟踪性能。相比于原始KCF算法,所提算法在跟踪精度和成功率典型值上的性能提升分别为5%和4.6%。
[1]WU Yi, LIM Jongwoo, YANG M H. Online object tracking: A benchmark[C]//IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA: IEEE, 2013: 1354-1362.
[2]SAM H, AMIR S, PHILIP H. Struck: Structured output tracking with kernels[C]//International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011: 263-270.
[3]THANG B, NAM V, GERARD G M. Context tracker: Exploring supporters and distracters in unconstrained environments[C]//IEEE Conference on Computer Vision and Pattern Recognition. Colorado Springs, USA: IEEE, 2011: 1177-1184.
[4]BORIS B, YANG M H, SERGE J B. Visual tracking with online multiple instance learning[C]//IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA: IEEE, 2009: 983-990.
[5]JOAO Henriques, RUI Caseiro, PEDRO Martins, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2015, 32(9): 1627-1645.
[6]JOAO H, RUI C, PEDRO M, et al. Exploiting the circulant structure of tracking-by-detection with kernels[C]//European Conference on Computer Vision. Florence, Italy: IEEE, 2012: 702-715.
[7]BOMLE D S, BEVERIDGE J R, DRAPER B A, et al. Visual object tracking using adaptive correlation filters[C]//IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE, 2010: 2544-2550.
[8]MARTIN D, FAHAD S K, MICHAEL F, et al. Adaptive color attributes for real-time visual tracking[C]//IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE, 2014: 1090-1097.
[9]MA C, HUANG J B, YANG X K, et al. Hierarchical Convolutional Features for Visual Tracking[C]//International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 3038-3046.
[10]PEDRO Felzenszwalb, ROSS Girshick, DAVID McAllester, et al. Object Detection with Discriminatively Trained Part Based Models[J]. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.
[11]WANF Naiyan, SHI J, YEUNG D, et al. Understanding and Diagnosing Visual Tracking Systems[C]//International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 3101-3109.
[12]ZHANG B, SHERIF M E. Fast solver for some computational imaging problems: A regularized weighted least-squares approach[J]. Digital Signal Processing, 2014, 27: 107-118.
Pyramid Feature Based Kernelized Correlation Filter Tracking Method
WANG Chunping1, WANG Wei1, LI Jun2, QIAO Zihong3
(1.Ordnance Engineering College, Shijiazhuang 050003, China; 2.The 63813 Unit of PLA, Wenchang 571339, China; 3.The 63612 Unit of PLA, Dunhuang 736200, China)
Recently, kernelized correlation filters (KCF) have been successfully applied in vision tracking. However, more effective features are appealing to KCF trackers. In this paper, we proposed a pyramid feature based KCF tracking method (PKT). The proposed method argued that the target-background discriminating and locating abilities of HOGs in different space scale were difference. A pyramid HOG feature (PHOG) was designed to achieve the both abilities. Then the proposed PHOG feature was applied to multi-channel KCF framework. Experimental results showed that the PHOG was effective for improving tracking performance which had been tested on 50 video sequences. Comparing with the original KCF, the proposed tracker had a significantly improvement of 5% in representative precision score and 4.6% representative success score.
vision tracking; Kernel correlation filter tracking; pyramid feature; HOG feature
2016-04-28
王春平(1965—),男,陕西汉中人,教授、博士生导师,研究方向:火力控制理论与应用、计算机视觉。E-mail: wchp17@139.com。`
TP391
A
1008-1194(2017)01-0066-05