郭星辰,张 葆,宋 策
(1.中国科学院 长春光学精密机械与物理研究所 中国科学院航空光学成像与测量重点实验室,吉林 长春130033;2.中国科学院大学,北京100049)
目标跟踪作为计算机视觉技术的分支,广泛应用于视频检索、智能监控、人机交互、火控制导等领域。根据已知目标的先验知识,对模板进行评估、分类、标识,获取视频序列中目标状态(如位置、速度等),实现目标跟踪。虽然国内外学者对跟踪技术进行多年研究,编写出许多著名算法(如MIL[1],Mean-shift[2],TLD[3]等),但是由于在空对地跟踪过程中,目标尺度、旋转、融合等问题引起跟踪模板退化,导致跟踪效果不理想,难以满足实际工程的需要[4]。
SVM 是20 世纪90 年代Vapnik 和Cortes 提出的用于模式识别的方法[5]。它是建立在统计学习理论的VC 维理论和结构风险最小化原理基础上的,通过对原问题二次规划求取全局最优解,解决机器学习问题,可利用小样本对目标学习,训练分类器,属半监督学习。随着目标表示方法增多,采用多种表示方法可得到高精度跟踪效果使得在跟踪中数据维数增大,导致实时性下降,SVM 在处理高维数据中表现出独特的优势[6]。针对小样本数据,SVM 分类器[7]对样本的学习能力能够解决跟踪中目标丢失、融合等问题。基于上述分析,本文引入基于SVM 分类跟踪算法,利用灰度直方图和哈尔特征提取目标特征,采用线性、高斯等核函数对视频评估,实现目标精准跟踪。
n 维实数集X 表示输入空间,m 维实数集Y 表示输出空间,Z=X×Y 表示样本空间,F 表示目标函数集合。机器学习的目的是在集合F 中找到一个函数f*(x,α*)逼近满足样本空间Z 中的位置概率分布F。则目标函数的实际风险式中,L(y,f(x,α))为一个给定模式x 的真实值和计算值f(x,α)之间的损失函数。
与用经验风险Remp(f)逼近真实风险的经验风险最小化原理不同,结构风险最小化(Structural Risk Minimization,SRM)原理引入置信风险ε(l,δ,h)
根据文献[5],ε(l,δ,h)可表示为
当VC 维h 增加时,系统对于目标细节掌握的先验知识越多,其识别能力越强,能够在从背景中精确的锁定目标,因此经验风险Remp(f)随着h 的增加而减小;然而,从式(3)可见,算法的置信风险ε 与VC 维h 成正比,这是因为h 的增加会导致系统对背景噪声过于敏感,背景中一个细小干扰都会对目标识别结果造成很大的影响。SRM 原理将真实风险在经验风险与置信风险之间(分类模型复杂度与学习能力)寻求了一个折中,三者关系如图1 所示,在满足跟踪精度的前提下,提高跟踪过程实时性。
图1 分类模型与学习能力关系
支持向量分类器[8](Support Vector Classification,SVC)基本设计思想为,利用核函数对现实问题二次规划为凸优化问题,将尺度空间中线性可分与线性不可分数据均映射为特征空间中线性可分数据,利用最大间隔分类器(即支持向量分类器)对数据学习、分类。
经二次优化后,求解决策函数的问题转化为求解优化问题
式中:ω 为权重向量,b 为偏置,二者共同决定分类超平面;l为样本总数。位于ω,b 所确定的分类超平面上或在超平面附近的输入向量x*被称为支持向量[9],即为图像中区分于背景的目标特征。
选择支持向量机的优势在于它能够将尺度空间中线性不可分数据通过非线性映射函数映射为高维特征空间中线性可分数据,继而在特征空间中选取分类超平面。为了得到非线性映射,支持向量机引入核函数概念,根据Mercer 定理避免了在高维特征空间中进行内积运算问题,进一步提升运算速度。
Mercer 定理:如果函数K 是Rn×Rn→R 上的映射(即两个n 维向量映射到实数域)。那么K 是一个有效函数(也成Mercer 核函数),当且仅当对于训练样本{x1,x2,…,xl},其相应的核函数是对称半正定的[10]。
本次实验采用的核函数下面分别介绍。
线性核函数是各类核函数中形式最简单的,仅仅为两个向量的内积。采用线性核函数算法等价于不采用核函数,故该核函数针对于尺度空间中线性可分的数据。
高斯核函数也称径向基核函数(Randial Basis Function Kernel,RBF),二者的主要差别是高斯函数每一个基函数中心对应一个支持变量,输出权值由算法自主决定。函数中变量十分重要,选取过大会导致函数趋向于线性核函数,高维特征空间将失去其非线性特性;选取过小会导致函数对决策边缘噪声敏感,影响目标跟踪准确度。
选取不同核函数将构成不同的支持向量机,并且对不同实验数据效果亦不相同[11]。线性核函数和高斯核函数应用较为广泛,针对线性可分数据,各类核函数分类效果大同小异,然而线性核函数计算量大大小于其他核函数,可减少算法运行时间,有利于提高算法实时性。高斯核函数适用范围广,不论低维、高维、大小样本等情况,高斯核函数均适用。
直方图是多种空间域处理技术的基础。直方图能有效用于图像增强,其固有信息在其他图像处理应用(如图像压缩与分割)中也非常有用。直方图在软件中易于计算,也适用于商业硬件设备,因此它是实时图像处理的一个流行工具。
本实验将灰度直方图作为目标表示,主要是考虑到其计算简易性,减小算法复杂度。灰度直方图包含了目标的亮度信息,为了进一步突出其易于计算的特点,本算法并未直接对波门中目标像素进行直方图提取,而是先对波门信息进行灰度降级,如此大大缩减了像素灰度数量与存储空间,进而将目标进行一定数量的等分,将图像分块后再进行直方图处理,在减少像素数量的同时,不会丢失目标特有的亮度信息。
哈尔(Haar-like)特征是计算机视觉领域常用的一种特征算子。最初由Papageorigiou 等人用于人脸描述[13-14],分为4 类共15 个算子,其中对角线特征1 个,中心特征(点特征)2个,边缘特征4 个,线特征8 个。特征算子表示为黑白相间的矩形,其特征值定义为黑色区域的像素与白色区域像素的差值,在相减过程中,保证二者的像素数相同。矩形特征的位置、大小根据实验需要进行调整。
矩形特征的灵活性(矩形大小、位置、像素权值)可为分类器提供大量目标特征,积分图为哈尔特征提供快速算法,可在较短时间内完成对大量矩形特征计算,可满足目标跟踪准确性和实时性的要求[15]。故采用哈尔特征对目标进行表示,在提取目标固有特征同时,能够在跟踪过程中目标发生变化后提取并保存新特征,从而保证在跟踪波门中长时间锁定目标。本次实验选取水平方向、垂直方向的边缘特征和线特征,1 个对角线特征,1 个中心特征共6 个特征对目标进行表示,如图2 所示。
图2 目标表示的哈尔特征
本文主要针对机载环境对地面目标跟踪的测试视频,对基于SVC 跟踪算法进行试验验证。测试视频为卡内基梅隆大学数据库中用于测试空对地目标跟踪的视频egtest02,帧频25 f/s,帧图大小为640 pixel×480 pixel。实验设备为Intel CoreTM双核CPU,主频2.53 GHz,内存4.00 Gbyte。实验软件为Visual Studio 2010 和opencv2.4.8。跟踪算法主要采用哈尔特征对目标表示,核函数选取σ=0.2 的高斯核函数。
SVC 中的样本从视频第一帧中选取,由于样本数量较小,为了保证跟踪精度,样本中目标充满整个波门,目标样本在随后跟踪过程中不断扩充。支持向量上限为75,减少计算量提高算法实时性。目标搜索区域为半径30 pixel 圆形,算法对以上一帧中最佳匹配点为圆心的圆内区域进行步长为2 的遍历,利用SVC 对样本集分类,求得本帧中的支持向量,锁定目标位置并将新的支持向量添加进学习器中,如图3 所示。
图3 基于SVC 空对地算法示意图
其中,目标特征评价函数为
式中:x 为搜索区域模板;x*为目标模板;yout表示搜索区域与目标模板相似度,其值越大表示搜索区域是跟踪目标的可能性越大。
跟踪目标为机场背景下匀速行驶的汽车,如图4 所示。绿色边框为跟踪波门,波门中为目标车辆,其余车辆为干扰车辆。在整个视频中,第260 ~548 帧相机焦距增大,目标车辆减速、转弯,车辆尺度、轮廓发生大幅度变化;车辆转弯后在第549 ~716 帧与三辆车进行会车,第三辆车与目标车辆车型相同;会车完成后车辆转弯,在952 ~1 231 帧航拍相机在x 方向剧烈晃动,x 方向最大速度为15 pixel/s,最大加速度为5.17 pixel/s2。
图4 机场背景下的目标车辆
跟踪过程中,航拍相机在第260 帧焦距缩短,目标车辆明显减速,跟踪波门中目标比例减小,如图5b 所示。目标车辆在第402 ~531 帧完成约100°转弯,角速度为1.45 rad/s,第400 ~424 帧遇到强光干扰,如图5c 所示。第530 帧完成转弯,学习器保存目标车辆转弯过长中17 个姿态,支持向量增加到48 个。整个过程中目标车辆锁在跟踪波门内,并未发生任何波门抖动、假跟踪现象。
图5 目标车辆尺度、旋转跟踪结果
车辆完成第一次转弯进行会车实验,六辆车共三种车型,每种车型颜色不同。为减少算法复杂度,实验处理对象均被转化为灰度图像,削弱算法对车辆颜色的分辨能力。在通过前两辆不同车型的车辆时,波门可锁定目标,未出现假跟踪现象,其中相似车辆像素占波门最大达到12.7%,如图6d 所示,但在第677 ~681 帧波门锁定同款相向行驶车辆,如图6f 所示。在完成回车后,目标与相似车辆分离,分类器根据学习器中在之前跟踪过程中对目标积攒的先验知识,重新锁定目标车辆。
图6 会车融合跟踪结果
整个会车过程中,目标车辆分别于三辆相向车辆融合,干扰车辆部分进入跟踪波门,但是没有影响整体跟踪效果,会车阶段跟踪精确度达到98.4%。
目标完成第二次转弯,即第990 帧之后,航拍相机在x 方向产生剧烈抖动,并且焦距调小,目标所占波门比例减小,其像素比例为变换前的1/3,如图7 所示,最大速度达到15 piexl/s。整个过程中目标被波门牢牢锁住,跟踪精度达到100%。
经仿真实验验证,算法在跟踪过程中对目标学习后,可对尺度3 倍变换、角速度1.45 rad/s、融合12.7%波门的目标实现高度准确性和稳定性跟踪,并且排除最大速度为15 piexl/s相机抖动的不稳定因素,鲁棒性较强,因此,基于SVC 跟踪算法精度满足实际工程应用。
图7 航拍相机剧烈抖动跟踪结果
算法复杂度与目标模板和支持向量数量成正比,实验中视频后期随学习器模板数量增多实时性略有下降,为降低目标尺度发生较大变换时学习器增加目标模板的数量,算法后期将修改对视频波门尺寸,增大目标所占波门比例,减少学习器模板数量,减小算法复杂度,提高实时性。
[1]BABENKO B,YANG M H,BELONGIE S.Visual tracking with online multiple instance learning[C]//Proc. CVPR 2009. Anchorage,Alaska:IEEE Press,2009:983-990.
[2]王梦斐,王沛,马燕,等. 基于卡尔曼和图像信息量的MeanShift改进跟踪算法[J].电视技术,2015,39(5):41-44.
[3]KALAL Z,MATAS J,MIKOLAJCZYK K. Pn learning:Bootstrapping binary classifiers by structural constraints[C]//Proc. CVPR 2010.San Francisco:IEEE Press,2010:49-56.
[4]宋策,张葆,尹传历,等. 基于粒子滤波的空-地目标跟踪算法[J].光电子·激光,2013,24(10):2017-2023.
[5]VAPNIK V. The nature of statistical learning theory[M]. New York:Springer,1995.
[6]李俊,陈善学,冯银波. 无人工样本的SVM 遥感图像分类方法[J].电视技术,2013,37(23):27-30.
[7]文学志,方巍,郑钰辉. 一种基于类Haar 特征和改进AdaBoost分类器的车辆识别算法[J]. 电子学报,2011,39(5):1121-1126.
[8]侯明,张新新,范丽亚.四类基于支持向量机的多类分类器的性能比较[J]. 聊城大学学报:自然科学版,2014,27(3):54-60.
[9]王文剑,门昌骞.支持向量机建模及应用[M]. 北京:科学出版社,2014.
[10]CRISTIANINI N,SHAWE-TAYLOR J. 支持向量机导论[M].李国正,王猛,曾华军,译.北京:电子工业出版社,2004.
[11]宋晖,薛云,张良均. 基于SVM 分类问题的核函数选择仿真研究[J].计算机与现代化,2014(8):133-136.
[12]鲁凯翔,田鹏辉,隋立春.利用二维灰度直方图跟踪红外运动目标[J]. 测绘通报,2014(3):29-31.
[13]陈勇飞,刘新明. 基于肤色和类Harr 特征的人脸图像的人眼检测[J]. 计算机工程与应用,2009,44(33):174-176.
[14]李盛文,鲍苏苏. 基于PCA+AdaBoost 算法的人脸识别技术[J]. 计算机工程与应用,2010,46(4):170-173.
[15]HARE S,SAFFARI A,TORR P H S. Struck:structured output tracking with kernels[C]//Proc. ICCV 2011. Barcelona,Spain:IEEE Press,2011:263-270.