基于Gabor小波与HOG特征的目标检测方法

2014-11-20 08:18常岐海吴宗胜
电视技术 2014年7期
关键词:小波特征提取分类器

薛 茹,常岐海,吴宗胜

(1.西藏民族学院信息工程学院,陕西咸阳712082;2.长安大学信息工程学院,陕西西安710064;3.西安理工大学机械与精密仪器工程学院,陕西西安710048;)

计算机视觉中目标的检测和跟踪是智能交通、智能监控、体育视频内容分析等领域的重要基础。因此,为了推动视频监控系统智能化的发展,在理解目标的行为之前,对场境中目标的自动识别是实现智能化必不可少的一部分,也是近几年计算机视觉发展的重点和热点。目标的识别是在目标运动范围内提取目标的有效特征,并根据此特征进行目标的分类;其中最关键的是如何提取有效、鲁棒、完整的特征,来提高目标分类的精确度。尽管文献中已经有许多目标识别方法,但是目标的自动识别问题还远未解决[1-2]。

当前已经有了很多目标识别方法,这些方法一般分为两类:提取特征和构建分类器。提取特征主要是从大量的训练样本中提取目标和非目标的特征,用这些特征训练分类器。在测试中,该分类器在整个输入图像中寻找特定对象模式。这种方法在许多检测不同对象过程中非常有效,例如人脸识别[3]和车牌识别[4]。关于检测特征的方法可以区分为全局特征和局部特性。局部特征和全局特征的区别在于,全局特征是对整个图像操作,而局部特征是针对图像的一块区域操作。众所周知的全局特征提取方法是主成分分析(PCA)法,其缺点在于如果检测目标在外观、姿势和照明条件上有很大的变化,提取不出有意义的特征。另一方面,局部特征方法由于提取的特征针对图像的部分区域,对这些问题更不敏感。局部特征提取的常用方法有小波系数[3]、梯度方向[5]和区域协方差[6]。局部特征的方法是对人身体各部分进行检测,然后对各部分的结果进行融合,再用分类器完成对目标的检测。局部特征检测的优势是可以处理由于身体关节引起的目标不同的外形。然而,这种方法增加了目标检测过程的复杂性[7]。文献[8]对几种目标检测方法的性能通过分类器接收操作特性(Receiver Operating Characteristic,ROC)检测其性能和效率。检测的方法包括PCA、局部接收场(LRF)特征[9]、Haar小波的不同特性训练神经网络、支持向量机[10]和 k-NN(神经网路分类器),得到的结论是SVM与LRF特征结合的方法性能最好。同时也可以看到基于全局特征的检测器性能大于局部特征检测器。这可能是由于目标外形有太多变化,像PCA的全局特征能更好地为目标建立稳定的模型。近几年方向梯度直方图(HOG)特征在目标检测中的应用使目标检测技术有了很大进步,HOG算子成功之处在于它采用了梯度的统计信息描述目标的局部轮廓。文献[5]中用HOG算子表示一个位置上用固定大小的目标块,块大小固定化是为了降低计算量;在此基础上提出了很多改进的方法,如文献[7],考虑到固定大小的HOG块漏掉了全局线索,因此它采用了可变大小的(VHOG)块,以不同大小的块获得更多的信息,并用线性SVM形成弱分类器,然后用级联Adaboost机制识别目标,从结果中可以看到这种方法比原始的HOG方法性能好。

本文在文献[5]和文献[7]方法的基础上,结合HOG特征,提出一种基于GHOG与realboosting方法结合的目标识别方法。Gabor小波强调图像在同一频率的特征成分,辨别局部目标和提取尺度、旋转、变换、光照变化不变的局部特征[11]。特别适合急剧变化的目标,比如视频监控中移动的目标。因此,Gabor小波从局部区域捕获信息,并且将不同方向、频率和尺度的相应滤波信息进行结合,用来表示复杂的目标[12]。这样,由于包含了几个Gabor图像,每个滤波有好几个Gabor图像,能维护和增强目标的整体信息。这种丰富会反映在HOG特征提取方法中,本文中的Gabor特征的融合能增强图像中的相关信息,并降低其他信息的影响,排除干扰和影响分类性能的混乱数据。Gabor预处理后,相关的目标信息被增强,不相关的信息和数据被排除,提高了HOG算法的全局性能。

1 GHOG特征提取

1.1 Gabor小波变换

Gabor小波变换是被Gabor提出使用在1D的信号分解,是时频域分析在时域和频域最优化的决策。由于它的形状类似于视觉皮层简单细胞的可接收场,从数学上讲它在测量局部空间频率上Gabor小波是最佳的;在模式识别中Gabor小波能产生畸变宽容特征空间,广泛引用在纹理分割、字符识别、指纹识别领域中。

在空间域,2D Gabor小波可以看作是被正弦平面波调制的一个高斯核。Gabor小波函数的定义为ψ(ku,v,r)

式中:r=(x,y);‖·‖ 表示范数运算;ku,v=kveiφu,kv=kmax/fv;φu=πu/8;f为核函数在一个限定域中的间隔因子;在介于4到16像素中,u和v分别表示Gabor滤波器的方向和尺度。用Gabor滤波函数对目标图像的滤波,可以通过与图像的卷积来实现。

式中:I(z)表示目标的灰度图像z=(x,y);* 表示卷积运算。在运算中卷积除了在空间范围内逐个像素进行,还要在频域中按高斯窗口宽度、振荡方向、波长进行。

为了在实际采样过程中较全面地得到细节纹理,需要均衡v,u或kv,取值,即尽量在不同的尺度和方向上均匀取值。在[0,π]范围几乎覆盖采样所需的所有方向空间,因此,u或Qu可以在该范围内连续取值。当然,方向选取越多,得到的纹理信息越接近实际,但是同时会使采样获得的特征维数增多,运算复杂度加大;所以本文采用均匀离散采样的方法,使每个方向上都有采样点。这样通过5 个尺度(v∈ {0,1,2,3,4})、8 个方向(0 ~7π/8)进行采样,u∈ {0,1,2,3,4,5,6,7}。

1.2 Gabor特征融合图像

从图1中可以看出,5个尺度、8个方向会生成40幅Gabor特征图像,如果直接用HOG方法提取特征会使接下来的分类过程计算量和内存成本大大提高,为了使目标识别系统更加有效但又不丢失其特征,需要对Gabor特征进行融合。

1)方向融合

本文首先采用文献[13]提出的全局编码的形式,对Gabor特征在同一尺度的多个方向上的特征进行编码,这样能有效降低Gabor特征的维数,又能保证方向特征信息不丢失。

根据QBC,对于每个像素的5个尺度、8个方向的Gabor特征,可以对每个像素进行编码。针对每个像素在给定尺度时根据不同的方向上的Gabor特征的实部和虚部进行编码。GCv(z)表示为像素z在尺度v的编码。(z)与(z)分别表示Gabor的实部和虚部编码,i=7表示从0~7的8个方向。编码完成后,实部和虚部都是8个二进制位表示,其表示的十进制数字的范围为[0,255]。

图1 图像Gabor特征提取过程

编码之后每个像素可以用8位二进制数表示,刚好符合灰度图像像素的表示范围,对编码之后的图像提取(如图1)后发现,纹理比较丰富。

2)尺度融合

融和后的图像还有5个尺度上的特征,从图1可以看出,融和后的图像在5个尺度上纹理比较相似,由此可见存在一定的数据冗余,为了让融合后的图像简单、有效地展现其Gabor特征,又能保证其特征信息不丢失,可以对其5个尺度继续进行融合。

在方向融合的过程中发现,每个像素都可以由一个类似灰度的编码表示。为了保证5个尺度上编码信息不丢失,采用对每个像素编码的十进制数求均值的方法,这样既能兼顾每个尺度上信息,又能降低数据的维数,降低计算量。公式为

从图1可以看到,尺度融合后的图像能从整体上显示出人的轮和纹理,剔除了由于阴影、姿态等造成的干扰。由此可见,Gabor特征的融和图像能够鉴别出目标的纹理特征,另外,由于HOG对于纹理图像特征的检测效率较高,因此Gabor特征图像进行直方图特征提取。

1.3 HOG特征提取和分类

在实际中,为了提高HOG方法检测的精度,在单元格内计算时采用了重叠单元的归一的方法,通过归一化能有效提高检测结果的稳定性。本文在此输入的图像是Gabor特征图像,其本身纹理和轮廓就比较明显,为了更清晰地提取目标的纹理和轮廓信息,对此采用HOG的方法提取目标特征。

为了对检测到的Gabor图像中颜色的变化和反差进行定位,需要计算每个像素的梯度,用2个一维的简单算子,水平方向采用[-1,0,1],垂直方向用[-1,0,1]T。在计算方向直方图的过程中,需要2×2的单元,每个单元9个方向通道,每个窗口中会有一个包含36个特征的向量。这样,每幅图像一共有21×36=756个特征。根据文献[5]中对于块的归一化问题采用L2Hys的方法,设v为块向量,对其标准化后的Vnorm为

式中:ξ为一个近似为0的正数;‖·‖2为二范数,根据块的空间位置其向量按顺序排列,这样就形成了GHOG统计特征。

考虑到GHOG特征的维数偏大,训练样本的数目也非常大。传统的神经网络分类方法,其学习时间过长,如果用其来构造目标识别的分类器学习时间超过1 h;虽然SVM方法需要的学习时间比较短,但是在检测过程中花费的时间较长,这样使用SVM方法就不能实现实时检测的目的;Boosting方法学习时间不长,检测的速度也比较快。和RealAdaboost方法相比,Adaboost方法是采用二值判断的,而RealAdaboost方法采用的命中率(即置信度)来描述目标识别的精确程度。开始时的分类器是在一个开练集中训练得到的,用初始的分类器从大量目标图像中对目标随机样本中的GHOG特征进行识别,根据识别的结果计算每层的误警率,并且在下一层的学习中不断增加负样本。HOG特征提取如图2所示。

图2 HOG特征提取

2 试验与分析

对于目标检测,已经有几个公用的标准数据库,本文采用的INRIA几乎覆盖了所有的视点和姿态的变化。它包括了训练用的2 478个正样本和1 218个负样本。由于INRIA数据集中都是分割后的样本,因此对分类方法中的训练算法比较有效。另外本文还采用MIT的目标数据集,其中包含正924张目标图片,没有负样本。通过MIT与INRIA标准数据库训练分类器,将图像分为两类,目标和非目标。分类器首先通过训练图像进行学习,然后对测试图像进行检测。

2.1 试验结果

用该方法测试PET2009的数据库,根据INRIA数据集,用INRIA训练样本对本文提出的方法进行学习,另外,采用查全率和精确率测量来检测本文提出的方法,结果如表1所示。查全率是检测正确目标的数目除以目标的总数目(tp为正阳性数目,检测到且是目标像素的数目;fn为没有检测目标像素的数目);查准率是检测到目标像素数目除以检测目标像素数目(tp真阳性与假阳性fp的和)。

表1 PET2009检测中的查全率和查准率

视频PET2009的视频序列中,seq2中目标存比较拥挤、遮挡比较严重的现象,因此检测查全率和查准率都不高;相反在seq1中,人行较少,且几乎都是独立存在的,因此查准率为1,同样seq3和seq4中目标大部分是独立的,所以查准率也较高;seq3中,目标比较清晰且无遮挡因此查准率比其他高。

2.2 结果分析

为了进一步证明本文提出方法的性能,在实验中将本文的方法与其他目标检测方法进行对比,其中包括HOG_SVM[3]、VHOG_CAdaboost[5]方法。比较的方法采用错误率(MissRate)和每个窗口的假阳性(FPPW)的曲线图,FPPW定义如下

比较结果如图3所示。HOG_SVM方法的数据是通过开放源码HOG和LinSVM及论文的结论;VHOG_CAdaboost方法的数据结论来自于文献。从图中可以看到本文提出的方法比基于HOG的方法性能优越,在FPPW为10-5时,本文的方法达到了9%的漏检率,比HOG_SVM方法低了8%。

图3 与传统方法在INRIA数据集中的比较

3 结论

Gabor滤波方法是目标分类特征提取较的好方法,但是由于Gabor特征的维数很大,因此会占用大量的内存和计算时间。因此在设计分类方法时应考虑到特征的维数。另外,将1幅图像和40个Gabor小波进行卷积计算量也是非常大的,这将使Gabor不能应用于实时目标检测中。本文提出的方法能在提取Gabor特征的同时对图像的Gabor特征在方向和尺度上较好地融合,并保持原图像的特征,形成Gabor特征图像;通过对Gabor图像进行HOG提取进行目标检测,能有效降低错误检测率;另外该方法选取了RealAdaboot的方法进行分类,在时间上有效弥补了提取Gabor花费的时间,在Gabor特征图像融合过程中采取了编码的方式,使计算量也有效降低。因此该方法在节约内存和降低计算量方面有更好的性能。

[1]张壮暑,蔡晓东,张学敏.监控视频中运动目标识别分类系统研究[J].电视技术,2012,36(23):165-167.

[2]张建飞,陈树越,刘会明,等.基于支持向量机的交通视频人车识别研究[J].电视技术,2011,35(15):1-3.

[3] VIOLA P,JONESM J.Robust real-time face detection[J].International Journal of Computer Vision,2004,57(2):137-154.

[4] AMIT Y,GEMAN D,FAN X.A coarse-to-fine strategy for multiclass shape detection[J].IEEE Trans.Pattern Analysis and Machine Intelligence,2004,26(12):1606-1621.

[5] DALAL N,TRIGGSB.Histograms of oriented gradients for human detection[C]//Proc.IEEE Conference on Computer Vision Pattern Recognition.San Diego:IEEE Press,2005:886-893.

[6] TUZEL O,PORIKLIF,MEER P.Human detection via classificationon Riemannian manifolds[C]//Proc.IEEE Conference on Vision Pattern Recognition.Minneapolis:IEEE Press,2007:1-8.

[7] ZHU Q,AVIDAN S,YEH M C,et al.Fast human detection using a cascade of histograms of oriented gradients[C]//Proc.IEEE Conference on Computer Vision Pattern Recognition.[S.l.]:IEEE Press,2006:1491-1498.

[8] MUNDER S,GAVRILA D M.An experimental study on pedestrian classification[J].IEEE Trans.Pattern Anal.Mach.Intell.,2006,28(11):1863-1868.

[9] WHLER C,ANLAUF J.An adaptable time-delay neural-network algorithm for image sequence analysis[J].IEEE Trans.Neural Netw.,1999,10(6):1531-1536.

[10] TAYLOR J,CRISTIANINI N.Support vector machines and other Kernel-based learning methods[M].Cambridge,U.K.:Cambridge U-niversity Press,2000.

[11] KYRKIV,KAMARAINEN JK.Simple Gabor feature space for invariant object recognition[J].Pattern Recognition Lett.,2004,25(3):311-318.

[12] KRUGER V,SOMMER G.Gabor wavelet networks for efficient the adopts estimation[J].Image Vision Computer,2002,20(9-10):665-672.

[13] ZHANG Baochang,SHAN Shiguang.Histogram of Gabor phase patterns(HGPP):a novel object representation approach for face recognition[J].Trans.Image Processing,2007,16(1):57-59.

猜你喜欢
小波特征提取分类器
构造Daubechies小波的一些注记
基于MATLAB的小波降噪研究
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于Daubechies(dbN)的飞行器音频特征提取
基于改进的G-SVS LMS 与冗余提升小波的滚动轴承故障诊断
基于实例的强分类器快速集成方法
Bagging RCSP脑电特征提取算法
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
基于MED和循环域解调的多故障特征提取