崔剑 侯晓荣
(电子科技大学,四川 成都 611731)
基于多尺度特征近似计算的行人检测方法
崔剑 侯晓荣
(电子科技大学,四川 成都 611731)
传统的多尺度特征计算都是首先构造不同尺度的图像形成图像金字塔,然后在金字塔每一层上通过滑动窗口的办法提取相应的特征,实验表明在目标检测时特征提取消耗大量时间,改善特征提取的速度是提升目标检测速度的关键。本文使用FFC(Fast Feature Computation)计算方法对多尺度图像特征进行快速提取,同时结合Adaboost算法和多特征融合方法用于行人目标检测,实验结果表明效果较好。
图像金字塔;滑动窗口;FFC;Adaboost;多特征融合
行人检测技术属于人工智能领域研究的一部分,然而信息技术的发展将行人检测技术推广到了现实应用之中。传统的特征提取方法遍历多尺度图像并提取每一个尺度下图像的特征。Dalal和Triggs[1]提出使用HOG特征用于行人目标检测,单特征提取速度较快但是检测效果不佳。Gavrila[2]采用全局模板,利用层级模板匹配实现行人检测,在分层遍历检测时消耗大量时间。Lin等人[3]利用人体局部特征构造模板匹配,此方法检测速度较快但是利用局部特征难以表征全局,实际检测效果欠佳。Borgefors[4]提出参数化边缘模板,针对同一张图片不同的分辨率情况下,使用HCMA完成模板匹配,此方法与Gavrila检测方法一致需要耗费大量时间。Walk等人[5]提出的CSS特征与Gao等人[6]提出的ACF特征本质都是单特征提取,区别在于表征目标信息不同。孙锐等人[7]提出融合的显著性信息与HOG-NMF特征与Wang等人[8]提出的HOG-LBP特征都是利用多特征融合方式最大程度表征行人目标,改善了检测的效果但是特征提取速度较慢。
考虑到单特征计算速度快但是检测效果不好且多特征融合提取计算复杂度较高的问题,本文提出了快速特征计算方法,在不影响检测效果的情况下提高检测的速度。快速特征计算改善了目标特征提取的速度,有助于实现实时检测目标。
区别于传统的多尺度特征计算,快速特征计算无需对图像金子塔每一层图像提取特征,而是在当前尺度下取得的特征近似计算相邻尺度下图像的特征。因此可以在不遍历图像金字塔的情况下实现多尺度图像特征的提取,一定程度上加速了特征计算。
2.1 图像金子塔
图像金字塔是以多分辨率来解释图像的一种结构。图像金字塔最初用于机器视觉和图像压缩,一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低的图像集合。金字塔的底部是待处理图像的高分辨率表示,而顶部是低分辨率的近似。对于行人检测来说,行人在图像中的深度信息不一样,因此需要提取不同分辨率下行人目标特征。
图1 图像金字塔
2.2 多尺度特征近似估计
图像金子塔的构成本质对源图像进行采样,采样的方法有双线性插值、最近邻法等方法。图像采样之后会得到一系列不同分辨率的图像组合。不同尺度图像特征存在着关联性。本文以梯度直方图为例说明多尺度特征之间关联性。
对于源图像Im(x,y),上采样系数τ,得到图像Im'(x,y),采样公式如下:
根据图像梯度信息定义可知采样前与采样后图像梯度之间的关系:
因此全局梯度幅值之间的关系如下:
本文从INRIA数据集选取了1000张正样本和1500张负样本,采样系数为2,结果如图2:
图2 上采样梯度幅值比例
图2所示为测试的样本上采样梯度幅值比例直方图,从图中可以看出大部分样本都是在比例为2附近,与预期的结果一致。对于下采样的结果如图3所示:
图3 下采样梯度幅值比例
针对正负样本的下采样的结果如图3所示,显示的结果表明大部分的样本的比值分布在0.3左右,与预期的0.5相差较多。因此,对于下采样的特征近似估计可以使用测试样本的均值来表示在采样系数为τ的情况下特征近似估计的系数。图中正负样本下采样的均值分别为0.3335和0.2944,则可以使用这两个均值代替影响因子近似计算不同尺度特征。
Ruderman和Bialek[9,10]提出对于图像不同尺度下的基于像素点的信息数据统计规律。假设Г(Im)表示图像Im任意尺度下的数据信息,E(Г(Im))表示当前尺度下图像数据的期望,因此对于不同尺度下的数据可用E(Г(Imk))表示,对于任意给定的尺度κ1和κ2下,二者图像数据信息之间的关系为:
对于给定的图像Im构造多尺度下的图像集合Im={Im1,Im2,…,Imn},对应尺度下获得的特征数据为F={F1,F2,…,Fn},代入上述公式可得:
上式中ζ表示对于给定图像特征数据的方差。之前举例说明的特征计算近似估计可得,对于最终特征数据近似参数τ的估计如下:
通过提取样本不同的特征可以根据τ的值近似得到λF值的大小。通过对INRIA训练样本中1218个负样本进行测试得到不同特征不同尺度下τ和λF的拟合曲线。基于梯度直方图的拟合曲线如下:
图4 梯度直方图特征拟合效果图
本文采样INRIA样本集上的614张正样本和1218张负样本作为训练的样本,在样本上分别提取LUV颜色、梯度直方图和梯度幅值特征,然后交由Adaboost训练得到相应的分类器在测试样本上检测目标。在本文中对于测试样本的选取是采用了300张正样本图片和500张负样本图片,实验结果DET曲线如下:
图5 INRIA样本集实验DET曲线
从图5可以看出在INRIA样本集上目标检测误检率达到10-2时,使用本文提出的方法与Pls方法[11]相比漏检率低30%,相比于Dalal提出的HOG特征方法漏检率低近40%。部分实验效果图如下:
图6 行人检测效果示意图
图(a)中虽然检测出所有的行人目标,但是最右边的行人身体部分被检测出来。由于行人目标姿态、衣着等经常变化,因此检测存在着难度。图(e)中多姿态行人被准确检测出来。图(b)中检测出离摄像头近的行人目标,由于在实验中设置了最小滑动窗口的阈值,对于很小的行人目标检测存在着困难。图(c)(d)(f)(g)(h)均有很好的检测效果。
本文针对给出图6中8幅图片使用HOG、HogLbp和本文方法计算消耗时间的比较,验证检测方法的快速性。
表1 行人检测方法时间表
从上述的实验结果可以看出FFC方法提高了行人检测的速度,结合多特征融合的方式又可以保证行人检测的准确率。但是提取的特征描述行人目标仍然存在着不足,在以后的研究中可以寻找更适合的特征作为行人目标的描述。在实际现实中图像的复杂程度会更大,也增加了检测的难度,所以需要全方位角度去加强姓人检测的效果。
[1]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition,2005.CVPR 2005.IEEE Computer Society Conference on.IEEE,2005,1:886-893.
[2]Gavrila D M.A bayesian,exemplar-based approach to hierarchical shape matching[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2007,29(8):1408-1421.
[3]Lin Z,Hua G,Davis L S.Multiple instance feature for robust partbased object detection[C]//Computer Vision and Pattern Recognition,2009.CVPR 2009.IEEE Conference on.IEEE,2009:405-412.
[4]Borgefors G.Hierarchical chamfer matching:A parametric edge matching algorithm[J]. Pattern Analysis and Machine Intelligence,IEEE Transactions on,1988,10(6):849-865.
[5]Walk S,Majer N,Schindler K,et al.New features and insights for pedestrian detection[C]//Computer vision and pattern recognition(CVPR),2010 IEEE conference on.IEEE,2010:1030-1037.
[6]Gao W,Ai H,Lao S.Adaptive contour features in oriented granular space for human detection and segmentation[C]//Computer Vision and Pattern Recognition,2009.CVPR 2009.IEEE Conference on.IEEE,2009:1786-1793.
[7]孙锐,陈军,高隽.基于显著性检测与HOG-NMF特征的快速行人检测方法[J].电子与信息学报,2013,35(8):1921-1926.
[8]Wang X,Han T X,Yan S.An HOG-LBP human detector with partial occlusion handling[C]//Computer Vision,2009 IEEE 12th International Conference on.IEEE,2009:32-39.
[9]Ruderman D L,Bialek W.Statistics of natural images:Scaling in the woods[J].Physical review letters,1994,73(6):814.
[10]Ruderman D L.The statistics of natural images[J].Network: computation in neural systems,1994,5(4):517-548.
[11]Schwartz W R,Kembhavi A,Harwood D,et al.Human detection using partial least squares analysis[C]//Computer vision,2009 IEEE 12th international conference on.IEEE,2009:24-31.
AMethod for Pedestrian Detection Based on Fast Feature Computation
Cui Jian Hou Xiaorong
(University of Electronic Science and Technology of China,Chengdu,Sichuan,611731)
Traditional multi-scale feature extraction method for pedestrian detection firstly constructs image pyramid and then extracts corresponding features by sliding window method.The experiment reflects that it costs much time on feature extraction while we detect pedestrians.What we have to do is improving feature computation speed while does not matter detection performance.This paper proposes FFC(Fast Feature Computation)method for feature extraction and makes use of Adaboost algorithm and multi-features merge.Experimental results show that the effect is better.
image pyramid;sliding window method;FFC;Adaboost;multi-features merge
TP391.41
A
:1008-66609(2015)04-0050-03
崔剑,男,安徽合肥人,硕士,研究方向:模式识别与智能系统,计算视觉与机器学习。