蔡英凤, 王 海,陈小波, 陈 龙,江浩斌
(1.江苏大学汽车工程研究院,镇江 212013; 2.江苏大学汽车与交通工程学院,镇江 212013)
2015207
驾驶辅助系统基于融合显著性的行人检测算法*
蔡英凤1, 王 海2,陈小波1, 陈 龙1,江浩斌2
(1.江苏大学汽车工程研究院,镇江 212013; 2.江苏大学汽车与交通工程学院,镇江 212013)
为满足先进驾驶辅助系统的高准确性行人检测要求,提出一种模拟人类注意力机制的视觉显著性行人检测方法。基于仅含行人信息的标记样本库,建立了条件随机场(CRF)模型,以实现不同显著性计算方法的最优融合。实际检测中,首先采用SLIC算法进行图像超像素形式的几何信息划分,进而对可能存在行人的区域进行初筛选,随后在可能的行人区域内,采用CRF模型计算显著性,并将具有较高显著性的区域确定为行人区域。实验结果表明,该方法具有较好的判别性能并达到满意的检测率,同时,采用的行人区域筛选方法在一定程度上缩短了算法的检测时间,基本满足了车载平台的实时性要求。
先进驾驶辅助系统;行人检测;视觉显著性;条件随机场
基于视觉的行人检测是车辆先进驾驶辅助系统(advanced driver assistance systems,ADAS)的重要研究内容。统计数据显示,近几年我国平均每年发生交通事故20余万起,死亡人数超过6万人,居世界首位。其中,超过60%的死亡人员是行人或骑自行车和骑摩托车者[1]。可见,有效而可靠的行人检测对挽救生命有重要的现实意义。因此,众多汽车生产企业推出了带有行人检测功能的概念车,EuroNCAP也在2014年新增了行人保护项目。
然而,面向ADAS 的行人检测,受其特定应用背景的限制面临如下挑战:(1)行人检测处于开放环境下,光照突变、遮挡等常造成行人视觉信息污染;(2)不同衣着、不同体态、不同外观高度的行人目标具有较大类内差异性;(3)ADAS对算法实时性与准确性要求之间存在固有矛盾。上述难点使行人检测成为ADAS和计算机视觉的研究难点与热点。
一般来说,行人检测可以分成基于人体模型和基于统计学习两大类方法。基于人体模型的方法通过归纳出一些规则或构建出一些模板来描述行人的外观模式、运动规律和某些特性[2-3]。文献[4]中提出基于行人轮廓模板距离匹配计算实现行人识别的算法,该算法事先从大量图像序列中勾勒出约2 500个表征行人各种可能姿态的轮廓,随后对这些轮廓进行Chamfer距离变换,作为行人匹配的模板,该方法已被Protector项目[5]用作底层的粗粒度行人检测方案。文献[6]中利用不同大小的二值图像模板对人头和肩部进行建模,以此作为行人匹配的模板。总体来说,基于人体模型的算法操作简单,但由于实际交通环境下行人姿态的复杂性,很难构造出足够的模板以处理不同的姿态,算法的适应性受到限制。
基于统计学习的行人识别方法通过不同的行人描述特征和各种分类算法的结合实现行人区域的判断。该类方法立足于大量行人和非行人样本在外观模式上体现出来的统计规律,主要包含两个技术环节:特征提取和分类器的设计。目前,较常用的行人特征描述器有文献[7]中设计的Haar-like特征、文献[8]中提出的描述图像纹理的局部二值模式(local binary pattern, LBP)特征、文献[9]中提出的Edgelet特征、文献[10]中提出的边缘方向直方图(Edge Orientation Histograms, EOH)特征、文献[11]中提出的尺度不变特征变换(scale invariant feature transform, SIFT)特征、文献[12]中提出的方向梯度直方图(histograms of oriented gradients, HOG)特征等。行人检测领域常用的分类算法主要有:支持向量机(support vector machine, SVM)、各种Boosting 方法和人工神经网络(artificial neural networks, ANN)等。将人工设计的特征描述器与分类算法结合是目前统计学习方法进行行人检测的主流思路。文献[13]中利用Haar特征和AdaBoost算法和级联分类器成功地实现第一个实时人脸检测系统。文献[14]中利用Haar小波特征,结合SVM算法构造了一个静态图片上的行人检测系统。为提高SVM的分类性能,文献[15]中提出了直方图交叉核(HIK)的一种近似算法,使得分类器速度接近线性SVM的同时,分类性能得到了明显提高。文献[16]中利用HOG特征结合可变部件模型实现了遮挡环境下的人体、汽车等目标的检测。上述基于统计学习的方法在一定程度上或特定条件下解决了行人检测的问题,但在复杂交通场景下,非刚体的行人目标存在的较大类内差异性和受污染性,导致基于人工特征的分类器模型判别性能和泛化能力不足,满足不了ADAS对高准确性行人检测的要求。
本文中从ADAS中机器视觉用以弥补人类视觉注意力下降的根本任务出发,提出一种模拟人类注意力机制的视觉显著性行人检测方法。视觉显著性是目前计算机视觉领域的研究热点,在目标提取、图像检索、视频摘要等方面均有成功应用,但用于特定目标识别任务的显著性模型并不多见。本文中立足于显著性分析的两种现象:不同的显著性计算方法在同类图片集上有不同的显著性分析效果;同一显著性计算方法在不同类别图片集合中的检测效果存在差异,以行人检测为目标,在统计学习的框架下,设计了多显著性模型融合的行人提取方法,算法整体结构如图1所示。
根据道路的特点,单幅图像中道路场景的几何信息主要分为天空、平面物体和垂直物体3类。其中,天空部分往往位于图像上方,平面物体通常指路面区域,垂直物体则是竖立于路面的物体,包括行人、车辆、树木和护栏等。因此,针对ADAS高实时性的要求和车载平台计算能力受制约的现状,本文中采用文献[17]中提出的图像平面信息提取方法,从道路场景中筛选出可能的行人区域,作为后续显著性计算的范围。
首先,基于SLIC方法[18]进行图像底层超像素形式的划分。底层信息是指图像中如像素灰度、颜色等无需加工即可获得的图像信息,超像素是底层信息一种重要的表达方式,其本质是一种过分割方法,即将图像中具有相同或相似特征属性的近邻像素聚合成一个组,并命名为一个超像素。图2(a)对应的超像素形式如图2(b)所示。
其次,将每个超像素用颜色、位置、透视效果等信息进行表征,并将其输入到一个经预先训练的回归Adaboost分类器中,得到每个超像素的所属类别:天空、路面或垂直物体。图2(a)对应的分类结果如图2(b)所示,路面用灰色标记、天空用浅灰色标记、垂直于路面的物体以“×”号标记。
最后,将图像像素中属于天空和路面的区域置为全黑BGR(0,0,0),只有属性为垂直物体的图片区域参与后续显著性计算流程。
2.1 显著性地图的获得
近年来,基于人类认知机制的图片显著性分析方法取得了不错的研究成果,已开发出不少优秀的计算模型。这些方法各有自己的优点和缺点,并且他们相互之间存在互补关系。
本文中采用多种显著性融合的思路,选用最常用的AC法[18]、HC法[19]、FT法[20]和LC法[23]4种显著性计算方法获得4张显著性地图,如图3所示。
2.2 显著性地图的融合模型
对上述显著性地图的有效融合是本文中算法的关键。设m种方法获得了图片I的m个显著性地图{Si||1≤i≤m},则图片I位于p处像素点的融合显著性S(p)的条件概率形式为
S(p)=P(yp=1|S1(p),S2(p),…,Sm(p))∝
(1)
式中:yp为二进制的数值,取1表示该像素点为显著点,否则取0,表示该点不显著;Si(p)为显著性地图Si位于p像素点的显著度值;Ζ为常量。函数ζ的不同形式则决定了融合的不同方式。
常用的ζ函数形式包括:ζ1(x)=x,ζ2(x)=exp(x)和ζ3(x)=-1/log(x)等。这些函数组合方式实现了优于单一显著性计算方法的准确性,但是,若所组合的显著性地图中出现了某一张与其他张相差较大的地图时,对组合结果将产生较大影响。更为重要的是,这些组合方式只考虑了单个像素的情况,忽略了邻域之间的相关性,不能反映行人目标的连通属性。因此,本文中采用栅格形状的条件随机场模型(conditionalrandomfield,CRF)进行显著性地图的组合。
CRF模型节点对应于图片I的像素点,节点的特征向量xp=(S1(p),…,Sm(p)),节点p的状态特征函数为f(xp,yp)。CRF的节点p与其八邻域Np内某节点q之间的转移特征函数为g(xp,xq,yp,yq)。定义图片I在特征空间X={xp|p∈I} 上的显著性Y={yp|p∈I}分布为
(2)
式中:θ={θF,θG}为CRF的模型参数,状态特征函数和转移特征函数的具体形式分别为
(3)
g(xp,xq,yp,yq)=ge(xp,xq,yp,yq)+
gc(xp,xq,yp,yq)
(4)
ge(·)反映了相邻的两个像素点在不同显著性地图中取值不同时,融合显著性地图中,这两个像素点有较大可能出现不同的显著度值。gc(·)反映了相邻像素点颜色相似和显著性相似的规律[21],某两个像素点具有相似的颜色,则他们将具有相似的显著度。ge(·)和gc(·)的定义分别为
1(yp=0,yq=1)(Si(p)-Si(q)))
(5)
gc(xp,xq,yp,yq)=-1(yp≠yq)×
exp(-φ(||I(p)-I(q)||))
(6)
式中:1(·)为示性函数;||I(p)-I(q)||为像素点p与q在RGB空间的差值;函数φ(·)定义为φ=(2<||I(p)-I(q)||2>)-1,其中<·> 为期望运算。
2.3 CRF模型参数训练
本文中采用文献[22]中所述的方法进行CRF模型参数训练。在给定已标注训练集{Xi,Yi},i=1,2,…,n条件下,基于最大熵理论,以式(7)所示对数似然函数达到最大为依据,完成CRF模型参数θ的训练。其中,Xi为某幅图片,Yi为与之对应的显著图的二值化矩阵。训练获得的CRF模型对行人目标具有较好的判别性能。
(7)
3.1 实验样本
利用试验车辆,选择良好天气条件下(晴天和阴天)不同交通流密度的城市道路,采集了12h的视频,从中挑选出1 000张图片并采用了人工的方式标记了其中的行人轮廓区域,作为实验样本。与此同时,本文中从INRIA[23]和CVC[24]数据库中共选择了1 000张图片,并对所提供的矩形框内的图片采用二值化处理,配合人工调整的方式分割了精确的物体边缘区域,以此对自行采集的样本进行补充。上述两部分共2 000个标记样本构成本文中的训练和测试集合,其中,选取1 000个标记样本以本文中构建的CRF模型对其进行参数训练,部分样本如图4所示,其中第1行为原始图片;第2行为标记的二值化前景区域。
3.2 算法性能分析与比较
由于本文中算法是AC法、HC法、FT法和LC法4种方法通过CRF模型融合而成,因此,须将本文中所提算法与AC法、HC法、FT法和LC法进行显著性区域在测试集合上开展的对比实验,部分检测结果见图5。
从上述结果可以看出,本文中方法获得的显著性前景区域优于单个显著性计算方法获得的前景区域,并且CRF模型对于非行人区域有明显抑制效果。为测试算法的性能,采用所构建的含1 000个标记样本的测试集,基于PR指标(precision-recall),将本文中算法与目前主流的HOG+SVM和Haar+Adaboost行人检测算法进行对比,结果如图6所示。
基于图1所示的检测流程,对从交通场景中采集的原始图片进行有效区域筛选,利用CRF模型提取其中的行人区域,部分实测效果如图7所示。在ADAS行人检测的高实时性应用中,检测时间对算法的适用性有很大的影响。本文中算法运行平台为Intel酷睿2双核,2.67GHz处理器,4GB内存,Visual C++,在INRIA数据集上64×128解析度图片的平均检测时间为14ms。实际应用中,通过摄像头输入的图片一般大于INRIA图片,采用天空和平面物体的滤除算法能够去除一部分无效区域,节省运算耗时。可以认为,经过代码优化后本文中介绍的算法基本满足车载平台的实时性要求。
针对ADAS中行人检测的实时性和鲁棒性要求,本文中提出一种基于融合显著性的行人检测方法。通过引入条件随机场模型,实现了不同显著性计算方法的融合,该方法不仅考虑了单个像素显著度的融合,还考虑了邻域像素显著性的相关性,CRF模型离线训练后能够获得较好的判别性能。同时,采用SLIC方法进行图像超像素形式的几何信息划分,进而对可能存在行人的区域进行筛选,缩短了算法的检测时间。
本文中只考虑了单个无遮挡行人目标的检测,基于融合显著性的遮挡行人检测仍然有待深入研究。此外,在实际交通环境下,受到天气与光照变化和混合交通流的影响,开发适合我国交通状况的视觉行人检测系统是一个具有挑战性的课题,在后续工作中,将对具有高表征意义的行人判别性特征提取、快速分类模型等方面进一步开展研究。
[1] 邱俊. 中国交通事故和交通伤成因,特点与趋势研究[D]. 重庆:第三军医大学,2009.
[2] 庄家俊. 面向汽车辅助驾驶的远红外行人检测关键技术研究[D]. 广州:华南理工大学,2013.
[3] 苏松志,李绍滋,陈淑媛,等. 行人检测技术综述[J]. 电子学报,2012,40(4): 814-820.
[4] Liem M C, Gavrila D M. Coupled Person Orientation Estimation and Appearance Modeling Using Spherical Harmonics[J]. Image and Vision Computing, 2014, 32(10): 728-738.
[5] Gavrila D M, Giebel J, Munder S. Vision-based Pedestrian Detection: The Protector System[C]. IEEE Conference on Intelligent Vehicles Symposium, 2004: 13-18.
[6] Broggi A, Bertozzi M, Fascioli A, et al. Shape-based Pedestrian Detection[C]. IEEE Conference on Intelligent Vehicles Symposium, 2000: 215-220.
[7] Papageorgiou C, Oren M, Poggio T. A General Framework for Object Detection[C]. IEEE International Conference on Computer Vision, 1998: 555-562.
[8] Ojala T, Pietikainen M, Maenpaa T. Multiresolution Gray-scale and Rotation Invariant Texture Classification with Local Binary Patterns[J]. Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987.
[9] Wu B, Nevatia R. Detection of Multiple, Partially Occluded Humans in a Single Image by Bayesian Combination of Edgelet Part Detectors[C]. IEEE International Conference on Computer Vision, 2005, 1: 90-97.
[10] Levi K, Weiss Y. Learning Object Detection from a Small Number of Examples: The Importance of Good Features[C]. IEEE Conference on Computer Vision and Pattern Recognition, Washington DC, USA, 2004: 53-60.
[11] Lowe D G. Distinctive Image Features from Scale-invariant Keypoints[J]. Computer Vision, 2004, 60(2): 91-110.
[12] Dalal N, Triggs B. Histograms of Oriented Gradients for Human Detection[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2005: 886-893.
[13] Viola P, Jones M. Robust Real-time Face Detection[J]. Computer Vision, 2004, 57(2): 137-154.
[14] Oren M, Papageorgiou C, Sinha P, et al. Pedestrian Detection Using Wavelet Templates[C]. IEEE Conference on Computer Vision and Pattern Recognition, 1997: 193-199.
[15] Maji S, Berg A C, Malik J. Efficient Classification for Additive Kernel Svms[J]. Pattern Analysis and Machine Intelligence, 2013, 35(1): 66-77.
[16] Felzenszwalb P, Girshick R, McAllester D, et al. Visual Object Detection with Deformable Part Models[J]. Communications of the ACM, 2013, 56(9): 97-105.
[17] Silberman N, Hoiem D, Kohli P, et al. Indoor Segmentation and Support Inference from RGBD Images[M]. Computer Vision. Springer Berlin Heidelberg, 2012: 746-760.
[18] Jiang H, Wang J, Yuan Z, et al. Salient Object Detection: a Discriminative Regional Feature Integration Approach[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2013: 2083-2090.
[19] Cheng M M, Zhang Z, Lin W Y, et al. Bing: Binarized Normed Gradients for Objectness Estimation at 300fps[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2014: 3286-3293.
[20] Mai L, Niu Y, Liu F. Saliency Aggregation: a Data-driven Approach[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2013: 1131-1138.
[21] Liu T, Yuan Z, Sun J, et al. Learning to Detect a Salient Object[J]. Pattern Analysis and Machine Intelligence, 2011, 33(2): 353-367.
[22] Pécot T, Bouthemy P, Boulanger J, et al. Background Fluorescence Estimation and Vesicle Segmentation in Live Cell Imaging with Conditional Random Fields[J]. Image Processing, 2015, 24(2): 667-680.
[23] INRIA Person Dataset[EB/OL]. http://www.emt.tugraz.at/~pinz/data/GRAZ_01.
[24] González A, Ramos S, Vázquez D, et al. Spatiotemporal Stacked Sequential Learning for Pedestrian Detection[C]. In 7th Iberian Conference on Pattern Recognition and Image Analysis, 2015.
Pedestrian Detection Algorithm for Driver Assistance System Based on Fused Saliency
Cai Yingfeng1, Wang Hai2, Chen Xiaobo1, Chen Long1& Jiang Haobin2
1.ResearchInstituteofAutomotiveEngineering,JiangsuUniversity,Zhenjiang212013;2.SchoolofAutomotiveandTrafficEngineering,JiangsuUniversity,Zhenjiang212013
For meeting the requirements of high accuracy of pedestrian detection in advanced driver assistance systems, a visual saliency based pedestrian detection method is proposed to simulate human attention mechanism. Based on the labeled sample bank containing only pedestrian information, a conditional random field (CRF) model is set up to achieve the optimal fusion of different saliency calculation methods. In practical detection, the SLIC algorithm is used firstly to divide the image geometric information into super pixels so that the regions probably having pedestrian can be preliminarily selected. Then the CRF model is used to calculate the saliency of probable pedestrian regions and the regions with high saliency are determined to be pedestrian regions. Experiment results show that the method proposed has good discrimination performance with satisfactory detection rate. In addition, the pedestrian region searching method used reduces the detection time of algorithm to a certain extent, basically meeting the real-time requirements of onboard platform.
ADAS; pedestrian detection; visual saliency; conditional random field
*国家自然科学基金(61403172, 51305167和61203244)、交通运输部信息化项目(2013364836900)、中国博士后基金(2015T80511和2014M561592)、江苏省六大人才高峰项目(2014-DZXX-040)、江苏省自然科学基金(BK20140555)、江苏省博士后基金(1402097C)和江苏大学高级专业人才科研启动基金(12JDG010和14JDG028)资助。
原稿收到日期为2015年7月2日,修改稿收到日期为2015年8月15日。