陆怡悦 蔡云飞 石庭敏
(南京理工大学计算机科学与技术学院 南京 210094)
基于多线激光雷达与视觉信息的实时行人检测∗
陆怡悦 蔡云飞 石庭敏
(南京理工大学计算机科学与技术学院 南京 210094)
行人是无人自主车辆的重要感知内容。针对传统行人检测方法中检测速度慢的情况,提出了一种融合多线激光雷达和视觉信息的实时行人检测方法。该方法通过对激光雷达和摄像头的联合标定,将雷达的坐标映射到图像坐标中。根据雷达的栅格地图检测凸障碍,由此获得图像中的感兴趣区域。最后利用梯度方向直方图(HOG)和支持向量机(SVM)对感兴趣区域进行行人检测。实验验证了该方法显著地提高了检测速度和准确度,并弥补了单一传感器在行人检测中的不足。该方法在车辆以30km/h左右的速度行驶,环境背景不断变换的情况下都能很好地实现,具有实际应用价值。
联合标定;感兴趣区域;梯度方向直方图;行人检测
行人检测在智能辅助驾驶、智能监控、行人分析以及智能机器人等领域具有极其广泛的应用。从2005年Dalal等[1]提出HOG结合SVM以来,行人检测进入了一个快速发展的阶段,但是也存在着很多问题还有待解决,其中最主要的方面是如何权衡性能和速度的关系。近年来,有许多基于单目摄像头的行人检测方法被提出[2~4]。大致可以分为两类:一是基于背景建模,利用背景建模的方法,提取出前景运动的背景,在目标区域内进行特征提取,然后利用分类器进行分类,判断是否包含行人。其中最常应用的是单高斯模型和混合高斯模型,Suo[5]等提出了一种基于高斯混合模型的改进的自适应背景建模算法,当对象移动缓慢或者停止时要及时减少算法中使用的模型数量。ViBe[6]算法用一帧图像就可以初始化背景模型,该方法计算量比较小,速度很快,可以嵌入到相机中,可以抗摄像头抖动,并且对噪声也有一定的鲁棒性。PBAS[7]算法引入控制论的思想,使前景判断阈值和背景模型更新率随背景的复杂程度自适应变化,还引入背景复杂程度的度量方法,根据背景复杂程度调整前景判断阈值和背景模型更新率。二是基于统计学习的方法:根据大量的样本构建行人检测分类器。提取的特征可以包括目标的灰度、边缘、纹理、颜色、梯度直方图等信息。分类器主要包括神经网络、SVM、adaboost以及深度学习。2005年DALAL等[1]提出基于梯度方向直方图(HOG)描述子的人体检测模型,并采用支持向量机(SVM)作为分类器。该算法可有效地进行行人检测,但是检测速度较慢。Xu[8]等提出了一个基于HOG和边缘因素的实时行人检测方法。这种方法中,首先使用边缘因素进行粗检测,过滤掉一些背景,再使用HOG结合线性SVM进行精确检测。Zhang[9]等贡献了一个形状模型,将人体分为三个不同的组件,使用Haar特征来描述人体的差异。Tuzel等[10]利用协方差矩阵作为对象描述符,将其表示为黎曼流形进行行人分类。Wang等[11]采用HOG和LBP结合的直方图,提出了能够处理一部分遮挡的新的人体检测方法,获得了较高的检测性能。
由于基于摄像头的行人检测算法受到信息量少、算法复杂度较高的制约,常常导致实时性不高或鲁棒性太差等问题。本文采用基于激光雷达[12]和摄像头信息融合[13]的行人检测方法。首先,采用张正友[14]标定法对摄像头进行内参标定,算法利用了雷达栅格地图[15]获取正障碍的位置信息对图像提取感兴趣区域(region of interest),对其进行预处理,剔除不可能是行人的区域,然后进行透视变换将感兴趣区域映射到图像中的像素信息,提取HOG描述子,再用SVM进行分类判断。其中,本文采用MIT行人数据库作为正例样本,采用实验中的真实场景作为负例样本,并且重新检测了负例样本,将负例样本中得到的误检目标作为难例样本重新训练SVM。
本文采用32线激光雷达和单目摄像头作为传感器。雷达和摄像头安装位置如图1所示,雷达竖直安装于车前,摄像头固定于雷达正下方。
图1 实验车示意图
2.1 摄像头标定
摄像头的原理是小孔成像,把世界坐标表示为PW=[X,Y,Z]T,图像坐标表示为 Pl=[U,V]T,则世界坐标与图像坐标之间的转换关系表示为
其中K就是摄像头的内参矩阵,R是一个3×3的旋转矩阵,t是一个3维的平移向量。根据张定友棋盘格标定法,采用10×10的棋盘格,每一小格的尺寸为100mm×100mm,首先采集不同位置的标准棋盘图像,然后利用Matlab工具箱标定程序对棋盘图像进行角点提取,根据棋盘实际尺寸和位置关系得到摄像头的内参和外参。
2.2 32线激光雷达的位置关系
32线激光雷达在车前竖直安装,表1给出了雷达的一些重要参数。
表1 32线激光雷达重要参数
以雷达位置为原点的测距示意图如图2所示。
图2 雷达测距示意图
XOY平面平行于地面,Y平行于车身方向向前,X垂直于车身方向,O为原点,是雷达的中心点,点A是雷达扫描点。根据右手螺旋定则,Z轴垂直于地平面向上。φ是竖直偏转角,θ是水平偏转角。D是雷达中心到物体的实际距离。所以将雷达的实际三维数据转换到平面为
雷达扫描模型如下图所示。
图3 雷达扫描纵向放射水平示意图
任意第i根线在水平面的距离投影为
其中α为第一根扫描线与竖直方向的夹角,h为雷达中心点到地面的安装高度。由此可以得到32根线之间的相互位置关系。
2.3 激光雷达和摄像头的联合标定
以车体坐标作为世界坐标,车头方向为Y轴正方向,顺时针90°为X轴正方向,右手X-Y螺旋,大拇指方向为Z轴正方向。假设任意t时刻,雷达扫描面与车体坐标系XOY平面的夹角为φ,其中某一根扫描线与Y轴正方向之间的夹角为θ,h为雷达安装高度,d为雷达测量距离,任一扫描点可描述为P(d ,φ,θ)。在水平安装方式下,三维坐标表示为P(x ,y,z)。其坐标转换公式为
根据采集的标定板的图像数据和投射在标定板上的雷达数据,得到了融合后的图像。
通过雷达扫描车体前方区域,可以感知车体前方障碍物的分布情况,然后通过检测扫描点可以大致提取障碍物的轮廓。根据轮廓的几何特征可以初步过滤掉一些明显不符合行人特征的障碍物,得到行人感兴趣区域(ROI),将雷达数据中的ROI投影到图像中,为下一步图像处理作准备。
3.1 构建栅格地图
由于多线雷达点云的数据量比较大,构建栅格地图将简化雷达数据处理。将雷达数据映射到栅格地图上,通过栅格地图就可以了解障碍物的分布情况。将激光雷达的三维数据点经坐标变换映射到栅格地图。栅格地图大小为M*N,单个栅格宽度为w,则转换公式如下
式中,(x,y)为雷达数据的原始世界坐标,( xg,yg)为栅格在世界坐标系中的坐标,(Px,Py)为平移量,增加该平移量的目的是使栅格的坐标(xg,yg)都为正值。
图4 雷达栅格地图及其实景图
通过将三维点云数据映射到栅格地图上,就可用一个栅格来表示该格子内的所有点,通过栅格地图就可以观察障碍物的分布情况,从而大大降低了数据量。
3.2 获取感兴趣区域
为了获取感兴趣区域(ROI),需要将检测到的轮廓用矩形表示出来,这实际上就是寻找一个凸包的过程。简单来说,给定二维平面上的点集,凸包就是将最外层的点连接起来构成凸多变形,它是能包含点集中的所有点的。选取点集中最小的x和最小的y作为左上角坐标,选取点集中最大的x和最大的y作为右下角坐标,这样我们就得到包含行人所有点集的矩形边界,将这些矩形边界投影到原图上,就得到了感兴趣区域。
图5 雷达感兴趣区域及其实景图
图5 显示获得雷达数据的大致感兴趣区域有一辆车和两个行人区域,再将其映射到图像上,为下面判断是否是行人做准备。
在视频行人目标检测中,光线对于图像分析有很重要的影响,过度强烈的光线可能会造成图像曝光,而较暗的光线又会造成行人与背景的难以分割。由于雷达扫描具有较好的稳定性,此方法大大降低了漏检率,从而提高了行人检测的准确度。
4.1 HOG描述子
方向梯度直方图(Histogram of Oriented Gradient,HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度直方图来构成特征。主要思想是:在一幅图像中,局部目标的表象和形状能够被梯度或边缘的方向密度分布很好地描述。
HOG特征提取方法就是将先前得到的感兴趣区域:
1)灰度化(将感兴趣区域看做一个x,y,z(灰度)的三维图像)。
2)采用Gamma校正法对输入区域进行颜色空间的标准化(归一化),目的是调节图像的对比度,降低图像局部的阴影和光照变化所造成的影响,同时可以抑制噪音的干扰。
3)计算感兴趣区域图像的每个像素的梯度(包括大小和方向),主要是为了捕获轮廓信息,同时进一步弱化光照的干扰。
4)将区域图像划分成小cells(这里采用8×8像素/cell)。
5)统计每个cell的梯度直方图(不同梯度的个数),即可形成每个cell的描述子(descriptor)。
6)将每几个cell组成一个block(这里采用2×2个cells/block),一个block内所有cell的特征描述子串联起来便得到该bolck的HOG特征描述子。
7)将感兴趣区域内的所有bolck的HOG描述子串联起来就可以得到该区域的HOG特征描述子,这个就是最终的可供分类使用的特征向量。
4.2 支持向量机(SVM)分类器
支持向量机是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即采用核函数将原始空间中的数据映射到一个更高维的特征空间,使得数据在这个特征空间内线性可分。
一个线性分类器的学习目标就是要在n维的数据空间中找到一个分类超平面,其方程可以表示为
数据点用x来表示,这是一个n维向量,ωT中的T代表转置,而类别用y来表示,可以取1或者-1,分别代表两个不同的类。
定义假设函数:
这里将g(z)做一个简化,将其简单映射到y=-1和y=1上。映射关系如下
ω是法向量,决定了超平面的方向,b是位移项,决定了超平面与原点之间的距离。划分超平面可被法向量ω和位移b确定,将其记为(ω,b)。样本空间中任一点x到超平面(ω,b)的距离可写为
想要找到具有最大间隔的划分超平面,也就是要找到ω和b使得r最大。为了最大化‖‖ω-1,等价于最小化‖‖ω2。因此可以得到SVM的基本型:
常用的核函数有以下几种。
线性核:
多项式核:
高斯核:
拉普拉斯核:
Sigmoid核:
本文选用线性核函数,因为线性核函数是在原空间中选择最优分类面,而其他核函数是将数据映射到高维空间去选择最优分类面,因此线性核函数在速度上要比其他核函数快很多,更能满足实时性的要求。
4.3 HOG-SVM行人检测
实验采集的视频图像的每一帧像素大小为640×480,经过雷达初步检测后,确定障碍物的基本位置,再将其通过坐标映射后得到图像上的感兴趣区域,将此感兴趣区域作为待检测区域。由于待检测区域大小不同,所以要用到多尺度检测。按照步长为8个像素遍历整幅图像,具体检测步骤如下:
1)将每一帧图像上的感兴趣区域存为待检测区域列表。
2)按照大小为8×8个像素窗口遍历待检测区域,计算得到扫描区域内所有块的HOG特征向量并存入一个二维数组中。
3)以大小为32×32个像素,水平和垂直方向的步长都为8个像素的检测窗口遍历感兴趣区域,对二维数组中的HOG特征向量进行正确的索引,得到该窗口内对应块的HOG特征向量。
4)加载训练得到的SVM分类器,在每一个块中进行循环,特征向量经归一化以后,与算子中的对应数进行比较运算,判断所有块中的运算总和是否小于设定的阈值,若小于,则认为检测到目标。
5)优化目标:雷达初步定位时,为了减小坐标映射后的误差,将感兴趣区域适量放大,所以图像经过检测后,会产生在某个对象上的框范围过大的情况。为了使检测结果更加精确,就需要对这些结果进行优化。目前经常使用的优化策略是根据人体与检测窗口的位置关系进行窗口优化。对检测结果进行优化的实质就是将目标更精确地定位于某个窗口中。计算公式如下:
图像坐标以左上角为原点,调整左上角顶点的x和y,使其更靠近行人,再调整矩形框的宽度和高度,使矩形框缩小一点,根据多次实验调整优化参数,以上参数能得到较好的结果。
图6 窗口优化
为了验证算法的检测性能以及运行效果的实时性,该算法运行在一个改装的实验平台GOLF车。如上面图1所示。此目标检测模块是无人车自主导航整体架构中的一个模块。
本文所采用的VelodyneHDL-32E激光雷达,以及CCD摄像头。在VS2010环境下,用C++实现,界面设计采用MFC。采用MIT行人库中的正样本共924张,负样本则采用无人车的真实实验环境,通过截取学校场景而构成,确保不含有行人,一共2000张负样本。背景包括教学楼、树木、地面等实际场景,清晰度较高,适应性更强。
图7 分布式模块化处理架构
图8 测试样本集
测试场景选择在学校的道路上,有树木、建筑物和车辆等复杂背景。无人车的车速在30km/h左右。
以下是行人检测的实验结果图。
图9 行人检测结果图及雷达检测图
场景选取了学校内的不同地方,雷达检测图中由箭头手动标出行人,图9(a)的背景大部分为树木,雷达点的数据比较分散,检测的是行人的背面。图9(b)的背景为玻璃墙,行人有背面有侧面。图9(c)两边是绿化道,光线比较强烈。图9(d)中行人比较远,且行人与背景的树木有重叠。图9(e)和(f)都是正常道路上的行人检测,其中(e)的光线比较暗。图9(g)行人有一部分遮挡,依然可以检测出来,而图9(h)在相似的实验场景下,两个行人有了较大部分的重叠,只检测出一个人。从实验图可以看出,这种方法对于不同的场景和不同光线都有很好的检测效果,其主要原因是激光雷达对障碍物的检测不受光线的影响。实验表明,算法有很高的准确度和实时性。
本文提出的方法相比于Dalal[1]的方法具有优势,实验运行在i3双核处理器下,2G内存,HOG算法的每一帧的检测时间平均在3000ms左右,而本文方法在80ms左右,时间上有了很大的提高,图像帧率为10FPS,达到了实时的要求,可应用于实际项目。在识别率方面,比HOG提高了2.1%。还有其他一些同样先定位感兴趣区域再进行行人检测的方法,如通过边缘进行粗定位和通过运动侦测进行定位,实验结果表明,本文方法在识别率上稍有提高,但在检测时间上有很大优势,具有实际应用价值。
表2 四种不同算法的比较
本文提出了一种新的基于激光雷达和视觉信息融合的行人检测方法。该方法主要由硬件架构以及检测算法两部分组成。在检测算法中,利用雷达对凸障碍物的扫描,得到感兴趣区域,从而大大减少了HOG算子的提取范围,加快了检测速度。在无人车上的实验表明,该方法具有很好的实时性及可靠性。
[1]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR'05).IEEE,2005,1:886-893.
[2]Costea A D,Vesa A V,Nedevschi S.Fast Pedestrian Detection for Mobile Devices[C]//2015 IEEE 18th International Conference on Intelligent Transportation Systems.IEEE,2015:2364-2369.
[3]Cai Z,Saberian M,Vasconcelos N.Learning complexity-aware cascades for deep pedestrian detection[C]//Proceedings of the IEEE International Conference on Comput-er Vision.2015:3361-3369.
[4]Angelova A,Krizhevsky A,Vanhoucke V,et al.Real-time pedestrian detection with deep network cascades[C]//British Machine Vision Conference,2015.
[5]Suo P,Wang Y.An improved adaptive background modeling algorithm based on Gaussian Mixture Model[C]//2008 9th International Conference on Signal Processing.IEEE,2008:1436-1439.
[6]Barnich O,Van Droogenbroeck M.ViBe:A universal background subtraction algorithm for video sequences[J].IEEE Transactions on Image Processing,2011,20(6):1709-1724.
[7]Hofmann M,Tiefenbacher P,Rigoll G.Background segmentation with feedback:The pixel-based adaptive segmenter[C]//2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops.IEEE,2012:38-43.
[8]Xu G,Wu X,Liu L,et al.Real-time pedestrian detection based on edge factor and Histogram of Oriented Gradient[C]//Information and Automation(ICIA),2011 IEEE International Conference on.IEEE,2011:384-389.
[9]Zhang S,Bauckhage C,Cremers A B.Informed haar-like features improve pedestrian detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2014:947-954.
[10]Tuzel O,Porikli F,Meer P.Pedestrian detection via classification on riemannian manifolds[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(10):1713-1727.
[11]Wang X,Han T X,Yan S.An HOG-LBP human detector with partial occlusion handling[C]//2009 IEEE 12th International Conference on Computer Vision.IEEE,2009:32-39.
[12]Kwon S K,Hyun E,Lee J H,et al.A Low-Complexity Scheme for Partially Occluded Pedestrian Detection Using LIDAR-RADAR Sensor Fusion[C]//Embedded and Real-Time Computing Systems and Applications(RTCSA),2016 IEEE 22nd International Conference on.IEEE,2016:104-104.
[13]Premebida C,Ludwig O,Nunes U.LIDAR and vision-based pedestrian detection system[J].Journal of Field Robotics,2009,26(9):696-711.
[14]Zhang Z.A flexible new technique for camera calibration[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(11):1330-1334.
[15]Chen M,Pei Y,Fang D.Computational method for radar absorbing composite lattice grids[J].Computational Materials Science,2009,46(3):591-594.
Real-time Pedestrian Detection Based on Integration of Multi-line Radar and Visual Information
LU Yiyue CAI YunfeiSHI Tingmin
(Department of Computer Science and Technology,Nanjing University of Science and Technology,Nanjing 210094)
Pedestrians are the important aware contents of the unmanned autonomous vehicles.Since the slow detection speed of the traditional pedestrian detection methods,a real-time pedestrian detection method based on integration of multi-line laser radar and visual information is proposed.Firstly,combine laser radar with the camera by calibration,then map the radar coordinates to the image coordinates.Secondly,according to the raster map of radar,projections obstacles are detected,thereby obtaining the region of interest of an image.Finally,the gradient direction histogram(HOG)and support vector machine(SVM)are used to detect pedestrians of the regions of interest.Experimental verification of the method significantly improves the detection speed and accuracy and makes up for the lack of a single sensor in Pedestrian Detection.This method can be well implemented in the vehicle at a speed of 30km/h or so of driving.At the same time,environmental background constantly changes.thus this method has practical value.
combined calibration,ROI,HOG,pedestrian detection
TN95
10.3969/j.issn.1672-9722.2017.11.037
Class Number TN95
2017年5月8日,
2017年6月26日
国家自然基金青年项目(编号:61305134);博士点基金(编号:20133219120035);核高基重大专项(编号:2015zx01041101)资助。
陆怡悦,女,硕士,研究方向:图像处理。蔡云飞,男,博士,讲师,研究方向:环境感知。石庭敏,男,硕士,研究方向:环境感知。