王 海 蔡英凤 贾允毅 陈 龙 江浩斌
基于深度卷积神经网络的场景自适应道路分割算法
王 海①蔡英凤*②贾允毅③陈 龙②江浩斌①
①(江苏大学汽车与交通工程学院 镇江 212013)②(江苏大学汽车工程研究院 镇江 212013)③(克莱姆森大学汽车工程系 美国南卡罗拉纳州 29634)
现有基于机器学习的道路分割方法存在当训练样本和目标场景样本分布不匹配时检测效果下降显著的缺陷。针对该问题,该文提出一种基于深度卷积网络和自编码器的场景自适应道路分割算法。首先,采用较为经典的基于慢特征分析(SFA)和GentleBoost的方法,实现了带标签置信度样本的在线选取;其次,利用深度卷积神经网络(DCNN)深度结构的特征自动抽取能力,辅以特征自编码器对源-目标场景下特征相似度度量,提出了一种采用复合深度结构的场景自适应分类器模型并设计了训练方法。在KITTI测试库的测试结果表明,所提算法较现有非场景自适应道路分割算法具有较大的优越性,在检测率上平均提升约4.5%。
道路分割;场景自适应;深度卷积神经网络;复合深度结构;自编码器
道路分割是计算机视觉中一项重要的技术,它在自动驾驶、智能车技术和道路障碍物检测等应用中都具有重要的价值。传统道路分割常采用两类方法:基于双目视觉深度图的方法和基于运动的方法。例如,Ladicky等人[7]提出了一个能量最小化的框架,采用条件随机场进行深度重构,Sturgess等人[8]则以包括高度、投影表面方向,特征跟踪密度等5个运动指标对道路进行分割。但是,上述两类方法均需要极大的计算资源,难以满足智能车应用中实时性的要求。近年来,基于机器学习的框架被逐渐引入到路面分割中。该框架下,图像中的像素(像素块)都被输入到一个分类器中,并被赋予“路面”或“非路面”的标签。该过程中,分类器的获取有着至关重要的作用,其往往通过准备大量的道路图片所组成的通用样本库,再结合人工设计的特征进行训练。例如,Kühnl等人[9]面向单目视觉图像,提出一种基于SFA和GentleBoost的道路分割方法。肖良等人[10]提出一种基于字典学习与稀疏表示的非结构化道路分割方法。李骏扬等人[11]则面向城市环境,提出一种基于多尺度特征表示和稀疏编码的城市道路检测方法。Alvarez等人[12]提出一种基于多尺度特征集成和卷积神经网络的方法。以上基于机器学习的道路分割算法大大减低了计算强度,但是也存在部分场景下分割效果不佳的问题。其原因有两点:(1)现有分类器训练中的人工特征表达能力有限,难以对部分复杂场景下的道路进行表达;(2)实际待检测场景具有多样性,当其视觉形式和通用样本库中的样本均差异较大时,所训练的分类器往往失效。
针对以上两点现有研究中的不足,本文从样本特征抽取和场景自适应学习分类器模型的建立这两方面出发。首先,基于深度学习理论,利用通用样本库,以深度卷积神经网络(DCNN)深度结构的特征自动学习能力对适用于道路分割的图像特征进行自动抽取;其次,以基于离线训练的分类器对新场景下样本进行提取并对其标签赋予置信度,再以特征自编码器对源-目标场景特征相似度度量,给相似度高的特征赋予更高的权值并重新训练DCNN分类器,从而实现了一种采用深度结构的场景自适应分类器模型并设计了训练方法。
为实现场景自适应的道路分割分类器训练,首先需要在新场景下自动获取带标记的道路样本。本节采用Tobias等提出的基于慢特征分析(Slow Feature Analysis, SFA)和GentleBoost的方法,该方法中输入新场景下的道路图像,经判断输出对应的置信图,从而实现对图像块带置信度的标签(道路、非道路)的赋予。该方法简述如下:
(1)基于SFA的特征提取:Wiskott和Sejnowski[13]在2002年提出了慢特征分析(SFA)原理,用以提取出输入信号中隐含变化缓慢的部分。对于一个输入维输入信号,慢特征分析通过一组输入输出函数,使得输出信号中各个分量的变化尽可能缓慢。文献[13]采用对时间的一阶导数平方均值的方法来衡量变化的速率。于是,对于每个输出信号的分量,在下述框架下求解变化速率最慢的优化问题:
目标函数:
约束条件:
(2)
(4)
在本文应用中,待判断图像块首先被向量化,然后进行SFA提取。所选取多个时刻的多个图像块Pi的大小均为像素,各图像块被向量化成一个空间信号,并集成为一个矩阵。的维数为,其中为样本数目,为原始图像块向量的维数。采用式(1)-式(4)所描述的优化问题对进行变换,抽取出对应的缓变特征。
(2)基于GentleBoost的分类器训练:在图像块的分类中,首先将图像块表征为SFA特征、Walsh Hadamard 纹理特征和RGB颜色特征的特征集合,然后选用经典的GentleBoost 分类算法对其进行分类,最终输出带标签置信度的道路图像。
上一节采用较为经典的基于SFA和Gentle Boost的方法,实现了带标签置信度样本的在线选取。本节进一步提出面向道路分割的场景自适应学习的训练模型(如图1所示)。该模型在训练阶段以离线得到的源场景训练样本和在线得到的新场景(即目标场景)训练样本共同作为输入,并可以同时完成分类识别和自动编码重构。
在特征抽取方面,本文采用一组两层的深度卷积神经网络DCNN进行实施,如图2所示。在这里,选择深度卷积神经网络(DCNN)模型进行特征学习,是出于其本身结构优势以及如下优点考虑[14]:(1)作为深度学习常用模型之一,DCNN是一种生物启发训练的架构,它隐式地从训练数据中进行学习,这使得它能通过结构重组和减少权值将特征提取功能融合进多层感知器;(2)DCNN局部权值共享的特殊结构在图像处理方面有着独特的优越性,其布局更接近于实际的生物神经网络,权值共享降低了网络的复杂性,特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的高复杂度计算过程。
图1 复合深度模型示意图
图2 DCNN的具体结构及参数
该DCNN包括一个输入层,两组卷积-下采样层及一个特征向量输出层。其输入层大小为像素,该尺寸和所有待训练样本的像素尺寸保持一致。两组隐层均采用大小为的卷积核,下采样滤波器大小均为,选用“池最大”操作。因此,两组隐层的卷积层和下采样层C1,S1,C2,S2大小分别为,,,。特征层和下采样层S2及下采样层S1的二次下采样层相连,共包含600个神经元。在该结构中,特征向量输出层实质是由下采样层S1和S2共同构建,其目的是保留图像在多尺度下的特征信息。
在DCNN特征抽取的基础上,所提复合深度模型的结构如图1所示。图1中,DCNN特征输入层基础上,增加了两个隐层和,一个重构隐层,一个重构特征层以及一个分类标签。上述结构中,隐层,,和重构特征实质上是构成了一个服务于特征的自动编码器,该自动编码器仅接受从目标场景获取的样本并进行特征重构误差计算用以对DCNN所抽取的特征进行源场景-目标场景的分布相似性评估。以上层间的参数传递按照式(5)-式(9)进行。
(6)
(7)
(9)
该网络的训练方法如下:不妨设第个训练样本在DCNN中所抽取的特征为,其对应的标签为,则该训练样本所对应的参数集为。其中,如果该样本属于目标场景,则令;反之,。是样本的置信度,如果样本属于源场景,则;反之,,由GentleBoost分类器确定。在训练样本参数集设定完成的基础上,我们以反向传播(Back-Propagation, BP)算法对,等网络权值进行训练,并设计了如下的目标函数:
4.1离线训练样本准备
本文的训练样本来自于剑桥驾驶标记视频库(CamVid)[15]。该库采用放置于车辆前挡风玻璃的摄像头,在城市环境下,在不同的时间段采集了大量的道路视频。更为重要的是,该库提供了对道路图片像素属性的人工标注,其属性包括道路、行人、车辆等共20余类,本应用中仅利用其道路-非道路的二分类。CamVid中的每张图片都含有大量标记为道路和非道路的像素区域,若以遍历的方式对图像所有子区域均进行选取并作为训练样本容易产生大量的高相关训练样本,即重复样本,造成样本分布的不合理。针对此问题,这里引入了一种过分割方法,即超像素的概念,即将图像中具有相同或相似特征属性的近邻像素聚合成一个组,并命名为一个超像素。通过超像素分割,实现了同质近邻像素的合并,大大减少了同质样本的数量。CamVid数据库中的部分数据如图3所示,图3中第1列为原始图片、第2列为采用SLIC超像素分割算法分割后的图片,其中超像素平均大小约束为像素,第3列为带像素标签人工标记的图片。在本文应用中,共选取CamVid多个场景下的训练图片800张,并在其中选取包括道路、非道路在内的样本50000个(图3所示)。
4.2 测试数据库
本文的测试数据库选用了KITTI视觉标准库[16],和CamVid视频库类似,该视觉库采用一个旅行车,安装有两个高分辨率彩色和灰度摄像机拍摄德国卡尔斯鲁厄市的部分真实环境下的视频和图像,并在一台Velodyne公司的64线激光雷达的帮助下完成了各种人工基准(baseline)标记。KITTI视觉标准库中划分了双目、光流、图像属性、3D检测和3D跟踪在内的子库,本文采用了其中的2013道路/道线检测评估库,其采集了3个场景(UM, UMM, UU)下共579幅道路图片,并人工将各图像像素标记为路面区域和非路面区域(图4所示)。其中,UM(Urban Marked)是带车道标线的城区道路、UMM(Urban Multiple Marked)是带多个车道标线的城区道路、UU(Urban Unmarked)是不带车道标线的城区道路。
4.3 实验结果与分析
本文所提算法包括在线样本选取和标记及自适应训练两个步骤。在线样本生成中,测试数据库的3个场景下各选取了5张图片用于进行基于SFA和GentleBoost的新样本生成,其中SFA和GentleBoost的参数设置和文献[9]一致。实验中,所选取的3个场景共15张图片仍采用先进行超像素分割,再进行分类的方案,最终共生成了约900个带标签置信度新样本,部分图片的处理结果如图5所示。图5(a)为道路原始图片,图5(b)是超像素分割图,图5(c)为道路分类图,其中亮色区域表明分类为道路的像素,暗色为分类为非道路的像素,且其检测为道路的置信度和亮度大小成正比。
在新样本生成后,将在线所选取新样本和离线训练样本一起输入到所提的采用DCNN及自编码器的场景自适应分类器中进行训练,并在测试数据库中进行测试。测试图片为3个场景图中除去15张用于在线样本生成外的其余所有道路图片,共564张。为对所提算法进行评估,本算法和现有若干主流图像道路分割算法进行了比较,包括:(1)基于颜色和纹理融合的路面识别方法[17];(2)仅采用离线数据库的基于SFA和GentleBoost的道路分割方法[6];(3)仅采用离线数据库的基于DCNN训练的道路分割方法;(4)仅采用离线数据库的基于DDN(Deep Deconvolutional Networks)的方法。在对比实验中,选取的评价指标为(准确率)和(召回率)。其中,表示3种测试场景。
本文方法和已有方法的实验结果如表1所示,部分图像的处理结果如图6所示。图6中,第1行为原图,第2行为采用颜色和纹理融合的方法,第3行为采用离线数据库的基于SFA和GentleBoost的方法,第4行为离线数据库采用DDN的方法,第5行为本文所提采用DCNN及自编码器的场景自适应方法所进行的道路分割效果。
图3 离线训练样本准备
图4 KITTI2013道路/道线检测评估库
图5 带标签置信度新样本生成
从表1中实验结果和图6中的部分分割对比图中可以看出,在3个测试场景下,由于具有特征自学习及在新场景下自动调整的能力,所提基于DCNN及自编码器的场景自适应道路分割算法均具有最好的道路分割效果。此外,由于具有特征自学习能力,基于DDN及DCNN的方法也优于传统基于人工特征的SFA和GentleBoost的方法以及基于颜色和纹理融合的方法。相较于采用离线数据库训练的各道路分割算法,本文所提出的采用DCNN及自编码器的场景自适应道路分割方法在3个测试场景下平均提升4.5%左右。在算法耗时上,采用传统非深度学习的两种方法具有较少的计算复杂度,耗时较少,耗时均在0.2 s左右;而3种采用深度学习的方法因为网络结构复杂,训练参数多,平均对一幅图片的检测时间在2 s左右。
表1 KITTI测试库中本文算法与现有算法比较
图6 实验结果对比
本文提出一种基于深度卷积网络的场景自适应道路分割算法。文中在采用DCNN进行特征自抽取的基础上,针对源场景-目标场景样本分布不匹配的问题,以特征自编码器对各个特征表征下的源-目标场景样本相似度进行度量,将高相似度特征即“更有价值”的特征赋予相对较高的权值并重新训练分类器,从而较好地实现了场景自适应的分类器训练。
算法分为两步,首先基于SFA和GentleBoost的方法,实现了带标签置信度样本的在线选取;其次,利用DCNN深度结构的特征自动抽取能力,辅以特征自编码器对源-目标场景样本相似度度量,提出了一种采用复合深度结构的场景自适应分类器模型并设计了训练方法。在KITTI数据集上的测试结果表明,所提算法较现有非场景自适应道路分割算法具有较大的优越性,分割准确率提升约4.5%。
[1] 余天洪, 王荣本, 顾柏园, 等. 基于机器视觉的智能车辆前方道路边界及车道标识识别方法综述[J]. 公路交通科技, 2006, 38(8): 139-142.
YU Tianhong, WANG Rongben, GU Baiyuan,. Survey on the vision-based recognition methods of intelligent vehicle road boundaries and lane markings[J]., 2006, 38(8): 139-142.
[2] ZHOU H, KONG H, WEI L,. Efficient road detection and tracking for unmanned aerial vehicle[J]., 2015, 16(1): 297-309. doi:10.1109/TITS.2014.2331353.
[3] SHIN B S, XU Z, and KLETTE R. Visual lane analysis and higher-order tasks: a concise review[J]., 2014, 25(6): 1519-1547. doi:10.1007/s00138- 014-0611-8.
[4] HILLEL A B, LERNER R, LEVI D,. Recent progress in road and lane detection: a survey[J]., 2014, 25(3): 727-745. doi:10.1007/s00138-011- 0404-2.
[5] PAZ L M, PINIES P, and NEWMAN P. A variational approach to online road and path segmentation with monocular vision[C]. 2015 IEEE International Conference on Robotics and Automation (ICRA), Seattle, USA, 2015: 1633-1639. doi:10.1109/ICRA.2015.7139407.
[6] PASSANI M, YEBES J J, and BERGASA L M. Fast pixelwise road inference based on Uniformly Reweighted Belief Propagation[C]. 2015 IEEE Intelligent Vehicles Symposium (IV), Seoul, Korea, 2015: 519-524. doi:10.1109/ IVS.2015.7225737.
[7] LADICKY L, STURGESS P, RUSSELL C,. Joint optimization for object class segmentation and dense stereo reconstruction[J]., 2012, 100(2): 122-133. doi:10.1007/s11263-011-0489-0.
[8] STURGESS P, ALAHARI K, LADICKY L,. Combining appearance and structure from motion features for road scene understanding[C]. BMVC 2012-23rd British Machine Vision Conference, Guildford, UK, 2012: 1-10.
[9] KUHNL T, KUMMERT F, and FFITACH J. Monocular road segmentation using slow feature analysis[C]. 2011 IEEE Conference on Intelligent Vehicles Symposium (IV), Baden-Baden, Germany, 2011: 800-806. doi:10.1109/IVS.2011. 5940416.
[10] 肖良, 戴斌, 吴涛, 等. 基于字典学习与稀疏表示的非结构化道路分割方法[J]. 吉林大学学报(工学版), 2013, 43(S1): 384-388.
XIAO Liang, DAI bin, WU Tao,. Unstructured road segmentation method based on dictionary learning and sparse representation[J].(), 2013, 43(S1): 384-388.
[11] 李骏扬, 金立左, 费树岷, 等. 基于多尺度特征表示的城市道路检测[J]. 电子与信息学报, 2014, 36(11): 2578-2585. doi: 10.3724/SP.J.1146.2014.00271.
LI Junyang, JIN Lizuo, FEI Shumin,. Urban road detection based on multi-scale feature representation[J].&, 2014, 36(11): 2578-2585. doi: 10.3724/SP.J.1146.2014.00271.
[12] ALVAREZ J M, LECUN Y, GEVERS T,. Semantic road segmentation via multi-scale ensembles of learned features[C].2012 Workshops and Demonstrations Computer Vision of ECCV, Firenze, Italy, 2012: 586-595. doi:10.1007/978-3-642- 33868-7_58.
[13] WISKOTT L and SEJNOWAKI T J. Slow feature analysis: unsupervised learning of invariances[J]., 2002, 14(4): 715-770. doi: 10.1162/089976602317318938.
[14] KRIZHEVAKY A, SUTAKEVER I, and HINTON G E.Imagenet classification with deep convolutional neural networks[C]. Advances in Neural Information Processing Systems. South Lake Tahoe, Nevada, USA, 2012: 1097-1105.
[15] BROSTOW G J, FAUQUEUR J, and CIPOLLA R. Semantic object classes in video: A high-definition ground truth database[J]., 2009, 30(2): 88-97. doi: 10.1016/j.patrec.2008.04.005.
[16] GEIGER A, LENZ P, and URTASUN R. Are we ready for autonomous driving? The kitti vision benchmark suite[C]. 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Providence, RI, USA, 2012: 3354-3361. doi: 10.1109/CVPR.2012.6248074.
[17] ÁLVAREZ J M and LOPEZ A M. Road detection based on illuminant invariance[J]., 2011, 12(1): 184-193. doi: 10.1109/ TITS.2010.2076349.
Scene Adaptive Road Segmentation Algorithm Based on Deep Convolutional Neural Network
WANG Hai①CAI Yingfeng②JIA Yunyi③CHEN Long②JIANG Haobin①
①(,,212013,)②(,,212013,)③(,,29634,)
The existed machine learning based road segmentation algorithms maintain obvious shortage that the detection effect decreases dramatically when the distribution of training samples and the scene target samples does not match. Focusing on this issue, a scene adaptive road segmentation algorithm based on Deep Convolutional Neural Network (DCNN) and auto encoder is proposed. Firstly, classic Slow Feature Analysis (SFA) and Gentle Boost based method is used to generate online samples whose label contain confidence value. After that, using the automatic feature extraction ability of DCNN and performing source-target scene feature similarity calculation with deep auto-encoder, a composite deep structure based scene adaptive classifier and its training method are designed. The experiment on KITTI dataset demonstrates that the proposed method outperforms the existed machine learning based road segmentation algorithms which upgrades the detection rate on average of around 4.5%.
Road segmentation; Scene adaptive; Deep Convolutional Neural Network (DCNN); Composite deep structure; Auto-encoder
TP391.4
A
1009-5896(2017)02-0263-07
10.11999/JEIT160329
2016-04-05;改回日期:2016-08-22;
2016-10-21
蔡英凤 caicaixiao0304@126.com
国家自然科学基金(U1564201, 61601203, 61573171, 61403172),中国博士后基金(2014M561592, 2015T80511),江苏省重点研发计划(BE2016149),江苏省自然科学基金(BK20140555),江苏省六大人才高峰项目(2015-JXQC-012, 2014-DZXX-040)
The National Natural Science Foundation of China (U1564201, 61601203, 61573171, 61403172), The China Postdoctoral Science Foundation (2014M561592, 2015T80511), The Key Research and Development Program of Jiangsu Province (BE2016149), The Natural Science Foundation of Jiangsu Province (BK20140555), The Six Talent Peaks Project of Jiangsu Province (2015-JXQC-012, 2014-DZXX-040)
王 海: 男,1983年生,博士,副教授,研究方向为机器视觉、模式识别及其在智能车上的应用.
蔡英凤: 女,1985年生,博士,副教授,研究方向为机器视觉、模式识别及其在智能交通系统中的应用.
贾允毅: 男,1983年生,博士,助理教授,研究方向为机器人、智能制造和智能车辆研究.
陈 龙: 男,1958年生,博士,教授,研究方向为智能车动力学建模及控制方法研究.
江浩斌: 男,1969年生,博士,教授,研究方向为车辆转向、悬架及动力学建模研究.