采用视觉显著性和深度卷积网络的鲁棒视觉车辆识别算法

2015-02-21 02:38蔡英凤江浩斌
关键词:分类器卷积显著性

蔡英凤,王 海,陈 龙,江浩斌

(1.江苏大学汽车工程研究院,江苏镇江 212013;2.江苏大学汽车与交通工程学院,江苏镇江 212013)

采用视觉的目标识别广泛用于汽车主动安全等先进驾驶辅助系统(advanced driver assistant system,ADAS)中[1-5],车辆识别是其中的一个代表性技术.由于ADAS高实时性、高准确性的要求和嵌入式硬件计算能力的制约,无法对一幅图像所有区域都采用复杂的模式识别算法进行判断.因此,目前主流的识别算法一般采用一种2步的车辆识别策略:第1步,采用低耗时的算法在图像中生成车辆可能存在的假设候选区块(candidate generation,CG);第2步,针对上一个步骤产生的候选区块,采用较为复杂的判断算法进行区块的候选验证(candidate verification,CV).

目前,大多数车辆识别CG阶段都采用遍历搜索的方法,如滑动窗口法.为了兼顾实时性,这些算法往往通过增大窗口滑动间隔以及窗口尺度倍数,而这会在一定程度上带来车辆的漏检.例如,文献[6]中,Giseok Kim等采用基于地平面假设的车辆候选生成,大大减少了候选窗口的数量;但是该方法在路面呈曲面及摄像机俯仰角变化时,CG窗口的选取效果大幅下降.文献[7]中,Wang Hai等采用了基于对称性及边缘特征的车辆候选方法,但是该方法在前车车身姿态发生变动(如有一定的偏移时)效果不佳.

近年来,神经科学方面的研究者发现人类的视觉具有快速搜索到感兴趣的目标的能力,这种视觉注意的能力被称为视觉显著性.视觉显著图像区域的检测能够把有限的处理资源快速而准确地分配到显著的视觉区域上,突出了图像中的显著目标,削弱了目标周围场景对于目标的影响.受此启发,文中首先将视觉显著性引入到车辆识别的CG阶段中,以期减少CG数量,提高实时性.

另一方面,在车辆识别CV阶段,基于机器学习的方法应用最为广泛.目前,基于机器学习的车辆识别算法通常选择人工特征作为图像表征的工具,代表性的有 Haar特征、HoG 特征、SIFT特征等[8-9].采用人工特征并结合高效的分类器一度在包括车辆识别在内的图像分类问题中发挥了巨大的作用.但是,随着研究的深入,采用人工特征的方法也逐渐显示出其局限性.一是人工特征大多不具有明确的物理意义,需要由研究者主观设计而得到,过往研究中研究者往往花费了大量的精力在特征的设计上,使得设计过程较为主观和随意,缺乏理论的指导.二是人工设计的特征虽然能够不断提高车辆识别的效果,但提升效果趋微.可以认为,随着交通环境的日趋复杂,采用人工特征设计的手段进行车辆识别将越来越难以胜任.因此,若能有一种从训练样本中自动学习并生成特征的手段,将有望打破人工特征的瓶颈.

幸运的是,深度学习的出现解决了如何自动学习出“好特征”这个问题.深度学习通过模仿人脑分析学习的机制来解释数据,如图像、声音和文本.它是最接近人脑的复杂模型,也是目前向人工智能走得最近的方法.它将分级信息处理过程引用到了特征表示上,出现了层级特征,即自学习特征.深度学习的这种特征学习方式,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易.相比于人工规则构造特征的方法,利用大数据来学习特征,更能够深刻刻画数据的丰富内在信息.

文中选择深度学习中的深度卷积网络(deep convolutional neural networks,DCNN)模型进行特征学习,是出于其本身结构优势以及如下优点考虑:①作为深度学习常用模型之一,DCNN是一种生物启发训练的架构,它隐式地从训练数据中进行学习,这使得它能通过结构重组和减少权值将特征提取功能融合进多层感知器;②DCNN局部权值共享的特殊结构在图像处理方面有着独特的优越性,其布局更接近于实际的生物神经网络,权值共享降低了网络的复杂性,特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的高复杂度计算过程.

1 基于显著性的车辆候选提取

视觉显著性及其关联的生物神经学方面研究在近5年吸引了大量研究者的关注.研究者发现人类的视觉具有快速搜索到感兴趣的目标的能力.例如,在车辆行驶中,驾驶员可以很快地注意到前方车辆,这种视觉注意的能力被称为视觉显著性.显然,如果能在车辆识别的任务中引入这种显著性,可以对车辆可能存在的区域进行快速定位,大大减少了背景的干扰.因此,为了在图像中引入显著性的概念,同时便于对各像素或区块的显著性大小进行度量,Christof Koch和 Shimon Ullman创新地提出了显著图(saliency maps)的概念.利用显著图,研究者已经在包括目标检测[10]、图像分割[11]和图像压缩[12]等方面实现了成功的应用.

目前,显著图的定义和计算方式有多种,其中T.N.Vikram 等[13]于2012 年在 Pattern Recognition上提出的一种基于随机矩阵区域采样的算法在处理速度上具有最为明显的优势.因此,文中以该算法计算显著图并提取车辆候选区域.以该算法在一幅图片上进行的车辆候选区域提取效果如图1所示.

图1 车辆候选区域提取效果图

图1左上图为道路原始彩色图片,右上图为灰度显著图,下图为二值化的车辆候选区域提取,阈值选取采用大津自适应阈值分割法.统计结果表明,对于一幅大小为640×480的彩色图像,该算法的平均计算时间约为12.7 ms.因此,可以看出,通过基于显著性的车辆候选提取,虽然额外花费一定的计算时间,但是减少了超过50%的待判断区域,可以大大提升后续车辆识别的处理速度.

2 车辆识别分类器设计

为了在车辆候选验证(CV)步骤中达到图像中车辆识别能力最优化,文中采用深度卷积神经网络(DCNN)作为特征抽取的工具,并以图像灰度像素作为基本输入.DCNN是一个多层结构,主要由若干个卷积层、池层互联构成,并通过全连接网络层输出特征.卷积层通过卷积核从输入中抽取特征,而池层通过下采样减少卷积层的空间分辨率.将最后一个池层矩阵通过全连接层向量化,则构成了一个DCNN的输出,则该向量可视为一幅图片的最终抽取特征.

2.1 DCNN基本层

文中DCNN所涉及的3种层简要介绍如下.

1)卷积层

卷积层主要通过卷积核抽取特征.设某个卷积层的输入为前一层的输出xi,该输入xi的不同子区域将与j个不同的卷积核kj,i进行卷积操作.每次卷积的输出将映射到该层的输出特征图yi中:

式中*表示2D卷积操作,卷积核kj,i的卷积系数和基向量bj为可训练参数.

2)池层

池层主要通过下采样减少卷积层的空间分辨率.其目的有二:一是减少特征维数;二是可以增强特征对微小畸变和微小旋转的容忍能力.在池层的输入中,每个不重叠的大小为r×r的区域视为一个池,可用常见的“池平均”(average-pooling)操作或“池最大”(max-pooling)操作进行.池平均操作以输入矩阵的均值作为输出,而池最大操作以输入矩阵的最大值作为输出.目前,“池最大”操作在多数应用中显示出优越性[13-14].

3)全连接层

全连接层实质上是一个标准的单隐层神经网络.它通过权重矩阵W、基向量b以及函数f,将输入矩阵x向量化并映射为向量y:

式中f常用tanh函数或者和softmax函数.

2.2 车辆识别DCNN分类器结构

将上节所提3种层依次相连即可以形成所需DCNN车辆识别分类器.文中所设计的DCNN的结构如图2所示.

图2 车辆识别DCNN结构示意图

如图2所示,文中所设计的DCNN车辆识别分类器除输入层和全连接输出层外,采用了2组隐层,而每一个隐层均由一个卷积层(C)和一个池层(M)构成.DCNN车辆识别分类器的输入层大小为32×32像素,该尺寸和所有待训练样本的像素尺寸保持一致.2组隐层均采用大小为5×5的卷积核,池层大小均为2×2,选用“池最大”操作.因此,2组隐层的卷积层和池层大小分别为28×28,14×14,10×10,5×5.全连接层的隐层包含200个神经元,其显层直接和最后一个池层M2向量化连接.全连接层的输出包含2个神经元,采用softmax函数输出,用[1,0]表示车辆,[0,1]表示非车辆.

2.3 训练方法

所设计DCNN采用随机梯度下降法进行训练,待训练权重参数的初始值选用在[-0.05,0.05]的满足随机分布的随机数,所有基向量的初始取值为0.此外,目标函数选用交叉熵损失函数:E=-∑p(xi)logp(xi|yi),其中(xi,yi)为样本图像与对应标签.训练的目标是使该函数输出最小,最大迭代次数上限设置为1×105次.

3 试验与分析

设计了2组试验:①对所提出的DCNN车辆识别分类器的分类性能进行试验;②对所提出的完整车辆识别算法进行试验.

3.1 DCNN车辆识别分类器试验

为对DCNN车辆识别分类器进行训练,首先选取大量车辆和非车辆图片作为训练样本.其中,正样本由来自Caltech1999数据库和道路实际采集的处于不同光照环境的图片组成,共3 715个.通过相应的裁剪,正样本统一归一化至32×32像素.负样本由不含车辆的约1 000张图片以不同尺寸、不同位置随机裁切构成,共5 000个.部分正负样本示例如图3所示.测试图片来自于PETS标准道路图库,包含多种路况,共1 800幅,其中含有车辆2 785辆.

图3 正负样本准备

此外,文中的试验平台为惠普工作站,其主要参数为Intel酷睿2双核2.67 GHz处理器,2 GB内存,操作系统为Windows XP,编程软件为Microsoft Visual 6.0.

在DCNN车辆识别分类器的试验中,将文中所提出的DCNN车辆识别分类器与现有主流机器学习方法进行了比较,包括支持向量机(support vector machine,SVM)、k 最 近 邻 (k-nearest neighbor,KNN)、神经网络(neural network,NN)和深度置信网络(deep belief network,DBN).识别效果如表1所示.

表1 多种车辆识别分类器效果比较

由表1可见,由于采用了深度学习的方法,DBN和DCNN在识别效果上大大优于传统方法(SVM,KNN,NN).此外,虽然同样采用深度学习的框架,所提出的DCNN算法要优于DBN算法.

3.2 算法综合车辆识别效果试验

在算法综合车辆识别效果的试验中,选用的测试数据库是KITTI标准库[15].本算法与现有的几种以单双目视觉为感知手段的车辆识别系统(Bergmiller[16],Alonso[17],Sun[18]和 Southall[19])在 检 测率、误检率和检测时间等方面进行了针对性的比较,结果如表2所示.

表2 综合车辆识别算法效果比较

由表2可见,文中方法具有最低的误检率和第2高的检测率(仅低于Southall等所提的双目视觉车辆识别方法0.24%).但是,相对于Southall的方法,由于采用单目视觉的手段,文中方法的处理速度要大大提高.

图4为文中方法在KITTI标准道路图像库测试中的一些处理结果.

图4 部分车辆识别试验结果

4 结论

在KITTI标准道路图像库的试验结果表明,所提出的DCNN车辆分类器在识别效果上大大优于基于人工特征机器学习的方法(SVM,KNN,NN)具体表现在具有次高的检测率(98.13%);最低的误检率(0.78%);最快的处理速度(27 Hz).

References)

[1]Teoh S S,Braunl T.Symmetry-based monocular vehicle detection system[J].Machine Vision and Applications,2012,23(5):831-842.

[2]Sivaraman S,Trivedi M M.Integrated lane and vehicle detection,localization,and tracking:a synergistic approach[J].IEEE Transactions on Intelligent Transportation Systems,2013,14(2):906-917.

[3]Wang H,Cai Y F,Chen L.A vehicle detection algorithm based on deep belief network[J].The Scientific World Journal,2014,doi:10.1155/2014/647380.

[4]缪小冬,李舜酩,沈 峘,等.复杂环境中交通标志的实时识别方法[J].江苏大学学报:自然科学版,2013,34(5):514-518.

Miao Xiaodong,Li Shunming,Shen Huan,et al.A real time traffic sign recognition method in complex environment[J].Journal of Jiangsu University:Natural Science Edition,2013:34(5):514-518.(in Chinese)

[5]Wang Hai,Cai Yingfeng.A multistep framework for vision based vehicle detection[J].Journal of Applied Mathematics,2014,doi:10.1155/2014/876451.

[6]Kim Giseok,Cho Jae-Soo.Vision-based vehicle detection and inter-vehicle distance estimation[C]∥Proceedings of2012 12th International Conference on Control,Automation and Systems.Jeju Island,Korea:IEEE Computer Society,2012:625-629.

[7]Wang Hai,Zhang Weigong,Cai Yingfeng.Design of a road vehicle detection system based on monocular vision[J].Journal of Southeast University:English Edition,2011,27(2):169-173.

[8]文学志,方 巍,郑钰辉.一种基于类Haar特征和改进AdaBoost分类器的车辆识别算法[J].电子学报,2011,39(5):1121-1126.

Wen Xuezhi,Fang Wei,Zheng Yuhui.An algorithm based on Haar-like features and improved AdaBoost classifier for vehicle recognition[J].Acta Electronica Sinica,2011,39(5):1121-1126.(in Chinese)

[9]马 雷,臧俊杰,张润生.不同光照条件下前方车辆识别方法[J].汽车工程,2012,34(4):360-366.

Ma Lei,Zang Junjie,Zhang Runsheng.Front vehicle identification under different lighting conditions[J].Automotive Engineering,2012,34(4):360-366.(in Chinese)

[10]Khuwuthyakorn P,Robles-Kelly A,Zhou J.Object of interest detection by saliency learning[C]∥Proceedings of the11th European Conference on Computer Vision.Heraklion,Crete, Greece:Springer Verlag,2010:636-649.

[11]Shi Liang,Wang Jinqiao,Xu Lei,et al.Context saliency based image summarization[C]∥Proceedings of the2009IEEE International Conference on Multimedia and Expo.New York:IEEE Computer Society,2009:270-273.

[12]Donoser M,Urschler M,Hirzer M,et al.Saliency driven total variation segmentation[C]∥Proceedings of2009IEEE12th International Conference on Computer Vision.Kyoto,Japan:IEEE,2009:817-824.

[13]Vikram T N,Tscherepanow M,Wrede B.A saliency map based on sampling an image into random rectangular regions of interest[J].Pattern Recognition,2012,45(9):3114-3124.

[14]Scherer D,Müller A,Behnke S.Evaluation of pooling operations in convolutional architectures for object recognition[C]∥Proceedings of20th International Conference on Artificial Neural Networks.Thessaloniki,Greece:Springer Verlag,2010:92-101.

[15]Geiger A,Lenz P,Stiller C,et al.Vision meets robo-tics:the KITTI dataset[J].International Journal of Robotics Research,2013,32(11):1231-1237.

[16]Bergmiller P,Botsch M,Speth J,et al.Vehicle rear detection in images with generalized radial-basis-function classifiers[C]∥Proceedings of2008IEEE Intelligent Vehicles Symposium.Eindhoven:IEEE,2008:226-233.

[17]Alonso D,Salgado L,Nieto M.Robust vehicle detection through multidimensional classification for on board video based systems[C]∥Proceedings of2007IEEE International Conference on Image Processing.San Antonio,USA:IEEE Computer Society,2006,doi:10.1109/ICIP.2007.4380019.

[18]Sun Zehang,Bebis George,Miller Ronald.Monocular precrash vehicle detection:features and classifiers[J].IEEE Transactions on Image Processing,2006,15(7):2019-2034.

[19]Southall B,Bansal M,Eledath J.Real-time vehicle detection for highway driving[C]∥Proceedings of2009IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops.Miami:IEEE Computer Society,2009:541-548.

猜你喜欢
分类器卷积显著性
基于3D-Winograd的快速卷积算法设计及FPGA实现
从滤波器理解卷积
基于显著性权重融合的图像拼接算法
基于视觉显著性的视频差错掩盖算法
基于傅里叶域卷积表示的目标跟踪算法
一种基于显著性边缘的运动模糊图像复原方法
论商标固有显著性的认定
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别