基于改进FasterR—CNN的交通信号灯检测

2019-05-24 14:13姚子兵
电脑知识与技术 2019年11期
关键词:特征融合

姚子兵

摘要:为了解决复杂场景下交通信号灯的检测存在检测精度低的问题,提出一种基于改进Faster R-CNN的交通信号灯检测算法。首先针对交通信号灯检测属于小目标检测,分析了影响交通信号灯检测精度的因素,然后对Faster R-CNN目标检测算法提出二项改进:改进锚设计和采用特征融合,最后在美国LISA交通信号灯检测数据集上进行实验验证。实验结果表明,提出的算法能够实现复杂场景下交通信号灯的精确检测。

关键词: 交通信号灯检测; Faster R-CNN; 锚设计; 特征融合

中图分类号:TP391.4 文献标识码:A

文章编号:1009-3044(2019)11-0274-03

Abstract:In order to solve the low detection accuracy of traffic lights in complex scenes, this paper proposes a traffic light detection algorithm based on improved Faster R-CNN. Firstly, according to the traffic light detection belongs to small target detection, and the factors of affecting the traffic light detection accuracy are analyzed. Secondly, two improvements were proposed for Faster R-CNN target detection algorithm: improves anchor design and uses feature fusion. Finally, the American LISA traffic light detection dataset was used for experimental verification. The experimental results show that the proposed algorithm can accurately detect traffic lights in complex scenes.

Key words:traffic light detection; Faster R-CNN; anchor design; feature fusion

1 引言

交通信號灯的检测是智能交通系统与无人驾驶领域研究的重要内容,但是在实际场景中,由于周围环境的复杂,加大了交通信号灯检测的难度,造成了检测的精度达不到实际要求。传统的交通信号灯检测方法,通常利用交通信号灯的颜色与形状特征来提取图像中交通信号灯的候选区域,再利用特征提取算法对候选区域进行特征提取,最后根据提取到的特征训练分类器来识别交通信号灯的类别。Omachi M等提出通过对图像进行RGB色彩空间转换,然后利用像素的边缘信息分割出交通信号灯的感兴趣区域,最后利用霍夫变换来识别交通信号灯[1]。最近由于卷积神经网络的成熟应用,目标检测领域取得了一系列成就。基于卷积神经网络的目标检测算法可以使用一个统一的网络进行端到端的训练来同时完成目标的检测与识别。目前涌现出了一批很好的目标检测算法,例如Faster R-CNN[2]、YOLO[3]、SSD[4]等,这些算法都能够用来对交通信号灯的检测进行研究。Julian Müller等就提出使用SSD检测交通信号灯,通过使用Inception-v3[5]网络代替VGG16[6]网络作为基础网络,而且针对SSD的先验框设计提出随机中心点的先验框设计策略,该方法取得了不错的检测效果[7]。

本文使用Caffe深度学习框架,针对交通信号灯检测属于小目标检测的问题,改进了Faster R-CNN中的锚设计,并且采用了特征融合,最后在美国LISA交通信号灯检测数据集上进行了实验验证与结果分析。

2 改进的Faster R-CNN算法

2.1 Faster R-CNN的基本结构

Faster R-CNN目标检测算法由两大模块:Fast R-CNN目标检测算法和候选区域生成网络(Region Proposal Network, RPN)构成,通过共享卷积特征的方式将 RPN 和 Fast R-CNN 统一到一个端到端的网络中,解决了在提取图像中目标候选区域时,需要额外使用选择性搜索的方法,而消耗大量时间的问题。在具体实现中,Faster R-CNN首先利用特征提取网络对输入待测图像进行特征提取,生成特征图,接着利用RPN对特征图进行处理,输出多种尺度和宽高比的目标候选区域,然后将特征图与目标候选区域输入到ROI Pooling,输出固定大小的目标候选区域特征图,最后将目标候选区域特征图输入到分类与边界框回归网络对目标进行分类,同时对目标的边界框进行回归,如图1所示为Faster R-CNN的基本结构。从图中可以看出Faster R-CNN包含三个网络:特征提取网络、RPN、分类与边界框回归网络,在特征提取网络中所使用的能够共享卷积特征的网络是VGG16。

2.2 改进的锚设计

Faster R-CNN开始是在PASCAL VOC数据集上进行训练评估,而PASCAL VOC数据集中的目标在图片中的占比较大,因此Faster R-CNN采用三种尺度(128x128、256x256、512x512)和三种宽高比(1:2、1:1、2:1)共9种锚设计,而交通信号灯检测属于小目标检测,交通信号灯在图片中的占比非常小,因此本文采用缩小尺度的锚设计,即采用尺度为(32x32、64x64、128x128)和宽高比为(1:2、1:1、2:1)共9种锚设计,这样的锚设计在RPN中才能更好地生成适合目标大小的候选区域。

2.3 特征融合

采用VGG16网络作为Faster R-CNN的基础网络,当待测图片输入到Faster R-CNN的特征提取网络时会经过五个卷积块(Conv1、Conv2、Conv3、Conv4、Conv5)的特征提取,由于每一个卷积块后都采用了卷积核大小为2x2,步长为2的最大池化(Max Pooling),因此特征图的分辨率将不断减小。对于交通信号灯这样的小目标而言,在浅层特征图上具有丰富的边缘与轮廓等细节信息,因此特征提取网络的浅层特征图有利于检测交通信号灯,但是浅层特征图缺乏丰富的语义信息,无法很好地将交通信号灯与背景区分开,而深层特征图上具有丰富的语义信息,但是深层特征图由于分辨率较低,其上保留的小目标的细节信息很弱。为了兼顾这两方面的特征,提出将Conv5_3的特征图经过反卷积后得到与Conv4_3相同尺度的特征图,接着将二者进行特征融合,然后将特征融合后的特征图Conv45输入RPN生成目标候选区域,接着将Conv45特征图与RPN生成的目标候选区域一同输入ROI Pooling得到固定大小的目标候选区域特征图,最后将得到的目标候选区域特征图输入Faster R-CNN的分类与边界框回归网络,对交通信号灯进行分类,同时对交通信号灯的边界框再次进行回归修正。图2是改进的Faster R-CNN网络设计,其中的特征融合模块设计如图3所示。

特征融合模块设计具体流程:在图3中,先将Conv5_3特征图进行通道数为512、卷积核为2x2、步长为2的反卷积操作,得到与Conv4_3特征图尺度大致一致的特征图(由于Conv5_3特征图的尺度为38x63,经过反卷积后只能近似得到与Conv4_3特征图相同的尺度),经过ReLU激活操作后,接着进行通道数为512、卷积核为3x3、步长为1、填充为1的卷积操作,再经过ReLU激活操作后,接着进行L2 Normalization(归一化)操作,而Conv4_3特征图也进行L2 Normalization(归一化)操作,然后将Conv5_3这一路的特征图通过Crop操作裁剪为与Conv4_3这一路的特征图相同的尺度,最后将两路特征图通过Eltwise(PROD)方式进行特征融合,再通过ReLU激活操作后得到特征融合后的Conv45特征图。

3 实验结果分析

3.1 交通信号灯检测数据集

LISA交通信号灯检测数据集是美国加州大学圣地亚哥分校智能和安全汽车实验室发布的公开数据集。选取了该数据集中图片背景是白天的数据集,选取的数据集经筛选后一共包含12755张图片,图片大小为960x1280,通道数为3,图片中包含的交通信号灯类别有stop、stopLeft、go、goLeft、warning、warningLeft一共6类。为了对本文的算法进行实验评估,需要将数据集进行训练、验证、测试样本划分,其中训练验证样本7665张图片,包含训练样本5215张图片,验证样本2450张图片;测试样本5110张图片。

3.2 实验评价指标

本文交通信號灯检测评价指标采用目标检测领域常用的平均精确度均值(mean Average Precision, mAP)来衡量。

P-R曲线即是以 Precision 和 Recall 作为纵、横轴坐标的二维曲线,P-R曲线围起来的面积就是平均精确度(Average Precision, AP)。在交通信号灯检测效果衡量中,每一类都可以根据Precision 和 Recall绘制P-R曲线,从而得到AP值,用来表示某一类的检测效果,AP值越高,该类检测效果就越好,而使用的交通信号灯检测数据集总共有六种类别,因此采用平均精确度均值,即mAP值来表示多类别交通信号灯检测的效果。mAP值是对每个类别的AP值求平均得到的,因此mAP值越高,表示交通信号灯的整体检测效果越好。

3.3 结果分析

本文所提出的改进算法记为E-Faster R-CNN,表1是利用本文所述数据集与评价指标得到的两种算法的AP值与mAP值,图4是两种算法的实际检测效果图。

4 结论

本文针对交通信号灯检测属于小目标检测,对Faster R-CNN算法进行改进锚设计和采用特征融合。实验结果表明本文提出的E-Faster R-CNN算法比Faster R-CNN算法,在交通信号灯各个类别的AP值与整体mAP值上均有很大提高,而且两种算法的实际检测效果对比图也能清晰地表明E-Faster R-CNN算法具有比Faster R-CNN算法更好的检测性能,能够实现复杂场景下交通信号灯的精确检测。

参考文献:

[1] Omachi M, Omachi S. Traffic light detection with color and edge information[C]. IEEE International Conference on Computer Science and Information Technology, 2009:284-287.

[2] Shaoqing R, Kaiming H. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on pattern analysis and machine intelligence, 2017:1137-1149.

[3] Joseph Redmon, Santosh Divvala, Ross Girshick,et al. You Only Look Once: Unified, Real-Time Object Detection[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2016:779-788 .

[4] Wei Liu, Dragomir Anguelov. SSD: Single Shot MultiBox Detector[C]. The European Conference on Computer Vision (ECCV), 2016:21-37.

[5] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, et al. Rethinking the Inception Architecture for Computer Vision[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2016:2818-2826.

[6] Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[C].The International Conference of Learning Representation, 2015:1-14.

[7] Müller Julian, Dietmayer K. Detecting Traffic Lights by Single Shot Detection[C]. IEEE International Conference on Intelligent Transportation Systems, 2018:266-273.

【通联编辑:代影】

猜你喜欢
特征融合
基于移动端的树木叶片识别方法的研究
融合整体与局部特征的车辆型号识别方法