陈民 吴观茂
摘 要:现实中交通标志的检测和识别具有环境多变的特点,交通标志长时间暴露在外经常会出现损坏情况,对检测的精度和速度产生较大影响。利用最新的YOLO系列算法——YOLOX,对网络结构的加强特征提取层进行改进,引入OPA-FPN网络,相较于原来的PANet网络,后者精度提升2.2%。在交通标志识别过程,对经典的卷积神经网络模型LeNet-5进行改进,在数据集TT100K中进行实验,相较于其他交通标志识别模型,使用改进的模型可以使识别正确率提升2.31%,识别时间减少了13.02 ms。
关键词:单步路径聚合网络;YOLO;卷积神经网络;FPN;LeNet-5
中图分类号:TP273+.4 文献标识码:A文章编号:2096-4706(2022)02-0101-04
Abstract: In reality, the detection and recognition of traffic signs have the characteristics of changeable environment. Traffic signs are often damaged after being exposed for a long time, which has a great impact on the accuracy and speed of detection. Using the latest YOLO series algorithm—YOLOX, the enhanced feature extraction layer of the network structure is improved, and the OPA-FPN network is introduced. Compared with the original PANet network, the accuracy of the latter is improved by 2.2%. In the process of traffic sign recognition, the classical convolutional neural network model LeNet-5 is improved, experiments are carried out in the data set TT100K. Compared with other traffic sign recognition models, using the improved model can improve the recognition accuracy by 2.31% and reduce the recognition time by 13.02 ms.
Keywords: single-step path aggregation network; YOLO; convolutional neural network; FPN; LeNet-5
0 引 言
随着城市化的发展,人们的生活质量日益提高,道路上车辆的数量也远超过从前,无人驾驶作为极具发展前景的技术也逐步进入百姓生活中。无人驾驶是在没有驾驶人员的情况下由驾驶系统操控车辆,那么对于驾驶系统掌控道路交通信息就有着更加及时准确的要求。另外,道路堵塞、交通事故经常发生,交通标志检测与识别也可以作为车载辅助系统的重要组成部分,可以防止驾驶员因疏忽大意或在恶劣环境下出现交通事故。因此,在最短时间内达到高准确率的检测和识别极具挑战。
交通标志都是以几种简单形状中的一种构成背景,标志的颜色也是醒目的特定颜色,所以使用基于颜色和形状的方法进行检测[1],传统的交通标志检测算法有复杂度高、系统硬件要求高和需要对训练数据进行不同的预处理等缺点。近年来,基于卷积神经网络的目标检测算法兴起,包括一阶段和二阶段的算法,二阶段算法是由R-CNN为代表的一系列算法[2],检测精度较高。一阶段算法是以YOLO系列为代表的,可以直接得到坐标和框的概率,YOLOv3选用Darknet-53作为主干网络,使用了多标签分类[3];YOLOv4输入端采用Mosaic增强,主干网络使用CSPDarknet-53[4];YOLOv5创新地使用了Focus的结构,将宽高信息集中到了通道信息[5]。
在交通标志检测阶段,本文使用基于端到端的目标检测算法,对网络中的Neck结构进行改进,使用高效的搜索架构得到最佳的特征金字塔路径,对于破损、模糊的交通标志,在提高检测精度的同时提升检测速度;在标志识别阶段,对经典的卷积神经网络模型LeNet-5改进,可以在驾驶过程中實时地识别出类别繁多的交通标志。
1 交通标志的检测
YOLO系列算法检测目标的速度很快,YOLOX是YOLO系列的改进版,综合了系列网络的优点,YOLOX是创视科技于2021年发布的新算法,创新地使用了解耦头、Anchor-free和标签分配策略SimOTA,YOLOX在所有模型尺寸上实现了比其他对应目标检测算法更好的速度和准确性之间的权衡。
1.1 YOLOX算法结构
主干部分:YOLOX主干部分使用的是Darknet-53网络结构。输入640×640×3的图片,首先使用Focus网络结构,每隔一个像素拿到一个特征值,然后堆叠将宽高信息集中到通道信息,变成320×320×12的特征层;然后进行卷积标准化和SiLU激活函数,即Resblock-body操作,之后再进行四次Resblock-body的操作;特别地,在YOLOX中,SPP模块被使用在主干特征提取网络中,在最后一次Resblock-body的操作后,通过不同池化核大小的最大池化进行特征提取,提高网络的感受野。
加强特征提取部分:在主干提取网络部分获得到三个有效特征层,分别是80×80×256、40×40×512、20×20×1 024的有效特征层,对深层特征层上采样和浅层特征层融合,然后再将浅层特征层融合后的结果进行下采样和深层特征层进行特征融合,即PANet结构,在经典特征金字塔网络从上至下的过程后添加了从下至上的过程。
预测头部分:目标位置的检测是个回归问题,在预测头中,这些信息是糅合在一起的,而解耦头就是将这些信息分成不同任务的预测头。具体地,利用加强特征提取网络可以获得三个有效特征层,首先对输入进来的特征层利用卷积标准化加激活函数进行特征整合,然后将预测分为分类和回归两个部分,分类部分利用两次卷积标准化加激活函数判断物体所属的种类,回归部分同样的操作得到回归预测的结果以及这个特征点是否有对应的物体。
1.2 网络结构改进
功能金字塔网络(FPN)是最流行的目标检测网络的基本架构,并产生了许多重要的变体。它采用了用于图像分类的骨干网模型,通过将骨干网特征层次中相邻的两层依次合并,形成自上而下的信息流。YOLOX使用的就是PANet的结构,低级功能可以被来自高级功能的语义信息所补充,尽管简单有效,但FPN可能不是最佳架构设计。它有以下局限:第一个是效率低,由于搜索空间体积很大,搜索时间变长;第二个是适应性弱,只针对特定的检测器。为了解决上述问题,首先提出了六种类型的信息路径,可以捕捉多层信息,然后引入了一种新的高效搜索架构,它通过一次性搜索算法,从超级网中搜索最优子网,得到新的OPA-FPN架构。
具体的,有以下六种路径:
如图1(a),自顶向下路径,这条路径是由经典的功能金字塔网络修改而来的,得到的特征图都是与更高级别的特征图迭代构建。
如图1(b),自底向上路径,与自顶向下的路径相反。
如图1(c),残差连接路径,通过合并邻接层的特征,映射得到新的特征图。
如图1(d),融合拆分路径,将最高的两个特征映射到一个特征图,将两个最低的特征映射到另一个特征图,然后将用连接的方式将它们融合,最后调整为多尺度特征金字塔结构。
最后两条是残差连接路径、空信息路径,这两条路径无参数,不参与计算,是为了降低模型复杂性实现更好的速度与复杂度平衡而设计的。
本文利用一种高效的一次性搜索方法搜索最优聚合网络,即首先训练一个超级网络,然后用进化算法使用这六种路径找到最优的路径组合,数据证明OPA-FPN架构在训练时间与准确度都强于目前所有的一阶段和二阶段检测器,将OPA-FPN应用到YOLOX的加强特征提取网络中,可以提高检测性能。改进后的检测网络结构如图2所示。
2 交通标志的识别
LeNet-5模型最初用于手写体数字的识别[6],经典的卷积神经网络模型,参数量少,结构简单,包含输入层、隐含层、输出层。具体的,对于输入的图像,利用5×5大小的卷积核进行步长为1的特征提取,得到6个卷积后的特征图,第二层进行池化操作,使得整体网络参数变小,并保留特征,第三层还是卷积层,利用16个5×5大小的卷积核生成16个特征图,继续池化操作,再经过展平层调整为120个1×1大小的向量,最后加入有64个神经元组成的全连接层,输出10个概率预测手写的数字。虽然LeNet-5模型结构简单,相较于其他模型,处理速度很快,但是对种类繁多的交通标志进行准确分类,仅仅使用LeNet-5模型进行识别,无法实现最佳的效果。为此提出两个改进。
改进一:将5×5大小的卷积核改进成为2个3×3大小的卷积核,变成两个卷积层,一个池化层的结构。5×5的卷积核尺寸过大,模型复杂度变高,计算量会增加,不利于网络的加深,2个3×3的卷积核特征学习能力更强。
改进二:将sigmoid函数更换为PReLU激活函数。Sigmoid函数处处连续便于求导,是良好的阈值函数,可以与概率分布函数相联系,但是在趋向无穷的地方,容易发生梯度爆炸的现象,不利于深层神经网络的反馈传播,而PReLU激活函数由于参数较小,不会发生梯度爆炸的现象。
改进后的LeNet-5模型如图3所示。
3 结果与分析
3.1 实验环境
本实验环境的操作系统是Windows10,使用Intel Core i5处理器,YOLOX网络的深度学习框架为Darknet-53,LeNet-5模型的深度学习框架为Pytorch,调用CUDA10.0,cuDNN7.3加速,GPU为NVIDIA GeForce GTX 1650,配置8 GB显存,20 GB内存。将输入的图片裁剪为416×416的大小,學习率设置为0.001,权重衰减为0.005,最大迭代次数为20 000。
3.2 数据集
使用中国交通标志数据集TT100K,数据集中有10 349张训练图像、3 073张验证图像和6 107张测试图像,共有221个类别。所有的照片都是在一天的不同时间和不同的照明条件下在移动的车辆上拍摄,模拟真实驾驶情况,包含的图片面临模糊、倾斜、强烈光照、雨雾天气、光线昏暗等挑战。数据集分为训练集、验证集和测试集。
3.3 实验结果
YOLOX使用的是PANet的结构,结合了自顶向下和自底向上的路径,但是具有局限性,本文使用OPA-FPN的多尺度融合网络,具有较高的精度和较少的参数量,如表1所示。
在交通标志检测过程中,本文引入OPA-FPN架构改进YOLOX的Neck结构,如表2所示,本文模型在多尺度融合方法中取得较高精度的同时具有较小的参数量,改进后的YOLOX模型在满足轻量化的条件下,与比同类型目标检测算法相比,检测率提升了1.1%。
检测过后的图像送入LeNet-5模型识别标志种类的概率,从表3可以看出,相对于经典的交通标志识别模型HIS+HOG+LSS算法和HOG+SVM算法,在中国交通标志数据集TT100K上,本文使用改进的LeNet-5模型识别正确率和识别速度都更优。
图4为本文模型在TT100K上检测的效果。
4 结 论
本文提出了一种改进YOLOX网络的新算法,用于交通标志位置的检测,然后对经典卷积神经网络模型LeNet-5改进,用于交通标志的种类识别,旨在解决现存交通标志检测与识别模型,处理速度慢检测精度低,模型参数过大的问题,经实验证明,本文改进后的模型略微提升模型大小,但使准确率和识别时间都达到更好的效果。
图4 实验效果
参考文献:
[1]陈维馨,李翠华,汪哲慎.基于颜色和形状的道路交通标志检测 [J].厦门大学学报(自然科学版),2007(5):635-640.
[2] REN S,HE K,GIRSHICK R,et al. Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks [J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,39(6):1137-1149.
[3] REDMON J,FARHADI A. YOLOv3:An Incremental Improvement [J/OL].arXiv:1804.02767 [cs.CV].(2018-04-08).https://arxiv.org/abs/1804.02767v1.
[4] BOCHKOVSKIY A,WANG C Y,Liao H Y M. YOLOv4:Optimal Speed and Accuracy of Object Detection [J/OL].arXiv:2004.10934 [cs.CV].(2020-04-23).https://arxiv.org/abs/2004.10934.
[5] YI Z T,WU G,PAN X L,et al. Research on Helmet Wearing Detection in Multiple Scenarios Based on YOLOv5 [EB/OL].[2021-11-16].https://mall.cnki.net/magazine/Article/IPFD/KZJC202105007096.htm.
[6] 趙志宏,杨绍普,马增强.基于卷积神经网络LeNet-5的车牌字符识别研究 [J].系统仿真学报,2010(3):638-641.
作者简介:陈民(1997—),女,汉族,安徽濉溪人,硕士在读,研究方向:目标检测;吴观茂(1965—),男,汉族,安徽歙县人,副教授,博士,研究方向:深度学习。