基于多尺度特征融合网络的交通标志检测

2021-02-25 08:51马社祥
计算机应用与软件 2021年2期
关键词:交通标志特征提取尺度

刘 胜 马社祥* 孟 鑫 李 啸

1(天津理工大学电气电子工程学院 天津 300384)2(天津理工大学海运学院 天津 300384)3(天津理工大学计算机科学与工程学院 天津 300384)

0 引 言

交通标志识别在高级辅助驾驶系统和自动驾驶中扮演重要角色,对提高驾驶员的安全性起着至关重要的作用。交通标志识别任务可详细分为两部分:交通标志检测和交通标志识别。交通标志检测主要任务是解决交通标志的定位问题,即在一幅图像或一段视频中用矩形框标记出交通标志;交通标志识别则是在检测的基础上进一步区分矩形框中目标的详细类别[1]。因交通标志有目标小、背景复杂、易受环境因素影响等特点,所以与一般目标相比更难检测。针对这一问题,一些传统检测算法在检测精度上已取得很好的效果。如文献[2-4]在GTSDB数据集上的检测准确率约为100%,但运行时间却无法满足快速检测的要求。而对高级辅助驾驶系统或自动驾驶而言,检测时间是非常重要的一项技术指标,只有快速检测才能对驾驶员起到及时提醒的作用,以保证驾驶员的安全。

近年来,由于计算机性能的发展使得深度学习取得了实质性的进展。深度学习在计算机视觉、自然语言处理等领域都有良好表现。在计算机视觉领域中,卷积神经网络(Convolutional Neural Network, CNN)在目标检测、分类和分割等任务上都有很好的表现。基于卷积神经网络的检测器大致可分为两类:二阶段检测器和一阶段检测器。二阶段检测器如Faster R-CNN[5]和R-FCN[6]等,相比一阶段检测器有更高的检测精度;而一阶段检测器运行速度更快,如YOLOv3[7]、SSD[8]和RetinaNet[9]等。近年来基于卷积神经网络的检测方法也逐渐应用于交通标志检测中,文献[10]提出使用全卷积网络提取感兴趣区域,并利用深度卷积神经网络对目标分类。Aghdam等[11]提出一种利用扩张卷积在CNN中实现多尺度滑动窗的方法,该方法在GTSDB数据集上得到优异的检测结果。Zhu等[12]提出一种端到端的多任务CNN网络,可以同时实现目标的检测和分类任务。

本文针对传统检测方法检测速度慢以及深度神经网络检测精度偏低的问题,提出一种基于YOLOv3的端到端交通标志检测网络。首先,特征提取网络的最后两个尺度输出通道数量被改为1 024,以便提取更多的全局特征信息。通过采用减少顶层两个尺度残差块的数量和插入1×1卷积层的方法来降低计算量。然后,融合除第一个尺度外的所有尺度特征信息,并将更大尺度特征图作为输出端之一,以便得到更多的局部特征信息。最后,本文应用K-means[7]聚类算法生成适合交通标志数据集的锚点框[7]。在TT100K (Tsinghua-Tencent 100K)[12]和GTSDB (German Traffic Sign Detection Benchmark)[13]数据集上的实验结果表明,改进网络对小尺寸交通标志检测效果有明显提升,且检测速度也优于大多数检测方法。

1 YOLOv3网络

YOLOv3检测网络通常应用于普通的目标检测任务,属于一阶段检测器。该网络采用Darknet-53作为特征提取网络,实现对图像的多尺度特征提取。表1为Darknet-53的具体参数配置。Darknet-53包含23个残差块,每个残差块包含一个1×1卷积层和一个3×3卷积层,共52个卷积层。该网络实现5次下采样,能够提取不同尺度的特征。特征提取后,网络输出8×8、16×16和32×32三个尺度的特征图。检测网络对每个尺度预测3个边界框,每个边界框包括4个坐标参数,1个目标分数和C个类别。因此,输出张量为N×N×[3×(4+1+C)][7],其中N×N为输出特征图的尺寸。然后将三个输出张量分别经过预测模块、非极大值抑制(Non Maximum Suppression,NMS)和分数阈值过滤处理后得到相应的预测值。

表1 Darknet-53参数配置

式中:TP、FP、FN分别表示正确识别的正样本、错误识别的正样本和错误识别的负样本。

bx=σ(tx)+cxby=σ(ty)+cybw=pwexptwbh=phexpth

(1)

式中:(cx,cy)是单元格相对于图像左上角的偏移量;pw和ph表示相应锚点框的宽度和高度;σ是Sigmoid函数;bx、by、bw、bh表示相对于整幅图像的4个坐标预测。逻辑回归用于预测边界框的中心坐标,指数函数用于预测边界框的宽度和高度。

本节对提出的基于YOLOv3的端到端卷积网络详细说明。根据交通标志尺寸小的特点对YOLOv3进行如下改进:(1) 通过增加特征提取网络顶层两个尺度的输出特征图数量来提升网络对大尺寸交通标志检测效果。(2) 利用多尺度特征融合的方法解决小尺寸目标检测困难和目标尺度变化问题。(3) 利用K-means聚类算法生成更适合交通标志的锚点框。

(2)

水上安全“铁三角”初步建成,安全形势更加稳定;今年1-11月份西江肇庆段 “零事故零伤亡零污染”;肇庆市所有涉水部门积极参与,首次由市政府牵头举办的大型水上应急演习圆满举办……

(3)

式中:bo代表目标分数;Pr(Classi|Object)表示类别条件概率;Pr(Classi)表示预测的类别概率;i为类别索引值。

每个网格单元预测C个类别概率。预测方式如下:

Pr(Classi)=σ(tc)

(4)

式中:σ为Sigmoid函数;tc表示通过检测网络预测的类别概率。

2 多尺度特征融合网络

北京燕禹水务科技有限公司………………………… (1、3、5、7、9、11、13、15、17、19、21、23)

2.1 特征提取

(1)生产参数。为提高工程施工质量,上面层采用改性沥青混合料,生产时必须严格把控拌和温度和时间参数,通过试拌法以沥青混合料无明显离析、结团成块为标准[3],最终确定AC—16沥青混合料的生产参数为:矿料加热温度180~190℃,改性沥青加热温度150~160℃,混合料出料温度155~165℃,拌和时间60~70s。

表2 改进后特征提取网络参数配置

图1 改进后检测网络整体结构

首先将Scale2的输出特征图数量由512改为1 024,以便提取更多的交通标志全局特征。为了降低计算量和网络参数,在残差块之间插入1×1卷积层,并且将Darknet-53中Scale1和Scale2的残差块数量由原4个和8个分别减少至2个和6个。然后,对残差块结构进行调整。如图2所示,每个残差块包含一个1×1卷积层和一个3×3卷积层,每个卷积层后采用批归一化层(Batch Normalization,BN)[14]处理特征。激活层采用LeakyReLU[15],并将最后的激活层移至相加层后,与传统的残差块结构相似。

图2 残差块结构

2.2 特征融合

特征金字塔网络(Feature Pyramid Networks,FPN)[16]在目标检测领域表现优异,大多检测网络在特征提取后都应用FPN来融合多尺度特征。YOLOv3中也应用类似FPN的网络结构,通过上采样和级联的方式融合顶层三个尺度的特征,最终得到三个尺度的输出。而提出的多尺度特征融合网络在FPN的基础上针对交通标志尺寸小和尺度变化的问题加以改进,如图1所示。由于第一个卷积层存在过多冗余信息,因此该方法融合除第一个卷积层外的所有尺度特征。首先,将原Scale3输出端调整为Scale4,以便提取更多的细粒度信息。其次,将Scale3特征通过最大值池化(Maxpooling)处理后分别与Scale1和Scale2两个尺度特征相加。然后,将Scale5特征通过最大值池化(Maxpooling)处理后与Scale4特征相加,并将Scale1特征上采样后与Scale2特征相加。将融合后的Scale2特征经过上采样后与Scale4相加。最终把融合后的Scale1、Scale2、Scale4三个尺度特征输入卷积模块处理。

AP近似等于precision/recall曲线下面积,定义如下:

d(box,centroid)=1-IOU(box,centroid)

(5)

式中:IOU(box,centroid)是真实边界框和计算所得的锚点框的交并比(Intersection Over Union,IOU)。将TT100K数据集的锚点框设置为(17,19)、(24,26)、(30,33)、(38,40)、(47,52)、(60,64)、(75,79)、(96,102)、(141,147)。将GTSDB数据集的锚点框设置为(22,22)、(27,27)、(33,33)、(38,37)、(42,41)、(48,48)、(58,58)、(76,73)、(108,106)。

3 实 验

对于目标分数预测,每个网格单元首先预测3个边界框的置信度。置信度体现了预测边界框的准确度,等于预测边界框和真实边界框之间的IOU。定义为:

实验中采用Keras深度学习框架搭建模型。在训练图像输入模型前,首先将图像尺寸都缩放为416×416,然后对训练数据进行数据增强,如图像翻转、扭曲、旋转等。在训练时,应用迁移学习的方法来加速训练,将在Imagenet数据集中训练好的Darknet-53的前35层卷积层权重导入模型。首先冻结前35层,训练35层之后的网络。在迭代50次之后解除冻结,并微调模型中所有层。最终训练至损失收敛则停止训练。表3为训练中超参数的详细配置。

表3 超参数配置

3.1 准确度评价指标

平均精度均值(mAP)是目前目标检测领域中评估检测准确度最常用的指标之一。本文采用mAP来评估检测网络的检测精度。首先,计算精确率(precision)和召回率(recall):

(6)

特征提取网络是检测网络中必不可少的一部分,它对目标检测效果起至关重要的作用。在YOLOv3中,作者提出了特征提取网络Darknet-53,且测试结果优于ResNet101。本文针对交通标志尺寸小的特点改进Darknet-53网络。改进后共19个残差块,46层卷积层,具体参数如表2所示。与 Darknet-53相比,前35层卷积层相同,以便在训练过程中应用迁移学习。因此本文对35层之后的网络加以改进,如图1所示。图中Scale1-Scale5分别代表尺度为13×13、26×26、52×52、104×104和208×208的输出特征图。

特征融合后,采用YOLOv3的预测方法预测相应的边界框、目标分数和类别。对于边界框的预测,首先要为每个尺度设置3个锚点框,共9个锚点框。不同于一般的检测目标,交通标志的真实边界框的横纵比约为1∶1。因此,本文采用K-means聚类算法生成更适合交通标志的锚点框。距离度量定义为:

(7)

实验平台配备双路TITAN Xp GPU,Intel(R) Core(TM) i7-7800X CPU,3.5 GHz×12,32 GB内存,Ubuntu16.04操作系统。选用两个交通标志数据集基准作为训练和测试数据,分别为TT100K和GTSDB。TT100K是中国交通标志数据集基准,该数据集包含大量中国交通标志图像,每幅图像的分辨率为2 048×2 048,且涵盖了多种不同光照条件下的交通标志。与其他交通数据集相比,该数据集数据丰富,且包含更小的交通标志,因此检测难度更大。TT100K的训练集包含6 105幅图像,测试集包含3 071幅图像。根据交通标志的含义将数据标注为3类:Prohibitory、Mandatory和Danger。GTSDB交通标志数据集是德国现实交通标志数据集,该数据集包含600幅训练图像和300幅测试图像,每幅图像的分辨率为1 360×800,且覆盖了不同光照条件下的交通标志。本文将该数据集标注为与TT100K相同的三类。

(8)

mAP等于所有类别AP的均值,定义如下:

(9)

式中:m为类别数量。

式中:area(Bgt)、area(Bp)和area(Bgt∩Bp)分别表示真实边界框的面积、预测边界框的面积和真实边界框与预测边界框相交的面积。

(10)

通过计算预测边界框(Bp)和真实边界框(Bgt)之间的交并比来验证预测的准确度。IOU定义如下:

与传统检测算法比较曲线下面积(Area Under Curve,AUC)来分析改进网络的检测精度。AUC可通过数值积分直接计算ROC曲线下面积得到。AUC数值越大,检测网络性能越好,相反则性能越差。

3.2 实验结果分析

(1) TT100K实验结果分析。由于TT100K交通标志数据集与其他数据集相比目标尺寸更小,图像分辨率更高,因此本节选用TT100K来评估改进网络对小尺寸交通标志的检测能力。通过对YOLOv3应用消融实验来验证改进方法的有效性。采用不同方法改进YOLOv3后的检测mAP如表4所示。由实验结果可知,改进的三部分都能实现对检测网络的性能提升,其中多尺度特征融合网络对检测准确度的影响最大,mAP约提升5个百分点。YOLOv3在应用全部改进方法后实现了最佳检测性能。后文实验中的改进网络即为应用全部改进方案的检测网络。

表4 改进部分有效性分析

为了比较改进网络的检测效果,本文分别对改进网络、YOLOv3、Faster R-CNN Resnet50、RetinaNet Resnet50四种模型训练和测试。四种模型的分数阈值设置为0.3,IOU阈值为0.5。图3为三种类别的precision/recall曲线图。改进网络的精确率和召回率都优于其他三个模型。其中:RetinaNet Resnet50的召回率最低,而Faster R-CNN Resnet50的准确率较差。改进网络的三种类别的平均精度分别为81.73%、80.56%和85.88%,都高于YOLOv3的检测结果。所以,对于小尺寸的交通标志,改进网络的检测效果更佳。

图3 四种检测网络的precision/recall曲线分析

运行时间对于交通标志检测是非常重要的因素。在运行时间上,四个网络使用相同设备测试评估。图4为运行时间与mAP关系。运行速度最快的为YOLOv3,每幅图像运行时间约为31.4 ms,mAP为76.59%。改进网络的运行时间约为37.2 ms,mAP为82.73%。Faster R-CNN Resnet50和RetinaNet Resnet50检测准确度偏低,且运行速度较慢。总体来说,改进网络的整体性能更好。

图4 基于TT100K的运行时间与mAP分析

最后,测试了不同IOU下四种模型的mAP,结果如图5所示,IOU取值范围为[0.1,1.0]。在IOU∈[0.4,0.6]时四种模型的mAP均已达到最大值。结合目前目标检测任务中IOU阈值大多取值范围在[0.4,0.6],最终设置四个网络的IOU阈值为0.5,并且其他实验的IOU阈值均设置为0.5。

图5 最佳IOU阈值分析

(2) GTSDB实验结果分析。GTSDB是目前交通标志检测任务中应用最广泛的数据集,应用该数据集原因在于一些优秀的交通标志检测算法或深度网络大多都针对GTSDB数据集训练和测试。在训练中,使用迁移学习的方法,微调由TT100K数据集训练好的网络。该方法得到的检测结果要远优于微调Imagenet预训练模型。实验中设置分数阈值为0.3,IOU阈值为0.5。表5为深度网络的对比结果。可以看出改进网络对三种类别的召回率和平均精度均达到最佳。因此,与其他深度网络相比,改进网络在检测精度上表现更好。

表5 四种网络准确率对比分析 %

如图6所示,在运行时间上,改进网络运行时间约为32.8 ms,mAP约为92.66%。一阶段检测器的表现优于二阶段检测器,其中表现最好的是SSD Inception V2模型,但其检测效果最差。对于综合运行时间和mAP,改进网络的性能优于其他深度网络。

图6 基于GTSDB的运行时间与mAP分析

最后,将改进网络与传统检测方法对比分析。传统检测方法中对于GTSDB数据集的个别类别的检测准确度已经达到100%[2],但这些方法的运行时间不能达到现实应用的要求。表6为不同检测方法对三种类别的检测AUC和运行时间。文献[2]在Prohibitory类的AUC达到100%,Danger类也已达到98.85%,但运行时间较慢。文献[19]中的方法在运行时间上有所提升,基本达到实时检测的要求,检测AUC也表现良好。改进网络的检测精度可达到与文献[19]相当的检测水平,但运行时间约为文献[19]的1/5。因此,与传统检测方法相比,改进网络在保证检测精度的同时能够实现快速检测。

表6 不同检测方法的AUC及运行时间对比

4 结 语

交通标志检测是计算机视觉中的一个重要研究方向,对自动驾驶和高级辅助驾驶系统的研究也有重要意义。交通标志因目标尺寸小、背景复杂、容易受环境因素的影响等特点,与传统的目标相比更难检测。本文针对传统检测方法检测慢和深度网络检测精度偏低的问题,提出一个基于YOLOv3的端到端检测网络。通过对YOLOv3中特征提取网络和特征融合网络加以改进,使得检测网络对小尺寸目标检测效果更佳。采用TT100K和GTSDB两个数据集来评估改进网络的检测性能。通过与不同检测方法的检测精度和运行时间的对比,验证了改进网络的有效性。

从实验数据可以看出检测网络对Mandatory类检测效果较差,主要原因是GTSDB训练集的类别不平衡。未来将主要针对检测网络召回率偏低和数据集类别不平衡的问题加以改进,将交通标志分为更详细的类别,从而实现交通标志识别系统的实时检测和识别。

猜你喜欢
交通标志特征提取尺度
同步定位与建图特征提取和匹配算法研究
环境史衰败论叙事的正误及其评判尺度
基于双向特征融合的交通标志识别
基于MED—MOMEDA的风电齿轮箱复合故障特征提取研究
基于曲率局部二值模式的深度图像手势特征提取
交通标志小课堂
以长时间尺度看世界
9
我们欢迎你!
室外雕塑的尺度