一种复杂场景下高精度交通标志检测模型

2023-11-18 03:33李嘉豪闵卫东陈炯缙展国伟
计算机工程 2023年11期
关键词:锚框交通标志细化

李嘉豪,闵卫东,2,3,陈炯缙,朱 梦,展国伟

(1.南昌大学 数学与计算机学院,南昌 330031;2.南昌大学 元宇宙研究院,南昌 330031;3.江西省智慧城市重点实验室,南昌 330031)

0 概述

随着智能交通领域中自动驾驶等技术不断发展,如何保障交通安全也愈发受到重视。交通标志检测利用快速检测交通标志并将信息传递给智能交通系统,辅助智能交通系统快速了解重要的道路信息,从而保障交通安全。然而,在复杂环境下光照、遮挡、尺度变化、交通标志的形变和褪色等因素都为交通标志检测带来诸多挑战。除此之外,部分交通标志的外观十分相似,模型在尺度变化下难以识别它们之间的特征差异,导致分类错误。此外,在交通场景中存在与交通标志相似的其他物体容易被误检,包括因为距离、模糊等因素而无法区分类别的原交通标志。

传统交通标志检测方法主要基于颜色和形状等手工特征,例如,形状、颜色、HOG、SIFT、边缘等[1-3]手工特征的方法。但是这些方法在面对上述问题时,往往不能取得较优的检测效果。许多研究人员将卷积神经网络应用于交通标志检测领域,并取得一定的进展。然而,如何提高卷积神经网络的准确性仍然是研究热点。

近年来,基于卷积神经网络的交通标志检测方法成为主流。文献[4]基于YOLOv3 提出多尺度注意力模块(Multi-Scale Attention Module,MSAM)融合不同尺度特征,增强网络表示能力,并增加1 个检测层以有效利用较浅层的小目标特征。TSingNet[5]基于RetinaNet 提出注意力驱动的双边特征金字塔网 络(Attention-driven Bilateral Feature Pyramid Network,ABFPN)和适应性感受野融合(Adaptive Receptive Field Fusion,ARFF)学习尺度感知和上下文信息,有效检测小而遮挡的交通标志。

然而,上述方法主要通过改进整体网络结构和注意力优化特征提取过程,提高小目标的检测效果。现有方法很少关注交通标志数据集的外观特点,尤其是TT100K[6]数据集,在该数据集分类下的部分交通标志之间有着十分相似的外观,优化网络和改进注意力都难以指导模型学习其中的细微差异。此外,由于其他相似物体尤其是原交通标志具有交通标志的外观特征,因此通过优化网络结构和添加注意力的方式难以有效抑制对这种特征的提取,导致误检。

本文选取综合性能较优的一阶段检测模型RetinaNet[7]作为主体框架,提出逐层特征细化检测(Layer-by-layer Feature Refinement Detection,LFRD)模型。通过对RetinaNet 模型的锚框机制优化设计分层聚类锚框,并根据交通标志外观特点提出分组损失,有效应对因交通标志尺度变化和相似交通标志的漏检和错误分类问题。此外,设计弱语义分割(Weak Semantic Segmentation,WSS)模块和特征细化模块(Feature Refinement Module,FRM),通过主动学习的方式减少对其他相似物体的误检。WSS 利用弱语义分割生成可信区域和非可信区域,FRM 利用多尺度信息主动学习并消除非可信区域特征中造成误检的干扰特征,结合通道注意力[8](SENet)抑制细化特征的背景并增强前景。利用上述方法沿自底向上子网逐层细化特征,构建逐层细化特征金字塔(Layer-by-layer Refinement of Feature Pyramid Network,LRFPN)从而降低误检。

1 相关工作

1.1 基于卷积神经网络的交通标志检测

卷积神经网络的交通标志检测方法主要基于两阶段检测模型和一阶段检测模型。两阶段检测模型是将区域建议与卷积神经网络相结合进行目标检测。经典的两阶段检测模型如Faster R-CNN[9]、R-FCN[10]、Cascade R-CNN[11]、Mask R-CNN[12]等。文献[13]提出多分支样本金字塔,基于Faster R-CNN,利用图像金字塔和动态卷积适应交通标志的尺度变化。文献[14]基于R-FCN,将符号的位置和大小作为先验知识缩小搜索范围,提出高性能轻量级超类检测器和精化分类器,从而提高检测性能。

虽然两阶段检测模型在交通标志检测中取得优异的性能,但是一阶段检测模型因其更具时效性而成为交通标志检测的主流方法。一阶段检测模型是将目标检测转化为1 个回归问题来进行端到端的检测。经典的 一阶段 检测模型有SSD[15]、YOLO[16]、RetinaNet 等。文 献[17]对YOLOv3[16]做出一些调整,在此基础上提出1 个多尺度注意力特征模块,该模块有助于融合不同层次的特征信息以此对特征进行细化,增强特征金字塔网络性能。文献[18]在改进RetinaNet 的基础上级联1 个二分类网络,有助于从第一阶段预测结果中识别有效的交通标志,提高准确率。文献[19]基于SSD 提出一种基于语义场景理解和结构化交通标志定位的方法,利用空间位置约束减少对其他类似物体的误检。

1.2 基于语义分割的交通标志检测

语义分割是提取图像特征并对特征的每个像素进行分类,从而获取到1 张关于图像类别信息的分割图。Mask R-CNN 结合FCN 中的语义分割技术在经典两阶段检测模型Faster R-CNN 的基础上增加1 个分支网络作为语义分割的输出。通过共享分支特征以及修改网络,在实现目标检测的同时分割目标像素。文献[20]在检测头前加入基于弱语义分割的动态增强附件,避免提取能力下降,导致误检、漏检。

1.3 基于特征金字塔的交通标志检测

特征金字塔网络[21](Feature Pyramid Network,FPN)是利用多尺度特征融合来缓解不同尺度之间语义信息不平衡问题的方法,可以在不同尺度上检测目标。该方法简单高效,被用于YOLO 系列、RetinaNet 等诸多一阶段检测模型中。随着对特征金字塔的深入研究,自FPN 后又出现如路径聚合网络[22](Path Aggregation Network,PAN)等优秀的特征金字塔方法。文献[5]提出一种注意力驱动的双边特征金字塔,在尺度注意力学习中双循环低、中、高尺度特征的前景语义信息,从而提高交通标志的检测效果。

上述现有方案从不同方面对交通标志检测进行改进,并取得较优的检测效果,但是大多数方法更加关注对小目标检测效果的提高,很少关注交通标志外观特点。除此之外,现有方案大多利用通道注意力或空间注意力对特征进行细化,从而抑制误检,这种方式是针对整体进行优化,对光照和部分相似物体有一定的效果,但是对与交通标志更相似的其他物体检测效果不佳。本文通过对交通标志数据集的外观特点进行分析,利用修改损失指导模型学习相似交通标志之间的差异。另外,本文不是基于全局优化的方式抑制误检,而是采用弱语义分割和特征细化模块主动学习和消除造成误检的干扰特征。

2 逐层特征细化检测模型

2.1 模型的整体结构

逐层特征细化检测 模型的整体框架:以ResNet 50[23]作为特征提取网络,以特征细化模块和弱语义分割模块结合通道注意力构建的逐层细化特征金字塔来实现多尺度特征优化,最后以语义分割图调整检测结果。模型输入尺寸为512×512 像素,经过8 倍、16 倍和32 倍的下采样倍率得到3 种不同尺寸的特征并分别利用1×1 卷积降低特征维度(P3、P4、P5),在模型 Neck 部分将P3输入到弱语义分割模块,结合最大池化下采样得到不同尺度的语义分割图,之后将尺度最小的分割图和P5输入到特征细化模块获取细化特征Fr,5和输出特征Fout,5。将Fout,5输入检测头中得到该层检测结果,将Fr,5上采样并利用通道注意力抑制背景增强前景,实现浅层特征和深层语义特征的融合。在其余2 层中重复上述过程,实现自底向上逐层细化的效果。除此之外,Fr,5利用3×3 卷积下采样作为第4 层检测头的输入,在获取到检测结果时,利用语义分割图调整置信度实现对结果的优化。LFRD 模型的结构如图1 所示。

图1 逐层特征细化检测模型整体结构Fig.1 Overall structure of layer-by-layer feature refinement detection model

2.2 分层聚类锚框与分组损失

RetinaNet 使用平移不变锚框,类似于文献[21]中RPN 变体的锚框。锚框在金字塔层次P3~P7上的面积分别为322~5122。但是平移不变锚框难以适应尺寸小且尺度灵活多变的交通标志,尤其是交通标志中有大量面积小于322的实例。通过分析TT100K 数据集中的训练集,其中面积小于322的正样本(模型的锚框和标签框交并比大于0.5)占17.5%,最小尺度的交通标志仅有72 像素。针对该问题,本文提出一种分层聚类锚框方法,使不同检测层检测适合尺度的目标。参考RetinaNet 为每层分配的尺度和比例分别为{322,642,1282,2562,5122}和,为每个检测层重新规划检测区域,每层的最小尺寸为{0,322,642,1282,2562},最大尺寸为{322,642,1282,。因为满足第5 层条件的样本数量太少,所以在去掉第5 层的同时将第4 层的最大尺寸增大为5122。

分层聚类锚框结构如图2 所示。计算训练数据集中交通标志的长宽,根据每层检测区域的范围将交通标志按照所属层次分组为多个子集,分别利用K-means 聚类算法对不同子集进行分析,选择各层对应合适的锚框数。本文选择每层锚框数为3。

图2 分层聚类锚框结构Fig.2 Structure of hierarchical clustering anchors

除此之外,RetinaNet 采用Focal loss 作为分类损失,该损失能有效改善TT100K 中类不平衡的问题,但并不能指导模型学习相似交通标志之间的细微差异,导致分类错误。

在TT100K 数据集中的功能类别和相似案例如图3 所示(彩色效果见《计算机工程》官网HTML版)。TT100K 数据集按照功能将标志分为禁止(P)、建议(I)、警告(W)3 大超类。同一超类下的交通标志颜色和形状都更加相似,禁止(P)多为白底并带有红色圆形边框,建议(I)多为蓝底圆形边框,警告(W)多为黄底三角形边框。

图3 在TT100K 数据集中的功能类别和相似案例Fig.3 Functional categories and similar cases in TT100K dataset

从图3 的右边可以看出,受距离和光照影响,同超类下的交通标志细节更模糊,容易误检,尤其是包含多个稀少类别的io、po、wo 3 类。在TT100K 数据集中有221 个类别,其中大量类别的实例数量稀少甚至只有个位数,TT100K 数据集[6]将数量稀少的类别按功能(I、P、W)统一为io、po、wo 3 类。

针对这个问题,本文根据交通标志类别功能设计分组损失函数,定义如式(1)和式(2)所示:

其中:pi和为按照功能类别划分为3组的预 测和标签;θ为Softmax 激活函数;ci为第i组的类别总数;pi,j和分别代 表pi和内 第j位预测 和标签的结果;条件保证了该损失仅在正样本的时候才会起到效果。将外观特征相似的交通标志类别放在同一组并分别计算损失函数,借助Softmax 局部注意力放大的效果,有利于在同组下突出不同类之间的差异并指导模型学习这种差异,减少交通标志的分类错误。

2.3 逐层细化特征金字塔

逐层细化特征金字塔(LRFPN)是在特征金字塔的基础上包含1 个弱语义分割模块、2 个通道注意力模块、3 个特征细化模块。采用自下而上的子网,结合弱语义分割和特征细化模块学习并消除底层特征对误检产生的干扰,从而获取细化特征和输出特征,利用通道注意力抑制细化特征的背景并增强前景,沿着子网迭代细化过程,以实现对整个特征金字塔的优化,从而降低对其他相似物体的误检。

2.3.1 自适应多尺度探索模块

弱语义分割模块和特征细化模块都需要学习目标的上下文信息,为此,本文设计1 个自适应多尺度探索模块。该模块由自适应权重(Adaptive Weights,AW)和轻量级多尺度方案组成,能够在像素级层面上自适应地控制网络感受野,以获取丰富的上下文信息。

自适应多尺度探索模块结构如图4 所示。

图4 自适应多尺度探索模块结构Fig.4 Structure of adaptive multi-scale exploration module

自适应权重和人为分配权重不同,自适应权重并不像后者根据先验知识为不同感受野分配相应权重,而是利用卷积神经网络学习每个像素点特征的周边信息以生成相应的感受野权重,如式(3)所示:

其中:CCBR表示1×1 卷积和Batch_Norm 以及ReLU激活函数,用于提取像素点的特征信息并将通道数映射到分支数K(K=4);C7×7表示7×7 大核卷积,用于获取像素点的周边信息;θ表示Softmax 激活函数,获取不同分支的比例。自适应多尺度探索模块利用反向传播和Softmax 激活函数增强局部注意的效果,学习像素级感受野分支权重图W。

轻量级多尺度探索模块利用通道压缩和分组卷积减少计算量和参数量。FRM 使用的自适应多尺度探索模块参数如表1 所示,其中A×A表示卷积核大小为A,r表示卷积扩张率大小。

表1 FRM 使用的自适应多尺度探索模块参数Table 1 Parameters of the adaptive multi-scale exploration module used by FRM

轻量级多尺度探索模块利用1×1 标准卷积压缩输入特征通道,其中,FRM 模块和SSW 模块针对压缩输入特征通道有所不同,前者压缩通道为原通道数的50%,后者压缩通道为原通道数的25%,还设计4 个平行的分组卷积和随后具有不同扩张率的分组扩张卷积层组成感受野分支,在小标志和大标志之间有效平衡感受野并获取充分的上下文信息。增大的扩张率通过强调上下文内容和大目标来扩大有效感受野,而减小的扩张率则更倾向于关注小目标。WSS 模块所使用的轻量级多尺度探索模块参数如表2 所示,WSS 模块所采用的轻量级多尺度探索模块实现感受野范围从1×1 到13×13 的变化,分组数为16。

表2 WSS 使用的轻量级多尺度探索模块参数Table 2 Parameters of the lightweight multi-scale exploration module used by WSS

自适应多尺度探索模块在得到自适应权重和多条分支的特征后,对两者进行特征融合,如式(4)所示:

其 中:CCGH表 示1×1 标准卷积和GroupNorm 以 及Hardswish 激活函数,用于压缩特征通道数来提取隐藏特征;BBranchi表示提取不同感受野特征的第i个感受野分支;Wi表示由自适应权重模块生成对应分支i的权重图;⋅表示哈达玛积;C2表示恢复通道数的点卷积。

2.3.2 弱语义分割模块与特征细化模块

部分误检是由于交通标志相似的物体造成的,它们具有交通标志的特征所以难以被模型消除,能够避免受网络优化和注意力的影响。

针对这个问题,本文提出特征细化模型,通过主动学习并消除特征中的干扰来降低误检概率。弱语义分割模块与特征细化模块结构如图5 所示。

图5 弱语义分割与特征细化模块结构Fig.5 Structure of weak semantic segmentation and feature refinement modules

为学习干扰特征,首先获取干扰的位置,获取干扰位置的流程如图5 的左图所示,本文结合自适应多尺度探索模块和1 个7×7 卷积,提出1 个弱语义分割模块,并利用卷积核为3、步长为2 的最大池化获取不同尺寸的分割图,其过程如式(5)所示:

其中:SSCE表示基于表2 中参数的自适应多尺度探索模块,其感受野范围从3×3 到15×15 的变化,分组数为32;P3表示通道压缩后的浅层特征;Conv7×7表示7×7 大核卷积将通道数映射为1,以阈值为0 生成分割图,避免产生反向传播影响到特征细化模块的优化。

语义分割图除了辅助特征细化以外,还可以作为惩罚模块(Punishment Module,PM)对预测结果进行优化,对位于非可信区域的预测结果进行惩罚,惩罚系数为0.5,如式(6)所示:

FRM 结构如图5 的右图所示,在利用弱语义分割图获取到非可信区域特征后,Fc,i是第i个模块的输入特征,首先利用上下文信息学习其中的假阳性干扰,然后利用简单的元素相减方式从特征中消除这些干扰从而得到细化特征Fr,i,其过程如式(7)所示:

其中:Fc,i为第i层FRM 模块的输入特征;表示根据表1 中参数构建的自适应多尺度探索模块,用于学习非可信区域中的干扰特征;σ表示ReLU 激活函数。

将细化后的Fr,i沿着特征金字塔向上传递的同时利用1 个新的自适应多尺度探索模块获取细化特征丰富的上下文信息表示Fout,i,如式(8)所示:

CEi,2和CEi,1的参数虽然一致但作用不同,前者是为了学习全局上下文信息代替7×7 标准卷积。

为了避免因数据集过少而造成过拟合问题,从而影响LRFPN 的检测效果,本文在训练时人为地生成一些干扰信息影响弱语义分割,以50%的概率遮挡正样本区域,提高模块保留假阴性干扰的能力,同样以50%的概率生成1 个位置随机且面积在50%~150%目标的正向干扰区域,以提高全局挖掘并消除可信区域假阳性干扰的能力。

3 实验与结果分析

3.1 实验数据集与评价指标

本文采用TT100K[6]和德国交通标志检测基准GTSDB[24]数据集验证实验效果。清华大学和腾讯公司联合制作的数据集TT100K 是1 个数量和图像尺度都较大的交通标志基准,由10 000 个分辨率为2 048×2 048 像素的街景图像和30 000 个交通标志实例组成,对应200 多个类别。因为获得难度不同,所以TT100K 存在类不平衡的现象。参考数据集来源的文献[6],本文挑选大于100 实例的42 类别,并根据建议、禁止、警告将其余类别统一成io、po、wo 3 类,共计45 类,利用数据增强将低于1 000 实例的类别扩充至1 000。GTSDB 被广泛用于交通标志检测的评价,包括900 幅分辨率为1 360×800 像素的图像(600 幅用于训练,300 幅用于测试)。

本文采用AP50、AP75、AP、精确率(P)、召回率(R)、F1 值 这6 个指标 评价模 型性能。AP50、AP75分别表示交并比IoU 大于0.50 和0.75 时的综合平均精确率mAP,AP 是IoU 在[0.50∶0.05∶0.95]下分别计算获得的mAP,并计算这些结果的均值,为了区分每个类别的平均精度,每个类别的平均精度被设置为ap。mAP 是计算所有类别P-R曲线下面积的平均值,如式(9)所示:

其中:iou 为设置好的IoU 阈值;N为该数据集样本类别数量;Pn为该样本类别的平均精度值。

F1 值(F1)是利用精确率和召回率计算获得的综合指标,如式(10)所示:

3.2 训练策略

本文实验平台设置:CPU 为Intel Core i9-10900K,内存 64 GB,GPU 为NVIDIA GeForce RTX P4000,显存8 GB,操作系统为Ubuntu 16.04,深度学习框架为PyTorch。

TT100K 数据集的图像分辨率太大而无法进行训练。为解决这个问题,本文参照文献[25]的图像处理方法,使用大小为512×512 的滑窗对训练集进行裁剪,滑窗之间的重叠率为20%,过滤掉包含0.5 个目标(一个标签所占面积的50%)以下的子图。GTSDB 的图像尺寸直接调整为640×640 像素。

因为添加了弱语义分割,所以利用IoU 损失ℓiou[26]和二进 制交叉 熵损失ℓBCE[26]优化分割图,如式(11)所示:

为了实现联合训练,结合本文提出的分组损失,总损失的表达式如下:

其中:λ1、λ2、λ3、λ4分别为各项损失设置的权重系数;Lreg、Lcls、lgroup、Lmap分别为回归损失、分类损失、分组损失、弱语义分割损失。

3.3 与其他模型的性能对比

为评估本文提出检测模型LFRD 对小交通标志检测的能力,在GTSDB 数据集上进行实验。通过直接缩小的GTSDB 尺寸来满足模型输入的需求,导致GTSDB 数据集中的目标小于其原先尺寸,增加了小目标在数据集中的比例。本文方法和其他交通标志检测方法在GTSDB 数据集上的实验结果如表3 所示,加粗表示最优数据,AP50表示检测的综合结果,禁止、建议、警告表示每个类别在IoU 阈值为0.5 时的平均精度ap。

表3 不同方法在GTSDB 数据集上的实验结果Table 3 Experimental results among different methods on the GTSDB dataset %

从表3 可以看出:本文提出的LFRD 在GTSDB数据集中3 个类的ap 中有1 个取得最优结果,总体AP50也优于其他方法,说明LFRD 即使面对小目标也有较优的检测效果,与其他方法相比具有一定的竞争力。

为进一步检验模型性能,本文选取RetinaNet、SSD、YOLOv3、YOLOv5s、Faster R-CNN、Cascade R-CNN 和本文提出的LFRD 共7 种模型在TT100K 数据集上进行性能分析,实验结果如表4 所示,其中前4 个模型是一阶段检测模型,Faster R-CNN、Cascade R-CNN是两阶段检测模型,这些模型都被应用于交通标志检测方法的研究中。

表4 不同方法在TT100K 数据集上的实验结果Table 4 Experimental results among different methods on the TT100K dataset %

从表4 可以看出,本文提出的LFRD 的AP、AP50和FI 值分别取得76.1%、96.3%和93.8%,均优于其他方 法。与一般 检测器RetinaNet、SSD、YOLOv5s、YOLOv3 相比,LFRD 的AP50评价指标分别提高约6.3、6.0、1.8 和1.1 个百分 点。与Faster R-CNN 和Cascade R-CNN 相 比,LFRD 在AP50上分别提高5.4和5.7 个百分点。相比SSD、Faster R-CNN、Cascade R-CNN,虽然LFRD 的召回率略低,但是精确率提高了约10 个百分点。因此,LFRD 能有效降低误检率,从而提高综合检测性能。

为进一步验证该方法的性能,本文将在TT100K数据集上检测的结果映射至原图,消除因窗口剪裁所导致部分错误的交通标志被子图边界截断,从而容易得到对不完整交通标志检测的结果。现有交通标志检测方法在TT100K 数据集上的实验结果对比如表5 所示。

表5 现有交通标志检测方法在TT100K 数据集上的实验结果Table 5 Experimental results of existing traffic sign detection methods on TT100K dataset

从表5 可以看出,本文提出的LFRD 在AP 和AP75上取得最高结果分别为75.4%和89.5%,与输入尺 寸1 024×1 024 像素的SignHRNet 相 比AP50降 低0.1 个百分点,可能是因为输入尺寸较大减少了因剪裁产生的不完整目标。AP 和AP75对预测结果和标签之间的IoU 要求更高,本文方法在AP 和AP75取得更优的检测效果,表明LFRD 在交通标志检测任务中检测更精确的边界盒。

3.4 消融实验

为验证分层聚类锚框的有效性以及为每层选择合适的锚框数量,本文设计2 种参数不同的方案,分别在TT100K 数据集上进行实验,实验结果如表6 所示。消融实验都是基于RetinaNet 作为检测框架,更换了模型中的anchor机制,在使用分层聚类锚框时仅保留了P3~P6检测层。RetinaNet 使用文献[7]中描述的平移不变锚框,Kmeans3、Kmeans6使用本文提出的分层聚类锚框且每层锚框数分别为3 个和6 个。

表6 不同锚框策略的实验结果对比Table 6 Comparison of experimental results among different anchor box strategies

从表6 可以看出,RetinaNet 虽然精确率更高,但是受尺度变化的影响,其召回率较低,存在较多漏检问题。使用分层聚类锚框的Kmeans3和Kmeans6方法都能更好应对尺度变化问题并有效提高召回率,其综合性能AP、AP50、AP75更优。虽然Kmeans3和Kmeans6方法的精确率较低,但是分层聚类锚框主要是针对交通标志的尺度变化降低漏检。Kmeans6的参数量更多但是效果提升并不明显,Kmeans3在精确 率、AP 以 及AP75的效果 都略优 于Kmeans6。因此,本文选择Kmeans3对平移不变锚框进行改进。

在确定锚框策略后,为验证其他模块对模型的有效性,本文基于Kmeans3依次加入lgroup、LRFPN、PM 在TT100K 数据集上进行实验,实验结果如表7所示。

表7 消融实验结果Table 7 Ablation experiment results

从表7可以看出,实验2仅加入lgroup,lgroup通过指导模型学习相似类别之间的差异,与实验1 相比在降低错误分类的同时精确率和召回率提高2.4 和0.3 个百分点。实验3 仅加入LRFPN,LRFPN 有效降低干扰特征产生的影响,利用WSS 和FRM 模块实现逐层细化并利用通道注意力优化特征,与实验1 相比精确率和召回率提高6.4 和0.1 个百分点。

实验4 加入lgroup和LRFPN,与实验1 相比lgroup与LRFPN 相结合的精确率和召回率提高8.1 和0.7 个百分点,AP、AP50、AP75分别提高到76.1%、96.3%、91.1%。实验5 在实验3 的基础上加入PM,PM 模块是为了更高效地使用多尺度语义分割图,利用其监督检测结果。将PM 模块加入到lgroup和LRFPN 中召回率减少了0.1 个百分点,而精确率提高1.7 个百分点。

LRFPN 的检测和分割效果如图6 所示,位于黑色区域将会受到FRM 的特征细化以及PM 模块的惩罚,降低相似物体的误检。

图6 小目标的检测和分割结果Fig.6 Detection and segmentation results for small targets

图7 所示为本文以热力图的形式展示模块功能(彩色效果见《计算机工程》官网HTML 版)。P3、P4分别代表主干网络提取第3 层和第4 层特征所使用的卷积压缩模块的热力图,CE3,1和CE3,2分别代表细化第3 层特征所使用FRM 中2 个模块的热力图。经多尺度特征融合后,同样将多尺度特征中的干扰特征汇聚在一起,由CE3,1注意可能误检的部分,CE3,2获取最终特征来提高检测精度。

图7 不同模块的热力图Fig.7 Heat maps among different modules

窗体剪裁会因窗体边缘和交通标志重叠导致交通标志不完整。本文将IoU 大于50%的不完整交通标志设置为正样本并进行训练。但是数据增强中采用的随机缩放、图像平移、旋转等操作会模糊这些不完整交通标志的差异。不同区域的检测结果如图8所示,不完整的交通标志依旧保留外观特征容易被误检。

图8 不同区域的检测结果Fig.8 Detection results for different regions

为减小不完整交通标志对检测效果的影响,本文将检测结果映射回原图位置并利用非极大值抑制(Non-Maximum Suppression,NMS)消除重复项。NMS 通过计算检测结果之间的交并比作为条件,当2 个结果重复区域大于阈值时,则去除置信度低的结果。考虑到部分特征突出置信度更高从而压制整体目标的问题,本文对NMS 进行改进,不再只考虑置信度,而是将尺度大小也作为考量。改进NMS 算法如算法1 所示,在原有的NMS 基础上加入尺度判断,当置信度都高于设定好的阈值时作为可信样本,计算两者的面积比例并提高交并比的阈值,以判断面积小的结果是否是突出特征部分。改进NMS 性能测试结果如表8 所示。

表8 改进NMS 性能测试结果Table 8 Test results of improved NMS performance %

算法1 改进NMS 算法

从表8 可以看出,利用NMS 将结果映射至原图位置来降低不完整交通标志对检测结果的影响,将AP50提高到96.9%,AP 和AP75因为数据调整相对于未映射至原图的检测结果有一定下降。改进NMS方法在NMS 的基础上解决局部特征置信度大于全局的问 题,在AP、AP50、AP75上分别提高0.3、0.1 和0.4 个百分点。

4 结束语

针对现有交通标志检测方法在复杂场景下难以准确识别外观相似的交通标志以及对其他相似物体误检的问题,本文设计一种高精度检测模型LFRD。为应对交通标志的尺度变化,设计一种分层聚类的锚框机制来降低漏检。为降低外观相似交通标志分类错误,提出分组损失来指导和学习相似类之间的细微差异,还设计弱语义分割模块和特征细化模块,利用主动学习方式降低对其他相似物体的误检。实验结果表明,相较于主体框架RetinaNet,LFRD 在采用压缩通道和分组卷积减少模型负担的同时,精确率和召回率分别提高2.8 和6.0 个百分点。下一步将利用蒸馏机制训练轻量化主干网络,并加入PAN 优化多尺度特征融合,在实现轻量化的同时提高模型性能。

猜你喜欢
锚框交通标志细化
基于YOLOv3锚框优化的侧扫声呐图像目标检测
锚框策略匹配的SSD飞机遥感图像目标检测
基于SSD算法的轻量化仪器表盘检测算法*
基于双向特征融合的交通标志识别
基于GA-RoI Transformer的遥感图像任意方向目标检测
中小企业重在责任细化
“细化”市场,赚取百万财富
“住宅全装修”政策亟需细化完善
交通标志小课堂
基于数据分析的大气腐蚀等级细化研究