基于YOLOv5的高速公路目标检测算法的设计与实践

2022-10-18 10:11杨兴龙蒋佳彤韩嘉熠颜新云
电脑知识与技术 2022年25期
关键词:特征融合注意力机制

杨兴龙 蒋佳彤 韩嘉熠 颜新云

摘要:针对高速公路小目标检测召回率低、准确率低等问题,提出一种基于YOLOv5改进的高速公路小目标检测算法。针对数据集样本不均衡问题,引入克隆数据增强对数据集进行增广;通过K-means算法以IOU作为度量值,聚类产生适合该文数据集的Anchors boxes;通过添加注意力模块,加强通道注意力,降低模型噪声并提高准确率;针对检测小目标困难问题,引入三层特征融合机制,加强模型对浅层信息特征的提取能力;通过增加检测头,提高对小目标特征的提取能力。实验结果表明,改进后的YOLOv5模型在自建数据集上mAP达到了0.68,Recall达到了0.64,对小目标有很好的检测效果。

关键词:YOLO; 注意力机制;小目标检测;特征融合

中图分类号:TP311    文献标识码:A

文章编号:1009-3044(2022)25-0103-04

开放科学(资源服务) 标识码(OSID) :

高速公路在现代交通占据着重要地位,其迅速发展的同时也为管理机关和交通参与者带来了严峻的挑战。行人的异常闯入甚至违规逗留,不仅危害自身安全,还关乎高速公路交通的安全和畅通。因此,对高速公路行人异常事件[1]的检测变得尤为重要。

然而,当前高速公路系统中采用的基本巡检方式过于依赖人工巡检,监控员工作负荷大,导致视觉疲劳,存在准确率低下的缺点,极易因信息延误而产生后续的交通堵塞。部分自动检测装置因行人目标过小[2]且易被遮挡[3],检测效率较低,同时,天气因素对其影响极大,行人异常事件的检测存在很大的偏差。

由于高速上不仅有误闯入的异常行人,还有一些高速公路施工人员以及交警。因此,在检测异常行人的同时,本文还对高速公路上的锥桶、水马桶及施工人员进行检测,以便判断进行施工作业的工作人员是否处于安全的施工区域,其操作是否规范,以免因其不恰当的施工位置或动作,影响车辆在高速公路上的正常行驶。

本文在复杂环境下对行人异常事件进行实时检测,针对小目标较多、样本不均衡问题,通过克隆数据增强对数据集进行增广,同时进行数据清洗,保证数据集的高效可用性。 运用 K-means 聚类算法[4]得出适用于小目标行人检测的 anchors[5];以YOLOv5网络模型为基础,将SE模块[6]嵌入到Neck中,在重要的通道上投入更多的注意力,以加强网络的去噪效果;在网络模型最后加入三层FPN[7]+PAN[8],将backbone[9]前端的小目标特征图接到Neck层进行特征融合,加强对小目标的检测能力。运用增强后的数据集,在数据清洗[10]过后的自制高速公路行人数据集上进行训练,结果表明:改进后的YOLOv5算法比改进前的mAP值提升了9%,Recall提升了3%;在加入克隆数据增强后,mAP值提升了11%,Recall值提升了5%,同时,改进后的网络模型相比原YOLOv5模型,检测速度没有明显影响,能充分满足高速公路行人异常事件检测任务高召回率和高精度的要求。

1 改进的YOLOv5模型

為了提高网络模型对高速公路小目标的检测能力,对原始的YOLOv5做出如下改进:①使用K-means算法以IOU作为度量值,聚类[11]产生适合本文数据集的anchors boxes[12];②在Neck中添加SE模块,对通道赋予注意力机制,降低模型噪声并提高准确率;③针对检测小目标困难问题,引入三层特征融合,削弱深层信息并加强浅层信息,增强模型对浅层信息特征的提取能力;④通过增加检测头,在较大的特征图上检测小目标,以提高网络模型的特征提取能力。

1.1 Anchor boxes

原始的YOLOv5采用k-means[13]算法根据coco数据集聚类得出初始的anchor boxes,这些anchor boxes具有普遍性,但不适合本文的高速公路小目标数据集。因此需要重新聚类得出适合本文的anchor boxes。

K-means的核心思想是把给定的数据集分为K个簇(增大类内聚,减小类间距),使得聚类的损失函数最小,如公式(1),式中[xi]代表第[i]个样本,[ci]是[xi]所属的簇,[M]是样本总数,[μci]是簇对应的中心点。

K-means算法通常采用欧式距离、曼哈顿距离等作为度量值,具有局限性,不适合用来聚类anchor boxes,因此本文采用IOU作为K-means聚类算法的度量值。

IOU的公式为相交面积/相并面积,能够作为anchor boxes与bounding boxes重合情况的重要指标。K-means聚类anchor boxes的步骤为:首先采用公式(2) 根据图片的高和宽和box的高和宽,做归一化处理。

[Jc,μ=mini=1M|xi-μci|2]           (1)

[w=wboxwimg , h=hboxhimg]               (2)

[dbox, anchor=1-IOU(box, anchor)]    (3)

然后根据公式(3) 循环聚类最终得出最符合数据集的anchor boxes。公式(3) 中的box代表真实的目标框大小,anchor代表聚类得出的anchor boxes大小。IOU(box,anchor) 代表目标框与聚类框的交占比,最终聚类出的anchor boxes尺寸如表1所示。

1.2 注意力模块

原始的YOLOv5模型在进行特征提取时,对于输入进来的通道一视同仁,每个通道的重要性没有区别。这有可能将不重要的通道也学习到,为目标检测增加噪声。针对上述问题,本文在Neck中引入了通道注意力SE模块,得到每个通道的重要性权重值,从而突出重要的通道,削弱用处不大的通道,使网络将注意力集中在重要的通道上,对网络模型进行去噪,提高精度。

SE模块的架构如图1。首先是压缩部分(Squeeze),通过平均池化将输入进来的feature map维度压缩成1*1*c的特征向量,如公式(4),具有之前feature map的全局视野。其次是激励部分(Excitation),通过全连接、Relu、全连接、sigmoid四步操作将输入进来的1*1*c的特征向量来预测每个通道的重要程度。最后,在获得每个通道的重要性权重值后,将其激发到与先前特征映射对应的每个通道,增强网络模型去噪能力并提高准确率。

[Zc=1w×hi=1w j=1h Uc(i,j)]   (4)

1.3 多尺度特征融合结构

针对高速公路小目标检测困难、精度低的问题,提出了多尺度特征融合结构。

如图2所示,a图为原始图片,b图为经过第一个C3模块后的图片,c图为经过第二个C3模块后的图片,d图为经过第三个C3模块后的图片。

从图像可以很明显地看出,浅层特征图保留了更多的细节,小目标特征也更加明显。但是只融合浅层信息,会导致模型的精度不高,针对这个问题,我们设计了三层特征融合结构,如图3。

为了充分利用模型前端浅层信息,提高对小目标的检测能力,模型在第一个C3模块、第二个C3模块、第三个C3模块后均进行了特征融合,然后用Concat与深层信息相融合,如公式(5)所示。

[Zconcat =i=1c Xi*Ki+i=1c Yi*Ki+c]    (5)

Concat后的特征图可视化如图4所示。从图像中可以明显看出融合了深层信息与浅层信息后,细节信息更丰富,小目标特征更突出,有利于检测小目标。

1.4 4 分支检测

原始的YOLOv5采用3分支检测,分别用于检测大、中、小目标。但本文数据集以小目标为主,将图片缩放至640*640输入网络,有些小目标甚至小于3像素,原有的3分支检测不能很好地满足小目标检测,甚至还有漏检现象。为了解决以上问题,增加了一个检测分支,采用320*320、160*160、80*80、20*20四个尺度,在320*320这个更大的特征图上检测小目标,提高网络模型对小目标的检测能力。

2 数据处理

2.1 数据采集

训练模型依赖于大规模且高质量的训练数据集。但由于现阶段并没有公开、开放的高速公路行人数据集,且关于目标标签种类及数量稀少,所以本实验采用自建数据集的方式来训练测试。

自建数据集共有来自高速公路抓拍的图片及视频取帧的1835张图片,分为4个label,分别为锥桶(taper barrel)、水马桶( water toilet)、施工人员( builders)、行人(pedestrian)。标签的分布如图6。此数据集包含了不同人员、不同比例、不同视角、不同光照和各种复杂背景中不同遮挡的图片。

考虑到拍摄角度的原因,數据集中的目标大多为小目标为主,通过查阅文献与网上调研,本文设置目标在图片中占比5%以内即为小目标。以图片宽度为横轴,高度为纵轴,由图5可知大部分的标签集中在[0.2,0.2]范围内,即大部分的标签面积仅占图片总面积的4%之内,是一个以小目标为主的数据集。

2.2 克隆数据增强

为清晰显示数据集分布情况,对各个类别的目标数量做出统计分析,从图7可以看出样本出现不均衡的特性。水马桶具有体积较大、颜色统一的鲜明特征,故具有较好的训练效果,对实验结果影响较小。而行人的服饰装扮、动作姿势统一程度不高,从图7可以看出行人和施工人员的样本数量较少,这将对最终的检测效果产生较大影响。为了解决上述问题,本文通过多次克隆小目标到样本中从而达到数据增广的效果。

在实际交通场景中,行人和施工人员大多出没在高速公路两侧,出没地点单一有规律且道路两侧的背景色单一。本文主要是对以上两个目标进行克隆数据增强,将行人和施工人员进行克隆,如图7所示,放在图片中道路的两侧,且保证近大远小的视觉规律,不违背现实规律的同时也不会对训练产生负面影响,以此扩充数据集。

3 消融实验

实验采用adam自适应学习率,300轮epoch,img_size为640*640,batch_size为16,实验结果如表2。

针对高速公路小目标检测,实验数据表明,相比于原始的YOLOv5,改进后的YOLOv5模型召回率提升了3%,map提升了9%;加入克隆数据增强后,召回率提升了5%,map提升了11%,对于高速公路小目标具有良好的检测效果。

4 总结与展望

由于在高速公路目标的监测中,对于召回率和准确率具有极高要求,所以本文主要考虑模型的召回率和精度,提出了一种基于 YOLOv5 的改进模型。通过克隆数据增强扩充数据集,并通过 K-means聚类获取行人的 anchor boxes,将SE模块融合在与YOLOv5 网络模型中。引入三层特征融合,加强浅层信息,提高模型对浅层信息特征的提取能力,从而能够准确定位行人位置,实现高速公路目标的精准检测。实验结果表明本文使用的 YOLOv5改进模型在将召回率提升3%的同时将自建数据集的检测精度提高了9%,加入克隆数据增强后,召回率提升了5%,平均检测精度提高了11%。对于小目标行人或施工人员的检测效果突出,可以较好适应高速公路复杂的路况,保障高速公路的安全和畅通。

尽管本文模型在实验中取得了较好的检测成果,但仍有许多问题需要完善。自建数据集中的路况和天气情况还存在局限性,需要进一步地细化和扩充。接下来的实验中将使用更庞大更全面的数据集来对进行模型训练,并结合其他的监测设备从而实现行人异常事件的实时监测和及时处理。未来将继续优化模型,增强模型的泛化性和数据集的多样性,使本文的模型能够在更加复杂背景下的高速公路行人目标检测任务中发挥更好的效果。

参考文献:

[1] 崔海龙.高速公路交通事件监测系统研究[D].西安:长安大学,2007.

[2] 李科岑,王晓强,林浩,等.深度学习中的单阶段小目标检测方法综述[J].计算机科学与探索,2022,16(1):41-58.

[3] 贾慧星,章毓晋.车辆辅助驾驶系统中基于计算机视觉的行人检测研究综述[J].自动化学报,2007,33(1):84-90.

[4] 杨智雄,唐云祁,张家钧,等.基于改进YOLOv4的行人鞋部检测算法[J].激光与光电子学进展,2022,59(8):121-130.

[5] 李闻,李小春,闫昊雷.基于改进YOLO v3的PCB缺陷检测[J].电光与控制,2022,29(4):106-111.

[6] 高明华,杨璨.基于改进卷积神经网络的交通目标检测方法[J].吉林大学学报(工学版),2022,52(6):1353-1361.

[7] Lin T Y,Dollár P,Girshick R,et al.Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition.Honolulu,HI,USA.IEEE,:936-944.

[8] 钟志峰,夏一帆,周冬平,等.基于改进YOLOv4的轻量化目标检测算法[J].计算机应用,2022,42(7):2201-2209.

[9] 王建军,魏江,梅少辉,等.面向遥感图像小目标检测的改进YOLOv3算法[J].计算机工程与应用,2021,57(20):133-141.

[10] 陈冠宇.基于深度学习的小目标检测方法研究[D].武汉:中国地质大学,2020.

[11] 魏玮,蒲玮,刘依.改进YOLOv3在航拍目标检测中的应用[J].计算机工程与应用,2020,56(7):17-23.

[12] 唐志剛.基于YOLO V3的航拍车辆图像检测方法研究[D].赣州:江西理工大学,2020.

[13] 张素洁,赵怀慈.最优聚类个数和初始聚类中心点选取算法研究[J].计算机应用研究,2017,34(6):1617-1620.

【通联编辑:梁书】

猜你喜欢
特征融合注意力机制
基于LSTM?Attention神经网络的文本特征提取方法
InsunKBQA:一个基于知识库的问答系统
基于移动端的树木叶片识别方法的研究
融合整体与局部特征的车辆型号识别方法