YOLOv5算法简述

2022-07-06 13:56程兴林
客联 2022年11期

程兴林

摘 要:目标检测的任务是找出图像中所有感兴趣的目标物体,确定它们的位置和大小,是机器视觉领域的核心问题之一。由于各类物体有不同的外观,形状,姿态,加上成像时光照,遮挡等因素的干扰,目标检测一直是机器视觉领域最具有挑战性的问题。本文主要结合对Yolov5算法方式综述模型的研究现状,对其网络模型结构图中Input、Backbone、Neck以及输出端四个模块的主干网络和侦测网络进行解析。

关键词:YOLO;车辆检测;图片分割

一、YOLOv5主干网络

Yolov5的输入端采用了和Yolov4一样的Mosaic数据增强的方式。Mosaic数据增强提出的作者也是来自Yolov5团队的成员,在其训练模型阶段使用了Mosaic数据增强方法,该算法是在CutMix数据增强方法的基础上改进而来的。CutMix对两张图片进行拼接,而Mosaic数据增强方法则采用了4张图片,并且按照随机缩放、随机裁剪和随机排布的方式进行拼接而成,这种增强方法可以将几张图片组合成一张,这样不仅可以丰富数据集的同时极大的提升网络的训练速度,而且可以降低模型的内存需求,对于小目标的检测效果提升极大。该设计的主要有几个优点是丰富数据集,随机使用4张图片,随机缩放,再随机分布进行拼接,大大丰富了检测数据集,特别是随机缩放增加了很多小目标,让网络的鲁棒性更好。其次是减少GPU使用,考虑到很多人可能只有一个GPU,因此Mosaic增强训练时,可以直接计算4张图片的数据,使得Mini-batch大小并不需要很大,一个GPU就可以达到比较好的效果。Backbone(在不同图像细粒度上聚合并形成图像特征的卷积神经网络),YOLO V5和V4都使用CSPDarknet作为Backbone,从输入图像中提取丰富的信息特征。CSPNet(Cross Stage Partial Networks)即跨阶段局部网络。CSPNet实际上是基于Densnet的思想,复制基础层的特征映射图,通过dense block发送副本到下一个阶段,从而将基础层的特征映射图分离出来。CSPNet解决了其他大型卷积神经网络框架Backbone中网络优化的梯度信息重复问题,将梯度的变化从头到尾地集成到特征图中,因此减少了模型的参数量和FLOPS数值,既保证了推理速度和准确率,又减小了模型尺寸。这样可以有效缓解梯度消失问题(通过非常深的网络很难去反推丢失信号),支持特征传播,鼓励网络重用特征,从而减少网络参数数量.

二、YOLOv5偵测网络

Neck(一系列混合和组合图像特征的网络层,并将图像特征传递到预测层)PANET基于Mask R-CNN和FPN框架,加强了信息传播,具有准确保留空间信息的能力,这有助于对像素进行适当的定位以形成掩模,YOLOv5现在的Neck和YOLOv4中一样,都采用FPN+PAN的结构。FPN 是自上而下的,利用上采样的方式对信息进行传递融合,获得预测的特征图。PAN 采用自底向上的特征金字塔。Bounding box损失函数Yolov5中采用CIOU_Loss做Bounding box的损失函数。损失函数使用了 CIOU_Loss。Prediction 包括 Bounding box 损失函数和非极大值抑制( NMS) ,有效解决了边界框不重合时问题。在目标检测预测结果处理阶段,针对出现的众多目标框的筛选,采用加权 NMS 操作,获得最优目标框。YOLOv5与YOLOv4不同点在于,YOLOv4中只有主干网络使用了CSP结构。而Yolov5中设计了两种CSP结构,以YOLOv5s网络为例,CSP1_X结构应用于Backbone主干网络,另一种CSP2_X结构则应用于Neck中。

三、结语

我相信伴随着研究的深入进行,进一步提升程序的准确性以及其它物体种类的识别,对于未来人工智能的普及以及推动智慧城市的发展有着巨大的帮助。从目前来看,相关学术论文对YOLOv5s的研究和创新还很少,这就需要我们静下心去探索改善更多更好的方法,根据不同的场景、不同项目需求灵活使用,取长补短,发挥YOLOv5快速高效、准确性高的检测优势。

参考文献:

[1]Kaijie Zhang, C. Wang, Xiaoyong Yu, Aihua Zheng, Mingyue Gao, Zhenggao Pan, Guolong Chen,Zhiqi Shen, “Research on mine vehicle tracking and detection technology based on YOLOv5,”Systems Science & Control Engineering, Volume 10, Issue 1 (2022), pp. 347-366, Apr 22,2022

[2]Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 779-788.

[3]张星. 运动目标的稳定跟踪算法研究[D]. 中国科学院大学.