YOLOv5算法简述

2022-07-06 13:56程兴林

客联 2022年11期

程兴林

摘要：目标检测的任务是找出图像中所有感兴趣的目标物体，确定它们的位置和大小，是机器视觉领域的核心问题之一。由于各类物体有不同的外观，形状，姿态，加上成像时光照，遮挡等因素的干扰，目标检测一直是机器视觉领域最具有挑战性的问题。本文主要结合对Yolov5算法方式综述模型的研究现状，对其网络模型结构图中Input、Backbone、Neck以及输出端四个模块的主干网络和侦测网络进行解析。

关键词：YOLO；车辆检测；图片分割

一、YOLOv5主干网络

Yolov5的输入端采用了和Yolov4一样的Mosaic数据增强的方式。Mosaic数据增强提出的作者也是来自Yolov5团队的成员，在其训练模型阶段使用了Mosaic数据增强方法，该算法是在CutMix数据增强方法的基础上改进而来的。CutMix对两张图片进行拼接，而Mosaic数据增强方法则采用了4张图片，并且按照随机缩放、随机裁剪和随机排布的方式进行拼接而成，这种增强方法可以将几张图片组合成一张，这样不仅可以丰富数据集的同时极大的提升网络的训练速度，而且可以降低模型的内存需求，对于小目标的检测效果提升极大。该设计的主要有几个优点是丰富数据集，随机使用4张图片，随机缩放，再随机分布进行拼接，大大丰富了检测数据集，特别是随机缩放增加了很多小目标，让网络的鲁棒性更好。其次是减少GPU使用，考虑到很多人可能只有一个GPU，因此Mosaic增强训练时，可以直接计算4张图片的数据，使得Mini-batch大小并不需要很大，一个GPU就可以达到比较好的效果。Backbone（在不同图像细粒度上聚合并形成图像特征的卷积神经网络），YOLO V5和V4都使用CSPDarknet作为Backbone，从输入图像中提取丰富的信息特征。CSPNet（Cross Stage Partial Networks）即跨阶段局部网络。CSPNet实际上是基于Densnet的思想，复制基础层的特征映射图，通过dense block发送副本到下一个阶段，从而将基础层的特征映射图分离出来。CSPNet解决了其他大型卷积神经网络框架Backbone中网络优化的梯度信息重复问题，将梯度的变化从头到尾地集成到特征图中，因此减少了模型的参数量和FLOPS数值，既保证了推理速度和准确率，又减小了模型尺寸。这样可以有效缓解梯度消失问题（通过非常深的网络很难去反推丢失信号），支持特征传播，鼓励网络重用特征，从而减少网络参数数量.

二、YOLOv5偵测网络

Neck（一系列混合和组合图像特征的网络层，并将图像特征传递到预测层）PANET基于Mask R-CNN和FPN框架，加强了信息传播，具有准确保留空间信息的能力，这有助于对像素进行适当的定位以形成掩模，YOLOv5现在的Neck和YOLOv4中一样，都采用FPN+PAN的结构。FPN 是自上而下的，利用上采样的方式对信息进行传递融合，获得预测的特征图。PAN 采用自底向上的特征金字塔。Bounding box损失函数Yolov5中采用CIOU_Loss做Bounding box的损失函数。损失函数使用了 CIOU_Loss。Prediction 包括 Bounding box 损失函数和非极大值抑制（ NMS），有效解决了边界框不重合时问题。在目标检测预测结果处理阶段，针对出现的众多目标框的筛选，采用加权 NMS 操作，获得最优目标框。YOLOv5与YOLOv4不同点在于，YOLOv4中只有主干网络使用了CSP结构。而Yolov5中设计了两种CSP结构，以YOLOv5s网络为例，CSP1_X结构应用于Backbone主干网络，另一种CSP2_X结构则应用于Neck中。

三、结语

我相信伴随着研究的深入进行，进一步提升程序的准确性以及其它物体种类的识别，对于未来人工智能的普及以及推动智慧城市的发展有着巨大的帮助。从目前来看，相关学术论文对YOLOv5s的研究和创新还很少，这就需要我们静下心去探索改善更多更好的方法，根据不同的场景、不同项目需求灵活使用，取长补短，发挥YOLOv5快速高效、准确性高的检测优势。

参考文献：

[1]Kaijie Zhang， C. Wang， Xiaoyong Yu， Aihua Zheng， Mingyue Gao， Zhenggao Pan， Guolong Chen，Zhiqi Shen， “Research on mine vehicle tracking and detection technology based on YOLOv5，”Systems Science & Control Engineering， Volume 10， Issue 1 （2022）， pp. 347-366， Apr 22，2022

[2]Redmon J， Divvala S， Girshick R， et al. You only look once： Unified， real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016： 779-788.

[3]张星. 运动目标的稳定跟踪算法研究[D]. 中国科学院大学.

客联2022年11期

客联的其它文章: 社会工作介入社区志愿者服务队培育的实践探析; 人口老龄化背景下农村地区养老问题的研究; 高校学生党员档案管理模式探究; 民办本科高校节约意识及行为的现状调查及对策研究; 后疫情时代大学生就业工作路径研究; “剩女”特征研究及其社会环境和谐性建设路径