摘" 要:文章针对水电厂中工作人员着装不规范问题,提出一种基于改进YOLOv5的着装检测方法,即采用目标检测技术对工作人员是否佩戴安全帽以及工作服穿着规范与否进行自动检测。针对安全帽这类小目标检测问题,在YOLOv5网络模型的基础上嵌入轻量级ECAnet注意力机制模块,以减少无用信息通道的计算量,在保证YOLOv5检测速度优势的同时提高了小目标特征提取能力。结果表明,改进后模型的准确率、召回率、mAP@0.5分别提升了4.3%、2.1%、1.4%。
关键词:目标检测;着装识别;YOLOv5s;注意力机制
中图分类号:TP391.4" " 文献标识码:A" 文章编号:2096-4706(2024)10-0060-05
Research on Electrician Dressing Inspection Method Based on Improved YOLOv5
LI Gongle
(Nanjing Institute of Technology, Nanjing" 211167, China)
Abstract: This paper proposes a dressing detection method based on improved YOLOv5 to address the issue of non-standard dressing among working personnel in hydroelectric power plants. This method uses object detection technology to automatically detect whether working personnel are wearing safety helmets and their work clothes are wearing properly. For small object detection such as helmets, a lightweight ECAnet attention mechanism module is embedded on the basis of the YOLOv5 network model to reduce the computational complexity of useless information channels, while ensuring the advantage of YOLOv5 detection speed, the ability to extract small object features is improved. The results show that the accuracy, recall, and mAP@0.5 of the improved module increased by 4.3%, 2.1%, and 1.4% respectively.
Keywords: target detection; dressing recognition; YOLOv5s; attention mechanism
0" 引" 言
水电厂电力生产过程中由于工作人员繁多、工作内容相对复杂及危险,工人的着装问题经常出现问题,为了保障水电厂工作人员的人身安全,安全帽的佩戴及安全着装显得尤为重要。在电力生产过程中,存在小部分施工人员安全防范意识薄弱,未佩戴安全帽或未安全着装[1]就进入工作地点,更有甚者为了一时方便,在工作过程中会脱下安全帽和脱下工作服,给电力建设带来了很多安全隐患,故很多作业现场就不得不以人工监督的原始方式进行预防[2],但此种方式效率低下,无法24小时对员工进行不安全行为的监督。图1(a)展示了电厂员工在进行带电作业时未佩戴了绝缘手套,属于不规范着装的示例;图1(b)展示了电厂员工在进行带电作业时佩戴了绝缘手套,属于规范着装示例。
随着计算机视觉技术的快速发展,可以将机器视觉技术运用到水电厂中的监控系统中,通过相关技术的应用可以有效克服人工监督效率低下和成本过高的问题。
近年来国内外研究人员对于着装检测展开了大量的工作。Dahiya [3]等人提出一种摩托车驾驶员安全帽检测方法,该算法对小目标驾驶员安全帽佩戴情况检测效果欠佳。通过在SSD目标检测方法的基础上加入注意力机制改进了该算法,但该算法对复杂背景视频流下的着装小目标[4]的检测仍有所欠缺,并且模型的计算量较大。施辉[5]等人利用YOLOv3在安全帽的检测中提出多尺度融合的方法,再经过特征提取对安全帽进行识别,模型的计算量同样较大。乌民雨等人[6]也提出了一种基于改进YOLOv3的安全帽检测方法,但是对于受背景因素影响大有误检错检情况。张锦[7]等人采用K-means++算法融入YOLOv5算法中,然而大大增加了其中的参数量和计算量。
目前对于着装检测任务的研究已经取得了初步成果,但是仍有值得改进的地方。现有的研究方法大多注重检测算法的推理速度,从而忽略了对小目标的检测精度。本文提出一种基于改进型YOLOv5的水电厂电工的着装不规范的检测方法,在YOLOv5网络的基础上,融合了ECAnet注意力机制模块,将NMS替换成DIOU-NMS。
本文方法可以有效降低背景特征对图像检测的影响,提高检测目标的特征情况,有效缓解水电厂工作现场复杂背景带来的漏检现象,同时提高对安全帽、绝缘手套、绝缘靴等小目标的检测能力。
1" 网络结构
1.1" YOLOv5网络结构
YOLOv5具有网络模型小,推理速度快的特点。本文选择使用YOLOv5s网络作为基础模型,既满足水电厂作业现场实时检测需求,同时模型大小属于轻量级,适合监控视频下目标检测任务。如图2所示为YOLOv5的网络结构。
YOLOv5s的网络结构可以分为Input输入端、Backbone特征提取端、Neck颈部端以及Prediction输出端四个部分组成。其中输入端采用Mosaic增强方法能够进行随机比例、随机剪裁和随机顺序将图像拼接在一起,丰富检测物体的背景,有效增强小目标检测效果,适用于安全规范着装检测任务。
Backbone的特征提取端采用CSPDarknet53网络结构,利用Conv(k = 6,s = 2,p = 2)结构进行切片操作,提高速度,并且方便导出其他模型。带残差的CSP1_X结构可以避免梯度消失和网络退化,SPPF空间池化塔结构进行图像尺寸统一。CSP网络结构和切片Focus结构增强了特征图上的感受野,减少原始图像信息丢失和降低了计算量,提高了检测速度。
Neck网络结构采用自上而下的金字塔FPN和自下而上的PAN复合结构。FPN可以将深层语义特征转移到平面层,改善多尺度上的语义表达;PAN将平面位置信息传输到深层,提高多尺度上的定位能力。FPN+PAN复合结构使不同尺寸的特征图都包含图像语义信息和图像特征信息,保证了对不同尺寸的图片的准确预测。
Prediction输出端能够获取关于图像中检测到的目标的详细信息,包括其位置、类别和置信度得分,根据这些信息绘制边界框、过滤低置信度的检测结果、计算目标的具体位置。
1.2" 注意力机制
注意力机制可以使得模型增大重要信息权重,削弱无用信息权重,从而在保持参数不变的情况下,依然能提高任务效率。ECAnet [8]注意力机制可以显著提高模型的检测精度和鲁棒性,降低无用信息的干扰,获取重要信息特征,提高模型的泛化能力。此外,ECAnet注意力机制还可以帮助模型在处理小目标时,提高检测精度,从而使模型更适合于处理复杂场景下的目标检测任务。总之,将ECAnet注意力机制插入到YOLOv5中,可以有效提高模型的性能,进一步提高物体检测的准确性和实用性,该模块只涉及少量参数,同时带来明显的性能增益。图3为ECA注意力机制结构图,实现过程如下:
1)输入特征图经过全局平均池化(GAP)后,特征图向量从[h,w,c]变成[1,1,c]矩阵。
2)得到自适应一维卷积核k进行通道间的交互。
3)一维卷积运算后,得到特征图中每个通道的权重σ。
4)将归一化权重和原输入特征图逐通道相乘,生成加权后的特征图输出。
ECAnet使用一个矩阵Wk来学习通道注意力,Wk的计算式为:
Wk =(1)
显然,Wk的数量与k通道中的特征图通道数c相关,一共涉及了k×c个参数。
权值wi的计算式为:
可以看出,权值yi的计算仅涉及与其k个邻居通道之间的直接交互。σ为Sigmoid函数,用于将交互权重限制在0到1之间。Ω为相关权重的参数集合。这种权值计算方法可以帮助强化对特定通道的注意力,以更好地捕捉特定特征通道的信息。
假设所有通道共享相同的学习参数,那么就简化了式(2),得到:
上述过程可以通过一个大小为k的一维卷积核来简化实现:
其中,C1D是一维卷积。
式(4)由ECAnet调用,它仅使用k个参数。k的值可以通过一个自适应的函数,该函数与输入特征的通道维度C有关,计算式为:
在卷积神经网络中,当处理小目标时,特征提取过程中的信息会因为多次降维缩小而遭受损失。为了应对这个问题,在主干网络的SPPF(Spatial Pyramid Pooling Feature)前一层,我们引入了ECAnet注意力机制网络模块。这个模块的作用是加强小目标信息的检测,更好地保留小目标的细节信息,同时强调重要信息特征,减弱非重要信息特征。具体的结构示意图如图4所示。
1.3" 非最大抑制(NMS)算法改进
非最大抑制(NMS)在目标检测的预测阶段时,会输出许多候选的Anchor box,其中有很多是明显重叠的预测边界框都围绕着同一个目标,这时候就可以使用NMS来合并同一目标的类似边界框。但不适用于多类别任务和重叠目标,在多类别目标检测任务中,传统的NMS可能需要分别应用于每个类别,这可能导致类别间的相互竞争,从而影响检测结果;当目标之间有重叠时,NMS可能会导致一些目标的丢失。将NMS替换为DIOU-NMS,可初步改善YOLOv5对重叠遮挡目标的识别。鉴于水电厂工作区域内人员密集,采用结合DIoU和NMS的方法,旨在减少漏检情况。
DIoU-NMS公式如式(7)所示:
其中,M为具有最高分类分数的一个预测框,而Bi用于确定是否应该移除其他预测框,具体移除规则由Si为的分类分数和ε为的NMS阈值决定。RDIoU为两个边界框的中心点之间的距离,式(8)中描述了相关计算公式:
其中,ρ2(⋅)为欧式距离,b和bgt分别为预测边界框和真实边界框的中心点,而c为两个预测框之间的最小包围框的最短对角线长度。用这些来计算边界框之间的距离,以便在目标检测中评估它们之间的相似性或重叠程度。
故本文采用DIoU-NMS效果更符合实际,效果更佳,进而改善了目标检测中的漏检问题,有效提高了检测的精度。
2" 实验与分析
2.1" 数据集构建
2.1.1" 数据集预处理
水电厂作业现场要求佩戴安全帽、绝缘手套、绝缘靴子、工作服等,针对水电厂目前并没有公开的真实场景的数据集,且网络上研究的样本量较少,所以一般需在真实场景中进行数据采集。故本文采用的数据集选自网络数据集以及个人自建的数据集。为了提高数据集的多样性,对样本图片采用翻转、旋转、缩放、裁剪、高斯噪声等数据增强方式,提高模型泛化能力[9],获得达到更好的目标检测效果的作用[10],最终获得5 000张数据样本图,用于本文中进行人员的着装检测训练。
2.1.2" 图片标注
利用LabelImg作图像的标注工具,其中根据规范化安全着装检测目标,规定了安全帽、非安全帽等10种类别的检测标签,并将数据集分别按8:2划分为训练集和测试集,如图5所示为目标在数据集中所占图像数量分布。
2.2" 实验环境和参数设置
实验代码基于PyTorch深度框架,实验环境配置:Windows 10、GPU GeForce GTX 3060、CUDA11.2、Python 3.9。模型衰减权重未为0.000 05,Batch-size设置为16,epoch设置为300epoch。GPU测试时图像输入为640×640,考虑到大多数移动设备并没有图形卡加速,因此同时进行CPU测试模拟移动端的情况,CPU测试时输入为320×320。
2.3" 评价指标
判断模型的好坏往往是通过评价指标来得到的。本文对于水电厂中安全着装检测任务采用查准率 (Precision)、查全率(Recall)、平均精度均值(mAP)作为模型的评价指标。
2.4" 消融实验
为了验证改进算法的有效性,进行消融实验,基于YOLOv5s网络进行不同的模型设计:模型1:保持YOLOv5s网络的基础结构不做任何改变。模型2:在YOLOv5s网络中添加了ECAnet注意力机制,其余部分保持不变。模型3:我们将原本使用的非最大抑制算法NMS替换为DIOU-NMS,其他模块维持不变。模型4:在YOLOv5s网络中添加ECAnet注意力机制,并同时将NMS替换为DIOU-NMS。这些模型旨在检验不同改进措施对目标检测性能的影响。最终,使用精确率、召回率和均值平均精确率(mAP)作为评估指标,实验结果在表1中。
从表1中的数据可以看出,通过在原始YOLOv5s结构的基础上添加注意力模块以及将非最大抑制算法NMS替换为DIOU-NMS的方法,都显著提高了模型的性能表现。当这两种改进都被同时引入到模型中时,性能提升更加显著,具体来说,准确率提高了4.3%,召回率提高了2.1%,mAP@0.5提高了1.4%。这表明本文提出的模型修改部分有效地改善了模型的性能。检测结果的部分示例如图6所示。
3" 结" 论
水电厂员工日常工作中的着装规范问题是重中之重,根据工作需求,在不同的场合需要佩戴和穿着相应的服饰。本文针对水电厂工作人员着装问题中安全帽等小目标的漏检问题,以及遮挡问题进行优化,通过在YOLOv5s模型上添加ECAnet注意力机制,我们能够更好地捕捉目标的有效信息。同时,将非最大抑制算法NMS替换为DIOU-NMS有助于提高小目标的检测效果,并提高对遮挡目标的辨识度。通过实验证明,本文提出的方法表现出出色的性能,非常适合应用于工作人员的着装智能识别任务。
参考文献:
[1] 张仕廉,王黎明,叶贵,等.建筑安全全要素投入研究:以重庆市为例 [J].中国安全科学学报,2018,28(3):161-166.
[2] 刘欣宜,张宝峰,符烨,等.基于深度学习的污染场地作业人员着装规范性检测 [J].中国安全生产科学技术,2020,16(7):169–175.
[3] DAHIYA K,SINGH D,MOHAN C K. Automatic Detection of Bike-Riders Without Helmet Using Surveillance Videos in Real-time [C]//2016 International Joint Conference on Neural Networks.Vancouver:IEEE,2016:3046-3051.
[4] 梁鸿,王庆玮,张千.小目标检测技术研究综述 [J].计算机工程与应用,2021,57(1):17-28.
[5] 施辉,陈先桥,杨英.改进 YOLOv3 的安全帽佩戴检测方法 [J].计算机工程与应用,2019,55(11):213-220.
[6] 乌民雨,陈晓辉.一种基于改进YOLOv3的安全帽检测方法 [J].信息通信,2020(6):12-14.
[7] 张锦,屈佩琪,孙程,等.基于改进YOLOv5的安全帽佩戴检测算法 [J].计算机应用,2022(4):1292-1300.
[8] HU J,SHEN L,SUN G. Squeeze-and-Excitation Networks [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:7132-7141.
[9] 靳阳阳,韩现伟,周书宁,等.图像增强算法综述 [J].计算机系统应用,2021,30(6):18-27.
[10] 钟志峰,夏一帆,周冬平,等.基于改进YOLOv4的轻量化目标检测算法 [J].计算机应用,2022,42(7):2201-2209.
作者简介:李恭乐(1999—),男,汉族,江西南昌人,硕士研究生在读,研究方向:基于目标检测的水电厂作业人员不安全行为检测。