王彬 赵作鹏
收稿日期:2023-09-14
DOI:10.19850/j.cnki.2096-4706.2024.06.015
摘 要:井下矿工的吸烟行为严重影响煤矿生产安全,对井下矿工吸烟行为的有效识别迫在眉睫。针对煤矿井下的特殊环境和传统识别方法准确率低的问题,提出一种基于YOLOv7的矿工吸烟行为识别算法YOLO-SFN。将SimAM嵌入到YOLOv7的网络结构中,用Focus模块替换MPConv下分支中的3×3卷积核,提高模型在复杂背景下的特征提取能力。在后处理阶段采用Soft-NMS作为网络模型的后处理算法,解决了传统NMS算法在复杂密集环境中的漏检问题。实验结果表明,该方法的准确率为96.45%,召回率为92%,精确率为97.05%。研究成果已经在陈四楼煤矿得以推广应用,实现了对煤矿井下矿工吸烟行为的有效监管。
关键词:目标检测;注意力机制;YOLOv7;NMS算法;吸烟识别
中图分类号:TP391.4 文献标识码:A 文章编号:2096-4706(2024)06-0066-05
Research on Miner Smoking Recognition Method Based on YOLOv7
WANG Bin1,2, ZHAO Zuopeng1
(1.School of Computer Science & Technology, China University of Mining and Technology, Xuzhou 221116, China;
2. Department of Information Technology, Jiangsu Union Technical Institute, Xuzhou 221008, China)
Abstract: Smoking behavior of underground miners seriously affects the production safety of coal mines, and effective recognition of underground miners' smoking behavior is imminent. Aiming at the special environment of underground coal mines and the problem of low accuracy of traditional recognition methods, it proposes a YOLOv7-based miners' smoking behavior recognition algorithm YOLO-SFN. SimAM is embedded into the network structure of YOLOv7, and the Focus module is used to replace the 3×3 convolution kernel in the lower branch of MPConv, so as to improve the model's feature extraction ability in the complex background. Soft-NMS is used as the post-processing algorithm for the network model in the post-processing stage, which solves the leakage detection problem of the traditional NMS algorithm in the complex and dense environment. The experimental results show that the accuracy rate of the method is 96.45%, the recall rate is 92%, and the precision rate is 97.05%. The research results have been popularized and applied in Chensilou coal mine, realizing the effective supervision of the smoking behavior of miners in underground coal mines.
Keywords: target detection; Attention Mechanism; YOLOv7; NMS algorithm; smoking recognition
0 引 言
《煤矿安全规程》规定,入井人员严禁携带烟草和点火物品。井下吸烟会引燃坑道内的可燃性气体从而引起火灾或爆炸,有很多瓦斯爆炸事故为矿工井下吸烟所致[1]。因而,加强对矿工井下吸烟行为的监测预警对确保煤矿安全生产具有重要意义。
传统的监测方法是安装烟雾报警器进行吸烟行为监测,但其监测范围有限,不适用于井下特殊环境的大范围布设。基于视觉的矿工吸烟识别方法可以实现实时、防篡改的识别效果,学者们利用不同的卷积方法对图像进行分类识别以及对人的各种行为进行有效识别[2,3]。随着人工智能技术的不断发展,将深度学习应用到控烟领域,在煤矿井下实现AI控烟可十分有效地确保煤矿作业安全。针对井下巷道狭长、光线不足的特殊环境,研究高精度吸烟识别算法有助于煤矿对矿工吸烟行为的有效监管。
目前,针对吸烟行为的识别方法主要集中在对实验数据进行处理、利用吸烟行为的手势或吸烟时的烟雾进行识别。Liao等人[4]提出一种基于YOLOv3的吸烟目标检测方法,使用的YOLOv3模型以DarkNet53作为骨干,检测结果表明该方法具有良好的烟雾检测效果,mAP达到0.76;赵鉴福等人[5]提出一种基于人体关键点和YOLOv4的吸烟行为检测方法。本研究在利用深度学习方法实现烟头检测的基础上,还额外增加了對人体关键点的检测。通过分析目标对象关键点之间的距离、角度变化以及吸烟动作的时间周期特征,判断目标对象是否发生了吸烟行为。实验结果表明,本研究提出的方法能够准确检测出自行收集数据中的吸烟行为,实现了对吸烟行为的及时监测。以上模型能够较好地应用于吸烟行为实时检测任务。但上述方法对香烟这种较小目标的检测依然存在检测准确率不高,漏检时有发生的问题。
1 改进基于YOLOv7的矿工吸烟检测模型
1.1 YOLOv7模型
与其他目标识别算法相比,YOLO的多尺度预测具有更好的可检测性和实时性,可以满足装配线高速率的测量需求。YOLOv7 [6]采用了远程注意力网络(E-ELAN),在级联模型模型缩放[7]和卷积重参数化[8]的加持下,实现了检测效率和准确性的完美平衡。YOLOv7网络由四个模块组成:输入、骨干、头部和预测。输入模块将输入图像缩放为均匀的像素大小以满足骨干网络的输入尺寸要求。为满足骨干网络的输入尺寸要求,本研究对图像进行了统一的尺寸调整。骨干网络模块由BConv、E-ELAN和MPConv卷积层组成,其中BConv模块包含卷积层、归一化层和LeakyReLU激活函数,用以提取多尺度的图像特征。头部模块是由路径聚合进而组成特征金字塔网络(PAFPN)结构[9],特征信息自下而上传递,实现了不同语义层次特征的有效融合。预测模块采用REP结构调整了PAFPN输出的P3、P4、P5多尺度特征映射的通道数,最终利用1×1卷积核来预测目标的置信度、类别及锚框坐标。矿下吸烟检测模型需要同时满足实时性和准确性的要求,考虑到检测精度和速度之间的良好平衡,选择YOLOv7作为基础模型。
1.2 模型改进思路
矿下检测环境复杂,如复杂的光照环境、目标太小、烟雾遮挡以及烟雾模糊等问题都会导致检测结果不够理想。因此本文提出一种基于改进YOLOv7的矿工吸烟识别算法YOLO-SFN,首先引入注意力机制模块SimAM,在不额外添加参数的情况下提高网络在复杂矿下环境中的特征提取能力。其次用Focus模块替换MPConv下分支中的3×3卷積核,减少网络参数量和计算量,使检测速度得以提升。在后处理阶段采用Soft-NMS作为网络模型的后处理算法,解决了传统NMS算法在复杂密集环境中的漏检问题。
1.3 数据预处理
实验中采用的是真实的图像数据,共采集8 000张图像数据,其中吸烟图像有4 000张,正常工作图像4 000张。为减小计算量并降低图像背景信息的干扰,对原始图像剪裁后再进行计算。裁剪图像是由脸部识别代码计算所得,通过Opencv实现对图像中人脸的识别,将识别结果保存下来。程序剪裁后的图像大小不统一,将输入图像大小改为416×416。
1.4 网络结构改进
首先,将注意力机制模块SimAM [10]嵌入到YOLOv7的网络结构中。注意力机制是指在网络输入部分采用了赋权机制,使模型可以忽略不相关的信息而聚焦在关键信息上,从而提高了模型在复杂背景下的特征提取能力。SimAM是一个注意力机制模块,并不会增加网络参数的数量,具有即插即用的特点,可以嵌入到模型的任意位置,避免了额外参数的计算,其原理如图1所示。
SimAM的核心在于利用其能量函数计算注意力权重。SimAM通过对香烟的相邻神经元产生空间抑制来减少复杂背景对香烟检测的干扰,突出香烟的关键特征,增强对香烟关键特征的提取能力,计算过程如下:
(1)
(2)
, (3)
其中, 表示香烟的增强特征图;E表示每个通道的能量函数。能量越低,香烟神经元和相邻神经元之间的区分度越高。为了防止E值过大,采用sigmoid函数来限制E值的大小; 表示点乘运算;X表示输入特征图;μ表示输入特征图中每个通道的平均值;σ2表示输入烟雾特征图中每个通道的方差;λ表示超级参数;t表示目标神经元。
MPConv的主要功能是下采样,它可以通过一定的特征损失来减小特征大小。YOLOv7中MPConv模块两个分支的下分支使用3×3的卷积核进行卷积操作。当步长为2时,一些特征信息可能会丢失,网络中可能会出现低效的特征学习。受YOLOv5中Focus模块的启发,将MPConv下分支中的3×3卷积核替换成Focus模块。如图1所示,在特征图减半的情况下,减少了特征的损失,提高了特征的学习效率,提升了复杂背景下香烟检测的性能。
1.5 后处理改进
本文选择Soft-NMS作为网络模型的后处理算法。传统的NMS算法从检测结果中选择得分最高的检测框,判断相邻检测框是否被重叠阈值保留,如果相邻检测框得分大于阈值,则直接设置为零。传统的NMS算法从检测结果中选择得分最高的框,并根据与相邻框的重叠情况判断是否保留,如果重叠超过阈值则直接抑制,这在人群密集场景下容易造成漏检。本研究引入Soft-NMS算法,其设定惩罚函数而非直接抑制得分较高的相邻框。这样可以降低这些框的置信度而不会完全抑制,从而提高了此方法在复杂场景下的检测性能。这样,对于一些高分的检测框,即使在NMS阶段降低了分数,在后续的计算中也可以作为正确的检测盒,切实提高了检测精度和召回率。同时,采用高斯惩罚函数解决连续性问题。本文Soft-NMS算法的分数重置函数如下:
(4)
(5)
其中,σ表示高斯函数的方差。
本文提出的YOLO-SFN网络模型如图2所示。
2 实验仿真与结果
2.1 实验平台
实验环境为Intel(R) Core(TM) i5-7400 CPU @ 3.00 GHz的CPU处理器,8.00 GB的运行内存,GeForce GTX 3080Ti的GPU。为了获得更好的训练效果,将学习率设置为0.001,权重衰减系数设置为0.000 5,优化器为Adam,训练批次设置为32,迭代周期设置为200次。
2.2 评价指标与结果比较
本文通过准确率、精确率、召回率等指标对网络性能进行评估。计算上述性能指标需要混淆矩阵,如表1所示。
表1 混淆矩阵
样本分类 预测1 预测0 合计
实际1(P) TP FN TP + FN
实际0(N) FP TN FP + TN
合计 TP + FP FN + TN TP + FN + FP + TN
为了对YOLO-SFN网络进行评估,采用不同的网络结构与其进行比较,方法验证集的准确率变化图如图3所示,具体数值如表2所示。
图3 不同网络结构训练验证集的准确率变化图
表2 不同算法的性能
Method Accuracy Re Sp Pre
YOLOv5m 88.56 88.50 93.50 91.33
YOLOv6 92.02 87.50 96.00 93.41
YOLOv7 94.51 89.50 95.50 94.64
YOLO-SFN 96.45 92.00 95.00 97.05
2.3 消融實验
为了验证改进策略的有效性,进行消融实验来评估每个改进策略。采用整个测试集作为数据集,使测试环境和数据集保持不变。消融实验的检测结果如表3所示。
表3 消融实验检测结果
SimAM F-MP Soft-NMS Accuracy Re Precision
94.51 79.50 94.64
√ 95.92 80.02 94.85
√ √ 95.58 81.53 95.36
√ √ √ 96.45 97.05 97.05
3 分析讨论
从结果数据来看,YOLOv7的准确率为94.51%,而本文提出的YOLO-SFN准确率为96.45%,提高了1.94个百分点,所以实验验证了本文算法的优异性能。YOLOv6检测吸烟图像的准确率与精确率分别是92.02%和93.41%,检测性能仅仅优于YOLOv5m。YOLO-SFN网络的检测性能最佳,不管是准确率还是精确率都优于其他三种流行网络。为了验证改进策略的有效性,本文做了消融实验对每个改进之处进行评估。从如表3所示的检测结果上看,将SimAM注意力机制融入YOLOv7网络中,检测矿工吸烟的准确率可达95.92%,比原模型YOLOv7提高1.41个百分点,证明此改进策略可以加强对矿工吸烟行为的特征提取。在使用注意力机制的基础上,引入Focus模块的网络检测矿工吸烟行为的准确率也高于原模型,但低于只加入注意力机制的模型,准确率可达95.58%,做到了在保证检测精度的同时减少参数量。在后处理阶段加入Soft-NMS算法,检测效果最佳,准确率高达96.45%,比原模型高1.94%,解决了矿工吸烟漏检的问题,提高了检测精度。综上所述,本文方法相较于其他流行方法,在矿工吸烟行为识别中的表现较好,可以有效识别矿工是否存在吸烟行为。
4 结 论
本文针对矿工吸烟图像识别,研究了基于YOLOv7的矿工吸烟行为检测方法。所使用的数据集均来源于矿工真实图像,仿真实验结果表明,该方法对矿工吸烟图像的检测识别具有良好的效果。本文的研究成果已经在陈四楼煤矿推广应用半年以上,实现了对井下人员吸烟行为的视频监测预警,加强了对煤矿井下人员吸烟行为的有效监管,提高了煤矿的安全生产管理水平。
参考文献:
[1] 殷文韬.煤矿瓦斯爆炸事故的不安全动作原因研究 [D].北京:中国矿业大学(北京),2015.
[2] VOLODYMYR M,KORAY K,DAVID S,et al. Human-level Control through Deep Reinforcement Learning [J].Nature,2015,518(7540):529-533.
[3] 梁绪,李文新,张航宁.人体行为识别方法研究综述 [J].计算机应用研究,2022,39(3):651-660.
[4] LIAO J,ZOU J. Smoking Target Detection Based on YOLO V3 [C]//2020 5th International Conference on Mechanical, Control and Computer Engineering (ICMCCE). Harbin:IEEE,2020:2241-2244.
[5] 赵鉴福.基于人体关键点识别的吸烟行为检测方法研究 [D].天津:河北工业大学,2023.
[6] WANG C Y,BOCHKOVSKIY A,LIAO H Y M. YOLOv7: Trainable Bag-of-freebies Sets New State-of-the-art for Real-time Object Detectors [C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Vancouver:IEEE,2023:7464-7475.
[7] WANG C Y,BOCHKOVSKIY A,LIAO H Y M. Scaled-YOLOv4: Scaling Cross Stage Partial Network [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Nashville:IEEE,2021:13024-13033.
[8] DING X H,ZHANG X,MA N N,et al. Repvgg: Making Vgg-style Convnets Great Again [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Nashville:IEEE,2021:13728-13737.
[9] GE Z,LIU S T,WANG F,et al. Yolox: Exceeding YOLO Series in 2021 [J/OL].arXiv:2107.08430 [cs.CV].[2023-08-10].https://arxiv.org/abs/2107.08430.
[10] YANG L X,ZHANG R Y,LI L D,et al. Simam: A Simple, Parameter-free Attention Module for Convolutional Neural Networks [C]//International Conference on Machine Learning. [S.l.]:PMLR,2021:11863-11874.
作者简介:王彬(1978—),男,汉族,江苏徐州人,副教授,硕士,研究方向:人工智能、网络技术、图像识别等。