融合多点注意力机制的YOLOv7火焰目标检测算法研究

2024-06-17 14:28:06张冬梅宋子涛范皓鑫

软件工程 2024年6期

张冬梅宋子涛范皓鑫

摘要：

针对复杂环境中，火焰检测存在特征提取不足和边缘模糊目标检测性能欠缺问题，提出一种融合挤压激励（Squeeze＼|and＼|Excitation，SE）注意力机制的YOLOv7火焰目标检测算法。该算法以YOLOv7为基础框架，基于公开火焰数据集，对不同位置点插入SE注意力机制的网络模型进行研究，进而构建融合多点注意力机制的YOLOv7_Attention网络模型，以充分提取火焰的有效特征，抑制冗余特征。实验结果表明，融合SE注意力机制的YOLOv7_Attention网络模型与原始YOLOv7模型相比，其mAP提升了1.64百分点，边缘模糊火焰目标检测效果显著。

关键词：火焰图像；目标检测；注意力机制；YOLOv7

中图分类号：TP391 文献标志码：A

0 引言（Introduction）

火焰探测作为一种火灾报警系统的方法，已展现出极大的潜力和发展前景［1］。传统火焰检测方法必须依靠温度、烟雾等传感设备，容易受环境干扰且系统的稳定性差、误报率高［2］。近年来，基于深度学习的计算机视觉技术发展迅速，在目标检测任务中取得了较好的应用效果。目标检测算法通常分为两类：一类是以区域卷积神经网络（Region＼|based Convolutional Neural Networks，R＼|CNN）［3］为代表的两阶段模型，第一阶段产生目标所在区域候选框，第二阶段通过神经网络对候选框进行分类和位置回归；另一类是以单阶多框目标检测方法（Single Shot MultiBox Detector，SSD）［4］、YOLO（You Only Look Once，YOLO）系列［5＼|7］为代表的端到端单阶段模型，可以直接确定目标类别和位置且检测速度较快。

基于深度学习的火焰检测方法有多种。严云洋等［8］基于Faster R＼|CNN网络识别火焰，大幅提升了火焰检测精度和鲁棒性。HAN等［9］采用了改进的CA＼|SSD目标检测模型，在保证实时准确定位吸烟者位置的基础上，提高了吸烟检测的准确性。杨天宇等［10］和徐岩等［11］利用YOLOv3系列算法，融合注意力机制，提高了火焰检测效果。XU等［12］将YOLOv5与高效可扩展目标检测器（Scalable and Efficient Object Detection，EfficientDet）协同工作并行检测火灾，最大化地利用了全局特征和局部特征，提升了小目标检测精度，提高了召回率。

YOLOv7算法［13］是YOLO系列中高效且重要的目标检测算法之一，但依然存在特征提取能力不足的问题。本文研究在不同点插入SE注意力机制的网络模型，进一步构建融合多点注意力机制的YOLOv7_Attention网络模型，以加强YOLOv7的特征提取能力，提升火焰目标检测算法的目标检测效果。

1.1 YOLOv7网络模型

YOLOv7是基于YOLOv4和YOLOv5的一种单阶段目标检测算法，能较好地均衡算法的速度和精度，为实现复杂环境中的火焰目标检测奠定了基础［14］。

基于YOLOv7网络模型的目标检测过程包括4个网络层次，分别是输入端、主干网络、颈部网络、输出检测，YOLOv7网络模型结构如图1所示。

图1中输入层（Input）负责将输入的原始三通道图像尺寸定义成640×640，使用Mosaic数据增强方法，通过随机缩放、随机裁剪、随机排列等操作，将4张图片拼接在一起，从而增强数据集。主干网络层（BackBone）主要由扩展高效层聚合网络（Extended Efficient Layer Aggregation Network，E＼|ELAN）、最大池化（Max Pooling，MP）模块构建，通过深度卷积提取不同尺度的特征信息。颈部网络（Neck）也称特征融合层，主要由空间金字塔池化（Spatial Pyramid Pooling，SPP）和跨阶段部分链接（Cross Stage Partial Connections，CSPC）结合的模块SPPCSPC［15］、CBS（Conv＼|BN＼|Sigmoid）、ELAN的改进版本ELAN＼|W、上采样UPSample等构建，负责深度融合不同尺度的特征图像信息，形成小、中、大3种不同尺寸的特征。输出检测层（Head）对提取的特征进行划分，将预测出的锚框坐标、类别及置信度进行非极大值抑制后输出。

1.2 SENet网络

SENet网络（Squeeze＼|and＼|Excitation Networks，SE）是一种基于注意力机制的深度学习方法［16］。在通道维度上引入注意力机制，通过压缩操作顺着空间维度进行特征压缩，获得通道上的全局分布，通过激励操作构建通道间的自相关性，从而增强有用信息所述特征通道的输出能力、抑制或弱化非显著特征，然后对各通道产生的特征图加权以提升特征提取能力［17］。SE网络结构如图2所示。

SE模块以极小的额外计算成本为现有的深度神经网络带来显著的性能提升，同时由于其简单的原理与模块化设计，使得其可以添加在任意一个网络结构中。

1.3 迁移学习

迁移学习是一种将已有的标注数据作为源域，将需要检测的数据作为目标域，将源域数据中的已有知识和模型应用于目标域的学习方法［18］。一般用于解决目标域数据量少、标注困难等问题，以提高目标域任务的性能和泛化能力。

由于公开的火焰数据集有限，为了提高模型的泛化能力，本文使用YOLOv7网络模型在公开数据集COCO（Common Objects in Context）上训练得到的预训练权重迁移至火焰任务中。具体过程如下：首先，在YOLOv7网络模型中加载预训练权重；其次，在火焰目标集上进行训练时，先冻结主干部分的权值，确保特征提取网络保持稳定；最后在解冻训练阶段允许主干参数在训练过程中发生微调，从而提高模型在火焰检测任务上的性能表现。网络初始学习率为1e-2，最小学习率为初始学习率×0.01。采用余弦退火法降低学习率，采用随机梯度下降（Stochastic Gradient Descent，SGD）优化算法。

卷积神经网络中添加注意力模块的位置点不同，对神经网络提取特征的影响也不同。YOLOv7网络模型主要包括4个部分：输入网络、主干网络、颈部网络和头部网络，输入网络用于接收图像，主干网络用于提取特征，颈部网路用于融合特征，头部网路用于预测目标。因此，为了探究注意力机制插入点对YOLOv7网络模型精度的影响，对YOLOv7网络模型中的主干网络和颈部网络进行单一插入和组合插入。

2.1 单一位置插入注意力机制

单一插入点是指只在网络中的单个位置一次性插入SE模块。根据网络结构确定研究的单一插入点分别为图3中标注的①②③位置点。

2.2 YOLOv7_Attention网络模型

在卷积神经网络中，由于浅层网络离输入层较近，因此提取的特征包含更多的细粒度像素点信息，如棱角、颜色、纹理、边缘等。深层网络离输入层较远，提取的特征包含更抽象的粗粒度信息，如语义信息、目标整体形状和物体的空间关系等。因此为了提高YOLOv7网络模型的特征提取能力，使其在充分加强有效特征的同时抑制背景噪声，在YOLOv7网络中插入M2和M3，将注意力机制与YOLOv7网络模型充分融合，构建融合多点注意力机制的YOLOv7网络模型，称之为YOLOv7_Attention（图5）。

3.1 实验环境及模型训练

由于本地计算机环境无法满足实验需求，因此租用智星云AI Galaxy平台中的GPU云服务器。

硬件环境如下：GeForce RTX 3080（10 GB显存）、GPU数量为1个、GPU大小为16 GB、CPU核数为12核、内存为27 GB、系统盘大小为100 GB、数据盘大小为120 GB、镜像为Win10。软件环境如下：Tensorflow 2.4、Python 3.8.3、PyCharm。

基于YOLOv7神经网络构建火焰目标检测模型并进行模型训练。批次选取太小会引起训练震荡，因此选取批次大小为4。训练轮数为100轮，前50轮为冻结训练，后50轮为解冻训练，训练100轮左右时，损失值趋于稳定，训练效果达到最优。

3.2 数据集

采用公开火焰数据集（http：∥www.yongxu.org/databases.html），数据集中共有2 688张图片，对目标位置的标注格式为TXT文件，实验过程中将TXT文件转换成XML文件。输入图片大小为640×640。

为了使锚框的大小更符合数据集的目标尺寸，通过K＼|means聚类分析法重新寻找合适火焰目标的聚类中心，生成适合本数据集的9个锚框，位置分别为（26，41）、（29，126）、（68，72）、（73，140）、（129，126）、（96，228）、（182，205）、（192，375）、（400，393），锚框的分布如图6所示，横、纵坐标为所有图片的尺寸范围，图6中的符号“×”表示目标的聚类锚框中心。锚框尺寸整体符合数据集中火焰目标框的尺寸分布，以提升算法训练性能。

3.3 评价指标

本实验采用目标检测中常用的5个性能评价指标对模型的检测性能进行验证，分别为精度（Precision， P）、召回率（Recall， R）、F1分数（F1 Score， F1），平均精度（Average Precision， AP）、平均精度均值（mean Average Precision， mAP），其计算公式如下：

P=TPTP+FP[JZ）][JY]（1）

R=TPTP+FN[JZ）][JY]（2）

F1=2PRP+R[JZ）][JY]（3）

AP=∫10PdR[JZ）][JY]（4）

mAP=∑Ni=1APiN[JZ）][JY]（5）

其中：TP为将正样本预测为正的个数，FP为将负样本预测为正的个数，FN为将正样本预测为负的个数。对所有类别的AP取平均值得到mAP，用于对整个目标检测网络模型的检测性能进行评价；N为类别的个数。由于只有火焰一类目标，因此实验中采用的评价指标为mAP，该值越高，表示模型检测性能越好。

3.4 结果对比与分析

在火焰数据集上，构建了3个单一位置插入注意力机制的网络模型，分别为YOLOv7_M1_Attention、YOLOv7_M2_Attention及YOLOv7_M3_Attention网络模型。3种模型与YOLOv7网络模型性能对比如表1所示，单一位置插入注意力机制的网络模型的性能指标整体优于YOLOv7网络模型的性能指标，这也证明了SE注意力机制对提高YOLOv7网络模型的综合性能是有效的。

从表1中的数据可以看出，①位置点插入的YOLOv7_M1_Attention的mAP比YOLOv7的mAP提高了0.12百分点，②位置点插入的YOLOv7_M2_Attention的mAP比YOLOv7的mAP提高了1.25百分点，③位置点插入的YOLOv7_M3_Attention的mAP比YOLOv7的mAP提高了1.35百分点。分析该结果可能是因为M1位置位于网络的浅层部分，卷积深度不高，网络提取的目标特征较少，使得注意力机制并未能充分发挥其加强有效特征、抑制无关噪声的作用。在M2和M3位置上，随着网络层数不断加深，网络提取的目标越多，对提升网络模型检测性能的作用越大。

在相同的实验环境中，对比引入注意力机制融合的YOLOv7_Attention和YOLOv7，性能对比结果如表2所示，改进后的方法相比于原方法，mAP提升了1.64百分点，并且均优于表1中单一位置点插入的网络模型。结果表明，基于融合多点注意力机制的网络模型对火焰特征提取充分，证明了本算法的有效性。

为进一步验证本文研究的改进算法的有效性，从训练轮数与mAP和损失函数的变化情况进行评价。图7为YOLOv7和YOLOv7_Attention在训练过程中的mAP曲线对比图，实验结果表明，随着训练轮数的不断增加，两种网络模型的mAP曲线整体呈上升趋势，最终在100轮左右趋于稳定。YOLOv7的mAP为81.39%，YOLOv7_Attention的mAP达到83.03%，整体提升了1.64百分点。

图8为YOLOv7与YOLOv7_Attention在训练过程中损失函数对比曲线图。经对比发现，改进前、后的算法的损失曲线整体都呈现下降趋势。随着训练轮数的不断增加，YOLOv7的损失值稳定在1.049左右，YOLOv7_Attention的损失值稳定在1.038左右。相比于原方法，经改进的算法的损失值的下降趋势更早地趋于稳定。

为对比算法改进前、后的检测效果，将其应用于部分火焰图片中进行测试。图9中左边一列图片为YOLOv7的检测结果，右边一列图片为YOLOv7_Attention的检测结果。图9（a）为森林火灾图片，特点是小火焰目标多、边缘模糊，右边的图片检测出更多目标。图9（b）为室内火灾图片，由于室内墙壁反光，使左、右两边的图片检测均受到影响，但右边图片相比于左边图片，检测结果更准确。图9（c）为城市火灾图片，特点是火焰覆盖面大，右边图片中的检测范围相比于左边图片精准度更高。实验结果表明，融合注意力机制后，网络模型能提取到更深层、更有效的特征，对原算法漏检的边缘模糊的小火焰目标达到了较好的检测效果。

4 结论（Conclusion）

本研究选取SE注意力机制，研究其不同插入点对YOLOv7网络结构的影响，提出一种融合多点注意力机制的YOLOv7_Attention的火焰检测算法。在公开的火焰数据集上进行相关实验的结果表明，注意力模块插入点所在网络深度越深，提取的火焰网络特征就越充分。融合不同位置的注意力机制的YOLOv7_Attention方法相比于YOLOv7算法，mAP提高了1.64百分点，检测效果显著提升。

后续，将研究多层注意力机制对网络模型的影响。此外，目前使用的公开火焰数据集不够充分，下一步将进一步扩充有效的火焰数据集。

参考文献（References）

［1］ ZHAO Y J，ZHANG H B，ZHANG X L，et al. Fire smoke detection based on target＼|awareness and depthwise convolutions［J］. Multimedia tools and applications，2021，80（18）：27407＼|27421.

［2］ JIN Z Y，ZAI W J，HUANG J Y，et al. Monitoring of smoking behavior in construction sites of the power system［C］∥IEEE. Proceedings of the IEEE：2023 Panda Forum on Power and Energy. Piscataway：IEEE，2023：1471＼|1475.

［3］ GIRSHICK R，DONAHUE J，DARRELL T，et al. Rich feature hierarchies for accurate object detection and semantic segmentation［C］∥ACM. Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. New York：ACM，2014：580＼|587.

［4］ LIU W，ANGUELOV D，ERHAN D，et al. SSD：single shot multiBox detector［C］∥Springer：European Conference on Computer Vision. Cham：Springer，2016：21＼|37.

［5］ REDMON J，DIVVALA S，GIRSHICK R，et al. You only look once：unified，real＼|time object detection［C］∥IEEE. Proceedings of the IEEE：2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway：IEEE，2016：779＼|788.

［6］ REDMON J，FARHADI A. YOLO9000：better，faster，stronger［C］∥IEEE. Proceedings of the IEEE：2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway：IEEE，2017：6517＼|6525.

［7］张富凯，杨峰，李策. 基于改进YOLOv3的快速车辆检测方法［J］. 计算机工程与应用，2019，55（2）：12＼|20.

［8］严云洋，朱晓妤，刘以安，等. 基于Faster R＼|CNN模型的火焰检测［J］. 南京师大学报（自然科学版），2018，41（3）：1＼|5.

［9］ HAN L S，RONG L L，LI Y Q，et al. CA＼|SSD＼|based real＼|time smoking target detection algorithm［C］∥ACM. Proceedings of the 2021 5th International Conference on Digital Signal Processing. New York：ACM，2021：283＼|288.

［10］杨天宇，王海瑞. 基于改进YOLOv3融合特征的火焰目标检测方法［J］. 农业装备与车辆工程，2022，60（11）：68＼|72.

［11］徐岩，李永泉，郭晓燕，等. 基于YOLOv3＼|tiny的火焰目标检测算法［J］. 山东科技大学学报（自然科学版），2022，41（6）：95＼|103.

［12］ XU R J，LIN H F，LU K J，et al. A forest fire detection system based on ensemble learning［J］. Forests，2021，12（2）：217.

［13］ WANG C Y，BOCHKOVSKIY A，LIAO H Y M. YOLOv7：trainable bag＼|of＼|freebies sets new state＼|of＼|the＼|art for real＼|time object detectors［C］∥IEEE. Proceedings of the IEEE：2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway：IEEE，2023：7464＼|7475.

［14］祝志慧，何昱廷，李沃霖，等. 基于改进YOLOv7模型的复杂环境下鸭蛋识别定位［J］. 农业工程学报，2023，39（11）：274＼|285.

［15］赵伟，沈乐，徐凯宏. 改进YOLOv7算法在火灾现场行人检测中的应用［J］. 传感器与微系统，2023，42（7）：165＼|168.

［16］ HU J，SHEN L，SUN G. Squeeze＼|and＼|excitation networks［C］∥IEEE. Proceedings of the IEEE：2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway：IEEE，2018：7132＼|7141.

［17］肖鹏程，徐文广，张妍，等. 基于SE注意力机制的废钢分类评级方法［J］. 工程科学学报，2023，45（8）：1342＼|1352.

［18］ IMAN M，ARABNIA H R，RASHEED K. A review of deep transfer learning and recent advancements［J］. Technologies，2023，11（2）：40.

作者简介：

张冬梅（1995＼|），女，硕士，助教。研究领域：计算机视觉。

宋子涛（1994＼|），男，硕士，助教。研究领域：机器学习。

范皓鑫（2003＼|），男，本科生。研究领域：计算机视觉。