基于全局自注意力机制的煤矸石目标检测网络

2024-03-11 09:10汝洪芳李作淘王国新王书侠
黑龙江科技大学学报 2024年1期
关键词:煤矸石全局注意力

汝洪芳, 李作淘, 王国新, 王书侠

(黑龙江科技大学 电气与控制工程学院, 哈尔滨 150022)

0 引 言

煤炭是我国能源的主体,煤炭工业在国民经济中有着重要的地位,煤矸石作为煤矿开采伴生的固体废弃物,严重污染环境,因此煤矸石分选一直是煤炭工业的重要环节[1]。精确且智能地识别是分选的前提,也是煤矿智能化发展的内在要求。

现阶段的选矸方法主要有人工排矸法、复合式干法分选法[2]、γ射线分选法[3]和基于机器学习的智能分选法等。其中,人工排矸法效率低且浪费人力资源;而γ射线法则会损害工人的健康。基于机器学习的方法有基于图像的灰度和纹理特征的煤矸石目标检测方法,如赵明辉[4]使用煤矸石图像灰度直方图的三阶矩阵特征参数设计了识别方法。在卷积神经网络提出之后,与基于图像灰度与纹理的方法相比,基于卷积神经网络的深度目标检测网络有着更高的精度,张永超等[5]使用SSD视觉算法对煤矸石进行检测。雷世威等[6]通过改进的YOLOv3模型对煤矸石进行检测。郭永存等[7]使用迁移权重和简化神经元的方法优化CNN网络并对煤矸石进行了检测。各类深度学习网络对运算量要求较大,不能很好地支持实际工业应用,而YOLOv5s体积小,速度快,能够适应计算资源受限的工业现场。因此,对YOLOv5s进行改进,引入全局上下文模块和全维动态卷积,突出目标前景,提升检测精度,提出GO-YOLOv5s煤矸石检测网络。

1 YOLOv5s网络原理

现阶段的目标检测方法有两阶段检测和单阶段检测方法。两阶段方法指的是将目标检测拆分为检测和分类两个任务,而单阶段方法为在一个网络中同时执行检测和分类任务。文中选用的YOLOv5系列算法为单阶段目标检测方法。

1.1 网络结构

YOLOv5系列由五种网络组成,按照网络的深度和宽度由小到大排序,分别为YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x。随着网络结构复杂度的提升,网络的预测精度随之提升,而网络的速度则随之下降。考虑到煤矸石分选工作对工业现场实时性和准确性的双重需求,文中选取YOLOv5s作为改进优化目标。

YOLOv5s的网络结构如图 1所示。主要由Backbone骨干网络、Neck部分和Head检测头组成。

图1 YOLOv5s网络结构Fig. 1 Structure of YOLOv5s

1.2 CSP结构

YOLOv5s的骨干网络使用了New CSP Darknet53,其中包含了两种CSP结构,如图 2所示。分别为CSP1_X和CSP2_X,图中,CBS模块由标准卷积Conv、批归一化BatchNorm和激活函数SiLU组成。CSP模块的主要作用是对残差特征进行学习以提升学习能力,避免梯度爆炸等问题。其中,CSP1_X用于骨干网络,而CSP2_X则用于Neck部分。

图2 CSP结构Fig. 2 Structure of CSP

经过骨干网络和Neck部分处理后的特征图最终被输入到检测头中。YOLOv5s拥有三个检测头,每个检测头对应着不同的预测尺寸。

2 网络优化方法

2.1 全局上下文模块

研究者们发现,引入注意力机制对神经网络的性能有着较为显著的提升。全局上下文模块(Global context block, GCBlock)[8]在SENet[9]和自注意力机制NLNet[10]的基础上设计,融合了SENet和NLNet的优点,将NLNet的全局自注意力信息建模方法和SENet的高效赋权转化方法相结合,设计出既保留了自注意力机制带来的全局特征信息,又有SE模块低计算量特点的全局上下文模块。SE模块和NL模块如图 3所示。

图3 各模块内部结构Fig. 3 Internal structure of each module

SE模块能够有效地捕捉通道间的交互特征。通过全局平均池化,将特征图处理为通道指示符向量模式,之后通过两个卷积处理,使用ReLU作为激活函数,Sigmoid作为归一化函数,得到权重向量,最后通过通道重构,获得通道赋权的特征图。

NL模块所使用的自注意力机制是注意力机制的变种,其核心思想在于最大限度地利用特征本身的信息构建注意力机制。通过这种基于自注意力机制的全局特征信息建模,网络能够获得捕获长距离特征依赖,进而强调前景,扩大感受野。

GCBlock的设计原理如图 4所示。通过比较SE模块和NL模块,可以发现,二者的模块结构有着相似的设计思路。即先通过建模过程对指定的信息进行建模,之后再将建模后的信息进行编码转换,转换为具有权重指示符意义的浅层数据形式,最后将这一权重指示符同建模前信息进行融合,得到有偏重性的特征数据以供后续网络学习处理。

对二者进行研究可以发现,SE模块有着高效的编码转换过程,而NL模块则有着信息更加全面、丰富的建模过程,因此,吸取二者的优点,使用NL模块基于自注意力的建模过程搭配SE模块基于基本卷积的编码过程,设计出既保留更多的全局信息,突出目标前景,扩大感受野,又计算高效的GC模块。

图4 GCBlock的设计原理Fig. 4 Principle of GCBlock

将这一模块引入煤矸石目标检测任务中,可以大大缓解实际检测工作中目标前景和背景相似度过高所带来的误检和漏检问题。

2.2 全维动态卷积

常规卷积层是使用一个不变的卷积核去处理所有输入的样本信息,而动态卷积[11]则不同,动态卷积是多个卷积核的加权线性组合,其加权方法是一种基于注意力机制的动态加权方法。动态卷积是与输入样本信息有关的卷积,进而增强网络的性能。

y=(αw1W1+…+αwnWn)*x,

式中:x——输入特征,x∈h×w×ci;

y——输出特征,y∈h×w×co;

αω1——用以赋权Wi的注意力值,αwi∈,通过一个基于输入特征的注意力公式πwi(x)得到;

*——卷积操作。

可以看到,动态卷积由两个基础部分构成,即卷积核{W1,W2,…,Wn}和用来计算注意力加权值{αw1,αw2,…,αwn}的注意力公式。

全维动态卷积(ODConv)[12]则是通过平行策略,构建一种多维注意力机制,从卷积核空间的四个维度上进行不同注意力机制的学习。全维动态卷积的结构如图 5所示。

图5 ODConv的原理Fig. 5 Principle of ODConv

式中:αwi∈——用以赋权的注意力值;

αsi∈k×k——基于卷积核空间尺寸的注意力;

αci∈ci——基于输入通道的注意力;

αfi∈co——基于输出通道的注意力;

⊙——不同维度间的乘法运算。

通过四类互为补充的注意力机制的作用,能够从输入信息x的卷积的空间位置、输入通道、滤波参数和卷积核方面进行处理,全面捕捉更为丰富的上下文线索。引入这一卷积结构,能够增强网络模型的特征提取和特征融合能力。

2.3 改进的网络结构

将YOLOv5s的Backbone中的CSP结构替换为GCBlock,通过自注意力机制捕获长距离特征依赖,扩大网络感受野,利用SE模块的高效编码转换方法进行权重分配,最后得到融合特征,使网络能够更多地关注有利于煤矸石目标检测的特征信息,更好地消减相似背景和其他次要信息的影响。将Neck部分的三个CBS替换为ODConv,加强网络从多个维度提取特征的能力。通过上述改进方案,提升网络的性能。改进后的网络结构如图 6所示。

图6 GO-YOLOv5s的结构Fig. 6 Structure of GO-YOLOv5s

3 实 验

实验软件环境为基于Pytorch 1.21.1、Python 3.9和Anaconda3的Linux深度学习环境,硬件为2片Intel(R) Xeon(R) Gold 6226R处理器,4张NVIDIA Tesla T4显卡及196 Gb内存。

3.1 评价指标

在目标检测算法中,准确率P、召回率R、F1值、所有类别平均准确率的平均值αmAP以及推理速度常被选作网络模型的评价指标。推理速度为在指定软硬件条件下,网络模型每秒处理的图像数量。

式中:F1——评价二分类问题的重要指标;

αmAP——全类别平均准确率的平均值;

TP——模型检测正确的样本数;

FP——误检的样本数;

FN——漏检的样本数;

Pek——平均准确度;

C——类别数。

3.2 实验结果与分析

使用工业相机采集图像数据,为贴合实际工况背景,在实验室搭建了黑色传送带平台,将煤矸石目标放置于传送带上进行图像数据采集。经过适当的筛选和图像增强方法处理之后,最终得到图像总数为16 424的数据集。将数据集按照8∶1∶1的比例划分为训练集、测试集和验证集。数据集图像如图 7所示。整体实验结果如图 8所示。

图7 煤矸石数据集图像Fig. 7 Coal and coal gangue dataset

选用YOLOv5s、YOLOv5m、YOLOv5l、YOLOv7[13]和YOLOv7x作为对照组,实验参数进行统一设置,训练批次Batch Size为16,训练周期Epoch为60,实验结果见表1。

图8 整体实验结果Fig. 8 Results of experiments

从表1可知,GO-YOLOv5s的αmAP值为88.6%,较YOLOv5s、YOLOv5m、YOLOv5l、YOLOv7和YOLOv7x分别提升了4.1%、3.2%、2.1%、2.6%和2%;推理速度为每秒158.73帧,较YOLOv5s、YOLOv5m、YOLOv5l和YOLOv7x分别提升了1.6%、30.2%、60%和39.2%;F1值为99.7%,较YOLOv5s、YOLOv5m、YOLOv5l、YOLOv7和YOLOv7x分别提升了1.4%、1.6%、1%、0.9%和1.2%;召回率为99.7%,较YOLOv5s、YOLOv5m、YOLOv5l、YOLOv7和YOLOv7x分别提升了1.1%、1.5%、1.1%、0.7%和1%。可以看到,改进网络的性能提升较为全面,这是因为GO-YOLOv5s优化了原本模型的特征提取和特征融合方法,对图像中的重要信息进行了增强并且对干扰检测的背景信息进行了抑制,加强了整体网络的特征提取和融合能力。

对文中改进模型进行消融实验,以分析各改进模块独立的效果,实验结果见表 2。其中,×表示未使用该模块,√表示使用该模块。

表2 消融实验结果

从表 2可知,引入GCBlock之后,模型的αmAP值上升了1.7%,为86.2%,说明通过在骨干网络中引入这一模块,有效地加强了骨干网络对关键特征信息的提取能力。引入ODConv之后,模型的αmAP值上升了0.9%,说明在Neck部分引入全维动态卷积能够帮助模型在特征融合方面取得提升,实现整体效果的提升;在YOLOv5s模型中,将骨干网络的CSP替换为GCBlock,将Neck部分的三个CBS替换为ODConv后,模型的值达到了88.6%,较原模型提升了4.1%,说明文中提出的改进方案能够有效地提升网络模型的整体性能。

为了进一步探究神经网络的训练过程,使用Grad-CAM热力图算法[14]。通过Grad-CAM算法计算网络模型末尾卷积层的特征图权重,其为可视化的彩色热力图,如图 9所示。

图9 热力图可视化结果Fig. 9 GradCAM results

从图 9可以看出,改进后网络模型的关注区域更为集中,而且对背景的信息有着明显的抑制作用。

4 结 论

(1)将全局上下文模块和全维动态卷积融入YOLOv5s网络中,使网络能够更多地关注影响检测结果的重要信息,同时抑制干扰检测的无关背景信息和次要信息,进一步加强网络模型的特征融合能力,有效地提升网络的性能。

(2)实验结果证明,同原始网络相比,改进网络有着明显的精度提升,同时,检测速度和原网络相当,略有提升;同对照组网络相比,改进网络有着较高的精度和速度。改进网络结构更加符合煤矸分选任务需求。

猜你喜欢
煤矸石全局注意力
浅谈煤矸石在固废混凝土中的应用
Cahn-Hilliard-Brinkman系统的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
让注意力“飞”回来
落子山东,意在全局
煤矸石的综合利用
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
新思路:牵一发动全局
改性煤矸石对污水中油的吸附作用