基于多尺度与反复注意力机制的矿井图像分类*

2022-09-14 15:27王雨晨
现代矿业 2022年8期
关键词:特征提取尺度卷积

李 辉 刘 规 袁 航 王雨晨

(1.安徽界沟矿业有限公司界沟煤矿;2.中国矿业大学信息与控制工程学院)

煤矿智能、精准开采是煤矿发展的必由之路,人工智能化开采技术的加入,使得传统开采方式得以向安全高效的现代化开采方式转变[1]。在矿山的煤矸石分拣、检测等各个工作场景中,人工进行煤矸石分拣与检测的方式虽然分类效果较好,但是其劳动强度大,伴随着不好管理以及易发生安全事故等问题。图像分类技术挖掘和利用煤矸石图像的内在特征进行分类与检测,对煤炭的安全、精准、智能化开采起重大促进作用。目前来看,大多数有关图像分类的算法仍然存在准确率较低,对图像的特征无法做到精准提取,除此之外,还会受到矿井下面本身自然光照不足、粉尘等的影响[2],自然光下的图像分类算法在对煤矸石的分类与检测中的应用受到制约[3]。提出的基于多尺度与反复注意力机制的矿井图像分类算法提取特征完整性较好,计算量降低,进一步提升了煤矸石分类的准确率。

1 相关算法

1.1 卷积注意力模块

Sanghyun Woo 等[4]仔细观察了人类的视觉系统,通过对其中注意力机制的摹仿,提出可以利用卷积注意力模块来完成计算机视觉相关的任务,使其在计算机视觉领域发挥出重要作用。原始卷积注意力模块一般是由通道注意力模块及空间注意力模块组成,这两部分模块能够对特征图中的关键部分进行强调,对不需要的特征进行抑制,大幅增强了特征的表达能力。

在计算机视觉任务中,卷积注意力模块能够大幅度提高对图像关键部分特征提取的精准度,同时对于图像中无关的信息,该模块也可以调整关注度将其忽略。模块结构如图1所示。

1.2 通道注意力模块

卷积注意力模块的第一个部分为通道注意力模块,通道注意力模块的目的是判断特征在这个通道上是否是有意义。假设输入的特征图尺寸是H×W ×C,首先,输入的特征图会首先经过平均池化处理和最大池化处理,从而可以得到2 个尺寸为1×1×C的特征图,再将获得的2个特征图分别输入全连接网络,再次输出2个特征图,并对其进行相加操作。之后,利用Sigmoid 函数获得范围在0 到1 的权重系数,将得到的权重系数与最初输入的H×W×C 大小特征图做相乘操作,输出通道注意力特征图。详细结构如图2所示。

通常情况下,研究者们常常通过降低信息空间维度的方法,来达到提高模块计算速度的目的。在研究过程中,研究者们发现,最大池化层的使用,可以进一步提高对图像信息提取的准确率,注意力模块对重要信息的关注也更加细致。Zhou等[5]提出,可以通过在模型中引入最大池化处理的方式,来有效地提高网络模型锁定目标区域的能力;Hu 等[6]注意到,通过使用最大池化层,能够有效地计算特征空间维数。除此之外,经过研究学者们的实践操作,已经证明,平均池化和最大池化的结合使用,能够使得网络的特征表现能力得到进一步提高。

1.3 空间注意力模块

空间注意力模块的主要目的是实现对空间特征的精准挑选和融合,其对输入特征的处理过程同通道注意力模块类似,最终都得到新的特征图。空间注意力模块更注重的是有价值信息的位置。将通道注意力特征作为模块的输入,之后输出一个特征描述符,再经卷积层输出空间注意力特征图,将输出与输入的特征图进行乘法加权操作,得到相应的调整之后的特征图。该模块主要结构如图3所示。

2 多尺度与反复注意力机制分类网络

2.1 多尺度特征提取

特征提取的有效性和精准性,直接影响了最后分类任务完成的效果。当前,研究者们在处理分类相关任务时,通常都会选择使用较小尺寸的卷积核,事实上,经过研究者们大量的实验证明,由于卷积核本身的特性,小尺寸的卷积核(如3×3)不仅能够稳定地提取图像特征,还能够让整体网络保持较小的计算量。但随着图像尺寸的增加,以及为了提高网络在分类任务当中的准确性,不断加深分类模型网络的层数,导致在实际过程中需要更大的感受野才能完成图像的分类任务。在此基础上,本研究提出了一种利用多尺度来提取特征的方式,由多尺度特征提取与跨尺度特征融合组成,利用不同类型的卷积核来获得更多的图像信息。

多尺度特征提取原理如图4 所示。网络根据不同情况分别采用了3×3,5×5,7×7 尺寸的卷积核,在具体实验中,我们为了保证图像特征提取的效果,在选择滤波器时,需要将卷积核的大小考虑进去。在网络前端提取特征时,3×3,5× 5,7×7 卷积核对应的滤波器数量分别为64,128,256,将3个尺度的融合网络设计成并行网络,并且在每一层网络都加入了 BN 层和 ReLU 层。在图 3 中,红、绿、蓝 3 种颜色的区域分别代表从小到大3 种不同尺寸的卷积核滤波器。棕色和浅色部分分别代表图像输入和边界填充。不同卷积核所在图像区域的感受野大小也不尽相同,所以尽管是位于同一个像素点,使用不同尺寸的卷积核对图像特征进行提取,得到的结果也不太一样,这样就可以保证在使用网络模型对图像进行分类之前,可以从输入的图像中学到更完整更有效的特征。特征提取出来之后,先在模型前端对特征进行训练学习,在模型后端对每个网络学习到的特征进行串联操作,模型最终输出288个尺寸一样的特征映射图。由于在特征拼接的时候采用了多尺度拼接的方法,因此整体网络模型能够快速稳定地进行收敛,从而实现对图像分类的精度地有效提升。

2.2 反复注意力机制

本研究设计的网络模型如图5 所示,简单来说,整体分为特征提取和图像分类2 个部分。前一部分利用多尺度进行特征提取,除此之外,还对ResNet 网络做进一步改进,将注意力模块加入其中,可以实现对图像特征的进一步提取。这种方法不仅没有增加网络模型的计算量,还对网络分类任务的精准度有了一定的提高。在ResNet 网络原来输出的特征图之后,加入通道和空间注意力模块,分别强调该特征的类型以及该特征位置。经过后续实验结果表明,本研究设计的模型虽然额外加入了其他模块,但并未导致模型训练的计算量大幅增加,并且获得的分类效果相比于原始模块也有了一定的提升。

完整的分类模型如图6所示。其中,反复注意力模块的输入为经过ResNet 下采样模块处理之后得到的特征矩阵。由多尺度、反复注意力机制以及ResNet 特征提取作为特征提取器,引入跳跃连接,在减少整体计算量的同时保证所提取煤矸石特征信息的完整性。同时,在网络进行特征提取之后利用通道注意力机制滤除掉输入的特征矩阵多余的特征冗余信息,与此同时,利用空间注意力机制对输入特征矩阵的背景特征信息进行过滤,进一步提高煤矸石分类的准确率。

3 试验研究

本试验条件为NVIDIA GTX 1080Ti的显卡,操作系统为Linux,编程语言选择python,框架为pytorch,采用的数据集为经典的CIFAR-10 分类数据集,以及实际采集的矿井数据集图片,以验证算法的具体性能。

在设置算法模型的学习率以及batch size 的大小时采用3 组参数进行对比,3 组实验的参数设置分别为①训练样本的batch size 设为8,改变学习率变化步长和衰减程度,每20 个迭代次数,学习率乘以0.4;②训练样本的batch size 设为8,每25 轮迭代训练后对学习率乘以0.2;③训练样本的batch size 设为8,每30轮迭代训练后对学习率乘以0.1。3 组不同参数下,网络收敛最终的分类准确率见表1。

由表1 实验结果可知,实验3 的参数条件下的分类准确率最高,因此采用实验3的参数设置进行与其他经典算法的对比,比较结果见表2。

根据表2 可知,与其他经典方法相比,基于多尺度与反复注意力机制的图像分类模型均获得了较高的分类准确率,在通用数据集CIFAR-10 中达到了93.17%的准确率,在实际采集的矿井数据集中达到了93.40%的分类准确率,再次证明了基于多尺度与反复注意力机制的图像分类模型的有效性。

4 结 语

针对在矿山的煤矸石分拣、检测等各个工作场景中提出了一种多尺度与反复注意力图像分类模型,对实际矿井图像中的煤矸石进行分类检测,该模型在确保特征完好的基础上,不仅降低了计算量,同时让网络模型更好地表达输入图像的特征信息。对于经过下采样之后的特征矩阵,不仅使用通道注意力模块对输入的特征进行提取筛选,同时使用空间注意力机制来降低无关背景信息对重要特征信息的干扰。由最终的实验结果可以看出,本算法相较于

?

?

参 考 文 献以往的经典模型,在性能方面有了明显的进步。

[1] 蒋锐.老煤矿智能化建设关键技术及实施探索[J].工矿自动化,2021,47(S1):16-18.

[2] 程德强,陈亮亮,蔡迎春,等.边缘融合的多字典超分辨图像重建算法[J].煤炭学报,2018,43(7):2084-2090.

[3] 唐守锋,史可,仝光明,等.一种矿井低照度图像增强算法[J].工矿自动化,2021,47(10):32-36.

[4] WOO S,PARK J,LEE J Y,et al.CBAM:Convolutional Block Attention Module[J].Springer,Cham,2018,7(17):42-51.

[5] ZHOU B,KHOSLA A,LAPEDRIZA A,et al. Learning deep features for discriminative localization[J]. In: Computer Vision and Pattern Recognition(CVPR),2016,12(1):2921-2929.

[6] JIE H,LI S,GANG S,et al. Squeeze-and-Excitation Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,42(8):2011-2023.

猜你喜欢
特征提取尺度卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
论社会进步的评价尺度
空间目标的ISAR成像及轮廓特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
从滤波器理解卷积
基于MED—MOMEDA的风电齿轮箱复合故障特征提取研究
基于傅里叶域卷积表示的目标跟踪算法
宇宙的尺度