YOLOv5检测煤矸石的改进方法

2021-12-09 02:47:16汝洪芳张冬冬
黑龙江科技大学学报 2021年6期
关键词:煤矸石网络结构精度

汝洪芳, 张冬冬

(黑龙江科技大学 电气与控制工程学院, 哈尔滨 150022)

0 引 言

煤炭现实生活所必需的能源之一,原煤中含有大量的矸石,一般占原煤产量的 15%~20%。混杂在煤中的矸石会降低燃烧率,燃烧产物会致环境污染。一直以来,与煤炭外形相似的煤矸石分选是煤炭生产的一大难题[1]。

目前,煤矸石分选方法主要有人工手选、重介质选煤、干法选煤、X射线选煤和机器学习等。其中,人工手选误差较大,而跳汰和介质分选浪费水资源,并不适用于我国西北部等干旱地区的煤矿产区。X射线对煤矸石进行分选主要利用煤和煤矸石对X射线的吸收能力不同进行区分[2],由于X射线自身特性,不利于选煤厂工人的健康。应用机器学习检测煤矸有广泛应用,结合灰度共生矩阵和支持向量机的方式分类煤矸石。随着机器学习的不断发展,网络层数更深、特征提取能力更强的深度学习也在飞速发展。将CNN卷积神经网络与煤矸石分选相结合,相比使用灰度信息作为判别依据的方法精度更高[3]。由于人工提取图片特征易受干扰,CNN卷积神经网络分选精度不足,因此,需寻求更好深度学习算法进行煤矸石分选。考虑对煤矸石分选准确率及速度等多方面因素,笔者选用YOLOv5网络检测煤矸石,优化YOLOv5网络结构检测识别煤矸石。

1 YOLOv5网络原理

1.1 YOLO网络

目标检测方法有两种:一种是双阶段检测算法,另一种是单阶段检测算法。单阶段检测算法主要有YOLO和SSD等算法,双阶段算法有R-CNN系列。单阶段算法流程里从输入图像到输出结果只经历了深度神经网络一个阶段。因此,相对于双阶段目标检测算法来说单阶段算法在速度上有很大提升[4]。

与目标检测方法相比,YOLO系列网络在进行目标检测时,将待测对象的目标检测任务定义为回归问题,文中选用YOLOv5属于单阶段算法。

1.2 网络结构

YOLOv5共有四种网络结构,分别为YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x四种网络,网络结构大小依次递增,YOLOv5s网络最小,运行速度最快, YOLOv5x网络最大,运行速度相对最慢。由于煤矸石目标检测为两分类,考虑到实时性需求,因此,选取网络结构相对简单的YOLOv5s、YOLOv5m进行优化实验。YOLOv5s网络深度0.33、宽度0.50;YOLOv5m网络深度0.67、网络宽度0.75。使用网络深度和宽度两个系数对网络进行调节。

使用网络深度和宽度两个系数对网络进行调节。其中,宽度主要影响卷积后特征图的第三维度即厚度。

YOLOv5s的网络结构如图 1所示,其主要由Focus模块、CSP结构和Neck输出部分组成。

图1 YOLOv5s网络结构Fig. 1 YOLOv5s network structure

1.2.1 Focus模块

Focus是Yolov5新增的操作,将原始608×608×3的图像输入Focus结构,采用切片操作,先变成304×304×12的特征图,再经过一次32个卷积核的卷积操作,最终变成304×304×32的特征图[5],操作流程如图 2所示。

图2 Focus操作流程Fig. 2 Flow of focus operation

1.2.2 CSP结构

YOLOv5借鉴了CSP Darknet 网络结构,在主干网络中设计了两种CSP结构,其中,CSP1_X结构应用于Backbone主干网络,另一种CSP2_X结构则应用于Neck中。其中,X代表残差网络个数,作用是防止在卷积的过程中产生梯度爆炸和网络退化等问题。网络结构如图 3所示,其中,Conv代表卷积,BN代表归一化,Leakyrelu为激活函数,这三个部分组成了CBL模块用来处理图像数据,CBL和Resunit模块共同构成了CSP X结构[6-7]。 经过CSP结构处理后,图像的信息被提取出来输送到下一级网络。

图3 CSP结构Fig. 3 CSP structure

1.2.3 Neck输出部分

Yolov5的Neck和Yolov4中一样,均采用FPN+PAN的结构,如图 4所示。FPN+PAN的结构是一个特征图像金字塔,整个过程是先对原始图像构造图像金字塔,在图像金字塔的每一层提出不同的特征,然后进行相应的预测。这种方法的缺点是计算量大,需要大量的内存,优点是可以获得较好的检测精度。

图4 YOLOv5的Neck结构Fig. 4 Neck structure of YOLOv5

经过YOLOv5网络处理后的图像会有三种不同的输出,不同的输出预测不同尺寸的目标。

2 网络优化

通过研究YOLOv5的网络结构和原理,对网络进行交并比和非极大值抑制的优化。

2.1 交并比的优化

IoU的不同计算方法,对目标检测的输出结果有很大的影响。文中分别介绍三种IoU的计算方法,对比网络原有的GIoU 选择性能更好的CIoU进行计算,实现优化效果。

交并比计算公式为

(1)

式中:D——预测值;

G—— 标注值。

预测框与标记框的重叠如图 5所示,预测框与标注框的交叠部分代表着ηIoU的大小,ηIoU为1表示两个预测框完全重叠。当预测值和标注值交叉范围较小时,ηIoU的数值会比较小;当预测值和标注值交叉范围较大时,ηIoU的数值比较大。

图5 预测框与标记框的重叠Fig. 5 Overlapping of prediction frame and marker frame

2.1.1 GIoU Loss损失函数

Yolov5中采用GIoU_Loss为Bounding box的损失函数[8]为

(2)

式中:A、B——任意两个目标框;

C——A和B包含的最小封装模型。

通过计算C中A和B外围的面积与C的总面积相除,采用IoU值减去这个比值[7],YOLOv5的损失函数定义为

LGIoU=1-ηGIoU。

(3)

2.1.2 DIoU Loss损失函数

DIoU损失函数比GIoU更加符合目标框回归的机制,使目标框回归变得更加稳定,不会像IoU和GIoU一样出现训练过程中发散等问题。

(4)

预测框与真实框中间有重叠如图 6所示。图中,b、bg分别代表了预测框和真实框的中心点,且ρ代表的是计算两个中心点间的欧氏距离。c代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离[8]。

图6 DIoU预测框与真实框Fig. 6 DIoU prediction frame and real frame

2.1.3 CIoU Loss损失函数

由于bbox回归三要素中的长宽比还未被考虑到计算中,CIoU公式为

(5)

完整的 CIoU 损失函数定义为

(6)

(7)

式中:α——权重函数;

υ——度量长宽比的相似性。

CIoU比DIoU考虑的更加全面,不仅将目标与anchor之间的距离,重叠率及尺度,均考虑进去,而且也考虑了长宽比,使目标框回归变得更加稳定,对目标的预测更加准确,因此,选择优化更好的CIoU。

2.2 非极大值抑制的优化

在目标检测的后处理过程中,目标框的筛选,需要进行非极大值抑制操作。YOLOv5中采用的是加权NMS操作,文中将加权NMS替换成soft NMS。

soft NMS抑制函数为

(8)

式中:si——预测框得分;

ηiou(M,bi) ——预测框IoU;

Nt——阈值,文中取0.7。

由式(8)选择一个最高分的预测框,当其他预测框的ηiou(M,bi)小于阈值Nt时,si保留;当其他预测框的ηiou(M,bi)大于阈值Nt时,si执行下面的惩罚衰减公式,保留所得的结果作为下一轮的si,最终选出一个得分最高的预测框。soft NMS很好地解决了原NMS存在的当阈值过大造成的误检,即抑制效果不明显的问题。

3 煤矸石图像数据集

煤矸石和煤的样本图像经过筛选之后获得了共10 054张样本图片,其中,煤炭样本5 520张,煤矸石样本4 534张。由于拍摄过程中会出现各种不必要的干扰,使煤矸石图像模糊或偏移。在获取煤矸石图像的过程中,采集的照片容易变形,会对后续图像处理以及还原实际位置坐标造成一定的干扰,因此,需要对图片进行修正,可以使图像特征明显,易于识别[9],常用的图像修正包括仿射变换与透视变换两种,在这里选择仿射变换。

3.1 仿射变换

仿射变换将发生畸变的图片修正为正常图片的二维形式,对仿射变换来说,其变换过程可以表示成原坐标乘以一个矩阵加上向量的形式[10],仿射变换为

(9)

x′=b11x+b12y+b13,

(10)

y′=b21x+b22y+b23,

(11)

式中:x、y——原坐标;

x′、y′——变换后坐标;

b——变换参数。

煤矸石的图片原坐标经过式(10)、(11)后,原来的坐标点(x,y)通过放射变换映射成了(x′,y′)。

3.2 数据集的建立

在获取到煤矸石图像之后,图像的数据量很大,影响整张图像处理效率,因此,需要应用ROI对图像非感兴趣区域进行分割,仅保留图像的感兴趣区域,这样可以减少深度学习网络的检测面积,进而减少检测时间,提高检测效率。

对原始图像进行筛选、样本集扩充、统一图像格式与尺寸及打乱顺序。最后统一命名,其样本图像如图 7所示,其中,c代表煤,cg代表煤矸石,后面的数字表示图像序号,图像统一保存为jpg格式。

图7 煤及煤矸石图像样本Fig. 7 Coal and coal gangue picture samples

建立对应的标签文件,标签文件为txt格式,其将该文件放到指定的date文件夹以作备用。

4 分选实验

实验用YOLOv5的四种网络结构,煤矸石分选测试时需要进行数据增强。Mosaic算法会随机选取4张煤矸石图片,将原始图片按照从左到右逆时针依次排列。在完成数据增强,将4张图片摆放完毕之后,按照矩阵的位置进行截取,然后将其进行拼接操作,拼接之后得到一张新的图片,新的图片上含有拼接之前的原图像的样本类型和位置信息,图像经处理后对煤和矸石进行区分,橘黄色标签显示1代表煤矸石,蓝色标签显示0代表煤,其增强效果如图 8所示。

图8 Mosaic数据增强Fig. 8 Mosaic data enhancement

利用目标检测算法YOLOv5m(CIoU)对煤矸石与煤的图像样本及定位标签文件所组成的数据集进行目标检测实验,选择 PyTorch作为实现煤矸石目标检测的深度学习工具[12],结合COCO数据集的权重文件进行迁移学习。经过10个循环训练而后使用500张煤与煤矸石的图片,包含200张煤矸石图片样进行实测。其数据如表 1所示。

表1 煤矸石试检结果

煤矸石试检结果如图 9所示。其中,4个煤矸石图像经过YOLOv5m(CIoU)目标检测模型后被识别出来,图9a中的橘色框显示煤矸石分类,图9b中橘色框左上角的数字表示煤矸石的识别准确度。4个煤矸石的识别准确度分别为0.9、0.9、1.0、0.9。试检结果表明,优化网络能够达到预期效果。

图9 煤矸石试检结果Fig. 9 Test results of coal gangue

在YOLOv5算法中,αmAP是训练过程中的一个重要指标,用于表示当前深度学习网络的预测精确度,αmAP1表示0.5的预测准确度,αmAP2表示从0.5到0.95的平均预测准确度。检测使用YOLOv5s、YOLOv5s(CIoU)、YOLOv5m、YOLOv5m(CIoU)四种网络,YOLOv5s(CIoU)、YOLOv5m(CIoU)代表优化后的网络,实验的epoch设置为10,表示运行10个循环分别记录4种网络10次循环后的数据,检测结果如图 10所示。

图10 煤矸石检测结果Fig. 10 Test results of coal gangue

由图 10可见,YOLOv5四种测试网络的αmAP1和αmAP2对比曲线。从图10可以看出,YOLOv5s、YOLOv5m网络的检测精度分别为0.877和0.914,而YOLOv5s(CIoU)、YOLOv5m(CIoU)网络的检测精度为0.885和0.923,优化后的2种网络在检测精度上均有提升。由于YOLOv5s与 YOLOv5s(CIoU)的αmAP1曲线在训练过程中变化波动较大,且检测精度较低,说明YOLOv5s对煤矸石分类来说效果一般,而图中YOLOv5m(CIoU)网络训练10个循环后即可稳定在0.92左右的效果,且相对于YOLOv5m在精确度上有提升,达到优化效果,使用YOLOv5m(CIoU)对煤矸石进行目标检测,可保证识别精度,达到预期效果。

5 结 论

(1)YOLOv5s(CIoU)网络的0.885检测精度高于YOLOv5s网络的0.877检测精度,同样,YOLOv5m(CIoU)网络的0.923检测精度高于YOLOv5m网络的0.914检测精度,实现了优化效果。

(2)YOLOv5m(CIoU)深度学习网络对煤矸石的检测精度最高为0.949,煤炭的检测精度为0.897,平均准确率为0.923。在考虑精度的情况下,YOLOv5m(CIoU)网络能够更好完成煤矸石的分选,其可实现煤矸石的目标检测。

猜你喜欢
煤矸石网络结构精度
浅谈煤矸石在固废混凝土中的应用
基于DSPIC33F微处理器的采集精度的提高
电子制作(2018年11期)2018-08-04 03:25:38
煤矸石的综合利用
上海建材(2018年2期)2018-06-26 08:50:56
GPS/GLONASS/BDS组合PPP精度分析
基于互信息的贝叶斯网络结构学习
知识网络结构维对于创新绩效的作用机制——远程创新搜寻的中介作用
管理现代化(2016年3期)2016-02-06 02:04:41
沪港通下A+ H股票网络结构演化的实证分析
管理现代化(2016年3期)2016-02-06 02:04:13
复杂网络结构比对算法研究进展
改进的Goldschmidt双精度浮点除法器
改性煤矸石对污水中油的吸附作用