融合改进YOLOv3与三次样条插值的煤岩界面识别方法

2022-01-22 09:57孙传猛王燕平许瑞嘉李新娥

采矿与岩层控制工程学报 2022年1期

孙传猛，王燕平，王冲，许瑞嘉，李新娥

(1.中北大学电子测试技术重点实验室，山西太原 030051；2.中北大学电气与控制工程学院，山西太原 030051)

智能化和无人化开采是煤矿井下生产的必然趋势[1-3]，也是我国煤矿企业当前重要的发展方向[4-5]。智能化、无人化开采的关键在于提高工作面机电装备的智能化水平，而最大的共性难题就是煤岩界面的自动识别。不论是采煤机滚筒的高度自动调节，还是液压支架顶部支护自动调整，均依赖于对煤层和岩层空间位置的精准定位[6-7]。可见，深入研究煤岩界面自动识别技术对煤矿井下智能化、无人化开采具有重要的理论意义和应用价值。

近年来，以煤岩图像(颜色、纹理和形状等)特征描述子配合传统机器学习分类器的主动特征提取煤岩界面的识别方法受到了关注。然而，由于井下环境恶劣，煤岩图像成像质量普遍不高[8-10]，煤岩界面图像具有对比度低、照度低、振动模糊、噪声干扰严重等特点，导致煤岩特征描述子设计难度较大，甚至部分特征需要手动提取；同时，基于传统机器学习算法的分类器分类效率较低，导致识别过程耗时长，且准确率有待提高。主动特征提取煤岩界面识别发展不够理想。

自2012年以来，深度学习[11]在图像处理领域，以卓越的性能大放异彩，出现了R-CNN(Regions with CNN Features)，SPP-Net(Spatial Pyramid Pooling Networks)，Fast R-CNN，Faster R-CNN，RFCN(Region Based Fully Convolutional Networks)，YOLO(You Only Look Once)，SSD(Single Shot Multibox Detector)，FPN(Feature Pyramid Networks)，RetinaNet，RefineDet等各具性能的目标检测算法[12]。随着深层神经网络技术的发展，深度学习开始被引入煤岩智能识别研究中。深度学习是对图像特征由低层到高层的逐步抽象和概念化过程，是一种自主学习的识别方法，相比主动特征提取煤岩界面识别方法，其更加便捷，且可以学习到人眼观察不到的高阶特征信息，利于煤岩智能识别精度的提高。

章华[13]等设计了包含2个卷积层、2个下采样层和1个完全连接层的卷积神经网络对煤岩识别做了初步研究；华同兴[14]等采用Faster R-CNN方法实现了煤岩图像中煤层和岩层的识别和定位；张斌[15]等将基于回归方程的深度学习目标检测算法YOLOv2与线性成像模型相结合，并通过该算法对井下采集煤岩图像进行了智能识别与定位，识别成功率为78%；熊祥祥[16]、司垒[17-18]等提出了基于深度卷积神经网络(CNN)和基于改进U-Net网络模型的煤岩图像识别方法；王星[19]等针对煤岩图像数据短缺的问题提出解决方法并增加数据量，基于在单张图像上训练的生成式对抗网络提出Var-Con Sin GAN模型并构建样本生成与特征迁移框架。笔者近年来也建立了煤岩图像数据集，开展了基于改进二值局部特征与深层聚合网络融合的煤岩智能识别模型研究。

目前，基于深度学习的煤岩界面识别研究处于起步阶段，尚存在一些不足，这也是该类方法不可回避的关键问题，主要有：① 深度学习目标检测算法各模型均十分庞大，训练和预测时对机器的性能要求都非常高，通常需要使用高性能的GPU甚至TPU进行并行计算，这导致在实际应用时因其只有非常有限的存储资源和计算能力，而满足不了实时性的要求；② 已有的深度学习目标检测算法主要针对离散对象，算法通常通过统计True Positive(TP)、True Negative(TN)，False Positive(FP)，False Negative(FN)等样本数目，进而构建准确率(Accuracy)、精确率(Precision)、召回率(Recall)等评测指标来评估算法性能。然而，煤岩界面在图像中常常是连续的、贯穿的，导致上述样本数目无法统计，进而使传统目标检测评测指标无法准确评价煤岩界面识别算法的准确性能；③ 已有的深度学习目标检测算法多利用检测框进行分类和定位，如何利用目标检测算法的检测框获得接近真实的煤岩界面曲线鲜见报道。

鉴于此，笔者引入兼具检测精度与速度的深度学习目标检测算法YOLOv3对煤岩界面识别展开研究。首先，利用深度可分离卷积改进YOLOv3算法，实现界面识别精度和效率的有效提升；然后，针对煤岩界面连续、贯穿的特点，建立了全新的煤岩界面准确性评测指标；最后，融合三次样条插值算法，实现煤岩界面曲线的准确提取。

1 融合改进YOLOv3与三次样条插值的煤岩界面识别方法

1.1 YOLOv3算法

YOLOv3[20]算法采用Darknet-53网络提取特征，采用特征金字塔预测网络预测结果。Darknet-53网络又通过全卷积层和残差结构获取图像特征，结构如图1所示。

图1 YOLOv3模型特征提取网络模型结构Fig.1 YOLOv3 model feature extraction network model structure

该结构由一系列的1×1和3×3的卷积层组成，每个卷积层后都会跟1个BN层和1个LeakyReLU层(图1(b))。Darknet-53还使用了ResNet跳层连接方式(图1(c))，保证网络结构在很深的情况下仍能收敛，使模型能训练下去；同时，网络越深，表达的特征越好，分类与检测的效果均会提升。特征金字塔预测网络则将低分辨率特征图采样，并与Darknet-53 网络中的特征图拼接，从而获得高分辨率特征图，使各种尺度的特征图均融合了不同分辨率、不同语义强度的特征[21]。在公开数据集VOC2007上对Fast R-CNN，Faster R-CNN，SSD，YOLO，YOLOv2，YOLOv3进行测试(表1)表明，YOLOv3在MAP Mean Average Precision)和(FPS(Frames Per Second) 指标上均具有良好的性能，兼具检测精度与速度[22-24]。

表1 常见的目标检测算法性能比较Table 1 Performance comparison of common target detection algorithms

1.2 改进的YOLOv3网络模型

在深度学习中，卷积层通常起到的作用有：① 对上一层的特征图进行尺寸调整；② 对上一层的特征图数量(通道数)进行调整。常规卷积层连接的上一层一般具有多个通道(设为n)。因此，卷积运算时，1个滤波器(Filter)必须具有n个卷积核(Kernel)与之对应。1个滤波器完成1次卷积，实际上是多个卷积核与上一层对应通道的特征图进行卷积后再进行相加，从而输出下一层的一个通道特征图。在下一层中，若需要得到多个通道的特征图(设为m)，那么对应的滤波器就需要m个(图2)。可见，常规卷积层包含大量的训练参数。

图2 卷积操作Fig.2 Convolution operation

由图1可知，YOLOv3包含5次下采样过程，共有53层全卷积层，其参数量庞大，计算量巨大，导致YOLOv3训练和预测时对机器的性能要求都非常高，需要使用高性能的GPU进行并行计算。在采煤和掘进工作面现场，工作条件恶劣，粉尘、噪声、振动等干扰严重。在实验室环境下的高性能机器迁移到采掘工作面现场，其性能将受到极大制约，甚至失效。为降低识别算法对高性能机器的依赖性，提高算法的普适性，需对原YOLOv3网络模型进行改进，大幅降低模型参数量，提高训练和预测速度。

鉴于此，笔者提出利用深度可分离卷积[25]替换ResNet模块中的卷积操作，改进原YOLOv3算法，从而降低模型训练参数，提高模型的识别能力，加快网络训练速度。深度可分离卷积将来自上一层的多通道特征图全部拆分为单个通道的特征图，并分别对其进行单通道卷积，然后重新堆叠到一起。这一过程称为逐通道卷积(Depthwise Convolution)，如图3所示。逐通道卷积只对来自上一层的特征图做尺寸的调整，而通道数未发生变化。然后，利用1×1大小的卷积核对上一步特征图进行第2次卷积，在深度方向上进行加权组合，生成新的特征图。这一过程称为逐点卷积(Pointwise Convolution)，如图4所示。深度可分离卷积相比常规卷积操作，有助于参数数量的下降，对网络的轻量化有益。改进的YOLOv3模型特征提取网络如图5所示。

图3 逐通道卷积操作Fig.3 Depthwise convolution operation

图4 逐点卷积操作Fig.4 Pointwise convolution operation

图5 改进的YOLOv3模型特征提取网络模型结构Fig.5 Improved YOLOv3 model feature extraction network model structure

设原YOLOv3算法中卷积层输入为3通道图像，卷积层共有N个Filter，每个Filter包含了k个Kernel(为匹配通道数，k=3)，每个Kernel的大小为3×3。因此，卷积层的参数数量Nstd为

采用深度可分离卷积操作，逐通道卷积的1个卷积核负责1个通道，1个通道只被1个卷积核卷积。所以，1个3通道的图像经过运算后生成3个特征图。其中，1个Filter只包含1个大小为3×3的Kernel，卷积部分的参数个数NDW为

逐通道卷积对输入层的每个通道独立进行卷积运算，没有有效地利用不同通道在相同空间位置上的特征信息，完成后的特征图数量与输入层的通道数相同，无法扩展原特征图。

逐点卷积的卷积核尺寸为1×1×M，M为上一层的通道数。该操作将上一步的特征图在深度方向上进行加权组合，生成新的特征图。共设N个Filter，以使输出维度与常规卷积的相同。由于采用的是1×1卷积的方式，逐点卷积涉及到的参数个数NPW为

故，改进的YOLOv3算法的卷积层参数数量NSC为

对比式(1)和(4)可知，改进的卷积操作比原操作参数量降幅巨大，在N值较大(N=9000)时，降低量接近88.9%。显然，改进的YOLOv3算法参数规模得到了很好地改善，相应的训练和预测速度也得到了提升。

1.3 煤岩界面识别准确性评测指标

对常规对象(图6)进行目标检测时，该对象是离散、可数的，一般通过统计TP(被模型预测为正的正样本数)、TN(被模型预测为负的负样本数)、FP(被模型预测为正的负样本数)、FN(被模型预测为负的正样本数)等，进而构建混淆矩阵定义正确率、准确率、召回率等性能指标评测各算法性能。而煤岩界面是连续的、贯穿的和不可数的(图7)，无法通过统计各样本数来评价算法性能。显然，需要结合煤岩界面特性，建立评价煤岩界面识别算法性能的评测指标。

图6 典型目标检测对象Fig.6 Typical target detection object

图7 煤岩界面检测对象Fig.7 Coal-rock interface detection object

针对煤岩界面连续、贯穿的特点，本文提出以预测框在x和y方向的总投影长度占煤岩界面曲线投影总长度的比值作为目标检测准确性评价标准。如图8所示，设红色框为煤岩界面识别算法给出的预测框，紫色框为煤岩界面曲线的最小外接矩形，各矩形框坐标均显示在图上。显然，煤岩界面曲线在x和y方向的总投影长sx，sy分别为

图8 煤岩界面预测框Fig.8 Coal-rock interface prediction frame

预测框在x和y方向投影按如下步骤计算：

(1) 找出最靠近图像左上角的预测框，记该预测框为A1，坐标为((x1min，y1min)，(x1max，y1max))；

(2) 找出与A1有重叠区域的预测框，设其中最靠近左上角的预测框为A2，坐标为((x2min，y2min)，(x2max，y2max))，则将A1与A2融合为新的预测框，新预测框坐标为((x1min，y1min)，(x2max，y2max))；

(3) 继续寻找与新预测框重叠的其他预测框，并按步骤(2)融合，直至无预测框与最新融合预测框重叠为止。此时，记融合预测框为AR1，坐标为((rx1min，ry1min)，(rx1max，ry1max))，其在x和y方向的投影分别为rx1max-rx1min和ry1max-ry1min。

(4) 在未遍历的预测框中，找出最靠近图像左上角的预测框，重复步骤(1)～(3)，直至遍历完所有预测框。设最终融合预测框个数为Z，第z(z=1，…，Z)个融合预测框坐标为((rxzmin，ryzmin)，(rxzmax，ryzmax))，则预测框在x和y方向投影长度分别为

式中，rx，ry分别为预测框在x和y方向的投影长度。

则，定义x方向煤岩界面识别准确性评测指标xa为

同理，定义y方向煤岩界面识别准确性评测指标ya为

1.4 融合改进YOLOv3与三次样条插值的煤岩界面识别方法

显然，上述识别的预测框离真实煤岩界面曲线还有差距，需要对结果进一步处理。

三次样条曲线[26]线形光滑，具有较好的保形功能，拟合精度由采样点间距决定。改进的YOLOv3煤岩界面识别效果好，其预测框中点正好落于煤岩真实界面上，而预测框间通常有重叠，预测框中点间距小。因此，本文利用三次样条插值法从改进的YOLOv3识别结果中提取真实的煤岩界面曲线。具体步骤如下：

(1) 设预测框总数为L，第l个预测框坐标为((xlmin，ylmin)，(xlmax，ylmax))。则，第l个预测框中点坐标(lXM，lYM)为

(2) 对上述L个数据点，计算样条曲线系数，建立样条函数在各中心点区间的表达式，得到拟合曲线。

2 试验结果及分析

2.1 试验环境

主要硬件环境：Intel Corei5-4590k CPU，8GB内存，Nvidia Quadro P40008GB GPU。软件环境：操作系统为64位的Window10，开发环境为Pycharm 2020，开发语言为Python3.6.0，配置环境为Tensrflow1.14.0。

2.2 试验过程

(1) 构建煤岩图像数据集。该数据集主要来源于重庆南川南平煤矿、重万盛龙叫煤矿等井下工作面，煤质为焦煤。为提高模型的泛化能力，从互联网上搜集、整理了部分煤岩图像作为补充。数据集建立流程如图9所示。由于井下环境恶劣，煤岩图像常含有噪声，考虑到不能模糊细节造成特征信息丢失，选用中值滤波预处理，中值滤波原理如图10所示。

图9 煤岩图像数据集建立流程Fig.9 Establishment process of coal rock image data set

图10 中值滤波处理过程Fig.10 Median filtering process

(2) 配置模型参数和训练参数。主要包括迭代步数、学习率、先验框尺寸的设置。输入图片的尺寸416×416，Batch配置为6。学习率可以设置得小一些，为0.001。训练步数设置为10000。Class为类别，设置为1。由于Class为1，因此每个YOLO层的前一层卷积通道数设置为(5+1)×3=18，共需设置3次。另外通过k-means算法配置先验框(Anchor)参数进行设置，经过多轮计算，最终得到9个聚类中心，分别为[30，148]，[35，66]，[39，33]，[51，96]，[54，42]，[62，27]，[70，62]，[105，30]，[204，43]，准确率为73.52%。

(3) 预设模型参数和训练参数后，将准备好的煤岩图像数据集分别输入到原YOLOv3算法模型和改进的YOLOv3算法模型中进行训练。训练中可采用多种方法优化训练过程，并通过不断调整模型的架构，重新设置算法参数等方式，最终获得最优的煤岩识别模型，并通过测试集验证其识别性能。

(4) 对生成预测框，按1.4节方法处理，获得真实的煤岩界面曲线。作为对比，还利用分段三次Hermite插值方法进行了煤岩界面曲线提取。

2.3 试验结果

(1) 改进的YOLOv3模型较原模型，性能得到全面提升，可有效识别煤岩界面区域。

图11为典型的识别结果，红色框即为煤岩界面区域，可见采用改进的YOLOv3模型可以有效识别煤岩界面区域。

图11 煤岩界面识别的部分结果Fig.11 Some results of coal-rock interface identification

对比原YOLOv3模型和改进的模型参数规模，采用传统卷积的训练参数为61576342，而采用深度可分离卷积的训练参数为12162673。可见，改进YOLOv3的训练参数规模减少约80%。

为进一步说明改进模型性能，对同一张煤岩图片进行测试，结果如图12所示。可见，改进的模型对煤岩界面区域识别能力更强。同时，原模型预测时间为2.7026363 s，而改进的模型预测时间为2.5763096 s，测试时间减少了约5%。可见，改进的模型在提高识别准确性的同时，也加快了测试速度。

图12 改进的YOLOv3模型与原模型识别效果对比Fig.12 Comparison of recognition effect between improved YOLOv3 model and original model

由于传统的正确率、准确率、召回率等性能指标对连续、不可数目标失效，利用前述提出的煤岩界面识别准确性评测指标对改进模型的识别准确性进行定量评判。表2为测试集中200张图像的煤岩界面识别结果统计情况，测试集的煤岩图像取自重庆南川南平煤矿、重万盛龙叫煤矿，煤质为焦煤。分析表2可知，改进的YOLOv3模型在x方向上识别准确率为89.89%，较原模型的84.04%提高了5.85%；在y方向上识别准确率为73.30%，较原模型的56.31%提高了16.99%。结果表明，提出的煤岩界面识别准确性评测指标可有效用于连续、不可数的煤岩界面识别；改进的YOLOv3模型在准确性上较原模型性能提升明显。

表2 煤岩界面识别结果统计Table 2 Statistics of coal-rock interface identification results

(2) 融合改进的YOLOv3与三次样条插值的煤岩界面识别方法可有效提取真实的煤岩界面曲线。

对上述识别结果进行进一步的处理，获得真实的煤岩界面曲线。

图13为选用三次样条插值和分段三次Hermite插值进行标注框中点拟合的效果。其中，绿色的虚线代表三次样条插值拟合结果，紫色实线代表分段三次Hermite插值拟合结果。

图13 煤岩界面提取效果Fig.13 Extraction effect of coal-rock interface

分析图13中的煤岩界面提取效果，当预测框较充分时，三次样条插值与分段三次Hermite插值的提取效果相差不大，如图13(a)，(b)所示；当预测框不够充分时，三次样条插值较分段三次Hermite插值的提取效果好，如图13(c)，(d)所示。

进一步利用测试集分析上述提取方法，结果如图14所示，蓝色实线为真实的煤岩界面，绿色和紫色同图13。为进一步分析提取效果，统计提取值与真实值的差异，其中图14(a)统计结果见表3，图14(b)统计结果见表4。由表3，4可知，本文提出的融合改进YOLOv3与三次样条插值的煤岩界面识别方法可有效提取真实的煤岩界面，所提取的煤岩界面与真实界面相比，误差控制在4.1%以内。

表3 图14(a)提取值与真实值差异统计结果Table 3 Fig.14(a) statistical results of difference between extracted and real values

表4 图14(b)提取值与真实值差异统计结果Table 4 Fig.14(b) statistical results of difference between extracted and real values

图14 真实煤岩界面曲线提取效果测试Fig.14 Extraction effect test of real coal-rock interface curve

3 结论

(1) 针对煤岩界面连续、贯穿的特点，建立了全新煤岩界面识别准确性评测指标。在后续识别试验中，新构建的评测指标对于连续、不可数的煤岩界面对象的识别效果起到重要的评测作用。

(2) 利用深度可分离卷积改进YOLOv3算法，实现煤岩界面识别准确性和效率的有效提升。其中，参数规模减少了约80%，测试时间减少了约5%；在x和y方向上的准确率分别提高了5.85%和16.99%。

(3) 融合改进的YOLOv3与三次样条插值的煤岩界面识别方法，获得了接近真实的煤岩界面曲线，误差控制在4.1%以内。