基于双注意力生成对抗网络的煤流异物智能检测方法

2024-01-12 11:16曹正远蒋伟方成辉

工矿自动化 2023年12期

曹正远，蒋伟，方成辉

（1. 国家能源集团神东煤炭集团有限责任公司智能技术中心，陕西神木 719300；2. 天地（常州）自动化股份有限公司，江苏常州 213015；3. 中国矿业大学体育学院，江苏徐州 221116）

0 引言

由于煤炭开采环境复杂，在煤炭传输过程中常混入异物，如锚杆、铁丝网、大块矸石等。若带式输送机上异物清理不及时，可能造成输送带转接处阻塞，严重时会发生输送带划伤或撕裂等安全事故[1-2]。目前在原煤运输过程中常采用人眼观测的方式检测异物，耗时耗力且安全风险大。因此，研发一种实时的煤流异物自动检测方法对于保证煤矿安全生产、降低人工成本、提高煤炭开采和运输效率具有重要意义。

随着机器学习技术的发展，一系列基于图像处理的异物检测算法相继被提出[3-5]。此类算法大致可分为基于监督学习和基于半监督学习的算法2 种。传统机器学习为监督学习，基于传统机器学习的目标检测方法模型简单、效率高，但误判率高、泛化性差[6-7]。随着深度学习的发展，部分学者将其用于输送带异物检测。例如，郝帅等[8]提出了基于CBAMYOLOV5 的煤矿输送带大块异物检测方法。基于深度学习的目标检测大多属于监督学习方法，需要大量数据指导模型训练。然而，煤矿带式输送机运输现场异常样本较少，难以满足深度学习对建模数据的需求。

半监督学习是介于监督学习与无监督学习之间的一种学习方式[9]。针对异物检测，部分学者提出一种基于正常样本训练的半监督学习方式，即训练集中仅包含正常样本，测试集中包含异常样本和正常样本。该方式通过学习正常样本的特征分布实现异常检测。例如，T. Schlegl 等[10]提出了运用生成对抗网络（Generative Adversarial Network，GAN）完成异常检测的AnoGAN 算法，用深度卷积生成对抗网络（Deep Convolutional Generative Adversarial Networks，DCGAN）在训练集中学习正常样本的数据分布，该算法需要反复进行迭代优化，效率较低。S. Akcay 等[11]提出了基于GAN 的异常检测算法GANomaly，利用编码器-解码器结构学习正常样本的分布，在比对输入图像及生成图像之间差别的同时，结合2 次编码得到潜在空间差距。但该算法未考虑解码器和编码器的信息损失，精度较低。在此基础上，S. Akcay 等[12]进一步提出了Skip-GANomaly 算法，通过借鉴U-Net模型[13]中的跳跃连接方式，将编码器的特征与解码器同维度的特征进行拼接，进一步减少了编码-解码过程中的信息损失。该方法在CIFAR10 和UBA 等常规图像数据集上表现出优异性能。

然而，在实际输煤现场，包含大块矸石、锚杆、铁丝网等异物的煤流图像与正常煤流图像之间的差异较小[14-15]。若仅对编码器和解码器的中间特征做简单的拼接处理，一些能显著区分正常样本与异常样本的特征可能会丢失，同时在拼接过程中容易造成输入信号的误差传递。人脑在处理视觉信号时，往往通过扫描全局图像获取需要重点关注的目标区域，并在该区域投入更多注意力。计算机视觉中的注意力机制通过对不同特征赋予不同的注意力权重，可从众多信息中提取与当前任务相关的信息[16-17]。针对真实工矿场景下样本极不平衡且显著特征易丢失的问题，本文提出一种基于双注意力生成对抗网络（Dual-Attention Skip-GANomaly， DA-GANomaly）的煤流异物智能检测方法。该方法在模型训练阶段仅需利用正常煤流图像，有效解决了样本不平衡问题；在编码器与解码器特征传递的过程中引入双注意力机制，以抑制无关特征和噪声，同时增强区分异常样本的显著特征表达，进一步提高模型分类的准确性。

1 方法原理

DA-GANomaly 模型主要包括用于生成虚拟图像的生成器和用于判别虚拟图像的判别器。训练数据集仅包含正常煤流图像。输入图像在反复对抗训练过程中不断减少重构图像x′与输入图像之间的误差，使得生成器尽可能拟合正常煤流图像的特征分布。经充分对抗训练后，生成器能够重建更加符合真实样本特征分布的虚拟图像。

在模型测试阶段，测试集包含正常煤流图像与异常煤流图像。对于已经训练完成的模型，当输入正常煤流图像时，生成器输出的重建图像与输入样本之间差距较小；当输入异常煤流图像时，生成器的输出x′与输入图像相差较大。通过选取合适的差异表征函数及合适的阈值即可有效区分正常样本与异常样本。基于DA-GANomaly 的煤流异物智能检测模型如图1 所示。

1.1 生成器

生成器模块主要包含3 个子模块：编码器M1—M6、解码器N1—N6及基于双注意力的特征连接模块。其中，编码器M1—M6用于提取输入的图像特征，包括6 层，每层包含激活函数、卷积层、批量标准化层，通过调整卷积核尺寸与步长进行下采样操作。生成器网络参数见表1。

表1 生成器网络参数Table 1 Generator network parameters

编码器输入x的尺寸为64×64，维度为3，每层的卷积核尺寸为4×4，步长为2。编码器模型采用LeakyReLU 激活函数，其输出特征维度依次为64，128，256，512，512，512，通过每层卷积后，特征图尺寸变为原来尺寸的1/2，经过6 层卷积后得到最终的特征尺寸为1×1，维度为512。解码器主要包含6 层，每层包含激活函数、反卷积层和批量标准化层。解码器模型采用ReLU 激活函数，反卷积层卷积核尺寸为4×4，步长为2，其输出特征维度依次为512，512，256，128，64，3。通过每层反卷积后，特征图尺寸为原来的2 倍，经过6 层反卷积后，得到生成器的输出x′，其尺寸为64×64，维度为3。同时，为了加强模型的特征提取能力，充分利用编码器及解码器中的信息，提高感兴趣区域的权重，抑制无关区域，本文引入了双注意力机制，以融合编码器和解码器的信息。

相关研究表明，经过多次卷积处理后，高层特征具有更多语义信息，而低层特征则具有更多空间结构信息[18]。因此，本文采用一种双注意力机制：对高层解码信息，通过维度注意力提取更多语义信息；对低层编码信息，通过空间注意力提取更多空间形态信息；再将经过2 种注意力机制处理后的特征图相加，得到最终的特征图。双注意力机制如图2 所示。

图2 双注意力机制Fig. 2 Dual attention mechanism

首先，利用空间注意力机制对低层特征进行处理。假设特征图为xl∈(h,w,c)，h，w，c分别为特征图的高、宽和通道数，经过3 个1×1 卷积后得到特征向量B,C,D。其次，对特征向量进行维度变换，使得B,C,D∈(h×w,c)。然后，将特征向量B,C输入到Softmax 激活函数中，得到注意力特征图A。

式中：Aji为A中第i个通道与第j个通道之间的注意力影响，i，j=1, 2, ···,N,i≠j；Bi为特征向量B中的第i个通道值；Cj为特征向量C中的第j个通道值；N为A的通道数。

最后，用注意力特征图乘以特征向量Di并加上低层特征向量xlj，作为空间注意力机制输出T。

式中Tj为T中第j个通道的特征向量。

利用维度注意力模块对高层特征进行处理。与空间注意力机制不同，本文直接利用高层特征得到维度注意力。假设特征图xh∈(h,w,c)，先对特征向量进行维度变换，使得xh∈(h×w,c)，接着通过Softmax函数计算注意力特征图S。

式中Sji为xh中第i个通道xhi与第j个通道xhj之间的注意力影响，Sji∈S。

用S乘以特征向量xhi，得到最终的输出O。

式中Oj为O中第j个通道的特征向量。

将维度注意力机制输出O及空间注意力机制输出T相加，得到最后的输出X：

1.2 判别器

判别器旨在判断图像是真实图像还是重建图像。本文采用类似编码器的模型结构作为判别器，其网络参数见表2。判别器主要包括6 层卷积Q1—Q6及1 层全连接，每层卷积核尺寸为4×4，步长为2，输出维度依次为64，128，256，512，512，100。通过6 层卷积后特征图尺寸调整为1×1×100，然后输入到全连接分类器中得到最终的判断类别。

表2 判别器网络参数Table 2 Discriminator network parameters

1.3 损失函数

本文采用与Skip-GANomaly 相同的损失函数，主要包括对抗损失Ladv、语义损失Lcon及潜在变量损失Llat。对抗损失用于在训练过程中提升判别器判别图像是否为虚拟图像的能力，计算公式为

式中：Ex～p(x)为训练样本的预计期望值，p(x)为样本x的分布；U(x)为判别器输出。

语义损失用于约束重构图像与输入图像之间的误差，计算公式为

式中||·||1为L1 范数。

在上述损失函数基础上添加一个额外损失，用于约束潜在变量的损失。为了最小化重建图像x′与输入图像之间的距离，选取判别器最后一个卷积层的输出作为潜在变量损失，计算公式为

式中：f(·)为判别器最后一层卷积操作；||·||2为L2范数。

整体损失函数为

式中 λ为潜在变量损失的权重系数，本文设置为10。

1.4 异常分数

用异常分数ya作为评价图像中是否含有异物的标准，分数越高，表示包含异物的可能性越大。其计算公式为

式中 λ1为语义损失的权重系数，本文设置为0.5。

对于已训练完成的模型权重，包含异物的煤流图像对应的异常分数与正常煤流图像对应的异常分数差别较大，通过选取合适的阈值即可实现对正常样本和异常样本的分类。

2 实验分析

2.1 实验数据

为获得输送带煤流异物检测数据集，在山东某矿区部署煤流图像采集设备，使用高速夜视相机作为采集摄像头，以60°俯视角度安装固定于输送带上方，采集到的图像数据通过网络上传到数据处理中心。部分异常样本如图3 所示，包括大块矸石、橡胶带、木块等。不同异物形状、大小存在较大差异，且部分异物被煤流遮挡，因此，当采用统一的特征提取算法时，区分难度较大。

图3 部分异常样本Fig. 3 Partial abnormal samples

截取煤矿井下时长为150 h 的视频，选取不同时刻的煤流图像14 707 张，经过人为标定，数据中包含107 张含有异物的图像及14 600 张正常图像。选取正常煤流图像作为训练集，107 张包含异物的异常煤流图像和600 张正常煤流图像作为测试集。数据集划分见表3。

表3 数据集划分Table 3 Dataset partitioning

2.2 评价标准

由于实验数据中正负样本不平衡，相较于接收者操作特征（Receiver Operating Characteristic，ROC）曲线，精确率-召回率曲线下面积（Area Under the Precision Recall Curve，AUPRC）更具有代表性。因此，本文选取AUPRC、召回率R和精确率P作为评价标准[19]。召回率和精确率计算公式为

式中：TP为真正例，即异物煤流图像被预测正确的数量；FN为假反例，即正常煤流图像被预测成异常煤流图像的数量；FP为假正例，即异物煤流图像被预测成正常煤流的数量。

本文实验平台为NVIDIA-2080TI 显卡，采用Pytorch 深度学习框架和Adam 优化器，初始学习率设置为10-4，Batch-Size 大小为64。

2.3 实验结果

为验证本文DA-GANomaly 模型的有效性，选取5 种常见的基于深度学习的异物检测模型进行比较，包括AnoGAN、 EGBAD（Efficient GAN-based Anomaly Detection）[20]、 GANomaly[11]、 ALAD（Adversarially Learned Anomaly Detection）[21]和Skip-GANomaly[12]。实验结果见表4，可见本文DA-GANomaly 模型的精确率、召回率及AUPRC 分别为79.5%，83.2%和85.1%，均优于其他模型。相较于次优的Skip-GANomaly 模型，DA-GANomaly 模型的AUPRC 提升了3%，精确率提升了24.1%，召回率提升了3.8%。

表4 不同模型实验结果对比Table 4 Comparison of experimental results of different models

6 种模型的精确率-召回率曲线（Precision Recall Curve，PRC）如图4 所示。可看出，相较于其他模型，本文所提DA-GANomaly 模型的AUPRC 最大，综合性能表现最优异。

图4 6 种模型的PRCFig. 4 Precision recall curves of 6 models

测试数据集中样本的异常分数分布直方图如图5所示，包含异物的煤流图像对应的异常分数明显高于正常样本，两者分布具有明显差异，表明本文提出的模型能够区分正常煤流图像和包含异物的异常煤流图像。

图5 DA-GANomaly 模型的异常分数分布直方图Fig. 5 Histogram of abnormal fraction distribution of DA-GANomaly model

为进一步验证本文模型的有效性，对另外的4.5 h煤矿现场视频进行识别，结果如图6 所示。

图6 异物识别结果Fig. 6 Foreign object recognition results

人工筛选共发现4 个不同异物，如图6（a）所示。采用表4 中综合表现较好的ALAD、Skip-GANomaly 和本文模型进行异物识别，结果分别如图6（b）-图6（d）所示，其中标注Y 的图像为识别出的异常煤流图像。本文模型检测出3 例异物，而其他模型最多检出2 例。观察发现，上述模型均未检测出图6 中的第4 张异常煤流图像。该煤流表面异物与煤流背景高度相似，区分难度大。而针对第1 张样本图像，仅本文模型识别出了异物。相较于其他模型，本文模型通过引入双注意力机制，进一步突出了异常煤流图像的特征，从而有效提升了异物检测精度。

2.4 模型参数及速度测试

为了验证本文模型的实时性，对模型的计算时间进行了测试，结果见表5。可看出本文模型的单帧计算时间为7.2 ms，每秒可处理138 帧图像，满足在线检测的实时性要求。测试结果验证了本文模型应用于煤流异物实时检测的可行性，然而，目前该模型还未在实际煤矿系统中进行部署，下一步将考虑进行这方面的工作。

表5 模型实时性测试结果Table 5 Real time test results of the model

3 结语

提出了一种基于DA-GANomaly 的煤流异物智能检测方法。为克服实际生产过程中煤流异常样本稀缺导致的样本不平衡问题，采用半监督学习的方式，通过正常样本完成异物检测模型的训练。针对开采环境光线条件恶劣的情况，在生成器中引入双注意力机制，突出有利于区分异常样本的感兴趣特征。实验结果表明，与5 种经典异常检测模型相比，DA-GANomaly 模型的综合性能最佳。需要说明的是，基于图像的异物检测方法受限于视觉传感器的感知范围，目前仅适用于煤流表面异物的智能检测，对于埋在煤流下的异物尚缺乏感知能力。