基于LW-DenseNet的采煤机摇臂齿轮故障诊断

2023-11-21 13:06:50孙晓春牛锐祥

煤炭工程 2023年11期

孙晓春，丁华，牛锐祥，王焱

(1.太原理工大学机械与运载工程学院，山西太原 030024；2.煤矿综采装备山西省重点实验室，山西太原 030024；3.山西太钢不锈钢股份有限公司冷轧硅钢厂，山西太原 030003)

采煤机摇臂是一种齿轮传动系统，其关键零部件极易发生故障，其结果不但会造成经济损失，甚至出现人员伤亡[1]。目前，针对采煤机摇臂故障诊断的研究吸引了众多学者的目光。Zhong G等[3]通过主成分分析法和BP神经网络实现故障分类，解决了采煤设备故障诊断方法噪声敏感性弱、泛化性能差的问题。郝尚清等[4]提出一种盲源分离算法和加速度包络相结合的方法，实现了采煤机摇臂轴承的故障识别。任众等[5]利用粒子群算法优化支持向量机，并通过优化后的支持向量机分类器实时诊断采煤机截割部行星齿轮减速器故障。孙明波等[6]利用经验模态分解算法对采煤机轴承信号分解，并作为选择混合灰狼优化算法优化后的支持向量机的输入，明显提高了采煤机轴承故障识别的精度和效率。Mao Q等[7]提出了优化连续复杂Morlet小波包络解调谱分析与谱分析相结合的方法，实现采煤机测距臂齿轮故障的准确定位。Li Z等[8]提出的变模型分解-频谱回归优化的核费舍尔判别方法实现了采煤机传动系统中齿轮混合故障的检测。上述文献中方法包含复杂的数据处理和信号分析，需要人工选择和提取特征，在处理不同数据时，诊断结果不稳定，诊断效率低下。

深度学习的兴起受到了众多故障诊断领域专家学者的关注，通过自适应特征提取，摆脱了对人工选择和提取特征的依赖，实现了端到端的故障诊断模式[9，10]。卷积神经网络(CNN)是一种经典深度学习模型，能够自适应提取信号深层次特征，显著提高了故障诊断分类精度，且具有的权值共享和稀疏连接优势使其模型参数量大大减小，在旋转机械故障诊断领域已经得到较多关注[11-13]。密集连接卷积网络作为目前最先进的卷积神经网络架构，通过增强特征重用，加强信息流动来增强模型的特征提取能力，进一步提高学习效率[14]。院老虎等[15]利用DenseNet和SVM诊断飞行器关键部件的故障，大幅提高了诊断精度和稳定性。赵志宏等[16]提出的基于一维密集连接卷积网络的轴承故障诊断模型，在凯斯西储大学轴承数据集上和高铁轮对轴承数据集上均取得了较高准确率，证明了模型泛化性。郭如雁等[17]通过在DenseNet中融入注意力机制，提高了模型的特征提取能力。牛锐祥等[18]对DenseNet和ECA注意力机制进行改进，大幅提升模型识别精度。姜家国等[19]将一维故障信号利用GAF转换为二维图像，通过构建DenseNet网络对图像特征进行提取，获得较好的诊断结果。以上对模型的优化方法虽然提高了诊断精度，但导致参数量大幅增加，影响模型在实际中的应用，难以部署到更多移动端与边缘设备上。

针对上述问题，搭建了基于LW-DenseNet的采煤机摇臂齿轮故障诊断模型，利用可分离卷积代替传统卷积减少模型参数，提高诊断效率[20]；通过密集连接机制增强特征传播，加强特征提取能力。

1 基本理论

1.1 卷积神经网络

传统卷积的卷积层通过不断移动卷积核的方式，对输入层对应区域进行卷积运算，从而获得包含局部信息的特征。对于每个卷积核，特征提取可以输出一类特征。具体而言，卷积运算可以被表述为：通过不断滑动大小为DK×DK×N的卷积核，对输入层大小为DF×DF×M的对应区域进行卷积运算。

池化层通常位于卷积层后面，对经过卷积运算的特征进行降采样，以减少特征维度。常见的池化层包括最大池化层和平均池化层，它们分别输出池化区域内所有数值的最大值和平均值，完成降采样和少量特征提取，进一步减少计算量和参数量，提高模型的鲁棒性和泛化能力。

BN层(归一化层)通过引入均值和方差的运算，使数据同分布，更稳定，加快网络训练速度、使模型收敛更快。BN的运算可表示为：

式中，μ为同时输入的一组数值的均值；σ为这组数值的方差；ε为一个极小的数，防止分母为零。

激活函数可以增加模型的非线性表达能力，减小参数间的依存关系，本文使用的Relu激活函数可表示为：

Relu(x)=max(0，x)

(3)

1.2 可分离卷积

可分离卷积是在传统卷积基础上的优化，广泛应用于各种轻量级深度学习模型中。传统卷积如图1(a)所示，由空间卷积和通道卷积组成的可分离卷积如图1(b)所示。可分离卷积首先通过Dk×Dk×1的卷积核完成空间卷积，之后利用1×1×N的卷积核完成通道卷积。

图1 传统卷积与可分离卷积

通过数学计算，比较传统卷积和可分离卷积的参数个数。传统卷积的参数量为：

DKDKMNDFDF

(4)

可分离卷积的参数量为：

DKDKMDFDF+MNDFDF

(5)

在式(4)和(5)中，DF×DF为输入层大小；DK×DK为卷积层大小；M为输入特征通道数；N为卷积核数量。

可分离卷积的参数量与传统卷积的参数量的比例为：

对于相同的输入层和输出层，采用可分离卷积的参数量相比传统卷积小很多，从而减小了模型尺寸。

1.3 密集连接卷积网络

卷积神经网络为了增强特征提取能力，通常会加深网络结构。然而，随着网络加深，梯度弥散现象会越来越明显，导致精度下降或不变。为了解决该问题，提出了密集连接卷积网络。密集连接卷积网络通过密集块和过渡层的交替堆叠完成特征提取任务。密集块中的卷积层两两连接，每一层的输出都与后续所有层的输入相连，实现了特征的全局共享，增强了信息的流动，减缓了梯度弥散现象。过渡层通过卷积和池化操作降低特征维度，从而减少了计算量和参数量。密集块包含3个卷积层的密集连接卷积网络结构如图2所示。

图2 密集连接卷积网络结构

2 基于LW-DenseNet的采煤机摇臂齿轮故障诊断方法

2.1 故障诊断模型

轻量化密集连接卷积网络的优点包含：①有效解决深层神经网络训练时的梯度弥散问题；②极大减小模型尺寸，降低能耗，方便部署到更多移动端与边缘设备；③对采煤机摇臂齿轮故障的诊断精度大幅提高，增强了模型泛化性。

搭建的轻量级密集连接卷积网络模型如图3所示，第1层采用16×16×16，步长为4的大尺度卷积核，增大感受野，抑制噪声。之后通过两个密集块完成主要特征提取，密集块结构如图4所示。每个密集块由3个3×3×32的预激活可分离卷积层组成。经过计算，可分离卷积代替传统卷积可减少75%的参数量，大幅提高了运算效率。然后通过大小为4×4，步长为4的最大池化层降低维度。利用全局平均池化层减少线性层参数，引入Dropout策略，抑制过拟合。最后添加Softmax分类器输出5个概率值，对应5种故障。

图3 轻量级密集连接卷积网络

图4 密集块结构

2.2 故障诊断流程

基于LW-DenseNet的采煤机摇臂齿轮的故障诊断流程包含数据预处理、训练模型、验证模型和测试模型4个部分组成，具体流程如图5所示。

数据预处理阶段包括数据增强和维数转换。数据增强指将原始振动信号通过一定比例的滑动式重叠采样方式进行样本扩充，如图6所示；维数转换形式如图7所示，即对原始样本通过分段逐行堆叠的方式，将一维信号转换成二维信号，得到满足输入要求的维度数据。

图6 数据增强原理

图7 数据维数转换原理

3 实验验证

3.1 数据介绍

利用太重煤机太原矿山机器集团采掘车间的2500 kW采煤机摇臂加载试验台开展了实验，通过对高速区直齿轮的多种状态进行模拟，用加速度传感器采集数据，设置采样频率12 kHz。齿轮每种状态的实物如图8所示。

图8 齿轮正常和故障状态实物

绘制各齿轮状态振动信号波形图，通过对时域信号分析，齿轮五种状态下的振动信号特征具有明显的差异，存在不同程度的冲击振动，有利于后续齿轮故障的分类。

齿轮在每种状态下不同周期的时域特征见表1。

表1 振动信号时域指标表

由表1可得，相同状态下的齿轮在不同周期的时域特征部分存在较大差异，同时，不同状态的齿轮时域特征存在部分的相似性，每种故障状态的特征不明显，若仅靠时域特征对齿轮故障进行识别，难以得到较高的准确率，故选择利用所提出的LW-DenseNet对其进行诊断。

3.2 诊断结果

对采集的五种状态下的振动信号进行样本划分，设置样本容量为40000。以1/8的重叠方式将一维原始振动信号分割成1965个子样本，然后利用维数转换方式将1965个子样本转换成200×200的二维矩阵，具体样本组成信息见表2。构建的LW-DenseNet模型训练采用python软件中的Keras框架。batch size和epochs分别设置为128和100，初始学习率为0.01，50个epochs后衰减为0.001，优化器adam，损失函数采用交叉熵。

表2 样本组成信息

模型训练和验证曲线如图9所示，由图9可得，模型的训练集和验证集准确率均无限接近于1.0，损失值均无限接近于0，表明LW-DenseNet具备较强的自主学习能力。

图9 模型训练和验证准确率曲线图

3.3 模型对比

为验证所提方法的有效性，选择广泛应用于故障诊断领域的经典模型与其进行比较，如深度神经网络(deep neural networks，DNN)、堆叠稀疏自编码器(stack auto encoder，SAE)、LeNet-5(LeCun Net，LeNet)、CNN-7(convolutional neural net，CNN)和 DenseNet模型。DenseNet和CNN-7层数较浅，模型参数量较少，重点验证该模型的轻量化程度，而LeNet-5、SAE和DNN层数较深，模型参数量庞大，重点验证该模型的诊断准确率。

LW-DenseNet对于测试集的混淆矩阵如图10所示，为避免随机性，将上述模型实验重复进行5次取均值，模型大小及平均识别率见表3。

表3 不同模型的尺寸和平均识别率

图10 LW-DenseNet诊断准确率混淆矩阵

相较于其他模型，DNN和SAE模型尺寸极大，分别达到了76.76 MB和231.64 MB，且故障识别率较低，只达到了58.98%和67.14%，其结果是由于模型中多次使用的全连接导致。而LeNet-5模型在准确率和模型大小方面进行了提升，准确率较DNN模型和SAE模型分别提升36.97%和28.81%。相比LeNet-5模型，CNN-7模型在第一卷积层使用了大尺寸大步长的卷积核，在模型浅层开始降低维度，促使模型尺寸减小98%，同时因网络的加深，模型的特征提取能力增强，识别率提高了2.88%。DenseNet模型在CNN-7模型基础上增加了密集连接机制，强调了特征复用，增强了特征提取能力，在模型尺寸基本不变的条件下，识别率提高了0.5%。而所提方法相比DenseNet模型，在识别率基本不变的条件下，模型尺寸减小了77.27%。实验表明，通过密集连接机制可以增强模型的特征提取能力，利用可分离卷积可大幅减少模型的尺寸，并且保持较高的识别率。

3.4 泛化性验证

轻量级密集连接卷积网络对采煤机摇臂尺寸的故障尺寸达到了99.28%的识别率，且模型尺寸仅有0.05 MB，为了进一步验证模型的性能，对其进行了泛化性检验。采用公开的凯斯西储大学轴承驱动端数据集，该数据集包含外圈、内圈和滚动体三种故障部位，每种故障部位又有7mils、14mils和21mils3种损伤直径，加上正常状态，共10种轴承状态。采样频率为12 kHz，负载为2hp。每种轴承状态振动信号包含100000个数据点，10种轴承状态振动信号共计1000000个数据点。样本长度设为1600，以1/4的重叠方式分割成2497个子样本，然后将2497个子样本均逐行堆叠成200×200的二维矩阵。实验过程同“3.2”节，LW-DenseNet对于测试集的混淆矩阵如图11所示，实验结果见表4。

表4 不同模型的尺寸和平均识别率

由表4可得，所提方法相较于其他模型，仍能保持最小的模型尺寸和最高的识别率，证明轻量级密集连接卷积网络有一定的泛化性。

3.5 t-SNE可视化分析

t-SNE技术可对模型每一层特征的输出分类状况利用不同颜色的点进行可视化展示，模型的输入层、卷积层和2个密集块的输出特征如图12所示。其中，图中的横纵坐标分别代表两个不同的维度。

图12 t-SNE可视化

输入层的摇臂齿轮各状态信号分布无规律性。经过第一层卷积，模型的特征提取能力较弱，各状态特征没有明显分类，不同颜色的点依然混杂在一起。当经过第1个密集块后，分类结果有所好转，不同状态之间产生了一定区分度，尤其是齿轮裂纹和断齿两种信号。再经过第2个密集块后，分类结果更加明晰，识别率基本达到100%。通过可视化分析，进一步证明了所提模型具有较强的识别性能。

4 结论

1)搭建了基于轻量级密集连接卷积网络的采煤机摇臂齿轮故障诊断模型，模型通过可分离卷积替代传统卷积，减少了模型参数，方便应用到更多移动端与边缘设备，同时添加密集连接机制增强特征提取。

2)通过采煤机摇臂加载试验台采集数据，该模型仅以0.05 MB的模型大小达到99.28%的识别率，同时在凯斯西储大学轴承数据集上也达到了99.83%的识别率，证明该模型具有较强的泛化性。

3)采取t-SNE技术将模型的输入层、卷积层、2个密集块的输出进行降维可视化，通过对每层分类结果的分析，证明了该模型具有较强的特征提取能力。