轴承智能故障诊断

2022-10-12 04:54吴冬梅王福齐李贤功唐润张新建

工矿自动化 2022年9期

吴冬梅，王福齐，李贤功，唐润，张新建

（1. 永城职业学院电子信息工程系，河南永城 476600；2. 中国矿业大学矿业工程学院，江苏徐州 221116；3. 南京财经大学管理科学与工程学院，江苏南京 210023；4. 河南能源化工集团永煤公司陈四楼煤矿，河南永城 476600）

0 引言

目前大多采用信号处理与机器学习相结合的方法对轴承故障进行智能诊断，首先利用信号处理技术对输入信号进行特征提取，然后对提取的特征进行筛选，最后利用分类器进行故障分类[3-4]。文献[5]使用小波包变换提取煤矿主要通风机轴承能量特征，采用深度随机森林进行故障分类。文献[6]分别对原始信号进行经验模态分解和时域分析，得到奇异值和时域特征参数，然后利用主成分分析（Principal Component Analysis，PCA）对奇异值和时域特征参数进行降维处理，获得去除冗余的特征，最后将特征输入到多分类支持向量机（Support Vector Machine，SVM）中进行分类。上述方法在一定条件下能够取得较好的分类效果，但是其特征提取主要依赖专家知识。

深度学习依据标签确定的损失函数能够在训练过程中自适应学习与任务相关的深度特征，不需要依赖领域的先验知识[7]。文献[8]提出了一种基于短时傅里叶变换（Short-time Fourier Transform，STFT）和卷积神经网络（Convolutional Neural Networks，CNN）的轴承故障诊断方法，利用STFT将故障振动信号转换为时频图，将时频图输入CNN得到故障分类结果，实现了轴承故障的智能诊断。文献[9]建立了一维CNN联合分类器模型，在没有任何预先确定转换的情况下直接将原始一维振动信号作为网络输入得到分类结果，并在凯斯西储大学轴承数据集上进行了验证。文献[10]构建了CNN结合残差模块的深度残差网络，并利用采煤机摇臂实验台获得5种状态下的振动信号对模型进行验证，发现模型拥有较好的特征提取能力和故障诊断精度。文献[11]利用格拉姆角场对原始一维振动信号进行转换，得到了保存时间信息的二维图像，并利用密集连接卷积网络进行特征提取和故障诊断。

上述方法均只使用了CNN网络结构，但CNN提取的只是感受野中的空间特征（如振幅的变化），而轴承振动信号作为一种时间序列数据，其时间维度特征在分类中起着关键作用。单独使用CNN进行故障诊断会造成时间维度信息的丢失，导致诊断精度下降。门控循环单元（Gated Recurrent Unit，GRU）具有建模时间维度依赖关系的能力，在许多涉及时间序列数据的任务建模中取得了很好的效果，且在轴承数据集上得到应用[12-13]，双向门控循环单元（Bidirectional Gated Recurrent Unit，Bi GRU）作为GRU的变体可以更好地捕捉过去和未来的信息，能够更加全面地从轴承数据中提取时间特征[14]。

为了从轴承振动信号中提取空间和时间特征，本文提出了一种结合一维CNN、Bi GRU和注意力机制[15]的深度故障诊断模型。首先将一维振动信号作为输入，利用一维CNN和Bi GRU从原始信号中提取故障相关特征。然后由注意力模块动态给予不同时刻特征权重。最后利用Softmax分类器得到诊断结果，实现轴承故障诊断。

1 深度学习理论

1.1 CNN

CNN一般由卷积层、池化层和全连接层组成。卷积层利用卷积核对输入进行卷积运算，从而实现故障特征的提取。池化层紧随卷积层之后，对卷积层提取的特征进行进一步降维。全连接层起到分类作用。卷积过程表示如下：

式中：为第l层输出的第j个通道；g （）为激活函数；m为通道总数；为第l-1层输出的第d个通道；为第l层输出的第j个通道对应的卷积核；为第l层输出的第j个通道对应的偏置。

1.2 GRU

GRU作为循环神经网络（Recurrent Neural Net，RNN）的一种特殊变体，具有较强时间记忆能力，能够获取隐藏的依赖关系。与长短期记忆网络[16]相比，GRU结构更加简单，模型训练时间更短。GRU单元主要由重置门和更新门共同控制细胞的状态，如图1所示，其中，σ为sigmoid激活函数，Tanh为tanh函数。GRU的各个单元共享权重，能减少参数数量。从GRU单元首先将t-1 时刻的隐藏状态ht-1和t时刻特征xt结合并分别输入到重置门和更新门，从而得到重置门的输出rt和更新门的输出zt。其中更新门和重置门都拥有sigmoid激活函数，这使得zt和rt的值限制在0到1之间。接着将rt，xt和ht-1结合输入到以tanh为激活函数的全连接层中，得到t时刻的候选隐藏状态，最后重置门的输出zt分别与ht-1和相乘进行状态信息更新和丢弃，从而得到t时刻的隐藏状态ht。

多年来，两大流派的研究呈现此消彼长的态势。从2001年理论创始到2012年之间，工作重塑理论处于建构和摸索阶段。创始人的理论文章及其追随者的研究都基于“工作意义”视角，以叙事访谈和案例研究为主。自2012年出现了Tims等和Petrou开发的工作重塑量表后，定量研究得以推广，实证研究逐渐转向“人岗匹配”视角，关注对组织管理者的作用和意义。虽然这种趋势让该理论逐渐成为组织行为学研究领域的新热点，但针对员工工作重塑动机、认知重塑行为、工作重塑与工作意义的相关研究却很有限，理论自创立以来的创造性进展和系统性完善始终缓慢。

图1 GRU单元Fig. 1 GRU unit

Bi GRU由前向GRU和后向GRU构成，能够同时考虑过去和未来的时间状态，通过获得2个时间序列相反的隐藏状态，将隐藏状态连接得到同1个输出。因此，Bi GRU在处理时间序列数据时能够更好地掌握完整信息，Bi GRU结构如图2所示。

图2 Bi GRU结构Fig. 2 Bi GRU structure

1.3 注意力机制

注意力机制类似于人类视觉注意力工作机制，它会有意识地从各种复杂多样的故障信息中获得与分类任务相关的重要信息。注意力结构构造如下：

式中：st为t时刻特征经过全连接层的输出；W和b分别为全连接层的权重和偏置；αt为t时刻隐藏状态的权重；n为时间步长；o为加权融合后的特征。

注意力机制结构如图3所示。可看出每个时刻的隐藏状态经过全连接层和Softmax激活函数后输出对应时刻权重，它代表对每个时刻隐藏状态的关注度，通过给予每个时刻特征不同的关注度能够进一步增强故障特征。

图3 注意力机制结构Fig. 3 Attention mechanism structure

2 故障诊断模型

结合CNN、Bi GRU和注意力机制的深度故障诊断模型结构如图4所示。将一维原始信号输入至2个交替连接的卷积层和池化层，其中第1个卷积层使用较大卷积核，以获得较大感受野，第2个卷积层使用较小卷积核，尽可能全面捕捉局部特征，选用2个最大池化层对特征进行降维。将提取的特征作为Bi GRU的输入，利用多个GRU单元来引入时间维度信息，从而捕获特征中时间依赖性。利用注意力机制对Bi GRU输出的多个时刻特征进行加权融合，利用全连接层和Softmax函数完成最后的分类。

图4 故障诊断模型结构Fig. 4 Fault diagnosis model structure

故障诊断模型的具体参数见表1，其中卷积层的填充都基于same的方式实现。

表1 故障诊断模型结构参数Table 1 Parameters of the fault diagnosis model structure

结合CNN、Bi GRU和注意力机制的深度故障诊断模型诊断流程如图5所示。首先，对多种状态下的数据信号进行归一化处理，并将归一化后的数据切割成固定长度的段，得到预处理后的数据样本，将整个样本划分成为训练集和测试集。其次，将训练集数据经过CNN特征提取、Bi GRU融合特征和注意力特征加权得到最终的特征，通过Softmax故障分类得到分类结果。然后，经由梯度反向传播训练模型，得到最终训练后的模型。最后，将测试集输入训练完成的模型中，得到故障诊断结果，并由诊断结果得到评价指标，如准确率。

图5 故障诊断流程Fig. 5 Fault diagnosis process

3 实例分析

3.1 实验数据采集

本文使用凯斯西储大学提供的轴承公开数据集进行实验验证。轴承为驱动端轴承，采样频率为12 kHz，在0，0.75，1.5，2.25 kW 4种不同电动机负载下采集实验轴承数据，对应转速分别为1 797，1 772，1 750，1 730 r/min。选取0 负载、转速为1 797 r/min的轴承数据训练模型，其余工况数据被用来验证模型在变工况诊断的泛化能力。该轴承数据包括正常状态、内圈故障、滚动体故障和外圈故障4种状态的轴承振动信号，其中每种故障下又包含3种不同损伤程度，共计10种运行状态。将各运行状态下采集到的轴承数据进行归一化处理，并采用重叠采样方式对归一化后的数据进行分段处理，每段样本振动信号包含2 048个数据点，轴承每种运行状态包含500个样本，数据集总计5 000个样本，使用独热码编码技术对样本数据进行标签化处理，同一标签下随机选择样本并划分训练集和测试集，构成最终数据集，具体描述见表2。

表2 实验样本划分Table 2 Experimental sample division

3.2 实验结果及分析

实验环境为i7-7500U CPU（双核 3.50 GHZ）、英伟达GEFORCE 940MX、python3.8、Pytorch1.2。采用Adam优化器对模型进行训练，设学习率为0.001，批尺寸为64，迭代次数为100。测试集每次迭代的准确率和损失曲线如图6所示。可看出在迭代40次后达到最优结果，拥有较小损失和较高的诊断精度。

图6 准确率和损失曲线Fig. 6 Accuracy and loss curves

测试集得到的混淆矩阵如图7所示。可看出各种运行状态基本都分类正确，只有L0，L2，L4，L5没有被完全分类正确，但是召回率（在实际为正的样本中被预测为正样本的概率）也都达到了95%以上，只有几个样本被分错。总的故障识别准确率为99.3%，这表明模型能够很好地识别出每种状态下的轴承。

图7 混淆矩阵Fig. 7 Confusion matrix

为验证模型的特征提取能力，将测试集输入到训练好的模型中，使用t-SNE技术[17]对注意力层的输出进行降维处理，并将其分别映射为三维空间和二维空间进行可视化，如图8所示。可看出10种运行状态的数据分别在二维和三维空间的各自区域内聚集，只有L0，L2，L4，L5等有非常少的混杂。这说明本文模型可有效地对轴承不同运行状态的特征进行提取，具有较强的特征提取能力。

图8 t-SNE降维可视化图Fig. 8 t-SNE dimension reduction visualization

为进一步验证模型的诊断优势，选取0负载下的数据集，将本文模型与SVM（利用经过PCA处理后的时域特征和基于包络谱和倒频谱的频域特征训练的）、一维CNN、Bi GRU和具有注意力机制的CNN进行比较。为降低其他因素干扰，随机进行5次训练集和测试集的划分，在每次划分情况下进行多个模型的对比实验。将5次实验的故障诊断结果作为分析指标。5种模型的测试集准确率见表3。

表3 5种故障诊断模型的准确率对比Table 3 Accuracy comparison of five kinds of fault diagnosis models

从表3可看出，利用人工提取特征进行训练的SVM模型平均准确率最低，只有90.3%，这是因为人为地挖掘特征难以保证得到具有丰富故障信息的特征。一维CNN和Bi GRU模型的平均准确率相差不大。注意力机制CNN模型的平均准确率能够达到99.0%，这是因为具有注意机制的CNN能够动态给予特征不同的权重，更加有效地关注与故障模式相关的重点特征，忽略无关特征，因此拥有较高的准确率。本文模型准确率较一维CNN、Bi GRU和注意力CNN模型平均准确率分别提高了0.8%，0.6%和0.3%，能够更加准确地实现轴承的故障诊断。这是因为本文模型既具有一维CNN局部特征提取能力，又具有Bi GRU时间依赖信息的建模能力，能够在获取轴承信号局部复杂特征后进一步融入特征之间时间维度信息，这些信息是分类特征的关键。同时其具备的注意力机制能进一步关注与故障更相关的特征，因此具有最高的精度。

实际情况下的轴承经常运行在变负载环境中，为了验证模型的泛化能力，选取0负载下轴承数据训练的模型，利用0.75，1.5，2.25 kW的轴承数据来验证测试。与0负载下的测试样本一致，其余负载各选取1 000个样本作为测试集，诊断结果如图9所示。

从图9可看出，以上模型随着负载的增加，诊断准确率不断下降。SVM模型准确率最低，当负载为2.25 kW时，准确率仅为65%。因此该模型并不适应于变工况下的故障诊断。本文模型具有更好的稳定性，当负载为2.25 kW时，准确率达85%以上。

图9 变负载准确率Fig. 9 Accuracy under variable load

4 结论

（1）利用一维卷积神经网络和Bi GRU联合提取特征，在获得CNN提取的局部故障特征后，利用Bi GRU和注意力机制在特征中融入时间依赖性信息并动态给予特征不同权重。模型训练过程稳定，在迭代40次后达到最优结果，拥有较小损失和较高的诊断精度。

（2）在测试集混淆矩阵上，总的故障识别准确率为99.3%，表明模型能够很好地识别出每种运行状态下的轴承状态。

（3）利用t-SNE技术对降维处理后的数据进行可视化，轴承各运行状态的数据能很好地聚集在各自的空间内，只有少量数据被混杂到其他区域，说明基于一维CNN、Bi GRU和注意力机制的轴承故障诊断模型可有效地对轴承不同状态的特征进行提取，具有较强的特征提取能力。

（4）在恒定负载情况下，基于一维CNN、Bi GRU和注意力机制的轴承故障诊断模型的故障分类平均准确率达99%以上，在变负载情况下，故障分类准确率达85%以上，较传统的深度学习模型拥有良好的诊断精度。

（5）由于实际的矿用轴承数据大多缺少标签，难以利用，因此文中选择实验模拟轴承数据进行模型验证。未来将在此基础上结合半监督方式开发一种适用于拥有大量无标签轴承数据的故障诊断方法，以更好贴近实际。