基于DRSN-CW 和LSTM 的轴承故障诊断

2022-12-04 07:40孙志成陈端兵蒋家玮

电子科技大学学报 2022年6期

王磊，孙志成，王磊，陈端兵,3*，蒋家玮

(1. 中国人民解放军63861 部队吉林 137001；2. 成都数之联科技股份有限公司成都 610041；3. 电子科技大学大数据研究中心成都 611731)

滚动轴承是现代机械设备中广泛应用的零部件之一，它依靠主要元件间的滚动接触来支撑机械设备的运行，在飞机、风力涡轮机、铁路轴和发电机等多个行业中应用广泛。这些机器系统在某些不利条件下运行时，一个微小的故障就可能导致一连串的电机损坏，具有维护成本高、经济损失严重和安全隐患重大等问题[1-4]。特别地，在高速、重载、极端工作温度和污染等严酷环境下，机械系统中的轴承很容易发生故障。因此，轴承的故障诊断在系统运行过程中至关重要。

轴承故障诊断的一个重要手段是利用轴承的振动信号进行检测。基于轴承振动信号的故障诊断一般分为两个阶段：特征提取和分类[5]。传统机器学习的特征大致可分为3 种不同类型：时域(timedomain)[6]、频域(frequency-domain)[7]和时频域(time-frequency-domain)[8]。由于信号的时域特征较为简单，不能准确表示轴承所有的故障信息。因此，需要将时域信息转化为表达更丰富的频域或时频域信息，如振幅谱[9]、功率谱[10]、傅里叶变换[11]和经验模式分解[12]等。然而，并非所有的特征都对诊断有用，许多特征不仅会增加计算复杂度，而且会降低故障分类的准确性。因此，需要利用特征降维技术，从高维特征中选择合适的特征，只将这些相关的特征输入分类器对信号进行分类。

在传统的轴承故障诊断过程中，信号特征的提取相当耗时，并且强依赖于专业的信号处理知识。随着深度学习的发展，相继提出了基于深度神经网络学习的轴承故障诊断方法。文献[13]在对原始数据进行离散傅里叶变换后，利用卷积神经网络(convolutional neural network, CNN)自动提取用于轴承故障诊断的特征。文献[5,14-17]针对CNN进行改进，尝试在世界公认的轴承故障诊断标准数据[18]-凯斯西储大学(Case Western Reserve University,CWRU)数据集[19]上提升故障诊断效果。为了考虑信号的时序信息，文献[20]结合长短期记忆(long short-term memory, LSTM)模型，提出了一种含有3 个LSTM 模块的分层深度学习轴承故障诊断算法。之后，文献[21]利用CNN 分别提取信号的高频信息和低频信息，提出了MCNN-LSTM 模型。特别地，由于ResNet-50[22]在图像领域能提取高质量的图像特征，文献[23]将时域故障信号转换为RGB 图像格式作为输入，提出了TCNN(ResNet-50)模型。

然而，轴承振动信号是由放置在设备上的传感器所收集，收集到的信号中往往包含大量噪音。在噪声的干扰下，卷积核学习到的深层特征往往判别性不足，不能准确地进行故障分类。因此，在上述端到端的深度学习故障诊断算法中，诊断前需要进行信号去噪。在传统的信号去噪算法中通常采用软阈值法处理，如小波阈值法，它由3 个步骤组成：小波分解、软阈值和小波重构。为了保证信号去噪的性能，小波阈值法的一个关键任务是设计一个滤波器，将噪声信息转换为接近零的特征。然而，设计这样一个滤波器通常很难设置合适的阈值。将软阈值和深度学习相结合是消除噪声、构造高分辨特征的新途径。针对这一问题，文献[24]设计了两种深度残差收缩网络(deep residual shrinkage networks，DRSN)：通道共享阈值残差收缩模块(residual shrinkage building unit with channel-shared thresholds,RSBU-CS) 与逐通道不同阈值的残差收缩模块(deep residual shrinkage networks with channel-wise thresholds, DRSN-CW)，通过机器学习的方法自适应确定软阈值以消除噪声的影响，软阈值的加入使得两种DRSNs 能有效减少数据中噪声的影响，从而提高特征的有效性。RSBU-CS 与DRSN-CW 的区别在于，特征图的每个通道是否有独立的阈值。RSBU-CS 的所有特征通道使用相同的阈值，在特征映射过程中，不同通道通常包含不同数量的噪声。相比于RSBU-CS，DRSN-CW 允许特征映射过程中每个信道具有自己的阈值。因此，DRSNCW 比RSBU-CS 具有更高的特征提取能力。

基于DRSNs 中的DRSN-CW 模块，本文设计了一个无需对信号进行前期处理的端到端轴承故障诊断模型DRSN-LSTM，模型分为特征提取和故障分类两个阶段。在特征提取阶段，DRSN-CW 模块能有效提取频域中的有用信息，并自动去掉噪声信息，使提取到的特征更有鉴别性。在故障分类阶段，首先利用LSTM 提取时域信息，接着引入self-attention 机制，在分类任务前自动关注时域信息中的有用信息，最后将时域信息与频域信息融合，再次采用LSTM 进行分类。

1 基于DRSN-CW 和LSTM 的轴承故障诊断模型

将原始信号数据直接输入神经网络，而无需前期的信号预处理等操作。利用深度学习，自动从原始的含噪声的振动信号数据中提取特征，以用于轴承的故障诊断。

1.1 特征提取阶段

基于本文采取DRSN-CW 模型对带噪声的信号进行特征提取和降噪，以获得更具辨识度的信号特征。在特征提取阶段，本文首先利用一个卷积核为20×20，步长为2 的一维卷积(Conv1D)对输入信号(或特征)的局部区域进行卷积运算，产生相应的特征。然后利用DRSN-CW 对信号噪声的学习能力，在消除原始信号中噪声的同时，提取出更为高级的信号特征。DRSN-CW 中同样采用大感受野(2 0×20和 1 0×10)的卷积进行特征提取。最终，将提取的特征输入分类器(堆叠LSTM 网络)，用于轴承故障的诊断。

1.2 轴承信号分类

在轴承信号分类与故障诊断阶段，首先利用LSTM 模型抽取振动信号特征之间的时序信息。LSTM 是一种时间循环神经网络，解决了常规循环神经网络(recurrent neural network, RNN)存在的长期依赖问题，即当相关信息和当前预测位置之间的间隔变得非常大时，RNN 会丧失学习远距离信息的能力。造成长期依赖问题的主要原因在于，RNN 在反向传播中很容易出现梯度消失或梯度爆炸的问题，导致长距离的信息丢失。而LSTM 通过增加输入门(input gate)、输出门(output gate)和遗忘门(forget gate)解决了这些问题。图1 显示了LSTM 神经元的内部结构。

图1 LSTM 神经元内部结构

沿时间轴，LSTM 利用上述3 个门控制信息在“细胞”内的传递，更新当前“细胞”状态。输入门决定了输入xt和前一层的隐藏状态ht-1是否应该被添加到当前单元状态。遗忘门与前一个隐藏状态ht-1和当前输入xt有关，它决定当前单元值是否保留。最后，输出门利用一个tanh 层判断输出哪些状态特征，作为下一个“细胞”的输入。LSTM 神经元在每一步都会输出一个状态响应列表，其中包含之前的输出信息和当前的输入信息。记忆单元确保梯度可以传递到许多时间步，而不会出现梯度消失或爆炸的情况。因此，LSTM 克服了训练过程中由梯度消失效应造成的困难。3 个门的具体计算方法如下：

在抽取出振动信号特征之间的时序信息后，再利用Self-attention 机制，挖掘时序信号特征的相对重要性，使得模型更关注重要的时序信息，忽略其他不重要的时序信息。H1∈Rd×N表示第一层LSTM模型各个时刻的输出向量 [h1,h2,···,hN]所组成的矩阵，N表示第一层LSTM 的时间步长。注意力权重为α=softmax(WhH1)，其中Wh∈Rd×d为模型参数，注意力权重α ∈RN。

结合注意力权重，将新的特征向量H2=H1αT输入到下一层LSTM 中。最后，将尾端输出向量x作为特征进行分类。为避免故障分类造成过拟合，在最后一层LSTM 后加入Dropout 层，以一定概率将神经单元暂时屏蔽。

1.3 模型训练

完整模型网络结构如图2 所示。经过softmax分类函数后，模型可以预测该信号s为类别yi的概率p(yi)，具体计算公式为：

式中，Strain为训练样本；Ntrain为训练样本的数目。为了学习到网络最佳超参数，本文采用能自动调整学习率的Adam(adaptive moments)[25]算法优化目标函数，设定初始化学习率为0.006。

图2 基于DRSN-CW 和LSTM 的轴承故障诊断框架

2 实验与讨论

2.1 数据集与评估方法

本文的原始实验数据是从CWRU 轴承数据中心[19]以12 kHz 的采样频率从电机驱动机械系统的加速计中获得。被诊断的轴承一共有3 种缺陷类型，分别是滚动体损伤、外圈损伤与内圈损伤，损伤直径的大小分别为0.007 、 0.014 和 0.021 inch，共有10 种故障类别(包括正常轴承)。针对不同马力(horsepower, HP)负载情况，收集了0、1、2 和3 HP 负载下10 种不同类型的故障。

为了评估模型对轴承故障的诊断能力，本文采用准确度(Accuracy)、精确度(Precision)、召回率(Recall)和F1 分数来验证模型的有效性，其计算公式为：

式中，TP、FP、FN 和TN 分别代表真阳性、假阳性、假阴性和真阴性结果的数量。针对CWRU 中的10 个故障类型，分别将每种类型都看做正样本，剩下的类型看做负样本。真阳性就代表被模型预测为正的正样本，假阳性代表被模型预测为正的负样本，假阴性代表被模型预测为负的正样本，真阴性代表被模型预测为负的负样本。

2.2 实验及分析

MCNN-LSTM[21]方法已远超于其他传统方法，平均故障检测准确率超过90%，因此本文只选择MCNN-LSTM 模型作为对比算法。除此以外，在模型训练之前，MCNN-LSTM 采用下采样以达到降噪的目的，而本文模型不进行任何信号预处理。

在CWRU 数据集中的0、1、2 和3 HP 这4 类负载数据集上进行实验，设定 δ=0.05和0.10 进行训练集信号采样，最终实验结果见表1。表1 中的Precision、Recall 和F1 为10 类故障的均值。实验表明，在训练集相对充足的情况下(δ =0.10)，本文方法在4 项指标上都略优于MCNN-LSTM。而当训练数据进一步减少， δ=0.05时，本文方法明显优于MCNN-LSTM。主要原因在于训练数据量较低的情况下，利用DRSN-CW 能提取更有鉴别性的特征。同时，DRSN-CW 为每个特征通道学习到了独立的降噪阈值，有偏向性的降噪相比于MCNNLSTM 采用的简单下采样降噪方法，能保留更多的信号特征。特别是在训练数据量不足的情况下，DRSN-CW 保留的信号特征越多，所得到的特征也就更丰富。另外，引入注意力机制使得时序信息能更好地融入信号特征中，从而得到准确性更高的特征。

表1 轴承故障诊断实验结果

为了进一步验证训练集对模型分类的影响，取δ ∈[0.05,0.50]进行轴承故障诊断实验，如图4 所示。从图3 看出，在4 类负载的数据集中，提出的DRSNCW-LSTM 在 δ ＜0.15时，轴承故障诊断准确率明显高于MCNN-LSTM。随着 δ的增大，训练集越来越丰富，两者均能很好地诊断出轴承的故障，诊断准确率也都达到了99%以上。而在0 HP 与1 HP数据集中，本文方法能更快地达到99%的准确率。

图3 不同训练集比例下的轴承故障诊断对比实验

为了验证分类模块中加入的Attention 机制是否有效，在移除注意力机制后进行了消融实验，结果如图4 所示。在训练集有限的情况下δ ∈[0.05,0.20]，引入Attention 后的模型明显优于无Attention 的模型。随着训练数据量的增加，两个模型都能很好地提取出信号的有效特征，轴承故障诊断准确率均能达到99%以上。注意力机制的引入是为了融合信号的时域与频域信息。在训练样本缺失，特征提取不足的情况下，注意力机制能极大地补充轴承振动信号的特征信息，为后续的故障诊断带来明显增益。

图4 Self-Attention 消融实验

3 结束语

本文提出了一种新的端到端的滚动轴承故障智能诊断模型，该模型包括特征提取模块和分类器模块。特征提取模块在对原始数据进行降噪处理的同时，学习到更有鉴别性的频域特征。在分类模块中，由于输入的特征为序列化的频域特征，而LSTM 可以很好地利用信号的时序特点，提取频域特征之间的时域特征，同时，注意力机制的引入使得模型能自动提取出重要的时域特征。将时域信息与频域信息融合后，使用softmax 函数将神经元输出转换为滚动轴承故障(包括正常)的概率分布。本文在CWRU 轴承数据集下验证了所提出的故障诊断模型的可行性，在训练集充足的情况下，本文提出的DRSNCW-LSTM 模型略优于当前最新的MCNN-LSTM 模型。而当训练集缺乏时，本文模型在4 个数据集上平均准确率达到了98.16%，对比MCNN-LSTM 模型，准确率平均提升了2.6%。在没有任何信号预处理的专业知识背景下，本文方法能准确地诊断出轴承的故障，提高机械系统的可靠性，可以有效避免大型事故的发生。