ResNet-LSTM并行网络转子故障迁移诊断方法

2023-02-03 12:57张兴宇胡爱军邴汉昆

动力工程学报 2023年1期

向玲，张兴宇，胡爱军，邴汉昆，杨鑫

(1.华北电力大学机械工程系，河北保定 071003； 2.华电电力科学研究院有限公司，杭州 310030)

转子是旋转机械的核心组成部分，在旋转机械中起着重要作用。在实际运行中，转子常因设计、制造、安装和运行条件等因素，会产生各种故障，影响机械设备正常工作[1]。随着科学技术的发展，对机械设备故障诊断的方法越来越先进[2]。充分挖掘转子设备中的有效信息，实现机械设备故障的智能诊断已成为研究热点。

近年来，借鉴深度学习在多个领域成功应用的经验，将深度学习应用到故障诊断领域，取得了不错的效果。Janssens等[3]使用卷积神经网络(CNN)对齿轮箱中的轴承和齿轮故障进行分类，准确率提高了约6%。Lu等[4]使用堆叠降噪自编码(SDA)在噪声环境下准确地区分出旋转机械部件的状态。Yuan等[5]使用循环神经网络(RNN)预测航空发电机的寿命。Zhu等[6]结合对称点模式(SDP)图像和CNN诊断转子故障，准确率可达96.5%。王新伟等[7]提出了基于XGBoost算法的汽轮机转子故障诊断模型，能够识别汽轮机的9种故障。为提高齿轮箱状态监测效率和准确性，刘旭斌等[8]提出了基于堆叠去噪自编码-长短期记忆网络(SDAE-LSTM)的故障监测模型，该模型能够及时发现齿轮箱异常。以上方法将深度学习算法引入故障诊断领域，提高了旋转机械故障诊断的准确率，但在实际运行中，很难收集到足够的数据，且将模型应用于新的诊断任务时，需要对整个模型进行再训练。

迁移学习是一种跨领域、跨任务的学习方法，能够利用已有知识解决不同问题[9]，已被引入智能故障诊断领域。Shao等[10]基于迁移学习，利用预训练好的模型提取低层次特征，再使用时频图微调高层次网络，在小样本数据集上提升了齿轮和轴承的故障诊断准确率。Chen等[11]提出暂态混沌神经网络(TCNN)迁移学习框架，在不同工况数据集下，使目标域上分类的平均准确率达到99.03%。He等[12]提出一种经过优化的深度传递自编码方法，利用源域足够的辅助数据对优化的深度自编码器进行预训练，并将参数传递至目标模型，在不同工况间的迁移准确率达到93%。

针对转子系统实际故障样本少的情况，笔者提出了基于残差网络(ResNet)和长短期记忆网络(LSTM)的并行网络(RLPN)的转子故障迁移诊断方法，利用ResNet-LSTM并行网络能够同时提取时间和空间特征的优势，以及迁移学习对样本需求量较少的优势，解决了小样本下转子故障诊断问题。使用ResNet模块提取信号的空间特征，采用LSTM模块提取信号的时间特征，再将时间和空间特征进行特征融合，增强模型特征的表达能力。然后在源域中训练模型，再采用参数迁移的方法，在目标域中完成转子故障的分类，实现小样本下的转子多故障识别。

1 理论基础

1.1 迁移学习

迁移学习是从源域中学习知识并应用到目标域中，使目标域能够更好地完成故障诊断任务[13]。领域和任务是迁移学习的2个基本概念。领域D={χ,P(X)}，其中X={x1,…,xn}⊂χ，xi表示源域的第i个样本，χ代表源域的样本空间，P(X)表示χ的边缘概率分布；任务T={γ,f(·)}，定义Y={y1,…,y2}⊂γ，yi表示目标域的第i个样本，γ代表目标域的样本空间，目标是学习预测函数f(·)：X→Y。

给定源域DS和源任务TS、目标域DT和任务TT，迁移学习是学习DS和TS的知识，在目标域DT中提高任务TT中的预测函数f(·)。

针对转子故障迁移诊断问题，将在2种不同工况下采集的数据设为源域和目标域，将源域中训练的模型参数向目标域迁移，借助源域和源任务知识，学习源域和标签之间的函数映射关系，再利用目标域中的少量有标签的样本微调优化模型，实现对目标域的故障识别。

1.2 残差网络

当采用深度学习进行网络训练时，随着网络层数的增加，网络在训练过程中会出现梯度消失和退化问题。He等[14]在2016年提出了ResNet，该网络具有极强的特征提取能力，解决了网络准确率随着网络层数增加而产生饱和甚至下降的问题，ResNet模型结构如图1所示。

图1 ResNet模型结构

残差单元的表达式为：

yl=f(xl,Wl)+h(xl)

(1)

xl+1=g(yl)

(2)

式中：xl为上一个模块的输入；Wl为卷积层的权重矩阵；f(xl,Wl)为xl经过2次卷积操作后的输出；h(xl)为恒等映射函数，目的是保证输入xl与f(xl,Wl)尺寸相同；yl为未经过ReLU激活函数前的残差输出；g(yl)为ReLU激活函数；xl+1为yl经过ReLU激活函数后的输出。

基于上式，在h(xl)=xl时，由浅层l到深层L的学习特征表达式为：

(3)

利用链式求导法则可求得反向传播过程的梯度：

(4)

式中:Lloss为交叉熵损失函数。

由式(4)可知，ResNet在误差反向传播中，可使得梯度大于0，避免梯度消失。ResNet模块的主要思路是引入跳跃连接，在反向传播过程中，可以通过跳跃连接将误差有效地传递给上一层，避免普通卷积网络随着网络层数的增加而产生梯度消失的现象。

1.3 长短期记忆网络

在解决序列数据的依赖问题时采用循环神经网络(RNN)模型，该模型具有保持短期记忆的能力。神经元不仅可以接受自身的信息，还可以接受其他神经元的信息，在故障诊断领域表现出极强的生命力。但对于传统的RNN，由于其内部tanh层的特点，当序列数据较长时，初始的记忆信息会消失，存在梯度爆炸和消失问题，很难保持长时间的记忆。

LSTM模型是RNN模型的变体，其引入了门控制机制，以控制信息的累积速度，可有效解决长期记忆的问题[15]。LSTM模型结构如图2所示。

图2 LSTM模型结构

LSTM模型前向传播过程为：

ft=σ(Wf·xt+Rf·ht-1+bf)

(5)

it=σ(Wi·xt+Ri·ht-1+bi)

(6)

(7)

(8)

ot=σ(Wo·xt+Ro·ht-1+bo)

(9)

ht=ot⊙tanh(Ct)

(10)

LSTM用3个门动态控制内部状态，以决定应该遗忘多少历史信息，以便更好地提取序列信号中的时间特征。

2 RLPN转子故障迁移诊断

2.1 模型结构

所提RLPN模型能够对一维时序信号数据进行时间特征和空间特征的提取，更深层次地挖掘数据中的有效信息。模型由输入层、卷积层、池化层、LSTM模块、ResNet模块、全局池化层、特征融合层及分类输出层组成。模型结构及其内部传输方式如图3所示，模型各个单元的参数见表1。

图3 RLPN结构图

表1 模型参数表

2.2 预故障识别流程

RLPN故障迁移诊断模型的整体流程图如图4所示，通过迁移学习方法对故障数据分类，得到最终的识别结果。

由图4可知，RLPN迁移诊断的具体流程如下：

(1) 获取不同工况下的转子振动数据，将其划分为有标签的源域和带有少量标签的目标域，并将数据标准化，每1 024个点划分为1个小样本。

(2) 构建RLPN网络模型，将源域数据输入网络模型，采用交叉熵损失函数和反向传播算法对网络参数进行更新训练。

图4 RLPN迁移诊断的流程

(3) 训练完毕后，将网络结构和网络参数迁移到目标域，将目标域带有少量标签的数据作为目标域训练集输入网络模型，固定除分类层外的所有层，对分类层参数进行参数的重新训练与微调。

(4) 模型重新训练完毕后，将无标签的源域数据作为目标域的测试集输入模型完成故障分类，得到最终的识别结果。

3 实验分析

3.1 实验数据集

选用图5所示的Bently转子实验台开展转子故障实验，分析RLPN转子故障迁移诊断方法。该装置由电机、转轴、传感器、滑动轴承、预加载架和转速调节器组成，使用传感器采集振动幅值数据。

分别采集1 500 r/min(工况A)、1 600 r/min(工况B)、1 700 r/min (工况C)和2 000 r/min (工况D)这4个工况下的正常、轻度碰摩故障、重度碰摩故障、1 mm裂纹故障和3 mm裂纹故障共20类状态数据。深度学习模型拥有强大的学习能力，能够自适应提取信号特征，采样频率只需满足采样定理即可，因此统一取采样频率为5.12 kHz。每类数据包含72个样本，其中训练集和测试集按照2∶8的比例划分，分别是14个样本和58个样本，每个样本包含1 024个数据点，可得源域和目标域各包含5×72×1 024=368 640个数据点。最后，将4个工况划分为4个迁移任务，即T1、T2、T3和T4，见表2。

表2 转子故障诊断任务描述表

转子在B工况下的原始信号波形如图6所示，由图6可知，仅依据时域数据很难通过人工完成故障诊断。

(a) 正常

3.2 实验流程与结果分析

为了验证RLPN转子故障迁移诊断方法的创新性和有效性，在相同的数据集上使用ResNet-LSTM串行网络模型(模型1)、LSTM模型(模型2)、CNN模型(模型3)、CNN-LSTM并行网络模型(模型4)、本文所提模型(模型5)，开展转子故障迁移诊断对比实验。

根据以往设计经验确定模型的超参数，为保证对比实验的一致性，训练均采用Adam优化器，迭代次数为1 500。针对较重要的超参数，使用网格搜索法确定，学习率的搜索范围为[0.1，0.01，0.001，0.000 1，0.000 01]，批处理大小的搜索范围为[16，32]。最终确定模型超参数见表3。

表3 转子故障诊断超参数

采用迁移准确率作为上述5种模型的迁移诊断结果判断指标，如表4和图7所示。由表4和图7可知，平均准确率最低的是LSTM模型，为87.41%，且在T3任务上的准确率仅为70.69%，说明LSTM在迁移诊断中的稳定性较差，诊断效果一般。CNN-LSTM并行网络模型的平均准确率达到96.98%，高于LSTM模型和CNN模型，论证了采用并行网络拥有更好的特征提取能力。本文的RLPN模型是CNN-LSTM并行网络模型，其中的CNN模块被ResNet模块替换，其平均准确率可达99.83%，高于其他4种模型，实现了对转子5种不同状态的精准分类。

表4 转子实验迁移诊断结果

图7 转子实验迁移诊断结果

以T1任务为例，5种模型的准确率曲线如图8所示。由图8可知，经过约600次迭代后，RLPN模型的准确率达到100%，且趋于稳定，高于其他4个模型，表明该模型训练效果良好。

为了更清晰地说明模型对测试集的识别效果，采用混淆矩阵展示模型在T1任务上的诊断结果，如图9所示。由图9可知，5种模型迁移诊断均能准确识别转子1 mm的裂纹。其中，ResNet-LSTM串行网络模型对正常和轻度碰摩2种健康状况的识别无效；LSTM模型能够有效识别2种裂纹状态，对正常、轻度碰摩和重度碰摩3种状态的识别准确

(a) ResNet-LSTM串行网络模型

率可达88%及以上；CNN模型能够有效识别重度碰摩和1 mm的裂纹，而对正常状态的识别准确率仅为79%；CNN-LSTM并行网络模型难以识别3 mm的裂纹，其准确率仅为64%，对其他4种状态的识别准确率可达93%以上；只有RLPN模型能精准识别5种状态，识别准确率高达100%。综上所述，RLPN模型可以从原始振动信号中提取出充足的特征，从而实现精确的故障识别任务。

为直观分析RLPN模型在转子故障迁移诊断中的有效性，采用t分布随机邻域嵌入(t-SNE)算法对T1任务原始数据和模型提取的特征(分类层的输出)降维至二维平面，并以散点图进行可视化处理，如图10所示。

由图10(a)可知，原始数据类间距小，所有类型混杂在一起，无法准确分类。图10(b)中正常和轻度碰摩2种健康状况基本重合，同样无法准确识别。图10(c)、图10(d)和图10(e)中，有少量类别重合在一起，只能识别部分故障。图10(f)中5种类别类间距大，所提方法能够有效提取信号中的显性可分辨特征，准确地识别故障，充分验证了RLPN模型在迁移学习转子故障诊断中的优越性。

4 结论

(1) 基于RLPN模型的迁移诊断方法能够深入挖掘转子数据样本中的时空特征，获取更充分的特征参数，实现小样本下的转子故障迁移诊断，为转子智能故障诊断提供了新的方法。

(2) 基于RLPN模型的迁移诊断方法平均准确率达到99.83%，优于CNN-LSTM并行网络模型，更高于只提取信号空间特征的CNN模型、只提取信号时间特征的LSTM模型，以及ResNet模块与LSTM模块级联的ResNet-LSTM模型。