向 玲, 张兴宇, 胡爱军, 邴汉昆, 杨 鑫
(1.华北电力大学 机械工程系,河北保定 071003; 2.华电电力科学研究院有限公司,杭州 310030)
转子是旋转机械的核心组成部分,在旋转机械中起着重要作用。在实际运行中,转子常因设计、制造、安装和运行条件等因素,会产生各种故障,影响机械设备正常工作[1]。随着科学技术的发展,对机械设备故障诊断的方法越来越先进[2]。充分挖掘转子设备中的有效信息,实现机械设备故障的智能诊断已成为研究热点。
近年来,借鉴深度学习在多个领域成功应用的经验,将深度学习应用到故障诊断领域,取得了不错的效果。Janssens等[3]使用卷积神经网络(CNN)对齿轮箱中的轴承和齿轮故障进行分类,准确率提高了约6%。Lu等[4]使用堆叠降噪自编码(SDA)在噪声环境下准确地区分出旋转机械部件的状态。Yuan等[5]使用循环神经网络(RNN)预测航空发电机的寿命。Zhu等[6]结合对称点模式(SDP)图像和CNN诊断转子故障,准确率可达96.5%。王新伟等[7]提出了基于XGBoost算法的汽轮机转子故障诊断模型,能够识别汽轮机的9种故障。为提高齿轮箱状态监测效率和准确性,刘旭斌等[8]提出了基于堆叠去噪自编码-长短期记忆网络(SDAE-LSTM)的故障监测模型,该模型能够及时发现齿轮箱异常。以上方法将深度学习算法引入故障诊断领域,提高了旋转机械故障诊断的准确率,但在实际运行中,很难收集到足够的数据,且将模型应用于新的诊断任务时,需要对整个模型进行再训练。
迁移学习是一种跨领域、跨任务的学习方法,能够利用已有知识解决不同问题[9],已被引入智能故障诊断领域。Shao等[10]基于迁移学习,利用预训练好的模型提取低层次特征,再使用时频图微调高层次网络,在小样本数据集上提升了齿轮和轴承的故障诊断准确率。Chen等[11]提出暂态混沌神经网络(TCNN)迁移学习框架,在不同工况数据集下,使目标域上分类的平均准确率达到99.03%。He等[12]提出一种经过优化的深度传递自编码方法,利用源域足够的辅助数据对优化的深度自编码器进行预训练,并将参数传递至目标模型,在不同工况间的迁移准确率达到93%。
针对转子系统实际故障样本少的情况,笔者提出了基于残差网络(ResNet)和长短期记忆网络(LSTM)的并行网络(RLPN)的转子故障迁移诊断方法,利用ResNet-LSTM并行网络能够同时提取时间和空间特征的优势,以及迁移学习对样本需求量较少的优势,解决了小样本下转子故障诊断问题。使用ResNet模块提取信号的空间特征,采用LSTM模块提取信号的时间特征,再将时间和空间特征进行特征融合,增强模型特征的表达能力。然后在源域中训练模型,再采用参数迁移的方法,在目标域中完成转子故障的分类,实现小样本下的转子多故障识别。
迁移学习是从源域中学习知识并应用到目标域中,使目标域能够更好地完成故障诊断任务[13]。领域和任务是迁移学习的2个基本概念。领域D={χ,P(X)},其中X={x1,…,xn}⊂χ,xi表示源域的第i个样本,χ代表源域的样本空间,P(X)表示χ的边缘概率分布;任务T={γ,f(·)},定义Y={y1,…,y2}⊂γ,yi表示目标域的第i个样本,γ代表目标域的样本空间,目标是学习预测函数f(·):X→Y。
给定源域DS和源任务TS、目标域DT和任务TT,迁移学习是学习DS和TS的知识,在目标域DT中提高任务TT中的预测函数f(·)。
针对转子故障迁移诊断问题,将在2种不同工况下采集的数据设为源域和目标域,将源域中训练的模型参数向目标域迁移,借助源域和源任务知识,学习源域和标签之间的函数映射关系,再利用目标域中的少量有标签的样本微调优化模型,实现对目标域的故障识别。
当采用深度学习进行网络训练时,随着网络层数的增加,网络在训练过程中会出现梯度消失和退化问题。He等[14]在2016年提出了ResNet,该网络具有极强的特征提取能力,解决了网络准确率随着网络层数增加而产生饱和甚至下降的问题,ResNet模型结构如图1所示。
图1 ResNet模型结构
残差单元的表达式为:
yl=f(xl,Wl)+h(xl)
(1)
xl+1=g(yl)
(2)
式中:xl为上一个模块的输入;Wl为卷积层的权重矩阵;f(xl,Wl)为xl经过2次卷积操作后的输出;h(xl)为恒等映射函数,目的是保证输入xl与f(xl,Wl)尺寸相同;yl为未经过ReLU激活函数前的残差输出;g(yl)为ReLU激活函数;xl+1为yl经过ReLU激活函数后的输出。
基于上式,在h(xl)=xl时,由浅层l到深层L的学习特征表达式为:
(3)
利用链式求导法则可求得反向传播过程的梯度:
(4)
式中:Lloss为交叉熵损失函数。
由式(4)可知,ResNet在误差反向传播中,可使得梯度大于0,避免梯度消失。ResNet模块的主要思路是引入跳跃连接,在反向传播过程中,可以通过跳跃连接将误差有效地传递给上一层,避免普通卷积网络随着网络层数的增加而产生梯度消失的现象。
在解决序列数据的依赖问题时采用循环神经网络(RNN)模型,该模型具有保持短期记忆的能力。神经元不仅可以接受自身的信息,还可以接受其他神经元的信息,在故障诊断领域表现出极强的生命力。但对于传统的RNN,由于其内部tanh层的特点,当序列数据较长时,初始的记忆信息会消失,存在梯度爆炸和消失问题,很难保持长时间的记忆。
LSTM模型是RNN模型的变体,其引入了门控制机制,以控制信息的累积速度,可有效解决长期记忆的问题[15]。LSTM模型结构如图2所示。
图2 LSTM模型结构
LSTM模型前向传播过程为:
ft=σ(Wf·xt+Rf·ht-1+bf)
(5)
it=σ(Wi·xt+Ri·ht-1+bi)
(6)
(7)
(8)
ot=σ(Wo·xt+Ro·ht-1+bo)
(9)
ht=ot⊙tanh(Ct)
(10)
LSTM用3个门动态控制内部状态,以决定应该遗忘多少历史信息,以便更好地提取序列信号中的时间特征。
所提RLPN模型能够对一维时序信号数据进行时间特征和空间特征的提取,更深层次地挖掘数据中的有效信息。模型由输入层、卷积层、池化层、LSTM模块、ResNet模块、全局池化层、特征融合层及分类输出层组成。模型结构及其内部传输方式如图3所示,模型各个单元的参数见表1。
图3 RLPN结构图
表1 模型参数表
RLPN故障迁移诊断模型的整体流程图如图4所示,通过迁移学习方法对故障数据分类,得到最终的识别结果。
由图4可知,RLPN迁移诊断的具体流程如下:
(1) 获取不同工况下的转子振动数据,将其划分为有标签的源域和带有少量标签的目标域,并将数据标准化,每1 024个点划分为1个小样本。
(2) 构建RLPN网络模型,将源域数据输入网络模型,采用交叉熵损失函数和反向传播算法对网络参数进行更新训练。
图4 RLPN迁移诊断的流程
(3) 训练完毕后,将网络结构和网络参数迁移到目标域,将目标域带有少量标签的数据作为目标域训练集输入网络模型,固定除分类层外的所有层,对分类层参数进行参数的重新训练与微调。
(4) 模型重新训练完毕后,将无标签的源域数据作为目标域的测试集输入模型完成故障分类,得到最终的识别结果。
选用图5所示的Bently转子实验台开展转子故障实验,分析RLPN转子故障迁移诊断方法。该装置由电机、转轴、传感器、滑动轴承、预加载架和转速调节器组成,使用传感器采集振动幅值数据。
分别采集1 500 r/min(工况A)、1 600 r/min(工况B)、1 700 r/min (工况C)和2 000 r/min (工况D)这4个工况下的正常、轻度碰摩故障、重度碰摩故障、1 mm裂纹故障和3 mm裂纹故障共20类状态数据。深度学习模型拥有强大的学习能力,能够自适应提取信号特征,采样频率只需满足采样定理即可,因此统一取采样频率为5.12 kHz。每类数据包含72个样本,其中训练集和测试集按照2∶8的比例划分,分别是14个样本和58个样本,每个样本包含1 024个数据点,可得源域和目标域各包含5×72×1 024=368 640个数据点。最后,将4个工况划分为4个迁移任务,即T1、T2、T3和T4,见表2。
表2 转子故障诊断任务描述表
转子在B工况下的原始信号波形如图6所示,由图6可知,仅依据时域数据很难通过人工完成故障诊断。
(a) 正常
为了验证RLPN转子故障迁移诊断方法的创新性和有效性,在相同的数据集上使用ResNet-LSTM串行网络模型(模型1)、LSTM模型(模型2)、CNN模型(模型3)、CNN-LSTM并行网络模型(模型4)、本文所提模型(模型5),开展转子故障迁移诊断对比实验。
根据以往设计经验确定模型的超参数,为保证对比实验的一致性,训练均采用Adam优化器,迭代次数为1 500。针对较重要的超参数,使用网格搜索法确定,学习率的搜索范围为[0.1,0.01,0.001,0.000 1,0.000 01],批处理大小的搜索范围为[16,32]。最终确定模型超参数见表3。
表3 转子故障诊断超参数
采用迁移准确率作为上述5种模型的迁移诊断结果判断指标,如表4和图7所示。由表4和图7可知,平均准确率最低的是LSTM模型,为87.41%,且在T3任务上的准确率仅为70.69%,说明LSTM在迁移诊断中的稳定性较差,诊断效果一般。CNN-LSTM并行网络模型的平均准确率达到96.98%,高于LSTM模型和CNN模型,论证了采用并行网络拥有更好的特征提取能力。本文的RLPN模型是CNN-LSTM并行网络模型,其中的CNN模块被ResNet模块替换,其平均准确率可达99.83%,高于其他4种模型,实现了对转子5种不同状态的精准分类。
表4 转子实验迁移诊断结果
图7 转子实验迁移诊断结果
以T1任务为例,5种模型的准确率曲线如图8所示。由图8可知,经过约600次迭代后,RLPN模型的准确率达到100%,且趋于稳定,高于其他4个模型,表明该模型训练效果良好。
为了更清晰地说明模型对测试集的识别效果,采用混淆矩阵展示模型在T1任务上的诊断结果,如图9所示。由图9可知,5种模型迁移诊断均能准确识别转子1 mm的裂纹。其中,ResNet-LSTM串行网络模型对正常和轻度碰摩2种健康状况的识别无效;LSTM模型能够有效识别2种裂纹状态,对正常、轻度碰摩和重度碰摩3种状态的识别准确
(a) ResNet-LSTM串行网络模型
率可达88%及以上;CNN模型能够有效识别重度碰摩和1 mm的裂纹,而对正常状态的识别准确率仅为79%;CNN-LSTM并行网络模型难以识别3 mm的裂纹,其准确率仅为64%,对其他4种状态的识别准确率可达93%以上;只有RLPN模型能精准识别5种状态,识别准确率高达100%。综上所述,RLPN模型可以从原始振动信号中提取出充足的特征,从而实现精确的故障识别任务。
为直观分析RLPN模型在转子故障迁移诊断中的有效性,采用t分布随机邻域嵌入(t-SNE)算法对T1任务原始数据和模型提取的特征(分类层的输出)降维至二维平面,并以散点图进行可视化处理,如图10所示。
由图10(a)可知,原始数据类间距小,所有类型混杂在一起,无法准确分类。图10(b)中正常和轻度碰摩2种健康状况基本重合,同样无法准确识别。图10(c)、图10(d)和图10(e)中,有少量类别重合在一起,只能识别部分故障。图10(f)中5种类别类间距大,所提方法能够有效提取信号中的显性可分辨特征,准确地识别故障,充分验证了RLPN模型在迁移学习转子故障诊断中的优越性。
(1) 基于RLPN模型的迁移诊断方法能够深入挖掘转子数据样本中的时空特征,获取更充分的特征参数,实现小样本下的转子故障迁移诊断,为转子智能故障诊断提供了新的方法。
(2) 基于RLPN模型的迁移诊断方法平均准确率达到99.83%,优于CNN-LSTM并行网络模型,更高于只提取信号空间特征的CNN模型、只提取信号时间特征的LSTM模型,以及ResNet模块与LSTM模块级联的ResNet-LSTM模型。