基于深度迁移学习的柴油机故障诊断研究

2023-11-14 05:30宋业栋马光伟裴国斌张俊红
振动与冲击 2023年21期
关键词:柴油机卷积神经网络

宋业栋,马光伟,裴国斌,张俊红,3

(1.潍柴动力股份有限公司,山东 潍坊 261061;2.天津大学 内燃机燃烧学国家重点实验室,天津 300072;3.天津仁爱学院 机械工程学院,天津 301636)

柴油机是工业、农业、核电及其他领域的主要动力源,由于其内部结构复杂,工作环境恶劣,容易诱发故障。因此,对柴油机工作状态的故障检测和诊断具有极其重要的意义。传统上,柴油机故障诊断方法主要包含信号处理、特征提取、模式识别3个过程。王凤利等[1]提出了自适应参数选取的改进集合经验模态分解的信号分解方法并进行了柴油机气缸磨损诊断。蒋佳炜等[2]研究了基于小波包能量谱的特征提取方法并采用模糊熵进行特征选择。Xu等[3]提出了基于人工神经网络、信念规则推理以及证据推理的集成模式识别算法。传统故障诊断方法需要对振动信号进行大量前处理,且难以表征被测信号与故障之间的复杂映射关系,限制了诊断准确率的提高。

深度学习,作为机器学习领域最新的发展方向和研究趋势之一,为柴油机的智能诊断带来了革命性的进步。通过获取历史故障数据,可建立并训练对应的诊断模型。在训练数据充分的前提下,通过改进网络结构和增加网络深度,构建的深度神经网络能够挖掘蕴含在原始数据下的故障信息,减少对诊断知识的依赖[4-5]。张永祥等[6]研究了基于加窗与卷积神经网络(convolutional neural network,CNN)的柴油机拉缸故障诊断方法。Jiang等[7]提出了基于一维卷积长短期记忆网络的柴油机工况识别方法,识别精度达到了99.08%。张康等[8]针对柴油机失火故障提出了基于随机丢弃与批标准化的深度卷积神经网络,对比传统方法取得了较高的准确率。Tamilselvan等[9]从原始信号出发,采用深度置信网络对飞机机翼和飞机发动机故障进行诊断和预测。Sak等[10]所提出的基于循环神经网络(recurrent neural network,RNN)的健康指标比基于自组织图的方法具有更好的诊断性能。Ince等[11]提出了一个快速和准确的电机状态监测和早期故障检测系统使用一维卷积神经网络。Yu等[12]提出了一种风电机组数据驱动故障诊断模型,并利用DBN实现了该模型。Chung等[13]提出了一个基于长短期记忆网络(long short term memory,LSTM)的编码-解码结构,利用重建误差计算健康指数实现对剩余有效寿命的估计。雷亚国等[14]结合机械大数据的特点与深度学习的优势,提出了一种新的机械装备健康监测方法。侯文擎[15]引入粒子群算法来优化构建堆栈去噪自编码器(stacked denoised autoencoder,SDAE),在轴承故障数据上改进了原始SDAE的分类能力。Janssens等[16]研究深度学习是否以及如何应用于红外热视频自动确定机器的状态。Vincent等[17]总结了传统的特征提取方法,并基于快速傅里叶变换后的频域特征和小波包特征训练去噪自编码网络,在试验中指出以频域特征作为低层输入获取的深度特征更适用于以支持向量机作为分类器的诊断系统。Thirukovalluru等[18]指出栈式去噪自编码网络提取的特征是鲁棒的,并评估了输入的大小、结构的深度以及稀疏性、去噪等约束参数对诊断性能的影响。鉴于传统自编码网络对原始输入信号局部特征和移变特征处理的不足,Lu等[19]提出了基于正则化稀疏自编码的局部连接网络。虽然堆栈自编码器网络属于特征自学习,但现有方法无法同时结合L1和L2正则化优点,Jia等[20]通过数据点的重复利用增加了输入的随机性,结合弹性网激励修改损失函数中的正则化项,使其可以更有效地处理高度相关的变量。当训练数据有限时,Meng等[21]在自编码网络的隐层上引入“丢弃”技术防止数据过拟合。Sun等[22]通过在潜空间上施加先验分布构建分类对抗自编码网络,再结合样本与预测类别分布之间的互信息进行无监督聚类,验证了提取特征在嘈杂环境的鲁棒性和跨模态负荷下的域自适应性。对于多模态感知信号,如振动信号和声信号,Liu等[23]通过耦合两个单模态自编码网络的隐层表示,提出了基于深度耦合自编码网络的故障诊断模型。

综上所述,该类方法采用多隐层网络以逐层学习的方式从输入数据中提取信息,其深层架构允许它通过多级抽象来形成高层表示、属性或类别,挖掘原始数据中包含的高维特征,可以减少对专家知识的依赖,缩短模型训练时间,增强模型泛化能力。但在实际的柴油机工程场景中,采集到的实时数据有两个特点:①不平衡性,柴油机不可能伴随故障长时间运行,大部分时间工作状态良好,很少发生故障,因此,采集的数据严重不平衡,故障数据大多不足;②没有标签,通过停止柴油机运行来监测柴油机的详细健康状况,但经常中断柴油机的运行是不现实的,因此这只会留下故障数据,而丢失故障类型标签。此外,虽然在发动机台架上模拟故障是快速获取故障数据的一种方式,但不同工况下人为故障的成本极其昂贵,长期故障工况下运行的风险很大。特别是发动机台架试验与实际运行之间的环境差异不可忽视。当标签样本稀缺时,深度神经网络容易出现过拟合,泛化性能较差,导致诊断精度降低。因此,在实际的诊断任务中,一个关键问题是如何利用不同设备不同工况的历史数据和有效挖掘和关联不同的设备,实现知识的迁移和复用,从而提高设备在故障样本稀缺下的分类和泛化能力。

针对小样本问题,本文提出一种基于深度迁移学习的智能故障诊断方法。为探索深度神经网络的强大特征学习能力,首先构建一种宽卷积核卷积长短期记忆神经网络(wide kernel convolutional long short-term memory,WKCL)。然后,以归纳式迁移学习中的模型迁移技术为基础,提出了一种基于可迁移深度神经网络的小样本故障分类方法,致力于解决以下问题:①抗噪能力,构建改进的深度神经网络诊断模型对柴油机振动信号进行自动特征学习和诊断,发挥宽卷积核和LSTM处理低信噪比数据的优势,提高诊断的抗噪性;②小样本学习能力,针对标签故障样本稀缺的问题,引入模型迁移的方法,在大量源域样本上训练一个有效的深度神经网络诊断模型,然后,采用冻结特定层和调优的方法,将大型源域数据获取的诊断知识迁移到目标域网络上,改进网络在目标域任务小样本条件下的训练效率和故障识别能力。

1 基于WKCL的迁移学习方法

1.1 CNN和LSTM简介

1.1.1 CNN

CNN是一种多层深度神经网络,可组合低层特征形成更加抽象的高层表示。CNN具有4个基本特性,即局部特征提取、非线性映射、权重共享和特征池化。相比全连接网络,CNN在不损失表达能力的情况下,可明显减少可训练的参数,促进有效训练。典型的 CNN结构通常包括卷积层、激活函数、池化层和全连接层,其中,卷积层和池化层是CNN的特有结构,也是实现上述4个基本特性的关键。本文仅以简便的形式展示卷积层和池化层的运算过程,如式(1)所示

(1)

式中:l为层数;σ为激活函数;*为卷积;W为卷积核矩阵;b为偏置项;pool为池化,一般为最大值或平均值。

1.1.2 LSTM

最常见的LSTM结构如图1(a)所示。从图1(a)可以看出,在每个序列索引位置t时刻向前传播的除了和RNN一样的隐藏状态h(t),还多了另一个隐藏状态,如图1中上面的长横线。这个隐藏状态我们一般称为细胞状态,记为C(t)。

(a)

除了细胞状态,LSTM还有很多门控结构。LSTM在每个序列索引位置t的门一般包括遗忘门、输入门和输出门3种。

(1) 遗忘门

遗忘门,是控制是否遗忘的,在LSTM中即以一定的概率控制是否遗忘上一层的隐藏细胞状态。遗忘门子结构如图1(b)所示。用数学表达式表示为

f(t)=σ(Wfh(t-1)+Ufx(t)+bf)

(2)

式中:Wf,Uf,bf为线性关系的系数和偏置,和RNN中的类似;σ为sigmoid激活函数。

(2) 输入门

输入门负责处理当前序列位置的输入,它的子结构如图1(c)所示。数学表达式表示为

i(t)=σ(Wih(t-1)+Uix(t)+bi)

(3)

a(t)=tanh(Wah(t-1)+Uax(t)+ba)

(4)

式中:Ua,ba为线性关系的系数和偏置;σ为sigmoid激活函数。

(3) 细胞状态更新

前面的遗忘门和输入门的结果都会作用于细胞状态C(t),如图1(d)所示。用数学表达式表示为

C(t)=C(t-1)⊙f(t)+i(t)⊙a(t)

(5)

式中,⊙为Hadamard积。

(4) 输出门

输出门的子结构如图1(e)所示,从图1(e)可以看出,隐藏状态h(t)的更新由两部分组成,数学表达式为

o(t)=σ(Woh(t-1)+Uox(t)+bo)

(6)

h(t)=o(t)⊙tanh(C(t))

(7)

1.2 WKCL网络结构

在经典CNN[24]和LSTM[25]模型的启发下,构建了WCCL网络,该网络的整体架构与普通的1D-CNN类似,如图2所示。WKCL网络的输入是一段原始的柴油机故障振动时域信号,模型的总体架构与普通1D-CNN模型相同,共有4组卷积层和池化层,用以提取原始信号的局部特征。卷积核的数量逐渐增加,分别为16个、32个、64个和128个,从而在网络的较高层获得更多的鉴别特征。每层卷积操作之后均进行批量归一化处理(batch Normalization,BN)[26],以减少网络各层特征学习的差异。激活函数采用LeakyReLU[27],来弥补ReLU函数在负区间内的学习能力。然后进行 2×1 的最大值池化,将池化后的输出特征大小减半,来降低网络的复杂性。网络输出层为Softmax,用于获取每个输入样本的类别概率输出。最后,基于交叉熵损失函数,通过反向传播更新各层参数。WKCL网络的优势在于:①第一层卷积层采用宽卷积核;②最后一层池化层后面增加LSTM网络。具体结构参数如表1所示。

表1 WKCL各层参数设置

图2 WKCL网络结构

1.2.1 宽卷积核卷积层的降噪处理

卷积层利用卷积核对输入信号(或特征)的局部区域进行卷积运算,生成相应的特征。它的函数类似于短时傅里叶变换。柴油机振动信号的信噪比较低,小的卷积核难以捕捉中低频特性,易受高频噪声的影响。当噪声较大时,选取较大的卷积核有利于提升模型的抗噪性能[28]。本文第一层卷积步长设置为16,卷积核宽度为步长的4倍,大小为64×1。而为了增强 WKCL的学习能力,除第一层外,其余卷积层的卷积核大小均为3×1,此部分的小卷积核有利于加深网络,同时可以抑制过拟合。

1.2.2 LSTM层的降噪处理

RNN适用于处理时间序列,即需要考虑输入先后顺序的问题。LSTM是一种改进后的RNN,凭借巧妙的门控结构和隐藏的细胞状态,解决了标准RNN存在的长期依赖问题。

本文采用原始时域信号作为输入,具有明显的时间相关性。在网络的前部分,以特征学习为主,保证故障特征的全面性。而在网络的后部分,额外考虑特征出现的先后顺序,提升在恶劣噪声环境下,对柴油机故障诊断的容错性。使用的LSTM基本参数设置为Input size=128,Hidden size=128,Num layers=2。

1.3 模型迁移方案

基于深度神经网络的模型迁移,属于归纳式迁移学习的一种。擅长处理的问题具有以下要求:①大量的伴随标签的源域数据集;②少量的伴随标签的目标域数据集;③源域数据和目标域数据可以来源于相似但是不同的分布。模型迁移的目的在于将从源领域学到的知识迁移到数据量少的目标域,提高目标域任务的小样本分类性能。

基于WKCL的模型迁移故障诊断流程如图3所示。第一步,基于构建的大型标签源域数据集,采用传统的监督式深度神经网络训练方法,对所提的 WKCL 进行充分预训练,预训练好的模型其各层参数获得了源域数据集的诊断知识。第二步,利用深度神经网络学习的特征在底层更通用,而在高层更加具体这一特点,通过固定预训练网络的底层参数,同时利用少量目标域训练样本对高层参数进行微调的方法,进行模型迁移,获得最终适用于目标域的诊断模型。

2 试验测试与结果

2.1 数据描述

2.1.1 A:柴油机故障数据集

试验数据来源于某六缸柴油机,试验台总体布局与主要技术参数如图4和表2所示,详细的传感器布局、故障模拟方案以及信号采集过程详见文献[29]。

表2 柴油机主要技术参数

图4 试验台总体布局

试验采用PCB公司的ICP 356A26型三向压电式加速度传感器,采集怠速和空载状态下的缸盖信号,采样频率为25 kHz,一个工作循环包含3 152个采样点。基于以上设置,试验共模拟了柴油机燃油系统和配气机构11种常见故障,如表3所示。12种不同故障状态单周期时域波形如图5所示,记为正常,故障1~故障11。

表3 故障类型

(a) 正常

2.1.2 B:轴承故障数据集

轴承是柴油机动力总成的关键部件,轴承故障也是影响柴油机正常运转的常见故障之一。为了验证提出的方法在不同数据集间的迁移效果,额外使用了凯斯西储大学轴承故障数据集作为目标域数据集[30]。电机驱动机械系统如图6所示。轴承故障有6种类型:正常故障、球圈故障、内圈故障和3种不同位置的外圈故障。本文选择了1 797 r/min和1 772 r/min两种电机转速下的数据,共计12组。详细数据说明如表4所示。

表4 滚动轴承故障数据集

2.2 故障诊断算例与结果

试验使用的深度学习框架为Facebook公司的PyTorch,所用计算机的配置为 CPU i7 10700,16 GB内存。利用Python在PyTorch环境下搭建本文提出的模型。本文提供了3个算例,第一个算例测试WKCL模型的抗噪性;第二个算例测试迁移模型在不同故障域诊断能力;第三个算例测试迁移模型在不同设备间的诊断能力。试验将目标域样本的分为训练集、验证集和测试集,比例为0.5∶0.25∶0.25。其中,验证集不参与模型训练,用于监控模型是否发生过拟合来决定是否停止训练并调整超参数。所有算例测试结果中列出的是训练集的样本数量和测试集的平均准确率。

2.2.1 算例1:WKCL模型诊断精度与抗噪性

用数据集A测试所提的WKCL模型的准确率,与传统机器学习方法、MLP(multi-layer perceptron)、WDCNN(deep convolutional neural networks with wide first layer kernel)、LSTM进行比较,结果如图7所示。

图7 WKCL与其他方法准确率对比

由结果可知,与传统机器学习相比,深度学习具有明显优势,WDCNN、LSTM、WKCL平均精度超过95%,MLP由于网络结构简单,略逊一筹,但仍然略强于TML(traditional machine learning)。在无噪声环境,本文提出的方法优势并不明显。为了进一步验证这3个网络的抗噪性,模拟柴油机工作环境的噪声污染,在原始信号加入加性高斯白噪声[31],如式(1)所示。Psignal和Pnoise分别表示信号与噪声的能量,信号中所含噪声越多,SNR(signal-noise ratio)值就越小。当SNR值为0时,信号与噪声所含能量相等。

(8)

正常状态的原始信号、噪声信号以及带噪声信号如图8所示。

(a) 原始信号

3种方法在不同信噪比条件下的诊断精度如图9所示,可知,WKCL的抗噪性更强,且信噪比越低即噪声信号越大,优势越明显。

图9 不同信噪比条件下的诊断精度

提出的WKCL网络能实现优越的分类性能,得益于两个条件:一是大量的带标签的训练数据;二是目标域和源域数据满足独立同分布。然而,在实际工业应用中,某些研究任务很难获取大量的标注数据,并且测试数据与训练数据难以满足独立同分布的。如图10所示,同等噪声环境下(SNR=0),随着目标域任务的标签数据的减少,深度神经网络的诊断能力指数型下降。特别地,当每种状态的样本数量下降到1 000时,诊断精度将低于80%。

图10 不同样本数量下的诊断精度

为了解决上述实际问题,后面两个算例将会详细讨论基于迁移学习进行跨域诊断在小样本上的优势。

2.2.2 算例2:跨故障域迁移

为研究不同故障域的迁移效果,将数据集A分成两部分,数据集A1:正常和故障1~5;数据集A2:故障6~故障11。本文假定数据集 A1代表实际情况中故障率大,容易获取的数据集,数据集 A2代表故障率大,难获取的数据集。为了解决目标域数据集A2可能存在的样本不足问题,首先以数据集 A1作为源域数据进行WKCL模型训练,然后利用数据集A2对迁移模型的优化层进行训练和测试,同时加入SNR=0的噪声,结果如图11所示。结果显示,由于样本不足,仅使用WKCL直接对A2数据进行训练的效果很差,且精度随着样本数量减少持续下降。而深度迁移学习方法在精度上优势明显,对样本数量的依赖性也更小。需要解释一点,1 000样本时仅对A2数据的诊断精度比2.2.1节高的原因是本节是6分类问题,而2.2.1节是12分类问题。

图11 小样本下跨故障域诊断结果

由结果可知,在提出的具备抗噪性的WKCL模型的基础上,充足的源域样本大大提高了预训练网络的特征提取能力,并冻结了能够发挥此能力的网络层,使得网络在处理目标域同构振动信号时,首先能有效放大不同故障之间的特征差异,其次仅需要少量的目标域样本微调分类层的网络参数并赋予新的标签,从而实现目标域新的故障诊断任务。

该算例说明了,当某种故障样本受到限制时,在提出的WKCL模型基础上,同一设备的不同故障数据,即源域目标域来自于同一采集时间和空间,具备相同的采样频率的信噪比时,利用同设备的其他故障数据进行预训练,将学习到的知识迁移到目标任务,可有效提高诊断精度。

同设备迁移任务在此算例中得到验证,算例3进一步分析了跨设备域诊断任务的可迁移性。

2.2.3 算例3:跨设备域迁移

本节以柴油机故障数据数据集A和轴承故障数据数据集B分别作为源域和目标域,图12示出了诊断结果。当数据集B作为目标域时,与算例2相似,使用模型迁移之后表现更好;然而,当数据集A作为目标域时,虽然模型迁移有一定作用,但整体效果均不理想。

图12 小样本下跨设备域诊断结果

结合数据集特点作进一步分析。一方面,与柴油机故障数据相比,轴承故障数据差异性更强、一致性更高,因此数据集B作为目标域时,需求的样本更少,而数据集A作为目标域时,受小样本的影响,导致无论是否进行模型迁移,精度都很差。另一方面,柴油机故障数据特征更复杂,信噪比也更高,所以数据集A作为源域数据可以让模型获取更丰富的特征与更强的特征区分能力,反之则不然。本算例说明,提出的WKCL模型经过预训练学习到的关于柴油机故障特征的知识,可迁移到轴承的故障诊断任务中。

3 结 论

该方法的核心思想是将不同故障域和数据集的历史数据训练深度神经网络获得的诊断知识迁移到新的目标域任务中,从而提高目标诊断任务在样本稀缺情况下的分类能力。所提方法一方面构建多层深度神经网络,自适应的从原始振动信号自动提取特征,改进了特征提取的抗噪性和有效性。另一方面,进一步将模型迁移方案应用到WKCL中,通过固定特定层参数和调优其余层的方法,有效迁移大型源域数据的诊断知识到目标域任务上,促进了目标诊断网络的快速和有效训练,改善了目标域任务诊断性能。

试验结果表明,相比其他深度神经网络方法,所提方法呈现更好的抗噪性能和计算精度。但随着目标域标记数据的减少,深度神经网络的诊断能力仍然会大幅度降低。同时,研究发现,当某一故障样本有限时,利用同一设备的其他故障数据将学习到的知识转移到目标任务中,可以有效地提高诊断精度。另外,所提出的WKCL模型通过预训练获得的柴油机故障特征知识也可以转移到轴承故障诊断任务中,反之效果很差。因此,模型迁移的性能与目标域训练数据的大小、目标域和源域的相似程度以及信噪比均有关。目标域任务参与的训练数据越多,与源域任务更相似,则迁移性能越好,分类精度越高。因此,为提高模型迁移性能,除建立强大的深度神经网络诊断模型外,训练数据的数量和质量仍然是两个至关重要的因素。

猜你喜欢
柴油机卷积神经网络
基于3D-Winograd的快速卷积算法设计及FPGA实现
神经网络抑制无线通信干扰探究
美国FCA 推出第三代EcoDie s e l V6 柴油机
从滤波器理解卷积
谭旭光:柴油机50年内仍大有可为
基于傅里叶域卷积表示的目标跟踪算法
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于支持向量机回归和RBF神经网络的PID整定
现代柴油机的技术发展趋势