基于深度卷积迁移学习的机车齿轮箱故障诊断

2023-11-01 02:23吴佳敏王发令邹鹤敏李润锦

机械设计与研究 2023年5期

吴佳敏, 王发令, 邹鹤敏, 李润锦, 张龙

(1.广州铁科智控有限公司,广州 510000,E-mail:wujiamin@gzrsic.com;2.华东交通大学机电与车辆工程学院,南昌 330013)

齿轮箱是轨道机车车辆转向架传动系统中最重要的机械部件,其典型的工况特点为频繁启停,加速减速时间短,瞬时载荷大[1]。然而复杂的工况使其齿轮、轴承和齿圈等关键部件发生磨损和疲劳裂纹故障,影响车辆的行车安全[2-3]。随着机车车辆不断向复杂、高速、高效及重载方向发展,齿轮传动系统的安全性和可靠性越来越重要。因此,研究变工况下的齿轮箱故障诊断方法对保障行车安全、降低维护成本具有重要意义。

近年来,基于深度学习(deep Learning, DP)的故障诊断算法快速发展[4-7]。Liu等[8]通过长短时记忆网络对时域信号进行特征提取,用于诊断旋转机械故障。康守强等[9]利用变分模态分解(variational mode decomposition,VMD)信号,再结合时域和频域特征构造多特征集,引入半监督迁移成分分析方法,实现变工况下旋转机械故障诊断。Chen等[10]将时、频域特征作为卷积神经网络(convolutional neural network,CNN)的输入实现齿轮箱智能诊断。张龙等[11]将一维原始信号和二维连续小波变换提取的时频信号,通过双通道卷积神经网络进行深度特征提取,融合成新的深度时频特征,经归一化指数函数实现机车轴承故障诊断。Jiao等[12]使用三种编码器提取原始数据的故障特征,融合构造多变量编码器信息,通过卷积神经网络实现旋转机械智能诊断。Wang等[13]将信号进行短时傅里叶变换(short time fourier transform,STFT),获取相应时频特征,输入到CNN实现旋转机械故障诊断。罗宏林等[14]通过有监督的学习模式构造自编码器,将不同工况特征集向参考工况做特征映射,实现变工况下的轴箱故障诊断。以上方法在智能故障诊断领域取得了显著的效果,极大的提高了诊断的准确性,但大多数模型均需要人为提取特征,特征提取过程中容易丢失部分特征信息,使得模型的适应性不高。尤其在变工况条件下,需要建立不同的模型以适应不同的工况。

基于此,提出一种基于深度卷积神经网络(deep convolutional neural network,DCNN)和迁移学习(transfer learning,TL)的变工况机车齿轮箱智能故障诊断方法。针对传统故障诊断方法难以充分挖掘故障相关特征信息的问题,将多通道特征信息有机融合,搭建DCNN自适应挖掘多通道深度特征。针对变工况服役条件下模型通用性差且需要大量有标签样本的问题,采用迁移学习来提高模型的鲁棒性。将源域特征迁移至目标域,实现少样本下的变工况齿轮箱故障诊断。试验证明该方法在变工况齿轮箱故障诊断中的有效性。

1 理论背景

1.1 深度卷积神经网络

深度卷积神经网络是包含卷积运算和深度结构的前馈神经网络,因其具有强大的特征表达能力,已广泛应用于图像识别等诸多领域[15-16]。一个典型的卷积神经网络结构如图1所示,包括输入层(input)、卷积层(convolutional layer)、池化层(pooling layer)、全连接层(fully-connected layer)和输出层(output)。其中卷积层和池化层可以有多层连接,即为深度卷积网络。

图1 卷积神经网络结构图

输入层可以处理一维二维甚至多维数据,但是输入数据需要经过标准化处理,标准化处理可以提高神经网络的学习速率,本文将表征振动的声音信号通过多通道信息融合作为DCNN模型的输入。

卷积层作用是对输入特征进行卷积运算。深层卷积神经网络能提取数据中更复杂的特征,通过多层卷积操作逐层将特征抽象出来,卷积层运算如下。

(1)

ReLu激活函数是最常用的激活函数,优点很明显:运算速度快;不会出现梯度问题;与实际神经元作用原理最接近,只有受到正向刺激才能被激活,其表达式为:

(2)

池化层一般是接于卷积层之后,对提取出的特征进行池化处理。本文采用最大值池化来减少数据量并防止模型的过拟合。

(3)

数据经卷积和池化操作后会连接一个全连接层,该全连接层于传统BP神经网络类似,通过全连接的形式使用不同分类算法对输入数据进行分类:

(4)

输出层是最后一层网络,根据Softmax函数得到各类别的概率即可确定分类结果,其表达式为:

O=φ(gvwo+mo)

(5)

式中:O为各类别对应的概率;gv表示全连接层的输出;wo和mo为权值和偏置。

1.2 迁移学习

迁移学习的主要目标是通过使用源域任务中的知识来提高目标任务的性能[17-18]。迁移学习依赖于机器学习算法来完成学习任务,可以用来解决经典的分类问题[19]。此外,还可以保留学习所获取的知识用于其他的相似的任务。如图2所示,迁移学习通过源域训练学习得到模型,将此模型迁移应用于相近机器或者工况下,完成目标域的任务。

图2 迁移学习

本文基于深度卷积神经网络的基础上实现模型的迁移学习。DCNN用于自动处理给定数据集的故障相关特征抽象提取,保存源域学习训练获取的知识用于目标域中,DCNN前馈方式如式(6)和(7)所示。

H=φ(W1P+b1)

(6)

Q=φ(W2H+b2)

(7)

式中:W1和W2权重矩阵;P和Q为输入和输出矩阵;隐含层矩阵为H;b1和b2分别是对应的偏置;φ(x)是ReLu激活函数。损失函数如式(8)所示。

(8)

式中:xi是输入向量;n是训练样本的个数。卷积神经网络目标是通过反向传播和随机梯度下降最小化损失熵的值。

2 多通道信息融合和迁移学习

2.1 多通道信息融合

多通道信息融合是指把四个通道采集的声学信号作为DCNN的输入,其思路框架图如图3所示。其中多维输入矩阵可以看作图片识别中RGB彩色三通道图片,卷积神经网络可以视为一个融合工具,可以从多通道信息中抽象概括出高层次特征。

图3 多通道信息融合思路框架图

2.2 端对端深度卷积神经网络的模型

端对端DCNN模型结构如图4所示。

图4 端到端卷积神经网络结构

从样本中自适应提取特征,其中包括从四个通道中采集的16 000个采样点的时域信号。网络前两层是两个卷积层,每个卷积层有32个滤波器(卷积核的个数),这两层卷积层主要目的是初步提取特征,得到低级的抽象特征。随后紧接着一个最大池化层,用以降低整个数据的量级。池化层之后接有两个卷积层,进一步抽象提取出终极的特征,每个卷积层有64个滤波器。卷积层3和卷积层4之后紧接第二个最大池化层,进一步减小数据量。卷积层5和卷积层6能抽象出高级的特征,此时滤波器个数分别为32和16。之后接有一个平均池化层,为最后的全连接层分类做准备。全连接层与输出层相连接在最后,将卷积池化层逐层抽象出的特征进行分类,实现齿轮故障模式识别。

2.3 基于DCNN-TL的齿轮箱诊断模型

针对目前大多数传统故障诊断方法通常难以充分挖掘故障相关特征信息、常见模型在变工况服役条件下通用性差以及实际工程应用中往往难以获取充足标签数据等问题,提出一种基于深度卷积迁移学习的变工况机车齿轮箱智能故障诊断方法。其具体步骤如下,卷积迁移诊断流程如图5所示。

图5 卷积迁移诊断流程图

(1) 首先采集齿轮箱原始声音信号,将采集的声音信号根据工况不同分为两个数据集,分别用于源域以及目标域;

(2) 将所获信号分段,同时融合四个通道信息的片段作为输入样本;

(3) 将源域样本输入DCNN网络中训练模型,满足训练要求后,保存训练模型把源域所学知识存储;

(4) 随后把所学知识进行知识迁移,用少量目标域样本微调训练模型,使得模型更适用于目标域,把微调后的模型保存(知识存储)用于目标域的故障识别;

(5) 完成故障诊断。

3 实验验证

3.1 齿轮实验台

为尽量减少噪声对本次实验的影响,基于声学信号的齿轮箱故障实验在半消声的实验场地进行。本次实验所用的实验台由两级齿轮变速箱、变频电机、电磁制动器张力控制器、变频器和测试系统组成。测量系统包括四个自由场麦克风,数据采集仪器和数据记录软件。麦克风和数据采集仪器通过卡口螺母连接器接口连接以进行数据传输,并通过专用软件记录数据,整个实验台如图6所示。齿轮箱的结构简图如图7所示,两级齿轮箱的减速比为23/34,高速轴的减速比为18/81,低速轴的减速比为16/83。

图6 齿轮箱实验台

图7 齿轮箱结构简图

此实验中选择低速轴上齿轮作为故障齿轮,分别测试正常齿轮、断齿故障、点蚀故障和磨损故障齿轮四种状态下的声音信号,分为空载和负载两种工况。所有这些齿轮的声音信号都是通过四通道的麦克风阵列采集,四个麦克风呈球形包络面对称排列,依据标准坐标进行设置排步。三种故障类别示意图如图8所示。

图8 齿轮故障类型

调整变频器将电动机的转速设置为恒定1 800 r/min,在半消音环境下,假设齿轮箱其他部分如轴承和轴等受到振动的干扰较小,测量的声音信号可以看作为仅包含齿轮自身啮合的振动。此外通过控制可编程电磁制动器,调节控制电流张力设置为0 mA和0.45 mA,用以模拟空载状态和13.5 Nm的负载状态。麦克风的采样频率为16 000 Hz。每个音频文件采集记录了60 s的数据,对于每种故障那个类型的齿轮,通过四通道数据采集卡采集了40个音频文件。

3.2 数据集处理

以齿轮减速箱低速轴为研究对象,从正常齿轮、断齿齿轮、点蚀齿轮和磨损齿轮收集声音信号。

数据集中包括有无负载两种工况,每种工况包括四类齿轮状态,每类状态采集了四个通道的音频文件,每个通道采集了40个音频文件,每个音频文件包含了60 s的音频数据。将60 s的音频数据分为6个10 s的音频片段。每种工况数据集中一共有960个音频片段。每个音频片段分为10个无重叠区的1秒样本。通过实验验证分析发现1 s长样本在音频处理中是最适合的尺寸长度,所以选择样本长度为1 s。

本文使用该实验所有数据作为数据集。根据有无负载分为无负载数据集A和有负载数据集B。选择样本长度为1 s,将样本输入到端到端卷积神经网络模型中进行训练测试。数据集A和数据集B,一共可以获得9 600×2=19 200个样本。单个样本数据较大,也可以反映出深度网络对大数据处理能力的优越性。

为交叉验证迁移学习的性能,首先以A为训练集,B为测试集验证从无负载工况下迁移知识到有负载工况下的效果,随后,以B为训练集A为测试集验证从有负载工况下迁移知识到无负载工况下的效果。表1和表2分别给出了两种迁移学习下训练集和测试集的样本数量。

表1 A-B迁移学习数据样本

表2 B-A迁移学习数据样本

3.3 模型参数

在网络结构确定的基础上,进一步需要确定网络的相关参数。选用Relu函数作为深度卷积网络模型的激活函数,学习速率大小根据默认设置0.001,批大小根据实验验证最优选择为20。梯度下降时选用Adam(Adaptive Moment Estimation, Adam)优化函数优化损失函数。训练时选择Epoch为10,每个卷积层使用Padding操作使得卷积之后样本长度不变,同时卷积层卷积核的步幅都为1。网络各层详细参数如表3所示。此外,所设计模型运算条件为:CPU采用AMD锐龙2600X6核12线程;GPU采用NNIDIA-GTX-1060显卡,显存为6 GB:运行内存为16 GB。Tensorflow使用的版本为“1.9.0”,python使用版本为“3.6.2”,Anaconda使用的版本为“4.3.30”,Spyder使用版本为“3.3.2”。

表3 端到端卷积神经网络详细参数

3.4 测试结果

将获取的样本输入DCNN卷积神经网络中训练网络,训练集样本个数为1 920,每个Epoch训练完成,用480个验证集验证模型是否过拟合。训练每个Epoch都监测训练集的测试准确率,一旦准确率下降立即停止训练网络,此时网络继续训练没有实际意义,不仅不会增加网络性能,还可能使得网络出现过拟合。

训练过程如图9所示。绿色虚线表示训练集准确率(Accuracy of training data),绿色实线表示验证集准确率(Accuracy of validation data),红色虚线表示测试集损失值(Loss of training data),红色实线表示验证集损失值(Loss of validation data)。训练过程一共训练了53 044个参数,训练过程参数如表4所示,训练集准确率逐渐趋于1,为与验证集准确率曲线区分,两条曲线分开表示,损失值曲线同理也分开表示,测试集损失值逐渐趋于0。

表4 训练过程参数

图9 训练集和验证集损失函数和准确率

在训练过程中保存验证集测试时损失熵值最低时的模型,并将此模型所学习特征做知识迁移。将训练好的模型用另一工况下的数据集中的400个训练样本微调模型参数,得到迁移学习齿轮箱故障识别模型,并用其余2 000个测试样本测试最终得到的迁移学习故障识别模型的识别效果。

图10和图11是未使用另一工况少量样本微调模型参数,直接用另一工况的数据集测试原始模型的故障识别效果。从图10A-B未迁移知识测试结果中看出,没有对模型进行参数微调的迁移学习有大量错误识别,有部分断齿故障被错误识别为疲劳故障。从图11B-A未迁移知识测试结果中可以看出,把大量点蚀故障错误识别成断齿故障,所有疲劳故障都错误识别成为断齿故障,更为严重的是大量无故障样本被识别为点蚀故障和断齿故障。测试结果表明未进行模型参数微调,模型无法准确识别另一工况下的齿轮箱故障。对迁移知识之后的模型进行参数调整是必要的,图12和图13是参数调整之后模型对测试数据的测试结果。

图10 A-B未迁移知识混淆矩阵

图11 B-A未迁移知识混淆矩阵

图12 A-B迁移学习混淆矩阵

图13 B-A迁移学习混淆矩阵

从图12A-B迁移学习和图13B-A迁移学习结果中看出,两种工况互相迁移学习的测试结果都达到了100%的故障识别率,相比于未进行模型参数微调的测试结果有很大的准确率提升。表5是迁移学习参数调整测试过程的测试报告。如测试报告显示,无论是常规的评定参数准确率、召回率和F1分数,还是微平均、宏平均和权重平均都是100%的值,迁移知识微调后的模型是齿轮箱故障识别的最优模型。

表5 测试报告

使用目标域工况下的少量样本微调模型能准确识别源域工况下和目标域工况下的多重工况故障,模型通用性增强。

4 方法对比

为进一步凸显迁移学习在变工况齿轮箱故障识别的优势,通过与传统的机器学习方法对比。黄良沛等[20]用小波对样本进行三层分解,将分解得到的8个分量的特征参数作为特征向量输入BP神经网络进行故障识别。于德介等[21]提出一种基于EMD和SVM的齿轮故障诊断方法,对原始信号进行EMD分解,将得到的多个IMF分量取能量值并择优作为SVM的输入训练模型进而识别齿轮的故障类型。同时仅用DCNN诊断模型,对迁移知识模型不进行参数调整,直接用某一工况下的样本训练,用另一工况下的样本测试模型。对比方法的准确率结果如表6所示。

表6 方法对比结果

直接用DCNN训练测试,没有进行迁移学习的参数调整,运用无负载数据集A中的样本作为训练集,用有负载数据集B中的样本为测试集测试齿轮箱故障,识别准确率98.1%;相反用数据集B做训练集,数据集A做测试集,识别准确率只有54.2%。运用基于WP和BP的方法用数据集A训练模型,数据集B测试,识别准确率为88.3%;使用数据集B训练模型,数据集A测试,识别准确率为81.7%。运用基于EMD和SVM的方法用数据集A训练模型,数据集B测试,识别准确率为64.2%;使用数据集B训练模型,数据集A测试,识别准确率为45.6%。基于EMD和SVM方法识别效果较差,基于WP和BP方法较好,基于DCNN的方法从A迁移至B效果较好,从数据集B-A效果较差,总体来说这三种方法都无法满足变工况的齿轮箱故障识别精度。迁移DCNN无论从数据集A-B,还是从数据集B-A都能达到100%的识别准确率,能够满足齿轮箱故障识别要求。

表7和表8是每种方法实现故障识别需要的平均时长。DCNN由于将特征提取这一步骤隐含在训练中不需要额外的特征提取步骤,而是通过卷积神经网路自适应提取抽象特征,故所需时间远小于其它两种传统机器学习方法。

表7 A-B方法时长对比

表8 B-A方法时长对比

5 结论

为实现机车车辆齿轮箱变工况故障诊断,提出一种基于深度卷积迁移学习的变工况齿轮箱智能故障诊断方法。该方法将多通道信息进行有机融合,搭建深度卷积网络从大量数据中自适应泛化抽象数据特征,使用不同工况下少量多通道信号样本预训练源域模型,由源域向目标域做特征迁移映射,再将目标域样本输入预训练DCNN模型进行故障识别。通过齿轮箱故障实验声学数据验证,该方法能快速准确地实现变工况齿轮智能故障诊断,并且与传统的机器学习方法进行对比, 说明了知识迁移的必要性和有效性。本文提出的智能故障诊断模型具有一定的优势,为齿轮的故障监测提供了一种新的方法。