张海龙,袁德成
(沈阳化工大学 信息工程学院, 辽宁 沈阳 110142)
随着工业4.0的快速发展,生产机械设备变得越来越复杂化、集成化和自动化。滚动轴承是生产设备的重要部件,发生故障后设备可能无法工作。甚至导致整个生产系统故障[1]。因此对于滚动轴承故障诊断具有极大的现实指导意义。
根据轴承的振动信号进行轴承故障诊断的方法主要分为两部分:特征提取和分类[2]。传统故障诊断方法主要是依据经验分解[3]、小波分解、傅里叶变换等方法进行人工特征提取,然后利用支持向量机、人工神经网络[4]等分类器进行故障分类。传统故障诊断方法在特征提取中需要先验知识,传统机器学习理论的泛化性能较差。
近年来卷积神经网络(convolutional neural network,CNN)在图像和视频领域上展现了强大的特征提取能力,因此国内外学者在故障诊断领域展开了此方法的研究。Chen等人[5]将一维振动信号被转换为二维图像数据作为CNN的输入。Ding等人[6]通过结合小波包变换和相空间重新构建二维的小波包能量图像,然后通过深度卷积网络提取可识别特征。Levent等人[7]介绍了直接应用于测量振动信号的一维CNN,用于轴承故障诊断。Zhang等人[8]提出了一种具有宽第一层核的深度CNN,用于噪声和变化环境中的故障诊断。
由于轴承信号是时间序列,传统的卷积神经网络难以提取到时序特征信息。长短时记忆神经网络(long short-term memory,LSTM)是递归神经网络(recurrent neural network,RNN)的一种变体,可以直接从多变量数据中提取特征并获得长期相关性,更适合于序列数据。Cao等人[9]提出从信号中提取时域特征,然后输入到LSTM 网络中进行齿轮箱的故障诊断。郑直等[10]提出一种利用改进鲸鱼算法优化LSTM的故障诊断方法。侯鑫烨等[11]利用自适应白噪声对振动信号进行分解,结合相关系数筛选IMF分量构造新样本输入到LSTM模型中。双向长短时记忆网络(bidirectional long short-term memory,BiLSTM)是双向的LSTM,它能够从正向和反向学习,这意味着可以更好地利用序列数据前后之间的内部关系。
针对CNN网络提取特征单一且未充分利用时序特征的问题,提出了一种基于多尺度卷积神经网络(Multi scale convolutional neural network, MCNN)和BiLSTM融合的故障诊断方法。该方法允许原始振动数据直接输入,无需预处理。首先振动信号通过多尺度卷积神经网络进行特征的提取;其次BiLSTM模块提取特征的前后之间的内部关系;最后全连接层输出得到故障分类结果。实验结果表明,该方法在多种场景下具有良好的诊断泛化性能。
CNN是一种具有卷积计算和深层结构的前馈神经网络,一维CNN对于从序列数据中提取特征非常有效,每个CNN隐藏层包括一个卷积层和池化层。卷积计算过程如下:
(1)
式中:K和b分别是第l层网络的i滤波器的权重和偏差,x表示第l层中的第j个输入。
卷积层后面应用一个池化层来选择和过滤提取的特征。最大池化层是最常用的池化操作,它选择最大统计量来获取该区域的局部特征,减少参数个数。最大池转换描述如下:
pl(i,j)=max(j-1)W+1≤t≤jW{al(i,t)}
(2)
式中:a代表l层的第i通道的t神经元,W是池化的宽度,p代表池化操作l层中神经元的对应值。
BiLSTM能够获取时序信息的双向特征,它是由前向LSTM与后向LSTM组合而成。因此它可以更好地利用序列数据前后之间的内部关系。LSTM模型结构如图1所示,BiLSTM模型结构如图2所示。
图1 LSTM结构
图2 BiLSTM结构
LSTM是改进的传统递归神经网络,它可以捕获输入数据的整个历史信息。为解决RNN反向传播中可能出现的梯度消失或梯度爆炸问题,LSTM添加了输入、输出和遗忘门。输入门、遗忘门、输出门、隐藏门更新表达式如下:
it=σ(Wixt+V)iht-1+bi)
(3)
ft=σ(Wfxt+Vfht-1+bf)
(4)
ot=σ(Woxt)+(Voht-1+bo)
(5)
ξt=tanh(Wξxt+Vξht-1+bξ)
(6)
ct=ft·ct-1+it·ξt
(7)
ht=ot·tanh(ct)
(8)
式中:b表示偏差;W和V分别表示输入和隐藏状态权重,σ为sigmoid激活函数。在第t更新步骤中,输入门i、遗忘门f、输出门o和单元状态c由步骤n-1的输入x和隐藏状态更新。
MCNN-BiLSTM诊断模型包含特征提取与故障分类两个模块。在特征提取模块中包含三个通道的一维卷积神经网络,由于大卷积核有较大的感受野能自动提取低频特征,较小的卷积核能学习高频特征,因此每个通道具有不同内核大小和深度的一维CNN。其中MCNN1使用卷积核尺寸为1×3; MCNN2使用卷积核尺寸为1×7; MCNN3使用卷积核尺寸为1×40和1×20。将MCNN的三个通道的特征向量融合后输入到故障分类模块中。
在故障分类模块中包含BiLSTM与全连接层,BiLSTM神经元数量为40,全连接层为20和10。首先MCNN提取的特征信息输入到BiLSTM网络,BiLSTM能够提取特征的前后之间的内部关系,充分学习特征在时间上的依赖性,使特征信息更加丰富。其次全连接层构建了特征信息与故障类型的映射,最后通过Softmax分类器输出轴承状态种类。MCNN-BiLSTM模型如图3所示。
图3 MCNN-BiLSTM模型结构
实验是在在RTX2060显卡环境下进行的,使用的深度学习框架是Tensorflow。实验采用凯斯西储大学的数据集,采样频率为48 kHz,电机负载为0/1/2/3HP工况。轴承状态共有10种,其中轴承故障状态包含内圈故障、外圈故障(6点钟方向)及滚动体故障,每种故障类型分别对应0.007,0.014,0.021inch三种故障尺寸。该文采用重叠采样的方法扩充数据集,其中每个样本包含1600个数据点,按照7∶2∶1的比例划分训练集验证集测试集。具体的实验数据如表1所示。
表1 实验数据
为了数据在模型训练中更加稳定,采用z-score标准化对数据进行预处理。数据经过处理后符合标准正态分布,标准化公式为:
(9)
其中:μ为样本数据的均值;为样本数据的标准差。σ为了减少模型训练参数的数量以及提高训练效率,数据在输入模型前进行了下采样,下采样后每个样本为400个数据点。
为了验证MCNN-BiLSTM模型在多种场景下对轴承故障诊断的有效性,将其与CNN、LSTM、BiLSTM、以及CNN-BiLSTM模型进行对比。其中CNN与CNN-BiLSTM模型使用的卷积核尺寸为1×3,卷积核数量与深度与该模型一致。LSTM模型与BiLSTM模型的神经元数量、全连接层参数与该模型一致。
混合负载场景是将4种工况下的数据混合,实验样本数为20 000。实验结果如表2所示,其中LSTM与BiLSTM模型其训练时间较短,拥有一维卷积网络的模型准确率较高。与CNN模型相比,CNN-BiLSTM模型准确率更高,这是由于BiLSTM能进一步学习特征的时间依赖性,但其输入到全连接层参数变多,因此训练时间也是有所增加。与CNN-BiLSTM模型相比,MCNN-BiLSTM模型训练时间有且标准差最低具有良好的稳定性。这表明了MCNN-BiLSTM模型能更快的提取全面信息进行学习,在保证了相对较高学习效率下,取得了最优的诊断结果。
图4是MCNN-BiLSTM模型在混合负载环境下的故障识别混淆矩阵。该模型在正常状态、0.021 inch外圈故障、0.007 inch外圈故障、0.021 inch内圈故障以及0.007 inch内圈故障的准确率达到了100%。在所有类别中的平均准确率达到了99.2%,这表明了该模型能够较好的适应多种工况环境。
轴承在实际运行时,经常处于变负载的状态,为进一步验证模型诊断的泛化性能,将每种工况单独训练,用其余工况进行预测。
其中,1HP负载为A数据集,2HP负载为B数据集,3HP负载为C数据集。图中A-B表示以数据集A为训练样本,以数据集B进行测试。
由图5和表3可看到,BiLSTM模型在自适应领域中表现较差平均准确率为43.6%、46.4%。与该两种算法对比下,拥有卷积网络的自适应能力较强,最低识别准确率达到了84%。其中MCNN-BiLSTM模型在6种变负载实验中均取得了最好的识别效果,这是由于该模型不仅考虑了特征信息的时间依赖性,同时进行了多尺度特征的提取。这表明了该模型有良好的自适应能力。
图5 变负载场景对比
表3 变负载场景测试结果
针对传统故障诊断方法提取特征不丰富以及未充分利用时序特征的问题,提出了一种基于多尺度CNN和BiLSTM模型融合的故障诊断方法。经过实验验证与分析得出的主要结论如下:(1)该模型克服了单一尺度CNN学习特征信息不丰富的问题,同时融合BiLSTM模型进一步提取时序特征信息。(2)采用标准差标准化以及降采样的预处理方法,降低了模型参数,提高了模型的训练稳定性与效率。(3)由实验可知,与单一尺度CNN和序列模型相对比,所提方法在多种实验场景下取得了最优的结果。这表明该模型具有较高的故障诊断精度与良好的自适应工况能力。