改进一维卷积神经网络与双向门控循环单元的轴承故障诊断研究

2023-07-05 05:53杨云丁磊张昊宇
机械科学与技术 2023年4期
关键词:池化层特征提取故障诊断

杨云, 丁磊, 张昊宇

(华东交通大学 电气与自动化工程学院,南昌 330033)

滚动轴承是旋转器械的关键组成部分,它的状态是否正常直接决定了整个旋转机械的运行状况。由于滚动轴承长时间的在复杂多变的负载下高速的旋转,常常因为冲击交变载荷、热疲劳和机械磨损等影响而发生各种各样的故障[1]。一旦故障发生,将会造成重大的事故。带来极大经济损失,更有可能引发安全危机。因此准确且及时的诊断出轴承的问题显得尤为的重要。

近年随着计算机技术和传感器技术的不断发展,机械设备故障诊断领域进入“大数据”时代[2],基于数据驱动的智能故障诊断方法以及逐步成为故障诊断领域的主流应用[3]。轴承故障诊断的实质是模式识别,包括信号采集,特征提取与特征选择和状态识别,其中特征提取与特征选择尤为重要,其效果的好坏直接影响到模式识别的成败[4]。目前常用的特征提取方法包括小波变换法(Wavelet transform, WT)[5]、傅里叶变换法(Fast fourier transform, FFT)[6]、经验模态分解法(Empirical mode decomposition, EMD)[7]和集合经验模态分解[8]等。特征选择是研究如何从大量的特征参数中挑选出那这些对识别最为有效的特征,从而降低特征空间的维数并提高故障识别率。特征选择包括两步:1) 特征评价; 2) 阈值确定。其中阈值确定尤为重要[4]。常用的特征选择的方法包括:主元分析法(Principal component analysis, PCA)[9]及其变形方法等。最后将提取出来的特征输入到诸如支持向量机(Support vector machine, SVM)、BP(Back propagation)神经网络和邻近算法等故障分类器中去进行模式识别,通过反复的迭代训练最终输出分类结果[3]。以上的方法虽然能够实现故障诊断,但是其特征提取操作简单,而且需要大量的专家经验十分依赖人工,这就导致其提取能力有限无法实现泛化。就目前来看,基于浅层网络的学习方法已经无法满足当前的“大数据”时代下故障诊断的需求。

自从2006年,文献[10]提出了深度学习理论,深度学习的浪潮随之而来。大量的深度学习的算法与模型已经被广泛的应用于图像识别,语音识别,计算机视觉等领域。深度学习是通过模仿人脑的学习方式,构建深层网络模型,加之利用“大数据”训练模型,而获得数据中隐含的特征,是一种特征提取与模式识别为一体的智能模型[11]。卷积神经网络是深度学习的重要分支之一。因其独特的卷积结构、优秀的特征提取能力和较好的泛化能力,已经被广泛的应用于机械故障诊断。宫文峰等[12]提出了一种改进CNN的方法,将全局均值池化技术代替传统CNN的全连接层部分,并运用数据增强、Dropout等深度学习训练技巧防止模型过拟合,以实现滚动轴承数据的快速智能诊断。肖雄等[2]提出一种基于二维灰度图及辅助分类生成对抗网络的数据增强方法,减少了网络训练参数量,提高了故障识别准确率及网络训练速度。孙洁娣等[13]提出了一种深度卷积神经网络与长短期记忆网络(Long short-term memory, LSTM)相结合的智能故障诊断方法,利用卷积神经网络优秀的特征提取能力和长短期记忆网络学习特征中的时间依赖关系实现了高精准度的轴承故障诊断。

但长短期记忆网络(LSTM)有着结构复杂,导致收敛速度较慢的缺点。门控循环单元(Gated recurrent unit, GRU)是LSTM的一种变体,在保证了准确性的同时优化了LSTM的结构,提高了收敛速度。应用在轴承故障诊断方面能取得更好的效果。GRU网络只能考虑先前轴承的状态对某一时刻故障诊断的影响,而轴承故障诊断不仅仅由先前的状态所决定,未来的状态也与故障诊断因素相关联。并且GRU无法充分提取轴承故障特征数据之间存在潜在关联性的缺点。

针对上述方法存在的不足,本文提出一种基于改进卷积神经网络(CNN)、双向门控循环单元(Bidirectionalgated recurrent unit, BiGRU)与支持向量机(SVM)相混合的轴承故障诊断的方法。记为改进1DCNN-BiGRU-SVM。该方法具有时间和空间的特征表达能力,能够更为充分的利用一维振动信号的序列信息并挖掘隐藏的时间信息。本文采用该方法建立模型,以原始的一维振动信号作为输入,通过改进CNN自适应的提取特征信息;采用BiGRU充分利用信号间的序列关系获取更多的信息;通过SVM进行故障诊断,获得更加准确地结果。

1 基础理论

1.1 卷积神经网络

卷积神经网络是一种包含卷积计算且具有深度结构的前馈型神经网络,是深度学习的代表性网络之一[14]。卷积神经网络具有表征学习能力和监督学习能力,因此相较传统的智能算法有着更加强大的特征提取能力。经典的卷积神经网络包括卷积层、池化层、全连接层和Softmax层,其具体原理如图1所示。

图1 卷积神经网络基本结构

1.1.1 卷积层

卷积层是卷积神经网络的核心,包括卷积和激励操作。使用卷积核对输入图像上所有的像素点历经一遍,将输出图像加上一个偏置后,用激励函数进行非线性变换,得到特征图像。卷积层运行的数学表达式为

(1)

1.1.2 池化层

池化层的主要目的是降维,减少网络中的参数,防止过拟合。同时还能突出提取特征。常用的池化层包括最大池化层(Max pooling)和平均池化层(Mean pooling)。本文采用最大池化层表达式为

max pooling(f[x])=max(f[x])

(2)

式中:max pooling为最大池化层;f[x]为第x个像素;max为取最大值。

1.1.3 全连接层和Softmax层

输入的图像经过多个卷积层和池化层处理后,成为一维特征向量。通过全连接层和Softmax层进行分类。全连接层和Softmax层计算过程为

ak=f(ωk×xk-1+bk)

(3)

式中:xk-1为第k-1的输入;ak为第k层的输出;ωk为第k层的权重系数;bk为第k层的偏置系数;全连接层为隐含层时;f(·)为激活函数ReLU;全连接为输出层时;f(·)为Softmax函数。

1.2 改进卷积神经网络

为了能对轴承故障进行快速的诊断,本文采用全局均值池化层(Global average pooling,GAP)替换传统卷积神经网络中的全连接层。最后一个卷积层后面接入全局均值池化层,将减少卷积神经网络中80%以上的参数,提高诊断的速度,防止过拟合的发生。

全局均值池化层与平均池化层的操作类似。不同于以窗口的形式进行均值的提取,是对整个特征图进行全局平均值的提取,使得每个分类在特征图中的联系更为明显。并且因为参数的减少更有利于后面SVM对数据进行分类。

1.3 双向门控循环单元模型

循环神经网络(Recurrent neural network, RNN)是一类以序列数据作为输入,在序列的演进方向进行递归且所有节点按链式连接的递归神经网络[15]。由于经典的RNN模型无法解决长时依赖和梯度消失问题,学者提出了长短期记忆网络,LSTM通过门函数控制历史数据,具有时间处理能力[12]。包括遗忘门、输入门和输出门。

1.3.1 门控循环单元(GRU)

近年来,针对LSTM存在结构复杂、参数多、收敛速度慢等问题。提出门控循环单元(GRU),GRU是LSTM衍生出的一种变体,能够更好地捕捉序列中时间步距离较大的依赖关系。GRU由更新门和重置门组成,由于更新门替换了LSTM的遗忘门和输入门。因此在保持了LSTM长期记忆的特点的同时,简化了结构,减少了参数,加快了收敛的速度。GRU结构图如图2所示。

图2 GRU结构图

zt=σ(wzxt+wzht-1+bz)

(4)

rt=σ(wrxt+wrht-1+br)

(5)

(6)

先前状态ht-1的表达式为

(7)

式(4)~式(7)中:σ为sigmoid函数,输出区间为[0,1],输出“1”表示完全保留,“0”表示完全遗忘;tanh为双曲正切函数,输出区间[-1,1];b为偏置参数;w为权重系数;⊗为Hadamard函数,对应元素相乘的积。

1.3.2 双向门控循环单元(BiGRU)

故障信息在卷积神经网络中都是按照序列从前往后单相传播,然而某一时刻的故障的故障信息不仅与先前的信息有关,也和未来的信息有关。传统的GRU网络只能学习过去的信息对故障诊断的影响,无法学习未来的信息。

因此本文采用双向门控循环单元(BiGRU),BiGRU在结构上相当于与两个方法相反的GRU的组合。在BiGRU的网络中,输入时会提供两个方法相反的GRU,输出也是由这两个GRU共同决定。使用BiGRU不仅能够学习过去信息对故障诊断的影响,也可以学习未来的信息的影响,更有利于提取故障之间更深层次的特征联系,进一步提高诊断的准确性,其具体原理如图3所示。

图3 BiGRU结构图

(8)

(9)

输出ht表达式为

(10)

式(8)~式(10)中:xt为t时刻的输入;ht为t时刻的输出;Wa为前向传输隐藏层的权重;Wb为后向传输隐藏层的权重;bt为ht输出的偏置量。

1.4 支持向量机(SVM)

支持向量机是由Vapink等提出的建立在统计学基础上有着严谨数学推导的二分类模型[16],通过统计学理论中的结构最小原理和VC维理论构造最优决策函数解决二分类问题。相比传统CNN中采用的Softmax层进行分类,SVM在小样本条件下有着更好的鲁棒性和更好的分类性能[17]。因此本文将双向门控循环单元输出的特征信号作为SVM的输入数据,通过使用核函数和软间隔的方法,在高维空间中寻找到最优软间隔最大超平面,完成故障分类。SVM的数学表达式为:

(11)

式中:ω为优化的参数;f(x)为非线性变换,将样本映射到高维空间;C为惩罚系数;b为偏移量;ε为松弛变量。

本文采用RBF作为核函数,构建的分类函数表达式为:

(12)

式中:σ为核函数宽度参数;α为拉格朗日乘子。

2 改进1DCNN-BiGRU-SVM轴承故障诊断的模型设计

本文针对传统智能轴承故障诊断的局限性、卷积神经网络对动态时间数据利用不充分及Softmax分类器只是将数据进行符合概率分布的简单,无法进一步提升诊断的准确性[17]等问题,提出1DCNN-BiGRU-SVM网络模型用于轴承故障诊断。该网络包括:两个卷积层,两个池化层,一个BiGRU,一个全局均值池化层,一个全连接层和多分类SVM组成,结构图如图4所示。

图4 改进1DCNN-BiGRU-SVM模型结构图

上述模型由1DCNN、BiGRU网络和SVM组成,能够学习原始数据中深层次的特征信息、动态时间信息和更好的进行特征分类。首先,将一维振动信号输入改进1DCNN进行特征提取。其次,将特征信号输入BiGRU中,进行时间序列上的进一步学习。最后,将数据输入SVM中进行特征分类。故障诊断具体流程图如图5所示。

图5 故障诊断流程图

故障诊断步骤如下:

1) 信号采集。

获取滚动轴承的振动信号,将不同状态的振动数据分割成相同长度的时间序列信号,并分为训练集和测试集输入到模型之中。

2) 特征提取。

通过一维卷积神经网络强大的特征提取能力对输入的原始信号进行特征提取,无需依赖人工经验的进行特征提取。相比于采用传统的1DCNN,本文提出采用全局均值池化层替代传统1DCNN的全连接层,减少了参数、加快了诊断速度。

3) 时间序列。

将1DCNN网络输出的特征信号输入BiGRU中进行学习,滚动轴承振动信号具有一定的周期性而且正、反信号传递的信息不尽相同,BiGRU能够通过学习双向信号的内在特征,进一步提升故障诊断的准确性。

4) 故障检测。

将BiGRU输出的数据通过注意力机制的选择,输入到SVM中进行特征分类。相比在1DCNN中常用于分类的Softmax层,SVM鲁棒性更强,分类效果更好。

3 实验结果与分析

3.1 实验数据简介

本文采用的数据集是美国凯斯西储大学提供的轴承数据集。西储大学的测试设备包含一个电机,一个耦合器和其他设备。加速度计用于收集不同故障类型的信号。驱动端轴承(DE)加速计沿垂直方向安装在DE壳体上,本文主要采用驱动端轴承故障诊断的数据,其故障采样频率为12 kHz。共计3种故障类型: 外圈故障、内圈故障、滚动故障,每种故障有着3种不同大小的故障尺寸,以及1种正常情况,故是1个10分类问题。滚动轴承实验台如图6所示,其轴承故障数据集基本信息如表1所示。

表1 滚动轴承故障数据集

图6 滚动轴承实验台

3.2 故障诊断结果分析

根据上述方法,将表1的数据输入1DCNN-BiGUR-SVM模型中进行训练,本实验采用Adam优化器,采用设置系数为0.2的Dropout和注意力机制防止过拟合,激活函数为ReLU,SVM的惩罚系数设置为C=10。故障诊断结果如表2所示。

表2 改进1DCNN-BiGRU-SVM模型诊断结果

故障诊断在训练集和测试集上的准确率和损失,如图7和图8所示。由图可见,模型经过5次训练之后,在训练集和验证集的故障诊断准确率均已经达到 80%以上,之后的训练中模型准确率总体呈上升趋势,损失值也呈下降趋势。最终模型在15次之后的训练趋于稳定,测试集的损失值浮动趋向稳定。由此可知,模型的诊断精度较高,同时具有较好的鲁棒性。

图7 训练集和验证集损失曲线

图8 测试集和验证集准确率曲线

为使得正确分类与错误分类能够进一步得到量化,引入多分类混淆矩阵[18],如图9所示。混淆矩阵能较为全面的反映误判的故障类型和准确率等信息。

图9 故障诊断多分类混淆矩阵

图9中,横坐标表示预测的故障类型,纵坐标表示实际的故障类型。有10个故障类型,每种故障的测试样本数量为100,共1 000个样本。对角线上是每一种故障诊断的正确数量。由图可见,1 000个样本中只有一个预测错误,将3类故障误判成了4类故障。诊断的准确率达到99%以上,具有良好的诊断性能。

3.3 与其他模型对比

3.3.1 故障诊断结果对比

本文在相同的数据集和其他条件相同的情况下,进行了传统1DCNN-BiGRU-Softmax的模型测试。训练500次的诊断结果和诊断时间与本文提出的方法对比如表3所示,并采用准确率曲线和损失率曲线对两种方法的诊断结果进行比较,如图10和图11所示。

表3 模型参数数量与诊断结果

图10 准确率对比曲线

图11 损失率对比曲线

对比表3可知,在准确率方面:传统1DCNN-BiGRU-Softmax模型的准确率达到了98.6%,而本文设计的方法使得准确率提升到了99.8%;在时间方面:本文设计的方法,诊断时间约为57 s。由上表可知,诊断时间减少了约22.2%。虽然本文采用SVM进行分类,但诊断时间并没有增加。此外,由图10和图11可见,在准确率方面:本文提出的方法,准确率上升速度更快,且10次训练之后,更为稳定。在损失率方面:传统1DCNN-BiGRU-Softmax模型损失率下降较慢,损失率更高且存在波动。实验表明,本文提出的改进1DCNN-BiGRU-SVM的方法在提升了准确率的同时减少了诊断时间,具有更好的诊断性能。

3.3.2 特征提取可视化对比

卷积神经网络虽然有强大的自提取能力,但往往被当成黑箱子对待。为评估改进1DCNN-BiGRU-SVM的方法特征学习过程,并进一步对比两种方法对故障提取的效果。采用t-SNE技术[19]进行特征数据降维可视化。本实验以测试集中1000个原始故障数据作为输入,通过t-SNE降至二维进行可视化输出,其结果如图12所示。

图12 t-SNE降维可视化

图12a)为原始故障数据分布,图12b)为经过卷积层后的故障数据分布,图12c)为SVM分类后的故障数据分布,图12d)为Softmax分类后的故障分布。通过图12可知,故障数据从一开始的杂乱无序逐步分类聚集在了一起。图12d)中可以看出,经过Softmax的分类,仍然有部分数据误分类在了一起。而图12c)中,经过SVM分类的数据被准确地区分,得到10个数据群。由此可见,本文提出的改进1DCNN-BiGRU-SVM模型对原始数据有着良好的自提取能力,分类效果也十分显著。

3.3.3 不同负载下的性能对比

轴承在实际的应用过程中,往往会应用于不同的工作状态。这也将导致振动信号会发生改变,使得诊断更加困难。本文在4种不同负载的情况下,采用104个数据,建立4个数据集,对VMD(Variational mode decomposition)排列熵+SVM、传统1DCNN、传统1DCNN-BiGRU-Softmax和包括本文模型在内的4个模型,进行了对比实验。通过故障诊断准确率的平均值作为评估的标准。并引用文献[13]中的传统方法SVM所得的结果进行对比,实验结果如表4和图13所示。

表4 不同模型在不同负载下故障诊断结果

图13 不同模型在不同负载下故障诊断结果

由表4和图13可见,本文提出的方法在不同负载的情况下,仍然保持着最高的准确率,且最为稳定,准确率的波动仅为0.6%。相比SVM、VMD排列熵+SVM、传统1DCNN和传统1DCNN-BiGRU-Softmax准确率的波动分别为2.8%、2.6%、2.1%和1.3%。由此可证明在不同情况下,改进1DCNN-BiGRU-SVM模型准确率更高,稳定性更好,更适用于不同的情况。

4 结论

1) 采用一个全局均值池化层和一个多分类的SVM分类器替换了传统1DCNN中的全连接层和Softmax层。提高了故障诊断速度,提升了诊断的准确率。

2) 引入BiGRU充分挖掘在特征信号中的时间序列信息,增强前后信息之间的联系。以此实现更为准确地轴承故障诊断。

3) 通过与其他模型进行对比实验,该算法的准确率为99.8%、诊断时间约为57 s,均优于其他模型。这进一步证实了该方法的准确性与优越性。

猜你喜欢
池化层特征提取故障诊断
卷积神经网络模型研究分析*
基于卷积神经网络的纸币分类与点钞
基于深度学习卷积神经网络的人体行为识别研究
基于Daubechies(dbN)的飞行器音频特征提取
基于全卷积神经网络的SAR图像目标分类*
Bagging RCSP脑电特征提取算法
因果图定性分析法及其在故障诊断中的应用
基于MED和循环域解调的多故障特征提取
基于LCD和排列熵的滚动轴承故障诊断
基于WPD-HHT的滚动轴承故障诊断