基于CNN-BiLSTM网络及注意力机制的智能滚动轴承剩余寿命预测方法*

2021-10-27 08:39赵广谦姜培刚林天然
机电工程 2021年10期
关键词:注意力卷积轴承

赵广谦,姜培刚,林天然

(青岛理工大学 机械与汽车工程学院,山东 青岛 266000)

0 引 言

作为旋转机械的核心部件,滚动轴承的健康状态对设备能否正常运行起着关键作用。一旦轴承发生故障,轻则导致设备停机,重则造成灾难性后果[1-3]。因此,根据状态监测数据对轴承剩余寿命(RUL)进行精准预测,能在保证轴承健康运行的情况下节省大量维护成本。

现有的滚动轴承RUL预测方法大致可分为两类,即基于模型的方法和数据驱动的方法:

(1)基于模型的方法。主要依赖于精确的轴承退化数学模型,根据收集到的数据得出模型的参数[4]。朱朔等人[5]通过对连续隐半马尔科夫模型算法进行改进,并引入高斯混合概率密度函数,获得了准确度较高的轴承RUL预测结果。任子强等人[6]提出了一种融合多传感器数据的Wiener过程模型,对航空发动机进行了剩余寿命预测;同时,利用贝叶斯公式对模型参数进行了实时更新,极大地降低了RUL预测的相对均方误差。ZIO E等人[7]提出了一种基于粒子滤波的剩余使用寿命估计方法,最大限度地降低了机器状态预测的误差。然而,对于复杂非线性机械系统,建立一个准确的RUL数学预测模型需要充分了解该机械系统的退化机理,这往往是非常困难的,极大限制了这类方法的实际工程中应用[8]。

(2)数据驱动的方法。不需要建立精确的数学模型,而是依赖于传感器采集到的温度、转速和轴承振动幅度等信号,并从中分析轴承的当前工作状态,试图找出运行状态与RUL期望值之间的关系。目前,统计工具和机器学习是预测RUL常用的数据驱动方法。邱晓梅等人[9]提出了一种基于相关系数和BP神经网络模型的轴承剩余使用寿命预测方法。FUMEO E等人[10]建立了一种在线支持向量回归(OL-SVR)的CBM算法,并达到了精度与计算资源之间的平衡。

近年来,随着计算机技术的快速发展,深度学习在故障预测与健康管理(prognostics health management,PHM)领域崭露头角。深度学习具有极强的非线性拟合能力,可以利用原始信号直接进行轴承的寿命预测,不受人工干预自动提取特征,避免了人工提取特征效率低、主观性强及过度依赖先验知识等问题。LI X等人[11]采用包括短时傅立叶变换和多尺度特征提取的深度学习模型,对轴承的RUL进行了预测。张继冬等人[12]将卷积神经网络中的全连接层改为卷积层和池化层,减少了网络需要训练的参数。然而,上述方法在轴承RUL预测中并不是最适合的。

滚动轴承的振动数据属于一维时序数据,神经网络中最适合处理时序数据的是RNN模型。利用对时序特征敏感的特性,RNN在语音识别、机器翻译等时序任务中均取得了优异的效果[13]。

同时,注意力机制能够使模型在有限的资源下突出输入特征的关键部分,可视为信息筛选的过程,从而达到准确预测的目的。

本文将CNN、RNN与注意力机制相结合,提出一种基于注意力机制的CNN-BiLSTM模型(CNN-BiLSTM-AM),对序列信息进行时间和空间特征提取;并且采用注意力机制实现对模型注意力资源的合理分配,加强关键信息对轴承RUL预测的影响;通过分析一组公开发布的轴承退化数据集,以验证本文所提方法的有效性和在轴承剩余寿命预测方面的优越性。

1 理论背景

1.1 卷积神经网络

卷积神经网络是一种包含卷积运算的前馈神经网络,广泛应用于语音识别[14]、图像分类[15]、自然语言处理[16]和机械故障诊断[17]等领域。

典型CNN模型的结构如图1所示。

图1 典型的CNN模型结构

由图1可知:典型的CNN模型主要由输入层、卷积层、池化层、全连接层和输出层5个部分组成。卷积层和池化层通常成对出现,用于对输入特征信息的卷积和降维运算;而模型的最后部分由全连接层和输出层构成,用于将模型训练结果输出。

卷积神经网络通过卷积运算从输入特征图中提取数据块,然后对所有的数据块应用相同的变换,生成输出特征图,并对输出特征图进行空间重组,输出特征图中的每个空间位置都对应于输入特征图中的相同位置。因此,CNN的卷积层能够很好地感知图像的局部特征,感知数据点与周围数据点之间的关系[18]。卷积神经网络具有局部连接、权值共享等特性,因此可以大大降低计算规模,提高其运算效率。

假设CNN模型的输入为X,那么卷积层的输出计算公式如下:

Cn=σ(Wn⊗X+bn)

(1)

式中:Cn—卷积层输出的第n个特征图;σ(·)—激活函数;Wn—当前卷积层第n个卷积核的权重矩阵;bn—当前卷积层第n个卷积核的偏置;⊗—卷积运算;n—卷积核的个数。

池化层的主要作用是对卷积层输出的信息进行降维处理,去除冗余信息的同时加快计算速度。其计算公式如下:

Pn=maxCn

(2)

式中:Pn—池化层的输出;Cn—池化层的输入。

1.2 长短时记忆网络和双向长短时记忆网络

在卷积神经网络运算过程中,状态总是由前向后传播,这意味着在CNN网络中,信息只是单向流动。在每个计算步长内,CNN只考虑当前输入,而忽略了之前的退化信息。因此,卷积神经网络无法模拟不同机器退化状态的前后相关性[19]。而RNN模型能够保留模型对输入模式的记忆,其变体LSTM网络则可进一步解决RNN结构存在的梯度消失问题[20]。

LSTM网络的基本结构如图2所示。

图2 LSTM的基本结构

由图2可知,与RNN网络相比,LSTM网络新增了细胞状态和3种门结构[21]。

LSTM网络中的遗忘门ft决定多少比例的信息会保留在网络中,其计算公式为:

ft=σ(Wf·[ht-1,xt]+bf)

(3)

式中:xt—输入序列;ht-1—上一时刻的状态记忆量;σ(·)—sigmoid激活函数;Wf—遗忘门的权重矩阵;bf—遗忘门的偏置;ft—遗忘门的状态。

而输入门it将新的信息有选择性地记忆在细胞状态中,其计算公式为:

it=σ(Wi·[ht-1,xt]+bi)

(4)

(5)

(6)

输出门ot决定了当前输出的信息,其计算公式为:

ot=σ(Wo·[ht-1,xt]+bo)

(7)

ht=ot*tanh(Ct)

(8)

式中:Wo—输出门的权重矩阵;bo—输出门的偏置;ot—输出门的状态。

与LSTM模型不同的是,BiLSTM模型由前向LSTM层和后向LSTM层组成,因此可以在前向和后向两个方向上处理序列,且两个方向均具有独立的隐藏层。

BiLSTM的网络结构如图3所示。

图3 BiLSTM的网络结构

由图3可以看出:BiLSTM模型可以使LSTM在前向和后向两个方向同时处理序列,两个方向均具有独立的隐藏层;每个隐藏层在一个特定的时间步长可以同时捕获过去(前向)和未来(后向)的信息[22],因此,可以提取出更加全面的轴承退化特征,提高网络的预测性能。

1.3 注意力机制模块

受到人脑注意力分配机制的启发,专家们提出了注意力机制。注意力机制的核心思想是从大量信息中筛选出更多需要关注的细节信息,忽略无关信息,从而可以提高模型的预测准确率[23]。

目前的注意力机制一般可分为硬性注意力和软性注意力两种:(1)硬性注意力。通过随机采样方式获得模型的输入,在图像处理过程中可以得到受关注的目标物体;然而,该方法无法使用反向传播算法进行参数优化。因此,在序列数据中,一般使用软性注意力作为替代。(2)软性注意力。通过为不同输入通道赋不同权重值的方式,巧妙地改变模型对输入信息的关注度,实现计算资源的高效分配;另一方面,这一方式可以通过反向传播算法不断优化权重参数,适用于序列数据的学习任务[24]。

软性注意力机制的流程结构如图4所示[25]。

图4 软性注意力机制的结构以本文模型为例:xt—带有注意力机制的BiLSTM层的输入;ht—BiLSTM层的输出;αt—经过注意力机制计算后得到的BiLSTM各通道信息的不同权重值;y—神经网络模型的最终输出

注意力机制的主要公式如下。

et=utanh(w·ht+b)

(9)

(10)

(11)

式中:et—t时刻的注意力分布值;u,w—权重;b—偏置;αt—BiLSTM中各通道信息的不同权重值;st—权重矩阵与BiLSTM层的输出ht加权后的结果,即带有注意力机制的BiLSTM层输出。

经过多年发展,注意力机制的应用已经在不同领域获得了成功。DU C等人[26]在文本分类任务中应用了注意力机制,取得了较好的效果。张宇等人[27]提出了一种基于注意力机制的LSTM网络,有效地提高了其对远场语音的识别正确率。

注意力机制的核心体现在各通道权重系数的计算上,通过不断优化各通道的权重系数,调整网络模型对不同通道的注意力分配,可以实现在有限计算资源的条件下,达到最优的模型训练效果。

在轴承RUL预测任务中,当输入序列经过多层BiLSTM后,轴承不同退化阶段的信息对现在时刻神经元状态的影响是不同的。因此,本文尝试将注意力机制引入到轴承RUL预测任务中,根据各通道信息对轴承RUL预测结果的贡献度不同,赋予其不同权重,从而提高轴承RUL预测精度。

2 滚动轴承RUL预测方法

2.1 特征指标

轴承原始振动信号中的时域和频域特征可以反映轴承的退化状态,因此,该信号目前被广泛应用于设备的故障检测领域[28]。

常用的时域特征值有:峰值、均方根值、峰峰值、峭度指标等;而频域特征值有:中心频率、平均频率等。以峭度指标为例,正常工作状态下,轴承状态监测信号一般呈正态分布,峭度指标在信号偏离正态分布时会发生变化,同时,其变化的大小代表了轴承的退化程度[29]。

以本文所用数据集为例,Bearing1_1的峰值和均方根值波动曲线如图5所示。

(a)峰值

(b)均方根值

由图5可以看出:在轴承寿命末期,轴承的峰值、均方根值等特征呈现出了明显的退化趋势;该结果说明使用时域和频域指标进行轴承RUL预测的方法是可行的。

因此,本文选取:平均值、峰值、峰峰值、方根幅值、平均幅值、有效值、标准差、波形指标、峰值指标、峭度指标、裕度指标、脉冲指标等12个时域特征,以及中心频率、平均频率、均方根频率、频率标准差等4个频域特征,共同作为神经网络模型的输入。

2.2 基于注意力机制的CNN-BiLSTM模型

为了充分发挥CNN与BiLSTM提取空间和时间特征信息的能力,本文提出了一种带有注意力机制的CNN-BiLSTM模型。

BiLSTM架构使得LSTM能够在前向和后向两个方向同时处理网络的输入,在某一特定时间步长内,同时捕获过去和未来的信息;并且BiLSTM特有的双向结构可以增强模型对原始信息输入开始和结束阶段的记忆;在此基础上,通过注意力机制分配不同输入通道的权重,以增强或抑制对部分信息的注意力,达到提高预测准确度的目的。

本文提出的轴承RUL预测模型的算法流程如图6所示。

图6 本文所提方法的流程图

图6中,首先从轴承原始振动信号中提取特定的时域和频域特征,并按照一定比例划分为训练集和测试集;然后将训练集输入到CNN-BiLSTM-AM中进行训练(CNN的主要作用是对数据进行空间特征提取以及降采样,起到信息蒸馏作用,其输出的是比原始信号稀疏,但保留数据空间特征信息的特征图),BiLSTM对时序数据从两个方向提取可能被CNN忽略的信息,并且利用注意力机制对权重进行重新分配,以提高RUL预测精度;最后将测试集输入到训练好的神经网络模型中进行测试,并对RUL预测结果进行降噪处理,最终得出轴承的RUL预测结果。

为了确定模型的结构参数,本文使用5折交叉验证以避免随机性对实验结果的影响,最终确定的模型参数如表1所示。

表1 模型结构与参数配置

神经网络训练的主要目的是通过反向传播算法不断优化权重和偏置,使得模型中的代价函数取得最小值。

本文所提方法将数据集以8 ∶2的比例随机分为训练集和测试集;以均方误差(mean square error,MSE)作为模型的代价函数,并使用批量为64,学习率为0.000 5的Adam算法作为模型的优化器,每次实验进行50轮次。

MSE的计算公式如下:

(12)

3 实验与结果分析

3.1 数据集描述

此处用于验证分析的数据集采用的是2012年发表在IEEE 2012 PHM数据挑战赛上的滚动轴承加速退化数据集[30]。

轴承加速退化PRONOSTIA实验平台如图7所示。

图7 轴承加速退化PRONOSTIA实验平台

图7中,该实验平台每隔10 s采集一次数据,采样频率为25.6 kHz,每次采样持续0.1 s;当数据点的加速度幅值大于20 g时,则视为轴承已失效。

3.2 性能评价指标

为了定量评估模型对于轴承RUL预测的效果,本文使用RMSE和Scoring函数作为评价指标。其中,Scoring函数同样来自2012年的PHM数据挑战赛,其计算公式如下:

(13)

(14)

(15)

(16)

Scoring函数的图像如图8所示。

图8 Scoring函数

由图8可知:百分比误差范围为-50~50,得分最高为1,且Scoring函数的图像为非对称分布;由函数图像可知,当预测寿命小于实际寿命时得分更高,这是因为与轴承RUL高估相比,轴承寿命的低估更能体现RUL预测的意义,即降低维护成本,提高设备安全性。

3.3 降噪方法

为了尽可能减少预测结果波动对RUL预测的影响,提高预测的精度,需要对预测结果进行降噪处理。本文采用加权平均法对预测结果进行降噪,其计算公式如下:

(17)

式中:m—时间窗口长度的取值,本文中取值10;ωi—权重,一个从1开始的等差数列;Pm—某一时刻的RUL预测结果;Ym—通过加权平均后得到的某一时刻降噪结果。

3.4 结果分析

为了验证本文所提出的模型的有效性,笔者将其与其他3种深度学习方法,即全卷积神经网络(full convolutional layer neural network,FCNN)、CNN-LSTM-AM和CNN-BiLSTM算法所得的预测结果进行了对比,预测结果如表2所示。

表2 不同方法的预测结果

由表2可以看出:相比其他方法,本文所提方法的预测RMSE值取得最低,且Score得分最高。

由CNN-BiLSTM-AM与CNN-BiLSTM算法结果的对比可知:在增加注意力机制的前提下,本文所提方法的RMSE值比CNN-BiLSTM算法降低了7.32%,Score得分提高了2.12%;注意力机制通过对轴承不同退化阶段分配不同的注意力权重,使模型更关注重要的序列信息,达到了提升RUL预测精度的目的。

将CNN-BiLSTM-AM与CNN-LSTM-AM算法结果进行对比可知,本文所提方法的RMSE值比CNN-LSTM-AM算法降低了10.59%,Score得分提高了1.58%。该结果证明了LSTM网络的双向结构能够充分利用序列数据的上下文信息,完成对轴承RUL的精准预测;同时,验证了本文所提方法在轴承剩余寿命预测方面的可靠性和优越性。

在训练过程中,本文所提方法和其他3种神经网络模型训练和验证损失的变化情况,如图9所示。

(a)FCNN

(b)CNN-BiLSTM

(c)CNN-LSTMAl-AM

(d)CNN-BiLSTM-AM

由图9可以看出:FCNN和CNN-BiLSTM模型的训练和验证损失都存在不同程度的过拟合现象,且训练过程不稳定;而带有注意力机制的CNN-LSTM-AM模型和CNN-BiLSTM-AM模型的损失曲线拟合较好,能够很快收敛到最小值,且训练损失和验证损失曲线波动很小,训练过程较为稳定。

训练过程中的注意力权重值如图10所示。

图10 注意力权重值

由图10可以看出:注意力机制按照时序特征对RUL预测的贡献量不同,通过改变权重值以突出重要特征,可有效减少非重要信息对模型的影响,加快模型的收敛速度,使模型在相同的轮次下可以获得更精确的RUL预测结果,验证了注意力机制在该实验中的有效性。

经过以上综合对比可以确定,本文所提方法能够得到更准确的轴承RUL预测结果。

4 结束语

本文提出了一种基于深度学习的端到端滚动轴承RUL预测方法,并通过PHM2012轴承退化数据集验证了该方法的有效性。

研究结果表明:

(1)CNN-BiLSTM-AM模型通过卷积层感知相邻数据点间的关系,提取数据的空间特征;然后利用BiLSTM层同时捕捉计算过程中每个步长过去和未来的信息,获取特征的前后时间关系特征;

(2)注意力机制通过动态调整不同通道的权重值,进而实现计算资源的高效分配,可以有效提高模型的RUL预测准确率。

本文所使用的轴承退化数据集为定转速数据,然而,在工业生产中存在着大量的变转速、变负载工况,因此变转速、变负载轴承RUL预测方法还有待进一步研究。

猜你喜欢
注意力卷积轴承
轴承知识
轴承知识
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
轴承知识
轴承知识
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things