基于自注意力CNN-BiLSTM的滚动轴承剩余使用寿命预测

2024-03-12 03:21惠憬明王健吴双黄永明王梓齐

轴承 2024年3期

惠憬明,王健,吴双,黄永明,王梓齐

(1.内蒙古霍煤鸿骏铝电有限责任公司,内蒙古通辽 029200;2.湖南中融汇智信息科技股份有限公司,长沙 410221;3.浙江大学控制科学与工程学院,杭州 310027)

滚动轴承是旋转机械设备的重要部件,如风电机组的齿轮箱和发电机轴承[1]、高速列车的轴箱轴承[2]、码垛机器人和扒渣机器人中的伺服电机轴承[3]等。滚动轴承的运行状态直接影响着机械设备的性能、可靠性,轴承是部分设备的故障多发点:据统计,轴承故障占风电机组齿轮箱和发电机总故障的21%和41%[4],约50%的感应电动机故障由轴承引起[5];因此,有必要对滚动轴承的运行状态进行监测以预防相关故障的发生。故障预测与健康管理(Prognostic and Health Management,PHM)是对设备运行状态进行诊断、评估、预测以及对设备的使用计划、维修资源等进行管理的多学科交叉技术[6]。剩余使用寿命(Remaining Useful Life,RUL)预测是PHM的核心技术,目的是预测设备的健康情况以减小突发故障造成的损失,最终实现预测性维修[7]。现阶段滚动轴承RUL预测方法可分为失效机理法和数据驱动法两大类:失效机理法[8]根据机械运行原理和故障失效机理进行理论或试验建模,但在机械结构复杂,运行工况多变,失效模式多等不利条件下建立准确的机理模型难度较大;数据驱动法[9]基于历史监测数据建立数据驱动预测模型以学习设备的退化行为,适应性和易用性较强。

由于较强的特征提取和非线性映射能力,基于深度学习的数据驱动滚动轴承RUL预测方法近年来得到了广泛的研究与应用,特别是卷积神经网络(Convolutional Neural Network,CNN)和长短期记忆网络(Long Short-Term Memory, LSTM):文献[10]使用自编码网络提取特征,使用时间注意力CNN实现滚动轴承的RUL预测;文献[11]将1D-CNN与2D-CNN融合以充分提取轴承振动信号的时频域退化特征并实现RUL预测;文献[12]直接将原始振动信号输入双向长短期记忆网络(Bidirectional LSTM,BiLSTM)提取特征,并使用注意力机制对特征分配不同的权重以提升预测精度;文献[13]提出了一种基于LSTM的轴承RUL预测方法,并改进了训练过程中的Dropout模块以提高精度。

轴承的振动信号属于一维时间序列数据,信号随时间变化的趋势蕴含着退化信息,对于RUL预测有着重要作用。由于振动信号的非平稳性、噪声等问题,通常需要根据振动数据计算不同的时域指标作为RUL预测模型的输入。在同一时间窗的多维时域指标数据中蕴含着反映指标间关联关系的空间信息,同样有助于RUL预测。在常用的深度学习算法中,LSTM适合处理和提取时序数据中的趋势、周期性等时间特征信息,而CNN对多维数据中空间特征信息的提取能力较强。因此,本文将CNN与LSTM结合使用,分别提取并综合利用多维时序数据中的空间信息和退化信息以提升轴承RUL的预测精度。另一方面,深度神经网络提取的不同特征对RUL预测的贡献通常是不同的,有必要对高价值的特征分配更大的权重,使模型更关注这些重要信息从而提升整体性能。因此,本文在CNN-LSTM网络的基础上引入自注意力机制并进行针对性改进,利用特征与输出间的相关性进行权重的自适应分配,使模型生成更稳定的特征重要度,更趋向于收敛至全局最优,实现更精确的滚动轴承剩余使用寿命预测。

1 理论背景

1.1 卷积神经网络

卷积神经网络是一类含有卷积运算,具有多层深度结构的前馈神经网络[14],其网络结构如图1所示,主要由卷积层、池化层、全连接层3个部分组成。

图1 卷积神经网络示意图

卷积层利用卷积核进行特征提取,包括权重、偏置参数;池化层通过降低数据的分辨率聚合特征信息,从而控制参数量和过拟合,本质上属于降采样操作。实际应用中,CNN通常会串连并交替使用多个卷积层和池化层,从而提取更丰富的特征。

1.2 长短期记忆网络

长短期记忆网络是一类特殊的递归神经网络(Recurrent Neural Network,RNN),能够有效改善常规RNN面临的梯度消失、长周期依赖等问题[15]。LSTM网络结构如图2所示。

图2 长短期记忆神经网络示意图

LSTM由输入门、遗忘门和输出门构成:输入门使用Sigmoid函数控制新信息的输入,遗忘门控制信息的保留和遗忘,输出门则控制记忆单元中信息的输出。

BiLSTM是LSTM的一种改进结构,包括前向LSTM和后向LSTM两部分,可以从正反2个方向提取时间序列数据的双向特征,从而得到更好的效果。BiLSTM的结构如图3所示:BiLSTM的输出向量ht由前向LSTM的输出向量hf和后向LSTM输出向量hb两部分连接而成。

图3 双向长短期记忆神经网络示意图

2 基于自注意力CNN-BiLSTM的滚动轴承RUL预测方法

2.1 自注意力机制

注意力机制是一类模拟人脑关注机制的算法,核心思想是根据数据的概率分布,变量的相互关系等以权重等形式突出输入数据中与输出任务关联性更大的部分[16],从而抽取更加重要和关键的信息以提升网络模型整体的性能。注意力机制分为位置注意力、输入序列注意力、自注意力、协同注意力等不同的类型。本文重点研究自注意力机制,其仅从输入自身中提取信息而不使用其他额外信息,具备参数少,计算速度快等优点[17],更适合实际工程应用。

自注意力机制的结构如图4所示:首先,输入数据分别通过3个线性层计算得到查询矩阵Q、键矩阵K和值矩阵V;然后,将Q和K的转置相乘,除以缩放因子后经Softmax运算得到自注意力权重矩阵A;最后,将V和A相乘得到自注意力加权后的结果。也可仅使用2个线性层得到矩阵Q和K,并直接将输入与A相乘后输出。

图4 自注意力机制的结构

自注意力机制的计算过程可表示为

(1)

式中:Aattn(h)为输入h经自注意力加权后的结果,即自注意力机制的输出;dk为缩放因子,用于控制矩阵乘积的结果不会过大。

2.2 新型自注意力CNN模块

针对滚动轴承RUL预测的特点,本文对已有的卷积注意力模块(Convolutional Block Attention Module,CBAM)[18]进行改进,提出了一种新型自注意力CNN模块。

卷积注意力模块针对图像分类问题提出,模块中串连使用了通道注意力和空间注意力且注意力机制主要依赖池化操作,这是由于图像特征集中分布于一些局部区域,池化有助于去除冗余信息从而更关注局部的重要信息,然而,对于滚动轴承RUL预测问题,输入是“指标-时间窗”的二维数据、特征分布较广泛,针对局部区域的池化操作难以提取特征间的远程依赖关系,容易丢失重要信息。因此,本文在CBAM的基本结构上进行改进,提出了一种新型自注意力CNN模块:

1)由于轴承振动信号时域指标数据中不包含多通道信息,新型模块仅使用CBAM中的空间注意力机制,从而降低了网络的复杂度。

2)相比池化操作,自注意力机制具备全局的感受野,经自注意力加权后的输出考虑了所有特征的信息,能够实现不同位置特征间的直接点乘融合且不受特征间距离的影响,从而能够得到更全局的特征提取效果。因此新型模块使用自注意力机制替代CBAM中基于池化的注意力机制。

新型自注意力CNN模块的结构如图5所示:首先,自注意力CNN通过2个卷积层分别计算输入数据的卷积特征fA和fC;然后,将特征fA输入仅含有矩阵Q和K的自注意力机制,计算得到权重矩阵A并与fA相乘,得到加权后的特征fB;最后,将fB和fC相加后输出。

图5 新型自注意力CNN模块的结构

2.3 网络整体结构和RUL预测流程

自注意力CNN-BiLSTM网络的整体结构如图6所示,使用该网络进行滚动轴承RUL预测的具体流程如下:

图6 自注意力CNN-BiLSTM网络结构

1)根据给定的时间窗长度划分轴承一维振动数据,计算时间窗内振动数据的不同时域指标,得到用于轴承RUL预测的数据集。

2)将数据集划分为训练集和测试集,设置网络中不同功能层的超参数后,进行模型训练。

3)将测试数据输入训练好的模型,自注意力CNN模块提取输入数据中相同时间窗内各时域指标间的空间特征信息并进行自注意力加权以强化特征提取效果。

4)BiLSTM层提取不同时间窗内加权空间特征构成的时序数据中的退化特征信息,经全连接层后输出轴承RUL的预测值。

5)根据轴承RUL的真实值和预测值计算RUL预测的各类评价指标,评估模型性能。

3 试验分析

3.1 数据描述

本文使用的数据集为IEEE PHM 2012数据挑战赛中提供的FEMTO-ST滚动轴承全寿命数据集[19],该数据集包含3种不同运行工况(表1):对于工况1,采用轴承1-2,1-3和1-5的数据进行训练,轴承1-1的数据进行测试;对于工况2,采用轴承2-1,2-4和2-7的数据进行训练,轴承2-6的数据进行测试;对于工况3,采用轴承3-1和3-2的数据进行训练,轴承3-3的数据进行测试。

表1 轴承运行工况

轴承1-1的全寿命振动数据如图7所示:按照振动水平可将轴承的生命周期粗略分为4个阶段:正常工作阶段,信号的幅值较低;早期退化阶段,信号的振幅逐渐增大,此时可以开始RUL预测工作;中期退化阶段,信号的振幅持续增大;后期退化阶段,信号的振幅显著增大,此时轴承已经失效。

图7 轴承1-1的全寿命振动数据

3.2 建立RUL预测模型

本文使用10个振动信号时域指标作为RUL预测模型的输入,见表2。其中,xi为轴承的一维振动信号,N为时间窗的长度。

表2 轴承振动信号时域指标

设置时间窗长度为200 s,对原始轴承振动数据进行划分并根据表2计算时域指标,得到维度为20×10的输入数据。试验中对时域指标和RUL值均进行了量纲一化。

除本文所提自注意力CNN-BiLSTM方法外,选择CNN,BiLSTM以及不含自注意力机制的CNN-BiLSTM模型作为对比方法,各模型的结构和超参数如下:

1)CNN模型,使用2D-CNN,卷积核尺寸依次为3-5-3,滤波器数量为10,使用核尺寸为2的平均池化,全连接层的尺寸为60-32-16-1。

2)BiLSTM模型,隐含层及输出尺寸为16,全连接层的尺寸为32-16-8-1。

3)CNN-BiLSTM模型,使用1D-CNN,卷积核尺寸为1,滤波器数量依次为10-20-40,BiLSTM层的隐含层及输出尺寸为16,全连接层的尺寸为32-16-8-1。

4)自注意力CNN-BiLSTM模型,使用1D-CNN,卷积核尺寸为1,滤波器数量依次为10-20-40,BiLSTM层的隐含层及输出尺寸为16,自注意力的缩放因子dk为4,线性层的尺寸为40-20,全连接层的尺寸为32-16-8-1。

所有模型训练过程中的损失函数都设置为均方误差,选用Adam优化器且参数选取默认值,学习率设置为0.001。试验的软件环境为torch 1.6和Python 3.8,模型仅使用CPU进行训练,CPU型号为i7-8550U,内存为16 GB。

3.3 试验结果

在不同的工况下,分别进行上述4个模型的训练和测试。不同模型的RUL预测值如图8所示:

(a) 工况1

1)对于工况1,在测试集前段,CNN和BiLSTM的预测精度接近,测试集中段时BiLSTM的精度优于CNN,说明时序数据中的退化特征价值相对较大;CNN-BiLSTM在测试集中、后段的精度显著优于BiLSTM,说明时空特征的融合在一定程度上改善了RUL预测精度;而在引入自注意力机制后,模型精度在整个测试集上均得到了改善,说明自注意力加权改善了网络的特征提取能力,且自注意力CNN-BiLSTM模型在测试集中、后段进行了更多的提前预测(RUL的预测值小于真实值),有利于实际应用中开展预测性维修,体现了自注意力机制在轴承RUL预测问题上的有效性。

2)对于工况2,在测试集前段,自注意力CNN-BiLSTM模型的预测值基本能够反映RUL真实值的趋势,精度显著优于其他3类模型;但在测试集的第500～900 s,各模型均出现了不同程度的RUL高估情况。

3)对于工况3,在测试集前段,CNN-BiLSTM的误差较大,CNN和BiLSTM则在测试集中、后段时误差较大;除测试集第250 s附近样本上的误差相对较大以外,自注意力CNN-BiLSTM模型的整体精度优于其他3类模型,体现了该方法的适应性。

值得注意的是,不同模型在工况2和工况3上的精度普遍低于工况1,RUL预测值的波动幅度也相对较大,该现象与后2个工况中使用的训练数据较少,模型训练不充分直接相关。

使用均方根误差IRMSE、平均绝对误差IMAE和评分函数IS这3个指标对模型的RUL预测结果进行定量评估。IRMSE和IMAE越低,说明RUL的预测值与真实值之间的误差越小;IS越高则说明模型的RUL预测效果越好且更倾向于做出超前预测。各指标的定义为

(2)

(3)

(4)

(5)

(6)

上述4个模型在不同运行工况上的评价指标见表3:在不同运行工况下,自注意力CNN-BiLSTM模型的各项性能指标均优于其他模型,特别是IS指标,说明其在轴承RUL预测问题上的性能更优;与图9中的结果一致,各模型在工况2,3上的性能指标相比工况1均有不同幅度的下降。除训练数据较少等建模方面的因素以外,从轴承运行机理的角度分析,工况2,3的径向载荷相比工况1更大,导致振动信号的振幅增大,平稳性降低,噪声水平升高,同时也将显著加速轴承失效,增加了RUL预测的难度。

表3 不同运行工况下各预测模型的评价指标

4 结束语

本文提出了一种基于自注意力CNN-BiLSTM的滚动轴承RUL预测方法,改进的自注意力CNN模块可提取振动信号不同时域指标间的空间特征并进行自注意力加权以强化特征提取效果,BiLSTM模块则可以提取时序数据中的退化特征。FEMTO-ST滚动轴承全寿命数据集的试验结果表明自注意力CNN-BiLSTM模型在RUL预测误差和评分函数上均优于其他对比方法且更倾向于做出超前预测,模型结构也较为简单,有利于滚动轴承RUL预测的工程实践。

自注意力CNN-BiLSTM模型的局限性在于仅对空间特征进行了自注意力加权,且在少样本、高载荷等场景下的性能欠佳;未来将进一步研究自注意力机制与时序退化特征的结合以提升特征提取能力,并引入少样本学习、迁移学习等策略改善模型在特殊场景下的性能。