基于时间卷积注意力网络的剩余寿命预测方法

2022-09-05 07:50:44裴行智雷雪梅

计算机集成制造系统 2022年8期

刘丽，裴行智，雷雪梅

(1.北京科技大学自动化学院，北京 100083；2.北京科技大学顺德研究生院，广东佛山 528399；3.北京科技大学信息化建设与管理办公室，北京 100083)

0 引言

当今工业规模随着社会进步和科技发展而不断扩大，工业过程的复杂度也随之不断提高。系统中的设备逐渐复杂化，使得其极易发生故障，且随着规模增大，工业设备通常由众多部件组成，其机构层次多，不同部件之间存在着复杂的关系，系统某一处的故障可能会引发一系列的连锁反应，这些故障一旦发生且未能及时发现与处理，将带来巨大的经济损失和人员伤害。故障诊断技术不仅是提高设备安全性和可靠性的重要手段，还可以节约设备整个生命周期的运行维护成本。然而，目前故障诊断研究主要集中在系统“当前”的运行状态评价，属于“事后维修”，即在系统出现故障后判断产生故障的位置以及故障的类别。由于故障已经产生，极有可能已经造成了财产损失和人员伤害，而“计划维修”又经常造成过度维修。实际的系统维护更加需要实时在线的故障预测方法，传统的故障诊断方法已经不能完全适应复杂装备系统故障诊断需求。因此，将故障消灭在萌芽阶段的“预知维修”成为复杂装备系统未来保障维护的发展方向。

故障预测与健康管理是保障设备可靠性和安全性的一项关键技术[1]。故障预测指基于设备当前使用条件，通过对装备状态监测数据进行分析，结合其结构特性、运行条件、环境参数以及其历史的运维情况，根据装备未来的使用情况，预测其未来的健康状况，包括确定未来可能发生的故障、判断故障程度和部位、预测故障发展的趋势和剩余使用寿命(Remaining Useful Life，RUL)等。故障预测技术中两个最关键的问题为“健康状况评估”和“剩余使用寿命预测”。

随着人工智能技术的发展，数据驱动技术尤其是深度学习技术，在设备剩余寿命预测研究领域越来越受关注。数据驱动的RUL预测方法可以从大量的监测数据中学习到系统的退化特征，并通过机器学习或统计学技术建立起RUL预估模型。传统的数据驱动预测方法通常包括3个步骤：手工设计特征、学习退化特征和RUL估计[2]。手工设计特征指利用先验知识或信号处理技术，从采集到的监测数据中提取敏感的退化特征。SOUALHI等[3]提出利用希尔伯特—黄变换提取振动信号特征的方法；GAO等[4]提出利用短时傅里叶变换提取信号，然后将这些特征输入自回归、隐马尔可夫模型和支持向量机等机器学习模型，学习设备的退化特征，并估计RUL值;SIKORSKA等[5]提出建立自回归退化模型;KHELIF等[6]提出一种支持向量回归预测方法。虽然这些方法可以推断数据中的相关性和因果关系，但手工设计特征仍然需要大量的工作。

与传统的机器学习技术不同，深度学习技术可以利用深度神经网络强大的学习能力，从原始数据直接映射出输入到输出的复杂函数，而不完全依赖于手动提取特征。深度学习技术因其具有强大的特征表征能力，为RUL预测技术带来了新的机遇，逐渐成为学术界和工业界共同的研究热点[7]。MA等[8]将稀疏自编码器(Sparse Autoencoder，SAE)与Logistic回归相结合来预估RUL值，其中SAE通过多层堆叠提取深层退化特征，通过Logistic回归得到RUL值；宋亚等[9]提出整合自编码器和双向长短期记忆网络的混合RUL预测模型，优化涡扇发动机的剩余寿命预测；REN等[10]通过全连接自编码器提取轴承退化特征;LIAO等[11]提出一种增强的受限玻尔茨曼机(Restricted Boltzmann Machine，RBM)来学习退化表示并预估RUL值;ZHANG等[12]提出一种用于RUL预测的RBM集成网络，采用多目标优化算法优化多个DBN网络；CHENG等[13]利用固有模态函数和希尔伯特变换得到描述齿轮退化的退化能量指标(Degradation Energy Indicator，DEI)，并在训练卷积神经网络事作为输入数据的标签，最终将DEI引入支持向量机进行RUL估计；ZHENG等[14]提出利用多层长短期记忆网络(Long Short-term Memory，LSTM)来预测RUL值，并与多层感知器、支持向量机等方法进行了比较，实验结果表明LSTM相比其他算法能获得更高的RUL预测精度；LIU等[15]提出特征注意力机制直接作用于输入数据，在训练过程中动态地为更重要地特征赋予更大的注意力权重，并将特征输入双向门控循环单元(Gated Recurrent Unit， GRU)中提取长期时序信息，随后用卷积神经网络捕获局部特征。

大量的数据驱动技术被应用到了机器的健康监测，但现有的故障预测技术依旧存在不足。循环神经网络(Recurrent Neural Network, RNN)常被用作提取时序数据的特征，其独特的机制虽然能够有效提取时序特征，却也带来了计算复杂、无法并行计算等缺点，在工业大规模的实时监控中，难以达到其对实时性的要求；卷积神经网络(Convolution Neural Network，CNN)虽能够实现大规模的并行运算，但简单的卷积网络结构难以从长期的时序数据中有效地提取信息，且传感器数据中包含了大量的冗余信息，这些信息将会干扰模型对相关决策的判断。

针对上述问题，本文提出以一种新的深度神经网络结构——时间卷积注意力网络，来进行RUL预测。首先，考虑到CNN和RNN的优缺点，本文引用一种简单有效的卷积网络结构，即时间卷积神经网络(Temporal Convolutional Network，TCN)[16]，该网络结构在许多序列数据建模任务上超过了RNN及其变种。此外，为了从多传感器数据中提取重要的退化特征信息，本文引入了通道注意力机制，通过对特征信息加权，提取重要信息，抑制冗余信息。最终将学习到的深层特征通过线性层进行RUL值估计。在C-MAPSS数据集上的实验结果表明，本文所提方法能够有效提升RUL预测的精度。

1 时间卷积注意力网络

本文提出的时间卷积注意力网络预测方法主要包括数据预处理、滑动窗口提取、退化特征学习和预测剩余寿命值等阶段。

1.1 数据预处理

由于不同传感器数据具有不同的量纲，数据间的不同量纲会导致网络在进行反向传播时，梯度下降寻求最优解时的收敛速度变慢，为了减少这种不同量纲带来的影响，本文引用归一化方法对原始数据进行处理，消除量纲的影响，将数据缩放到[0, 1]的范围内，加速网络参数优化收敛速度。归一化方法如下：

(1)

随着工业过程系统变得越来越复杂，设备中的运行条件与运行模型愈加复杂。设备在不同的工况模式下运行，传感器收集到的数据将服从不同的分布，这将会影响模型预测RUL值的效果。如图1所示为C-MAPSS[17]数据集的FD002子数据集中某一设备通过K-Means聚类得到的运行工况的变化过程，FD002数据集共有6种不同的工况模式。由于大多数据中并没有明确标注设备的工况模式，需要采用无监督的聚类方法对服从不同分布的数据进行聚类，并对每一类数据进行标准化，使之服从均值为0，方差为1的分布。标准化方法如下：

(2)

式中：xi表示第i种操作模式；μi和σi分别表示数据的均值和方差。

如图2所示为标准化变化前后传感器2的数据分布变化，可以看出，经过标准化操作，传感器数据转化为标准正态分布。如图3所示为C-MAPSS数据集的子数据集FD002中的部分设备传感器数据。图3a为标准化之前的传感器数据，图3b为标准化之后的传感器数据，可以看出，由于分布的影响，数据中无法看出明显的退化特征，而经过标准化之后，消除了数据分布变化的影响，数据中的退化特征变得更为明显。

1.2 滑动时间窗处理

对于时序数据处理问题，通常会采用滑动时间窗口，对原始多维传感器序列进行时间窗滑动处理，构造时序数据样本。例如，对经过归一化和标准化后的K维传感器数据进行时间窗口处理，传感器数据维度为K，时间窗口长度为T，时间窗口每次沿着时间方向向前滑动一个时间单位，因此单个训练样本为一个T×K的二维张量，若生成的第一个时间序列可以描述为[xi,xi+1,…,xi+T-1]，则生成的下一个时间序列为[xi+1,xi+2,…,xi+T]，其中xi=[xi,1,xi,2,…,xi,K]。

(3)

数据中的剩余寿命(RUL)标签值都是随时间线性下降的，然而设备的健康程度并不会随着时间线性下降。设备在运行的初期退化特征不明显，甚至可以忽略不计，而随着时间的推移，退化的特征逐渐明显，且退化速度会逐渐加剧，这导致设备运行初期的RUL值难以估计。RUL作为衡量设备健康程度的一种参数，在设备运行初期重要程度相对较低，因此可以对剩余寿命值进行截断，将设备运行初期的RUL值设定为一个常数阈值，如果早期的RUL值大于这个阈值，则默认该时间点的标签为阈值常数的值，为了与其他方法对比，参考文献[19]中将这个常数阈值设定为125。

1.3 时间卷积神经网络模块

传统的时序预测问题中常用RNN作为提取时序特征的基础模型，然而RNN独特的结构在处理长期时序数据时，会出现“长期依赖”问题，即在反向传播过程中，由于遵循链式法则，无法从时序序列数据的“后期”提取到关键的信息。为解决此问题，研究者们提出了长短期记忆网络(Long Short-Term Memery network,LSTM)与门控循环网络(GRU)等模型。然而这类神经网络处理数据为串行机制，即递进处理每一个时序数据中的数据点，因此难以进行大规模快速并行计算。

CNN模型有着参数共享、稀疏连接等优点，由于其具备独特的二维结构，常被用作提取图像数据中的特征信息，为了提高模型的泛化性，CNN设置多个小尺寸卷积核替代一个大尺寸卷积核，然而这造成了单层CNN中的小尺寸卷积核仅能从时序信息中提取短期的时序特征信息，如果为了提取长期的时序信息而增加网络层数，又会增加网络在反向传播更新参数时“梯度消失”的风险。

综合RNN和CNN的优缺点，本文中引入了时间卷积神经网络(TCN)。TCN是一种一维卷积网络结构，该结构主要由扩张因果卷积和残差连接组成，其结构相对简单，但在多个任务上精度超越了LSTM和GRU等循环神经网络结构。由于TCN中共享卷积核的引入，使得模型能够进行一定规模的并行计算，提升了模型计算的速度。

由于在时间维度上处理时序数据时，任意时刻t的输出yt应当仅依赖于当前时刻t及之前的输入，即实际处理时序预测问题时，应当保证模型具有因果性。因此，TCN卷积结构中采用因果卷积在时间维度上对卷积运算进行约束，保证了上一层t时刻的输出yt只依赖于下一层传递的输入x0,x1,…,xt，而不依赖于任何的未来信息xt+1,xt+2,…,xT，解决了存在从未来到过去的信息泄漏问题。

此外，TCN中还引入了深度残差网络(Residual Network, ResNet)[20]中的残差连接结构，使网络可以跨层传递信息，提高了浅层网络特征的信息流动性，解决了神经网络中层数叠加造成的梯度消失问题。

目前已有基于TCN网络实现RUL预测方法，Ji等[21]利用TCN网络实现RUL预测;CAO等[22]利用TCN结构提取时序信息，并利用残差自注意力机制处理TCN结构中所提取的信息；YANG等[23]利用经验模态分解对传感器信号进行处理，并通过TCN网络实现RUL预测。

如图5所示为本文所采用的TCN结构，对传统的TCN结构进行了调整。随着网络参数的更新，网络中每一层输入的分布都在发生变化，这种数据分布的变化称为内部协变量偏移，因此在每一层扩张因果卷积之后添加批标准化层，使得每一层网络的输入都能得到归一化。在标准化层之后，采用ReLU激活函数提升模型拟合非线性数据的能力，并引入Dropout缓解模型过拟合的风险。ResNet模型中将原始输入直接与卷积层的输出相加，而TCN模型将残差链接替换成了1×1卷积，为了使原始的输入信息不会丢失，令卷积层的输出能够与残差块的原始输入直接相加，保持初始输入特征中的恒等映射，为了模型在细粒度特征中提取出更有用的信息，本文将1×1卷积放置在卷积层后，使得卷积层的输出与原始输入具有相同的尺寸。

1.4 通道注意力模块

现实情况中，传感器采集到的时序信息中包含大量冗余信息，若将冗余信息与重要信息同等对待，将会干扰模型提取信息的性能。注意力机制已成为目前深度学习领域的主流方法和研究热点之一，在图像识别、语音识别和自然语言处理等领域得到广泛应用。它通过改进源语言表达方式，在解码中动态选择源语言相关信息，从而极大地改善了经典Encoder-Decoder框架的不足，能够关注数据特征中的关键信息，而忽略掉数据特征中的冗余信息。

(4)

(5)

将最大池化和平均池化得到的输出特征ml和al分别置入多层感知器(Multilayer Perceptron，MLP)，MLP中含有一个线性隐含层，为减少网络中的参数开销，隐含层的神经元数为k/r，其中r为下降率，k为通道数。通过MLP网络得到的两组输出特征通过element-wise求和进行合并，合并后的输出通过hard sigmoid激活函数进行归一化，最终得到的输出特征图与原始输入进行element-wise乘积，得到通道注意力模块的最终输出。

本文中所应用的通道注意力机制，通过最大池化和平均池化在退化特征数据中提取不同的信息。最大池化提取每个通道中的最大值，即每个通道中信息的“最大反馈”，当进行梯度反向传播时，梯度将会反馈“相应最大”的地方。平均池化计算了每个通道中数据的平均值，提取了对所有信息的平均反馈，弥补了最大池化只关注最重要的信息而完全忽略其他次重要信息的问题。因此，通道注意力机制通过最大池化和平均池化“突出”重要信息，“抑制”不重要的信息。最终，通过hard sigmoid激活函数将输出特征进行归一化，以此来表征时间卷积模块输出特征中信息的重要程度。

1.5 TCAN具体建模流程

本文所提出的剩余寿命预测方法流程如图7所示，首先对原始传感器数据进行数据预处理，挑选退化特征明显的数据、数据归一化和标准化、时间窗口处理与设定RUL标签。经过数据预处理之后，构建TCAN网络模型、初始化模型中的参数，并利用训练好的数据通过反向传播更新网络参数。得到训练好的模型时，便可将模型用于预测。

TCAN具体建模流程如下：

(1)特征选择，选择退化特征明显的传感器数据作为原始输入数据。

(2)数据规范化，对第1步中选择的原始传感器数据进行归一化，缩放到[0, 1]范围内，然后通过K-means聚类识别数据中的工况模式，并对每类数据进行标准化，使之服从均值为0、方差为1的分布，消除不同工况模式对退化特征的影响。

(3)滑动窗口构造样本，对于规范化之后的数据，利用1.2节中滑动窗口方法提取时间步长为Ntw的时序序列数据。然后计算步长为Ntw的数据的均值和回归系数，作为每一组时序数据的额外特征。

(4)设置RUL标签，设定RUL标签值的最大阈值Rearly，如果真实RUL标签值超过阈值，则实际RUL值设定为Rearly。

(5)特征学习，如图8所示，特征学习模块由三层时间卷积神经网络模块和通道注意力模块叠加组成。其中每一层空洞因果卷积有Fk个卷积核，每个卷积核的尺寸为kd，且3个残差模块中空洞因果卷积的扩张因子分别为d1，d2和d3。

(6)输出RUL预估值，将特征学习产生的传感器数据中的二维退化特征张量拼接成一维特征向量，并通过含有FN1、FN2个神经元，激活函数为ReLU的全连接层构成全馈神经网络，从一维特征向量中提取信息，并最终通过一个神经元输出层输出RUL预估值。

(7)训练优化网络模型，应用Xavier正态分布方法[24]初始化网络参数，得到RUL预估值之后，用均方误差(Mean Squared Error，MSE)作为目标函数计算预估值RULpred和真实值RULtrue之间的误差，并利用Adam优化算法[25]更新网络中的参数值。

2 实验结果

本文在C-MAPSS数据集上进行RUL预测实验，并通过均方根误差和评分函数两个评价指标对TCAN进行性能分析，并与以下方法进行比较：相关向量机(Relevance Vector Machine，RVM)[26]、集成多目标深度置信网络(Multi-Objective Deep Belief Network Ensemble，MODBNE)[12]、长短期记忆(LSTM)网络[19]、双向LSTM网络(Bi-directional LSTM，BiLSTM)[27]、深度半监督学习(semi-supervised deep architecture)[28]、深度卷积神经网络(Deep Convolution Neural Network，DCNN)[19]和有向无环图(Directed Acyclic Graph，DAG)[29]神经网络。所有实验通过Keras 2.4.2实现，并运行于一台Intel Core i5-8 300H CPU、16 GB RAM 和 GeForce GTX 1 060 GPU的计算机上。为消除偶然性的影响，将所有实验在相同环境下进行了10次。

2.1 C-MAPSS数据集

C-MAPSS数据集是一种RUL预估实验中常见的数据集。该数据集为NASA收集的涡扇发动机模拟退化数据，由4个子数据集组成，每个子集中又包含多个发动机的全寿命数据。如表1所示，4个子数据集分别为FD001、FD002、FD003和FD004，每个子数据集均由训练集和测试集组成。每个数据集中都包括26列特征，分别为设备ID，采样时间周期，3个操作设置变量和21个传感器变量。而21维传感器数据中包含很多常数数据或无用数据，会对RUL预测产生负面影响，因此从21维传感器数据中选取14维作为训练的原始数据，这14维传感器数据分别为第2、3、4、7、9、11、12、13、14、15、17、20和21号传感器。

表1 C-MAPSS数据集

2.2 评价指标

为了评价模型预测精度，本文引用了故障预测与健康管理国际会议数据竞赛中的两个性能评价指标，即均方根误差(Root Mean Square Error，RMSE)和评分函数(score function)。评分函数是一种非对称的评价指标，对“超前预测”和“滞后预测”会有不同程度的惩罚力度，当“超前”的程度与“滞后”的程度相同时，“滞后预测”会得到更高的分数。若RUL预测值小于实际值，则视为“超前预测”，反之则视为“滞后预测”。由于在设备的维护中，“超前维护”意味着维护人员会在设备实际出现故障之前就会去维护设备，其可能会带来维护资源的浪费，而“滞后维护”意味着在出现明显故障的情况下，设备仍然运行了一段时间，可能产生经济上的损失和人员伤害。因此，结合实际情况，“滞后维护”带来的损失要高于“超前维护”，对于“滞后预测”的惩罚力度要大于“超前预测”。

均方根误差定义如下：

(6)

评分函数定义如下：

(7)

其中：N为数据样本点总个数;di=RUL′i-RULi表示预测值RUL′i和真实值RULi之间的差值。

综上所述，均方根误差和评分函数值越小，则模型预测精度越高。

2.3 超参数对实验结果的影响

超参数设置对实验结果具有很大的影响，为了寻找使模型性能较优的参数，通过控制唯一变量的方式，对模型中对预测结果影响较大的参数进行调优。其中时间窗口长度、时间卷积模块数和卷积核个数对实验结果影响较大，本文分别对这3个参数进行了调参实验，这些参数的不同值在FD001子数据集上对预测性能的影响分别如表2～4所示。可以看到，时间窗口长度为30、时间卷积模块数为3、卷积核个数为32时，模型的预测性能最优。用同样方法在FD002、FD003和FD004数据集上测试时间窗口长度参数，分别为50、30和50时最优。此外，在CNN结构中，通常会趋向于使用小尺寸卷积核，且扩张因果卷积的堆叠可以扩大单层神经网络的感受野，参考文献[18]，将卷积核的尺寸kd设置为5，在保证感受野的同时可以减少模型中的参数量，为了保证网络能够提取较大的感受野，时间卷积模块中的扩张因子设置为递增的方式。通过参数调优及分析，TCAN模型的超参数设置如表5所示。

表2 不同时间窗口长度对实验结果的影响

表3 不同时间卷积模块数对实验结果的影响

表4 不同卷积核个数对实验结果的影响

表5 网络中的超参数

2.4 实验结果与分析

为说明注意机制可以有效提高RUL预估的精度，将本文提出的带注意力机制TCAN方法与未引入注意机制TCN方法进行了对比，实验结果如表6所示。可以看出，在每个子数据集上TCAN的RMSE和Score均低于TCN，表明TCANRUL预测的准确性较高。

表6 TCAN与TCN预测结果对比

此外，由表6中4个子数据集的结果对比可以发现，FD001和FD003子数据集上的RUL预测结果明显优于FD002和FD004，这是由于FD001和FD003两个子数据集是单工况模式，而FD002和FD004分别采集自6种工况条件下，不同工况对预测结果的精度产生了一定的影响。因此，FD002和FD004数据集上的RUL预测难度要高于FD001和FD003。

采用TCAN模型对FD001子数据集的100个设备从开始运行到出现故障的整个运行过程的全寿命数据做了预测，如图9所示为部分设备的RUL预测结果。图9a～图9d分别为设备编号为34、49、81和100的RUL预测值。图中的直线是经过裁剪处理之后的RUL真实值，其值会随着采样周期的变化而线性减小，图中曲线为TCAN模型输出的RUL值。可以看出，本文所提出TCAN方法的预测结果基本上可以拟合RUL真实值，但在设备运行的初期误差高于后期，这是由于设备在运行初期退化特征不明显，而随着退化特征的突出，预测精度将逐渐提高。

为了进一步说明TCAN预测RUL的有效性，与其他文献的方法RVM[26]、MODBNE[12]、LSTM[19]、BiLSTM[27]、Semi-supervised[28]、DCNN[19]和DAG[29]等进行比较。所有这些方法都在C-MAPSS数据集上进行了测试，不同方法预测的性能指标RMSE和Score如表7所示。可以看出， TCAN方法在每一个子数据集的RMSE均较低，虽然DAG方法在FD001数据集上取得了较低的Score值，但与TCAN差异较小。在4个子数据集上，TCAN模型的RMSE值相较其他方法的RMSE最低值分别降低了2.67%、15.38%、4.49%和14.53%。尤其是在子数据集FD002和FD004中，性能提升效果明显，因此本文所提出的TCAN模型在RUL预测方面，尤其是多工况条件下的预测效果提升显著。

表7 TCAN与其他方法预测结果对比

3 结束语

本文提出一种新的基于注意力机制的时间卷积神经网络的设备剩余寿命预估方法。该方法同时考虑了RNN和CNN中的性能，引入TCN提取传感器数据中的退化特征，并引入通道注意力机制从每一个时间卷积残差块中提取重要的退化特征信息。为了验证本文所提出的方法能够有效提升RUL预测精度，在C-MAPSS数据集上进行了实验，并与其他方法RVM、MODBNE、LSTM、BiLSTM、深度半监督学习结构、DCNN、DAG等进行了对比分析。结果表明，TCAN在提取传感器数据退化信息、预测RUL，尤其是多工况条件下，RUL预测精度较高。

本文中所提方法未考虑RUL预测中不确定性问题。工业生产环境中，存在着诸多的不确定性因素，虽然精确的RUL预测能够得到真实反映设备健康状况的剩余寿命值，但是为了提升预测的可靠性，需量化RUL预测中的不确定性。当前的模型中大多引入贝叶斯神经网络来量化不确定性，但会引入额外参数，从而增加模型计算时间。已有文献表明引入了Dropout的神经网络层相当于对神经网络参数进行了变分推断，通过多次采样即可得到模型的不确定性，即蒙特卡洛Dropout方法。本文提出的TCAN网络结构中引入了Dropout，未来将进一步研究基于蒙特卡洛Dropout 的RUL预测的不确定性问题。