基于KPCA-LSTM模型的石化生产过程故障诊断

2021-12-06 06:44刘会平李大字

石油化工自动化 2021年6期

刘会平，李大字

(1. 中国寰球工程有限责任公司东南亚地区管理公司，新加坡 416202;2. 北京化工大学信息科学与技术学院，北京 100029)

近年来，伴随着信息技术的进步与发展，化工、电力、冶金等传统工业都向着大型化、集中化的方向发展，现代工业体系中大型设备的智能化水平有了显著提高，工作效率得到了大幅提升。然而，先进的智能化设备必然需要更为复杂的系统结构，所需控制的节点数目也就必然会增多，如果此时生产设备发生故障，按传统的故障诊断方法是很难实现快速、准确的故障诊断。现代工业生产中会产生大量的运行数据，基于数据的故障诊断方法被广泛使用[1-3]。

现代石油化工生产过程往往呈现一种非线性，系统结构较为复杂，产生的数据量非常大，而且系统内部产生的故障往往与多个可测变量存在复杂的关联，大幅增加了利用数据做故障诊断的工作量。主元分析法(PCA)作为一种非常有效的降维技术[2]，对于处理线性数据降低维度的操作具有优良的特性，但无法处理非线性数据，此时对其加入核函数形成核主元分析法(KPCA)，可以实现非线性数据的降维[4-6]。处理复杂多模态，进行关联、预测和记忆等能力[3]是当前神经网络普遍拥有的特点。1997年专家提出的长短期记忆网络(LSTM)对于时间序列数据具有很好的学习效果，同时解决了梯度消失的问题[7-9]。因此，本文提出了一种KPCA与LSTM相结合的故障诊断方法，通过田纳西-伊斯曼(Tennessee Eastman, TE过程)化工仿真平台检验过程故障诊断，结果表明：该方法不仅可以有效减少运算量，还能提高故障诊断的准确率。

1 TE过程简介

TE过程化工仿真平台由美国著名化学公司Eastman开发，该平台模拟实际流程工业的生产过程，工作过程中各节点与节点之间存在强耦合关联，引入故障后，按连续时间采集工作数据，收集到的数据具有时变性和非线性。

在仿真平台中，经过了22次的仿真运行，其中包括1次正常仿真运行和21次故障仿真运行。生产过程中有52个变量被观测，每一次的仿真运行工作为48 h，采集数据时共采集960个时刻，在21次带故障运行的过程中，每一次故障都是在第161个观测时刻发生。

2 诊断流程

为解决流程工业中的故障诊断问题，考虑到实际生产过程中数据的非线性和时变性等相关因素，提出搭建KPCA-LSTM故障诊断模型。该种模型既可以去除不相关数据，减少运算量，提升运行速度，又能精准地诊断故障，实现故障数据的降低维度处理、故障检测、故障预测与分类等功能[10-11]，最后选择TE过程故障数据集来验证该模型的性能。基于KPCA-LSTM故障诊断的流程框架如图1所示。

图1 基于KPCA-LSTM故障诊断的流程框架示意

3 基于KPCA模型的故障检测

3.1 KPCA原理

KPCA模型建立在PCA算法之上，为了提高对非线性数据的处理能力而提出来的。该方法挖掘非线性信息的能力很强，便于对非线性数据进行降维处理[4-5]。

假设有一个低维的、非线性的数据集可以写成式(1)所示的矩阵形式，该矩阵有m×n个元素，表明数据集共有n个样本，每个样本数据有m个属性。

(1)

由于该样本数据是非线性的，因此用一个函数φ把该样本数据映射到高维空间，在高维空间得到的数据矩阵φ(X)就是线性可分的了，结果如式(2)所示：

φ(X)=[φ(x1)…φ(xn)]

(2)

接下来计算协方差矩阵如式(3)所示：

φ(X)φ(X)Twi=λiwi

(3)

式中：λi——协方差矩阵的特征值。

根据向量的相关知识，空间中的向量wi可由这个空间中的所有φ(x)线性表达出来，如式(4)所示：

(4)

将式(4)中的wi代入到式(3)中，同时消除wi，得到结果如式(5)所示：

φ(X)φ(X)Tφ(X)α=λiφ(X)α

(5)

式中：α——φ(X)Tφ(X)的特征向量。

由于φ(X)是隐函数无法得知其具体表达式，因此引入核函数K来解决该问题，如式(6)所示：

K=φ(X)Tφ(X)

(6)

从而式(5)可以化简得到式(7)：

Kα=λiα

(7)

因此可以求得核矩阵的特征值，计算出每一个特征值所对应的主元贡献率，然后对主元贡献率进行降序排列，求取累计主元贡献率，当累计主元贡献率超过90%时确定主成分，实现数据降维。

3.2 KPCA故障检测

KPCA故障检测与PCA方法类似，都是利用T2和SPE统计量进行检测[6]，计算公式如式(8)～(9)所示：

(8)

(9)

式中：P——经KPCA降维后的矩阵，其控制限分别如式(10)和(11)所示：

(10)

式中：Tα——T2控制限；Qα——SPE控制限；1-α——置信度；Fα, k, n-k——服从第一自由度为k，第二自由度为n-k的F分布；cα——标准正态分布的置信极限，当数据的统计量超过其控制限时，认为该数据为故障数据。

4 基于LSTM的故障诊断模型设计

循环神经网络(RNN)常被用于处理时间序列的问题，但当碰到有较长时间序列的问题时，该方法的效果通常不太理想。因此，对RNN改进得到LSTM，其内部结构使得它更适合对长时间序列进行分类[7]，具体结构如图2所示。

图2 LSTM的内部结构示意

LSTM的结构主要分为以下三个部分[8-9]：

1)遗忘门。决定是否丢弃上一个细胞中的信息，计算公式如式(12)所示：

ft=σ(Wf×[ht-1,Xt]+bf)

(12)

2)输入门。选择留在细胞中的信息，更新细胞状态，计算公式如式(13)所示：

(13)

3)输出门。控制流向其他结构单元的信息流，计算公式如式(14)所示：

(14)

基于LSTM的故障诊断的模型如图3所示。

图3 基于LSTM的故障诊断模型示意

5 实验及结果分析

在TE过程仿真平台工作过程中，从仿真的第160个观测值开始引入故障。

5.1 KPCA故障检测结果

将TE过程仿真平台产生的21类故障数据和1类正常无故障运行数据作为训练集和测试集，每1类数据的大小分别为960×52和480×52。KPCA中的核函数选择最为常用的高斯核函数，σ取值设置为1×104。

图4为第1类故障中52个观测变量所对应的主元贡献率，贡献率的大小决定了该观测变量对故障的影响程度，将贡献率降序排列并进行累加，得到如图5所示的累计主元贡献率曲线，从图5中可以看出，当主成分个数为12个时，累计主元贡献率可达到90.47%。

图4 每个观测变量的主元贡献率示意

图5 主成分个数与累计主元贡献率曲线示意

分别计算降低维度后的数据的T2值和SPE值，按T2和SPE控制限的计算公式分别计算阈值，检测结果分别如图6和图7所示。从图6，7中可以看出，T2和SPE统计量分别在167和169时高于所计算的阈值，可判断为故障，准确率分别为98.44%和98.23%，从而验证了KPCA模型的准确性。

图6 基于T2统计量的故障检测曲线示意

图7 基于SPE统计量的故障检测曲线示意

5.2 KPCA-LSTM故障诊断结果

经过KPCA模型降低维度后的样本数据大小从52×960变成了12×960，将降维后的数据输入LSTM模型进行诊断。降维数据与原始数据的训练用时比较见表1所列。

表1 降维数据与原始数据的训练用时比较

由表1可以看出，使用降低维度后的数据大幅提高了模型的训练速度。表2为3类故障数据和5类故障数据进行故障诊断时的准确率比较。3类故障分别为1，6和18号故障，5类故障分别为1，2， 6，13和18号故障数据。

表2 3类和5类故障诊断准确率比较

由表2可知，LSTM可以较为准确地诊断出故障类型，但是随着故障种类的增多，诊断准确性有所下降。

6 结束语

本文采用KPCA和LSTM相结合的方法对TE过程故障进行诊断，实验结果表明该方法可以有效地检测到故障的发生并且准确判断出故障的类型，同时经过KPCA降维使得LSTM的训练时间大幅缩减，提高了诊断的速度。