孙宝平
(中国石化工程建设有限公司,北京 100101)
催化装置作为国内石油炼制企业的主力生产装置,在石油加工行业中占有相当重要的地位。在催化裂化装置中,主风机组是核心机组之一,机组包括烟气轮机、风机和电机等单机以及辅助设施,其中烟气轮机是将装置反应生成的高温烟气所携带的剩余能量转化为动力输入风机,与电动机协同带动风机工作,剩余能量也可带动发电机发电。从烟气轮机系统的介质来看,高温烟气中的催化剂对汽轮机动、静叶片的冲蚀明显,并容易在烟气轮机叶片上结垢,破坏动平衡,导致机组故障的频率和不确定性较高,给故障诊断和健康管理(Prognostics Health Management,PHM)带来较大难度。近年来随着机组振动监控系统的不断完善和大数据分析手段的不断发展,尤其是伴随“互联网+”时代的到来,设备故障从诊断到预测的研究更加活跃,对于主风机组来说,烟气结垢导致的机组故障具有一定的时间延迟性,这为开展故障预测、优化检修策略提供了可能。本文建立基于长短期记忆网络(Long Short-Term Memory,LSTM)的故障分析模型,对某石化催化主风机组在运行失效模式之前的数据进行采集、训练和拟合,从而预测机组的振动趋势,进行故障预警和检修方案优化。这是设备健康管理的一个重要环节。
对于故障诊断与故障预测的方法,一些文献进行了总结分类,比如“基于经验、基于模型和基于趋势”【1】;“基于分析模型、基于定性经验和基于数据驱动”【2】;“基于物理、基于知识和基于数据”【3】等,表达虽略有不同,但归纳的基本结果是接近的。基于数据驱动的算法的优势是更少的专业知识需求、可拓展的应用环境和较少的计算资源。基于数据的故障预测方法完全从工业现场数据出发,挖掘数据中的隐含信息,具有广泛的工程应用价值【4-5】。
工业大数据的快速发展是推动基于数据驱动的故障诊断和预测方法的基础,在不同阶段主要包括统计分析、信号处理、机器学习的分析方法【6】。
在机器学习【7】方面,向量机(SVM)、神经网络及其进化衍生算法的应用越来越广泛,很多研究都采用上述方法建立训练与测试集,以分类实现诊断,或结合分类判断,拟合时间变化曲线,实现预测。而神经网络等多层次学习方式又被称为深度学习(Deep Learning,DL),是通过在特定层次结构,堆叠多层非线性信息处理模块,模拟数据背后的内在表示,并进行分类和预测。有文献【8】对近年来深度学习在各领域发展的优秀文献和工具平台进行了整理,并总结了几种典型的深度学习模型,包括卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(RecurrentNeural Network,RNN)、生成对抗网络(Generative Adversarial Network,GAN)等,探讨了深度学习在故障诊断与预测领域应用中存在的问题及解决方法。长短期记忆网络【9】也是深度学习的算法之一,一些研究基于长短期记忆网络建立了对接机构故障诊断模型【10-11】,该模型故障诊断准确率水平较高。这些应用主要集中于故障的诊断与故障的预测,而本文的研究重点是在设备振动故障或异常渐进发展的较长阶段内,对设备振动趋势进行预测。由于系统的复杂性和运行的不确定性,业内认为依据设备状态监测数据中的特征数据进行趋势预测是PHM 领域难度更大的课题【12】,在一些其他领域,有研究认为基于LSTM算法的模型对研究主题的发展趋势预测准确度较向量机和BP神经网络为高【13】,并在预测精度指标方面做了定量分析【14-15】;也有研究【16】做设备运行状态的估计和预测时,提出了一种人工经验与主成分分析相结合的长短期记忆网络方法(AEPCA-LSTM),利用时序数据对设备运行趋势进行预测,这种以趋势预测为目标的PHM,对本文的研究有重要的参考借鉴意义。
作为循环神经网络中的一种,长短期记忆网络因为具有可以解决长依赖性问题而备受关注。相较于传统的神经网络在时序问题上的处理模式,LSTM 不仅能够将前面数据的计算输出结果作为新的输入,并且能将整个细胞的状态传递下去。LSTM 结构单元示意见图1。
图1 LSTM 结构单元示意
在LSTM 中,一个完整的序列处理全部运算所在的集合被称作一个细胞单元,此时细胞的状态可以用c表示。用a表示细胞的输出状态,x表示输入状态。如果令t表示当前时刻的时序,那么t-1就代表前一时刻的时序。因此,对于细胞状态来说,前一时刻的细胞状态为c t-1,前一时刻细胞的输出为a t-1。在当前t时刻,新的输入为x t,细胞的输出为a t,细胞状态为c t。因此对于一个LSTM 细胞来说,其输入包括前一个时刻的细胞状态c t-1、前一个时刻的细胞输出量a t-1以及在当前时刻中的输入量x t。
由于每次LSTM 细胞的输出总有一个细胞状态c,因此可以说在每次信息数据处理过程中,都将之前的信息处理纳入到了这次的处理模式中,使得早期的数据序列也可以传到后续的处理过程中。在利用LSTM 模型对采样数据进行训练时,一般使用的是BPTT 算法【9】,该算法首先按照前向计算方法对LSTM 细胞的输出值计算,然后反向计算每一个LSTM 细胞的误差,接着计算每个权重的梯度,最后是对权重进行更新。在此基础上的一个分支,Adam 算法(Adaptive moment estimation,Adam)是较为有效的一种优化方法,由于其具有较好的适应性,并且所占存储空间较小,在LSTM 训练过程中被专家学者广泛使用。
为了实现对机组有效的健康管理,利用机组大数据对机组振动情况进行预测,判断故障发生的时间点以便开展预知性维修,是最为重要的一个环节。对于主风机组这样一个故障相对多发且烈度较低的机组来说,预知性维修比较适合的应用场景是当发生敏感性事件(即振动变化超过设定阈值)后,启动趋势分析和故障预测,确定能够确保安全性并兼顾工厂效益的最佳检修时机。本研究运用LSTM 神经网络等大数据分析手段,在MATLAB软件环境下进行趋势预测,当预测到故障发生(振动特征值超过高报警值)时,启动在线检修或者停机检维修等方案。
主风机组预知性维修流程方案如图2所示。
从图2中可以看出,数据训练、趋势预测设计为步进式,如果预测结果显示下一时间段的振动特征值不触发报警,则不需要立即停机,机组继续运行,迭代训练数,继续对未来时序的振动情况进行预测。
图2 主风机组预知性维修流程方案
数据训练预测迭代流程见图3。
图3 数据训练预测迭代流程
通过这种步进式的数据分析方法,可实现诊断预测的迭代更新,不断为设备的管理人员提供机组的最新振动趋势,优化检维修时机,逐步实现预知性维修。
图4为某企业催化装置主风机组B101 在2019年11月~2020年1月区间的振动趋势,其中轻载瓦和重载瓦振动两个位置高报警值均为75μm,高高报警值113μm,在此期间振动未触发报警,但指标在某一时段具有突变性质(振动敏感事件)比较明显的振动劣化趋势,设备管理人员和工艺操作人员进行了一系列操作动作确保机组和装置安全。
图4 催化装置B101机组振动趋势(2019年11月~2020年1月)
表1为该企业催化装置B101机组振动异常的处置过程,分别记录了振动异常开始和发展的时间点、异常的部位和表现、设备管理人员和工艺操作人员对情况进行判断分析后的处理措施以及处置后的振动异常发展情况。从处置情况看,做出降低装置负荷和投切备机、更换主机转子的决定时,振动值距离报警值还有距离,对机组检修时机的把握还有优化空间,由于分析方法的欠缺,对于检修时机的选择,留有的裕量也比较大。
表1 催化装置B101机组振动异常处置
为了对预知性维修设计方案和分析方法的有效性进行验证,选取B101机组在2020年1月2日停机检修前的两个阶段进行训练预测分析,并检验检维修方案的合理性。
两个阶段分别为:
1)从2019年11月23日~12月21日,之后进行了工艺降负荷操作;
2)从2019年12月21日~2020年1月2日,之后进行了停车更换转子的操作。
两次数据采样间隔均为5 min。在数据处理过程中,将每10个采样数值进行平均求值,即每50 min取振动平均值,从而化简数据量,提高分析处理速度,并保留原数据组特征。对于每组数据的训练和预测的占比,参考杨柯等人的研究【16】,分别将前70%的数据作为训练数据,后30%的数据作为预测数据,并将预测结果与真实值进行对比,对结果进行验证。
3.2.1 振动趋势训练与预测拟合
将第一阶段的818组历史数据按时间顺序分为成8个迭代训练预测组,每组数据288个,其中训练数据202 个,占70%,预测数据86 个,占30%,预测的时长约为72 h。72 h的预测时长,能够满足检维修的决策和必要准备。
通过MATLAB 软件运行搭建好的LSTM模型程序,对机组振动具有代表性的XIS6.1H(轻载瓦)测点振动通频数据进行分析,其8组分析训练预测、调校和迭代结果如图5(a)~图5(c)所示(篇幅所限,列示3组)。
图5 XIS6.1H 测点训练预测迭代结果
8组步进方式的训练预测,预测值的趋势波动与实际值的趋势吻合度较好,主要的调校发生在第三组迭代之前,对LSTM 模型进行参数调整,将隐含层数由10 增加至20,以降低结果偏差。
根据文献【17】,以平均绝对误差(MAE)、平方和误差(SSE)、均方根误差(RMSE)等统计指标对预测的偏差率进行判断,结果见表2。由表2可见,8组预测平均绝对误差(MAE)低于3μm,并且均方根误差率较低,这在工业应用上是完全可接受的精度范围。
表2 XIS6.1H 测点预测偏差
以同样步骤对机组另一测点XIS6.2 H(重载瓦)进行步进训练预测,总体吻合度也较好,预测结果从略。从分步训练、预测结果可以看出,以LSTM 数据分析方法对B101机组在这一阶段的振动预测取得了良好效果,为进一步开展预知性维修和检修方案优化打下了基础。
3.2.2 第一阶段假定条件下的振动趋势预测
基于此前8组训练预测的良好效果,继续进行下一个步长的振动预测。从历史记录可以得知,在这个时间点上(2019年12月21日),装置对B101机组采取了降负荷操作,期望降低可能的超振动,以降低机组振动触发报警值的风险。本次预测的目的是分析假定工艺参数继续保持不变的情况下,下一个步长的振动情况。将3.2.1节一定数量的训练数据导入,分别对XIS6.1 H、XIS6.2H 两点的后续86个组振动通频变化情况进行预测,如图6所示。
图6 XIS6.1H 第九步长测点预测情况
根据分时明细,预测结果为在未来4 300 min(约72 h),预测振动的最大值为61.373 3μm,而机组高报警值为75μm,即使考虑预测偏差也不足以触发报警。
在XIS6.1H 测点预测的过程中,几个主要控制参数RMSE 和过程损失函数值在多次迭代中都具有良好的收敛性(分别如图7和图8所示),确保了预测结果的可信度。
图7 XIS6.1H 测点预测过程RMSE值
图8 XIS6.1H 测点预测过程损失函数值
以上假定工艺操作不采取降负荷措施的条件下,预测未来72 h的振动趋势,结果显示:重点监控点的通频值均相对稳定变化,将不触发报警值;在预知这一基本趋势的情况下,降低工艺操作这一操作手段则具有了优化余地,在这个时间节点上,可以选择进行持续观察,持续预测,替代当时降低负荷的操作方案。
3.3.1 振动趋势训练与预测拟合
对机组B101 的XIS6.1 H、XIS6.2 H 两 个 测点振动通频数据进行第二阶段分析,数据开始时间为2019年12月21日22:14,结束时间为2020年1月2日06:49,这一阶段始于工艺降负荷操作,终于机组停车检修更换转子。
以MATLAB 工具、LSTM 方法 对XIS6.1H测点的6组数据进行训练预测调校,总体吻合度较好,其中第六次预测结果如图9所示。其余各次结果图从略。由图9可见,第二阶段XIS6.1 H点各步预测偏差也在较低水平。
图9 XIS6.1H 测点第二阶段第六次训练预测结果
3.3.2 第二阶段假定条件下的振动趋势预测
在第二阶段,XIS6.1H 点实际发生的振动最大值为70.7μm,距离高报警值的空间已比较狭窄,装置于2020年1月2日作出了停车检修的决定。本节假定在该时点不作停车检修决定,对未来72 h的振动进行预测。
通过分时明细判断,未来72 h内,B101机组XIS6.1H 点预测振动最大值为69.675 0μm,振动并未进一步劣化。由于安全区间较窄,考虑到预测误差,仍支持在此区间进行停车检修,原检修方案对检修时机的把握较为合理。但值得注意的是,对于B101 机组的烟气轮机,振动高报警为75μm,而触发连锁停车的高高报警值为113μm,二者之间的储备区间远较一般压缩机为大。正是由于烟气轮机故障多发,并且不确定性强,因此高报警阈值较低,本研究基于大数据分析开展的训练预测,一定程度上可以对振动趋势增强判断,降低不确定性,烟气轮机的高报警阈值具备了适当放宽的基础,这也是机组运行健康管理优化的一部分。
本文引入了LSTM 神经网络模型的原理及算法,读取某催化主风机组B101 自振动敏感性事件后的通频数据,应用MATLAB 工具对振动趋势进行了预测。结果表明,各个时间段的预测值与实际值吻合度较高,偏差率低,建立在不断迭代的训练、预测和调校基础上的预测可信度较好,可以作为机组振动趋势预测的参考。LSTM神经网络分析方法在本研究中应用效果较好的原因,总结为以下几点:
1)大数据分析结合了机理分析,通过分析相关性和故障机理,对故障产生的重点部位的特征参数进行重点训练分析,降低了参与分析的特征值数量,使分析模型得到简化,简化的模型在实际应用中也更具有可行性。
2)预测的时序较短,在72 h的时长内,结果拟合度较好,而72 h这一时长,足够制定风机检修方案、安排人力和调拨备件,为检修方案的优化创造了条件。
3)步进迭代的方式为分析参数的中间调整提供了机会,也增加了分析的精确度。
通过案例分析验证,本文所设计的预知性维护的方案,从操作上是可行的,且预测效果较好,具有现实意义。不断的迭代预测对机组运行状态的了解和下一步决策计划的制定起到了重要作用,对保障生产的安全平稳进行、提高经济效益具有重要的意义。由于不同机组之间的差异性较大,以工业大数据为基础,对机组的健康评价、故障诊断与趋势预测、运维策略制定等PHM 领域的工作,很难构建具有通用性的分析模型,在应用领域,掌握分析方法和路径,按照“一机组一策”的思路进行设备健康管理是必要的。本研究只对典型案例进行了分析,未来还需要进一步获取研究样本,尽可能通过技术方面的泛化,促进设备健康管理方法的优化。