摘" 要: 针对空分装置系统的运行参数量大、氧气提取率预测研究欠缺的问题,提出一种基于卷积神经网络(CNN)、长短期记忆网络(LSTM)以及混合LSTM和CNN的氧气提取率预测方法。将氧气提取率作为预测目标,基于卷积神经网络、LSTM、混合LSTM与卷积神经网络模型对其进行建模,并应用于空分装置系统运行采集的数据中。使用平均绝对百分比误差、均方根误差和平均绝对误差等指标来评价预测模型的精度,并使用模型训练时间以及模型收敛速度评估模型性能。实验结果表明,采用混合LSTM和卷积神经网络的氧气提取率预测方法的效果明显优于其他两种模型。
关键词: LSTM; 卷积神经网络; 空分系统; 氧气提取率; 收敛速度; 预测精度
中图分类号: TN919⁃34; TP399" " " " " " " " " "文献标识码: A" " " " " " " " " " " 文章编号: 1004⁃373X(2024)10⁃0123⁃06
A hybrid LSTM and convolutional neural network method for predicting
oxygen extraction rate
Abstract: A method for predicting oxygen extraction rate based on convolutional neural network (CNN), long short term memory (LSTM), and a mixture of LSTM and CNN is proposed to address the problem of large operating parameters and insufficient research on predicting oxygen extraction rate in air separation plant systems. The oxygen extraction rate is used as the prediction target, and it′s modelling is conducted based on convolutional neural networks, LSTM, hybrid LSTM, and convolutional neural network models. It is applied to the data collected during the operation of the air separation device system. The accuracy of the prediction model is evaluated by means of average absolute percentage error, root mean square error, and average absolute error indicators. The model performance is evaluated by means of the model training time and model convergence speed. The experimental results show that the oxygen extraction rate prediction method using a hybrid LSTM and convolutional neural network has significantly better performance than the other two models.
Keywords: LSTM; convolutional neural network; air separation system; oxygen extraction rate; convergence speed; prediction accuracy
0" 引" 言
随着智能化时代的到来,传统工业也追求数字智能化发展。空分系统是一种用于将空气中的氧气、氮气和其他气体分离的技术,通常使用压缩空气作为原料,并通过一系列的物理和化学过程将其分离成高纯度的氧气、氮气和其他稀有气体。因此,氧气提取率是空分系统重要的指标,准确预测氧气提取率对后期空分系统优化至关重要。
目前,在工业中数据预测的研究主要有物理方法、统计方法和机器学习方法。空分系统中的氧气提取率主要受原料总量、氧气产量以及空分设备中加热器电流、密封气压力、分子筛吸附器压力等影响。
物理方法是根据空气分离原理与空分系统设备之间的关系建立数学模型,然后直接计算氧气提取率。物理预测模型不需要历史数据,而是依赖于详细的空气分离物理知识以及准确的空分设备运行数据。然而由于复杂的工艺设备参数以及认知程度的关系,物理模型的建立比较困难,且模型需要依赖经验参数(阈值),不同区域的经验参数不同,会导致局部抗干扰能力差,鲁棒性较弱[1]。
常用的统计预测方法有时间序列法[2]、回归分析法[3]等。统计方法是通过对空分设备运行参数的历史数据与氧气提取率进行曲线拟合、参数估计和相关性分析,建立输入、输出数据之间的相关映射关系(即数据模型)[4],从而实现对氧气提取率的预测。与物理方法相比,统计方法不需要对空气分离复杂的工业流程有一个清晰完整的认知,且具有建模简单的优点。然而,统计方法实施的前提是需要有大量的历史数据,并且需要对这些数据进行预处理,预处理数据时的操作(比如异常值、缺值的处理)会不同程度地影响拟合效果,从而对预测结果的精度造成很大影响。
机器学习具有有效提取高维复杂非线性特征并将其直接映射到输出的能力。因此,基于机器学习的预测方法已经成为预测时间序列最常用的方法之一[5⁃6]。传统的人工神经网络存在梯度消失和爆炸问题[7]。深度神经网络是一种基于人工神经元和层次化结构的机器学习模型,它通过多层次的非线性变换来学习数据的表示和抽象特征,具有比传统人工神经网络更高的特征提取能力,可以解决神经网络的梯度消失问题[8]。
本文提出了三种氧气提取率的直接预测模型,分别是一维卷积神经网络模型(Convolutional Neural Network, CNN)、长短期记忆神经网络模型(Long Short⁃Term Memory, LSTM)和CNN+LSTM混合模型,对每个模型的预测性能进行了对比,讨论了不同输入序列长度对模型的预测精度及性能的影响,并得出更适合三种预测模型的输入时间序列长度。实验结果表明,混合模型的氧气提取率预测效果最好,模型的稳定性较高。本文综合给出了模型的适用场景。
1" 相关工作
1.1" 长短期记忆神经网络
传统的RNN在处理长期依赖问题时,存在梯度消失或梯度爆炸的情况,导致难以有效地建模长期的时间依赖关系。
为了解决这个问题,一种更加强大的循环神经网络被提出,即长短期记忆(LSTM)[9]神经网络。LSTM通过门控机制,包括遗忘门、输入门和输出门,可以选择性地记忆、更新和输出信息,从而更好地捕捉长期的依赖关系[10]。LSTM通过在单元内部维护一个记忆单元来保存和传递信息,在处理序列数据时表现出更强的记忆能力和建模能力。LSTM网络内部结构如图1所示。
LSTM的第一步是决定从原始数据中丢弃哪些变量,该决定由“遗忘门层”的S形层做出,以Ht-1和Xt为输入,输出一个介于0~1之间的值。然后是决定要在原始数据中存储哪些更新变量,包括两个部分:称为“输入门层”的sigmoid层决定更新哪些值;一个tanh层创建一个新候选值的向量,可以将其添加到变量中。接着结合这两者来创建对变量的更新,根据每个变量值的缩放程度进行缩放。最后运行一个sigmoid层,输出预测变量。
1.2" 卷积神经网络
CNN是一种带有卷积结构的前馈神经网络[11],包括输入层、卷积层、池化层和全连接层。CNN的权值共享和上下层级之间的神经元的局部连接不仅减少了网络参数总量,还减少了模型在训练过程中的过拟合效果。
卷积神经网络自20世纪60年代被提出以来,其模型结构从经典的LetNet⁃5[12]发展到应用非线性激活函数ReLU和Dropout方法的AlexNet[13⁃14];在AlexNet基础上改变卷积核尺寸和步长的ZFNet[15];将网络深度扩展到19层的VGGNet[16];同时,增加网络深度和宽度,在不增加计算量的情况下提升网络性能的GoogleNet。
2" 本文提出的方法
本文提出一种混合LSTM与CNN的氧气提取率预测方法。该方法能捕捉时序特征,处理不同时间尺度的信息,同时也可以进行层次化特征学习。氧气提取率预测模型框架及流程如图2所示。首先,获取空分设备的运行数据,图2给出了主要的一些历史数据,包括氧气产量、原料总量、氧气提取率、冷冻水进水冷塔流量、富氧流量;接着对获取到的历史数据进行预处理,包括异常值的处理(如设备故障)、数据归一化,可以避免特征之间的偏差,从而提高模型的鲁棒性;然后选择模型进行训练,包括CNN、LSTM以及混合CNN+LSTM;最后根据平均绝对误差(MAE)、平均绝对百分比误差(MAPE)、均方根误差(RMSE)等指标来评估氧气提取率预测模型的精度,并使用损失函数的收敛速度来评估模型的性能。
3" 实验过程及结果分析
3.1" 实验数据的介绍
数据集来源为空分设备运行数据,将2022⁃12⁃31 T 18:59:35—2023⁃01⁃31 T 18:59:35一个月的时间以间隔1 min共44 641条数据作为数据集,每条数据由137个变量组成。采用归一化方法将数据划分为同一维度,同时为了方便讨论不同输入序列长度对模型的预测精度及性能的影响,实验中设置3组输入序列的长度,分别为10天、20天、30天。
3.2" 实验过程及结果
在本节中设计3个实验来验证所提出的CNN、LSTM以及混合CNN与LSTM(CL)模型的性能,以及输入序列的长度对模型预测精度的影响。
3.2.1" 实验参数设置
本文的3个模型训练与验证周期为50。其中,卷积神经网络模型的输入形状为137,卷积层的卷积核大小为16,卷积层的激活函数使用ReLU(Rectified Linear Unit)函数进行非线性变换,池化层的池化大小为2,Dropout层的丢弃率为0.5,全连接层的单元数为1。LSTM神经网络模型的输入形状为137,LSTM层的单元数为32和16,全连接层的单元数为1。混合CNN与LSTM模型的卷积核大小为3,池化核大小为2,步长为1,LSTM层的单元数设置为0,层数为2。
3.2.2" 实验结果及分析
10天输入序列下3个模型的训练损失和验证损失变化如图3所示。其中,实线代表训练损失值,虚线代表验证损失值。
从图3中可以看出:混合CNN与LSTM模型的训练损失值与验证损失值的重合度最高,说明混合CNN与LSTM模型的泛化能力更强;同时,混合CNN与LSTM模型的收敛速度与损失值均小于CNN模型和LSTM模型,而LSTM模型的收敛速度最慢。
图4为20天输入序列下3个模型的训练损失和验证损失变化,其中,实线代表训练损失值,虚线代表验证损失值。
从图4中可以看出:混合CNN与LSTM模型的训练损失值与验证损失值的重合度最高,说明混合CNN与LSTM模型的泛化能力更强;同时,混合CNN与LSTM模型的收敛速度与损失值均小于CNN模型和LSTM模型,而LSTM模型的收敛速度最慢。
30天输入序列下3个模型的训练损失和验证损失如图5所示,其中,实线代表训练损失值,虚线代表验证损失值。
从图5中可以看出:混合CNN与LSTM模型的训练损失值与验证损失值的重合度最高,说明混合CNN与LSTM模型的泛化能力更强;同时,混合CNN与LSTM模型的收敛速度与损失值均小于CNN模型和LSTM模型,而LSTM模型的收敛速度最慢。
图6为不同输入序列对应的3个模型训练后预测值与真实值的误差对比。
对于3种输入序列,混合CNN与LSTM模型的MAPE值均最低,LSTM模型的MAPE值均最高;同时,30天输入序列的混合CNN与LSTM模型比10天输入序列的MAPE降低了29%。这表明了当输入序列过少时,容易造成欠拟合现象。对于3种输入序列,混合CNN与LSTM模型的RMSE值均最低,LSTM模型的RMSE值在10天的输入序列最高,在20天与30天的输入序列的RMSE值接近。同时,30天输入序列的混合CNN与LSTM模型比10天输入序列的RMSE降低了34.8%。对于3种输入序列,混合CNN与LSTM模型的MAE值均最低,LSTM模型的MAE值在10天的输入序列最高,在20天与30天的输入序列的MAE值接近。同时,30天输入序列的混合CNN与LSTM模型比10天输入序列的MAE降低了13.3%。
图6从整体上对比后可知,CNN模型训练后预测值与真实值之间的MAPE、RMSE、MAE均在30天输入序列下最低,因此,CNN模型更适合在30天的输入序列下进行训练。LSTM模型训练后预测值与真实值之间的MAPE、RMSE、MAE均在20天输入序列下最低,因此,LSTM模型更适合在20天的输入序列下进行训练。混合CNN与LSTM模型训练后预测值与真实值之间的MAPE、RMSE、MAE均在30天输入序列下最低,因此,混合CNN与LSTM模型更适合在30天的输入序列下进行训练。
图7为不同输入序列对于3个模型训练时间的比较。由图7可知,3种不同输入序列的情况下,CNN模型的训练时间最短,LSTM模型的训练时间最长。而随着输入序列的增长,3个模型的训练时间均有不同程度的增加。
4" 结" 语
本文设计并提出了3个基于深度学习的氧气提取率预测模型,并针对每个模型的预测性能做了对比。对模型的预测值与真实值之间的MAPE、RMSE、MAE做误差分析,并分析不同输入序列在模型训练的损失值,以评估各模型的预测精度;同时,综合分析不同输入序列的模型的训练时间来评估模型的预测性能。实验结果表明,混合模型虽然在训练时间上稍高于CNN模型,但是在预测精度与模型的收敛速度方面均为最优。因此,混合模型的氧气提取率预测性能最高。在以后的工作中,将继续研究空分系统氧气提取率的优化。
参考文献
[1] DOLARA A, LEVA S, MANZOLINI G. Comparison of different physical models for PV power output prediction [J]. Solar energy, 2015, 119: 83⁃99.
[2] CAI M, PIPATTANASOMPORN M, RAHMAN S. Day⁃ahead building⁃level load forecasts using deep learning vs. traditional time⁃series techniques [J]. Applied energy, 2019, 236: 1078⁃1088.
[3] LI Y, HE Y, SU Y, et al. Forecasting the daily power output of a grid⁃connected photovoltaic system based on multivariate adaptive regression splines [J]. Applied energy, 2016, 180: 392⁃401.
[4] WANG K, QI X, LIU H. Photovoltaic power forecasting based LSTM⁃convolutional network [J]. Energy, 2019, 189: 116225.
[5] YAGLI G M, YANG D, SRINIVASAN D. Automatic hourly solar forecasting using machine learning models [J]. Renewable and sustainable energy reviews, 2019, 105: 487⁃498.
[6] VOYANT C, NOTTON G, KALOGIROU S, et al. Machine learning methods for solar radiation forecasting: a review [J]. Renewable energy, 2017, 105: 569⁃582.
[7] GONG T, FAN T, GUO J, et al. GPU⁃based parallel optimization of immune convolutional neural network and embedded system [J]. Engineering applications of artificial intelligence, 2016, 62: 384⁃395.
[8] PUN S C M. Superpixel⁃based 3D deep neural networks for hyperspectral image classification [J]. Pattern recognition: the journal of the pattern recognition society, 2018, 14(11): 2142⁃2146.
[9] GRAVES A. Generating sequences with recurrent neural networks [EB/OL]. [2023⁃12⁃04]. https://ui.adsabs.harvard.edu/abs/2013arXiv1308.0850G/abstract.
[10] 邹红波,柴延辉,杨钦贺,等.基于混合ISSA⁃LSTM的锂离子电池剩余使用寿命预测[J].电力系统保护与控制,2023,51(19):21⁃31.
[11] 陆文安,朱清晓,李兆伟,等.基于卷积神经网络的新型电力系统频率特性预测方法[J/OL].上海交通大学学报:1⁃16[2023⁃07⁃06].https://doi.org/10.16183/j.cnki.jsjtu.2023.071.
[12] LONG X, GUO J, HAO R, et al. Optical neural networks of handwriting recognition using optical scattering unit system [C]// 2020 Asia Communications and Photonics Conference (ACP) and International Conference on Information Photonics and Optical Communications (IPOC). Beijing: IEEE, 2020: 1⁃3.
[13] 马世龙,乌尼日其其格,李小平.大数据与深度学习综述[J].智能系统学报,2016,11(6):728⁃742.
[14] 张泽超.深度学习网络分布式训练方案研究与性能优化[D].杭州:浙江大学,2021.
[15] ANTIOQUIA A M C, TAN D S, AZCARRAGA A, et al. ZipNet: ZFNet⁃level accuracy with 48× fewer parameters [C]// 2018 IEEE Visual Communications and Image Processing (VCIP). [S.l.]: IEEE, 2018: 1⁃4.
[16] JILANI U, AKRAM N, ABBASI M, et al. Machine learning based leaves classifier using CNN and reduced VGG net model [C]// 2022 Global Conference on Wireless and Optical Technologies (GCWOT). Malaga, Spain. IEEE, 2022: 1⁃7.