基于ARIMA-RTS和LSTM的致密气藏产能预测

2023-11-14 05:43付豪方全堂杜一鹤
石化技术 2023年11期
关键词:神经网络误差产量

付豪 方全堂 杜一鹤

1. 中国石化西北油田分公司完井测试管理中心 新疆 轮台 841600

2. 西南石油大学石油与天然气工程学院 四川 成都 610500

与常规气藏相比,致密气藏具有储量丰富的特点,将成为我国能源结构转型的重要支点。但是致密气藏具有单井控制储量少、产量低、递减快的特点,使得制定开发决策难度大,效益开发成本高,所以迫切需要针对致密气藏进行产能预测。由于受到了传统产能预测方法的诸多限制,气井产能准确预测难度较大,气田产量评价的适应性差,相同预测方法在不同类型气井之间存在较大误差,跟时间序列相关性不强,得到的预测结果说服力不足。以日产气量作为时间序列,分别建立长短时记忆神经网络(LSTM)和基于卡尔曼平滑算法的自回归差分移动平均模型(ARIMARTS)气井产量预测模型。基于相关参数对模型的影响,以四川某气田生产数据为例,对比和讨论了两种模型在致密气藏产能预测中的适用性。

1 基本原理

1.1 长短时记忆神经网络

LSTM是一种特殊的循环神经网络,解决了传统中文全称(RNN)中的梯度消失和爆炸问题,适用于序列数据。核心思想是引入输入门、遗忘门、输出门来控制信息流动,通过学习得到权重控制信息传递。LSTM还有记忆单元,在输入门和遗忘门的控制下,更新和保留长期记忆[1]。

1.2 ARIMA-RTS

ARIMA-RTS是ARIMA模型结合递归最小二乘法的时间序列分析方法。ARIMA适用于带有趋势和季节性的数据预测与分析。ARIMA模型包含自回归(AR)、差分(I)和移动平均(MA)部分。通过ARIMA对时间序列进行建模预测。然后,通过递归最小二乘法(RTS)优化参数,考虑数据误差,减少参数估计偏差[2]。

2 LSTM模型与ARIMA-RTS模型的建立

2.1 数据处理

对于一组关于时间序列变化的数据处理,首先需要对异常值进行处理,采用统计判别法中的肖维勒准则对数据集进行处理。肖维勒准则以正态分布为前提,假设多次重复所得n次测量值中,某个测量值的残余误差|vi|≥Zcσ,则删除此数据。由于数据集的数据之间,存在量纲不同,且数值之间的差距很大,在利用矩阵实验室(matlab)平台进行编程的过程中存在诸多不便,针对异常数据进行处理之后,采用最大最小值(min-max)标准归一化方法处理数据集,以此来降低误差,提高预测准确度。另外,采用均方误差(MSE)误差计算公式对LSTM和ARIM进行误差分析。

2.2 长短时记忆神经网络产量预测模型的建立

为了保证LSTM模型的准确性和稳定性,采用静态约束条件和动态约束条件对模型进行约束,选择储层厚度、孔隙度、渗透率和含气饱和度作为静态约束条件,选择水气比、井口油压和单井剩余可采储量为动态约束条件。长短时记忆神经网络模型在循环神经网络模型的基础上,引入了三个门函数来解决循环神经网络中存在的梯度爆炸的问题。具体的计算步骤为:(1)导入处理后的训练数据,并将其进行归一化;(2)生成训练数据集;(3)输入相关参数的种类与个数,包括输入变量个数,隐含层的层数以及输出变量个数;(4)初始化LSTM神经网络权重,调整输入门(Input Gate),遗忘门(Forget Gate),输出门(Output Gate)相关门函数;(5)进行学习训练和绘制Error-Cost曲线图;(6)训练集验证和进行预测。

产量预测需要对预测结果的准确性与稳定性、对训练集的拟合效果准确性进行要求,采用了拟合平均相对误差和预测平均相对误差进行评价,相对误差越小,证明该模型预测越准确。根据数据集的量,分别调整了学习率、隐藏节点数、训练步数和序列长度的数值,首先对隐藏节点参数进行训练,再用MSE误差进行分析,隐藏节点数分别为8,16,32,64,128,256,得到误差分析见图1(a),从图中可以得知,随着隐藏节点数的增加,训练时间也相应增加,当隐藏节点数为16的时候,MSE误差最小。所以设置隐藏节点数为16,调整序列长度,设置序列长度为2,4,6,8,10,相应MSE误差和训练时间见图1(b),从图中可以发现,当序列长度为10的时候,MSE误差最小,所以设置隐藏节点数16,序列长度为10,调整训练步数,设置训练步数为100,400,500,600,1000,相应MSE误差和训练时间见图1(c)。

图1 MSE误差和训练时间分析

综上所示,LSTM模型隐藏节点数,序列长度,训练步数分别为:16,10,500。采用现场4口井的数据对模型进行训练和泛化度测试,训练和测试效果见图2,从图中可以发现,LSTM模型的训练效果较为良好,能够有效展现原始数据的变化趋势,并且也能够有效减少了噪声的干扰。

图2 LSTM模型训练效果

2.3 ARIMA-RTS模型产量预测模型的建立

ARIMA-RTS模型将日产气量这一单一因素作为输入参数,预测日产气量作为输出参数。首先在数据进行预处理时,由于ARIMA-RTS模型针对平滑数值曲线的处理较好,所以需要额外重视填充缺失值。ARIMA-RTS模型需要时间序列满足平稳性和非白噪声的要求,主要采用差分法和平滑法来实现序列的平稳性操作,平滑法适合带有周期性稳步上升趋势的数据集。一般而言,只需要对时间序列进行一阶差分,将实现序列的平稳性。随后,利用单位根检验(ADF)检验序列的平稳性,再利用白噪声检验判断序列是否为随机性序列,统计量的P值小于显著性水平0.05,认为序列为非白噪声序列。再利用拖尾和截尾确定自相关函数(ACF)和偏自相关函数(PACF),ACF和PACF用以确定p,q。最后建立ARIMA-RTS模型,进行日产气量参数预测。

ARIMA-RTS模型的参数选择较为复杂,分别采用ADF、ACF和PACF确定d,p,q的值,利用matlab建立ARIMA-RTS参数判断模型,对相关参数进行判断。从图3(a)、(b)中可以得到,p=2,q=2,d=1。然后,对现场数据进行残差检验,具体结果见图3(c)。

图3 ARIMA-RTS模型参数p,q图及残差检验

为了更进一步体现ARIMA-RTS模型的适用性,本文针对数据模型情况和数据集平滑性,调整相关方差,得到了4口井的ARIMA-RTS模型拟合检验见图4,结果发现,模型拟合结果较好,符合预期。

图4 ARIMA-RTS模型拟合检验

3 实例验证

3.1 样本情况

根据生产数据的完整性、准确性和数据规模,用于对比两种模型之间的预测效果,选取了四川盆地某气田XC3井。XC3井已开井生产2875天,生产数据较为充实,数据量完整,对数据集进行平滑之后,利于神经网络和ARIMA-RTS模型进行产能预测。以现有生产数据作为训练集和验证集,建立与时间序列相关的LSTM、ARIMA-RTS产量预测模型,对未来375天的气井产量进行预测。

3.2 产量预测效果

利用建立的LSTM产量预测模型和ARIMA-RTS产量预测模型对XC3井2500天~2875天的产气量进行了预测。对LSTM模型,采用0~2500天的生产数据对其进行训练,保证参数的精确度,以此保证训练的稳定性以及预测的准确性。对ARIMA-RTS模型进行数据拟合,保证模型的准确度。将原始数据与LSTM模型预测数据和ARIMA-RTS模型预测数据进行了对比,结果见图5,从图中可以发现,对于原始数据集而言,LSTM模型的预测更加平稳,而ARIMA-RTS模型在较多位置易出现数值突变的现象,但是两种模型的预测数据基本上都在原始数据集附近,准确度都较高。

图5 ARIMA-RTS和LSTM模型预测结果对比

从两种模型MSE误差和预测时间得知,LSTM模型的均方误差为0.89%,较为准确的预测了2500~2875天的产气量,预测时间较长(554.28s),而ARIMA-RTS模型均方误差在2.6%,也比较准确地预测了2500~2875天的产气量,且预测时间较短(20.15s)。

4 结束语

通过基于机器学习的LSTM模型和基于数据挖掘原理的ARIMA-RTS模型,我们对XC3井第2500天~第2875天的产量进行预测。LSTM模型表现较好,MSE误差为0.89%,但耗时和复杂性较高。而ARIMA-RTS模型MSE误差为2.6%,整体精度仍满足要求,耗时少且简单。

猜你喜欢
神经网络误差产量
2022年11月份我国锌产量同比增长2.9% 铅产量同比增长5.6%
今年前7个月北海道鱼糜产量同比减少37%
海水稻产量测评平均产量逐年递增
角接触球轴承接触角误差控制
Beidou, le système de navigation par satellite compatible et interopérable
神经网络抑制无线通信干扰探究
压力容器制造误差探究
2018上半年我国PVC产量数据
基于神经网络的拉矫机控制模型建立
九十亿分之一的“生死”误差