基于长短期记忆网络和注意力机制的油井产油量预测

2021-11-22 12:39潘少伟郑泽晨王吉哲蔡文斌王朝阳
科学技术与工程 2021年30期
关键词:产油量油井准确率

潘少伟, 郑泽晨*, 王吉哲, 蔡文斌, 王朝阳

(1.西安石油大学计算机学院, 西安 710065; 2.西安石油大学石油工程学院, 西安 710065)

油气数据分析技术在油气行业中十分重要,尤其是面对海量的油田信息,在数据处理和管理时会造成信息的忽略[1]。在油井产油量预测问题中,因为一些增产措施,使得产油量出现波动,或者因为经济原因导致油井减产。在这种复杂的状况下,想要准确地预测和控制产油量,就必须平滑数据,改进预测模型。目前有一些学者使用调整指数递减法的递减率[2]、水驱曲线法[3]来解决油藏储量和产量的预测问题。同时,任燕龙等[4]使用长短期记忆网络(long short-term memory networks,LSTM)建立油田产量预测模型。Holdaway等[5]通过数据挖掘中的聚类方法和概率方法建立多井的产油量模型。Gupta等[6]针对页岩油气藏的产量预测提出数据挖掘方法和时间序列分析方法。Zhou等[7]采用聚类和多元回归分析建立生产井的产能模型。Negash等[8]提出使用人工神经网络方法和贝叶斯正则化算法训练预测模型。这些方法大多是为了解决油田或油井产油量的预测问题,基本未涉及产油量的时间序列分析。所以,现提出通过采用随机森林(random forest,RF)、LSTM和注意力机制(attention mechanism)相结合的方法来建立油井产油量的预测模型,以提取油井产油量数据中存在的时间相关性,提高它们的特征重要性。

1 原理与方法

1.1 RF

RF是一种包含多个决策树的分类器,它基于Bagging思想,借助自助法重采样技术,通过构建多个决策树来组成随机森林。RF的实现简单、计算开销小,抗过拟合能力强。

1.2 LSTM

LSTM是一种时间循环神经网络,是为了解决一般的循环神经网络(recurrent neural networks,RNN)存在的长期依赖问题而专门设计出来的[9]。LSTM神经单元包含三种门控:输入门、遗忘门、输出门。LSTM的长期和短期记忆正是由门控单元来完成,在每个时间点,使用几种门控单元来调节沿序列传递的信息,捕获数据序列中长记忆的依赖关系,如图1所示。

t为时间步长;ht-1为前一时刻的隐含层状态;ht+1为后一时刻的隐含层状态;ht为当前时刻的隐含层状态;it为输入门;ft为遗忘门;Ot为输出门;tanh为激活函数;σ为sigmoid函数;A为相邻的LSTM单元;Xt-1、Xt和Xt+1分别为前一时刻、当前时刻和后一时刻的输入信息;Ct-1和Ct分别为前一时刻和当前时刻的记忆细胞状态; 为当前时刻候选的记忆细胞状态图1 LSTM神经单元结构示意图Fig.1 Structure diagram of LSTM neural unit

1.3 基于LSTM与注意力机制的油井产油量预测模型

注意力机制模拟了人类在某些时刻注意到特定区域或特定物体时的场景。为了更加准确地识别物体,利用注意力机制可帮助人们有选择性地获取更多、更有效的物体特征信息,而忽略其无用信息[10]。在一些序列型数据中,注意力机制对于数据建模性能有着巨大的提升。

注意力机制还可以对神经元分配不同的权重概率。注意力机制可帮助突出油井历史产油量数据中的关键信息,增强油井产油量预测模型的准确性。图2为基于LSTM和注意力机制的、应用于油井产油量预测的深度学习模型。该模型建立时,时序数据之间的超前或者滞后关系对于油井产油量至关重要,预测目标的特征会被滞后的时序数据所影响。LSTM主要用于对时间序列中的长期依赖性数据进行建模,注意力机制主要用于了解模型中顺序单元的哪些子集具有影响力。基于LSTM和注意力机制的油井产油量预测模型在油井产油量预测中可捕获两类关键信息:①在时间关系下不同影响因素和油井产油量之间的联系;②不同影响因素对油井产油量的不同重要性。

yn、yn+1和yn+i分别是当时间滞后参数lag为0、1和i时,油井产油量预测模型的输出图2 产油量预测模型Fig.2 Prediction model of oil production

2 基于LSTM和注意力机制的油井产油量预测

把基于LSTM和注意力机制的油井产油量预测模型简记为Attention+LSTM模型。

2.1 研究区概况

研究区位于中国南方某油田H3断块,面积约为2.5 km2,自1995年正式投入开发,主要产油层段为古近系阜宁组一段和阜宁组二段。其中阜宁组一段主要发育灰色粉砂岩、棕色含油粉砂岩和灰色泥岩;阜宁组二段主要发育灰色、深灰色粉砂岩、生物灰岩、鲕粒灰岩和泥岩。截止到目前,研究区油井和注水井总数达到60余口,积累了丰富的动静态资料。

2.2 数据集构建

由于研究区内H3-32井、H3-34井和H3-35井的开发周期长,且数据的变化趋势明显,所以抽取这3口井进行油井产油量预测实验。把这3口井1995年9月至2016年4月的数据作为训练集,2016年5月至2018年5月的数据作为测试集。Attention+LSTM模型的输出设置为油井的月产油量,输入则设置为油井的油层厚度、泵深、泵径、生产天数、动液面、泵效和含水率。

2.3 评价指标

为了评价Attention+LSTM模型对油井月产油量的预测精度,选取均方根误差(root mean square error,RMSE)、平均绝对误差(mean absolute error,MAE)和平均绝对百分比误差(mean absolute percent error,MAPE)作为评价指标,它们的具体计算公式如下。

(1)

(2)

(3)

2.4 缺失值补全

油田工作中由于测井仪器传感器的误差或失灵会导致某些生产数据的缺失。在H3-32井数据集构建过程中,其动液面数据出现了缺失,如表1所示。鉴于RF的精度高于大多数的单个算法,并且能够有效地避免过拟合,准确度也较高,所以采用RF补全了H3-32井缺失的全部动液面数据,具体如表1所示。

表1 缺失和补全后的数据Table 1 Missing data and data after completion

利用LSTM对H3-32井缺失数据和补全后的数据进行产油量建模,所得结果如图3所示。三条曲线对比可发现:采用补全后数据构建的产油量预测模型的准确度更高,而且由补全后数据得到的产油量预测模型对H3-32井的实际产油量的变化趋势拟合得更好。

图3 缺失值补全前后模型的产油量预测值Fig.3 Predicted values of oil well production before and after the missing values are completed

2.5 参数选择对Attention+LSTM产油量预测的影响

参数选择对于LSTM模型的准确率有着较大的影响。本次实验中的参数调整包括时间滞后参数lag、学习率衰减参数α和神经元随机失活参数Dropout。利用H3-32井的训练数据集和测试数据集优选出适合于Attention+LSTM模型的这3个参数的最优值,具体的结果如表2、表3和表4所示。

表2 数据时间滞后对于模型准确率的影响Table 2 Impact of data time lag on model accuracy

表3 Dropout对于模型准确率的影响Table 3 Impact of Dropout on model accuracy

表4 α对于模型准确率的影响Table 4 Impact of α on model accuracy

表2为不同的时间滞后参数对于Attention+LSTM模型准确率的影响。由表2可知,随着时间滞后参数的增大,Attention+LSTM模型的3个评价指标都在不断下降。当时间滞后参数增加到36时,RMSE的值为9.58,MAE的值为6.67,MAPE的值为0.108 3,说明Attention+LSTM模型此时表现出最高的准确率。而当时间滞后达到48时,Attention+LSTM模型的准确率突然减小,所以把36作为时间滞后参数的取值构成网络结构。

在LSTM建模中,数据之间会存在一定的时序关系。随着时间的推移,油井的产油量会越来越低,因此过拟合可能导致油井产油量模型无法准确地预测油井月产油量的下降情况。通过Dropout可以随机地丢失神经元,使得油井产油量预测模型的泛化能力变强,但是Dropout的增大会导致过多的有效信息丢失,所以经过反复调试,得到了如表3的实验结果。由表3可知,当Dropout为0.3时,Attention+LSTM模型的表现最佳。

表4为学习率衰减指数α对Attention+LSTM模型准确率的影响。学习率衰减指数α可以在Attention+LSTM模型训练过程中不断地调整学习率的衰减程度以达到精确地逼近最佳模型。选取0.1~0.9分别进行实验,发现α=0.8时,Attention+LSTM模型表现出最高的准确率,所以将学习率衰减指数α的取值定为0.8。

在调整时间滞后指数lag、学习率衰减指数α和神经元随机失活参数Dropout后,Attention+LSTM模型的性能均有较大的提高,所以最终把时间滞后定为36个月,学习率衰减指数定为0.8,神经元随机失活参数定为0.3。

在时间滞后参数lag、学习率衰减指数α和神经元随机失活参数Dropout的最优值确定后,通过H3-32井的数据对采用3个最优值的Attention+LSTM模型进行测试,所得结果如图4所示。图4为训练过程中Attention+LSTM模型在训练集和验证集上的损失变化曲线,Attention+LSTM模型的损失这里设置为MAE。由图4可看出,在整个迭代过程中Attention+LSTM模型的MAE不断下降;在训练集上,经过了前40次的迭代之后,Attention+LSTM模型的MAE逐渐变得平稳;在验证集上,Attention+LSTM模型的MAE在经历了最低的阶段后开始缓慢地上升,当迭代次数为50左右时,开始变得平稳,之后一直保持着平稳状态。

图4 训练过程中验证集和训练集的损失变化图Fig.4 Loss curve of validation set and training set during training

2.6 多种模型的准确率对比

传统的产油量预测模型多是基于以往数据建立线性模型进行产油量预测,因此把线性回归(linear regression,LR)作为油井产油量预测实验中的一种方法。并且,实验中也把RF、支持向量回归(support vector regression,SVR)、人工神经网络(artificial neural networks,ANN)、LSTM的产油量预测结果与Attention+LSTM进行对比(表5)。由表5可看出LR、SVR和ANN三种方法的表现较差,而RF、LSTM和Attention+LSTM三种方法的表现较好。

表5 6种方法在H3-32井测试集上的预测结果Table 5 Prediction results of the six methods on H3-32 well test set

利用H3-32井测试集对RF和Attention+LSTM模型做进一步的测试,所得结果如图5所示。由图5可发现,RF模型对应的月产油量预测曲线的变化比较平缓,但与油井月产油量真实值曲线的拟合较差;而Attention+LSTM模型对应的月产油量预测曲线与油井月产油量真实值曲线拟合得较好。这进一步说明Attention+LSTM模型对月产油量的预测效果要优于RF模型。

图5 RF和Attention+LSTM对月产油量预测的对比曲线Fig.5 Comparison curve of RF model and Attention+LSTM model for monthly oil production prediction

2.7 模型推广性

将LSTM模型和Attention+LSTM模型在H3-34井和H3-35井上进行对比实验,用来验证它们在新数据上的通用性,所得结果如表6所示。由表6可以清晰地看出在H3-34井和H3-35井的测试集上,Attention+LSTM模型在MAE、RMSE和MAPE上的表现均优于单独的LSTM模型。尤其在H3-35井的测试集上,Attention+LSTM模型的MAPE为0.127,相比LSTM模型降低了50%左右。

表6 注意力机制对于LSTM的影响列表Table 6 List of the effects of attention mechanisms on LSTM

H3-32井、H3-34井和H3-35井的历史产油量与预测产油量的对比情况如表7所示。由表7可看出Attention+LSTM模型的月产油量预测误差大多介于0.2%~20%,总体上预测产油量与实际产油量较为相符。对表7进行统计,得出H3-32井的实际产油总量为1 470.5 t,其预测值为1 442.33 t,相对误差为1.92%;H3-34井的实际产油总量为1 564.5 t,其预测值为1 545.98 t,相对误差为1.20%;H3-35井的实际产油总量为742.2 t,其预测值为772.12 t,相对误差为4.05%。这进一步验证了Attention+LSTM模型在油井产油量预测中的准确性与合理性。

表7 3口油井的月产油量历史数据与预测数据列表Table 7 List of historical and predicted data of monthly oil production for the three wells

3 结论

(1)油田开发过程中,油井产油量会随时间发生有规律的变化,但鉴于油井产油量数据的有限性,采用了单层LSTM网络加注意力机制的方法防止油井产油量预测中出现的过拟合问题。

(2)利用泛化能力极好的RF对缺失的某些油井产油量相关参数进行补全,帮助油井产油量预测模型更好地学习油井产油量数据中的变化规律。

(3)分析时间滞后、学习率衰减和神经元随机失活对油井产油量预测模型的影响,发现当这3个参数取值分别为36、0.3和0.8时,油井产油量预测模型的表现最佳。将时间滞后、学习率衰减和神经元随机失活分别为36、0.3和0.8的Attention+LSTM模型应用中国南方某油田H3-32井、H3-34井和H3-35井的产油量预测中,取得了较好的应用效果。

猜你喜欢
产油量油井准确率
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
油井遭袭
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
低渗透油藏挖潜增产技术与应用
配方施肥对澳洲茶树枝叶产量和产油量的影响
不同海拔条件下春油菜光合生理和产油量的响应
抽油井杆管防偏磨原因分析及对策研究
浅谈油井作业压裂酸化及防砂堵水技术研究