深度学习的电泵井产液量动态预测模型

2022-01-04 03:17杨军征冯钢王青华邹洪岚马丹

石油钻采工艺 2021年4期

杨军征冯钢王青华邹洪岚马丹

1. 中国石油勘探开发研究院；2. 西安中控天地科技开发有限公司

油井产量是认识油藏生产动态、评价油田开采状况、编制油田开发规划、开发方案设计与调整、改善油井工作制度等决策问题的基础和依据，而且油井产量可以用来反映油井的生产能力、评估抽油设备的工作状态和措施作业的效果水平。油井产量科学可靠的提前预知，能实现油井措施工作的高效科学部署和油井生产工作量的合理匹配，确保油井安全可靠的生产运行和规划目标的实现［1-2］。

目前，电泵举升主要应用在海上油田，而海上生产平台地理位置分散、开发井网部署难度大、海况条件复杂［3-5］，给海上油井的产液计量带来了很大困难。虽然一些油田采用压差法、多相流量计来计量电泵井产量［6］，但多相流量计成本昂贵，而且这些方法对海上高气液比油井的计量精度较差。近年来，随着数字油田技术的广泛应用和人工智能技术的快速发展，油井虚拟计量越来越受到广大油田的重视［7］。许多学者也基于油井生产动态数据，应用神经网络、支持向量机(SVM)、遗传算法等机器学习方法［8］，构建油井产量预测模型，实现产量的快速准确预测。2010年Tan Chaodong等［9］利用人工神经网络自学习方法预测泵的工作状况、产量、系统效率，并通过生产参数优化提高电潜泵油井产量和效率。Holdaway等［10］通过对生产数据进行拟合回归预测，基于遗传算法和小波神经网络实现了抽油机智能优化控制。2014年Gupta等［11］提出了采用数据挖掘技术和时间序列分析预测生产的方法，并将其应用于非常规油气藏的产量预测。2018年Tan Chaodong等［12］构造了油井系统效率的混沌时序预测模型，实现了多变量时间序列预测油井系统效率，提高了预测精度。2019年谷建伟等［13］、2020年Liu Wei等［14］针对油田产量变化的时序特征，提出采用LSTM预测模型来进行油田区块产量预测，取得了较好的预测精度，但电泵井产量预测不仅要考虑时序特征，同时还应考虑电泵机组等设备工况变化及工作参数对产量的影响。

油井产量预测本质是一个时间序列问题，同时还应考虑设备工况变化、电泵运行情况和地层供液情况对产量的影响。为此，根据电泵井历史数据、静态数据和设备数据，利用皮尔逊(Pearson)相关系数方法分析了电泵井属性数据与产量的关联性，根据主成分分析(PCA)方法进行数据降维确定主控参数，定量研究电泵井生产数据变化规律与产量间的关系。通过与BP神经网络模型算法对比分析，选用了长短期记忆神经网络(LSTM)［15］，建立了一种广泛应用时序数据学习和预测的电泵井产量预测模型，该方法能充分考虑电泵生产动态数据的前后趋势变化情况和时间关联性，更深层次挖潜动态数据间的变化规律，可实时预测电泵井产量并超前预警，从而帮助技术人员诊断举升设备工况和合理选择调参时机，尽可能避免油井减产，实现了电泵井参数优化决策由传统的业务驱动向数据驱动的转变。

1 电潜泵井生产系统

电潜泵采油系统是利用潜油电动机带动电动潜油多级离心泵将井下原油举升到地面的一种人工举升方法。电潜泵系统包括井下机组、地面控制和电力传送这3个部分。井下机组主要有电动潜油多级离心泵、潜油电动机和潜油电动机保护器；地面控制主要有采油井口装置、电动潜油泵控制柜和电动潜油泵变压器；电力传送部分是电动潜油泵电缆［16］。电动潜油离心泵是一种井下大排量举升油气的无杆采油设备，通过电机和电泵同油管一起下入井内液面以下进行井下油气举升，将油井中的井液举升到地面。其生产工艺流程如图1所示。

2 模型算法原理与方法

基于大数据的深度学习智能技术用于电泵井产量预测和预警的技术思路为：将数据挖掘技术与专业知识相结合，识别电泵井产量预测的主控参数，将归一化处理后影响产量的主控参数作为输入变量，应用BP神经网络和长短期记忆神经网络(LSTM)智能算法，建立产量预测深度学习模型，利用大量样本数据对所建模型进行训练和模型参数调优，基于训练后的模型实现产量预测和预警。基于数据特征提取的电泵井产量预测方法流程如图2所示。

图2 基于特征选择的电泵井产量预测方法流程Fig. 2 Process of feature selection based ESP production prediction method

2.1 特征参数选择方法

影响电泵井产量的因素很多，主要受油藏和举升设备的影响，包括：油井静态数据(油藏岩石物性、井眼轨迹等)，生产动态数据(时间、油压、套压、泵频率、油嘴开度、泵出口和入口压力、泵入口温度、含水率、井液黏度、动液面等)，设备工况数据(生产时长、电流、电压、有功功率、功率因数、瞬时耗电量、系统效率、泵效等)。为了能够精确地了解影响电泵日产液量的主要特征参数，采用Pearson相关系数分析变量间的相关性，选用主成分分析(PCA)方法对数据进行降维和生产特征分析。

(1)皮尔逊(Pearson)相关系数［17］反映的是2个变量之间变化趋势的方向以及程度，0表示2个变量不相关，正值表示正相关，负值表示负相关，值越大则表示其相关性越强。其中，2个n维向量x、y的Pearson相关系数计算公式为

式中，分别为x、y中元素的平均值。Pearson相关系数rxy是[−1,1]中的实数，当rxy＞0时，两变量正相关；反之，则负相关。越大，x和y的相关程度越高。

(2)主成分分析(Principal Component Analysis，PCA)是把原来多个变量简化为少数几个综合指标的一种统计分析方法［18］。电泵井产量预测包含多要素的复杂系统，将大量因素作为输入参数会增加分析问题的难度和复杂性，利用各个因素间相关关系，用降维后的主成分代替原来较多的影响因素，减小数据复杂度的同时不会损失数据太多信息。

2.2 BP神经网络和LSTM网络原理

(1) BP神经网络是一种多层的前馈神经网络［19］，其传递过程主要分为信号的前向传播和误差的反向传播，该过程由于网络的输入和输出是相互独立的，致使先前时刻的输入信号无法考虑对当前时刻输出信号，不能有效处理时序数据的问题。对于只含一个隐含层的网络模型如图3所示。

图3 BP神经网络结构Fig. 3 Structure of BP neural network

(2) 长短期记忆神经网络(LSTM)是一种时间循环神经网络，可有效解决一般的RNN(循环神经网络)存在的长期依赖问题，在时间序列预测问题上有着广泛的应用［20］。LSTM在普通RNN的基础上，增加了输入门、输出门、遗忘门和记忆单元，其网络结构如图4所示。

图4 LSTM网络结构Fig. 4 Structure of LSTM network

LSTM通过在隐藏层的计算节点中引入门控机制，在网络结构上克服了梯度消失的问题，具有更多的参数来控制模型；通过4倍于RNN的参数量，可以更加精细地预测时间序列变量。而电泵井生产特征变化具有强烈的前后关联特性，产量预测是一个长期的时序信息处理过程。因此，LSTM对于长序列的理解分析能力大幅度提高，能更好地适应具有长时依赖特征的时序预测问题。利用LSTM神经网络更能有效学习和挖掘电泵生产动态数据的变化规律，能够准确反映电泵井产量的变化趋势，更适合于电泵井产量的时序预测。

2.3 产量预测模型评价指标

为了评价预测模型在测试集上的泛化能力，即产量预测模型的预测效果。预测效果评价指标主要有：平均绝对百分比误差(MAPE)、平均绝对误差(MAD)、均方根误差(RMSE)、希尔不等系数(TIC)和决定系数(R2)，具体数据见表1。其中，yt表示第t个样本或第t时刻的真实产量，m3/d；n表示样本个数；ypre表示预测模型在i时刻或第i个样本处的预测值，m3/d；表示真实产量的平均值，m3/d。

表1 回归模型评价指标Table 1 Evaluation index of regression model

3 电泵井生产特征选择和主控因素分析

特征选择和主控因素分析应用降维方法，一方面确定主控因素，去除对产量影响极小的因素，认识电泵井生产特征；另一方面可避免过多的输入变量，造成训练网络规模过大、参数过多、收敛速度慢。

3.1 数据预处理及相关因素分析

数据预处理主要包括清除生产动态数据中的异常值和补全生产动态数据中的缺失值，进而保证整个电泵井生产时段内动态数据的完整性和有效性。为了提高产量预测模型的训练速度和预测精度，对某油田的生产日度数据利用式(2)进行标准化处理。

式中，xstd，x分别为标准化后和待标准化的特征参数；xmin、xmax分别表示特征参数的最大值和最小值。

对某油田1 000井次的电泵井生产动态数据进行预处理和标准化后，将15项属性数据两两之间的皮尔逊相关系数处理，分析属性数据的相关性如图5所示。由图可知，日产气量、泵频率、油嘴开度、泵入口压力、泵出口压力、马达温度、油压、泵电压、泵电流、气油比、流压等11项参数相关性系数的绝对值大于0.4，与电泵井日产液量密切相关，将这11项参数作为预测电泵井产量的主控参数。

图5 电泵井特征参数相关性分析Fig. 5 Correlation of characteristic parameters of ESP well

3.2 主控因素分析的结果

为定量描述电泵井产量与生产参数之间的关系，计算日产气量等11个主控参数的权重。主控因素分析样本1 000个，每个样本有14个变量，构成一个1 000×14阶的数据矩阵，基于主成分分析(PCA)特征选择方法，分析各个特征参数对于电泵井日产液量的重要程度，计算结果如图6所示。

图6 PCA特征参数重要性柱状图Fig. 6 Importance histogram of PCA characteristic parameters

图6 是基于PCA特征选择后得到的原特征的权重系数。基于特征的重要性排序结果，逐次排除特征参数，即剔除泵入口温度、井口温度和泵压差等变量，直到模型预测精度开始变化为止，则此时模型的输入为影响油井产量特征参数。最后确定有效特征参数共11个(日产气量、泵频率、油嘴开度、泵入口压力、泵出口压力、马达温度、油压、泵电压、泵电流、气油比、流压)，作为预测模型输入变量。

3.3 样本选取

选取某井区ESP-01电泵井作为研究对象，收集整理1 000 d的生产日报数据，如表2所示。为了保证数据的随机性，用Numpy库中random.shuffle的方法将数据集进行随机打乱操作，以7∶2∶1的比例将电泵井日度数据划分为训练集、验证集和测试集。

表2 电泵井ESP-01部分生产日报数据Table 2 Partial daily production data of ESP well ESP-01

4 不同预测模型训练和调优

根据前文确定的11个有效特征参数与电泵井日产液量构成的模型数据集，基于Adam优化算法，对BP预测模型和LSTM预测模型进行训练，优化预测模型的各个权重系数。

4.1 BP模型训练及调优

BP神经网络的结构设计为只有1个隐藏层，有128个隐藏神经元，加入drop_out层，drop_rate设为0.5，输出层为1个输出神经元，再加入1个RELU层。使用Keras来实现BP神经网络算法，将初始学习率设置为10−3，使用Adam优化器进行优化，发现此学习率难以收敛到较好的效果，将学习率降为10−5，也能很快收敛。

设定训练迭代20 000次，采取早停止策略。其中，patience和min_delta参数的设定对模型影响特别敏感，使用网格搜索算法最终确定patience设置为600，min_delta设置为10−3，最终迭代训练次数达2 000次后收敛到最佳。此时，训练集的均方误差损失为0.273 2，验证集的均方误差损失为0.005。训练过程中，模型损失函数随训练次数的变化过程，如图7所示。

图7 BP模型损失函数变化过程Fig. 7 Variation process of loss function of BP model

4.2 LSTM模型训练及调优

LSTM神经网络的结构设计时，首先初始化LSTM模型参数，其中LSTM层数1、神经元个数64、时间序列步长3个月、批量大小16，迭代次数2 000；然后，使用训练集对模型训练，训练完成后利用网格搜索在验证集上调优，得到最优的LSTM模型结构参数：迭代次数98，批量大小4，时间序列步长3，神经元个数1 024。模型训练过程中训练集及验证集损失函数随训练次数的变化过程如图8所示。

图8 LSTM模型损失函数变化过程Fig. 8 Variation process of loss function of LSTM model

对比分析图7和图8可知，LSTM预测模型的损失函数随着迭代次数的增加而逐渐减小并趋于0，且训练集与验证集的损失函数非常接近，说明LSTM预测模型没有出现过拟合或欠拟合的现象，模型具有较好的泛化能力，可用于电泵井产量预测。

5 模型预测实例

利用训练好的LSTM和BP神经网络产量预测模型，预测ESP-01电泵井3个月的日产量值，与实际产量数据对比，共217组数据，部分结果见表3。

表3 ESP-01部分产量预测值与实际值对比Table 3 Comparison between partial predicted production and actual value of Well ESP-01

由217组数据计算可得，BP神经网络预测模型平均相对误差为14.89%，LSTM模型平均相对误差为2.39%，LSTM模型预测精度明显高于BP神经网络模型。BP神经网络模型和LSTM模型在整个测试集上的产量预测值与实际值的对比结果如图9所示。

图9 BP和LSTM两个模型预测结果对比Fig. 9 Prediction result comparison between BP and LSTM

从图9可以看出，LSTM预测模型的电泵井日产液量与真实日产液量的数值高度一致，结合表4中BP和LSTM产量预测效果评价指标，其中LSTM预测模型的MAPE、MAD、RMSE、TIC和R2均优于BP神经网络预测模型的预测效果。研究结果表明，基于LSTM的产量预测模型准确掌握了日产液量的变化趋势和前后关联性，能够准确预测电泵井未来的日产液量变化情况。因此，LSTM产量预测模型可精确应用于海上油田产量计算应用。

表4 BP和LSTM产量预测效果对比Table 4 Production prediction effect comparison between BP and LSTM

6 结论

(1)基于皮尔逊相关系数分析方法和PCA特征选择算法能够有效筛选出影响电泵井产量的主要因素，确定了泵频率、油嘴开度、泵入口压力、泵出口压力等11项影响电泵井产量的主控参数，有助于认识电泵井产量与各特征参数之间的关联程度，同时为降低模型复杂度、提高模型泛化能力奠定基础。

(2)应用LSTM深度学习算法，建立的电泵井产量预测模型能够对电泵井产量的相关参数变化规律进行量化表征。采用LSTM建立产量预测模型比BP模型更适合解决电泵井产量的时序预测问题。

(3)建立的电泵井产量预测LSTM模型利用现场简便易得的生产动态数据和举升设备的工况数据，可进行油井产量的快速准确预测，实现了油井预测性管理，降低了生产成本，提高了油井生产效益。