隋顾磊,傅钰江,朱洪翔,李遵照,王晓霖
1)中石化(大连)石油化工研究院有限公司,辽宁 大连 116045;2)中国石化人工智能技术联合研发中心,辽宁 大连 116045
近年来,能源行业一直关注应用人工智能技术和机器学习方法解决复杂的工业问题,如光伏与电力系统故障诊断[1],风力发电预测[2],能源消费及消耗预测[3],原油与天然气价格预测[4],以及热电联产的经济分析[5].对于石油与天然气行业,人工智能技术和机器学习方法的应用研究涉及到勘探开发的全产业链,如孔隙度和渗透率等储层参数的预测[6],剩余油分布预测[7],油井和气井产能预测[8],智能钻井及测井[9],水力压裂作业中的应用[10],以及故障诊断[11].且上述技术和方法主要针对常规油气藏开采,对于已转化为储气库的储层研究尚未涉及.
常规天然气储存方式有地面储罐储存、长输管道储存和地下储气库储存.其中,地面储罐储存和长输管道储存助力于民生和工业生产用气,地下储气库发挥季节性消费和应急调峰作用,是防止能源供应意外中断的安全措施.储气库运行涉及到往复式的天然气注入和采出过程,对压力的清晰认识可提升储气库的实用性.枯竭油气藏是建设地下储气库的优选,因而地下储气库技术大多数借鉴于油气藏工程行业.数值模拟是石油和天然气行业预测生产动态参数和量化储层不确定性的有力工具,可以实现地层压力的预测.但是,数值模拟预测地层压力的准确性取决于精细的地质模型、高质量的历史拟合和优化生产,实现流程多且计算耗时.本研究提出一种数据驱动的储气库地层压力预测方法,可以深入挖掘既有的矿场监测数据信息,降低计算复杂度,并在短时间内给出准确的预测结果.
提出一种数据驱动的储气库地层压力预测方法,如图1.引入注采气量比重数值加权动态时间规整(dynamic time warping,DTW)算法的最优规整路径筛选压力监测井,采用极端梯度提升(extreme gradient boosting,XGBoost)、支持向量回归(support vector regression,SVR)和长短期记忆网络(long short-term memory,LSTM)分别建立监督学习地层压力预测模型,分析和评价3种预测模型的预测性能.
图1 地下储气库地层压力预测模型建立流程Fig.1 The process of establishing formation pressure predictive model of UGS.
将原始实验数据x进行归一化处理,处理方法为
其中,xmin和xmax分别为归一化参数的最小值和最大值.
对于预测模型预测性能的评价,使用均方误差(mean square error,MSE)、均方根误差(root mean square error,RMSE)和拟合度(R-squared,R2)3 个指标.MSE 和RMSE 反映了真实误差,值越接近0,表明模型预测精度越高,其中,RMSE 衡量的数据量级与误差量级相同,更容易感知数据;R2表示预测值与真实值之间的拟合程度,R2∈ [0,1],随着R2值趋近1,模型预测性能逐渐提升.
DTW 算法[12]是通过动态规划计算两个时间序列之间的最优映射(规整路径),并以最短规整路径表示两个时间序列相关性的方法,DTW 算法解决了时间序列发生时间轴偏移或伸缩后的相似性度量问题.近年来,DTW 算法成为度量时间序列距离的最优方法,已被应用于语音识别、手势识别、图像处理、数据挖掘和故障检测等领域.
② 连续性:规整路径相邻元素wk+1=(i,j)和wk=(i',j')必须满足i-i'≪1 和j-j'≪1,表示某个时刻的点对应当前或相邻时刻的点;③ 单调性:规整路径相邻元素wk+1=(i,j)和wk=(i',j')必须满足i-i'≫0和j-j'≫0,即W中的映射必须随着时间单调进行,确保两个序列之间的映射线不存在交叉,如图2.
图2 时间序列P和Q规整路径(左)和映射关系(右)示意图Fig.2 Schematic diagram of time series P and Q.DTW warping path of time series P and Q (left), DTW mapping of time series P and Q (right)
L(P,Q)表示时间序列P和Q之间的最短距离.为了获取最优规整路径,构建DTW算法如下:
1)构建距离矩阵Dm×n.Dm×n中元素(i,j)为点pi与 点qj之 间 距 离 的 平 方,d(pi,qj)=(pi-qj)2,d(pi,qj)称为局部距离.
2)计算累计距离γ(i,j).γ(i,j)表示在距离矩阵Dm×n中从位置(0,0)到(i,j)路径上局部距离的累计距离,计算公式为
3)获取最优规整路径对应的最短距离L(P,Q) = min {γ(m,n)}.
满足上述3个约束条件的规整路径很多,DTW寻找其中使步骤1)中局部距离累加和最小的路径,即最优规整路径.
相对于井底流压,地下储气库的井口压力具有便于监测、获取成本低以及不妨碍注采井注采运行等优点,借鉴语音识别和数据挖掘等领域时间序列的研究,采用DTW 算法计算地层压力时间序列与井口压力时间序列之间的最优规整路径.
然而,井口压力的变化受注采井的工作制度影响,主要相关因素为注采气量.本研究引入注采井注采气量比重加权最优规整路径数值,并选取加权数值最小的注采井作为该储气库的压力监测井.加权公式为
其中,Qi和Pi分别为第i口井的累积注气量和累积注气量;Q和P分别为储气库累积注气量和累积采气量;Qi/Q为注气量比重;Pi/P为采气量比重.
根据确定好的压力监测井建立地层压力预测模型,本研究采用XGBoost、SVR 和LSTM 分别建立监督学习地层压力预测模型[13].
XGBoost 算法是基于决策树的集成算法,广泛应用于构建工业领域的故障诊断、时间序列预测以及生产优化等方面智能模型.相比经典的集成算法 梯 度 提 升 树(gradient boosting decision tree,GBDT),XGBoost 算法预测性能明显提升,主要表现在:① XGBoost 相对GBDT 损失函数的泰勒展开保留二阶,包含更多损失函数信息;② XGBoost在损失函数中引入正则化项,正则化项控制每棵树的复杂度,防止模型过拟合.
支持向量机(support vector machine,SVM)算法是以线或者超平面形式创建决策边界将样本集分类,为了避免局部最小值,SVM将线性可分问题转化为二次优化问题进行优化求解.SVM由分类问题推广至回归问题即可得到SVR,此时,SVR的决策边界是回归模型f(x)=vTx+b,其中,x为输入向量;v为权重向量;b为偏差.SVR 容许存在误差ε,当样本落入回归模型的间隔边界内部时,即模型预测值与真实值之间差值小于ε时,不计算损失,反之计算损失.
循环神经网络(recurrent neural networks,RNN)广泛应用于处理时序问题,在神经网络经过多阶段的计算后,部分特征已经被覆盖,这一长期依赖问题在深度学习领域普遍存在.RNN模型由于存在梯度消失以及梯度爆炸的问题,无法很好地学习时序数据的长期依赖关系.LSTM解决了一般的RNN存在的长期依赖问题.LSTM 的核心是门控机制,包括输入门、输出门和忘记门,保证了LSTM 可以选择性地保留、放弃和更新历史信息.
实验数据源自中国石化某地下储气库,该储气库由中高孔隙度和渗透率废弃气藏改建而成,储层深度为-2 330~-2 670 m,储气库自2012 年9 月开始注采运行.现阶段,储气库有注采井15口,W-1至W-10 井位示意图如图3.其中,2 口注采井于2021年开始投产运行.本研究实验数据取自该储气库2012 年9 月至2022 年3 月期间的生产数据,约9.5 个注采周期.实验数据分成动态参数和响应参数,其中,动态参数描述储气库的生产动态,包括注气量、采气量、产液量、注气时间、采气时间和井口压力;响应参数为预测参数,即地层压力.
图3 注采井井位示意图Fig.3 Schematic diagram of injector-producer well location.
鉴于天然气地下储气库注采运行的周期性和时序性,本研究采用XGBoost、SVR 和LSTM 分别建立地层压力时间序列预测模型,需要将时间序列数据集通过滑窗表示转换为监督学习模型数据集.在数据分区方面,按照储气库注采周期给出3个数据分区方案,分别以8.5∶1.0、8.0∶1.5和7.5∶2.0划分训练集和验证集.
采用DTW 算法计算地层压力时间序列与井口压力时间序列之间的最优规整路径.其中,W-1至W-13 井时间序列规整时间段为2012 年9 月至2022年3 月,W-14 井和W-15 井时间序列规整时间段分别 为2021 年12 月 至2022 年3 月、2021 年10 月 至2022 年3 月,计算结果如表1,最优规整路径数值越小,说明地层压力时间序列和井口压力时间序列相似度越强.在W-11 至W-13 井中,W-13 井最优规整路径数值最小,单从两个时间序列相似度来说,W-13井最适合作为压力监测井.
表1 最优规整路径数值及加权数值统计Table 1 Statistical table of optimal warping path values and weighted values
将加权公式(3)引入注采井注采气量比重加权的最优规整路径数值,确定W-8 井的加权数值L'(P,Q)最小,W-8 井为该储气库最终确定选取的压力监测井.W-5至W-9井处于储气库的中心高部位,不论注气阶段还是采气阶段,中心高部位井都是储气库运行的主力工作井.注气过程时,储气库中心高部位的压力高于四周和底部使得注入的气体平面上沿渗流通道向四周运移,纵向上沿渗流通道向底部运移,推进注气过程的气水界面向储气库边缘和底部运移,采气过程的气水界面运移规律与注气过程的气水界面运移规律相反.储气库的压力变化是由于注采井的注气和采气工作引起的,引入注采气量比重加权规整路径数值筛选出的压力监测井,是充分考虑渗流机理的结果.
采用DTW算法选取压力监测井具有以下优点:① 井口压力数据采集方便,选取与地层压力时间序列相似度最高的井口压力时间序列,可快速载入预测模型确定当前及未来时间段地层压力数值;②井口压力受注采井注采气量的影响,地层压力反馈至井口包含注气/采气的流入/流出动态,引入注采气量比重数值可忽略流入/流出动态的连接节点井底流压的影响,进一步加强压力监测井选取的合理性.
2.3.1 预测模型参数选取
机器学习算法需要大量参数,本研究采用了网格搜索来确定预测模型的最优参数值.表2给出了建立XGBoost、SVR 和LSTM 机器学习模型参数的详细描述,LSTM地层压力预测模型包含1个LSTM层和1个Dense层,优化器选取Adam.
表2 机器学习模型参数描述Table 2 Parameters used for each machine learning model
2.3.2 结果分析
依据W-8 井的注采数据集分别建立XGBoost、SVR 和LSTM 地层压力预测模型,按照注采周期比8.5∶1.0、8.0∶1.5 和7.5∶2.0 划分为3 个数据分区方案,其中,第1 个比例代表训练集,第2 个比例代表验证集,记录每个数据分区的实验结果,如表3.XGBoost、SVR 和LSTM 三种地层压力预测模型在验证集上的预测结果见图4至图6.
表3 三种预测模型预测性能统计Table 3 Predictive performance statistics of three prediction models
图4 (a)XGBoost、(b)SVR和(c)LSTM 预测模型的地层压力预测值和真实值交点(训练集和验证集比为8.5∶1.0,蓝色数据点表示实际值和预测值的交会点,交会点落在对角线上表示完美预测)Fig.4 Cross-plot of predicted values and actuals of formation pressure.(ratio of training set to dataset is 8.5∶1.0.) (a) XGBoost,(b) SVR, and (c) LSTM.Blue dots represent the cross points of actual and predicted value.The cross points fall on orange dotted line which indicates a perfect prediction.
图5 (a)XGBoost、(b)SVR和(c)LSTM 预测模型的地层压力预测值和真实值交点(训练集和验证集比为8.0∶1.5,蓝色数据点表示实际值和预测值的交会点,交会点落在对角线上表示完美预测)Fig.5 Cross-plot of predicted values and actuals of formation pressure.(ratio of training set to dataset is 8.0∶1.5.) (a) XGBoost,(b) SVR, and (c) LSTM.Blue dots represent the cross points of actual and predicted value.The cross points fall on orange dotted line which indicates a perfect prediction.
图6 (a)XGBoost、(b)SVR和(c)LSTM 预测模型的地层压力预测值和真实值交点(训练集和验证集比为7.5∶2.0,蓝色数据点表示实际值和预测值的交会点,交会点落在对角线上表示完美预测)Fig.6 Cross-plot of predicted values and actuals of formation pressure.(ratio of training set to dataset is 7.5∶2.0.) (a) XGBoost,(b) SVR, and (c) LSTM.Blue dots represent the cross points of actual and predicted value.The cross points fall on orange dotted line which indicates a perfect prediction.
以R2为指标评价XGBoost、SVR 和LSTM 地层压力预测模型的预测性能,实验结果表明,XGBoost、SVR 和LSTM 模型在3 种数据分区的验证集的预测精度都能达到96%以上,平均预测精度分别为0.984 9、0.985 3 和0.973 0,特别是SVR 地层压力预测模型,在上述3个数据分区的验证集上的预测精度都在98%以上.同样,以RMSE和MSE为指标评价XGBoost、SVR 和LSTM 地层压力预测模型在不同数据分区验证集上的预测性能从高到低排序为SVR、XGBoost 和LSTM.综上所述,3 种地层压力预测模型的预测性能从高到低排序为SVR、XGBoost 和LSTM,其中,相比XGBoost 和LSTM 地层压力预测模型,SVR预测性能更为稳定.
为便于可视化,图4至图6给出表3中3种地层压力预测模型在验证集上预测值和实际值的对比结果.结合表3以及图4至图6分析可知,SVR、XGBoost 和LSTM 地层压力预测模型的预测精度高达96%以上离不开丰富的数据支撑,上述3种地层压力预测模型的数据集包含井口压力、注气量、采气量、注气时间、采气时间、产液量和地层压力7种特征,每个特征均由3 500 个数值组成,数据样本空间大,最终3种预测模型的预测效果良好.
本研究选取压力监测井引入注采气量比重数值加权最优规整路径数值,其中,Qi/Q= 7/12,Pi/P= 5/12,加权数值最小的注采井为W-8 井,最终依据W-8 井建立地层压力预测模型,记作M(W-8).若不引入注采气量比重数值,W-13 井的最优规整路径在W-1 至W-13 井中数值最小为6.33,仅依靠DTW 算法求解的最优规整路径筛选压力监测井应为W-13 井.此时,不考虑W-14 和W-15 井是因为这两口井投产时间短,井口压力时间序列数据少,度量地层压力时间序列和井口压力时间序列的解值不具有代表性.为阐述引入注采气量比重数值的合理性,以W-13 井建立地层压力预测模型,记作M(W-13),选取8.5∶1.0的数据分区方案建立模型的样本集,XGBoost、SVR和LSTM地层压力预测模型的预测性能统计如表4 所示.此时,SVR 和LSTM 地层压力预测模型预测精度均开始下降,XGBoost 地层压力预测模型预测精度不变,但RSME和MSE都有所升高.
表4 三种预测模型预测性能对比(数据分区为8.5∶1.0)Table 4 Predictive performance comparison of three prediction models (data partition is 8.5∶1.0)
图7 为XGBoost、SVR 和LSTM 预测模型(分别以W-8井和W-13井建模)的地层压力预测值和真实值对比.由图7 可见,XGBoost、SVR 和LSTM 地层压力预测模型在验证集上面均有一段时间预测值与真实值波动较大,XGBoost 地层压力预测模型预测波动表现在2021 年3 月至2021 年4 月,SVR 和LSTM 地层压力预测模型预测波动表现在2021 年9月至2021 年10 月,结合储气库注采气量分析,波动区间预测效果较差主要是储气库调整注采方案,上述时间段存在应急调峰和加速扩容.此外,XGBoost 和SVR 地层压力预测模型预测值波动区间较小,LSTM 地层压力预测模型预测值波动较大.对比以W-8 井和W-13 井建立的地层压力预测模型发现,引入注采气量比重数值加权最优规整路径数值,进而筛选出的压力监测井更具合理性.
图7 (a)XGBoost、(b)SVR和(c)LSTM地层压力预测模型的预测值和真实值对比Fig.7 Comparison curve between predicted value and actual value of formation pressure prediction model.(a) XGBoost, (b)SVR and (c) LSTM.The yellow line, orange line, and grey line represents the true value, M(W-8) model predicted value and M(W-13) model predicted value of formation pressure,respectively.
提出一种数据驱动的储气库地层压力预测方法,引入注采气量比重数值加权最优规整路径筛选压力监测井,该过程引入注采气量比重数值,忽略流入/流出动态的连接节点井底流压的影响;采用XGBoost、SVR以及LSTM分别建立监督学习地层压力预测模型.结果表明,3种预测模型的预测性能从高到低排序为SVR、XGBoost 和LSTM,且SVR模型的预测性能更为稳定;以W-8 井和W-13 井分别建立模型预测对比地层压力的效果,阐明了引入注采气量比重数值筛选压力监测井更具合理性.
在地下储气库方面,运用机器学习算法预测地层压力是一种新的尝试,地下储气库灵活的注采性能使其成为储存能源的载体,如天然气、CO2和H2,随着“碳中和”的深入推进,地下储气库在未来将会发挥至关重要的能源设施支撑作用,同时也会激发机器学习算法在地下储气库方面的各种探索和应用.
参考文献 / References:
[1]KARA M K C,AMROUCHE B,BENYOUCEF A S,et al.New intelligent fault diagnosis (IFD)approach for grid-connected photovoltaic systems [J].Energy,2020,211:118591.
[2]XIONG Bangru,LOU Lu,MENG Xinyu,et al.Shortterm wind power forecasting based on attention mechanism and deep learning [J].Electric Power Systems Research,2022,206:107776.
[3]PENG Lu,WANG Lin,XIA De,et al.Effective energy consumption forecasting using empirical wavelet transform and long short-term memory [J].Energy,2022,238:121756.
[4]LI Jinchao,WU Qianqian,TIAN Yu,et al.Monthly henry hub natural gas spot prices forecasting using variational mode decomposition and deep belief network [J].Energy,2021,227:120478.
[5]PERRIGOT A,PERIER-MUZET M,ORTEGA P,et al.Technical economic analysis of PV-driven electricity and cold cogeneration systems using particle swarm optimization algorithm [J].Energy,2020,211:119009.
[6]WANG Xidong,YANG Shaochun,ZHAO Yongfu,et al.Lithology identification using an optimizedkNN clustering method based on entropy-weighed cosine distance in Mesozoic strata of Gaoqing field,Jiyang depression [J].Journal of Petroleum Science and Engineering,2018,166:157-174.
[7]谷建伟,任燕龙,王依科,等.基于机器学习的平面剩余油分布预测方法[J].中国石油大学学报自然科学版,2020,44(4):39-46.GU Jianwei, REN Yanlong, WANG Yike, et al.Prediction methods of remaining oil plane distribution based on machine learning [J].Journal of China University of Petroleum Edition of Natural Science, 2020, 44(4): 39-46.(in Chinese)
[8]谷建伟,隋顾磊,李志涛,等.基于ARIMA-Kalman滤波器数据挖掘模型的油井产量预测[J].深圳大学学报理工版,2018,35(6):575-581.GU Jianwei, SUI Gulei, LI Zhitao, et al.Oil well production forecasting method based on ARIMA-Kalman filter data mining model [J].Journal of Shenzhen University Science and Engineering, 2018, 35(6): 575-581.(in Chinese)
[9]TUNKIEL A T, SUI Dan, WIKTORSKI T.Impact of data pre-processing techniques on recurrent neural network performance in context of real-time drilling logs in an automated prediction framework [J].Journal of Petroleum Science and Engineering, 2022, 208: 109760.
[10]ARTUN E.Performance assessment and forecasting of cyclic gas injection into a hydraulically fractured well using data analytics and machine learning [J].Journal of Petroleum Science and Engineering, 2020, 195: 107768.
[11]LI Yupeng, CAO Weihua, HU Wenkai, et al.Incipient fault detection for geological drilling processes using multivariate generalized Gaussian distributions and Kullback-Leibler divergence [J].Control Engineering Practice,2021, 117: 104937.
[12]LI Yupeng, CAO Weihua, HU Wenkai, et al.Detection of downhole incidents for complex geological drilling processes using amplitude change detection and dynamic time warping [J].Journal of Process Control, 2021, 102:44-53.
[13]周志华.机器学习[M].北京:清华大学出版社,2016.ZHOU Zhihua.Machine learning [M].Beijing: Tsinghua University Press, 2016.(in Chinese)