沈斌, 杨胜来
(1.中国石油大学(北京)人工智能学院, 北京 102249; 2.中国石油大学(北京)石油工程学院, 北京 102249)
在影响CO2气驱采收率的参数中,最小混相压力(minimum miscibility pressure,MMP)是最为重要的。相关研究已经证明,混相驱对采油效率的提升显著高于非混相驱[1]。为了达到混相驱,必须达到一个最小压力值,即为最小混相压力。对MMP预测过大或过小都会造成工程上较为严重的后果,因此研究确定MMP对于提高原油采收率、优化三次采油(enhanced oil recovery,EOR)方法及提高碳埋存技术的应用都具有非常重要的意义。
目前,对最小混相压力的预测涉及多种因素的影响和大量数据的处理。传统实验法[2]所需时间成本较大,经验公式法[3]具有应用局限性,数学建模计算过程[4-5]比较繁琐,使用人工智能算法能大大减少工作量,增大计算效率。所以越来越多的智能算法被应用到了MMP预测模型中,且中外研究者们都在尝试使用多种算法相结合的方式预测MMP,这样可以在一定程度上防止使用单一算法出现过度拟合和陷入局部最优的情况。苏坤等[6]在确定了经验公式形式的基础上,采用遗传算法优化了公式参数,并证明了新公式具有理想的预测精度,其可作为相应CO2驱区块筛选过程中的参考依据。邵光强等[7]基于遗传优化算法(genetic algorithm,GA),提出一种考虑细管长度的MMP预测改进模型,针对具体实验数据进行预测,证明了模型具有良好的预测能力。Zhong等[8]提出一种新的混合核函数与支持向量回归的混合模型(MKM-SVR)。Karkevandi等[9]以遗传算法(GA)、粒子群算法(particle swarm optimization,PSO)、差分进化算法(differential evolution algorithm,DE)、蚁群算法(ant colony,ACO)和帝国主义竞争算法(imperialist competition algorithm,ICA)为目标,建立了RBF神经网络模型,所提出的RBF-ICA为MMP的测定提供了最可靠的结果。Li等[10]使用了4种基于机器学习的预测模型(即NNA、GFA、MLR、PLS),结果分析表明,4种模型都能很好地解决MMP预测问题。Zendehboudi等[11]和Sayyad等[12]利用粒子群算法对人工神经网络的连接权重和网络结构进行优化以预测MMP。
在未来预测MMP的研究中,这样的组合算法将会越来越盛行。鉴于此,现使用三种组合智能算法。但是目前相关研究数据普遍较少,模型缺乏不同油田普适性,且集中在对神经网络模型进行参数优化。为此,现使用来自不同油田的更多数据,并基于随机森林进行特征选择,使用多种不同的优化算法对几种集成学习模型进行优化分析,模型拟合效果非常理想,测试集R2为0.96,均方根误差(RMSE)为0.83,且具有一定的普适性。得出MMP最佳预测模型,并根据趋势分析验证方法的可靠性,以期为CO2驱油混相驱提供理论基础。
通常为了设计准确的MMP预测模型,首先都需要一个较为全面的数据库。本研究选取了一些来自油田真实生产和实验室真实试验的数据[13-14],通过对这些数据进行预处理和特征选择后,形成此次研究的数据库,最终数据库有160行,MMP在6.9~24.13 MPa。
预处理的步骤主要分为剔除空值、离群点检测、异常值处理、缺失值填补、重复值删除、数据合并等。这对后续使用数据挖掘和人工智能算法都起到很关键的奠基作用。
2.1.1 皮尔逊相关系数法
皮尔逊(Pearson)相关系数法是一种用来衡量两者线性相关性的常用方法。它的计算公式为
(1)
式(1)中:X、Y为需要计算相关性的两个变量;μX、μY为X、Y的均值;E(X) 为X的期望;σX、σY为X、Y的标准差;COV(X,Y) 为X与Y的协方差;ρX,Y为皮尔逊相关性系数。
2.1.2 随机森林特征选择
随机森林评估特征重要性的步骤如下。
(1)对每一颗决策树,计算相应的OOB (袋外)数据的误差,记为errOOB1。
(2)随机选择一个特征X,加入噪声干扰,计算它的袋外数据误差,记为errOOB2。
2.1.3 偏相关分析法
偏相关分析是指剔除第三个变量的影响,只分析其他两个变量之间相关程度的过程,判定指标是相关系数R。R越大,说明越相关;越小,则相关程度越低。
如图1所示,通过Pearson相关系数法和随机森林进行特征选择后,得出结论:油藏温度Tr、重质组分C5+的相对分子量、易挥发性组分(C1、N2)和中间组分(H2S、CO2、C2、C3、C4)的摩尔百分比(简称vol./int.)对MMP的影响较大。而平均临界温度Tc、注入气C1、CO2、C2-C5、N2、H2S的分子量对MMP的影响较小。
经过两种方法进行特征选择后,还需要使用偏相关分析法考虑是否有某几个特征会对MMP产生重复影响,结果如图2所示。可以看到,并无任意两个因素与其他因素的相关系数的整体趋势一样。这表明,并无任意两个特征与MMP之间R值相似,且这9个特征之间并无重复作用。
图1 特征重要性排序Fig.1 The importance ranking of features
所以,一共筛选出9个对MMP预测有影响的特征。其中,油藏温度Tr对MMP的影响最大,重质组分C5+第二,而将第三重要的vol./int.作为一个特征的原因是:Alston等[15]研究表明,在原油组成中,易挥发性组分和中间组分各自对MMP的影响都很小,只有当两者比值vol./int.较大时,MMP才会受到较大的影响。易挥发组分C1与C2-C5对MMP影响很小,这是因为轻质组分与原油和CO2混相状态前缘组分相似,所以其对混相的影响程度极小。
3.1.1 机器学习常规算法
采用的5种智能算法包括了6种机器学习常规算法:多层感知机(multilayer perceptron,MLP)、径向基函数神经网络(radial basis function neural network,RBF)、随机森林(random forest,RF)、梯度提升决策树(gradient boosting decision tree,GBDT)、自适应增强(adaptive boost,AdaBoost)、支持向量回归机(support vector regression machine,SVR)。
3.1.2 算法优化
考虑到组合算法在MMP预测中的效果优势及应用趋势,针对RBF神经网络容易陷入局部最优解及GBDT需要仔细调参、训练时间长的缺陷,分别使用可以弥补各自缺陷的遗传算法(GA)和粒子群算法(PSO)对两者进行优化。
遗传(GA)算法是19世纪70年代由Holland[16]提出的模仿生物进化机制的随机全局搜索和优化方法。它通过对染色体编码初始化种群,利用适应度函数对种群个体进行优胜劣汰的选择、交叉、变异等操作,一代代更新,直到种群满足最优解条件。
图2 偏相关分析结果Fig.2 Partial correlation analysis results
粒子群(PSO)算法最早由Kennedy等[17]于1995年提出,能够解决复杂约束优化问题,同时又有较快的收敛速度。它主要是模拟鸟群觅食,每个粒子就像鸟一样有自己的速度和位置。它初始化一群粒子,通过迭代找到最优解。每次迭代中,所有的粒子通过个体极值和全局最优解更新速度和位置。粒子群算法具有相当快的逼近最优解的速度,可以有效地用于优化GBDT算法。粒子群算法与遗传算法同是全局优化、随机搜索算法,但它有记忆,且不需要编码,也没有选择、交叉、变异等操作,粒子都在内部更新。
针对优化后的GA-RBF、PSO-GBDT可能还是会存在早熟收敛及搜索效率低的问题,在优化算法中又引入了BFGS算子,对GA中的染色体及PSO中的粒子进行BFGS线性迭代,得到最优的结构及参数。BFGS逼近公式为
(2)
式(2)中:Dk为二阶导函数的倒数;Dk+1为下一步迭代后的Dk;sk=xk+1-xk;yk=gk+1-gk;gk为原函数f′(x)的导数;xk和xk+1为两个样本点。
考虑到AdaBoost精度高但对数据敏感,以及SVR鲁棒性高但惩罚因子不宜过大的优缺点,两者可以进行优劣互补。因此,将自适应增强(AdaBoost)与支持向量回归机(SVR)组合使用,首先使用样本集训练SVR模型,之后将训练好的SVR模型作为Adaboost的弱学习器,再次使用样本集进行训练,最终得到一个强学习器。此次研究选择的Adaboost SVR组合算法的损失函数为
Exponential:L[tm,Wli(xm)]
=1-exp[-|tm-Wli(xm)|]
(3)
式(3)中:tm为真实值;W为权重因子;li(xm)为基函数。
MLP、RF、Adaboost SVR三种模型均采用网格搜素寻优调参,循环遍历不同的参数组合,以得到最优的模型。
如前所述,本文研究实现了5种智能算法技术,包括MLP、GA-RBF、RF、PSO-GBDT、AdaBoost SVR,以建立准确且稳定性强的CO2-原油体系MMP的预测模型。在所有上述方法中,以储层温度(Tr)、部分气体的摩尔百分比(C1和N2)、注入原油的中间组分及重组分(H2S,CO2,C2-C5)的分子量和注入气流的平均临界温度(Tc)作为输入。5种模型均由python语言编写实现。
为了能够显著地展现各个模型的预测效果,选取4种统计学误差函数对5种模型性能进行评判,包括:标准差(SD)、平均相对误差百分比(APRE)、平均绝对百分比误差(MAPE)、均方根误差(RMSE)。这些数值越接近0,表示模型精度越高。还使用决定系数(R2)作为回归评价指标,R2越接近1,表示拟合效果越好。
除了上述统计标准外,还应用了图形评估来可视化范例的性能,如误差分布图、MMP变化趋势图等。
3.2.1 5种模型效果对比
前面已经介绍过此次研究所用的数据库。在建模阶段,将85%的可用数据集用于训练模型,其余15%用于测试已开发模型的性能。
表1通过记录所用的几种评判指标值展示了每个模型的实现性能。在此表中,分别列出了训练集、测试集的性能。通过此表可知,PSO-GBDT在训练集与测试集上R2都很接近1,为0.98和0.96。在测试集上MAPE和RMSE值均很小,为4.89%和0.83。针对这些指标,可看出PSO-GBDT模型预测精度最高,最为稳定,鲁棒性最强。而AdaBoost SVR模型的预测效果也不错,仅次于PSO-GBDT。其他三种模型预测效果也很不错,结果相差不大,但相对PSO-GBDT略显逊色。相比之下,GA-RBF性能最低。
在这5种模型中,PSO-GBDT、AdaBoost SVR、RF三者都属于集成学习。相较于另外两个神经网络模型来说,集成学习在处理少数据时,有很大的优势,其数据集也无需规范化(归一化)。而在这三者之间,随机森林RF的优点主要在于实现简单、速度极快,且能将特征以重要性大小进行排序。但缺点是在噪音较大的回归问题上可能会过拟合。AdaBoost SVR的优点在于泛化错误率低,精度高,且AdaBoost与SVR共同训练避免了各自的一些弊端,如数据不平衡、对离群点敏感等问题。AdaBoost可以解决样本不足精度低的问题,而 SVR有很好的鲁棒性,因此用SVR来增强AdaBoost的回归能力能够达到很好的效果,加之本文使用交叉验证进行二次训练,此次模型效果很理想,但整体还存在一定的鲁棒性问题。GBDT的优点在于可以灵活处理各类数据,对异常值有很好的鲁棒性,但不适合高维稀疏特征且调参时间长。本文数据略有稀疏,而使用PSO对GBDT模型进行优化后一定程度上帮助GBDT避免了部分稀疏的影响且改进了GBDT的调参缺陷,因此本文效果最佳。
表1 5种MMP预测模型的评估指标值Table 1 Evaluation index values of the five MMP prediction models
而两个神经网络模型在本次预测MMP研究中效果并不突出,使用GA优化后的RBF算法并没有展现出出众的预测能力。猜想可能是由于相关研究领域缺乏海量数据,没有发挥出神经网络的大数据拟合优势。
3.2.2 5种模型与文献模型对比
为了进一步验证模型的预测能力,将基于以往模型实现统计误差分析,将已实现的范例与文献中的可用模型性能跟本文研究的5种模型对比,所选的文献模型为:Yellig等[18]、Kamari等[19]和Ahmadi等[20]提出的智能模型。模型各项指标对比如表2所示。
在这3个文献方法中,Kamari等[19]提出的基因表达编程(GEP)模型是最准确的一种。表2中显示的结果表明,与已知的相关性和模型相比,本文研究中的5个模型都已拥有很大的优越性。从各项指标可看出,PSO-GBDT具有最好的预测能力及稳定性。除PSO-GBDT外,GEP模型的APRE值小于其他4个模型,因此预测平稳性比其他4个模型强,但GEP的MAPE、RMSE、SD等指数还是均大于本文模型。总体来说,本文研究的5种模型预测能力均较强。
表2 不同文献模型和本文模型的统计误差分析Table 2 Statistical error analysis of different literature models and the model in this paper
3.2.3 可视化分析
为了更加直观地看出模型效果,对各个模型的性能进行了可视化分析。针对真实的MMP绘制了使用PSO-GBDT、AdaBoost SVR、RF、GA-RBF和MLP模型计算出的MMP数据,如图3所示。
由图3可知,在5种模型中,PSO-GBDT模型的结果在单位斜率附近实现了很好的对齐,这也更加证实了该模型与其他模型相比的更高性能,且PSO-GBDT模型的误差分布较为均衡,异常点极少。因此,PSO-GBDT模型的稳定性也是毋庸置疑最高。其次,AdaBoost SVR模型预测MMP与实际值也显示出较为良好的一致性,而其他3种模型相较于PSO-GBDT、AdaBoost SVR,在单位斜率附近的误差可视化显示就比较明显了,但都在可接受的范围内。因此可视化结果更加清晰地展现了PSO-GBDT模型的准确性及稳定性。
3.2.4 模型结果验证
通过模型的预测结果研究各个因素的影响趋势,与实验室得出的影响趋势对比验证模型结果的真实性。在5种模型中,选用效果最佳的PSO-GBDT模型进行验证。
为了验证模型是否遵循这些物理趋势,设计了特定情况下的随机数据点以与实际测量值进行比较。研究表明:Tr的增加会导致MMP的增加,这与实验研究相吻合:温度升高会导致MMP参数的增加。模型预测MMP相对于温度的趋势如图4所示。
对于C5+的相对分子量,随着相对分子量的增大,MMP也慢慢变大。对于MMP相对于C5+分子量的趋势,考虑了特定条件下的数据点样本,其结果如图5所示。很明显,PSO-GBDT预测结果依旧遵循实际的物理趋势。MMP随着C5+相对分子量的增加而增加。
图3 5种模型预测效果Fig.3 Prediction performance of five models
图4 PSO-GBDT预测MMP值相对于温度的变化Fig.4 The PSO-GBDT predicts changes in MMP values relative to temperature
图5 PSO-GBDT预测MMP值相对于C5+相对分子量的变化Fig.5 PSO-GBDT predicted changes in MMP values relative to C5+ relative molecular weights
首先进行了最小混相压力(MMP)的影响因素分析,得出MMP主控因素。之后,建立了5种基于人工智能算法的MMP预测模型。使用本文研究的数据库将拥有9个输入特征的数据带入模型中,并用5种不同的回归指标及可视化分析对模型性能进行评估,可以得出如下结论。
(1)影响MMP的主控因素为油藏温度Tr、重质组分C5+的相对分子量及vol./int.。按随机森林结果,影响因素从大到小排序为:Tr、重质组分C5+的相对分子量、vol./int.、Tc(k)、C1、CO2、C2-C5、N2、H2S。
(2)使用的5种模型进行MMP预测的最终效果均较好。
(3)经过模型效果对比分析后,研究得出集成学习在MMP预测工作中效果普遍优于神经网络模型,且集成学习模型精度更高、稳定性更强。
(4)在此次建立的5种模型中,PSO-GBDT模型预测精度最高,且有着最稳定的性能。平均绝对百分比误差(MAPE)为4.89%,均方根误差(RMSE)为0.83,测试集R2为0.96。AdaBoost SVR模型性能仅次于PSO-GBDT。
(5)通过观察可视化曲线可知,在一定的气体分子量和温度范围内,PSO-GBDT模型预测的MMP值符合实验及经验得出的变化趋势。