基于差分进化优化随机森林模型的油层结垢预测方法*

2022-02-13 07:35金立平邓金根
能源化工 2022年6期
关键词:结垢油层差分

金立平,邓金根

[1. 中国石油大学(北京),北京 102200;2. 中国海洋石油国际有限公司,北京 100028]

注水开发极大地提高了油藏的采收率,但是注入水与地层流体的配伍性以及油层温压系统的改变会导致在地层、井筒以及油气集输管线中出现结垢现象,直接影响油田的正常生产,甚至造成生产事故[1-6]。因此,建立高效准确的油层结垢预测方法对保障安全生产较为重要。

油层结垢是油层流体中的一些阳离子和阴离子结合形成的严重影响流体流动的沉淀物质[7]。目前,针对油层结垢机理和预测方法的研究较多。尹先清等[8]研究了碳酸钙结垢在4种不同水样和温度下的结垢程度。朱达江等[9]针对川东石炭系的高含硫气藏的结垢程度进行了研究,指出钙、镁等阳离子和碳酸根阴离子是形成结垢的主要离子成分。崔刚等[10]对油藏进行了结垢损害的分析和预测。项欣等[11]以新疆某低渗透油田地层水为研究对象,研究结果表明,油层结垢主要以锶钡垢为主,并提出除垢方法。离子浓度和地层属性等参数和结垢等级具有相对复杂的非线性关系,随着人工智能等计算技术的发展,将油层结垢的化学机理和人工智能技术的结垢预测方法相结合成为该领域的研发重

点[12-16]。

笔者针油层结垢的化学机理,建立了基于差分进化算法优化的随机森林模型的油层结垢预测方法(RF-DE),并选取鄂尔多斯盆地延长组和延安组的地层数据对模型进行了验证和应用研究。

1 油层结垢机理

根据油层中油水流体的特性,Ba2+、Ca2+、Sr2+、Mg2+等金属阳离子和等阴离子是形成油层垢的主要离子成分,CaCO3、BaSO4、MgCO3等是油层垢中主要的成分,且CaCO3的含量一般最多。

根据沉淀生成的溶度积化学理论,油层流体结垢的主要因素可以分为两大类,首先是驱油水与地层水之间的不配伍,且离子浓度的乘积超过了溶度积,形成沉淀物后结垢;第二类是由于油层温度、压力和酸碱度等属性发生变化后,沉淀物的溶度积发生了改变,进而改变了流体中离子的溶解平衡,导致沉淀的产生而结垢。鉴于以上机理,地层流体中产生沉淀而结垢的主要因素是Ba2+、Ca2+、Sr2+、的离子浓度、地层温度、地层压力以及酸碱度(pH值)。

由溶解平衡的化学原理可知:离子浓度越高,越容易结垢;地层温度越高,溶解度越低,且沉淀结晶速率越快,更容易形成结垢;地层压力越高,溶解度越高,更不容易形成结垢;pH值越大,更容易产生结垢离子,结垢可能性越大。上述影响因素与结垢程度呈非线性关系,较难用具体的表达式准确表达,且现有的计算公式也主要是基于某个油田或者区块的属性建立的经验公式,适用性不强。笔者采用随机森林模型对结垢程度进行预测,建立一种对各种类型油田适用性较强的结垢预测方法,可以对影响因素和结垢等级间的非线性关系进行准确表征。

2 油层结垢预测模型建立

2.1 随机森林原理

随机森林属于集成学习中的Bagging算法,是由一棵棵决策树集成得到的,决策树是由数个“决策”组成的树,遵循自上向下的递归分裂原则,进行二分裂为左右两个子节点,子节点继续按照上述规则进行分裂,直至满足规定的要求。第一个分裂的节点称为根节点,能够得到决策结果的点称为叶节点,继续分裂的点成为子节点。

ID3、C4.5和CART方法是3种生成决策树的主要方法。ID3算法引用熵和信息增量的概念;C4.5算法对ID3算法中的信息增量进行改进;目前最常用的是CART算法,该算法使决策树既可用来分类,也可用来回归,并且使用基尼系数代替了熵进行特征选择。该基尼系数公式见式(1),某一属性基尼系数公式见式(2),CART算法使用基尼系数最小化原则对属性进行划分和决策树的分裂。

式中,D为样本集;k表示第k类样本;K为D中类的总数;pk为第k类样本所占的比例;D1为含有特征值A的数据;D2为不含有特征值A的数据。

随机森林里的每一棵均为相互独立的决策二叉树,在二叉树中,根节点包含了所有的训练样本,并且根据节点纯度最小原则,将节点分裂为左右2个节点,分别是训练集的一个子集。按照同样的方法,每一个节点继续分裂,直到满足规定的要求再停止分裂。

2.2 随机森林模型构建流程

1)从原始训练样本集N中,随机抽取m次,每次抽取n个样本,得到一组新的子样本集S1,S2……Sn。

2)将每一个子样本集训练成为一棵CART决策树,并且在训练的过程中,对每一个根节点均需要进行切分,切分的方法是先从所有的特征中随机地选择Q个特征,从该Q个特征中选择最优的节点分裂成为左右2个子节点,直到满足规定的要求,节点停止分裂。

3)回归问题得到的最终结果为每一棵决策树回归结果的均值。分类问题的分类结果是大多数决策树表决的结果。

2.3 差分进化原理

差分进化算法是基于遗传算法等进化思想的基础上提出的,是一种既可以用于单目标,也可用于多目标的优化算法。

2.3.1 种群初始化

种群初始化见式(3)—(4)。

式中,NP为初始化种群个数;D为解空间维度;分别为第j个分量取值xj区间的上界和下界;为随机生成各种个体;a为[0,1]的随机数。

2.3.2 变异

差分进化算法通过差分的方式实现变异,即随机选取种群中2个完全不同的个体,将两者向量之差缩放后与待变异个体进行向量合成,见式(5)。

在进化过程中,为了保证解的有效性,必须判断“染色体”中各“基因”是否满足边界条件,若不满足边界条件,则采用随机方法重新生成“基因”(与初始种群的产生方法相同)。

2.3.3 交叉

第g代 种 群i=1,2,...,NP;j=1,2...,D}异变后,产生1个中间体,对第g代种群{xi(g)}和其变异中间体{vi(g+1)}进行个体间的交叉,交叉结果见式(6)。

式中,CR为交叉概率;jrand为[1,D]的随机整数。

2.3.4 选择

该算法采用贪婪方法选择下一代种群的个数,选择结果见式(7)。

中西医学虽有很大差异,但在很多方面是有趋同性的。中西医在用药方法上的不同,各有所长,若能二者结合使用,必能达到更好的治疗效果[2]。除了笔者所探讨的淋巴瘤发热问题上具有趋同性,在其他方面,比如在防治精神因素所致疾病方面,中西医学也是有很大的趋同性的[3]。因此,中西医两门医学是可以结合的,正如有学者[4]指出,在现代医学为主流的环境中,中医工作者应坚持“衷中参西”原则,使日益淡化的中医思维强势回归。但如何能做到有机的结合,如何才能相互借鉴、扬长避短,如何能在某些重大疾病和理论上面取得真正的突破等,这一系列问题值得我们所有中西医结合工作者去进一步探索和思考。

2.4 RF-DE模型建立

在随机森林方法和差分进化方法的原理上,将2种方法结合,建立基于差分进化优化的随机森林模型(RF-DE),即解决了传统手动调参导致模型精度不够、鲁棒性不强、泛化能力弱的问题,也为随机森林方法和其他优化算法的结合提供了思路。基于差分进化算法优化的随机森林产能预测模型的流程如下:首先整理总样本集数据,将其中80%作为训练集,20%作为验证集,为了消除各变量之间量纲的影响,将其归一化处理,处理结果见式(8)。

式中,xmin为数据最小值;xmax为数据最大值。

其次,选择对模型影响比较大的5个参数,分别是树的个数(n_estimators),简称n;最大特征个数(max_features),简称f;树的深度(max_depth),简称d;叶子节点最小样本数(min_samples_leaf),简称l;内部节点再划分所需的最少样本数(min_samples_split),简称s。

最后,将选中的5个参数作为差分进化算法的初始种群,给定其特定的范围,对其进行初始化、变异、交叉、选择,带入随机森林模型,以预测数据和真实数据的最小均方误差(MSE)为优化目标函数,见式(9)。通过不断迭代直到满足目标函数最小,同时得到最小目标函数时对应的参数。

式中,yi为真实值;yi为预测值。

3 数据收集和整理

该研究的数据样本选取文献[17]中鄂尔多斯盆地延长组和延安组的地层流体,主要油层为:长2、长4+长5、长6、长8、延9、延10,其主要的离子浓度和流体属性见表1。表1中6个层位两两混合,共15种组合,每种组合的配比设置从9∶1到1∶9,共计18个样本,构成270组数据作为总的样本,所有试验均在常压(0.1 MPa)、室温(25 ℃)以及地层温度(60 ℃)条件下进行。

表1中实际的结垢等级由Oddo-Tomson饱和指数法计算[18],所有样本中的80%用于建立训练样本,20%用于验证模型准确度,部分样本见表2。表2中的试验均在常压(0.1 MPa)、室温(25 ℃)以及地层温度(60 ℃)条件下进行。

表1 各油层离子浓度和酸碱度

表2 随机森林模型训练部分样本

由表2可见:Ca2+浓度为结垢的主要影响因素,当Ca2+浓度超过0.1 mol/L时,其直接决定了地层水的结垢等级;同时,Ba2+的存在会促进地层水的结垢;对于温度和酸碱度对结垢等级指数的影响,室温和地层温度下结垢等级基本一致,在弱碱性环境下酸碱度对结垢等级的影响也可忽略。

4 模型应用实例

将上述统计的270个样本作为训练样本,使用差分进化算法对随机森林的5个参数进行处理。将差分进化算法中的缩放因子F设为0.8,交叉概率CR设为0.3,迭代次数设为100,随机森林状态参数random_state设为20。按照上述优化流程,最终得到随机森林方法的最优参数,结果见表3。

表3 优化参数结果

将优化的参数带入随机森林模型,得到基于差分进化优化的随机森林产能预测模型(RF -DE)。采用建立好的随机森林模型预测室温和地层温度下的6个不同地层的水同比例混合后的结垢等级,统计结果见表4。表4中的试验均在常压(0.1 MPa)、室温(25 ℃)以及地层温度(60 ℃)条件下进行。

表4 随机森林模型预测结果与试验计算数据对比

由表4可见:基于随机森林模型预测的结垢等级与试验计算的等级一致。对于金属阳离子浓度含量高的长2、长4+长5、长6油层的流体与阴离子浓度高的长8、延9、延10油层的流体汇合后会产生大量的结垢,且结垢等级均大于10。

为了研究地层温度、地层压力和酸碱度对结垢的影响,选取长2和长8油层的地层水同比配制作为研究对象。通过随机森林模型进行预测后,考察地层温度、地层压力和酸碱度对结垢的影响,结果见图4。

图4 地层性质与结垢等级关系

由图4可见:预测的结垢等级随温度的升高而增大,随压力的升高而减小,随酸碱度的升高而增大。地层温度和酸碱度与结垢等级呈正相关,地层压力与结垢等级呈负相关。

5 结论

基于油层结垢的化学机理和人工智能技术,建立了基于差分进化算法优化的随机森林模型的油层结垢预测方法(RF-DE),并选取鄂尔多斯盆地延长组和延安组的地层数据对模型进行了应用和验证,得出以下结论。

1)基于差分进化优化随机森林模型预测的结垢等级与公式计算的结垢等级相符,且对各种结垢影响因素的趋势预测与化学原理一致。

2)各种离子的浓度、地层温度和酸碱度与结垢程度呈正相关,地层压力和结垢程度呈负相关。

3)延长组和延安组的地层中长2、长4+长5、长6油层的流体配伍性相对较好,不会产生沉淀而结垢,该油层的地层产出水可以相互利用。

猜你喜欢
结垢油层差分
RLW-KdV方程的紧致有限差分格式
数列与差分
油层重力分异对泡沫驱气液比的影响
油田采出水结垢影响因素分析
三类油层压裂驱油技术设计及效果研究
复杂孔隙结构低阻油层含水饱和度解释新方法
柴达木盆地昆北油田厚油层隔夹层研究
基于差分隐私的大数据隐私保护
玻璃钢原油管线结垢特性实验分析
相对差分单项测距△DOR