谷建伟, 任燕龙, 王依科, 刘 巍
(中国石油大学(华东)石油工程学院,山东青岛 266580)
剩余油分布规律一直是油田开发工作者长期关心的问题,明确剩余油分布就意味着明确了油藏开发调整方向,为各种调整措施指出了改造目标,因此剩余油分布预测研究贯穿整个油田开发过程[1]。前人经过多年研究,形成了油藏工程综合分析法、矿场监测法、数值模拟法等各种寻找剩余油的方法[2-6],为提高油藏采收率起到巨大作用。这些研究成果和资料积累为剩余油分布研究新方法提供了有力的支持。随着人工智能技术的日益发展以及中国各油气专业公司信息化进程开展,特别是持续进行的信息化资源建设,已经做到各类生产数据实时动态入库,已积累的各类数据构成了庞大的数据宝藏,为机器学习技术深度判别、预测以及应用于各业务板块的复杂及抽象问题的解决奠定了坚实的基础[7]。目前,机器学习技术在石油工程领域取得了大量研究成果,如结合不同的机器学习算法得到了可描述多循环产量趋势特征的多峰预测模型[8],利用集成的机器学习方法预测岩屑成分[9],利用人工神经网络预测油田产量[10-13]等,但是该技术应用于剩余油分布预测领域还属于空白。笔者以水驱油理论为指导,在分析剩余油分布影响因素的基础上,采用多源数据构造样本库,并开展数据清洗和融合;以支持向量机(support vector machine,SVM)和长短期记忆网络(long short-term memory,LSTM)为组合模型,构建一种新的剩余油分布预测方法。
影响剩余油分布的主控因素可分为以下3类:
(1)第1类是储层的物性特征参数,例如储层构造特征、平面渗透率分布、纵向渗透率分布、地层厚度、沉积相带特征、韵律特征、油藏边界条件等[14-16]。这类因素是油藏本身所固有的特征,一般不考虑性质发生改变,但是其属性特征对剩余油分布有很大的影响。
(2)第2类是渗流特征参数,这类参数主要反映流体性质和流体在岩石中流动特点,例如驱替剂的黏度、原油黏度、流体密度、矿化度、油水相对渗透率曲线(油水相对渗透率曲线形状也反映了岩石微观孔喉特征的影响)、油水界面张力等参数。在油藏开发过程中,为了提高油田开发效果,第2类参数可以部分地进行人为改造,以便于提高驱油效果。
(3)第3类参数是油藏开采控制参数,例如油水井数比、井网类型、瞬时注采速度、累积注采量、地层压力维持水平、射孔方式、层系井网划分方式等参数[14-15]。对于此类参数,石油工程师要进行不断调整,以适应于地层剩余油分布特征,更多地采出地下原油。
以上3类参数都会影响到开发过程中剩余油分布,因此在预测剩余油分布时需要综合考虑。
利用机器学习方法进行剩余油分布预测面临的一个主要问题是如何采集足够剩余油分布的样本。由于要预测的是地下剩余油分布,其存在条件大大限制了样本资料来源,目前主要有4类剩余油饱和度样本来源:第1类是各种新钻井的测井解释资料,新井在投产前都进行测井,从解释成果中可以得到井点部位的饱和度资料;第2类是室内试验资料,对于取芯井岩心开展饱和度测试,可以得到特定开发阶段的剩余油饱和度;第3类是油藏工程方法计算的剩余油饱和度,例如可以通过分流量方程和含水率反算含油饱和度;第4类是油藏数值模拟计算的剩余油饱和度。对于开展了数值模拟的油藏,可以得到每个网格、每个时间点下的饱和度,这些饱和度均可以作为样本。以上4种样本来源各有特点,第1、2类饱和度来源方式简单、直接,有代表性,但是样本个数非常少。第3类来源的剩余油饱和度是理论计算的饱和度,是一定范围内的平均值。以上前3类方法来源的饱和度样本数量非常少,无法支撑起机器学习所需要的样本;通过数值模拟方式得到的样本数据来源广、信息丰富、数量巨大,是本文中的主要数据来源。
在样本构建过程中,根据历年来积累的中高渗透率水驱开发油藏的数值模拟资料,选取15个典型油藏模型作为基础模型,在这些油藏模型基础上,有目的地改变储层物性参数分布(渗透率控制在(10~7 500)×10-3μm2,孔隙度控制在0.15~0.39)、相渗曲线形状、油水黏度比(3~300)、注采井网类型(在尊重真实井网的基础上设计多种井网变化形式)、边界性质(目前考虑封闭和开启两种边界形式,封闭边界主要考虑的是砂体尖灭和油藏断层边界,油藏内部小断层没有考虑,开启边界主要用各种水体类型刻画),衍生出约1 000套油藏数值模拟模型,对这些模型都进行水驱开发动态计算,直至综合含水率达到99.5%。这些数值模拟结果作为样本资料的主要来源,测井解释、室内试验、油藏工程折算资料作为辅助样本来源,建立剩余油分布样本库。
通过以上4种途径采集到的剩余油饱和度样本结构有差异,并不能直接用来机器学习,还需要按照驱替理论进行数据清洗融合,达到减少数据种类数量、快速学习的目的。为方便描述和计算,样本以单元体为单位进行统计和计算,对于来源于数值模拟的样本,一个网格或者相邻几个网格都可以做一个单元体;每个单元体的物理位置、面积、储层体积根据井点大地坐标和储层参数进行计算,单元体有其孔隙度、渗透率、饱和度等参数值。
(1)单元体平均渗透率。单元体g的平均渗透率采用面积加权平均计算,单元体示意图如图1所示。在单元体g内包含n个基本计数单位,i为其中某一个计数单位。
图1 平均渗透率计算示意图
单元体平均渗透率计算式为
(1)
式中,kg和ki分别为单元体g平均渗透率和单元体内第i个计数单位的渗透率,μm2;Si为第i个计数单位的面积,m2。
(2)单元体平均孔隙度。计算思路同平均渗透率,但是权值选用的是计数单位的面积和厚度乘积,
(2)
式中,φg和φi分别为单元体g平均孔隙度和第i个计数单位孔隙度;hi为第i个计数单位厚度,m。
(3)单元体平均构造深度。计算思路同平均孔隙度,
(3)
式中,Topg和Topi分别为单元体g平均构造深度和第i个计数单位的构造深度,m。
(4)无因次累积生产参数。单元体饱和度受到其周围注采井注采量影响,为了描述单元体饱和度变化与累积注采参数之间的关系,需要找出合适的表征参数,经过反复对比测试,最终提出无因次累积产油特征值lop和无因次累积产水特征值lwp作为表征参数,表达式分别为
(4)
(5)
式中,no为单元体周围直接相邻的一线生产井数量;kgi为单元体g与第i口生产井之间的平均渗透率,μm2;Npi为第i口生产井累积产油量,m3;Wpi为第i口生产井累积产水量,m3;di为单元体g与第i口生产井的距离,m,可以根据单元体中心点坐标与各生产井大地坐标计算;φgi为单元体g与第i口生产井之间的平均孔隙度;N为单元体的地质储量,m3。
从lop和lwp计算方法可以看出,这两个参数将渗透率、孔隙度、距离等因素进行了综合考虑,距离注采井越远,影响越弱。
(5)无因次累积注水参数。单元体周围注水井累积注水量对单元体剩余油分布有重要影响,提出无因次累积注水量特征值lwi做为表征参数,
(6)
式中,Wii为第i口注水井累积注水量,m3;nw为单元体周围一线注水井的数量。
(6)油水相对渗透率参数。油相和水相相对渗透率是含水饱和度的函数,而且相对渗透率曲线特征对水驱油效率具有较大影响。为了表征相渗曲线影响,需要提取相渗曲线的特征参数,
Kro/Krw=dexp(-cSw).
(7)
式中,Sw为含水饱和度;Krw和Kro分别为水、油相的相对渗透率;c和d为与流体和储层物性有关的常数。采用束缚水饱和度Swc、残余油饱和度Sor、等渗点饱和度Swo、c、d等5个特征参数表达相渗曲线的影响。
(7)油水黏度影响。油水的黏度、密度等参数对剩余油分布也有影响,一般认为黏度的影响更大。为了减少样本参数种类,在这里采用油水黏度比μr表征黏度的影响。
(8)单元体波及判别。单元体饱和度变化预测中还需要一个基本的指标label,即该单元体是否被波及到的标识。以单元体任意时刻饱和度Sw与初始饱和度Swi的差值作为单元体是否被波及到的判别标识,考虑数值计算误差及弹性影响,将含水饱和度变化超过3%作为被水波及与否的界限,计算式为
(8)
label取值0表示单元体没有波及到,取值1时表示该时刻该单元体已被水波及。
从以上这些特征参数的处理过程中可以看出,目前选取的样本参数实际上已经隐含包括了影响剩余油的3大类主要因素。此外本次样本库建立过程中采用约1 000套油藏数模结果,每套模型中又计算多个时刻的剩余油饱和度分布,样本数量充足。
油藏水驱开发是一个长期过程,在某一开发时刻,油藏中可能同时存在已波及单元体和未波及单元体,如果将这两种单元体进行统一学习训练,效果会很差。本文中先建立分类模型判断某一时刻单元体是否波及;然后再搭建单元体饱和度变化预测模型。
判断单元体是否被水波及的问题是一个典型的二分类问题,主要使用支持向量机SVM分类器来解决。SVM利用非线性映射的方法,将数据从样本空间映射到高维特征空间中,在高维特征空间中样本数据就可以线性可分,就是对数据进行升维和线性化。本文中使用sklearn机器学习算法库中的SVM分类器建立模型。
LSTM是循环神经网络(recurrent neural networks,RNN)的一种变体,RNN中具有一种重复神经网络模块的链式结构,记录数据的时间变化特征,并传递到下一个时间节点,从而使神经网络具有记忆功能。但是由于循环神经网络采用的是梯度下降算法,存在着梯度弥散和梯度爆炸的问题,因此Hochreiter等[17]提出了LSTM神经网络。
LSTM之所以可以进行长期记忆,主要是由于其独特的细胞结构。传统的RNN只有一个非常简单的细胞结构,例如一个tanh层,而LSTM的细胞结构比较独特,如图2所示。
图2 LSTM细胞结构示意图
LSTM细胞结构包括一个记忆链(红线)、遗忘门(黄线)、输入门(蓝线)、输出门(橙线)。通过记忆链Ct记录和更新当前的细胞状态,并向下一个时间节点传递。另外,通过3个门结构来保护和控制细胞状态,对信息进行筛选和更新。
遗忘门作用于剩余油分布预测模型训练过程中的细胞状态,选择性遗忘记忆细胞中对剩余油分布变化影响较小的相关信息,
ft=[Wf·(ht-1,Xt)+bf].
(9)
式中,Wf为遗忘门的连接权重;bf为遗忘门的偏置系数。
输入门将新输入的剩余油分布变化信息选择性的更新记录到新的细胞状态中,
it=[Wi·(ht-1,Xt)+bi],
(10)
(11)
式中,Wi为输入门的连接权重;bi为输入门的偏置系数;WC为记忆单元的连接权重;bC为记忆单元的偏置系数。
细胞状态:
(12)
输出门作用于输入和隐含层输出,使最后输出既包括细胞状态又包括输入,将其结果更新到下一个隐层,
ot=[Wo·(ht-1,Xt)+bo],
(13)
ht=ottanh(Ct).
(14)
式中,Wo为输出门的连接权重;bo为输出门的偏置系数。
从LSTM模型细胞构成可以看出,在其学习训练过程中能不断地汲取影响研究对象的主要因素,并适当遗忘非主要因素,这个特征与剩余油的变化过程有较高的契合度,因此选取这种模型作为剩余油预测模型。
LSTM模型的学习训练过程分为5个步骤:①从左到右传播时,按照模型计算方法计算模型的输出值;②将模型输出值与实际值比较,计算误差;③从右到左,按照网络层级和时间反向传播,将误差分配到每个LSTM细胞结构单元;④根据相应的误差项计算每个权重的梯度;⑤ 应用适应性动量估计优化算法更新权重。对于本文中以LSTM为核心的剩余油分布预测模型,其训练过程见图3。
图3 以LSTM为核心的剩余油分布预测模型训练过程示意图
LSTM是一种改进的循环神经网络,它非常适合处理与时间序列高度相关的问题[18],近期有学者已经将该模型应用在PM 2.5颗粒运移预测中[19]。油藏水驱开发过程是一个典型的时序性问题,随注水时间增加,累积注水量逐渐增加,单元体受到的冲刷作用增强,剩余油饱和度逐渐减小,两者的相关性非常明显,因此采用LSTM模型预测已波及单元体的饱和度变化规律非常适合,本文中借助keras深度学习框架来完成剩余油预测模型搭建。预测剩余油分布的神经网络模型由两个LSTM层和一个dense层构成。其中LSTM层负责学习剩余油分布与物性参数分布、流体特征、井网形式以及注采参数之间的内在关系,并记忆各参数的时间变化特征。dense层则用来把LSTM提取到的特征整合起来,实现由特征向量X到因变量Y的映射。dense层的每一个节点与上一层所有节点均相互连接,其具有以下优势:可以将分布式特征进行整合,输出为一个值,大大减少特征的排列顺序对训练的影响;可以看成是一个多项式,增加神经网络的非线性映射能力,理论上可以提高神经网络的学习能力,但是学习能力太好也会产生过拟合的问题;还可在一定程度上保留模型的复杂度。
对数据预处理完成后,选取不同时刻、不同单元体的lop、lwp、lwi、topg、μr、c、d、Swc、Sor、Swo、Sw、label组成学习样本,用以深度学习模型的训练。其中label为分类模型的标签,Sw为预测模型的因变量,其他参数为特征参数。把生成的学习样本的90%作为训练集数据,其他的10%作为测试集数据(测试数据要优先选择矿场测试数据),将训练集数据输入给SVM分类模型和LSTM预测模型进行训练。
剩余油预测中主要关心问题是剩余油预测准确性,因此提出分类准确率Acc1和预测准确率Acc作为评估指标;通过对分类模型和预测模型的参数设置不同的取值进行试验,优选出分类模型和预测模型的最优参数组合。根据最优参数组合设置好模型参数后,把学习样本输入给模型重新训练,将训练后的模型保存,便可以用来预测剩余油分布,
(15)
(16)
式中,ntrue为某一时刻模型分类正确的单元体数量;n为单元体总数;Sopi为某一时刻模型预测的单元体i的含油饱和度;Sori为某一时刻单元体样本i的含油饱和度。
在训练过程中要求Acc1分类准确率达到99.8%、Acc预测准确率达到98%作为训练结束的终止条件。
选取胜坨油田某小层作为测试实例,该油藏前期进行过数值模拟拟合过程,已经得到了测试小层的剩余油分布结果,将该结果与LSTM模型得到的剩余油预测结果进行对比。测试小层有6口生产井,2口注水井,已经累积生产20余年。小层三维地质模型如图4所示,渗透率分布及井网分布如图5所示。图5中,P1、P2、P3、P4、P5、P6为生产井,W1、W2为注水井。地层水黏度为0.6 mPa·s,地层原油黏度为17.5 mPa·s,油水相对渗透率曲线如图6所示。
图4 小层三维地质模型
图5 小层渗透率及井位分布
图6 相对渗透率曲线
生产井和注水井的月度注采数据取实际生产资料,并保持与数值模拟计算中采用的数据一致。将该小层的构造、孔隙度、渗透率、厚度、油水黏度比、相渗曲线特征值、井位大地坐标、比例尺、每口注采井的月度注采数据均按照前面数据处理的方式进行处理,计算每个单元体的lop、lwp、lwi、topg、μr、c、d、Swc、Sor、Swo特征参数组成特征向量X,作为输入数据。需要说明的是,LSTM模型主要是处理时间序列模型,在上面数据清洗处理过程中,实际上是通过注采月度数据以逐月累积的形式,将油藏开发时间t隐含在lop、lwp、lwi参数中,通过以上3个无因次累积参数的增加来代表开发时间的增加。
将单元体的特征向量X输入到训练好的预测模型中,即可对任意时刻、任意位置的含油饱和度预测。由于该测试小层进行了数值模拟研究,在这里以数值模拟结果作为参照值,将LSTM模型预测的剩余油分布与数值模拟结果进行对比,评价预测的精确程度。图7为LSTM模型和数值模拟两种剩余油预测方法计算得到的该小层在不同注水开发时间的剩余油饱和度。
图7 两种方法预测效果对比
由图7可以看出,两种方法计算的剩余油饱和度变化趋势非常相似,为了仔细说明两种方法的差异,采用式(16)计算预测准确率。由于预测准确率在每个预测时间点都会有差异,选取第30、60、120个月3个时刻的进行对比,3个时刻的准确率分别为97.9%、97.2%和96.1%,预测准确率都超过96%,这说明基于LSTM模型预测剩余油饱和度可以用于矿场应用。从计算时间来看,120个月的剩余油分布计算时间仅有3.8 min,计算速度相对快。由于这种方法不存在历史拟合过程和建模过程,只要把整理好的相关数据输入到模型中即可以直接预测剩余油饱和度分布,所以整个过程耗时较少、可控;数值模拟方法需要建模、历史拟合调整和计算过程,目前无法统计总体时间,因此无法将以上两种方法的耗时指标直接对比;但是可以肯定基于机器学习的剩余油分布预测新方法耗时很少。新预测方法主要耗时在于前期的模型学习训练过程,但训练学习过程是计算机自动完成的,不需要太多的人为干预,而且一旦样本确定训练完成后,可以实现对任意油藏水驱开发条件下的剩余油分布直接预测,预测效率高。
从图7对比中可以看到,LSTM模型能根据储层的非均质性很好地预测出剩余油分布特征,与数值模拟结果相似度较高;但是在部分区域还是有差异。在测试小层模型中选取注采井间主流线区内一点m和非主流线区内一点n。图8为两种方法计算的m和n点含水饱和度随时间变化。从图8可以看出,LSTM剩余油分布预测模型对于主流线区饱和度预测准确率高于非主流线区饱和度预测精度;非主流线区在中含水阶段的饱和度预测有一定差异,此阶段对应了水驱油前缘阶段;在处于中高含水阶段后,不论主流线还是非主流线区域,预测精度都较高。主流线区m点的总体预测准确率为98.7%,非主流线区n点的总体预测准确率为94.2%。
图8 主流区点m和非主流区点n含水饱和度变化
综合SVM分类器和LSTM回归器的优点,建立先分类后预测的剩余油分布机器学习预测模型。利用SVM分类器判断单元体是否见水,再通过LSTM对剩余油分布进行预测。经过多次试算对比,确定了12类参数的清洗融合处理方法,并给出了具体的参数计算方法。测试小层剩余油分布验证表明,基于机器学习的剩余油预测模型计算结果与数值模拟剩余油结果相比整体精度超过96%,且预测耗时短,说明该方法可以用于矿场剩余油分布快速预测。