基于门控循环单元网络的低阻油层测井流体识别方法

2024-05-21 13:55龚宇刘迪仁
科学技术与工程 2024年12期
关键词:同层油水油层

龚宇, 刘迪仁

(长江大学油气资源与勘探技术教育部重点实验室, 武汉 430100)

目的层段岩性主要表现为砂泥岩互层,高泥质含量使得电阻率测井测得的电阻率值较低。导致许多油层和油水同层的电阻率曲线幅度差不明显,难以区分油水层。因此目的层段亟需一种精细且准确的流体性质识别方法。

目前已有大量学者针对不同地区的低阻油层的成因机理,提出了对应的识别方法。前人基于常规测井资料进行低阻油层流体识别的主要方法有图版法和基于机器学习等算法的流体识别方法。陈明江等[1]、刘之的等[2]、白泽等[3]通过选取对含油气性敏感的测井参数进行交会图来识别低阻油层,这类方法简单,快速,但只能适用于所在的研究区块且比较依赖个人经验。而机器学习中的诸多算法对常规测井曲线与含油气性之间的非线性映射关系有较好的适应能力,被应用于如低阻油层的复杂储层流体识别中,并取得了较好的效果。张银徳等[4]利用支持向量机识别出了某油田的低阻油层。韩玉娇[5]利用AdaBoost算法识别出了大牛地气田的低阻气藏。蓝茜茜等[6]使用改进的前馈神经网络有效识别出了车排子的低渗油层。周雪晴等[7]使用双向长短期记忆神经网络有效识别了鄂尔多斯盆地马家沟组的气层。门控循环单元网络(gated recurrent unit,GRU)是循环神经网络中的一种,具有较强的非线性映射能力,除了和传统循环神经网络(recurrent neural network,RNN)一样能够挖掘出数据在时间序列上的关联性,还能有效解决因输入测井数据序列过长导致的梯度消失或爆炸等问题。

基于此,提出的一种Smote-GRU的智能识别方法,首先利用少数类过采样技术(synthetic minority oversampling technique, Smote)对油水同层和油层等少数类样本进行过采样建立均衡的数据集,利用均衡数据集训练GRU模型后,再将预处理好的数据集输入门控循环单元网络中进行流体识别,提高了各类流体性质的识别精度,少数类样本识别精度提升尤为显著。

1 区域概况及流体响应特征分析

目的层段为馆陶组和沙河街组,岩性主要表现为砂泥岩互层和大段砂岩。田立新等[8]首次用U-Pb测年实验证明了该地区在沉积时期发生了火山喷发,在火山活动和后期构造应力的综合作用下最终形成了孔隙-裂缝型的优质储层。馆陶组和沙河街组的储层流体可将分为:干层、水层、油水同层和油层。用半小提琴图来表示这4类流体性质的测井参数的概率密度分布和测井响应特征,图1为除井径外其他9个特征的小提琴图,通过观察半小提琴图的密度分布来总结流体性质的测井响应特征(其中电阻率测井的纵坐标为对数刻度,其他测井参数纵坐标均为线性刻度)。半小提琴图由左侧的蜜蜂群图和右侧的小提琴图构成。图1中,小提琴的形状表征了数据的密度分布状态,小提琴“肚子”越宽,数据分布越密集。微观上蜜蜂群图能看出每个测井参数数据点的分布位置。宏观上半小提琴在的纵坐标方向上的位置越高,则表示测井响应值呈高值。反之,位置越低则表示测井响应值呈低值[9-11]。

研究区块大部分干层由于泥质含量较高,自然伽马呈高值,主要分布在117.1~160.6 gAPI。又因其物性较差,深浅侧向电阻率曲线幅度差不明显,声波时差和中子呈低值分别分布在264.8~352.1 μs/m和18.5%~30.1%,密度呈高值,主要分布在2.31~2.46 g/cm3。相较于干层,水层自然伽马和深侧向电阻率呈低值,声波时差呈高值,密度呈低值;大部分油水同层和油层的自然伽马也呈低值,部分油层因为含泥质或是砂泥岩的薄互层,自然伽马值呈现较高值。油层的深侧向电阻率主要分布在2.53~5.35 Ω·m,和干层的深侧向电阻率范围重合度极高,难以将干层和油层区分。从宏观上来看,干层和油层的小提琴图高密度区域的重合度也极高,也说明难以将两者区分。同理油水同层与水层也较难区分[12-16]。表1为不同流体性质的常规测井响应特征,其中各个测井参数的范围是上,下四分位点的数值所组成的区间,代表各类流体常规测井参数值的主要分布范围。

表1 四类流体的常规测井响应特征

半小提琴图可知油层AC,CNL,DEN曲线的数据表现为双峰分布,其主要原因是研究区中有许多粉砂岩的致密储层,相较于其他孔隙度较大的砂砾岩,此类油层的密度值相对较大,声波时差值较小。使得油层密度均值比水层的高,声波时差均值也比水层低。表2为8号井油层井壁取心的岩心照片和对应的物性曲线的测井值,与半小提琴图的数据分布特征相吻合。油层与其他类型流体性质的测井参数数据的分布重合度较高,因此利用传统的交会图法和图版法很难有效地识别流体性质。

表2 8号井油层井壁取心照片及物性曲线

2 原理方法

2.1 门控循环神经网络模型原理

图2 门控循环单元结构Fig.2 Structure of gated recurrent unit

Rt=σ(XtWxr+Ht-1Whr+br)

(1)

Zt=σ(XtWxz+Ht-1Whz+bz)

(2)

(3)

式(3)中:Wxh∈Rd×h和Whh∈Rh×h为权重参数矩阵;bh∈R1×h为偏置参数矩阵;⊙为哈达玛积。

由此可以看出,GRU与其他传统机器学习算法的不同之处,单元中的重置门起着传递历史信息的作用。它可以用来降低与流体识别相关性低的历史信息,甚至还可以直接丢弃无关的历史信息。若重置门矩阵中元素越接近1,那么相对应的上一时间步的隐藏状态所携带信息对该时间步下的预测权重越大;反之,重置门矩阵元素越接近0,权重则越小。当其中元素为全为0时表示该时间步丢弃所有的历史信息。重置门的功能恰好能适应测井数据在深度列上的规律变化[17-19]。

当前时间步t的隐藏状态Ht∈Rn×h计算公式为

(4)

式(4)中:A为元素全为1的矩阵。

2.2 数据预处理

目标区块常规测井资料为测井常规九条曲线和一条光电截面吸收指数曲线,共10种。根据试油资料与测井资料联合标定结论,对目标区块的33口井进行综合解释,将区块中的储层分为干层、水层、油水同层和油层。具体为334个干层、161个水层、105个油水同层和77个油层,各类占比如图3所示。测井资料中各种物理参数的尺度差异极大,而神经网络模型往往对数据尺度也是极敏感的,会增加模型的训练难度。因此需要对每一个储层的各个物理参数进行归一化。

图3 四类流体性质饼状图Fig.3 Pie chart of four types of fluid properties

(5)

对于电阻率测井这般呈对数特征的参数需要先对每个数值求对数再归一化。

(6)

(7)

式(7)中:R为0~1的随机数。

原始数据中油层的仅占总数的11.4%,而干层占49.3%,样本不均衡会导致训练好的模型对干层的识别准确率会较高,而油层的准确率会很低,同理其他少数类储层流体的识别准确率也会大大降低。下面以多数样本集-干层为参考对象,对油层样本进行过采样的可视化,如图4所示。

图4 油层过采样可视化Fig.4 Visualization of oversampling in the layer of oil

研究区块常规测井资料有10条曲线,现用二维空间可视化过采样的效果,在实际操作过程中则是在10维特征空间中进行的。另外,此采样策略只针对训练集的数据,最终使得输入模型的训练集干层,水层,油水同层和油层的比例为2∶1∶1∶1,使其变得相对均衡。用Smote算法没有使训练集数据完全均衡为1∶1∶1∶1的原因是,按照此比例采样后,油层等少数类样本集会生成许多噪声点,会增大训练集的复杂度,反而会降低模型的精度。

2.3 相关性分析

以储层的流体性质为标签,测井资料中的各种物理参数为算法输入的特征。在训练模型时,各个物理参数对模型预测流体性质的贡献可能不同,也存在多个物理参数之间相关性很强的情况,为了减少模型的运算量及更好地训练模型,亟需对各个物理参数之间的相关性进行分析,用皮尔逊相关系数来计算参数之间的相关性,计算样本各参数之间的协方差和标准差后可得到两个参数之间的皮尔逊相关系数r可表示为

(8)

参数之间的相关性系数如图5所示,可以看出,RD和RS之间的相关性强,皮尔逊系数为0.98,几乎可以认为两者“共线”。将RD和RS两条曲线同时输入是不合适的,各参数与标签的皮尔逊系数如表3所示。

表3 各测井参数敏感性分析

图5 相关性热力图Fig.5 Heat map of correlation

深侧向电阻率RD对储层含油性的敏感度为0.215大于浅侧向电阻率RS对储层含油性的敏感度0.128,因此选择RD作为输入。RXO与标签的相关性系数最低为-0.007,可以认为,RXO对目的层段的含油性不敏感对模型识别流体的贡献很小。最后确定作为输入的8条曲线为CAL、GR、PE、SP、RD、AC、CNL和DEN。

2.4 Adam优化算法和GRU网络模型

Smote-GRU流体识别模型中是使用Adam算法来迭代寻找网络的最优化参数的。Adam算法中的参数分别为:alpha、beta1、beta2和epsilon,尽管参数数量较少,但是对神经网络模型的优化影响巨大。

epsilon使用默认值就能起到很好的优化效果,因此用控制变量法来调参时,只需对alpha、beta1和beta2进行改变,最终得到最优参数如表4所示。

表4 Adam寻优算法最优参数

各个测井参数的原始数据是随深度变化的离散点,研究区块的测井数据的为采样间隔为0.1 m,因此将深度列视为“时间列”,自上而下地对K区块的33口井的储层测井数据进行提取,生成训练序列。本文GRU神经网络的流体识别模型如图6所示。

Yt为不同深度下GRU层输出的信号;Dropout为神经网络中上一层神经与下一层神经断开连接的比例,其主要作用是为了防止过拟合,提高模型的泛化能力;softmax为多分类问题中常见的 激活函数

3 流体识别

将33口井中28口井的常规测井数据作为训练数据,另外5口井的作为测试数据。利用训练好的神经网络模型预测储层流体性质,并对识别结果进行综合评价。混淆矩阵以n行n列的形式对模型的Precision(精确率)、Recall(召回率)、FScore(召回率与精确率的博弈)进行可视化。

(9)

(10)

式中:TP和FP分别为被预测正确和被预测错误的正样本数;FN为被预测错误的负样本数。

精确率和召回率两者相互影响,相互制约,前者过高会导致后者偏低,反之后者过高也会导致前者偏低。此时,引入FScore作为综合指标,FScore数值越大模型流体识别的精度就越高。

(11)

式(11)中:β为参数,若β大于1则表示召回率比精确率重要,β小于1表示精确率比召回率重要,β等于1表示召回率和精确率同样重要,本文FScore中的β取1。

优化训练数据集后Smote-RNN和Smote-GRU流体识别结果分别如图7所示。图7中,颜色较深的对角线表示四类流体性质的召回率,即Smote-GRU网络干层识别正确占干层总数的0.94,同理水层为0.893,油水同层为0.854,油层为0.885,剩余部分是模型错误分类结果的占比。样本优化后GRU网络对4种流体性质的Precision、Recall和FScore如表5所示。对于少数样本集(油层)的FScore为88.9%,多数样本集(干层)的FScore为93.5%。水层和油水同层的FScore分别为87.7%和87.9%。结果显示本文识别方法在保证了整体识别率的基础上,对油水同层和油层的识别率也达到了理想预测结果。为了充分验证基于序列数据模型对该区块流体识别的应用效果比非序列数据模型效果好,对比包括均衡样本后的Naive Bayes、支持向量机(support vector machines,SVM)、K近邻(K-nearest neighbors,KNN) 3种传统的机器学习算法模型。将Smote-GRU 4种流体性质的平均FScore指标与用Smote均衡样本后的RNN、Naive Bayes、SVM和KNN模型的平均FScore指标对比如表6所示,结果显示:RNN和GRU这类基于序列数据的流体识别模型精度比比非序列数据模型的精度高。

表5 均衡样本后的GRU对测试集5种流体的识别结果

表6 不同流体识别模型的平均FScore标对比

颜色较深的对角线为四类流体性质的召回率

为了体现GRU对研究区块流体识别的优势,选取GRU和RNN识别结果差异明显的层段进行可视化。将GRU和RNN预测的储层流体性质与试油资料和解释结论综合标定的储层流体性质[True Label:真实标签(流体性质)]进行对比如图8所示,选取的目的层段为6井中的1 126~1 164 m。

1~7号储层分别为油水同层、干层、油水同层、油水同层、干层、油水同层、油水同层True Label为真实标签(流体性质)

该井段试油结果显示日产油46.1 m3,日产水57.8 m3,结论为油水同层。结合测井综合解释,地层测试和试油结论,标定储层的真实流体性质作为“True Label”。将目的层段划分为7个储层,1~7号储层为分别为油水同层、干层、油水同层、水层、干层、油水同层、油水同层。最后将RNN和GRU的识别结果与“True Label”做比较,RNN对1、4、6、7号储层的流体识别错误。该区块油水同层与水层的测井响应特征极为相似,人为解释的难度相对较大,若模型对特征的敏感度未达到最优难免会将两者错分。分类问题可以抽象地理解为算法模型在提取数据特征后不断迭代和学习各类流体性质的测井响应特征,并计算出各个流体性质分类的n维度的决策面从而分类识别流体性质。若有两类测井响应特征相近,算法模型发生错分是难免的。但GRU的识别效果比RNN好,该结论也与表4的FScore标吻合。

为了进一步验证Smote过采样策略的优越性,在RNN和GRU迭代至最优状态的情况下,以4种流体的FScore为评价指标,设置3个流体识别方法与本文识别方法做对照试验,如图9所示。3个对照组分别是:“不平衡样本下RNN识别流体”“不平衡样本下GRU识别流体”“Smote过采样+RNN识别流体”。通过Smote算法过采样后,不管是使用哪种网络结构,少数类样本的FScore都得到了显著的提升。特别的是,GRU网络模型下水层和油水同层的提升了9.2%和8.7%。油层的样本最少,其FScore提升同样显著,油层FScore值由85.2%提升至88.9%。干层为多数类样本,其FScore得到了小幅度的提升。另外,对照试验表明同样条件下GRU网络模型下4类流体性质的FScoreRNN模型下的都要高,这表示GRU的非线性映射能力比RNN强。

图9 对照试验的FScore对比直方图Fig.9 Comparison histogram of FScore values in control experiments

4 结论

研究区块测井储层流体识别中存在油层电阻率较低,严重依赖测井解释人员的个人经验,油水同层与水层,油层与干层、水层的常规测井响应特征相似从而识别困难等问题。以GRU网络为基础,同时采用Smote算法均衡样本数据集,提出了一套对少数类样本过采样后再训练GRU网络模型的储层流体识别方法。建立各个测井参数与流体性质之间的门控循环单元网络模型,井区28口井作为训练集,剩下5口井作为测试集。得出如下结论。

(1)GRU、RNN与Native Bayes、SVM、KNN对比可知,GRU和RNN的流体识别方法更加精确。证明在该研究区块中,序列数据模型比传统机器学习模型的识别效果好。

(2)Smote过采样算法与GRU的有机结合,避免了网络模型中梯度衰减或爆炸等问题。GRU相比与传统的RNN,其非线性映射能力也更强,本文模型的FScore高达89.5%。对照试验中油水同层和油层的识别精度明显提高,证实了Smote算法处理样本不均衡分类问题的优越性。该方法可为类似储层样本不均衡的井区低阻油层的流体识别提供参考。

猜你喜欢
同层油水油层
水平井油水两相中的RAT流体成像分析
易木同层
易木同层
易木同层
油层重力分异对泡沫驱气液比的影响
曙光油田杜813油层的初浅介绍与地质分析
油水混合
油水两相流超声波衰减测试方法
误区:维生素K需补充,但要远离“油水”
七里村油田薄油层测井识别技术研究