基于梯度提升决策树（GBDT）的低阻油层识别*

2023-09-29 05:52:12牛庆威张如玉白雨昊穆有德王宇辰

计算机与数字工程 2023年6期

牛庆威张如玉白雨昊穆有德王宇辰吴傲

（中国石油大学（华东）计算机科学与技术学院青岛 266580）

1 引言

伴随着测井技术的飞跃发展，低阻油层的勘探开发引起了广泛重视［1~2］。低阻油层是指电阻率小于或接近于周围围岩电阻率，与水层电阻率相当，含油饱和度一般小于50%的油层［3］。由于这种油层的测井相应特征与水层差别不大，往往会被误认为是水层［4~5］。尤其在勘探阶段，低阻油层识别困难，导致了大量油气资源被遗漏。因此，深入开展低阻油识别评价研究及技术推广，已成为油田上增储上产的有效途径［6~8］。

大量的勘探开发实践、理论及科研表明了测井对储层特性响应具有非线性关系，从非线性测井响应中提取地层的储层特性日益成为测井分析家面对的前沿课题［9~10］。

传统的识别方法运用交会图版、核磁共振烃检测、双水重叠等技术［11~13］，多依赖于经验以及公式推导，区分低阻油层的能力较弱。本文从测井数据出发，提取低阻层不同测井曲线的数理特征，应用机器学习算法，学习数据中包含的有益信息，构建低阻油层识别模型。通过决策树［14］筛选出区分低阻油层和水层的重要特征。将筛选出的重要特征作为梯度提升决策树［15］模型的输入，来构建低阻油层识别模型。通过该方法，可以有效提高低阻油层识别的准确率，避免了人工识别所伴随的主观性以及片面性。

2 基于梯度提升决策树（GBDT）的低阻油层识别

以低阻层测井数据作为数据分析样本，首先对数据进行缺失值填充，异常值修正、重复值剔除等工作，提高数据质量。然后对各类测井曲线进行数理特征提取，将提取后的特征根据重要性程度进行筛选，选出对低组油层、水层判别程度较高的特征，作为分类模型的输入特征。低阻油层识别模型构建流程如图1所示。

图1 低阻油层识别模型构建流程

2.1 测井曲线特征提取

选取测井曲线AC（声波时差）、CAL（井径）、CNL（中子）、DEN（密度）、GR（自然伽马）、SP（自然电位）、RA04（0.4m 电阻率）、RA25（0.25m 电阻率）作为初始样本集，并对数据进行预处理，填补缺失值以及修正异常值等。

基于以上测井数据，提取各个曲线的数理特征，包括平方和、标准差、方差、连续小波变换系数、近似熵、傅里叶变换系数等。

2.2 重要特征筛选

由于每一个特征的分类能力对于要构建的模型来说是未知的。因此，需要从所有提取的特征中，筛选出有益于模型学习的重要特征。并且在大部分应用场景中，维度过多还会造成训练效率低下、过拟合等问题。如果只选择所有特征中的部分重要特征构建模型，那么可以大大提高模型训练的效率，增强模型的泛化能力，同时还可以增加模型的可解释性。

决策树是一种树形结构，以实例为基础进行归纳学习非线性模型。其基本思想是自顶向下，以基尼系数为度量构建一颗度量标准下降最快的树，每个树节点代表一个属性的测试，直到叶子节点处只剩下同一类别的样本。基尼系数计算公式如下所示：

其中K表示有类别数量，pk表示第k类的概率。

对于二类分类问题，若样本属于正类的概率为p，则基尼指数为

对于给定的样本集合D，其基尼指数定义为

其中是Ck是D中属于第k类的样本子集。

如果样本集合D被某个特征A 是否取某个值分成两个样本集合D1和D2，则在特征A 的条件下，集合D的基尼指数定义为

基尼系数越小，集合的纯度就越高，所选特征就越好。

2.3 低阻油层识别模型构建

将决策树模型筛选出的重要特征作为模型的输入特征，以每个低阻层测井数据对应的油层和水层作为标签，构建基于梯度提升决策树的低阻油层识别模型。

GBDT 通过线性累加的方式，进行多轮迭代，每一轮在上一轮弱分类器残差计算结果的基础上，产生一个新的CART 回归树［16］，通过不断地减小训练过程产生的残差方式，对数据进行分类。每一个弱分类器，要尽可能地保持低方差、高偏差的状态。低方差保证模型不会过拟合，高偏差保证模型的精度。为了使损失函数尽可能快地减小，则选用损失函数的负梯度作为残差的近似值，来拟合CART回归树。GBDT模型的定义如下：

其中f0(x)为初始弱学习器，M为树的个数，J为回归树的叶子节点的个数，cmj是Rmj的平方损失最小值。

3 实例分析

选取**地区的测井数据作为低阻油层识别的数据样本。首先修正数据中因测量异常造成的错误值，剔除重复录入的数据。对于一些字段缺失率较高的小层，因无法获取到有效信息，则会将该小层从数据样本中剔除。经数据预处理过后，分析样本中共计374口井，3666个小层。其中已核实小层151 个，未核实小层3515 个，总计200810 条测井数据记录。

3.1 测井曲线特征提取

通过Python编程语言，编写平方和、方差、近似熵、傅里叶变换系数、连续小波变换系数等函数，将声波时差、井径、中子、密度等测井曲线数据输入到各个函数中，计算相应的特征值，共计得到1916 个特征。部分特征如表1所示。

表1 部分测井曲线数理特征

3.2 重要特征筛选

将提取的低阻层测井曲线特征与该层的标签值（油层、水层）输入到决策树模型中，进行训练，并输出分类能力最高的前11个特征，如图2所示。

图2 重要程度最高的11个特征

这11 个重要特征中，包含全部类别的测井参数，但是涉及的每一种测井曲线的数理特征，则不尽相同。数理特征包括傅里叶变换系数、小波变换系数、方差、偏度等。说明从不同的数理角度出发，对不同测井曲线提取特征，并进行筛选，是一个不可或缺的过程。利用图2中的11个特征，对低阻油层和水层进行分类预测，能够有效保证模型分类的准确率。

3.3 低阻油层识别模型

基于已核实的低阻层小层数据，以筛选的重要特征作为梯度提升决策树模型的输入数据集，并将该数据集进行划分，其中70%为训练集，30%为测试集。并采用网格调参的方式，选择不同排列组合的GBDT 模型参数（学习率、损失函数、弱学习器的最大迭代次数等），对模型进行训练优化，最终得到在测试集上准确率93%的低阻油层识别模型。模型在测试集上的混淆矩阵如图3所示。

图3 测试集混淆矩阵图

应用该模型对该地区未核实的3515 个低阻小层预测分类，部分预测结果如表2所示。

表2 低阻油层模型预测结果

根据预测出的低阻油层，并结合井况以及实际开采条件等因素，选取了G*-**-*井的1569.2~1571.3 小层、G*-**-*的1466.8~1468 小层进行补开验证，开采结果均为低阻油层，且初期日产油11.2t，油藏效果显著。

4 结语

本文针对目前低阻油层的开发现状，从测井数据出发，提出了一种基于梯度提升决策树（GBDT）的低阻油层识别方法。该方法通过从不同的测井曲线（声波时差、井径、中子、密度、自然伽马等）中提取数理特征，这些特征能够不同程度的从各个数理角度代表测井曲线。通过决策树算法筛选出与低阻油层和低阻水层相关性较强的特征，再利用重要特征的数据，训练GBDT 模型，最后得到一个识别低阻油层准确率较高的模型。利用该识别模型，可以为油田低阻油藏的开发工作减少成本，提高开采效率。

应用本文构建的低阻油层识别模型对**地区3515个低阻层进行识别，总计获得91个潜力层，经多名石油专家分析讨论，模型的识别准确率达90%。并选取两个潜力层，进行现场实施开采，开采结果均为低阻油层，避免了因判别错误造成的经济损失。

随着油田低阻层开发的不断进行，单纯依靠测井数据也会变得难以推进，因此，后续将对小层数据、录井数据等进行分析，在模型中融入小层、录井等特征，进一步提高低阻油层识别模型的准确率，为油田的低阻油层开采工作提供支持。