谷宇峰, 张道勇, 阮金凤, 王 琴, 张晨朔, 张 臣
(1.自然资源部油气资源战略研究中心, 北京 100034; 2. 中国石油长庆油田采油五厂, 西安 710200)
在早期勘探阶段,为更好地了解目的层储层地质特征,储层岩性和物性等需进行重点分析,其中渗透率便是重要的分析因素[1-3]。渗透率的研究对于判定储层储集能力和洞察压力改造特性极为重要,因此渗透率预测一直为地质勘探阶段中一重要研究内容[2-4]。物理模型为预测渗透率的常规手段,主要以地球物理测井理论为指导进行建立。因有测井理论支撑,物理模型更被地球物理学家接受和使用,使其在早期测井解释研究领域中得以迅速发展。代表模型有广泛应用于砂泥岩储层的Index模型、Kozeny-Carman模型、Timur模型、Herron模型等[5-7]。这些模型在地球物理资料充足或储层地质情况简单条件下应用效果良好。然而,随着油气勘探难度加大,研究目的层的地质情况愈发复杂,如储层因受多期机械压实、溶蚀和胶结等成岩作用的影响而含有极为复杂的孔喉系统,或因发育裂缝,储层的渗流性在各方向上变化极为不一。为更好地进行渗透率预测,物理预测模型也随之复杂化,导致其适用性和推广性逐渐变差,所以如何在复杂地质条件下对储层进行简单且有效的渗透率预测成为当前一测井解释难点[1-4]。从物理模型的自变量和应变量对应关系角度考虑,渗透率预测实际上是一拟合问题,因此可用拟合模型进行解决[2,8-9]。早期用于渗透率预测的拟合模型为逐步迭代,其应用效果已在研究中证实[2,8-9]。虽然逐步迭代在预测中取得了一定认可,但其应用上的缺点也十分明显:因在分析前无法确定自变量和应变量之间准确的对应关系,如该关系可为线性或者复杂的多项式等,导致建模后得到的纯线性拟合公式一般情况下拟合优度不高,或含有高次项的拟合公式虽然拟合性很好但因对噪音数据点敏感而无法推广应用。
为在拟合问题中避开选择自变量与应变量对应关系的问题,属于灰箱或黑箱的机器学习模型逐渐在渗透率预测中得到研究与应用。目前常用的模型以FFNN (feed forward neural network) 和 SVR (support vector regression) 等为主。FFNN是典型的三层神经网络模型,能通过输入层与输出层之间的网络映射有效解决自变量与应变量之间线性或非线性的拟合问题。得益于BP (back propagation) 算法的使用,FFNN可快速完成数据训练,且随着训练数据样本量的增加,形成的网络映射的鲁棒性能越强,展示出了良好的拟合能力[10-12]。鉴于FFNN的拟合计算特性,陈科贵等[10]、汪雷等[11]和董满仓等[12]在渗透率预测问题上,对该模型进行了尝试,并根据预测数据的分析肯定了该模型的应用性。SVR在计算原理上不同于FFNN,是采用支持向量进行预测。所谓的支持向量是指学习样本中能真正对预测对象的变化起到作用的样本。因为支持向量的数量一般小于学习样本量,所以SVR一般情况下可用更少的样本进行建模和预测,这样无论在预测速度上,还是在处理学习样本的容错率上,较FFNN都表现出更好的性能[13-15]。李其聪等[13]基于改进的SVR对煤层渗透率进行了预测研究,并根据实验结果证实了改进模型是预测利器。李佳[14]在研究多孔介质渗透率问题上使用了大量的机器学习模型,最后通过验证对比发现SVR是出色的预测模型之一。谷宇峰等[15]在研究长4+5段致密砂岩储层渗透率预时采用SVR进行验证,并以多重实验结果对比分析证实了SVR在一般情况下给出的预测信息是可靠的。虽然上述模型的预测能力在一些研究案例中得到了肯定,但其适用性和推广性仍较差,主要体现在:① FFNN因使用BP学习方法,使其预测性能受制于网络初始化,所以一般情况下模型在训练中容易收敛于局部最小,导致在预测时难以给出最佳结果;② FFNN和SVR均在训练过程中均使用了矩阵计算,因此计算耗时随着训练样本容量的扩大会出现指数级增长的现象,这在处理现实问题 (real-world problems) 上表现出了计算性能不足这一缺点;③ FFNN和SVR在训练中会追求较高的拟合优度,这容易导致过拟合问题的产生,而如何控制过该问题发生或者从另一角度出发令模型在训练后有更强的鲁棒性在现实案例中难以完美地做到。
为尽可能地避免模型在预测中发生上述问题,以XGBoost (extreme gradient boosting) 等为代表的决策树模型被逐渐应用到渗透率预测中[16]。该模型以目标值与计算值之间的差值为拟合对象,并通过众多决策树的分类处理,令差值逐渐减小,以期达到最优拟合效果[16]。因决策树对拟合对象进行分类处理,所以在建模过程中可对噪音样本或者错误样本进行筛选,表现出良好的容错性,而这种分类处理为一种线性计算,不涉及矩阵转换或核函数转换,所以在理论上较上述模型拥有更快的预测速度。然而,XGBoost在训练时也会产生过拟合问题,且在处理大容量学习样本情况下构建决策树非常耗时,为此Guo等[17]通过针对性的研究后提出一种计算性能更强的LightGBM (light gradient boosting machine) 模型。该模型的预测性能已在Tang等[18]研究中进行了验证,其实验结果都一致显示出LightGBM较XGBoost和其他经典机器学习模型在处理拟合问题上表现更为出色。虽然LightGBM拥有强大的拟合性能,但其表现受自变量的数量和质量影响严重,同时由于使用了较多的超参数,在建模后其预测状态难以保证为最优。为此,提出利用MIV (mean impact value) 算法[19-20]和CD (coordinate descent) 算法[21-22]对LightGBM进行改进,进而提出一种新的混合预测模型MIV-CD-LightGBM。
提出模型在渗透率预测上较常规物理模型而言,其最大优势在于计算不受储层孔隙系统的物理条件限制,可基于纯数据驱动进行建模和预测,因此具备良好的适用性和推广性。由于建模和预测效果完全取决于数据质量和模型本身构造,因此嵌入的MIV算法和CD算法在保证LightGBM的计算有效性方面奠定了基础,进而理论上提出模型应有良好的预测能力。
通过分析Index、Kozeny-Carman、Timur和Herron等模型得知,渗透率在测井解释理论上可由含有孔隙度、束缚水饱和度、岩石各矿物含量等储层参数的非线性公式求得[5-7],而这些参数又可由带有测井曲线的理论公式或经验公式确定[1-4]。由此可见,渗透率能由带有测井曲线的非线性公式计算。上述推论过程可描述为
K=f[g1(AC),g2(RT,SGR),
K=f′1(AC,RT,SGR,CGR,…)
(1)
式(1)中:K为渗透率,mD;φ为孔隙度,%;Swirr为束缚水饱和度,%;Bvol为岩石矿物含量,%;AC为声波曲线,μs/m;RT为原状地层电阻率曲线,Ω·m;SGR为总自然伽马曲线,API;CGR为去铀自然伽马曲线,API;f、g1、g2、g3、f′1为不同类型的函数。
基于测井曲线数据,拟合模型可用于预测渗透率。由于预测时除测井数据外,无其他信息掺入,因此渗透率预测又可进一步定为纯数据驱动下的拟合问题[2,16]。此时,对于学习样本集或建模数据集,其表达式可设为{Xmn,Ym},其中,Xmn为测井数据矩阵,由m个样本和n条测井曲线构成;Ym为岩性渗透率数据向量,由岩心实验确定。为消除各测井曲线数据因其数量级不同在建模时产生数据淹没现象[2,16],测井数据要进行归一化。归一化有多种处理方式,本文中采用[0,1]归化方式,即令每条测井曲线变化范围压缩在0~1。计算公式[2,16]为
(2)
式(2)中:xoj为原始第j条测井曲线;xoj_max为原始第j条测井曲线最大值;xoj_min为原始第j条测井曲线最小值;xj为均一化后第j条测井曲线。
假设Xmn为均一化后的测井数据矩阵。对于LightGBM,其预测一般由训练后得到的强学习器来完成。强学习器[17-18]可表示为
(3)
式(3)中:F(xi)为作用在样本xi上的强学习器;FL为损失函数;yi为第i个岩心渗透率值;v为常数,能使损失函数最小化;ηL为学习速率;wrt为在t次迭代中决策树第r个叶节点中所有样本最佳替代值;TB为迭代次数;Rt为第t迭代中决策树叶节点个数。
式(3)中wrt由经验公式[式(4)][17-18]确定:
(4)
虽然LightGBM主要计算原理与以XGBoost为代表的其他决策树模型的相似,但因Guo等[17]在研究中提出GOSS (gradient-based one-side sampling) 和EFB (exclusive feature bundling) 等算法使得LightGBM在预测上效率更高。决策树只会对损失函数值较大的样本做出显著处理,因此损失函数值较小的样本可在构建下一个决策树之前剔除掉,而如何确定这些函数值较小的样本可通过设定一阈值来实现,这便是GOSS算法原理。当样本中的变量个数较多,可通过变量之间互斥特征进行绑定,以此来缩减在实际处理中变量的个数,达到快速建模,这便是EFB算法原理。由于测井曲线个数一般情况下较少,因此该算法在下述验证中不涉及。XGBoost等类似模型之所以在构建决策树上耗时较多,是因为采用了pre-sorted算法寻找最佳分裂点。Guo等[17]通过深入研究该算法后提出了Histogram算法。该算法摒弃传统逐点试算最佳分裂点的思想,采用类似于柱状图统计的桶归类思想进行分析。由于进行桶归类后试算点大大减少,因此叶节点的生长速度非常快,为LightGBM快速建模奠定了基础。虽然决策树构建速度得到了提高,但叶节点生长过快容易产生过拟合现象,因此,“leaf-wise”这一新的生长模式被提出[17]。该模式通过限制叶节点个数使决策树不易过“茂盛”,进而为LightGBM的鲁棒性做了保障。
LightGBM在各计算平台上属于集成程序[17-18],因此上述算法除EFB外,都会在下面验证中予以默认执行,不再赘述。
LightGBM的计算性能受自变量的数量和性质影响较大,且较多超参数的使用使其预测状态难以保证为最优。鉴于测井曲线一般情况下较少,自变量数量问题不用考虑。由于在拟合中,测井数据矩阵最好只由能引起渗透率变化的测井曲线组成,因此每条曲线对于拟合的重要性要先进行判定,即先要对每条曲线在拟合中的贡献程度进行量化分析,而这恰好符合MIV算法流程特点,因此采用该算法判定每条测井曲线的重要性。
MIV算法一般通过变化某一自变量值来考察其对目标值变化的影响程度[19-20]。对于第j条曲线,MIV算法首先通过涨幅因子来变化曲线值,进而组成一新测井数据矩阵,可表示为
(5)
之后,将新矩阵带入预测模型中得到新的预测结果,再将结果与原预测结果进行对比得到差值。由于这种差值一般为向量,所以MIV算法常采用2-范数进行处理以得到一种综合差值,而这种综合差值也称为该变量的MIV[19-20]。该过程可描述为
(6)
式(6)中:Ej为对应于第j条测井曲线的MIV;ABS为绝对值函数;FLGB为LightGBM模型。
将相同的涨幅因子分别带入n条曲线后会得到n个MIV,之后算法通过设定一阈值对各MIV进行判定。MIV高于阈值则认为对应的曲线在预测中具有重要性。阈值判定公式[19-20]可表示为
(7)
式(7)中:S为重要的曲线集合;α为设定的阈值。
由于单个涨幅因子带来的判定效果往往不可靠,因此在实际应用中算法常用多个涨幅因子来进行分析。当有p个涨幅因子时,某一曲线最终的MIV以各涨幅因子情况下得到的MIV的均值来确定。例如,当p为3时,某曲线将会得到3个MIV,则最终MIV以这3个MIV的均值来确定。
对于LightGBM超参数优化问题,采用一容易实现的CD算法来解决。该算法的优化思想[21-22]是:① 首先固定住其他超参数,令剩余一超参数在规定的变化范围内以规定的变化步长逐渐变大;② 对于该超参数的每一次变化,都要进行一次预测,并对预测结果与标准结果进行对比来判定该结果的可靠程度;③ 如果该结果的可靠程度低于该超参数在下一次变化中得到的结果的可靠程度,则最优结果记录为下一次变化得到的预测结果,否则以这次得到的预测结果为准;④ 当该参数对应的最优结果确定后,令其和其他参数固定,让剩余的另一超参数继续在规定范围内以规定的步长变化,不断更新最优结果;⑤ 当所有超参数更新完毕后,即完成一次算法迭代,而当迭代完毕时,最优结果对应的超参数组合即为最优超参数组合。
当CD算法确定出最优超参数组合后,LightGBM的最优预测状态将得到保障。
根据上述计算原理,针对混合模型MIV-CD-LightGBM在渗透率预测上提出一计算流程,如图1所示。计算流程大致分为以下几个步骤:① 原始数据首先进行均一化,主要是对测井数据,之后将其分为建模和预测两类数据集;② 第二步进行MIV处理,包括设置涨幅比例处理每条测井曲线,并将每种涨幅情况下的建模数据集带入LightGBM中进行预测得到预测结果,最后根据计算的平均MIV筛选曲线;③ 根据筛选的曲线组成新的建模和预测数据集,并进入CD算法优化过程;④ 在此过程中,首先确定LightGBM超参数,并相应地设置每种超参数的变化范围和变化步长,以及CD算法迭代次数,之后计算每种超参数在每种情况下的预测结果,并判定是否为最优预测结果;⑤ 当迭代次数达到最大时,优化完毕,最优结果对应的超参数组合即为最优超参数组合;⑥ 建立的MIV-CD-LightGBM即为最终预测模型,可用于处理实际资料。
图1 MIV-CD-LightGBM渗透率预测计算流程Fig.1 Computational flow of MIV-CD-LightGBM used for permeability prediction
以鄂尔多斯盆地姬塬油田西部长8段致密砂岩储层为例对提出模型的渗透率预测能力进行验证。姬塬油田位于鄂尔多斯盆地天环坳陷和陕北斜坡两个一级构造单元之间(图2)。大量早期勘探资料表明油田油气资源富集,且多位于延长组致密砂岩储层段中,如长4+5、长6和长8等[23-25]。虽然早前研究已经揭示了油田致密砂岩储层的一些特征[23-25],但限于部分资料匮乏 (如缺少充足的自然伽马能谱测井资料) 和解释方法的适用性差 (如解释储层物性参数的物理模型不完善),这些认识并不完全可靠。为进一步准确圈定出更多的油气富集有利区,储层特征需在获取更可靠的解释资料条件之上进行了解,因此储层参数迫切需要一些的新方法或新模型来重新解释。渗透率是储层重要的表征参数之一,对于了解储层孔喉系统特征和开展压裂改造等都极为重要。早期用于解释渗透率的模型以物理模型为主,如Index模型、Kozeny-Carman模型、Timur模型和Herron模型等。Index模型主要用孔隙度资料通过指数方程确定渗透率。对于砂泥岩地层,该模型应用性良好,但对于致密砂岩储层,由于储层受多期成岩作用和裂缝发育等因素影响,形成的孔喉系统复杂,导致孔隙度和渗透率之间难以存在良好的正比关系,所以模型的应用效果常常很差[5-7]。虽然可以利用分层数据或者FZI(flow zone indicator) 指数来改善Index的应用效果,这种改善却使得模型的推广性变差。对于其他模型,由于需要的支撑资料 (如束缚水饱和度、岩石矿物含量和岩石单位体积表面积等) 难以获取或难以准确获取,解释结果往往可靠性较低,最终展示出的应用效果并不理想[5-7]。渗透率预测的本质是拟合问题,而机器学习模型恰好是解释拟合问题的利器,所以选用出色的机器学习模型来解释渗透率是新的思路与研究方向。基于前言所述,现采用混合模型MIV-CD-LightGBM预测储层渗透率。
绿色点为提供建模数据;红色点为提供预测数据;P1、P2、P3和P4为验证数据井图2 姬塬油田西部位置及其建模、验证数据井分布Fig.2 Location of western Jiyuan Oilfield and distribution of modeling and validating wells
模型的验证对象如图2(a)所示。为方便示例,以中南部井区为样本。区内共有34口取心井,其中30口井定为建模数据井,其他4口井定为验证数据井。建模数据井共提供2 670个样本,而验证数据井提供的则有100个。建模样本和预测样本都由9种测井曲线和1个岩心渗透率值构成。曲线包括AC、补偿中子测井(compensated neutron log,CNL)、地层密度测井(density log,DEN)、SGR、CGR、冲洗带电阻率测井(resistivity of flushed zone,RXO)、过渡带电阻率测井(resistivity of invaded zone,RI)、RT和 光电吸收截面指数(photoelectric absorption cross-section index,PE)。测井曲线分辨率为8点/m或者测量间隔为0.125 m。共设计三个实验对提出模型进行验证。实验1验证MIV算法的嵌入对于LightGBM预测性能的影响。实验2验证CD算法的嵌入对于MIV-LightGBM预测性能的影响。由于CD算法主要服务于LightGBM,所以实验2实际上是验证CD算法对于LightGBM超参数的优化性能。为更好地突出提出模型的预测能力,在实验3中加入FFNN和SVR两个经典机器学习模型进行对比。由于所用模型需要用相同的建模和验证数据集,且对比模型在建模时也用到了超参数,所以为公平地验证,FFNN和SVR也设定嵌入MIV算法和CD算法优化,即实际的对比模型为MIV-CD-FFNN和MIV-CD-SVR。为保证建模和预测样本质量,所有测井样点深度已经与岩心渗透率值的深度进行校正。所有验证模型的实现平台为Spyder 3 (Python 3.7.6)。
在渗透率预测中,常用均方误差(mean squared error,MSE) 指标来评价预测结果,但该指标值通常较小,难以进行显著的区分,为此均方根误差(root mean squared error,RMSE) 用作评价指标[15-16],进而式(6)中的2-范数在实验中以该指标替代。由于渗透率是呈数量级变化的,所以对于单一样本,其预测结果误差应采用数量级差绝对值进行评价。例如,如果岩心渗透率值为1 mD,而预测结果有两个,分别为2 mD和0.1 mD,此时如果按照绝对误差评价,则0.1 mD被认为更准确,但实际上2 mD更可靠。对于该情况,如果以数量级差绝对值进行评价,则两个预测结果对应的误差分别为0.3和1,此时2 mD认为更准确,符合实际。至此,三个实验中,对于单一预测结果,其误差用数量级差绝对值衡量,而对于整体预测结果,用RMSE衡量。
MIV算法需在设定多种涨幅因子情况下对测井曲线在拟合中的重要性进行综合判定,为此,设定涨幅因子共有三个,分别为1.1、1.3和1.5。
按照图1所示的计算流程,数据首先进行均一化。均一化公式以式(2)为准。之后,每条测井曲线先以涨幅因子γ=1.1进行试算。试算前要先对LightGBM模型进行初始化。根据已有研究,表1展示出一套经验参数设置[17-18]。模型初始化后,便可对涨幅后的测井数据矩阵进行建模和预测。图3(a)展示了在γ=1.1情况下每种测井曲线对应的MIV。图3(a)中明确显示DEN、SGR和RT对于渗透率变化的影响较其他测井曲线的程度更大,但这并不完全可靠,需结合其他涨幅因子试算情况来综合确定。对于γ=1.3和γ=1.5,每条测井曲线对应的MIV也展示在图3(a)中。橙色和绿色线显示除了DEN、SGR和RT外,AC、CNL、CGR和RI也显示出较大的影响程度,所以进行多种涨幅因子试算对于MIV检测是十分必要的。对于所有测井曲线,三种试算结果得到的平均MIV如图3(b)所示。所有曲线的平均MIV不尽相同,需通过设定多种阈值进行讨论。图3(b)中显示了三条红线,表示4种阈值判定情况,分别为α=0.1、0.2、0.3、0.4。当α=0.1时,测井曲线全部判定为重要,而当α=0.2和α=0.3时,重要的测井数据集分别由{AC、CNL、DEN、SGR、CGR、RI、RT}和{CNL、DEN、SGR、RI}构成。当α=0.4时,只有DEN和SGR判定为重要,而建模数据集只由两种测井曲线构成势必不能在建模中提供充足的分析数据,所以该情况不考虑。前3种阈值的判定情况为预测带来的增效不能从选定的测井曲线数量上直接看出,需做进一步验证分析。图3(c)为3种阈值判定情况下,LightGBM模型得到的预测结果及误差。限于资料保密协议,深度信息不能展示,但为了更好地进行说明,在图题中给出了大致深度范围。图3中后三列展示的数量级差范围在0~1。误差如果落在该范围内,则预测结果和实际值 (岩心渗透率) 处于同一数量级中,而只有这种情况下的预测结果在渗透率解释研究领域中才被认为是可靠的[2-4]。因此,预测误差一列中数据点量越多,且越靠近0线,则表明预测结果越准确。不难发现,α=0.1和α=0.2情况下,预测误差列中数据点更多,但对比该两列时,由于数据点量接近,且数据点靠近0线的程度也接近,所以需从计算结果入手进行分辨。表2给出了该实验的RMSE计算结果。数据表明,α=0.2时LightGBM的预测结果最为可靠,因此由MIV算法确定出的重要测井曲线有7条,分比为AC、CNL、DEN、SGR、CGR、RI和RT。
表1 各验证模型、CD优化算法初始参数设置和各验证模型超参数优化结果Table 1 Initial parameter settings of all validated models and CD optimizing algorithm, and optimal results of hyper-parameters of all validated models
图3 MIV算法在LightGBM预测中性能分析Fig.3 Analysis of integration of MIV algorithm in the prediction of LightGBM
由于MIV算法的引入改变了原测井数据矩阵的构成,所以在下述实验中,关于LightGBM预测的模型都是以MIV-LightGBM方式表达。
对CD算法的优化作用进行分析。执行CD算法前,需确定LightGBM的超参数,模型的超参数类型如表1所示。确定后,根据优化算法需求,各超参数的变化范围和变化步长如表1所示。本实验设定的CD算法迭代次数为50。设置之后,CD算法便可执行优化计算。优化过程中,MIV-LightGBM模型的RMSE的变化过程如图4(a)所示。从图4(a)中可见,随着迭代次数的增加,RMSE呈现出明显的下降趋势,从0.611 2减少为最终的0.289 3。RMSE的减小很好地说明了CD算法能有效优化预测模型的超参数,且RMSE在迭代20次后便不再变化,又说明该算法优化效率高,可在少量迭代次数中完成最优值的寻找。LightGBM超参数的优化结果如表2所示。图4(b)显示了MIV-LightGBM在优化前和优化后的预测结果情况。根据两预测误差列的对比可看出,模型在嵌入CD算法后其预测结果误差大幅下降 (更多数据点落在列中且更靠近0线),表明该算法的嵌入对于提高模型的预测性能作用极大。表2中RMSE数据之间的差距也很好地印证了这一点。
图4 CD算法在MIV-LightGBM预测中性能分析Fig.4 Analysis of integration of CD algorithm in the prediction of MIV-LightGBM
表2 实验中各验证模型评价信息Table 2 Evaluating information of all validated models produced in three experiments
将MIV-CD-FFNN、MIV-CD-SVR和MIV-CD-LightGBM进行预测对比。按照计算流程,建模之前需对FFNN、SVR和LightGBM进行初始化。根据已有研究[10-11,13-14],表2列出了三个验证模型的初始参数设置,同时也标出了 各模型的超参数类型。相应地,超参数在CD算法中的设置情况如表2所示。确定设置后,经CD算法优化,各超参数的优化结果如表2所示。各超参数的优化结果与初始设置有很大不同,这说明CD算法的嵌入不仅对LightGBM具有意义,对于其他机器学习模型亦如此。各模型的预测结果如图5所示。图5中预测误差三列展示的数据点数量整体上看相近,且数据点靠近0线的程度也相近,但如果仔细观察还是可发现区别之处。在图5中标出4处示例来进行说明。对于第1处 (No.1),虽然三列都显示出凸起,但凸起左边的数据点在MIV-CD-SVR和MIV-CD-LightGBM的列中更靠近0线。对于第2处 (No.2),关于MIV-CD-SVR和MIV-CD-LightGBM的数据点全部落在数据列中,但后者的数据点整体上更接近0线。对于第3处 (No.3),虽然圈定的数据点全部落在三列中,但MIV-CD-SVR和MIV-CD-LightGBM的更靠近0线。对于第4处 (No.4),只有MIV-CD-LightGBM的数据点全部落在列中。综合下来,MIV-CD-LightGBM的预测误差相对更小,说明模型的预测结果准确度更高,这一点在表2中的各模型预测结果RMSE的对比也能得到证实。
图5 3种验证模型渗透率预测结果及其误差 (22xx.m~23xx.m)Fig.5 Predicted results and errors of three validated models
表2中除了记录各实验预测结果的RMSE外,还记录了耗时。对于实验1和实验2,由于只是在纵向上验证如何提高LightGBM预测性能,因此计算时间对比无意义。对于实验3,通过对比各模型的计算时间可发现提出模型的耗时最少,同时给出的预测误差最小,有力地说明了提出模型在预测致密砂岩储层渗透率上是高效的。造成这种情况的主要原因主要是LightGBM自身的计算机制较FFNN和SVR的优异,这也从侧面表明基于LightGBM改造的模型在发展智能地球物理的方向上更具推广应用价值。
通过对渗透率预测本质的分析、机器学习模型在渗透率预测上可行性的分析、LightGBM在嵌入MIV算法和CD算法后性能提升的分析以及3种验证模型在实验中表现的分析与讨论后,现有如下几点总结。
(1)用于渗透率预测的经典物理模型虽然有测井理论支撑,但需要的计算参数有时难以获取或难以准确获取,因此在缺少必要资料的情况下,其适用性非常受限。
(2)通过对经典物理模型自变量与应变量之间关系的研究发现渗透率实际上与多种测井曲线存在非线性关系,因此渗透率预测可归为基于测井数据的拟合问题,而这种问题恰好可用机器学习模型进行解决。
(3)渗透率预测在以拟合方式解决条件下,所用的测井曲线的重要性需要先进行判断,而这个问题可用MIV算法有效解决。
(4)LightGBM是出色的机器学习拟合模型,可用于预测渗透率,而模型的超参数优化问题,可用CD算法高效解决。
(5)实验证明,在嵌入MIV算法和CD算法后,LightGBM在预测致密砂岩储层渗透率上其性能有很大提升,因此混合模型MIV-CD-LightGBM更适用于解决渗透率预测实际问题。
(6)实验证明,相比于MIV-CD-FFNN和MIV-CD-SVR,MIV-CD-LightGBM在致密砂岩储层渗透率预测上表现更为高效,说明该模型具备更高的实用性,而造成这种情况发生的主要原因在于LightGBM的计算机制较FFNN和SVR的优异,这也从侧面说明基于LightGBM的模型在智能地球物理研究领域中更具推广应用价值。