基于测井参数优选的煤层含气量预测模型

2021-07-17 09:03张占松周雪晴郭建宏谭辰阳秦瑞宝

煤田地质与勘探 2021年3期

陈涛，张占松，周雪晴，郭建宏，肖航，谭辰阳，秦瑞宝，余杰

(1.长江大学地球物理与石油资源学院，湖北武汉 430100；2.油气资源与勘探技术教育部重点实验室(长江大学)，湖北武汉 430100；3.中海油研究总院，北京 100027)

近年来，随着非常规油气勘探的兴起，国内外对于煤层气的勘探研究一度成为相关领域的研究热点，其中煤层含气量是整个煤层气储层评价研究的核心参数之一，是关乎煤层气开发等一系列生产布局的关键所在。目前，国内外已有不少研究学者对煤层气储层含气量的预测评价有了一些成果性的认识，同时也得到了较为广泛的应用，其中，最为经典的煤层含气量预测方法是Langmuir 方程，于1992年由J.M.Hawkins 等学者提出[1]，核心思想是构建煤的工业组分与Langmuir 参数间的映射关系，建立模型计算煤层含气量。在众多提出的煤层含气量预测方法中，最为直接可靠的方法是煤心实验，通过实验测试直接获得准确的煤层含气量数据，然而该方法存在的最大问题是难以实现大面积取心实测进而不能满足工业生产的需求，且煤心实验测试经济成本较大。此后，为弥补煤心实验分析获取煤层含气量方法的不足，大量学者相继提出基于煤质、测井参数等多元回归方法构建煤层含气量预测模型[2-7]。随着近些年研究的不断深入，研究者们深入挖掘测井参数中隐藏的丰富地质信息，利用测井资料可有效解决煤层含气量预测问题。起初一些学者通过构建测井参数与煤层含气量之间的线性回归方程实现煤层含气量预测[8]，后来发现这样的线性回归方法过于简单，难以满足高精度预测的要求。

随着机器学习及人工智能等技术的发展，各研究领域的专家学者开始将机器学习等技术引入自身研究领域以解决科研问题，此时，有些学者开始将机器学习技术应用于煤层含气量预测中，目前最具代表性的是BP 神经网络、灰色模型、支持向量机以及随机森林[9-14]，研究成果已经表明这些技术的引入可以有效改善煤层含气量预测问题。然而，对于机器学习建模应用，影响模型性能最为核心的因素当属建模自变量的选取，不同的研究问题，建模自变量及网络结构不尽相同，即使不同的研究区，测井参数与煤层含气量以及各测井参数间的隐含关系也存在很大差异，利用机器学习方法构建预测模型时，选择的测井参数不佳将严重影响模型整体的预测性能，导致预测精度损失，进而不足以满足当前煤层气勘探对于煤层含气量的高精度预测需求。基于此，本研究提出基于测井参数优选的煤层含气量预测模型，首先通过简单的线性相关分析明确煤层含气量的测井响应特征，基于MIV(Mean Impact Value)方法实现测井参数优选，考虑到支持向量机对于小样本数据体的建模效果更为可靠，本研究选用支持向量机算法作为核心建模技术，但其存在核心参数选择问题，给定的常用参数值并不一定是本研究问题的最佳参数，为此，本文同时引入仿生优化算法(粒子群算法)对支持向量机的核心参数进行寻优，以此在建模的每个关键环节上做最优化处理，进而构建稳健、强鲁棒性的煤层含气量高精度预测模型。

1 煤层含气性测井响应特征

1.1 数据来源

目前，作为我国石炭–二叠纪煤炭储量最大的煤田，沁水煤田不仅产煤量巨大，其煤层含气量也非常丰富，占我国煤层气储量的近25%，截至目前，在我国的煤层气资源勘探区中，沁水煤田的勘探和开发程度最高，且煤层气储量稳定性条件最佳，将在未来很长一段时间内成为我国煤层气勘探开发以及工业生产的主力区，最新的煤层气储量评价数据表明，该区的煤层气资源储量高于1×1012m3，未来的煤层气开发前景非常可观[15]。

本研究选取位于沁水煤田柿庄南区的126 块煤心取样测试的煤层含气量数据以及对应各取样点的常规测井数据，表1 为本研究的基础数据，即126组样本数据(部分展示)，每组数据包含煤层含气量和测井参数。

表1 样品含气量及常规测井参数数据(部分)Table 1 CBM content of samples and conventional logging data(part)

1.2 测井参数相关性分析

常规测井参数中蕴含着大量的地质地层信息，有效地利用测井技术可以解决诸多的地质及储层评价问题，不同的地质储层情况具有不同的测井响应特征，煤层富含有机碳及煤层气，具有其特殊的岩石物理信息，其含气性具有特殊的测井响应特征，为具体分析煤层含气性的测井响应特征，首先通过皮尔逊相关系数分析各常规测井参数与煤层含气量间的相关性，同时计算测井参数彼此间的相关系数，据下式可计算得到各参数间的相关系数(表2)。

式中：r为皮尔逊相关系数；分别为测井曲线均值；xi、yi为第i个样本对应的测井曲线数值。

由表2 中的相关性结果可知，不同的测井参数与含气量间具有不同程度的相关性，且各测井参数间也存在相关性。为更直观地显示测井参数及含气量间的相关情况，通过图1 展示的相关系数热图可见，不论是测井参数彼此间还是测井参数与含气量间的相关系数大小均存在较大的差异，基于测井参数建模对于测井参数的优选非常必要，测井参数间的相关性将严重影响模型性能，过多的冗余信息很可能给模型带来噪声。

图1 含气量及常规测井参数相关性热图Fig.1 The heat map of correlation between gas content and conventional logging parameters

表2 煤层含气量与测井参数之间相关系数Table 2 The correlation coefficients between CBM content and well logging parameters

基于上述的相关性分析，结合岩石物理性质，简要做以下煤层含气量测井响应特征分析：

①煤层的埋藏深度会很大程度影响煤化程度且间接影响煤层生烃量，即煤层埋深越深，在一定程度上推动着煤层气产量[16]，但最终的煤层含气量与后期的封闭条件密切关联，从本研究的126 个取心样本含气量与深度的相关分析结果可见，煤层埋深与其含气量存在负的弱相关关系，可见深度对于煤层含气量的预测评价不可作为一个稳定的自变量，两者关系受地区地质条件影响程度较大。

② 声波时差测井值与地层岩石骨架及其孔隙充填物的物性密切相关，煤层内部结构相对松散，因而在煤层中传播的声波速度相对较低，时差较大，吸附或者部分游离在煤层中的煤层气对声速的影响更为敏感，煤层气的存在致使声波速度衰减，即导致声波时差增大，煤层含气量与声波时差测井曲线呈正相关关系。

③在煤层中，储层实际孔隙率通常较低，但煤层中地层水含量较高，加之煤层由碳、氢、氧的有机质组成且煤层气成分以甲烷为主，使得煤层相较于围岩中子测井表现为高值异常。理论上来说，煤层煤化程度升高，固定碳含量升高，煤层气相对增多，那么含气之后的煤层测量中子测井值相对增大，经补偿后相对减少。但补偿中子测井受井内流体矿化度、煤质组分中子骨架值及井内流体矿化度等一系列因素的影响。实际煤层含气量与补偿中子的线性回归分析得出，补偿中子与煤层含气量呈负相关性。

④ 一般来说，密度响应值随着煤(岩)层致密程度的增加而增大。相对于其他岩石，煤具有低密度特性，煤层气主要以吸附态赋存于煤层中，煤层孔隙越丰富，其致密程度越小。煤层吸附含气量相对越大，煤岩密度越低，煤层含气量越大，密度越低，二者表现为负相关关系。

⑤ 煤岩骨架自身具有低放射性特点，其放射性强弱取决于煤的演化过程中的其他物质组分，如泥岩、黏土含量等，当煤层中富含黏土矿物时，自然伽马测井表现出相对高值异常，但此时煤层的吸附能力受到削弱，致使煤层中含气量降低，所以煤层含气量与自然伽马测井通常会表现出一定的负相关关系。

⑥ 富含煤层气的煤岩矿化程度与围岩呈现出高值异常，在扩散和吸附作用下，钻井液和地层层间水之间的电位差剧增，自然电位测井与煤层含气量之间呈正相关关系。煤层气属于非导电介质，致使煤层电阻率增高，煤层孔隙相对越丰富，煤层含气量越大，煤层电阻率越大，煤层含气量与电阻率测井响应呈正相关关系。井径测井曲线与地层的机械强度密切相关，煤机械强度相对较弱，通常表现为井眼扩径，煤层富气，一定程度上增强了扩径现象，但煤层的机械强度主要还是取决于煤岩骨架，所以煤层含气量与井径测井表现为弱正相关关系。

2 建模方法

通过上述煤层含气量测井相关性分析，表明煤层含气量与测井参数间存在隐含的函数映射关系，不同的测井参数与煤层含气量的响应程度差异较大，且各测井参数间也存在一定程度的相关性，所以，在利用测井参数作为网络建模时，应当充分考虑测井参数变量间的相关性，简单的测井参数选取对于建立煤层含气量预测模型非常不利，为此，本研究引入适合神经网络建模的自变量优选技术，通过该优选策略以期建立最优化的预测模型。

2.1 最小二乘支持向量机(LSSVM)

SVM 是一种新型机器学习方法[17]。SVM 在统计学习理论基础上，采用结构风险最小化原则，提高了对小样本数据的泛化能力，较好地解决了神经网络训练时间长、训练结果存在随机性和过学习等缺陷，普遍应用于复杂非线性建模问题[18]。

LSSVM 是一种SVM 的衍生方法[19]，它将最小二乘估计成功引入SVM 中。与标准SVM 的不等式约束和求解二次规划问题相比，LSSVM 选择误差平方项为优化目标，将等式约束作为约束条件，求解的是线性方程问题，简化了运算过程，提高了计算速度和精度。本文采用的是LSSVM 的回归形式，经过一系列严格推导与简化，最后转化为利用最小二乘法求解线性方程组中的α和b，得到LSSVM的回归函数为：

式中：K(x,xi)为低维空间映射到高维空间所用的核函数。

2.2 粒子群算法(PSO)

粒子群算法(Particle Swarm Optimization，PSO)是一种全局最优化算法[20]，该方法基于对鸟群觅食过程的模拟，利用个体之间的间接通信来寻找最优解。

在D维解空间中，将每个优化问题的可能解看作空间中的一个“粒子”，由m个粒子组成一个群落，定义xi=(xi1,xi2,…,xiD)为粒子i的当前位置；vi=(vi1,vi2,… ,viD)为粒子i的当前飞行速度；pi=(pi1,pi2,…,piD)为粒子i到当前迭代为止所经历过的最优位置。整个粒子群到当前迭代为止所搜索到的最优位置为pg=(p g1,pg2,…,pgD)。各个粒子追随最优位置在解空间中进行搜索，则粒子i速度和位置的更新方程为：

2.3 测井参数优选

简单的线性相关分析结果不足以为神经网络建模提供输入自变量优选支撑，因为测井参数与煤层含气量间的关系非常复杂，且表现为隐函数关系，测井参数间的多重共线性对于建模也会产生干扰，所以有必要引入一种适用于网络建模的自变量优选技术，即MIV(Mean Impact Value)方法，它由G.W.Dombi 等提出，通过计算出的MIV 数据可有效反映输入自变量对于因变量的影响，数值大小直接可以衡量自变量对因变量的建模影响程度，该方法自提出以来受到了相关学者的广泛认可及应用[21-23]。

MIV 方法的核心思想为通过控制单一变量原则，分别对每一个自变量数据做等比例缩放，计算自变量数据放大和缩小情景下的模型输出结果之差，记为该自变量的MIV 值，按照该方式遍历所有的自变量，得到所有自变量对因变量的影响程度，即MIV 值。

综上，利用 MIV 技术优选测井参量，选择LSSVM 网络建立针对本研究的小样本问题实现网络建模，考虑到LSSVM 中核心参数人为设定的影响，采用仿生算法PSO 优化LSSVM 的核心参数，通过此三者的联合，建立适用于煤层含气量预测研究模型的流程(图2)。

由图2 可知，本研究流程主要分为3 个部分，首先对原始数据进行预处理(包括测井曲线标准化、煤心深度归位、扩径校正以及高灰、不符合测试规定及夹矸煤样的数据清洗)，利用MIV 技术结合LSSVM网络计算各建模输入自变量的MIV 值，根据计算结果优选最佳建模自变量组合；LSSVM 涉及2 个关键核心参数，人为给定势必带来一定误差，模型难以达到最佳性能，通过PSO 算法对LSSVM 网络的正则化参数(c)以及高斯核函数宽度参数(σ)做全局寻优，最后基于最优输入自变量组合和最优核函数参数(c、σ)构建适用于煤层含气量预测的MIV-PSO-LSSVM模型。此外，由于测井参数具有不同的量纲和量纲单位，需要通过数据的归一化处理消除建模自变量之间的量纲影响，所以，在通过MATLAB R2020a 编程实现本研究的整个建模过程中需要对建模数据做预处理(数据的归一化处理)工作。

图2 MIV 自变量优选下的PSO-LSSVM 建模流程Fig.2 The modeling flowchart of PSO-LSSVM under independent variable optimization by using MIV technology

3 模型构建及性能分析

3.1 模型构建

根据MIV 方法，分别对各常规测井参数计算分析其对煤层含气量建模预测的影响，为有效优选出适用于本研究的网络建模自变量，随机生成4 组白噪声数据作为自变量进行对照，图3 为各自变量的MIV 值。参数对应的MIV 绝对值越大，表明该参数对因变量的影响程度越大，自变量与因变量间的函数关系越强，通过对照白噪声下的MIV 值可将对输出因变量影响程度非常弱的自变量(接近于白噪声)放弃，视为无效参数，反之，视为有效参数。为进一步检验该优选参数方案的有效性，对有效和无效参数做假设检验，统计分析结果见表3，可知二者存在显著性差异。选择适用于网络建模的最佳测井参数自变量组合，最优的测井参数包括AC、CNL、DEN、GR 和RT。

表3 有效参数组与无效参数组的MIV 绝对值(±s)分布Table 3 The MIV absolute value distribution of effective parameter group and invalid parameter group(±s)

注：经t 值检验，两组差异显著(P<0.05)。

图3 各测井参数对含气量建模预测的影响Fig.3 Influence of logging parameters on modeling and prediction of CBM content

优选的参数作为建模自变量进行网络建模，首先，利用LSSVM 方法建立测井参量与煤层含气量间函数映射模型，输入自变量(xi)和输出因变量(yi)分别代表测井曲线和煤层含气量。

由LSSVM 方法建立的测井参数与煤层含气量之间的非线性模型结构为：

神经网络核函数对于特征向量矩阵参数的选取较为苛刻，容易造成核矩阵病态化，且核参数的确定很大程度上依赖于先验知识；高斯径向基函数相比多项式核函数迭代次数少，运行效率相对高，只需确定一个核参数[24]。本研究选用高斯径向基函数(RBF)作为模型的核函数，其表达式如下：

式中：x为核函数的中心；σ2为核函数的宽度参数。

通过PSO 算法求取结构风险计算式中的正则化参数c和式(6)中的核函数宽度参数σ。据图2 可知，本研究需要对PSO 参数初始化，具体情况见表4。

表4 PSO 初始化参数Table 4 Initialization parameters of particle swarm optimization

图4 为PSO 对LSSVM 的核心参数(c、g)全局寻优可视化，可见，通过 PSO 算法可有效实现LSSVM 核心参数的最优化，进而规避人为经验法给定核心参数带来的建模误差。本研究寻优获取的c和g最优值分别为2.71、0.18。根据核心参数寻优结果建立的LSSVM 模型，即为PSO-LSSVM 模型。

图4 PSO 的寻优可视化Fig.4 Visualization of particle swarm optimization

3.2 模型性能分析

为进行建模效果对比分析，基于所有可用的常规测井参数分别建立LSSVM 模型以及带粒子群算法优化的PSO-LSSVM 煤层含气量预测模型，建模过程中将126 组样本数据随机分为训练集和测试集，其中训练集占比75%，剩下的样本作为测试集。图5 为LSSVM 模型及其PSO 优化下的煤层含气量预测结果与实测含气量的交会图，可见不论是测试集还是训练集，采用PSO 算法优化的LSSVM 模型的预测精度均优于LSSVM 模型，足见采用核参数寻优策略可有效改善神经网络的建模性能，提高模型的预测精度。

为分析优选测井参数下的建模效果，选用上述MIV 方法优选的测井参数作为建模自变量分别建立LSSVM 模型以及PSO 优化下的LSSVM 模型，图6为建立的模型在训练集和测试集的预测结果与对应的实测煤层含气量交会图。从图6 中可以看出，基于MIV 也证实了过多的冗余自变量反而会损害建模精度，网络建模时存在的测井参数间的互相关性问题通过优选测井参数可以得到有效解决。对比图5 与图6 可知，LSSVM、PSO-LSSVM 模型在优选参数作为建模自变量后的模型预测精度有了大幅度提升，基于MIV 建模自变量优选的PSO-LSSVM预测性能最佳。

图7 为基于多元线性回归建立的煤层含气量预测模型，可见多元线性回归模型的预测性能在数据不均衡时效果不是很理想，与图5、图6 对比可知，基于机器学习算法建模对于反演测井参数与煤层含气量间隐含的复杂非线性映射函数关系非常有效，远优于简单的多元线性回归法建模。

图5 LSSVM 模型及其PSO 优化下的预测结果与实测含气量的交会图Fig.5 The cross plot of prediction results and measured gas content

图6 基于MIV 测井参数优选的LSSVM 模型及其PSO 优化下的预测结果与实测含气量的交会图Fig.6 The cross plot of prediction results and measured gas content

图7 基于MIV 测井参数优选的多元线性回归模型的预测结果与实测含气量的交会图Fig.7 The cross plot of prediction results and measured gas content

图5、图7 通过模型预测结果与实测结果的线性回归下的拟合优度定性化判断模型的预测效果，为进一步量化建模自变量优选及PSO 寻优给神经网络建模带来预测性能的改善情况，除拟合优度外，计算均方根误差(RMSE)来对比模型预测效果，可以用来衡量模型预测结果与实测值的接近程度。均方根误差是用来衡量模型预测值与真值之间的偏差，模型预测效果越好，均方根误差值越小，其计算公式如下式：

式中：pti为模型预测数据；mti为实测数据；n为用于网络训练或测试的样本数量。

据式(7)计算得到的模型评价指标 RMSE 结果(表5)，首先对比LSSVM 模型和PSO-LSSVM 模型的均方根误差可知，在PSO 优化下，LSSVM 模型的预测精度有了显著提高，预测结果的均方根误差在训练集和测试集分别达到了1.214 和1.226；再对比基于MIV 方法优选建模输入自变量的LSSVM和PSO-LSSVM 模型，可知在MIV 优选的建模自变量下，二者的预测效果都有了很明显的提升，基于MIV-PSO-LSSVM 模型的预测性能达到最佳，训练集和测试集的预测均方根误差分别为 1.025 和0.878；最后对比多元回归模型和机器学习模型可知，多元线性回归模型在数据不均衡时泛化能力极差。由图7b 可知，基于线性回归建模对测试集的预测效果不理想，说明线性回归模型鲁棒性和推广应用性能较差，预测结果难以逼近真实值。综合对比各模型的拟合优度和均方根误差，可见MIV 方法的引入有效提升了本研究网络建模的效果，模型的预测结果更为逼近真实值，有效的建模自变量组合可更好地通过LSSVM 模型拟合常规测井参数与煤层含气量间隐含的函数映射关系，为煤层含气量预测评价研究提供了新思路、新的建模策略。

表5 各煤层含气量预测模型的预测精度评价指标Table 5 Evaluation indexes for prediction precision accuracy of each CBM content prediction model

4 结论

a.经皮尔逊相关性分析常规测井参数与煤层含气量及各测井参数彼此间的相关性可知各测井参数与含气量间的相关程度差异较大，煤层含气量测井响应特征明显，各测井参数间存在不同程度的相关性。

b.简单的线性分析不足以定量化反映测井参数与煤层含气量间的真实函数映射关系，引入MIV 技术结合机器学习方法量化建模输入自变量与输出因变量间的影响程度，添加白噪声自变量作为参照对比，根据计算的各参变量MIV 值，优选出优质的测井参数组合作为最终的网络建模输入，该策略可对测井参数进行有效的去冗余化处理，优化建模效果。

c.通过对比建立的 LSSVM、PSO-LSSVM、MIV-LSSVM、MIV-PSO-LSSVM 以及多元线性回归模型预测性能，采用拟合优度和均方根误差作为评价指标，结果表明：PSO 参数寻优下的LSSVM 模型预测精度有了明显提升，MIV 优选测井参数可大幅提升模型的预测性能。基于机器学习算法建模效果远胜于简单的多元线性回归模型，线性回归模型的鲁棒性及泛化能力极差，预测结果远偏离真实值。

d.本研究针对煤层含气量预测问题，围绕煤层含气量测井响应特征—测井参数优选—网络建模参数寻优—模型建立及试算对比分析这一主线而提出的基于MIV 测井参数优选策略，对于采用机器学习煤层含气量建模预测具有很好的效果，提出的MIV-PSO-LSSVM 模型为煤层含气量预测提供了新方法，为满足煤层气勘探研究中的高精度要求提供了有力支撑。