基于支持向量机的测井岩性识别在松散沉积物调查中的应用研究

2021-04-14 04:39:06岳永东渠洪杰谭春亮林广利

钻探工程 2021年4期

岳永东，渠洪杰，谭春亮，祝强，林广利

（北京探矿工程研究所，北京100083）

0 引言

松散沉积物主要分布于第四纪盆地内，面积广泛，构造变形微弱，连续的剖面出露程度差，沉积序列的建立需要借助揭露工程来实现。钻探是调查盆地内沉积地层序列最直接、最可靠和最常用方法，也是获取地下埋藏岩层实物的唯一手段，但面对松散沉积物，钻探施工主要存在2 个方面的问题：一是松散的砂砾石层取心难度大，取心率低，施工成本较高；二是砂泥质含量及粒径组成复杂，松散易扰动，对于岩性及分层位置的判断，常常需要依靠地质人员的主观经验而易失真，难定量，且编录效率低［1-2］。

测井曲线直接响应的是岩性变化，是迄今为止所能获得的分辨率最高、连续性最好的地质数据［3］。研究人员对利用测井数据识别岩性开展了大量工作，特别是在煤炭和石油领域，是目前岩性识别中较成熟的一种方法，具有分辨率高、针对性强、方法众多等优点。测井岩性识别方法主要包括3 类：一是传统的交会图分析；二是基于数理统计方法，包括层内差异法、聚类分析法等；三是人工智能方法，主要有神经网络、模糊数学、支持向量机等，后两类方法可以实现对测井曲线的自动分层及岩性识别，避免人为的主观性，并在很大程度上提高工作效率［3-16］。

支持向量机（Support Vector Machine，SVM）是基于结构风险最小化原则提出的一种机器学习方法，具有严格的理论和数学基础，在小样本、非线性和高维模式识别等方面具有独特优势［17］。本文以浑善达克沙地第四系松散沉积物为研究对象，结合岩心资料和测井数据，采用支持向量机方法建立第四系岩层识别模型，为沉积序列的建立提供参考。

1 支持向量机原理

1.1 支持向量机分类原理

统计学习理论把机器学习的目标从经验风险最小化转变为结构风险最小化，这是统计学习理论与传统机器学习理论根本性的区别。支持向量机方法就是基于统计学习理论结构风险最小化原则建立的，它通过确定模型学习的复杂程度和学习结果的准确度之间的最佳折衷，保证模型具有更好的泛化能力即推广能力，学习的过程最终解决的是一个凸二次规划问题，因此理论上可以得到全局最优解，通过引入核函数解决非线性决策问题，避免了“维数灾难”且不增加计算的复杂程度［18-20］。

支持向量机以解决二分类问题为出发点，寻求一个满足分类要求的最优超平面，使训练集中的点离分类面的距离尽可能的大。以图1 为例介绍支持向量机分类原理。

对于给定的训练集 {(xi，yi)|i=1，2，…，l}，xi∈Rn，yi∈{1，− 1｝，yi为类别标签，对应的最优分类线为（ω∙x) +b=0。由极大化间隔的思想，构造最优分类线转化为求解下列对变量ω和b的最优化问题：

图1 支持向量机分类原理示意Fig.1 Schematic diagram of the SVM classification principle

对于可以用线性划分但存在错分点的分类问题，可以引进松弛变量ξi≥0，放宽约束条件，将问题转化为：

式中：C——惩罚参数，C越大表示对错误分类的惩罚越大。

目标函数为凸函数，约束条件为线性，所以这是一个凸二次规划问题，引入拉格朗日函数求解，满足KKT 条件，并根据其极值条件得到优化问题的对偶形式，即：

式中：α——拉格朗日乘子。

对于非线性分类的样本，通过某个映射Φ(x)将训练集样本变换到高维空间，从而在高维空间构造线性分类的超平面。通过引入核函数K（xi，xj），实现计算低维空间非线性样本数据在高维空间的内积值Φ(xi)∙Φ(xj)，无需知道Φ(x)的具体形式且不增加计算的复杂度。支持向量机中常用的核函数有线性核函数、多项式核函数、高斯径向基核函数、sigmoid 核函数等，本文选用非线性问题最普遍使用的高斯径向基（RBF）核函数，其表达式为：

式中：g——核函数参数。

1.2 支持向量机模型参数优选方法

建立SVM 模型的关键问题是找到最佳的惩罚参数C和核函数参数g，使得训练集和测试集的分类准确率都维持在一个较高的水平，即使得到的SVM 分类器的学习能力和推广能力保持一个平衡，避免过学习和欠学习状况发生。

交叉验证（Cross Validation，CV）是用来验证SVM 分类器性能的一种统计分析方法，将原始训练数据分为训练集和验证集两部分，首先用训练集对分类器进行训练，再利用验证集来测试训练得到的模型，以验证集的分类准确率作为评价分类器的性能指标。CV 模式下搜寻SVM 模型的最佳参数，可以采用网格搜索法，即让C和g在一定范围内依次连续取值，最终取验证集分类准确率最高的那组C和g作为最佳参数［21］。如果出现多组C和g对应于最高的验证分类准确率，则取第一组C最小的参数组作为最佳参数，因为C过大会导致过学习状态发生，影响分类器的泛化能力，即训练集分类准确率很高而测试集分类准确率较低。

2 研究区地质概况

浑善达克沙地东邻大兴安岭，南靠阴山-燕山构造带，保存了厚层的第四系松散沉积物，沉积类型复杂，沉积相转变频繁，但因地势平坦，水流切割作用弱，故剖面露头差［22］。研究过程中，重点依靠钻探和物探测井相结合的技术方法，揭示了该地区厚度达到280 m 左右的第四系松散沉积，初步建立了浑善达克沙地东南缘第四系沉积序列，将第四系厚层沉积分为下部河湖相砂泥层间风成砂，中部河湖沉积与风成相砂质沉积互层和上部风成砂为主间河湖相砂泥质沉积物。

综合考虑对岩性变化反应敏感以及数据的易于获取性，本次研究选择了钻孔的自然电位（SP）、自然伽马（GR）、视电阻率（Rt）、声波时差（AC）4 种物性参数。根据岩心及测井资料，不考虑各种过渡岩性，将松散沉积物按照粒度划分为砂砾石、粗砂、中砂、细砂、泥质细砂和粘土6 类，并总结了不同粒度沉积层在测井曲线上的反映特征和对应的测井参数响应（表1），将各维测井参数的均值归一化处理，得出对应的测井响应雷达图（图2）。不同粒度岩性在测井响应上存在一定的差异，但同时也存在不同程度的杂合，尤其是不同粒径的砂层之间，测井数据与岩性之间表现出非线性的对应关系，具备识别岩性的基本条件。

表1 浑善达克沙地东南缘第四系不同岩性平均测井响应值Table 1 Average logging response values of different lithology in the Quaternary at the southeast edge of Hunshandake Sandy Land

3 支持向量机岩性识别模型建立

采用 Libsvm 工具箱建立 SVM 模型［23］，除物性参数SP、GR、Rt、AC外，考虑到钻孔内岩层埋藏深度与测井参数及岩性具有一定的非线性对应关系，选择将深度（MD）也作为模型的输入参数，即输入参数为MD、SP、GR、Rt、AC五维矩阵。为避免各维输入参数间数量级的差别导致的误差，采用式（6）分别将各维输入参数归一化处理，统一到［0，1］之间。

图2 浑善达克沙地东南缘第四系不同岩性平均测井响应雷达图Fig.2 Radar map of average logging response of different lithology in the Quaternary at the southeast edge of Hunshandake Sandy Land

式中：Xmax，Xmin——分别为各维输入数据的最大值和最小值。

输出参数对应松散沉积物各种岩性，对其进行标签处理，分别为砂砾石−1、粗砂−2、中砂−3、细砂−4、泥质细砂−5、粘土−6。

Libsvm 工具箱采用一对一算法将支持向量机二元分类模型推广至多元分类问题，即在任意两类样本之间设计一个SVM 分类器，因此6 类样本共需15 个分类器，对未知样本分类时，将其分别输入到15 个分类器中进行判别，对结果采用投票法或淘汰法完成识别。

4 应用实例

选取“锡林郭勒盟-通辽地区基础地质调查”项目施工的标准孔BZK01 为研究对象，该钻孔全孔取心及全孔裸眼测井，有准确的岩性及物性参数对应数据。根据岩心资料，该钻孔松散沉积物厚218.3 m，包含上述6 类岩性，测井数据采样间隔为0.05 m，有效采样范围为6～218.3 m，共计得到4247 组数据，并形成钻孔测井曲线（见图3）。由图3 可以看出，利用测井曲线可以找到显著的粘土、砂和砾石层等沉积相变界面，但对于上部砂层，存在多个不同尺度的沉积旋回，难以直观的获取分层信息。

图3 BZK01 钻孔松散沉积物测井曲线Fig.3 Logging curve of unconsolidated sediments in BZK01 borehole

从中随机抽取2000 组作为训练集，1000 组作为测试集，建立支持向量机岩性识别模型。采用网格搜索法优选模型惩罚参数C和核函数参数g，在（2-10，210）范围内对C和g进行初步选择，搜索步长设为1，之后可以根据初步选择的结果缩小搜索范围与步长进行精细选择（图4），结果为C=32，g=90.5。利用最佳参数建立模型进行训练和测试，结果为：训练集分类准确率99%，测试集分类准确率为99.5%，1000 组测试数据中仅有5 组分类错误。为对比模型效果，与机器学习最常用的BP 神经网络模型作对比，采用同样的训练集与测试集，对其进行训练（图5），BP 神经网络模型测试集分类准确率为94.8%，1000 组测试数据中有52 组分类错误。两种岩性识别模型分类准确率均较高，其中SVM模型识别效果更好，可以满足实际工作中的岩性识别需求。

图4 SVM 网格法寻优准确率等值线图Fig.4 Contour map of accuracy of the SVM grid method

图5 BP 神经网络训练过程Fig.5 BP neural network training process

为验证该方法的适应性，选取研究区内另外两个标准孔BZK02、BZK03 为研究对象，测井有效采样范围分别为6～196 m、6.5～283.65 m，有效数据分别为3801 组及5544 组，从中随机抽取数据作为训练集和测试集，分别建立SVM 岩性识别模型，具体结果如表2 所示。

表2 各钻孔SVM 模型岩性识别结果Table 2 Lithology identification results of each borehole based on the SVM model

对于 BZK01、BZK02、BZK03 三个钻孔，SVM模型在训练集与测试集中均获得了很高的分类准确率，表明该岩性识别方法具备在工作区不同钻孔中推广应用的前景。

机器学习模型中，训练集样本数量及样本的完备性是影响模型分类效果与泛化能力的重要因素，为进一步测试训练集样本数量对模型分类效果的影响，针对BZK01 钻孔，随机抽取1000 组数据作为测试集，改变训练集样本数量，并建立其对应的测试集分类准确率（表3）。由表3 可以发现，随着训练样本的增加，测试集分类准确率逐步提高，训练集样本数量达到2000 组时测试集分类准确率取得最高值，此时再增加训练集样本数量对模型性能没有太大影响，甚至会因为过学习导致测试集分类准确率降低。此外，SVM 模型分类效果明显优于BP 神经网络模型，且在训练集样本数量达到200 组后测试集的分类准确率即超过90%，显示出其在小样本数据下良好的泛化能力。

表3 BZK01 钻孔训练集样本数量与测试集分类准确率Table 3 Training set sample number and test set classification accuracy for BZK01

5 讨论与分析

SVM 模型在单个钻孔的松散沉积物岩性识别中准确率很高，能够实现粘土、泥质细砂、细砂、中砂、粗砂及砂砾石6 种不同岩性的自动分层，可以满足利用测井数据实现地层划分的地质需求，辅助人工分层，有效降低人为因素影响，并大幅提升工作效率。

更重要的是，在满足数据完备性的情况下，该方法对训练集样本数量的要求较低，具有良好的泛化能力，如BZK01 钻孔中仅需4247 组中的200 组岩性测井数据，就可以实现90%以上的识别准确率，最多仅需2000 组数据，不超过整个钻孔层数据的50%，就可以实现高达99.5%的识别准确率，这对于第四系松散沉积物的钻探施工具有实际的指导意义。

随着人们对第四纪地质、环境、气候和工程勘察等研究与调查的不断深入，定量和精细了解第四系沉积序列对钻探揭露工程提出了较高的要求，如《1∶5 万覆盖区区域地质调查工作指南（试行）》中要求标准孔应全孔连续取心，且覆盖层取心率≮65%，一般应达到85%以上。这对于钻探施工提出了很大挑战，特别是松散沉积物厚度＞100 m 及含有大量砂层、砾石层的钻孔，取心护壁难度高，现场投入大量时间物力成本，但砂层及砾石层部分回次取心率仍达不到要求（图6）。而采用SVM 岩性识别模型，可以有效地弥补钻孔取心率不足的问题，基于不同地层的少量岩心资料及对应的测井数据训练SVM 模型，即可实现通过测井数据获得钻孔无岩心段高置信度的岩性识别结果，为钻孔地层序列的建立提供支撑。

图6 BZK01 部分松散地层取心效果Fig.6 Cores from some loose strata in BZK01

更进一步，采用该方法还有望降低对钻孔取心工作的要求，由连续取心变为间隔取心，控制好分层精度的情况下减少取心工作量，从而实现降低成本、提高效率、低碳环保的绿色勘查目的［24］。

6 存在的不足与展望

本文建立的SVM 岩性识别模型在单个钻孔内的应用获得了较好的效果，但还未推广至整个浑善达克沙地调查中，即利用训练好的模型对未参与训练的钻孔进行岩性识别与分层。主要是由于目前研究区内仅施工了3 个标准孔，相比于第四纪盆地面积之广大，沉积类型之复杂多变，获得的测井数据及对应岩性样本数量还较少，完备性欠缺，此外，不同粒径砂层的测井数据分布过于杂合交错，非线性程度较高，这些都制约了目前模型的泛化能力，还有待开展进一步的研究。

后续仍需选择浑善达克沙地第四系不同构造单元内具有代表性、地层沉积序列较完整的地区开展标准孔施工，以建立研究区内尽可能完备的标准测井解释模型及不同岩性相的测井参数数据库，进一步优化SVM 模型的各项参数，推动基于SVM 的岩性识别方法在松散沉积层地质调查中的推广应用。

7 结论

（1）本文基于岩心资料和测井数据建立了支持向量机岩性识别模型，该模型识别准确率高、训练样本需求量低。在第四系松散沉积层调查工作中，利用测井数据实现岩性自动识别具有可行性，为建立松散沉积物地层序列提供了有力支撑。

（2）针对单个钻孔，采用支持向量机模型识别无岩心井段地层的岩性，可以有效解决松散沉积层钻探施工取心率低的问题，一定程度上提高了钻孔沉积序列建立的准确性和完整性。

（3）该方法具备开展进一步研究的价值，通过提高模型的泛化能力，实现在第四系盆地沉积岩层精准调查的推广应用，并可以为类似钻孔的施工方案设计提供支撑，合理减少取心工作量，使钻探施工更加经济、高效、环保，实现绿色勘查。