基于多粒度聚类的测井曲线自动分层识别方法 ①

2021-01-12 12:56姬庆庆朱登明王兆其

高技术通讯 2020年12期

姬庆庆朱登明石敏王兆其周军*

(*中国科学院大学北京 100049)(**中国科学院计算技术研究所前瞻研究实验室北京 100190)(***华北电力大学控制与计算机工程学院北京 102206)(****中国石油集团测井有限公司西安 710065)

0 引言

测井技术在勘探过程中收集关于地质储集层的“四性”信息，即“岩性、物性、电性、含油性”，测井解释则需要通过“四性”之间的关系建立测井解释模型，确定油层有效厚度。测井解释通过研究储集层电性与岩性、物性、含油性的对应关系，力求消除岩石矿物背景对于油层信息的影响，从而达到客观评价砂岩储集性能和流体性质，并准确划分储层的目的[1]。

现阶段国内众多单位多以常规曲线为基础，结合区块地质特点，采用传统方法利用人工对油气层进行识别、解释和评价，还没有较为成熟的自动分层解释软件[2]。由于人工解释的方法需要大量人力，同时分层结果易受解释人员主观因素的影响，因此难以满足不断提高的测井解释要求。

随着油气勘探规模的不断扩大，测井解释将面对更多更复杂的研究对象，测井分层解释方法的发展与测井技术的发展息息相关。利用计算机技术对测井曲线进行自动分层[3]，可以在一定程度上避免专家依赖、减少人力消耗，是未来技术发展趋势。现阶段用于岩性自动识别的方法主要有概率统计法、聚类分析法、支持向量机法(support vector machine，SVM)[4-5]。概率统计法往往以概率统计为基础，通过先验和条件概率估计后验概率对测井进行识别解释。概率统计方法适用于物性特征条件较好的数字测井资料，针对岩心资料较少但测井资料较多的情况能够取得一定的效果[6]，但这一方法存在着先验概率获得困难、人为影响因素大等缺点。

本文在充分了解测井曲线数据特点的基础上，提出了一种基于有监督学习的多粒度聚类算法的测井曲线自动分层识别方法。利用该方法可以对测井曲线进行“储层”和“非储层”自动识别，还能够在“储层”内对测井曲线进行油水层自动识别。本文方法优势如下。现有测井曲线分层识别方法往往需要先对数据进行归一化操作[7-9]，而本文方法为了更好地发掘曲线特征，无需对曲线数据进行归一化操作，降低了程序运算的时间复杂度；现有方法往往只利用曲线本身特征开展分层识别，本文方法在充分分析测井曲线和油藏之间关系的基础上，引入关键属性导数、属性比值，通过这些内部特征发掘，有效提升了分层识别准确率；现有分层识别方法较少进行多粒度分层识别，而本方法能够先划分“储层”和“非储层”，然后在“储层”内进行细化识别。

聚类算法能够快速准确地解决各种分类问题，近年来受到了学者们的广泛关注。江超等人[10]利用K-means聚类方法对激光雷达采集的障碍物信息进行聚类，并结合其他方法实现机器人的实时避障功能。刘畅等人[11]将聚类算法应用于监控视频运动目标检测与感兴趣区域分割问题的研究。这些研究往往将聚类算法作为某一步骤进行使用，缺少针对具体数据进行深入分析并对聚类算法进行改进的探索。为解决测井曲线自动识别问题，本文深入分析测井数据特点，并结合问题本身对聚类算法进行改进，从而能够在测井曲线分层识别问题中获得更好的表现。

1 测井数据预处理

1.1 测井曲线数据

丰富和准确的测井曲线是进行准确自动分层的基础，随着近些年测井技术的不断发展，随钻测井技术方法和仪器在不断创新和完善。与此同时，在测井过程中，还逐步引入密度、电成像等技术，勘探开发和技术人员能够收集到更加全面的随钻测井资料并形成测井曲线。随钻测井技术所形成的测井曲线既能够为勘探工作提供导向，还能够根据地质属性评价油气资源情况，已经成为石油勘探公司关注和研究的热点技术[12-14]。上述测井技术的发展使得获取的测井曲线数据更加真实，更有利于开展自动分层识别工作。

图1展示的是青海某区块的测井数据及解释结论，图中对测井技术在勘探过程中收集的关于地质储集层的“岩性、物性、电性、含油性”进行了展示。其中，左侧3道为测井过程中能够体现“岩性、物性、电性”的原始测井曲线，右侧第1道为“含油性”信息。在人工测井曲线标定过程中，往往通过观察测井曲线特点并结合标定人员经验对测井曲线进行分层标定，而自动测井解释正是需要利用计算机技术在它们之间建立联系。

图1 测井曲线数据示意图

1.2 测井曲线关键属性遴选

主成分分析算法是通过求解目标协方差矩阵的前N个最大特征值对应的特征向量来组成特征映射矩阵从而实现样本的主成分空间映射[15-16]。伴随着测井设备的发展，测井设备能够采集到越来越丰富的测井数据。测井数据涉及到多个物理属性，但并非所有的属性都与地质分层具有相关性，因此需要对复杂多样的测井数据与地层分布的相关性进行判断。利用主成分分析法能够对测井数据与地质分层的相关性做出很好的判断，经过主成分分析法的分析，再引入专家系统辅以修正，能够选择出具有重要影响的测井属性。同时主成分分析也能够起到对高维测井数据降维、有效减少运算复杂度的作用。本文方法在数据关键信息缺失最少的原则下，探寻原始测井数据中对于测井分层结果具有重要影响的测井属性，将这些重要指标称为主成分。

针对测井数据而言，某测井样本包含m个测井属性，即m个维度，每个测井属性沿深度方向有n个采样点，这样便构成了m×n阶矩阵，如此大的数据规模计算机处理起来存在一定的困难。因此需要在这些繁杂的数据信息中分析出能够表征地质含油特性的有用信息，也就是需要在m维数据中寻找关键属性数据。为了有效解决这一问题，需要对测井数据进行降维操作，把原来较多测井曲线反映出的信息进行简化，然后使用少数几个相互独立互不相关的综合指标代替，同时还需要有限的几个指标能够尽量充分反映原来多指标信息。

设Σ为根据测井属性建立的特征矩阵，通过运算Σ可得的特征值为λ1≥λ2≥…≥λm≥0，e1=(ei1，ei2，…，eim)T为对应特征值λi的正交单位特征向量，则第i个主成分的贡献率为

(1)

累计贡献率为

(2)

测井区块所涉及的测井数据包含60个不同的测井属性维度，本文按照累计贡献率>85%、特征值大于1的原则选取主成分，选择前7个主成分进行分析。在主成分分析法中，主成分载荷矩阵指的是各项原始指标与主成分之间的关系，某一原始指标与主成分联系越紧密，则经过荷载矩阵计算出的联系系数的绝对值越大。因此主成分荷载矩阵可以反映出测井曲线分层的主要影响因素。

本文首先对原始测井曲线进行主成分分析，然后再通过主成分荷载矩阵分析各原始测井曲线与主成分之间的联系，进而选取用于测井曲线自动分层的测井曲线。经过上述选择，最终确定用于测井曲线自动分层的测井曲线为声波(AC)、自然电位(SP)、中子(CNL)、密度(DEN)、自然伽马(GR)、深侧向电阻率(LLD)和浅侧向电阻率(LLS)等7条测井曲线。

1.3 测井属性数据预整理

受测井设备及地质构造的限制，测井初始段和结束段往往会出现数值异常的测量值，例如99 999、-99 999、0等。这些异常值会对测井曲线自动分层识别带来负向影响，因此在分层之前就需要对这些异常数据做剔除处理。

在测井过程中，由于使用多种测井设备，因此存在如下3种采样深度间隔：0.075 m、0.1 m和0.125 m。在同一深度下能够更好地对每个采样点的多种属性特征进行提取，本文利用克里金插值算法，对不同采样间隔的曲线统一采样间隔达到深度校正的目的，从而保障在相同深度下，不同测井属性都存在相应的属性值，方便对层位特征信息提取分析。经过深度校正与统一，本文采样点深度间隔为0.1 m。

对于储层划分及测井解释这一问题而言，根据人工解释的经验，往往在重要曲线出现大幅波动的深度段，会有层位点出现。根据前述证据权重法分析可知，自然电位曲线在储层及非储层划分中能够起到重要的作用，因此本文引入自然电位曲线的一阶导数、二阶导数参与测井曲线“储层”与“非储层”划分。

构建由自然电位曲线一阶导数、二阶导数构成的向量：

(3)

由于曲线异常数据点已经在前期处理过程中剔除，因此有效避免了曲线不可导的情况。

在一些地质条件下，对于水层受泥浆侵入影响不同的情况，测井曲线深侧向电阻率(HLLD)比浅侧向电阻率(HLLS)的值升高更多，即二者比值(HLLD/ HLLS)应大于油层的二者比值。故可以根据淡水泥浆侵入对深侧向电阻率和浅侧向电阻率影响的不同，利用二者比值深入发掘测井曲线特征从而提升储层划分及油水层解释准确率[17]。

2 测井曲线自动识别

2.1 测井曲线自动分层识别模型

针对测井曲线自动分层识别问题，本文采用图2所示技术路线开展研究。

在测井曲线自动分层识别前，先对测井数据进行数据处理，这一步骤包括剔除无效数据、测井数据深度对齐、重点属性一阶求导、二阶求导等步骤。由于数据采集过程存在多种因素干扰，从而使得某些数据出现异常波动，因此还需对数据作滤波操作，去除测井数据中的异常值。

图2 测井曲线自动分层识别技术路线

K-均值聚类算法是聚类分析中常用的方法，其核心思想是在n个样本的数据库中，给定分类数K，然后选取K个初始聚类中心，计算样本点到各个聚类中心的欧氏距离，并将样本点划分到距离它最近的聚类中心所属的一类中去。当各个样本点所属类别都划分完毕后，利用计算平均值的方式得到每一类样本点新的聚类中心，通过不断迭代，直至两次迭代得到的聚类中心相同，此时获得最终的聚类中心并完成分类。

对于测井曲线自动分层问题，将测井曲线根据不同曲线特征划分为不同储层，其本质上是一种聚类问题。本文结合测井数据具体特点，采用K-均值聚类算法对测井数据进行分类。在测井曲线自动分层问题中，其基本思路是给定储层分类和各个测井属性代表值(即聚类中心)，计算测井数据到聚类中心的欧式距离，然后将其归类于距离最小的聚类中心对应的储层类别。

传统的无监督聚类算法只需要给出样本数据即可通过不断寻找聚类中心完成聚类，但对于测井数据而言，由于各测井属性之间相似性极高，利用无监督的聚类算法很难准确找到合适的聚类中心，同时也会带来运算时间代价的提升[18-20]。针对上述问题，本文将有监督的机器学习思想与K-聚类分析法相结合，构建K-最近邻(K-nearest neighbor， KNN)网络。因为本文所涉及的测井数据中存在人为标定好的准确分层信息，这些人为标定好的分层信息可以作为聚类学习过程中训练数据的数据标签。在有标签标定的训练数据引导网络寻找最佳聚类中心的基础上，能够更好地引导K-均值聚类问题分别寻找到不同标签类别对应的聚类中心，从而完成对各不同标签类别的识别任务，该方法流程图如图3所示。

图3 KNN方法流程图

在本方法中，首先输入经过预处理的带有人工标定标签的K类测井数据，然后利用聚类算法计算各个数据样本点到各个标签类别对应的聚类中心的距离。通过不断迭代找出各个标签类别对应的最佳聚类中心，从而完成有监督的聚类算法的训练过程。接下来对待分类样本点进行分类标定，首先输入待分类样本点对应的测井数据，然后利用聚类算法计算各待分类样本点到各个类别聚类中心的距离，最终将待分类样本点划归至欧氏距离最小的聚类中心对应的类别。待所有待分类样本点全部识别标定结束后，输出聚类结果。

2.2 储层划分

本文在进行测井曲线分层识别过程中，采用2.1节提出的KNN算法，并将多粒度识别的思想与之结合。

首先构造向量：

(4)

中值滤波是一种非线性的滤波技术，相比于线性滤波器，它在一定程度上能够去除数据的局部异常[21-22]。对数字信号序列Xj(-∞

对于本文测井曲线“储层”及“非储层”识别而言，其识别结果为“0”、“1”两种数值结果，其中“0”代表“非储层”，“1”代表“储层”。结合中值滤波具有在滤除数据噪声的同时能够较好地保护连续数据数值的特点，本文选用中值滤波对测井曲线“储层”及“非储层”识别结果进行滤波处理，从而达到对个别预测误差点进行修正的目的。

2.3 储层内油水层识别

由于“油水层”在地质构造、地层物性等方面有着众多相似点，因此需要引入更多测井曲线挖掘其特征从而对“油水层”进行识别。

为了实现“油水层”识别，构造向量：

(5)

这种做法能够排除具有大量数据点位的“非储层”数据的干扰，同时最大限度地放大“储层”内油水层之间的数据特征，能够使多粒度聚类算法取得更好的“油水层”识别结果。多粒度聚类算法完成“油水层”识别后，再次使用滤波算法对少量误差点进行滤波操作，纠正识别过程中部分零星点位的误差，然后输出最终的“油水层”识别结果。

3 实验设计及结果分析

本文选用青海地区某区块内10口垂直井测井数据作为实验数据，井位分布如图4所示，其中9口井的“储层”、“非储层”及“油水层”划分数据作为训练数据，对另外一口井即Y189井的“储层”和“非储层”两类层位分布进行识别，然后在“储层”数据段内对“油水层”进行识别。

图4 实验用井井位图

3.1 “储层”与“非储层”识别

实验前，选取Y220、Y219、Y205、Y194、Y192、Y181、Y148、Y146、Y45等9口测井的声波、自然电位、自然伽马3条原始测井曲线及自然电位曲线的一阶导数、二阶导数进行实验，不同井的曲线深度范围不完全相同，但大都集中在500～1 300 m范围内，采样间隔为0.1 m。预测井Y189井的预测范围为500～1 100 m，总长600 m，共需预测6 000个采样点。

KNN聚类分析法针对Y189井“储层”和“非储层”识别结果图如图5所示，本文以670.3～744.8 m、1 041.5～1 095.2 m深度段的预测结果为例进行说明。图5中，左侧3道为本文方法所使用的测井曲线随深度变化在不同地层产生不同的响应值；右侧第1道为滤波前的“储层”、“非储层”预测结果，右侧第2道为滤波后的“储层”、“非储层”预测结果，图中有颜色填充的深度段属于“储层”，未进行填充的深度段属于“非储层”。右侧第3道为人工标注的识别结果，有符号标注的深度段为“储层”，未进行标注的深度段为“非储层”。

如表1所示，表格中展示了人工标定的分层结果、本文方法自动识别的分层结果及二者之间的误差值，由该表数据可以看出，在大部分层位本文方法能够很好地识别“储层”与“非储层”。

3.2 多粒度油水层识别

在剔除“非储层”数据段后，本方法继续进行油水层划分。该实验区域储层内共有干层、差油层、水层、含油水层、油层、油水同层等6类层位。实验过程中，将Y220、Y219、Y205、Y194、Y192、Y181、Y148、Y146、Y45等9口测井的声波、自然电位、中子、密度、自然伽马、深侧向电阻率和浅侧向电阻率等7条原始测井曲线及深侧向电阻率/浅侧向电阻率作为训练数据输入。表2是多粒度油水层识别结果。

Y189井包含干层、水层、油水同层和油层等4类层位。对于Y189井的油水层识别，从表2中可以看出，尽管本文多粒度聚类识别方法针对“油层”、“干层”这两类层位识别时存在一定程度的误差，但在29个层位当中，本文设计的多粒度聚类识别方法能够准确识别24个层位，识别准确率已经达到82.8%。说明利用多粒度聚类识别方法将“非储层”数据去除，然后在“储层”内继续进行识别的方法能够获得更加准确的识别效果。

图5 测井曲线“储层”、“非储层”识别结果

表1 Y189井“储层”自动识别结果

3.3 对比实验

在分类问题领域中，卷积神经网络(convolutional neural networks，CNN)算法常被用于解决图像分类问题，支持向量机(SVM)算法往往被用于解决文本分类问题。为体现本文所选方法在解决测井曲线自动分层问题上的优势，将本文方法与常见的SVM算法、经典CNN算法在同一真实测井曲线数据集中开展对比实验。其中SVM算法与传统CNN算法采用青海某区块100口井数据进行训练，然后对Y189井进行储层划分及油水层识别，实验结果如表3所示。此处仅选取670.3～712.2 m、1 041.5～1 094.6 m深度段进行展示。

表2 Y189井多粒度油水层识别结果

通过对比可以发现，本文方法相较于SVM算法在“储层”边界划分上精确度更高；二者在水层的识别上表现相当，但在其他层位的识别中，本文方法取得了更加准确的识别结果。同时本文方法相较于经典CNN算法在上界划分中表现相近，但在下界划分中取得了较好的结果；在油水层识别中，经典CNN算法对于油层及干层的识别不够敏感，误差较大，识别效果劣于本文方法。上述对比实验说明本文方法在实验测井数据上能够比SVM算法及经典CNN算法取得更好的实验结果。

表3 Y189井不同算法对比实验结果

为了更好地衡量本文方法在测井曲线“油水层”划分问题中的时间消耗，将本文方法与CNN算法及SVM算法进行比较。其中本文方法选取9口井为训练集，CNN算法及SVM算法选取100口井作为训练集，在训练结束后均选择同一口井在3种方法中对训练结果进行测试。实验结果如表4所示。

表4 不同算法时间消耗对比实验结果

通过上述实验可以发现，SVM算法所需训练及测试时间最长，其次是CNN算法，所需时间最少的为本文方法。尽管本文在训练阶段采用9口测井数据进行训练，但在测井曲线划分精度优于其他两种算法的同时，时间消耗上也优于其他两种算法，说明本文方法具有较强的先进性和实用性。

4 结论

本文提出了一种基于聚类算法的测井曲线自动分层识别方法。在对测井数据进行剔除异常值、统一采样间隔、求取重要属性一阶导数和二阶导数等预处理的基础上，通过多粒度聚类的方法将测井曲线先自动划分为“储层”、“非储层”，然后在“储层”内对测井曲线开展进一步的识别。该方法相对于传统方法具有以下优势。第一，本方法无需对测井曲线进行归一化操作，能够降低算法运行时间复杂度；第二，本方法引入重要属性导数、基于测井属性的比值数据等，能够更加充分地挖掘测井曲线特征，取得更好的分层识别结果；第三，该方法在有监督的聚类算法基础上能够对测井曲线实现多粒度识别，在提高测井曲线油水层识别准确率的基础上，还能够满足实际生产中的不同需求。

本文所提出的方法已在真实测井数据上开展实验并取得了较好的自动分层识别结果，但目前对于油水混合类层位的识别准确度还不够高。未来将针对这些问题进行改善，从而使本文方法能够更加精准地识别油水混合类层位，同时在石油测井解释领域取得更加广阔的应用。