周继宏,袁 瑞 (长江大学地球物理与石油资源学院)油气资源与勘探技术教育部重点实验室(长江大学),湖北荆州434023
基于支持向量机的复杂碎屑岩储层岩性识别
周继宏,袁 瑞 (长江大学地球物理与石油资源学院)油气资源与勘探技术教育部重点实验室(长江大学),湖北荆州434023
以塔河地区石炭系碎屑岩储层的岩性识别为例,阐述了采用支持向量机技术及利用常规测井资料在取心资料少的情况下识别复杂碎屑岩储层岩性的方法。塔河地区石炭系碎屑岩储层的岩性复杂,普遍含泥、含灰和含砾,加之取心资料少和测井新技术资料缺乏,其岩性识别遇到了较大的困难。从常规测井资料中选取对储层岩性相对敏感的多种资料,选用径向基核函数和一对一多类分类编码模式,利用有限的取心资料建立岩性分类器。展示了塔河地区其中一个区块的岩性识别结果,并与BP神经网络方法的识别结果进行了对比,结果显示该方法具有更好的应用效果。
复杂碎屑岩;岩性识别;测井资料;支持向量机;塔河地区
随着石油勘探的不断深入,复杂碎屑岩油气储层越来越受到重视。近年来,塔河地区在古生界碎屑岩地层中的油气勘探和开发已获得突破,但仍有许多基础性问题亟待深入研究,例如石炭系复杂碎屑岩储层的岩性识别。塔河地区石炭系碎屑岩储层普遍含泥、含灰和含砾,属复杂岩性储层。此外,该地层取心资料较少,测井新技术资料缺乏,因此该储层的岩性识别遇到了较大的困难。诸如测井曲线综合分析法、孔隙度测井曲线重叠法、岩性交会图版法等常规测井岩性识别方法已很难奏效。虽然国内外已运用人工神经网络方法在自动识别岩性方面取得了一定成果,但其网络结构难于确定,易出现过学习和欠学习以及局部极小等问题,导致岩性识别效果不佳[1]。
1995年波兰数学家Vapnik[2]提出了支持向量机(Support Vector Machines,SVM),目前,该方法已经被运用于储层岩性识别、流体识别、参数预测等石油勘探开发领域,表现出良好的分类或识别能力[3~5]。笔者首次采用支持向量机对塔河地区石炭系复杂碎屑岩储层的岩性识别进行了初步研究,从常规测井资料中选取对储层岩性相对敏感的多种资料,选用径向基核函数和一对一多类分类编码模式,利用有限的取心资料建立岩性分类器进行岩性识别学习,并与实际取心资料和BP神经网络方法的识别结果进行对比,获得了较好的运用效果。
据综合地质研究,塔河地区石炭系地层可分为巴楚组和卡拉沙依组。
巴楚组自下而上可包括下砂泥岩段、下泥岩段、双峰灰岩段3个岩性段。区内岩性、岩相变化较大,主要为浅灰、褐灰色灰质岩屑砂岩,砾岩和灰绿、褐色泥岩互层,夹含砂质泥晶灰岩、粒屑灰岩,并且岩屑含量高、灰质胶结强,灰质、云质胶结物含量达10%~25%。
卡拉沙依组分为下部上泥岩段和上部砂泥岩互层段2个岩性段。由下往上砂岩及砾石含量逐渐增多,砂岩粒度逐渐变粗,砾石粒径逐渐增大;砾石成分由以泥砾为主逐渐变为以石英、燧石为主;泥岩色调由深灰、黑色、灰褐色为主逐渐变为以棕褐色为主。
总体上讲,塔河地区石炭系碎屑岩储层的岩性较为复杂。储层主要为浅灰、灰白色长石石英砂岩,长石岩屑砂岩,其次为岩屑石英砂岩、岩屑长石砂岩,少量为岩屑砂岩、粉砂岩及砾岩等。岩石普遍含灰质,砾岩和砂砾岩多为砂岩间的夹层。储层岩石碎屑成分主要有石英、岩屑、长石,总体上以石英为主。长石多为正长石,斜长石、微斜长石和条纹长石含量较低;岩屑类型以酸性喷出岩、沉积岩岩屑为主,极少量变质岩,并且随着岩屑含量的增加,储层的颗粒分选、磨圆均变差,强烈的压实作用使颗粒呈点接触演变为线状、凹凸接触。碎屑颗粒以细粒为主、中粒次之,少数粗粒、粉粒,分选好~中等,次圆状为主,少量次棱角状。胶结物成分以灰质胶结为主,杂基含量较低,成分主要为泥质。
建立在统计学习理论和结构风险最小化原理基础上的支持向量机是一种新型学习机模型。其根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折中,以获得最好的泛化能力,在处理小样本、非线性及高维模式识别问题中表现出了独特的优势[2]。自其诞生以来,支持向量机在文本分类、图像识别、蛋白质同源检测及基因表达等方面的应用已卓有成效。
图1 二维最优分类面示意图
基于支持向量机方法的2类岩性分类问题如图1所示。支持向量机利用结构风险最小化原则设计具有最大间隔的最优分类线,即同时要求分类线不但能将砂岩和泥岩正确分开,而且还要使分类间隔最大,推广到高维空间即为最优分类超平面。分类面的方程为:
式中,x为岩性样本数据;b为分类阈值。
对于给定的P个岩性样本点的训练集:
式中,i=1,2,…,P;xi、yi分别为第i个岩性样本的数据和类别,xi∈Rn,yi∈{-1,1}。
当最优分类面不能完全把2类岩性的样本点分开时,则引入松弛因子,允许错分岩性的存在,此时支持向量机在最小化目标函数中加入惩罚项(其中,为正常数,称为惩罚因子)。最终,利用Lagrange函数将最优分类面的求解问题转化为凸二次规划寻优的对偶问题:
式中,αi为第i个岩性样本对应的Lagrange乘子;xi、xj分别为2个不同的岩性样本数据;yi、yj分别为2个不同的岩性类别;i、j为不同的岩性样本点,i≠j。通过求解方程组(3),最后所得分类决策函数y(x)为:
支持向量机利用满足Mercer条件的核函数K(xi,xj)在高维特征空间中设计线性最优分类面,得到输入空间中的非线性学习算法,即用非线性变换将n维矢量空间中的随机向量x映射到nh(nh>n)维高维特征空间,在高维特征空间中设计线性学习算法,而计算的复杂度却没有增加,此时的分类决策函数为:
常用的核函数有线性函数、多项式函数、径向基函数和Sigmoid函数等。其中径向基函数是普遍使用的核函数,因为其对应的特征空间是无穷维的,有限的数据样本在该特征空间中肯定是线性可分的。径向基核函数的表达式为:
式中,σ2为径向基核函数参数[7]。
最初的支持向量机是针对2类分类问题提出的,而复杂岩性识别是一个M(M>2)类分类问题。因此,需要对支持向量机分类器构建多类分类编码模式。目前,支持向量机分类器支持且使用较多的多类分类编码模式有一对一编码、一对余编码和纠错输出编码等[7]。其中一对一编码在每2个类别上训练一个两类分类器,共得到M(M-1)/2个两类分类器,每个分类器对测试样本进行“投票”,票数最多的类别即为测试样本的归属。选取不同的核函数和多类分类编码模式即可构造不同的支持向量多类分类器。
针对塔河地区石炭系复杂碎屑岩储层岩性识别问题,笔者引入支持向量机方法在这方面做了初步研究。在MATLAB2009a平台下,运用台湾大学林智仁等基于MATLAB开发设计的一个简单、易于使用和快速有效的支持向量机模式识别与回归的工具包LIBSVM[8],对塔河地区石炭系储层取心资料进行学习分类,获得了较好的岩性识别效果。下面以塔河地区X区块为例,介绍支持向量机方法在塔河地区石炭系复杂碎屑岩储层岩性识别中的应用。
针对X区块的石炭系储层的取心资料,将TK1X井和TK2X井2口取心井共123份岩心分析资料分为4种岩石类型:砂岩、含砾砂岩、含泥砂岩和含灰砂岩,并分别用标号1、2、3、4表示。其中砂岩9份,含砾砂岩61份,含泥砂岩50份,含灰砂岩仅3份。塔河地区石炭系碎屑岩储层砂岩显示高电阻率、低自然电位幅度特征;胶结物含量高导致含砾砂岩具高电阻率、低声波时差、高密度的特征。因此,选取对应的自然电位测井值SP、自然伽马测井值GR、声波时差测井值AC和深电阻率测井值Rt作为支持向量机岩性分类器的输入特征值。
为了避免自然电位测井曲线基线不同造成的影响,利用泥质含量计算公式求取泥质含量Vsh,并在输入特征值中代替SP。泥质含量计算公式为:
式中,SHI为泥质指数;SPmin为纯砂岩的自然电位测井值;SPmax为纯泥岩的自然电位测井值;GCUR为地层系数,取GCUR=2。
同时,为了避免各输入特征值的量纲差异,将输入特征值归一化到[0,1],即:
式中,w为某种输入特征值;wmin、wmax分别为该输入特征值的最小值和最大值。
从123份岩心资料中,随机选取6份砂岩、53份含砾砂岩、42份含泥砂岩和2份含灰砂岩作为支持向量机分类器的训练集,剩下共20份岩样资料作为测试集。利用训练集、选择径向基核函数和一对一多类分类编码模式建立支持向量机分类器模型,对测试集做出岩性分类决策。结果见表1,20块岩样中有15块识别正确,岩性识别符合率为75%。
表1 岩性识别结果表
为了对比分析基于支持向量机方法的塔河地区石炭系复杂碎屑岩储层岩性识别效果,引入目前被广泛使用的BP神经网络方法对该学习样本进行学习分类[9],识别符合率为55%。表1详细列出了实际岩心类型以及2种岩性识别方法的岩性识别结果。从表1中可以看出,在塔河地区石炭系复杂碎屑岩储层的岩性识别中,基于支持向量机方法的岩性识别效果明显好于BP神经网络方法。
1)在取心资料少的情况下,利用常规测井资料,采用支持向量机技术识别复杂碎屑岩储层岩性仍能获得较好的效果。
2)在其他地区应用该方法时,由于不同地区储层岩性特性存在差异,因此注意做好从测井资料中提取岩性特征等基础工作。
中国石化西北油田勘探开发研究院樊政军副总工程师和测井所柳建华所长提出了一些建议,测井所李永华工程师提供了帮助,在此一并致谢。
[1]魏聪,肖玉峰,董平川.最小二乘支持向量机在储层流体识别中的应用[J].石油天然气学报,2009,31(2):275~278.
[2]Vapnik V.The nature of statistical learning theory[M].2nd edition.NY:Springer-Verlag,1999.
[3]张翔,肖小玲,严良俊,等.基于模糊支持向量机方法的岩性识别[J].石油天然气学报,2009,31(6):115~118.
[4]彭涛,张翔.支持向量机及其在石油勘探开发中的应用综述[J].勘探地球物理进展,2007,30(2):91~95.
[5]连承波,赵永军,钟建华,等.基于支持向量机的低阻油层识别方法及应用[J].石油天然气学报,2008,30(1):80~82.
[6]白鹏,张喜斌,张斌,等.支持向量机理论及工程应用实例[M].西安:西安电子科技大学出版社,2008.
[7]邓乃扬,田英杰.数据挖掘中的新方法——支持向量机[M].北京:科学技术出版社,2004.
[8]Hsu C W,Chang C C,Lin C J.A practical guide to Support Vector Classification[EB/OL].http://www.csie.ntu.edu.tw/~cjlin,2010-4-15.
[9]杨斌,匡立春,孙中春,等.神经网络及其在石油测井中的应用[M].北京:石油工业出版社,2005.
[编辑] 龙 舟
72 Identifying Complex Lithology of Clastic Rock Reservoir by Support Vector Machine
ZHOU Ji-hong,YUAN Rui
(First Authors Address:College of Geophysics and Oil Resources,Yangtze University;Key Laboratory of Exploration Technologies for Oil and Gas Resources(Yangtze University),Ministry of Education,Jingzhou 434023,Hubei,China)
The lithologic identification of clastic rocks of Carboniferous reservoir in Tahe Area was taken for example,the methods were denoted for lithologic identification by using support vector machine and conventional logging data under the condition of lacking core data.In Tahe Area,the lithology was complex in Carboniferous reservoir,it generally contained mud,ash and gravel,whats more,there were lacking of coring and new logging technology data.Therefore,it was difficult for lithologic identification.Data that was relatively sensitive to reservoir lithology were chosen form conventional logging data for choosing radial basis function and one to one coding mathod,a lithology classifier was built up by limited coring data.It presents the result of lithologic identification in a certain block in Tahe Area,it is contrasted with that of BP neural network,it shows that the method is used with better effect.
complex lithology of clastic rock;lithologic identification;logging data;support vector machine;Tahe Area
book=292,ebook=292
P631.84
A
1000-9752(2012)07-0072-04
2012-03-10
中国石油化工集团股份有限公司勘探先导性项目(KY2010-S-078)。
周继宏(1965-),男,1987年江汉石油学院毕业,硕士,副教授,现从事石油测井方法与地质应用的教学及研究工作。