谢 伟, 刘晓峰, 白晨辰
(1.中国石化胜利油田分公司 物探研究院,山东 东营 257022; 2.中国石化胜利油田分公司 河口采油厂,山东 东营 257200; 3.中国石化胜利油田分公司 桩西采油厂,山东 东营 257237)
多元逐步判别法在多属性分析中的应用
——以大芦湖油田沙三段五砂组为例
谢 伟1, 刘晓峰2, 白晨辰3
(1.中国石化胜利油田分公司 物探研究院,山东 东营 257022; 2.中国石化胜利油田分公司 河口采油厂,山东 东营 257200; 3.中国石化胜利油田分公司 桩西采油厂,山东 东营 257237)
地震属性种类繁多,单一属性在应用过程中存在多解性,多属性分析具有重要意义。本次研究将其他地质领域应用广泛的逐步判别方法引入多属性分析中。多元逐步判别方法从已知样本出发建立判别方程,包含了变量自动选入—剔除的功能,既能优选最有效的属性,又能体现所选属性的综合效应。以大芦湖油田沙三段五砂组为例,利用多元逐步判别方法进行多属性分析,实际效果表明,标准总体包含的样本数量越多,最终结果精确度也越高。
多元逐步判别;属性分析;大芦湖油田
判别分析方法是一种常用的数学地质多元统计方法。判别分析法的基本原理是通过一组归属类型已确定的样品,建立已知样品的归属类型与相应地质变量之间的函数关系,即建立判别函数[1]。对于一个新样品,可将新样品的地质变量值代入通过已知样品归属类型建立的判别函数,从而求得该样品的判别值,最终确定该新样品的归属类型[1]。判别分析方法在沉积相划分、测井资料解释、岩性识别等方面应用广泛[2- 6],但在多属性分析中尚未见到应用。本文中将判别分析方法引入到多属性分析中,采用多元逐步判别分析方法,显示良好效果。
μ1=μ2=…=μG逐步判别方法是对变量进行筛选的一种方法,它实现的理论基础是对附加信息加以检验。把已知来自于G个样本总体具有相同协方差矩阵的多组样本数据记为Xijk。Xijk的具体意义为第i组第j个样品第k个变量的数值(i=1,…,G;j=1,…,Si;k=1,…,L)。首先要确定样本总体能否被区分,也就是检验所选出的k个变量能否划分G个样本总体,即检验假设Eo是否成立。若假设Eo成立,说明区分G个样本总体没有意义。若假设Eo被否定,则说明G个总体可以被区分,从而可以通过建立判别方程进行判别。
检验假设Eo是否成立,可以利用维尔克斯(Wilks)统计量的计算公式:
(1)
其中
式中,C为组内离差;B为组间离差;Si为样品总数;Λ为组内离差与总离差之比。
Λ的值越小,说明G个样本总体之间存在的差异越大,越容易区分;,反之Λ的值越大,说明G个样本总体越不容易区分。由此可见,可以将Λ作为一种度量参数来表示样本总体区分的难易程度。对附加信息的检验是已确定所选出的k个变量能够明显区分G个样本总体,从而判断剩余L-k个变量是否对样本总体区分有利。在实际计算中采用近似式来实现对附加信息的检验。
把k个变量分作两部分,即前k-1个变量和最后第k个变量。已知前k-1个变量能够区分G个样本总体,讨论最后第k个变量的增加对区分G个样本总体的有无显著影响。根据第k个变量和增加附加信息的假设构造如下统计量:
(2)
该统计量服从F分布F(G-1,N-(k-1)-G),可以进行F检验。与式(1)中统计量Λ一样,F值同样可以作为一种度量参数来判断G个样本总体区分的难易程度。F值越大,说明第k个变量的加入越有利于区分G个样本总体。当计算值F>Fd(G-1,N-G-(k-1))时,认为其判别效果显著;反之亦然。
在实际计算过程中,首先对变量的判别能力进行排序,然后依据变量的判别能力由强到弱逐个选入,同时把判别能力差甚至会起到相反作用的变量设法剔除。变量的选入和剔除遵循WilksΛ准则。假设按照上述运算原则选出了m个变量,则可以依据(1)式和(2)式分别计算判别函数中的判别系数和常数项
(3)
(4)
根据判别系数和常数项可以建立第i组的判别函数为
(5)
式中,qi=Si/m为第i组的先验概率,可以用样品的频率近似代替。新样品的归属类型可以根据建立的判别函数进行计算,得出相应的函数值,并通过函数值进行分组判别,从而确定新样品的归属类型。
已知样本对应的判别函数建立以后,还必须对判别函数的判别效果进行检验,通过最终正确判断率的大小决定建立模型的适用性。一般能够正常使用模型的正确判断率最低为75%(正确判断率最低使用标准不低于70%)。
多元逐步判别的优势在于:一方面,从已知条件出发建立判别方程,可靠性更高;另一方面,具有变量自动引入和剔除的过程,能够筛选出对判别方程贡献最大的变量,这样能够用最少的变量达到最优的效果;最后能够将所选出的变量通过判别函数有机结合起来,使判别系数的计算更为合理。
判别分析本质上是一种类比分析,首先要建立标准模型。建立的标准模型必须包含两个或两个以上已知样本。大芦湖油田在沙三段发育三角洲前缘浊积砂体。从钻井统计情况来看,沙三段五砂组在平面上具有“非泥即砂”的分布特点,这为多元逐步判别方法的应用提供了前提条件。
对研究区内砂岩和泥岩分别发育的24口井进行砂岩厚度统计。分别选取了对砂泥岩划分比较有效的17种属性。其中,GeoFrame软件中选取了平均振幅、平均峰值、均方根振幅、平均能量、最大能量、最大振幅、零相位、能量半衰时、带宽、瞬时频率和瞬时振幅11种属性,EnEn软件中选取了小波高频吸收系数、25%能量对应傅氏频率比值、25%能量对应小波频率比值、值峰态、傅氏高频吸收系数、时窗弧长6种属性。将各个单一属性与统计结果比较,发现有很多井位与统计结果不相符,由此看出,单一属性应用效果较差,有必要进行多属性综合应用。
利用地质统计软件中判别分析模块的Bayes判别,对17种属性进行判别分析,最终优选出6种属性:瞬时振幅、最大能量、傅氏高频吸收系数、小波高频吸收系数、值峰态和时窗弧长,并计算6种属性对应的判别系数(表1)。
表1 优选属性对应的判别系数
注:C1—Ains;C2—Mmax;C3—CFA;C4—CMA;C5—Kur;C6—Larc;C0—常数项。
将判别系数代入式(5)中,可以得到砂岩和泥岩的判别方程
Y(砂岩)=13.97Ains+1.44Mmax-4.59CFA-32.21CMA+34.45Kur+1.79Larc-49.76,
(6)
Y(泥岩)=23.75Ains-4.73Mmax-27.59CFA+25.71CMA+34.56Kur-0.35Larc-43.09.
(7)
式中,Ains为瞬时振幅;Mmax为最大能量;CFA为傅氏高频吸收系数;CMA为小波高频吸收系数;Kur为值峰态;Larc为时窗弧长。
将统计井所对应的6种属性值,分别带入式(6)和式(7)中,以检验判别方程的有效性。验证结果(表2)显示,砂岩的正判率为86.7%,泥岩的正判率为88.9%,总体的正判率为88%。正判率远大于下限值75%,说明该判别方程有效。因此,可以使用上述砂岩和泥岩的判别方程(式(6)和式(7))对未知样品进行岩性判别。
表2 统计井砂泥岩判别分析结果
注:带星号结果为判别错误的结果。
利用砂岩和泥岩判别方程(式(6)和式(7))对大芦湖地区沙三段五砂组进行砂泥岩分布范围进行预测(图1)。图1中的浅色区域为砂岩发育概率较大的区域,深色区域为泥岩发育概率较大的区域。
将预测结果与手工勾绘的砂岩厚度图对比可知,各井点预测结果与统计结果吻合度较高;平面上砂泥岩分布趋势,除部分井区外预测结果与统计规律一致;与单一属性相比,基于逐步判别分析的多属性分析与地质统计规律吻合度更高。
图1 大芦湖沙三段五砂组砂泥岩分布预测
(1)利用已知岩性的属性值,依据多元逐步判别方法建立判别方程,对大芦湖地区沙三段五砂组进行岩性识别,效果良好。
(2)地震层位解释精度对判别结果影响显著,标准总体包含的样本数量影响最终结果,数量越多精确度也越高。
(3)本次研究选取了两类样本作为研究对象,多元逐步判别法可以推广到3类及3类以上样本。
[1] 赵继文, 李能根,杨光惠,等.用模糊聚类和逐步判别分析方法识别低电阻率油气层的方法研究[J].物探化探计算技术,2000,22(2):168-171.
[2] 于建国,姜秀清.地震属性优化在储层预测中的应用[J].石油与天然气地质,2003,24(3):291-295.
[3] 姜秀清.储层地震属性优化及属性体联合解释[J].油气地球物理,2003,1(2):25-29.
[4] 陈烨菲,彭仕宓.沉积微相定量研究方法[J].石油勘探与开发,2003,4(30):51-53.
[5] 王研,张灵军,严桂林,等.七参数判别法及其在松辽盆地东南隆起区油、气、水层判别中的应用[J].中国海上油气:地质,2002,16(1):5- 8.
[6] 韩学辉,支乐菲,李峰弼,等. 应用Bayes逐步判别方法识别东辛油田沙四段储层流体性质[J].地球物理学进展,2011,26(4):1243-1248.
[责任编辑] 胡秋媛
2015-06-03
谢 伟(1985—),男,山东临朐人,中国石化胜利油田分公司物探研究院工程师,主要从事油气地质综合研究。
10.3969/j.issn.1673-5935.2015.03.001
P631
A
1673-5935(2015)03- 0001- 03