基于变异函数及支持向量机测井曲线插值方法

2012-09-18 02:52马海杨锦舟肖红兵刘庆龙王延江
测井技术 2012年6期
关键词:插值测井变异

马海,杨锦舟,肖红兵,刘庆龙,王延江

(1.中国石化胜利石油管理局钻井工艺研究院,山东 东营 257017;2.中国石油大学信息与控制工程学院,山东 青岛 266555)

0 引 言

当一个变量呈现为空间分布时,称之为区域化变量[1]。从地质学的观点来看,区域化变量可以反映地质变量的局部性、连续性、异向性、可迁性等特征。测井曲线符合区域化变量的特征,其插值重构方法研究已成为国内外研究的热点之一[2-3]。常用的测井曲线插值方法有三角剖分法[4]、距离加权反比法[5]、径向基函数法[6]、多项式趋势面法[7]、分形[8]、克里金插值[9]、神经网络[10]、支持向量机[11]等,其中以克里金插值方法为代表的地质统计学方法和以支持向量机为代表的统计学习理论方法应用最为广泛。克里金插值算法中的变异函数能够很好地表征空间变量相关结构性,但平滑效应往往掩盖了非均质性。支持向量机具有较强的非线性自学习能力和泛化能力,克服了传统机器学习方法容易陷入局部最小的缺点,但其难以反映空间结构。综合考虑2种方法,将支持向量机与变异函数相融合,同时利用粒子群优化算法对支持向量机的参数进行优化,这样既可以体现空间变量的属相相关性又能够反映其空间相关性。

1 支持向量机算法

支持向量机(Support Vector Machine,SVM)是一种新的机器学习算法,它的基础是Vapnik的统计学习理论[12-13]。自从 Vapnik等人引入支持向量机理论以来,SVM在模式识别方面得到了广泛的应用[14-16],近年来也被开始用于回归估 计[17-18]。传统的学习方法采用经验风险最小化准则,在训练中力求最小化样本误差,不可避免地出现过拟合现象,模型的泛化能力受到了限制。支持向量机是在统计学习理论的基础上形成的,采用结构风险最小化准则,从而提高了学习机器的泛化能力;SVM的求解最后转化成二次规划问题的求解,因此,SVM的解是全局最优的[12]。

对于支持向量机函数拟合,考虑用非线性拟合函数f(x)=w·φ(x)+b拟合数据(xi,yi)(i=1,2,…,n,xi∈Rn,yi∈R)的问题。假设所有训练数据在ε精度下无误差地用非线性函数拟合,即

解决复杂非线性问题的径向基(RBF)核函数[12-13]为

式中,γ为宽度系数。

2 变异函数基本理论

2.1 实验变异函数

变异函数是地质统计学中描述区域化变量空间结构性和随机性的基本工具[19-20]。在相距为h的2个空间点x和x+h的参数值Z(x)和Z(x+h)之间的方差,称为变异函数,其数学表达式为

式中,h为滞后距,即xi和xi+h的2个点之间的距离;Z(xi)、Z(xi+h)分别为xi和xi+h的2个点的实测值;N(h)为距离为h的数据对的数目;γ(h)为实验变异函数值。

2.2 理论变异函数拟合

根据计算的实验变异函数,选择合适的模型进行拟合,求得理论变异函数。常用的模型为球状模型[20-21],其形式为

式中,c0为块金效应值;c为基台值;a为变程。

常用的拟合方法主要有最小二乘法、多项式加权拟合法、线性规划拟合法等。理论变异函数的拟合实际上是一种求解最优无偏估计的优化过程,通过选择合适的拟合方法可以求解出球状模型中的参数c0、c、a。

3 融合变异函数支持向量机插值方法

3.1 目标函数的选取

支持向量机插值就是利用支持向量机算法自动求取输入和输出之间的权系数,实现对未知点的插值。对于空间变量插值问题,将空间点的坐标值作为网络输入,将空间变量的属性值作为网络输出。利用支持向量机进行插值的目的就是要通过支持向量机网络的训练获取网络输入与网络输出的非线性映射关系,进而将网络模型进行推广。在训练过程中既要达到网络输出值与期望输出值误差最小,同时又要受到空间相关性的约束,即

式中,n为样本点数目;yi为第i个样本点的期望输出值;oi为第i个样本点的实际输出值;m为用来计算变异函数的数据点的最大滞后数;γ(hk)为由样本点数据得到的变异函数值;γ′(hk)为由网络输出数据得到的变异函数值;hk为第k组数据对对应的间隔距离;ε为允许的误差限。

采用拉格朗日乘子法求解这个线性不等式约束问题,则式(8)可以表示为

其中,α为拉格朗日乘子。

3.2 参数优化

支持向量机模型的复杂度、泛化能力取决于C、γ这2个参数,特别是它们之间的相互影响关系[12]。其中,惩罚系数C反映了算法对超出ε管道的样本数据的惩罚程度,其值影响模型的复杂性和稳定性。C过小,对超出ε管道的样本数据惩罚就小,训练误差变大;C过大,学习精度相应提高,但模型的泛化能力变差。另外,C值影响到对样本中离群点的处理,选取合适的C就能在一定程度上抗干扰,从而保证模型的稳定性。RBF核的宽度系数γ反映了支持向量之间的相关程度。γ很小,支持向量间的联系比较松弛,学习机器相对复杂,推广能力得不到保证;γ太大,支持向量间的影响过强,模型难以达到足够的精度。

支持向量机模型要事先确定惩罚系数C及RBF核的宽度系数γ。对于这2个参数的选择方法,多是建立在经验和试凑的基础之上。对此,本文采用PSO优化算法[22]计算,将支持向量机参数C和γ作为粒子的位置向量,在每一次迭代中,粒子通过跟踪个体极值点和全局极值点,不断更新自己的速度和位置,直到找到空间中的最优解。

4 算法验证

4.1 实例1

该例为一组由测井获得的地温场数据[23]。方形区域被等间隔成9×9个单元,共100个网格点,原始数据等值线图见图1。可以看出,在上、下边界线处等值曲线形状很不一样,在下部形状为圆滑的凸面,而上部由于值的突变形成了直线。

图1 原始数据等值线图

从100个网格点中随机抽取25个点组成4个数据排列样本,分别用距离加权反比法、径向基函数法、克里金法、支持向量机法和改进支持向量机法根据不同的数据排列对100个网格点进行插值恢复。图2给出了各种方法插值重构结果;表1为各种方法插值效果比较。

由图2可以看出,改进的支持向量机方法无论采样的空间数据点如何排列都能够较好并且较稳定地恢复空间变量分布。通过分析表1可知,改进的支持向量机方法在平均绝对误差、平均相对误差、均方根误差、相关系数和方差各个指标都是最好的,而这些指标能够从不同的角度表征空间变量的插值效果。由此可见,本文提出的方法在空间变量的插值精度和稳定性上具有较强的优势。

图2 各种方法插值重构结果

表1 各种方法插值效果比较

4.2 实例2

选用我国北方某煤矿某煤层钻孔点上的实测数据为例。选取该煤层64个钻孔数据,包括钻孔号、钻孔坐标、煤层厚度数据。钻孔位置分布见图3。

煤层并非一个均质体,而是一个时空连续的变异体,具有高度的空间异质性。煤层厚度能够反映地质变量的结构和随机性特征,该变量呈现空间分布,是一种区域化空间变量。由于钻孔位置分布不规则,通过空间插值算法得到煤层厚度数据的空间等值线图[见图3(a)]。从64个数据中抽取其中50个数据作为已知样本,利用改进的支持向量机方法对其他14个数据进行空间插值重构,结果见图3(b)。

图3 煤层厚度等值线图

利用改进的支持向量机方法进行插值重构,平均绝对误差为0.1392,平均相对误差为0.0993,均方根误差为0.3100,相关系数为0.9083,方差为0.1328。通过以上数据及图3可以看出,该方法插值效果较好,具有较强的属相相关性和空间相关性。

5 应用实例

选取新疆油田准噶尔盆地中央隆起马桥凸起莫西庄背斜构造的庄字号区块的庄2井、庄3井、庄4井、庄5井、庄101井、庄102井、庄103井、庄104井、庄105井、庄106井和庄107井的测井声波时差数据,结合区块地质构造信息对庄1井西山窑组层位的声波时差数据进行插值重构。为了对插值重构结果进行比较,实验中分别采用了距离加权反比法、径向基函数法、克里金法、支持向量机法和改进支持向量机法。图4给出了利用各种方法对庄1井测井声波时差重构的结果比较图。采用改进的支持向量机算法的庄1井测井声波时差重构结果见图5示。图6给出了庄字号井4149~4159m井段声波时差测井曲线图。

图4 庄1井测井声波时差重构结果

从图5可以看出,采用改进的支持向量机算法对庄1井测井声波时差曲线进行插值重构,插值重构曲线在总体上与实际的测井声波时差曲线符合较好,但同时也看到在一些井段出现了一定的差距,主要表现在4109~4116m、4149~4159m及4288~4300m井段。图6以4149~4159m井段为例进行说明,由于庄1井在此井段的声波测井时差值明显高于其邻井在此井段的声波测井时差值,因此在进行插值重构时很难拟合实际情况;同样,在该井段其他的插值重构方法也存在类似的问题。为了解决这个问题,还需要综合考虑区块的地质概况及地层分层情况以及其他一些区块信息,有效地将专家知识以适当的方式加入到插值重构中,以约束重构的不确定性。表2比较了各种方法的声波测井时差重构结果。

表2 声波测井时差重构效果比较

通过对表2分析,可以看出由于改进的支持向量机方法融合了空间变量的相关信息,在插值效果上优于传统的空间插值方法,误差和方差相对较小,可以满足插值重构的精度要求,实现声波测井时差的有效重构。

6 结 论

(1)将变异函数融入支持向量机方法,提出了一种新的空间变量插值方法,该方法既可以体现空间变量的属性相关性,又能反映其空间相关性。

(2)通过对测井的地温场数据、煤层厚度数据以及测井声波时差曲线的插值重构结果可以看出,改进的支持向量机算法相对其他插值重构算法具有较高的插值精度和较好的相似度,能够很好地实现对空间区域变量的插值重构。

(3)通过该方法可以利用区块已钻井的地质特征参数对待钻井的钻井地质特征参数进行钻前空间插值,为钻井模拟提供依据。

[1]侯景儒,尹镇南,李维明,等.实用地质统计学[M].北京:地质出版社,1998.

[2]王政权.地统计学及在生态学中的应用[M].北京:科学出版社,1999.

[3]张仁铎.空间变异理论及应用[M].北京:科学出版社,2005.

[4]邵才瑞,关丽,张福明.基于测井数据的地质曲面插值重构方法比较[J].测井技术,2005,29(4):311-315.

[5]Lu G Y,Wong D W.An Adaptive Inverse-distance Weighting Spatial Interpolation Technique[J].Computer & Geoscience,2008,34(9):1044-1055.

[6]张小浩,周鼎武.径向基函数方法在南泥湾油田勘探中的应用[J].地球物理学进展,2007,22(1):213-217.

[7]张俊艳,韩文秀,刘东海.工程地质趋势面分析的智能方法及其应用[J].吉林大学学报:地球科学版,2005,35(1):59-63.

[8]李信富,李小凡.分形插值地震数据重建方法研究[J].地球物理学报,2008,51(4):1196-1201.

[9]常文渊,戴新刚,陈洪武.地质统计学在气象要素场插值的实例研究[J].地球物理学报,2004,47(6):982-990.

[10]Cellura M,Cirrincione G,Marvuglia A,Miraoui A.Wind Speed Spatial Estimation for Energy Planning in Sicily:A Neural Kriging Application[J].Renewable Energy,2008,33:1251-1266.

[11]马云潜,张学工.支持向量机函数拟合在分形插值中的应用[J].清华大学学报:自然科学版,2000,40(3):76-78.

[12]Vapnik V N.Statistical Learning Theory[M].New York:Wiley,1998.

[13]张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1):32-42.

[14]张翔,王智,罗菊兰,等.基于逐步判别与支持向量机的沉积微相定量识别[J].测井技术,2010,33(4):365-369.

[15]刘静,李正从,王智,等.基于ICA、PCA和SVM方法的沉积微相定量识别[J].测井技术,2011,34(3):262-265.

[16]钟仪华,李榕.基于主成分分析的最小二乘支持向量机岩性识别方法[J].测井技术,2009,32(5):425-429.

[17]张作清,韩克宁,于代国,等.应用支持向量机方法预测储层敏感性[J].测井技术,2005,28(4):308-310.

[18]王延江,杨培杰,史清江,等.一种基于支撑向量机学习预测井眼轨迹的新方法[J].石油学报,2005,26(5):98-101.

[19]王家华,高海余,周叶.克里金地质绘图技术[M].北京:石油工业出版社,1999.

[20]赵国忠,尹芝林.井间参数预测中的实用变异函数拟合方法[J].石油学报,1998,19(1):75-78.

[21]靳松,朱筱敏,钟大康.变差函数在沉积微相自动识别中的应用[J].石油学报,2006,27(3):57-60.

[22]Kennedy J,Eberhart R C.Particle Swarm Optimization[C]∥Proceedings of the IEEE International Conference on Neural Networks,Perth WA Australia,1995,1942-1948.

[23]Koike K,Matsuda S,Gu B.Evaluation of Interpolation Accuracy of Neural Kriging with Application to Temperature-distribution Analysis[J].Mathematical Geology,2001,33(4):421-448.

猜你喜欢
插值测井变异
本期广告索引
变异危机
变异
基于Sinc插值与相关谱的纵横波速度比扫描方法
一种改进FFT多谱线插值谐波分析方法
基于四项最低旁瓣Nuttall窗的插值FFT谐波分析
变异的蚊子
基于测井响应评价煤岩结构特征
随钻电阻率测井的固定探测深度合成方法
中石油首个全国测井行业标准发布