基于交叉检验法的地质预测模型优选

2013-09-05 07:51宋永康王兵杰
石油化工应用 2013年12期
关键词:变差方根估值

宋永康 ,舒 晓 ,王兵杰

(1.中国石油辽河油田分公司,辽宁盘锦 124109;2.中国石油大学(华东)地球科学与技术学院,山东青岛 266580;3.南京大学内生金属矿床成矿机制研究国家重点实验室,江苏南京 210093;4.南京大学地球科学与工程学院,江苏南京 210093)

随着我国大部分油田进入开发中晚期阶段,对于精细地质模型的要求越来越高。在地质建模领域常遇到的一个问题是,同一地质模型可以根据多种建模方法和变差函数组合实现,因此有效地优选出最能够反映地质变量空间非均质性和连续性特征的地质预测模型(建模算法与参数组合)便成了地质统计建模中的一个关键问题。常用的一种方法是经验对比法,即地质学家凭借自身经验根据估值(模拟)结果对地质预测模型(估值方法、参数等)的好坏进行评估及选择。这种方法在实践中广为使用,但其准确性取决于研究人员的地质知识、经验以及对研究区的认识程度,带有较大的主观性和随意性。由于缺乏准确的衡量标准,常出现不同研究人员认识不一致甚至完全相反的情况。此外,这种方法存在滞后性,往往需要得到估值(模拟)结果后才能判断地质预测模型的好坏,工作量很大,当认定模型预测效果不好后,还需从头进行模型的建立工作,效率很低,且还无法预知下一个建立的模型的效果好坏。为解决这一问题,Delfiner首先提出应用“交叉检验法”来对地质统计结果进行定量的分析[1-2]。这一方法利用原始样本数据提供的信息,根据定量指标检验其与多个候选预测模型的符合程度,择优选出最佳模型。由于该方法简便易行,极大程度地解决了方法及参数选择的随意化问题,因此广泛应用在各个领域中[3-8]。本文首先对其基本原理进行了讲解,最后结合工区实例优选并建立了最佳的地质预测模型,并对其预测效果进行了加密井检验。

1 交叉检验

所谓地质预测模型优选,即从一组地质预测模型中选择出最符合研究区实际情况及特定研究目标的模型。对于本文来说,一组模型指的是不同估值方法与变差函数模型的组合。交叉检验法(cross validation)是一类用来评估模型与已知数据符合程度的分析技术,其认为预测模型的质量好坏取决于其预测效果,能够用于评估源自同一数据的多个地质预测模型的优劣,在实践中主要分为K重交叉验证(k-fold cross validation)和去一验证法(leave-one-out method),由于K重交叉验证法验证结果以及验证统计量随k取值不同变化较大,优选结果不稳定,下面重点对去一验证法进行介绍。

1.1 去一验证法(leave-one-out method)

该方法首先从原始样本数据集中去除一个样本点,从多种待选预测模型中选出一种将剩余的样本值作为条件数据对该位置进行估值,得到该样本点处估计值和真实值之间的差异(误差)。如此循环,得到各个样本点处的误差,最终按照事先确定好的误差分析指标选出最优的预测模型。对于预测模型优选来说,误差衡量指标是根据克里格估值本身要求的无偏、最小方差确定的,其具体形式如下:

(1)误差均值ME:衡量估值结果的无偏程度,即估值的准确性,值越小越准确,公式如下:

(2)误差均方根RMSE:衡量模型预测结果与真实值的接近程度,值越小越接近,公式如下:

(3)平均标准误差MSE:表示预测标准误差的平均值:

(4)标准化均方根误差:当值大于1时说明对地质变量可变性估计不足,而当小于1时说明对可变性估计过大。该值越接近1,预测的标准误差越有效,公式如下:

式(1)、(2)、(3)、(4)中,Z^(xi)是采样点xi的估计值,Z(xi)是采样点xi的真实观测值,n为进行交叉验证的样本点数量。

2 研究实例

为了说明交叉验证法在地质预测模型优选方面的有效性,本文针对实际工区气井初始产能值,建立了多个估值模型,并应用加密井对优选得到的预测模型和非优选预测模型进行了验证。

2.1 样本数据及分析处理

研究区勘探面积22 km×22 km,烃类产自晚泥盆世时的砂岩、粉砂岩地层[9]。样本数据为油气井初始产能,是一种衡量油气井生产能力的指标。图1是样本分布图,共有样本点674个,其中蓝色点表示的是应用简单随机抽样法得到的用于建模的574个样本,采用这种抽放方法能够保证抽样是完全随机进行的,而不以主观意识提高抽样的代表性。而红色点则是100个加密验证井样本点。样本分布图(见图1)显示,研究区样本分布不均匀,大部分地区油气井生产能力较低,只有少数几口高产能井。

由于样本数据不规则分布将产生从聚效应,影响空间数据统计结果准确性[10-11]。因此首先要判断样本是否存在聚类及聚类位置。这里应用Getis-Ord General G统计量对高值或低值的聚集程度进行度量。G统计量是一种推论统计,零假设认为不存在样本点数值的空间聚类,分析结果将在零假设的基础下解释[12]。计算表明样本集G统计量值为16.8,这反映了高产能油井聚集分布的特征。此时如果直接应用原始样本数据进行统计则会造成统计值的高估,这是由于高产能井附近的优势取样(钻井)造成的。这里应用基于单元的去从聚效应法对原始样本数据进行去从聚效应处理。该法的基本原理是对样本数据进行权值校正,给密集分布的样本点分配较小的权值,给稀疏分布的样本点分配较大的权值,以减弱从聚效应对包括变差函数在内的统计结果产生的不利影响。应用这种方法,要选择恰当的单元大小来给样本赋予合理的权值。图2是不同单元大小下计算得到的加权样本平均值。

由于已知道高值数据密集分布,因此应选择最小的加权样本均值。此时单元大小为2 250 m,加权后的样本直方图(见图3),相比于原始样本分布图,其平均值和方差都变小了,更客观地反映样本数据的真实统计情况。

由于样本数据呈偏态分布(见图3),而准确计算变差函数和使用普通克里格(OK)和简单克里格法(SK)需要样本数据服从正态分布,应对去从聚效应后的样本数据进行正态变换。经多次试验发现,对样本数据进行对数变换后即可以较好地服从正态分布。

2.2 实验变差函数计算及拟合

精确实验变差函数计算及拟合是得到准确的地质统计模型的关键环节,由于文章的目地是对预测模型进行优选,其它可控变量应尽可能地保持稳定,因此这里使用全部样本集进行计算。首先确定滞后距(步长)参数,这是因为滞后距若设置过大,短距离的相关性可能被遮掩;过小则会由于缺乏样本产生许多空值。这里使用平均最近邻法进行滞后距的确定。该方法能够计算各采样点与其最近相邻样本之间的平均距离[12]。由于其确定性地包含了一定数量的样本对,因此提供了更为准确的滞后距参数。经过计算得到采样间平均距离为450.2 m。但由于原始数据存在聚集现象,虽然数据值的从聚效应被消除,但其本身密集分布的空间关系并未改变,即存在许多样本值之间的实际距离远远小于平均最近临法计算得到的平均距离。因此这里采用平均距离的一半225 m作为滞后距,最终计算得到了变差函数球状图(见图4)。

第二种是孔洞效应模型。由于实验变差函数曲线中表现出一定的高低值上下往返现象,变差函数球状图中实验变差函数值随着滞后距离的增大非单调增加,高低值相间出现,则有可能存在孔洞效应。因此,这里选用G.Journel提出的各向异性孔洞效应模型来拟合实验变差函数[13],拟合过程中要注意孔洞效应模型的周期和相位要与实验变差函数一致[14],拟合结果(见图6)。

2.3 地质预测模型的优选

为了实现对油气井初始产能值的预测,这里将使用简单克里格法和普通克里格法结合上述两种变差函数进行估值,因而一共有4种预测模型。对这4种组合模型应用去一法进行交叉验证来进行预测模型优选,计算结果(见表1)。

表1 4种候选组合的交叉验证结果Table.1 Cross validation results of four alternative combinations

预测模型的优选主要有两方面要考虑,一方面是其最优性,另一方面是有效性。当均方根误差和平均误差较小时,模型可以认为是最优的。但在多个模型之间对比时,由于进行未知点估值时只能通过标准误差来评估预测模型的不确定性,因此根据交叉验证得到的均方根误差与估值的平均标准误差越接近,模型有效性越高。从表1可以看出,模型2和模型3的标准均方根都过大,因此不是合适的预测模型。而模型4的均方根误差和平均标准误差接近程度不如模型1,因此模型1是最终优选出的地质预测模型。

2.4 预测结果及对比验证

最终应用优选得到的球状模型及普通克里格估值方法组合建立起了该研究区的油气井初始势能平面估值图(见图7a),同时给出了其他3种非优选方法得到的估值图(见图7b,c,d)作为对比验证,各图中均标示出了100口验证井的位置。

根据图7给出的估值结果计算各个模型在100口验证井位置处真实值与估计值的平均相对误差(见表2)。

表2 各预测模型平均相对误差Table.2 Average relative error of 4 geological prediction model

根据表2显示的结果可知,模型1的预测结果是最为精准的。这一验证结果表明:通过交叉验证法优选得到的地质预测模型,在对油气井初始产能值预测方面有着最高的准确性。即应用交叉验证法从多个候选模型中选出最佳的地质预测模型,这一方法是可行的。

3 结论

针对地质建模过程中常遇到的无法从多种可选建模方法和变差函数组合中选择出最佳地质预测模型的问题,本文提出根据交叉验证理论应用误差均值、均方根误差、标准均方根误差和标准化平均误差4项定量指标实现地质预测模型的优选。实际气田初始产能值预测结果表明,应用交叉验证法能够有效地从多种建模方法和变差函数模型中选择出最优方案,实现对未知点位置处的有效估值。

[1]Delfiner P.Liner estimation of nonstationary spatial phenomenon[C].Guarascio M,David M,Huijbregts C.Advance Geostatistics in Mining Industry.Netherlands:Springer,1976:49-68.

[2]David M.The practice of kriging[C].Guarascio M,David M,Huijbregts C.Advance Geostatistics in Mining Industry.Netherland:Springer,1976:31-48.

[3]Clark I.The Art of Cross Validation in Geostatistical Applications [C].Ramani R V.Proceedings of the 19th APCOM.Colorado:Society of Mining Engineers,1986:211-220.

[4]Journel A G,Huijbregts C.Mining Geostatistics[M].New York:Academic Press,1978.

[5]Parker H M,Journel A G,Dixon W C.The use of conditional lognormal probability distribution for the estimation of open-pit ore reserves in strata-bound uranium deposits-a case study[C].Proceedings of the 16th APCOM Symposium.New York:Society of Mining Engineers,1976:133-148.

[6]Arlot S.A survey of cross-validation procedures for model selection[J].Statistics Surveys,2010,(4):40-79.

[7]Bouckaert R R.Choosing between two learning algorithms based on calibrated tests[C].Proceedings of the 20th International Conference on Machine Learning.Washington DC:IMCL,2003:51-58.

[8]Braga-Neto U M,Dougherty E R.Is cross-validation valid for small-sample microarray classification[J].Bioiniformatics,2004,20(3):374-380.

[9]Hohn M E.Geostatistics and Petroleum Geology[M].Dordrecht:Kluwer Academic Publishers,1999.

[10]Deutsch C V,A.G.Journel A G.GSLIB Geostatistical Software Library and User's Guide[M].Second Edition.New York,Oxford University Press,1998:213-214.

[11]Olea R A.Declustering of Clustered Preferential Sampling for Histogram and Semivariogram Inference[J].Mathematical Geology,2007,39:453-467.

[12]Mitchell,andy.The ESRI Guide to GIS Analysis,Volume 2[M].ESRI Press,2005:75-133.

[13]Journel A G,Froidevaux R.Anisotropic hole-effect modeling[J].Mathematical Geology,1982,14(3):217-239.

[14]Ma Y Z,Jones T A.Teacher’s aide modeling hole-effect variograms of lithology-Indicator variables[J].Mathematical Geology,2001,33(5):631-648.

猜你喜欢
变差方根估值
方根拓展探究
献血后身体会变差?别信!
具非定常数初值的全变差方程解的渐近性
带变量核奇异积分算子的ρ-变差
我们爱把马鲛鱼叫鰆鯃
巧用估值法
均方根嵌入式容积粒子PHD 多目标跟踪方法
关于均值有界变差函数的重要不等式
如何创业一年估值过十亿
猪八戒网为何估值过百亿?