钟仪华,李 榕,2,朱海双,张志银
(1.西南石油大学理学院,四川成都 610500; 2.中国石化西南石油局四川钻井公司,四川德阳 618000)
基于主成分分析的水淹层动态预测方法
钟仪华1,李 榕1,2,朱海双1,张志银1
(1.西南石油大学理学院,四川成都 610500; 2.中国石化西南石油局四川钻井公司,四川德阳 618000)
针对高含水期水淹层变化的动态特性,提出一种基于主成分分析的最小二乘支持向量机水淹层动态预测方法.该方法应用数据挖掘方法与改进的支持向量机方法,研究高含水期水淹层的分类识别问题,找到测井参数曲线与水淹级别之间的非线性映射关系,建立适合高含水期水淹特征的动态识别模型.它不仅充分考虑各种影响因素,而且利用主成分分析法准确提取影响水淹级别划分的测井参数曲线,避免模型输入参数间存在相关性导致划分精度低以及模型求解复杂、训练速度慢的缺点.结果表明,该方法较其他方法具有更快的运算速度和更高的识别符合率,其运算速度为43 s,识别符合率达到97.0%,能体现高含水油田水淹层的动态变化特征.
动态预测;水淹层识别;主成分分析;最小二乘支持向量机
油田进入高含水及后期开发阶段,水淹层识别和评价技术成为储层解释的重要环节之一.地球物理测井技术[1-2]在识别和评价水淹层中起重要作用,但当油层水淹后其物性、地下流体性质和孔隙结构发生复杂变化时,储层孔隙度、渗透率等地质参数变化规律难以分析,以它为基础的解释方法适应性差、推广程度低.为此,人们提出了基于地球物理测井的计算机自动识别水淹层的定性识别方法,即通过研究测井参数曲线的变化规律,从模式识别角度,找到映射关系,建立水淹层的自动识别模型,如神经网络、支持向量机、灰色系统理论[3-6]等.现有的水淹层计算识别方法在实际应用中效果很好,但存在准确提取测井曲线物性参数变化规律困难,以及含水率上升引起水淹层动态变化复杂等因素,导致模型输入参数与实际情况差异较大,识别符合率不高.
最小二乘支持向量机[7](Least Squares Support Vecto r Machine,LS-SVM)是SVM的一种变形算法.它除具有解决小样本模式识别问题的支持向量机的特点——泛化能力强,能够较好地解决小样本、非线性、高维数、局部极小点等问题;还能将优化问题转化为等式约束的线性系统求解问题,在保证收敛符合率的情况下,使得运算速度更快.
笔者应用多元统计分析中的主成分分析法对测井曲线进行预处理,从影响水淹级别划分的多个测井曲线参数信息中提取几个相互独立的主成分来综合反映原参数信息,减少模型输入参数个数的同时降低维数;然后依据得到的主成分信息,建立最小二乘支持向量机的水淹层识别模型;最后将此方法应用于处理高含水期的水淹层识别问题,以提高水淹层计算机自动识别模型性能和识别符合率.
基于主成分分析法,研究最小二乘支持向量机分类方法,可以排除输入参数信息之间的相关性、减少模型的输入参数个数、降低维数,且能够提高最小二乘支持向量机分类模型的训练速度和测试速度,使其识别精度与速度得到提高[8].
基于主成分分析的最小二乘支持向量机识别模型步骤:
(1)收集整理分类或识别对象的相关历史数据,并对获取的历史数据进行标准化处理.
(2)确定基于主成分分析的最小二乘支持向量机分类识别系统的输入和输出数据信息.根据支持向量分类机所应用领域的理论,定性分析影响分类效果的影响因素,结合所应用领域的经验知识,最终建立适当的影响因素集.根据步骤(1)构造样本集,并进行归一化处理,然后将样本集分为训练样本集、检测样本集、预测样本集.
(3)利用主成分分析对训练样本集进行主成分分析,将多个相互关联的影响因素转化为少数几个互不相关的综合指标.求解主成分的一般步骤:
①计算各变量之间的相关矩阵 ∑.
(4)对步骤(3)所求出的m个主成分构造相应的LS-SVM模型,并依据主成分对应的历史数据和当前数据对LS-SVM分类器进行训练.
(5)LS-SVM核函数和参数的选择.结合实际情况和支持向量机的分类原理,由核函数和参数的选择方法,选择LS-SVM的核函数类型及其模型参数.
(6)构造并求解基于主成分分析的最小二乘支持向量分类机优化问题和决策函数,最终建立基于主成分分析法的最小二乘支持向量分类识别模型.
针对高含水期水淹层的动态特性,分析高含水期储集层岩性、渗透率、孔隙度、地层水矿化度等的特征,根据模式识别角度,依据影响高含水期水淹层判别的各类影响因素,如测井参数曲线(自然电位、自然伽马等),找到其与水淹级别之间的映射关系;提出基于主成分分析的LS-SVM水淹层动态预测方法,步骤:
(1)依据高含水期水淹特征选取数据样本集.
(2)对测井曲线数据进行预处理,即标准化、归一化处理.
(3)对测井曲线参数信息进行主成分分析提取主成分,作为基于主成分分析的LS-SVM识别模型的最终输入参数信息.
(4)选择LS-SVM分类机模型的核函数并确定参数,使模型达到有效学习精度,建立基于主成分分析法的LS-SVM分类机模型.
(5)运用建立的最优模型对水淹层数据进行分类预测.
选用我国已进入高含水期的A油田水淹层的识别问题,验证此预测方法的识别效果和适用性.
选取A油田4个随深度变化的不同层段、不同井的测井曲线数据及解释结果,其中深度变化范围为1 650~1 700 m,储集层的层段为 I-1层段、I-2层段、I-3层段、I-4层段,井号为 SH45、SH 46、SH 47、SH48、SH 49、SH 50、SH51、SH 52,并且这些数据已完成标准化处理.选取水淹层最为敏感的6种测井曲线 ,即 GR(自然伽马)、AC(声波时差)、SP(自然电位)、Rt(地层电阻率)、RXO(冲洗带电阻率)、POR(孔隙度)测井曲线作为识别模型的输入参数信息,同时选择未水淹、弱水淹、中水淹和强水淹4个水淹级别作为输出参数,建立相应的数据样本集.A油田各层段部分测井曲线数据样本集见表1,其中I-1层段和I-2层段的数据作为识别模型的训练样本集,I-3层段的数据作为检测样本集,I-4层段的数据作为预测样本集.
表1 A油田各层段部分测井数据样本集
由于获得的测井曲线通常表现为非线性特征,因此选取对数归一化方法对储集层厚度及6个测井曲线参数信息进行归一化处理,即
式中:X为经归一化后的测井曲线数值,X∈[0,1];X*为原始测井曲线数值;为测井曲线的最大值;为测井曲线的最小值.将4组数据样本集组合成1组数据,依据MA TLAB编程序分别进行归一化处理.
利用SPSS统计软件求取归一化后的6个测井曲线数据样本各主成分的特征值、各主成分的贡献率及累积贡献率(见表2).
表2 6个测井曲线数据样本主成分的方差分析
由表2可知,前3个主成分的累积方差贡献率最高为88.905%,超过85%,因此可以用这3个互不相关的新变量综合表示原来6个测井参数信息,再运用SPSS统计分析软件计算各主成分的得分.6个测井曲线归一化后的数据样本和主成分得分数据见表3.主成分得分即为识别模型的最终输入参数信息(x1,x2,x3).
表3 归一化后的样本数据及主成分得分
综合比较多项式核函数、Gauss径向基核函数、Sigmoid核函数的训练速度及正确率,见表4.由表4可知,最终选择运行时间为65 s,训练集和测试集正确率分别达到95.0%和86.7%的 Gauss径向基核函数作为LS-SVM决策函数的核函数.
表4 不同核函数性能
文献[9]给出关于LS-SVM模型在处理模式分类问题时,应用 Gauss径向基核函数时参数 C和σ2具体数值的选择范围:高斯分布宽度σ,{0.5,5,10,15,25,50,100,250,500};,k为模式向量的维数;惩罚系数C,{0.01,0.05,0.1,0.5,1.5,10,50,100,1 000}.
参数的求取是先通过网格搜索法选择参数对(C,σ2),然后利用交叉验证法对目标函数进行寻优,使验证精度达到最高,获得最优参数对.该方法可以避免过拟合现象,求取步骤:
(1)将 C和σ2分别取 N=9和 M=9,构成 N×M=81个(C,σ2)组合,且每一个参数对都相互独立,可以采用并行方式进行网格搜索.
(2)通过30重(30-fold)交叉验证法在81组(C,σ2)上搜索选取,即将样本数据集(表1层段I-1、I-2的数据)随机分为30个数据分布近似或相同的集合,其中任意一个集合留作独立的预测集,其余29个合并以后作为训练集,因此可循环训练30次,计算每个参数对的均方误差(M SE)直到网络搜索停止,其中均方误差最小的参数对(C,σ2)就是最佳模型参数,最终得 C=1 000,σ2=0.5.
运用建立的基于主成分分析的LS-SVM水淹层动态预测模型对水淹层预测样本集(表1层段I-4的数据)进行分类预测,与实际资料相比,3个误判,正确率为85.0%,取得较好结果.将此结果与计算机自动识别水淹层的BP神经网络识别方法、支持向量机方法相比,结果见表5.
表5 各分类算法比较结果
由表5可知,新的识别方法在运算速度上达到43 s,训练集和测试集的识别符合率分别提高到97.0%和85.0%.
针对高含水期水淹层物性参数复杂的变化特征,利用主成分分析法对测井曲线进行预处理,结合LS-SVM分类机建立基于主成分分析的LS-SVM水淹层动态预测方法.该方法不仅从理论上解决了输入参数过多导致解释方法适应性差、推广能力低、识别符合率不高等缺点,而且在实际应用中实现了对水淹层进行较高准确度和较好适用性的动态识别,其运算速度达到43 s,识别符合率达到97.0%.因此,这种水淹层测井解释动态预测方法,可用于处理高含水期油层水淹复杂变化的水淹层识别问题,值得推广使用.
[1]赵培华.油田开发水淹层测井技术[M].北京:石油工业出版社,2003:61-188.
[2]Salehi M R,Settari A.New solution for anisotropic formation damage due to p roduced water re-injection[J].Journal of Canadian Petroleum Technology,2009,48:50-60.
[3]刘金月,许少华.基于小波包分析和过程神经元网络的水淹层识别方法[J].大庆石油学院学报,2008,32(1):74-76.
[4]单智萍,曹茂俊.基于Boosting的油田水淹层识别算法[J].大庆石油学院学报,2006,30(3):97-99.
[5]李盼池,许少华.支持向量机及其在复杂水淹层识别中的应用[J].计算机应用,2004,24(9):147-149.
[6]赵军,程鹏飞,刘地渊,等.支持向量机在水淹层测井识别中的应用[J].物探与化探,2008,32(6):652-655.
[7]姜静清.最小二乘支持向量机算法及应用研究[D].长春:吉林大学,2007.
[8]钟仪华,李榕.基于主成分分析的最小二乘支持向量机岩性识别方法[J].测井技术,2009,33(5):425-426.
[9]Blake C L,Merz CJ.UCI repository of machine learning database.Livine[R].CA:Univcisity of California,Dep t of information and computer science,1998.
Dynam ic prediction of water-flooded layer based on the principal com ponen t analysis/2011,35(2):51-55
ZHONG Yi-hua1,L IRong1,2,ZHU Hai-shuang1,ZHANG Zhi-yin1
(1.School of Sciences,Southw est Petroleum University,Chengdu,Sichuan 610500,China;2.Sichuan D rilling Com pany,Southw est Petroleum Bureau,SINOPEC,Deyang,Sichuan 61800,China)
According to the characteristic of water-flooded zone during high water cut stage,dynamic p rediction method of w ater-flooded layer w ith least squares suppo rt vector machine based on the p rincipal component analysis is p roposed in this paper.This method used data mining method and the imp roved support vectormachinemethod to study the classification of water-flooded layer in high water cut oilfields;found the non-linear mapping betw een logging curve and water-flooding levels;and established the dynamic recognition model of water-flooded layer log interp retation.It not only fully considers the various influence factors,but also extracts logging parameter curve that can affect the division of water flooded levels by using the p rincipal component analysis method,w hich can avoid the shortcomings of low accuracy of division fo r there are co rrelation betw een input parameters and solving comp lex and slow training w hen solving themodel.The results show that the operation speedsand recognition p recision of the method p roposed in this paper are all better than other recognition methods;its average running time isonly 43 seconds,average recognition p recision is 92%.Moreover the new method could reflect the dynamic characteristics of water-flooded layer in high w ater cut oil fields.
dynamic p rediction;water-flooded layer recognition;p rincipal component analysis;least squares suppo rt vecto r machine
TE357.8
A
1000-1891(2011)02-0051-05
2010-06-22;审稿人:张继成;编辑:关开澄
四川省教育厅重点项目资助(07ZA 143)
钟仪华(1965-),女,博士,教授,主要从事石油工程计算和优化决策方面的研究.