陈文浩, 王志章, 董少群, 侯加根
(1.中国石油大学(北京)地球科学学院, 北京 102249;2.中国石油大学(北京)油气资源与探测国家重点实验室, 北京 102249)
常规砂岩储层通常依据声波线性解释储层的孔隙度,其合理解释是储量估算及储层评价工作的重点和难点。对于致密砂岩储层,声波与孔隙度不具线性关系,已有的孔隙度线性解释方法不适于解释致密砂岩储层的孔隙度。王洪辉等[1]认为简单的线性解释致密砂岩储层孔隙度难以满足致密砂岩储层评价的要求。张永浩等[2]模拟致密砂岩储层条件时,对声波速度与孔隙度进行实验分析,发现孔隙度随压力增大呈幂函数减小,而声波速度随压力增大呈幂函数增大,所以孔隙度与声波速度的线性关系随压力增大而变差。常规砂岩储层孔隙度线性解释模型不适于致密砂岩储层的孔隙度解释。与核函数融合形成的核岭回归算法[3-6]不仅可以有效处理非线性问题,而且具有参数少、建模时间短、运算速度快等优点[7],具有广泛的应用空间,但在油气储层预测中的应用研究较少。本文阐述核岭回归建立致密砂岩孔隙度解释模型,并用来解释致密砂岩储层的孔隙度,分析多种方法的解释结果,认为核岭回归是建立致密砂岩储层孔隙度解释模型的有效方法。
线性回归中的欠定问题,最小二乘回归的效果较差。为此,众多学者提出了最小二乘回归的改进方法,其中比较经典的是Hoerl和Kennard[8-9]提出的岭回归算法。之后Saunders等尝试用核技巧改进岭回归算法,核岭回归(Kernel Ridge Regression,KRR)由Cristianini和Shawe-Taylor正式使用[10],是简化的支持向量回归机,相对于支持向量回归机,具有引用参数少、节省机时等优点。
设有n个样品,每个样品有m个自变量和1个因变量,它们的观测值构成数据矩阵X和Y,即
X=x11x12…x1n
x21x22…x2n
⋮⋮⋮
xm1xm2…xmn
Y=y1y2…yn
(1)
式中,xij(i=1,2,…,m;j=1,2,…,n)为j样品第i个自变量的观测值;yj(j=1,2,…,n)为因变量的第j个观测值。
最小二乘法线性回归依据式(1)数据,求解线性回归模型y=b0+∑mi=1bixi中待定常数与待定系数b0、b1、…、bm的最佳估计值a0、a1、…、am,得线性回归方程
j=A·Xj+a0(j=1,2,…,n)
(2)
式中,A=a1a2…am为线性回归方程的系数向量;Xj为矩阵X的第j元素构成的列向量;A·Xj为二者的内积;a0为常数。求解线性回归方程常数和系数的原则是使损失
Q=∑nj=1(yj-j)2
达到最小。
对于线性回归中的欠定问题,在损失最小原则下求解A和a0得到的方程会是病态方程。为解决该问题,Hoerl和Kennard引入了损失函数
L(A,a0)=γA·A+Q
(3)
式中,A·A为正则化项;Q为拟合损失项;γ为正则化参数,γ>0,它对A·A和Q起平衡作用,称这种有权重因子的回归算法为岭回归算法。若式(3)中γ=0,则为最小二乘意义下的回归分析。
对于标准差标准化变量,式(3)中a0等于0。因此。可将损失函数写为矩阵形式
L(A)=γAAT+(Y-AX)(Y-AX)T
(4)
对式(4)中参数A求偏导,并令其为0,可以得到岭回归模型的待定系数
A=(XXT+γI)-1XYT
(5)
式中,I为m×m的单位矩阵。
线性岭回归算法中正则化项的引入使回归方程具有较好的稳定性和泛化能力。但是,这种算法不能有效处理自变量间存在非线性相关的情况,这是线性回归算法普遍存在的一个局限性。实际应用中,用核技巧改进后的岭回归算法,即核岭回归算法可以有效解决上述问题。
1.2.1 核岭回归算法基本原理
将原始空间Rm中的n个样品用某一非线性映射函数φ映射到一个高维特征空间F中,样本数据变为φ(Xj),(j=1,2,…,n)。映射后可以在F中进行岭回归,回归方程的形式与式(2)类似,即
j=A·φ(Xj)+a0
(6)
相应的损失函数也有类似的形式
L(A,a0)=γA·A+Q
(7)
对于标准差标准化变量,损失函数的矩阵形式为
L(A)=γAAT+(Y-AX)(Y-AX)T
(8)
式中,X=φ(X1)φ(X2)…φ(Xn),权系数向量为A=a1a2…。对式(8)中A求偏导,并令其为0,得
λA+XTAX=XTY
(9)
因非线性映射φ未知,故X、A未知。在实际应用中一般求不出A的显式表达式。将式(9)重新改写后可得
A=λ-1XT(Y-AX)=XTα
(10)
其中,α=λ-1(Y-AX)。式(10)表明,A可以变换成样品点的线性组合,α又可改写为
α=(XXT+λI)-1Y=(K+λI)-1Y
(11)
其中,K称为核矩阵,kij=φ(Xi)·φ(Xj)为核函数,记为K(Xi,Xj)
对于新的样品Xi,y的估计值
i=α·φ(Xj)=YT(K+λI)-1k
其中,k是n维的列向量,向量的元素为φ(Xi)与φ(Xj)的内积。
通过上述变换,可以避免直接显式地计算映射φ(xi),解决了非线性回归的问题。
1.2.2 核岭回归方法中的参数
(1) 核函数中参数。应用核岭回归算法,首先要确定核函数,总体思路是将输入向量表示为内积的形式。目前,应用较广泛的核函数有3种类型。
①多项式核函数K(x,y)d,d为常数;
②神经网络核函数K(x,y)=tanh(β0(x,y)+β1)
③高斯径向基核函数K(x,y)=e-‖x-y‖2σ2,σ为控制着2个样品的相似程度的参数。
高斯径向基核函数具有良好的泛化性能[11],本文将使用高斯径向基核函数,σ过小时易出现过渡拟合,过大时又会使拟合精度下降,因此,σ的取值涉及算法的拟合精度。
(2) KRR中正则化参数。对于核岭回归,除了核函数,还需要确定正则化参数γ。从均方根误差图(见图1)可知,正则化参数γ过大或过小都将减低拟合精度。
图1 λ对拟合误差的影响
以红岗油田H90区块致密砂岩储层为例进行孔隙度解释研究,该储层主要分布于扶余油层(泉四段)。区内发育辫状河三角洲平原和前缘亚相,主要砂体为平原亚相的分流河道砂、溢岸薄层砂及前缘亚相的水下分流河道砂。主要岩性为长石岩屑砂岩,多中砂质细粒。泉四段油层物性较差,孔隙度为3%~13%,最高14.6%,平均8.03%;渗透率多为0.024~1 mD*非法定计量单位,1 mD=9.87×10-4 μm2; 1 ft=12 in=0.304 8 m; 下同,最高3.6 mD,平均0.294 mD,为低孔隙度超低渗透率储层。
2.1.1 核岭回归
(1) 样本曲线。选择与孔隙度相关密切的样本曲线,以减少输入变量,提高训练速度和精度。该地区三孔隙度测井响应与孔隙度关系较为密切,其中声波时差AC与孔隙度的相关系数为0.716 2,中子CNL与孔隙度的相关系数为0.664 1,密度DEN与孔隙度的相关系数为-0.730 1(见图2)。
(2) 核岭回归解释孔隙度。以三孔隙度测井曲线作为孔隙度解释模型的输入。利用核岭回归解释孔隙度,还需要确定模型中的正则化参数γ和核函数参数σ。对于这2个参数的选取,还没有统一公认的最优方法,目前常用网格搜索法和交叉验证法进行优选(见图3)。
参数优选的实现过程是给出γ和σ的取值区间,对于取定的γ和σ,把训练集作为原始数据集利用K-CV方法得到该组γ和σ下训练集预测结果,根据预测精度选择γ和σ。网格搜索即在选定的范围内,让γ和σ呈指数增长,首先选取粗网格进行搜索,得到一组最优参数;然后逐步减小步长,最终获得所需参数。图3中红点对应解释模型的最优参数,其中γ=0.064 8,σ=1.393 7。
图2 三孔隙度参数与孔隙度交会图
图3 网格搜索法与交叉验证法确定γ和σ
2.1.2 解释孔隙度精度比较
为了比较不同孔隙度解释方法的解释精度,分别采用线性回归、逐步回归、BP神经网络、支持向量回归机方法解释孔隙度,与核岭回解释孔隙度精度比较(见表1)。
表1 不同孔隙度解释方法的解释精度统计表
(1) 一元线性回归解释孔隙度模型分别为
φ=0.140AC-22.37
φ=0.664CNL+2.077
φ=-17.72DEN+53.94
(2) 多元线性回归解释孔隙度解释模型为
φ=0.0753AC+0.0040CNL-9.8790DEN+12.8709
(3) 逐步回归解释孔隙度模型为
φ=0.076AC-10.1711DEN+17.8858
φ=-0.0013AC2-35.1002DEN2+
0.6739AC+0.1996CNL+169.809DEN
(4) BP神经网络解释孔隙度
(5) 支持向量回归机方法解释孔隙度
根据表1各种方法的均方根误差值可以看出,线性回归解释孔隙度方法虽然快捷,但是预测精度相对较差,4种非线性方法预测结果精度提升明显,但相对而言,KRR方法的预测精度要略高于这些方法。表明针对致密砂岩储层孔隙度的测井解释,采用非线性算法提取的特征比线性算法提取的特征包含更准确的信息,证明致密砂岩孔隙度解释呈现非线性趋势大于呈现线性趋势。
为了对比3种非线性模型的执行效率,对训练时间进行了统计。表1中运算时间为模型训练时间,统计结果在i5 2.0 GHz CPU、1 G RAM、MATLAB R2009a环境下得到。从表1中运算时间可以看出支持向量回归算法需要求解二次规划问题,运算时间大大高于只需进行线性方程组求解的核岭回归算法;同样,神经网络模型训练耗时1.9 s,核岭回归算法仅需0.5 s。核岭回归算法具有参数少、训练时间短、计算效率高的特点。
图4 不同孔隙度解释方法对H90井孔隙度解释效果对比
由不同孔隙度解释方法解释H90井的孔隙度图(见图4)可以看出,单参数线性回归和多参数线性回归解释的上部砂体的孔隙度均大于真实的孔隙度,3种非线性方法解释的孔隙度与样品孔隙度较接近。
(1) 核岭回归拟合方法能较好地解决非线性问题。对于致密砂岩储层,采用KRR解释孔隙度具有更好的预测效果。
(2) 基于核函数的非线性方法方法建立岭回归解释模型能够尽可能地提取测井信息与储层孔隙度之间的非线性映射关系,对其他地区致密砂岩储层的孔隙度解释具有一定的参考作用。
参考文献:
[1] 王洪辉, 黎鹏, 段新国. 四川盆地须家河组低孔致密砂岩孔隙度测井解释研究 [J]. 成都理工大学学报: 自然科学版, 2009(3): 249-252.
[2] 张永浩, 杜环虹, 李新, 等. 苏里格气田致密砂岩储层条件下声波速度与孔隙度实验研究 [J]. 测井技术, 2013, 37(3): 229-234.
[3] Vladimir N V. The Nature of Statistical Learning Theory [J]. New York: Springer-Verlag, 1995: 20-30.
[4] 印兴耀, 孔国英, 张广智. 基于核主成分分析的地震属性优化方法及应用 [J]. 石油地球物理勘探, 2008(2): 179-183.
[5] 唐耀华, 张向君, 高静怀. 基于地震属性优选与支持向量机的油气预测方法 [J]. 石油地球物理勘探, 2009(1): 75-80.
[6] 钟仪华, 李榕. 基于主成分分析的最小二乘支持向量机岩性识别方法 [J]. 测井技术, 2009, 33(5): 425-429.
[7] 李琦, 邵诚. 基于核岭回归的非线性系统辨识及其应用 [J]. 系统仿真学报, 2009(8): 2152-2155.
[8] Arthur E Hoerl, Robert W Kennard. Ridge Regression: Biased Estimation for Nonorthogonal Problems [J]. Technometrics, 1970, 12(1): 55-67.
[9] Arthur E Hoerl, Robert W Kennard. Ridge Regression: Applications to Nonorthogonal Problems [J]. Technometrics, 1970, 12(1): 69-82.
[10] Nello Cristianini, John Shawe-taylor. An Introduction to Support Vector Machines and Other Kernel-based Learning Methods [M]. Cambridge: Cambridge University Press, 2000.
[11] Kristiaan Pelckmans, Jos De Brabanter, J A K Suykens. The Differogram: Non-parametric Noise Variance Estimation and its Use for Model Selection [J]. Neurocomputing (S0925-2312), 2005, 69(3): 100-122.