支持向量机方法在地球物理学中的应用与展望

2012-08-06 09:55李希亮李栋梁董晓娜吴丹桐赵小贺
华南地震 2012年4期
关键词:超平面向量储层

李希亮, 李栋梁, 张 玲, 董晓娜, 吴丹桐,李 霞, 金 鹏, 赵小贺

(1. 山东省地震局, 山东 济南 250014; 2. 潍坊市地震局, 山东 潍坊 261041)

0 引言

统计学习理论(Statistical Learning Theory) 是一种专门研究小样本统计的理论, 隶属于计算机科学、 模式识别和应用统计学相交叉与结合的范畴, 也是一种专门针对有限样本预测问题的纯理论分析工具。 随着统计学习理论的不断完善和发展, 产生了一种有效的机器学习方法—支持向量机(Support Vector Machine, 简称SVM[1]。 支持向量机是基于统计学习理论的新一代学习算法[2~4], 它不但能较好地解决以往困扰很多学习方法的小样本、 过学习、高维数、 局部最小等实际难题, 而且还具有很强的泛化(预测)能力。 SVM 在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势, 并能够推广应用到函数拟合等其他机器学习问题中, 目前已经在文本分类、 手写识别、 图像分类和生物信息学等领域中都取得了成功的应用, 在解决非线性地球物理反演问题中也有显著成效。

1 支持向量机分类原理[5、6]

SVM 分类是从线性可分情况下的最优分类面发展而来的。 假如两类样本(训练集)是线性可分的, 那么机器学习的结果就是一个超平面(二维情况下是直线)或者称为判别函数,该超平面可以将训练样本分为正、 负两类。

按照结构风险最小的要求, 最优超平面不但要将两类训练样本正确分开, 而且还要使分类间隔最大, 事实上就是对推广能力的控制, 这正是SVM 的核心思想之一。 分类间隔是指两类中离分类超平面最近的样本且平行于分类超平面的两个超平面间的距离, 或者说是从分类超平面到两类样本中最近样本的距离的和。 此类最近样本有可能多于两个, 但正是它们决定了分类超平面, 也就确定了最优分类超平面, 这些样本就是支持向量(Support Vectors)[7]。

该约束优化问题可以用Lagrange 方法求解, 设

其中ai≥0 为每个样本的拉氏乘子, 由于L 分别对b 和w 的导数为0, 可以导出

其中解向量有一个由训练样本集的一个子集样本向量构成的展开式, 该子集样本的拉氏乘子均不为0, 其样本向量即为支持向量。 拉氏乘子为0 的样本向量的贡献为0, 那么对选择分类超平面也就没有意义了。 于是, 可以从训练集中得到了描述最优分类超平面的决策函数, 也就是支持向量机, 它的分类功能由支持向量决定。 这样决策函数表示为

在线性不可分时, 例如存在噪声数据的情况, 可以在式(2)中增加-个松弛项ζ(ζ≥0)成为

将目标函数改成求下式最小

而对于实际上难以线性分类的问题, 待分类样本应该通过选择适当的非线性变换映射到某个高维的特征空间, 使这些样本在目标高维空间线性可分, 从而转化为线性可分的问题。 如果这个非线性转换为Ψ(x), 则超平面分类决策函数式(6)可重写为

在上面的问题中, 只是涉及到训练样本之间的内积运算, 在高维空间实际上只需进行内积运算即可, 这可以用原空间中的函数实现, 甚至没有必要知道变换的形式。 依据泛函数的相关理论, 只要一种核函数K(x·xi)满足Mercer 条件, 它就可以对应某一变换空间中的内积。 引入核函数则超平面分类决策函数式变成

常见的核函数有3 类:

(1)多项式核函数

(2)径向基核函数(RBF)

(3)Sigmoid 核函数

其中, RBF 函数由于其优秀的局部逼近特性在SVM 中应用尤为广泛, 它利用局部接收域完成函数映射, 只有当输入落人输入空间的一个局部区域时, 基函数才可以产生一个非零响应, 而其他情况下的响应可以近似为零。

2 在地震勘探中的应用

地震勘探离不开地震数据, 而去噪技术在地震数据处理过程中又占据着重要的地位。随着地震勘探事业的发展, 去噪技术也有了很快的发展。 地球物理工作者们在不断地改进现有去噪方法的同时, 也在不断地探索新的去噪技术。 基于支持向量机去噪方法的最大特点是解决小样本学习问题, 改变了传统的经验风险最小化原则, 因此该方法能很好地应用到信噪比很低的数据中, 无论噪声强弱, 基于支持向量机的去噪方法都能给出满意的结果[8]。支持向量机方法的泛化能力要明显优越于神经网络等传统学习方法, 同时它还采用了核映射的思想, 有效地克服了维数灾难及局部极小的问题[9]。

邓小英就最小二乘支持向量机(LS-SVM: Least Square Support Vector Machine) 在地震勘探信号去噪中的应用问题, 讨论和分析了基于Ricker 子波核的LS-SVM 的参数设置对去噪效果的影响, 对含不同强度噪声的地震勘探信号进行去噪处理的仿真实验表明, 无论噪声强弱, LS-SVM 方法所恢复的信号从波形光滑程度、 相位偏差、 高频成分数量等方面考察, 均好于传统的Wiener 滤波方法[10]。

3 在油气储层预测中的应用

储层厚度的预测是油气藏描述的一项关键技术, 然储层厚度和地震信息之间的关系是非线性的, 其他的数学方法很难拟合。 地震属性参数不仅与岩性、 深度有关, 而且与孔隙度、 渗透率、 泥质含量、 含油饱和度等有密切关系[11]。 含油性预测与储层参数预测具有很大的区别, 因为两者预测的目标不同, 所用的属性也有区别。 利用地震波波形进行含油性预测的支持向量机方法是直接将地震波波形作为输入向量, 充分地利用了地震波的属性, 避免了属性参数提取和属性优化分析过程中的大量工作, 实现起来更方便, 应用效果也十分显著[12]。 储层的横向变化需要综合利用地震、 测井资料得到较精确的储层厚度分布图,Doyen 在1988年的Geophysics 上提出了利用协克里金方法整合井震数据, 并进行了储层厚度的预测[13], 但这种方法容易产生平均效应。 随后, 又有了配置克里金、 Block 克里金及各种改进的储层厚度预测方法, 目前综合地震测井预测储层参数的方法有多元逐步回归、 神经网络、 协克里金等[14、15]。 这些方法普遍受到样本数目的限制, 特别是神经网络方法, 样本的数目可能产生网络的过学习问题。

常用的储层参数预测方法大多是建立在线性模型基础之上的, 这只是实际模型的一定程度的近似, 而一些非线性方法又存在着许多影响预测效果的因素。 支持向量机方法使用了与传统方法完全不同的思路, 即不是像传统方法那样先试图将输入空间降维(特征选择和特征变换), 而是设法将输入空间升维, 以求在高维空间中将复杂问题变成线性问题或接近于线性问题。 利用该方法进行非线性函数拟合比较圆满地解决了通用性和推广性的问题。支持向量机方法可以根据样本数据采用自动拟合的方法构造核函数, 从而使得建立的预测模型不仅具有较高的拟合精度, 而且具有较好的推广性[16]。 唐小彪通过实例看到用支持向量机方法能够充分利用训练样本的特性, 不需要过多的先知信息, 建立满意的预测模型, 避免了维数灾难, 克服传统非线性函数拟合方法要求先知道非线性函数形式的缺点, 并且预测得出的储层厚度的准确率是很高的: 一维情况达到了92.94% , 二维情况达到了97.62%[17]。张彦周等将支持向量机运用到储层厚度估计中, 利用地震属性及少量测井作为学习样本进行储层预测。 通过引入窗口核函数, 准确地反映了不同深度的地质信息[18]。 许建华等将最小二乘支持向量机应用于油气勘探开发中的油气判别, 提出了基于最小二乘支持向量机算法的油气判别技术, 试验结果证明此技术在储集层油气横向预测和测井资料油气判别中是有效性的[19]。 姚凯丰等提出了一种基于特征扩展和特征选择的改进SVM 方法。 该方法将原始特征通过非线性变换到高维空间, 然后应用线性SVM 进行特征选择, 选择错误率较小的特征子集来设计线性SVM 分类器。 在通用数据的实验中, 这种方法仅仅用较为简单的多项式核函数就大大提高了分类器的泛化能力。 与传统的模糊数学方法、 神经网络方法和SVM 方法相比, 这种方法在四川观音场构造的碳酸岩盐储层数据的预测误差降低了50% , 是一种有效的油气预测方法[20]。

4 在大地电磁中的应用

为获得高品质的大地电磁测深资料, 必须减少噪声干扰、 提高资料信噪比、 消除非构造因素对反演结果的影响。 支持向量机的最大特点是解决小样本学习问题, 改变了传统的经验风险最小化原则, 是针对结构风险最小化原则提出的, 因此具有很好的推广能力。 张翔等利用基于支持向量机回归的去噪方法, 较好地消除了噪声的影响, 同时对消除部分测点的地形与局部异常体的影响也有一定的作用[21、22]。

5 在地震监测中的应用

5.1 地震事件识别

天然地震与人工爆破的震源性质是截然不同的。 天然地震大多发生于地下几公里至几十公里的地壳深处, 其震源是非对称剪切源[23]; 而人工爆破(包括化学爆破、 地下核爆炸等)多位于地表附近, 其爆破源为对称膨胀源。 自上世纪50年代开始, 国内外在这两类事件的识别方面进行了广泛和深入的研究, 并提出了多种识别判据, 但是由于地震信号本身的复杂性, 有些识别判据的识别效果或适用性仍有不足, 某些判据仅仅适用于一些特定的地区和台站记录。 地震观测台网记录到的事件信号中包含了很多人工地震。 这些事件的记录, 如果不能及时剔除, 会混淆我们的地震目录, 影响地震学的研究工作。 在天然地震与人工爆破事件的分类识别中, 如何提取出有效的识别特征是识别的关键。

黄汉明等研究了如何从天然地震和人工爆破事件的波形记录中提取出有效、 适用的波形特征, 以用于对爆破事件的识别。 利用γ-SVC 支持向量分类机进行了外推检验.通过选用不同地区、 不同台站、 不同震级的天然地震与人工爆破的波形记录, 力求提取的特征量能尽可能地反映天然地震与人工爆破波形的本质区别, 尽量弱化震中距、 震级等因素对识别效果的影响, 结果表明, 能反映天然地震与人工爆破的本质区别, 可作为识别天然地震与人工爆破的一个有效判据[24]。 黄汉明等还利用γ-SVC 支持向量分类机研究了信号窗口与地震事件识别间的关系, 波形记录选取信号窗长度的不同对识别效果有影响, 这也表明合理地选取波形记录的信号窗长度也是很重要的[25]。

5.2 在地震预测中的应用

随着地震监测及其前兆数字化观测的普及, 地震预测面临着海量数据的应用问题, 因此, 在地震预测过程中, 数据挖掘技术有着广泛的应用领域。 支持向量机(SVM)基于统计学习理论, 可以处理高度非线性分类和回归等问题, 不但较好地解决了小样本、 过学习、高维数、 局部最小等实际难题, 而且具有很强的泛化(预测)能力[26]。

我们通过支持向量机的分类方法可以对地震序列和地震活动参数进行深入研究, 给地震序列和地震活动参数做出正确的判断等, 还可以使用支持向量机回归方法对某一地区的地震时间序列进行预测。 武安绪等根据支持向量机线性分类和可以具有不同核函数的非线性分类两种算法, 建立了地震序列分类模型。 通过试算和分析比较得到了地震序列最佳分类模型, 最佳模型的分类结果与实际地震序列分类基本一致。 综合分析认为支持向量机算法无论在学习或者预测精度方面都具有很大的优越性, 其获得的地震序列分类知识库可以较为准确地实现地震序列类型的分类, 因此基于支持向量机理论建立的地震序列分类模型应该是可行的[27]。 李志雄等以太阳黑子数、 地球自转速率变化数据和全球7 级以上地震个数作为预测因子, 使用支持向量机分类方法建模, 预测了中国西南地区年度地震强度, 预测效果较好, 说明支持向量机分类方法有一定的实用性[28]。

同时利用支持向量机的分类方法对地震前兆数据进行分类, 从中提取地震前兆异常信息, 还可以利用支持向量机的分类方法对地震前兆干扰因素进行排除。 利用支持向量机对正常背景场下的地震前兆数据进行回归, 或者建立起地震前兆数据与各类影响因子之间的关系模型, 从而识别地震前兆数据的异常或干扰, 从而利用这些信息进行地震预测。 杨柳建立了一套基于前兆异常信息的支持向量机地震短期预测模型,该模型较好地描述了前兆异常信息与最大震级之间的非线性关系[29]。

6 结论与展望

支持向量机方法在的模式识别分类和去噪具有很多优势, 它在地震勘探、 油气储层预测和地震监测中的应用已经得到了推广, 说明此方法在地球物理学研究中是有效的, 可以推广的。

随着地球物理学研究的不断深入, 在实际的研究过程中所面临的问题也逐渐复杂化、精细化。 支持向量机方法的参数设置会随着应用目的、 观测数据和误差精度等的不同而不同, 恰当的参数设置会产生优良的学习性能。 另外, 目前去噪方法大多基于二维的地震数据, 而随着科学技术的不断发展, 基于三维地震数据的支持向量机方法保幅去噪技术, 也正在成为地球物理研究热点。

[1] Cortee C.Vapnik V .Support vector Networks[J]. Machine Leaning, 1995, 20: 273~297.

[2] Cristanini N, Shawe-Taylor J 著, 李国正, 王猛, 曾华军译.支持向量机导论[M].北京: 电子工业出版社,2004, 47-106.

[3] 祁亨年. 支持向量机及其应用研究综述[J]. 计算机工程, 2004, 30 (10): 6~9.

[4] 宇缨, 李清华.统计学习理论和支持向量机[J]. 沈阳大学学报, 2005, 17 (4): 42~47.

[5] Alex J Smola,Bemhard Schoelkopf.A tutorial on suport vertor regression[R]. neuroCOLT2 Techical Report Seris NC2-TR-198030,1988.

[6] 张学工. 关于统计学理论与支持向量机[J]. 自动化学报, 2000, 26 (1): 33~42.

[7] Byun H, Lee S W.Applications of Support Vector Machines for Pattern Recognition: A Survey [C] //Lee S W, Verri A (Eds) .SVM LNCS 2388, 2002, 213~236.

[8] 张孝珍, 董汉强. 地震勘探中的去噪技术新进展[J]. 勘探地球物理进展, 2009, 32(3): 172~178.

[9] Cherkassky V,Yunqian M.Practical selection of SVM parameters and noise estimation for SVM regression [J].Neural Networks, 2004, 17: 113-126.

[10] 邓小英, 李月. Ricker 子波核最小二乘支持向量机在地震勘探信号去噪应用中的参数设置研究[J]. 地球物理学进展, 2007, 22(3): 953~958.

[11] Chen Q, Sideney S.Seismic attribute technology for reservoir forecasting and monitoring[J]. The Leading Edge, 1997, 16 (5): 445.

[12] 王永刚, 乐友喜等。 河道砂体含油性判别方法[J]. 石油地球物理勘探, 2005, 40 (4): 459~462.

[13] Doyen PM.Porosity from seismic data:Ageostatic approach[J]. Geophysics,1988.53 (10): 1263-1275.

[14] Vapnik V.Levin E.Cun YI.Measuring the VC dismension of a learning machine[J]. Neural Computation.1994,6(5): 851_876.

[15] Li Jiakang.Castagna J.Li Dong-an,et al.Reservoir prediction via SVM pattern recognition[R]. SEG Int'I Exposition and 74th Annual Meeting, 2004, 425-428.

[16] 乐友喜, 袁全社. 支持向量机方法在油气储层参数预测中的应用[J]. 天然气工业, 2005, 25 (12): 45~47.

[17] 唐小彪. 基于对应分析的支持向量机回归在地震储层厚度预测中的应用[J]. 物探与化探, 2009, 33 (4):468~471.

[18] 张彦周, 刘叶玲, 谢宝英, 等.支持向量机在储层厚度预测中的应用[J]. 勘探地球物理进展, 2005, 28(6): 422~424.

[19] 许建华, 张学工, 李衍达. 基于最小二乘支持向量机的油气判别技术[J]. 模式识别与人工智能,2002, 15 (4): 507~510.

[20] 姚凯丰, 陆文凯, 丁文龙, 等.一种基于SVM 特征选择的油气预测方法[J]. 天然气工业, 2004, 24(7): :36~38.

[21] 张翔, 刘晓敏. 基于支持向量机回归的去噪方法及其应用[J]. 工程球物理学报, 2005, 2 (3): 191~194.

[22] 张翔, 刘晓敏. 基于支持向量机的去噪在电法勘探中的应用[J]. 石油天然气学报, 2005, 27 (3): 338~340.

[23] 曾融生, 陈运泰. 探测地球内部的 “雷达” 地震波(续)[J]. 城市防震减灾, 2000, (6): 12-14.

[24] 黄汉明, 边银菊, 卢世军, 等.天然地震与人工爆破的波形小波特征研究[J]. 地震学报, 2010, 32 (3):271~276.

[25] 黄汉明, 边银菊, 卢世军, 等. -SVC 算法在地震与爆破识别及窗长度选取中的应用[J]. 地震地磁观测与研究, 2010, 31 (3): 24~31.

[26] 王 炜, 林命遇, 马钦忠, 等.支持向量机及其在地震预报中的应用前景[J]. 西北地震学报, 2006, 28(1): 78~84.

[27] 武安绪, 蒋长胜, 王琳英, 等.基于支持向量机的地震序列分类[J]. 东北地震研究, 2008, 24 (1): 50~60.

[28] 李志雄, 袁锡文, 丁军, 等.中国西南地区强震预测的支持向量机方法[J]. 地震研究, 2007, 30 (2):134~136.

[29] 杨柳. 支持向量机方法在地震短期预测中的应用[J]. 华北地震科学, 2010, 28 (3): 10~15.

猜你喜欢
超平面向量储层
向量的分解
全纯曲线的例外超平面
输导层
——北美又一种非常规储层类型
涉及分担超平面的正规定则
基于边界探测技术的储层识别与追踪
聚焦“向量与三角”创新题
以较低截断重数分担超平面的亚纯映射的唯一性问题
基于储层构型研究的储层平面非均质性表征
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线