基于贝叶斯证据框架下SVM的油层识别模型研究

2016-07-04 10:30夏莘媛潘用科
关键词:支持向量机

夏莘媛,戴 静,潘用科,韩 扬

(1. 河北工业大学 电子信息工程学院,天津 300401;2. 华北理工大学 迁安学院,河北 迁安 064400)



基于贝叶斯证据框架下SVM的油层识别模型研究

夏莘媛1,戴静2,潘用科1,韩扬1

(1. 河北工业大学 电子信息工程学院,天津 300401;2. 华北理工大学 迁安学院,河北 迁安 064400)

摘要:支持向量机(support vector machine,SVM)方法在石油测井领域的油层识别中取得了很好的应用效果,但SVM方法的识别效果受到惩罚参数和核参数的影响,不同的参数组合直接影响识别精度的优劣。为了在油层识别中获得更好的识别效果,提出一种基于贝叶斯证据框架下SVM的油层识别模型,即根据测井数据的训练样本信息,采用贝叶斯证据框架的理论求解惩罚参数以及核参数,再通过所求得的决策函数对测井数据的测试样本进行识别。实际测井数据实验表明,基于贝叶斯证据框架下SVM的油层识别模型的油层识别效果得到提高,优于传统SVM方法和基于粒子群优化算法(particle swarm optimization,PSO)的SVM方法。

关键词:支持向量机;油层识别;贝叶斯证据框架

0前言

油层探测信息是多源、多参数、多侧面的耦合信息。在油层识别中,由于信息量巨大、样本空间复杂,且探测的信息与目标缺少完全一致性和因果性[1],因此油层模式识别是一个复杂的非线性动态随机过程。识别首先要做分类,分类问题是数据挖掘领域的一个基本问题,是根据预定义的目标类和所建立模型来确定对象的类别。分类问题在现实生活中有许多不同的应用,例如:文本分类、人脸识别、图像分类、油层识别等。近年来,智能分类方法中的支持向量机(support vector machine,SVM)[2]得到广泛应用,成为不少学者探索研究的对象。

基于统计学习理论的SVM是在VC维[3]的基础上,采用结构风险最小化[4]的思想取代了机器学习的经验风险最小化,从而了避免了过学习的现象。SVM的非线性处理能力和泛化能力比较好,并且全局收敛性要优于一般的学习机[5]。因此,SVM能够非常巧妙地处理非线性问题, 即通过一个非线性变换将样本映射到一个高维空间中,再引入核函数将高维空间内的运算转化为求内积的形式,这样避免了复杂的数学运算。但这种传统SVM的性能往往受到核参数和惩罚参数的影响,使得油气识别的精度得不到进一步的提高。

为解决以上问题,本文提出利用贝叶斯证据框架的思想,推导核参数和惩罚参数,从而提高SVM的识别精度,并应用于油层识别中以获得理想的识别效果。

1SVM方法描述

设一组个数为l,维数为n的训练样本集{(x1,y1),(x2,y2),…,(xi,yi),…,(xl,yl)},x∈Rn,类别标签yi={-1,+1}。识别的实质就是构造一个最优超平面[6]f(x,w),使不同类别的训练样本之间的间隔最大。

当数据样本非线性可分时,将数据样本映射到高维空间,将xi·xj变换成φ(xi)·φ(xj),再引入核函数K(xi·xj)=φ(xi)·φ(xj)。其中,核函数K(xi·xj)须满足Mercer条件[7],其作用是防止在高维空间内复杂的内积计算,从而避免了维数灾难。于是非线性问题变成了线性问题,然后再通过构造最优超平面对测试样本集进行识别。

SVM的优化问题[8]可表示为

(1)

(1)式中,C为惩罚参数,是错分样本比例与算法复杂度之间的折中。其对偶形式为

(2)

其决策函数为

(3)

本文采用最小序贯优化算法(sequential minimal optimization,SMO)来求解SVM的二次规划(quadratic programming,QP)问题。SMO算法由John C Platt提出,是分解算法的一种特殊情况。它将QP问题分为若干个子问题,每次处理2个数据样本的优化问题。它的特点是运算速度快,性能佳,特别在线性SVM和数据稀疏时性能更优。

2基于贝叶斯证据框架的SVM

2.1贝叶斯证据框架描述

贝叶斯概率理论为数据建模提供了一个统一的框架,其目的是在这个框架内寻找一组最优的模型,再利用这个模型来进行推断。贝叶斯证据框架的核心思想是通过最大化参数分布的后验概率来求取最佳参数值或最佳的模型[9]。

2.2贝叶斯证据框架下的SVM

2.2.1贝叶斯第一准则

贝叶斯第一准则是根据贝叶斯概率公式计算并最大化w的后验概率p(w|H,λ,D),得到w最优值wMP。其中,训练样本集为D,框架模型为H,k维的参数矢量为w。w的后验概率p(w|H,λ,D)公式为

p(w|D,H,λ)∝p(w|λ,H)p(D|w,H)

(4)

(4)式中,w与H,λ均无关。则第一项p(w|H,λ)为参数w的先验概率。

(5)

(5)式中,λ为正则化参数,λ取1/C。设训练样本是独立同分布,且p(w|H,λ)服从高斯分布,(5)式可写为

(6)

(7)

在分类问题[10]中

(8)

将(6)式和(8)式代入(4)式中

(9)

2.2.2贝叶斯第2准则推断

贝叶斯第二准则用来推断惩罚参数C,即正则化参数λ。p(λ|D,H)∝p(D|λ,H)p(λ|H)。假设p(λ|H)为平坦分布,即常量, 将M(w)在w=wMP处泰勒展开,得

(10)

这里A=▽2M,A为Hessian矩阵。

(11)

令logp(D|λ,H)最小,得

(12)

(13)

再求解Hessian矩阵,则

(14)

(15)

将(15)式代入(12)式中,即可求解最优解λMP。

2.2.3贝叶斯第3准则推断

通过贝叶斯证据框架第三准则可求解核参数。本文选择的是高斯径向基核函数。

(16)

求解

(17)

2.3算法步骤

Step1将训练样本集和测试样本集归一化,归一化公式如下

(18)

Step2根据贝叶斯证据框架第一准则,求出SVM的w。这里使用SMO算法求解QP问题。

Step3根据贝叶斯证据框架第二准则求出SVM的正则化参数λ。

Step4根据贝叶斯证据框架第三准则求出SVM的核参数σ。

Step5迭代100次。选择对训练样本集分类准确率最高的一组模型对测试样本集进行识别。

算法流程图如图1所示。

图1 贝叶斯支持向量机算法流程图Fig.1 Flowchart of Bayesian-SVM algorithm

3实际应用

3.1油层识别模型的建立

基于贝叶斯证据框架的SVM油层识别模型如图2所示。

图2 基于贝叶斯证据框架的SVM油层识别模型Fig.2 Oil layer recognition model based on SVMin Bayesian evidence framework

油层识别的步骤:

(1)样本信息选取及预处理

样本信息应准确,全面,尽量保证选取的信息不重复。将样本分为训练样本和测试样本两个部分,并分别归一化训练样本和测试样本。

(2)样本属性泛化和离散化

为实现石油测井数据的属性约简,首先对样本信息进行决策属性泛化,并采用曲线拐点方法实现连续属性离散化。

(3)样本信息属性约简

石油测井数据含有10多种测井属性,部分属性并不重要。为了避免信息的冗余性,必须对样本信息进行属性约简。本文采用基于属性重要性的约简算法。

(4)SVM建模

在SVM模型中,将属性约简后的样本信息作为训练样本集,采用贝叶斯证据框架的方法寻找SVM中的最优惩罚参数C和核参数γ,从而得到训练好的SVM识别模型。

(5)识别输出

用训练好的SVM模型对整个井段进行油层识别,并输出结果。

3.2实例分析

为了验证基于贝叶斯证据框架的SVM识别模型在油层识别的有效性,本文选取从中石油东方地球物理公司取得的新疆某井的测井数据进行实验。

(1)样本信息选取及预处理:

采用新疆某井井段1 220—1 290m的281个数据作为训练样本集。其中油层59个,干层222个。该样本集有11个属性:AC、CALI、GR、NG、RA2、RA4、RI、RM、RT、RXO、SP,决策属性为{干层,油层}。决策属性D={0,1},其中0、1分别代表干层和油层。

(2)属性约简:

经过属性约简后,样本信息的条件属性为4个,即AC(声波时差),NG(中子伽马),RI(电阻率),SP(自然电位)。属性在全井段的归一化范围如表1所示。

表1 属性在全井段的归一化范围

将这4个属性在井段1 220—1 290m之间进行归一化处理,AC,NG属性归一化如图3所示,RI,SP属性归一化如图4所示。其中,横轴表示深度,纵轴表示归一化值。

图3 AC,NG属性归一化Fig.3 Normalization of attribute AC,NG

图4 RI,SP属性归一化Fig.4 Normalization attribute RI,SP

(3)油层识别结果

将训练好的模型对井段1 000—1 317m的2 537个样本进行油层识别。油层识别结果如图5所示。圆圈“○”代表测试样本集的实际标签,星号“*”代表测试样本集的预测标签。其中圆圈和星号不重合的点为错分点。

图5 油层识别结果Fig.5 Results of oil layer recognition

将基于贝叶斯证据框架下SVM(BayesianSVM)的油层识别结果与传统SVM和PSO-SVM进行比较,几种支持向量机识别模型的油层识别结果如表2所示。

从表2可以看出,在油层识别上,基于贝叶斯证据框架的支持向量机的识别精度要优于SVM和PSO-SVM。究其理论根源,对于传统SVM来说,任取模型参数是难以使模型的泛化能力达到最佳的;对于PSO-SVM来说,使用PSO优化的模型很容易出现“过学习”现象,致使其泛化能力有所降低;而利用贝叶斯证据框架理论优化的SVM模型,能使模型训练稳健,鲁棒性更强,因而其泛化能力更好。

表2 几种支持向量机识别模型的油层识别结果

综上所述,基于贝叶斯证据框架的支持向量机模型在油气识别上是可行的并且是效果比较好的。

4结束语

SVM在石油测井油气层识别中得到广泛应用,然而其模型参数的选取直接关系到识别或预测精度。为了提高油气层识别精度,本文采用贝叶斯证据框架理论来优化传统SVM模型,即能优选出SVM模型的各个参数。经实际油井测井数据的实验,结果表明其应用效果显著,且优于传统SVM和PSO-SVM的识别效果。

参考文献:

[1]陈遵德.人工神经网络在油层识别中的应用[J].大庆石油地质与开发,1994,13(3):43-45.

CHENZunde.Theapplicationofartificialneuralnetworkinthereservoirrecognition[J].PetroleumGeology&OilfieldDevelopmentinDaqing, 1994, 13(3):43-45.

[2]DELLEPIANEU,PALAGIL.UsingSVMtocombineglobalheuristicsfortheStandardQuadraticProblem[J].EuropeanJournalofOperationalResearch, 2015, 241(3): 596-605.

[3]VAPNIKV,LEVINE,LECUNY.MeasuringtheVC-dimensionofalearningmachine[J].NeuralComputation, 1994, 6(5):851-876.

[4]KWOKJTY.Theevidenceframeworkappliedtosupportvectormachines[J].IEEETransactionsonNeuralNetworks, 2000, 11(5):1162-1173.

[5]PHILIPPEX,FRANCKD,ZHAHongbin,etal.EvidentialcalibrationofbinarySVMclassifiers[J].InternationalJournalofApproximateReasoning, 2015,5(2):1-30.

[6]DEVOSO,DOWNEYG,DUPONCHELL.Simultaneousdatapre-processingandSVMclassificationmodelselectionbasedonaparallelgeneticalgorithmappliedtospectroscopicdataofoliveoils[J].Foodchemistry, 2014, 148(3):124-130.

[7]尹振东,吴芝路,任广辉,等.基于一类SVM概率密度估计的多分类贝叶斯算法研究[J].重庆邮电大学学报:自然科学版,2007, 19(5): 590-594.

YIN Zhendong, WU Zhilu, REN Guanghui, et al. Research of multi-class Bayesian algorithm based on one-class SVM probability density estimation[J]. Journal of Chongqing University of Posts and Telecommunications: Natural Science Edition, 2007, 19(5):590-594.

[8]ZHANG C H,TIAN Y J,DENG N Y.The new interpretation of support vector machines on statistical learning theory[J].Science China Mathematics,2010,53(1):151-164.

[9]FACKLER C J, XIANG N, HOROSHENKOV K V, et al. Bayesian-based model selection and physical parameter estimation of the acoustical properties of rigid-frame porous media[J]. The Journal of the Acoustical Society of America, 2014, 135(4):2408-2408.

[10] 金志勇.支持向量机在识别渗流优势通道中的应用[J].大庆石油地质与开发,2009, 25(6):178-180..

JIN Zhiyong.Application of SVM in identification of high permeability channels[J]. Petroleum Geology & Oilfield Development in Daqing, 2009, 25(6):178-180.

Oil layer recognition model based on SVM within Bayesian evidence framework

XIA Xinyuan1, DAI Jing2, PAN Yongke1,HAN Yang1

(1. School of Electronics and Information Engineering, Hebei University of Technology, Tianjin 300401, P.R.China;2. Qian’an College, North China University of Science and Technology, Qian’an 064400, P.R.China)

Abstract:Support Vector Machine (SVM) method is successfully applied in the petroleum logging field to recognize oil layer. But the recognition effect is influenced by penalty parameter and kernel parameter, and the recognition accuracy is affected directly by different combinations of parameters. In order to get better results in oil layer recognition, an oil layer recognition model based on SVM in Bayesian evidence framework is proposed, which is according to sample information in logging training. The penalty parameter and kernel parameter can be solved by Bayesian evidence framework theory firstly and then the test sample is recognized through decision function. The experiment results of actual logging datum show that the recognition effect is improved by Bayesian-SVM and the recognition effect is superior to that of the traditional SVM and PSO-SVM.

Keywords:support vector machines;oil layer recognition;Bayesian evidence framework

DOI:10.3979/j.issn.1673-825X.2016.02.019

收稿日期:2015-03-22

修订日期:2015-12-08通讯作者:夏莘媛will_9898@sina.com

基金项目:国家自然科学基金(51208168);天津市自然科学基金(11JCYBJC00900, 13JCYBJC37700);河北省自然科学基金(F2013202254, F2013202102);河北省引进留学人员基金(C2012003038)

Foundation Items:The National Natural Science Foundation of China (51208168); The Tianjin Natural Science Foundation (11JCYBJC00900, 13JCYBJC37700); The Hebei Province Natural Science Foundation (F2013202254, F2013202102); The Hebei Province Foundation for Returned Scholars (C2012003038).

中图分类号:TP277

文献标志码:A

文章编号:1673-825X(2016)02-0260-05

作者简介:

夏莘媛(1992-),女,湖南人,硕士研究生,主要研究方向为通信信息处理技术。E-mail: will_9898@sina.com

戴静(1988-),女,河北秦皇岛人,硕士,主要研究方向为通信与信息系统。E-mail:djmagic@163.com

潘用科(1990-),男,湖南人,英国谢菲尔德大学硕士毕业,博士生,主要研究方向为智能信息处理技术。E-mail: 259234914@qq.com

韩扬(1990-),女,天津人,硕士,主要研究方向为智能信息处理技术。E-mail: hy900524@126.com

(编辑:张诚)

猜你喜欢
支持向量机
基于支持向量回归机的电能质量评估
基于智能优化算法选择特征的网络入侵检测
数据挖掘技术在电厂经济性分析系统中的应用Q
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
管理类研究生支持向量机预测决策实验教学研究