魏 海,陶开云,王 新,陈丹蕾,廖 敏
(昆明理工大学电力工程学院,云南 昆明 650500)
基于支持向量机的水库诱发地震分析
魏 海,陶开云,王 新,陈丹蕾,廖 敏
(昆明理工大学电力工程学院,云南 昆明 650500)
将诱发水库地震的主要因素(岩性、岩体完整性、断层性质、库区区域应力状态、库区地震活动背景)划分为11个因子,并进行定量化;再根据每个样本到所属类内超平面的距离计算每个样本点的模糊因子,确定其对分类超平面影响大小;然后建立水库地震的支持向量机(SVM)和模糊支持向量机(FSVM)模型,并应用于水库诱发地震等级预测。实例分析表明,两种模型均可用于水库诱发地震等级预测,具有预测精度较高、考虑因素全面的特点,相比之下SVM模型预测结果略优于FSVM模型。另外,在应用SVM和FSVM进行分类时,如果样本离散性较高,则SVM模型优于FSVM模型;相反,如果样本离散性较低,则FSVM模型优于SVM模型。
水库诱发地震;支持向量机;定量化;地震等级预测
水库诱发地震(又简称为水库地震)的发震机理复杂,影响因素众多[1~2],如:深部岩体的力学指标,地震发生时地应力的大小、方向,孔隙水的分布等。这些因素很难准确测量,因此给水库地震分析增加了难度。尽管目前研究人员提出了很多数学-力学模型来分析水库诱发地震[3~4],但由于模型的概化、岩体变形的非线性、参数的简化,导致模型分析结果不理想[5~6]。于是地质类比法[7]、概率论[7~8]、人工神经网络分析发震的概率[9]等方法又被提出来。地质类比法主要通过分析库区的水文、地质条件,库水入渗条件等因素,再结合已有的水库地震的实例,分析是否发生地震及地震等级,该方法考虑的因素全面,但缺少对力学方面的分析;概率统计模型通过对与诱发地震有密切关系的因素进行统计分析,再利用贝叶斯定理分析发震的概率,该方法不需要分析发震的机理,但需要统计大量的样本,其精度受样本多少影响以及与发震先验概率有关;人工神经网络具有很强的非线性映射能力,适合处理复杂变量间复杂关系,但应用时存在网络结构选择的不确定性、过度拟合和欠拟合问题,限制了人工神经网络的应用。
支持向量机(Support Vector Machine, SVM)是一种基于统计学习理论的新型的机器学习方法,采用结构风险最小化(Structure Risk Minimization, SRM)原则代替经验风险最小化(Empirical Risk Minimization, ERM)原则,在模型的复杂性和学习能力之间寻求最佳折衷,具有泛化能力强的特点[10~11]。由于能很好处理小样本、高维数、非线性问题,不存在陷入局部极小值,被广泛应用于图像识别、分类识别、时间序列预测、岩土参数反演分析、水文预报等方面。基于以上研究背景,本文列举出水库地震的主要诱发因素,并对这些因素进行定量化,引入模糊隶属度函数确定样本的模糊因子,然后建立(模糊)支持向量机模型分析发震等级,为分析水库地震提供新方法。
支持向量机是Corinna Cortes和Vapnik等于1995年首先提出[10~11],用于处理数据分类问题。从理论上来说,支持向量机可实现对线性可分数据的最优分类;对于非线性划分,可通过引入核函数K(xi,xj)转化为带约束的二次优化问题。由于标准支持向量机对所有的输入样本同等对待,没有考虑样本点对分类超平面的贡献大小,因此对噪声和野值点很敏感,影响分类的精度。为了弥补这方面的不足可通过在标准支持向量机引入模糊因子,从而形成模糊支持向量机(Fuzzy Support Vector Machine, FSVM)。该二次优化问题,多采用求解其对偶问题。其步骤如下[12]:
(1)设已知训练集T={(x1,y1), (x2,y2),…,(xl,yl)}∈(X×Y),其中xi∈X=Rn,yi∈Y={-1,1},i=1,2,…,l。引入模糊因子si(0≤si≤1,i=1,2,…,l)来表示第i个样本属于正常的程度。两类样本的分类可转化为考虑模糊因子的带约束的二次优化问题,其对偶问题为
式中:C——惩罚系数;
α——Lagrange乘子;
si——模糊因子,显然当si=1时上述对偶问题即为传统SVM。
(2)构造划分超平面
(3)确定决策函数f(x)
模糊因子si的确定是决定模糊支持向量机性能好坏的关键。目前模糊因子大多基于隶属度函数来确定,隶属度的大小采用样本到类中心的距离来度量[13]。但通过距离来确定隶属度不能反映样本的紧密程度,也不能反映分类超平面附近样本点的贡献大小。这里采用杜喆等[14]提出的用类内超平面来代替类中心,用样本点到超平面距离的线性函数来设计隶属度函数。
对于非线性分类,利用核技巧,正、负类训练样本点到各自类内超平面的距离di+、di-分别为:
式中:n+——正类样本数;
n-——负类样本数;
K(x,y)——核函数。
正、负类样本到各自类内超平面的最大距离分别为D+=maxdi+、D-=maxdi-。
基于样本点xi到类内超平面距离的隶属度si为
式中:δ为任意小的正数,防止si=0,因此0lt;si≤1。
由式(8)可知,如果样本点xi距离类内超平面越远,si越小;反之,则si越大。若样本点xi位于分类边界超平面间隔内又远离类内超平面,那么该样本点则可能为野值点(或噪声),严重影响标准SVM的分类超平面的位置;在FSVM中,由于引入了模糊因子si,野值点的si为接近于0的一个很小的正数,那么野值点的惩罚系数也接近于0,对目标函数的最小值影响就很小,则减小了野值点对分类超平面的位置影响,提高了分类的精度。在应用SVM时,核函数类型、惩罚系数、松弛系数的选取都对结果产生显著的影响,必须先进行优化[15~17]。
丁原章认为[18]:地质构造,包括库基的岩石组成、岩石结构、库区断裂构造(分布、产状、力学性质、发育程度、现今活动性)、水文地质条件等,是水库地震的基础条件。这些地质因素很多只能定性描述,定量分析存在一定困难。对于这些定性描述的因素,这里借用层次分析法(Analytical Hierarchy Process)的比较尺度对分类型因素进行定量处理。由于在应用支持向量机进行分类识别时,输入变量的值只代表某一种状态的状态量,其值的绝对大小与其状态的关联不大,因此,对于那些难于定量的指标,只需按统一的量化原则确定其代表值即可。
(1)坝高、库容的影响
蒋海昆等[19]通过统计分析发现,水库地震的强弱与坝高、库容大小没有必然关系。因此,无论水库大小均可能诱发地震。
(2)库区、震中岩性及岩体完整性
根据对48座水库地震的统计分析,库区范围内,震中岩性分布较为广泛,这里把岩性比较接近的归为一类,以增加相近岩性的样本数,提高SVM分类机的精度。将灰岩、白云岩等归为碳酸岩;将页岩、泥岩等归为黏土岩;将片岩、板岩归为片板岩;将火山碎屑岩、凝灰岩归为火山岩。归类后岩石主要集中在10种左右,如表1所示。岩体完整性根据岩体质量等级取值,Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ类岩体分别采用1、2、3、4、5来代表。
表1 岩性分类
(3)断层性质及活动特点
节理、断层对岩体的影响差异巨大。一般地表地层,岩体节理发育,岩体强烈风化破碎,透水性强,引起的地震效应多为微震和极微震,个别可能出现弱震。一些埋深较深的活动断层和张性断层透水性较好,库水通过这些通道影响岩体较深部的孔隙水压力,诱发的地震多为弱震和中等强度地震。通常库区范围内断层众多,因此可根据断层的规模和影响程度的大小选择一些主要断层进行分析。断层性质取值,按正断层、逆断层、走滑断层,分别采用1、2、3来代表;断层发育程度取值,按十分发育、发育、一般、不发育、十分发育,分别采用1、2、3、4、5来代表;断层活动性取值,按活动、一般、不活动,分别采用1、2、3来代表;断裂透水性取值,按良好、一般、差,分别采用1、2、3来代表。
(4)库区区域应力状态
水库地震与区域应力的关联不明显[17],既可在构造活动活跃的地区发生,也可在构造活动不活跃的地区发生。但是如果库区区域应力较大,岩体中积累的弹性应变能较高,岩体已接近破裂或错动,则有可能诱发较强地震。区域应力状态取值,按压缩、压扭,拉张、张扭,剪切,不明显,分别采用1、2、3、4来代表。
(5)库区地震活动背景
根据目前诱发地震的统计分析,诱发地震多发生在少震区或弱震区,相反在强震区水库地震的实例不多见[17]。但这并不能说明强震区肯定不会诱发地震,只要在适当的地质构造条件下,还是有可能诱发地震的。库区地震活动背景取值,按无震区、弱震区、中震区、强震区,分别采用1、2、3、4来代表。
要建立水库诱发地震的SVM模型,首先要对地震震级进行划分。根据目前监测到的水库诱发地震资料,诱发地震最大震级为6.1级,震级不大,结合王秋良等的研究[8],这里将诱发地震分为5个等级,分别为:强震,6.0≤M;中震,4.5≤Mlt;6.0;弱震,3.0≤Mlt;4.5;微震,Mlt;3.0;无震。诱发地震等级的划分不宜过细,因为目前我国监测到的水库诱发地震约40起,如果划分等级过细,那么每个等级的样本数则会偏少,影响分类的效果。因此,本SVM模型为一五分类问题。对于多分类问题SVM模型可以采用一对一和一对多的分类方法[12]。由于分类较少,本文采用一对一的分类方法,共建立10个SVM分类机。在训练模型时,首先对样本取值进行标准化,以消除不同量纲、不同参数数值相差悬殊对模型的影响。参数的标准化方法也有很多,这里采用下式:
式中:xij′——xij标准化后的值;
μxi——第i个分量的期望;
σxi——第i个分量的标准差。
(模糊)支持向量机算法流程如图1所示。根据算法流程编制相关程序。
图1 (模糊)支持向量机算法流程图Fig.1 Flow chart of the FSVM amp; SVM algorithm
这里共收集国内约100个大中型水库的资料,包括已公开报道的48起发生过诱发地震的水库,诱发地震的主要因素分为11个因子,5个地震等级分别采用1~5的5个自然数来代替,量化后数据如表2所示。随机选择其中86个水库的数据作为训练样本,建立SVM和FSVM分类机,另10个水库数据用于检验模型的预测能力。由于训练样本的选择不同可能对模型的建立产生影响,因此这里选择3组不同的训练样本来建模。
首先采用第1组样本训练模型,通过对训练结果分析比较,选择Gauss径向基函数作为核函数较为合适。对于以Gauss径向基函数作为核函数的分类机,影响模型性能的参数是核函数中的参数σ2和惩罚参数C。模型中参数的取值会影响模型的性能。这里采取2点措施优化模型:(1)每一分类机的误判率,模型平均误判率;(2)交叉验证。
经过参数优化后,SVM模型的参数取值为σ2=0.30,C=50,模型训练好后,10个分类机中的1个分类机存在误判,最大误判率为5.41%,平均误判率为5.41%;FSVM模型的参数取值为σ2=0.43,C=50,10个分类机的4个分类机存在误判,最大误判率为5.41%,平均误判率为2.76%。利用训练好后的模型对10个水库的诱发地震等级进行预测,FSVM模型与SVM模型预测结果相同,如表3所示。
根据目前公开的资料显示,冲巴湖水库、冯家山水库、刘家峡水库、碧口水库都没有诱发地震的报道,模型预测结果与实测完全一致;安康水库未发生诱发地震,这里预测为3等(弱震3.0≤Mlt;4.5),相比实测偏大;丹江口水库诱发地震震级为4.7级,这里预测为3等(弱震3.0≤Mlt;4.5),相比实测偏小一等;乌溪江水库诱发地震震级为2.8级,这里预测为3等(弱震3.0≤Mlt;4.5),较实测偏大一等;乌江渡水库诱发地震震级为3.5级,这里预测为3等(弱震3.0≤Mlt;4.5),与实测一致;三峡水库诱发地震震级为4.1级,这里预测为3等(弱震3.0≤Mlt;4.5),与实测一致;紫坪铺水库诱发地震震级为3.7级,这里预测为3等(弱震3.0≤Mlt;4.5),与实测一致。因此,10个预测结果中,其中7个预测正确,正确率达70%,另外3个预测错误,但偏差都不大。
表2 量化后的水库指标
注:表中数据均源自公开发表的文献,部分数据可参考文[20]。由于库容属涉密数据,在此不予公开。
表3 水库地震等级预测结果
为了检验模型的鲁棒性,选取第2、3组样本训练模型时,模型中的参数保持不变。根据第2组样本所得2种模型,其中SVM模型中10个分类机中的3个分类机存在误判,最大误判率为8.11%,平均误判率为4.44%,10个水库预测准确率达70%;其中FSVM模型中10个分类机的4个分类机存在误判,最大误判率为5.56%,平均误判率为2.78%。将训练好后的模型用于10个水库诱发地震等级预测,SVM模型的预测正确率达70%,FSVM模型的预测正确率达60%,结果见表3。根据第3组样本所得2种模型,SVM模型中10个分类机中不存在误判;FSVM模型中10个分类机的2个分类机存在误判,最大误判率为2.22%,平均误判率为1.97%。将训练好后的模型用于10个水库诱发地震等级预测,SVM模型的预测正确率达80%,FSVM模型的预测正确率达70%,结果见表3。
通过3组不同训练样本所得模型对比分析发现,SVM和FSVM模型均可用于水库诱发地震等级分析,均具有较高精度,相比之下SVM模型略优于FSVM模型,这似乎与文[14]所述存在矛盾。从理论上讲FSVM模型较SVM模型更优,因为前者考虑了样本的模糊因子的影响,可以消除野值点(或噪声)的影响[14]。但是,当训练样本数据可靠性高、离散性大,如果也引入模糊因子,采用FSVM进行分类,则会降低距离类内超平面远的样本点对分类的影响,反而影响分类的准确性。这点可以从水库诱发地震等级预测的多次数值试验中得到验证。因此,在应用SVM和FSVM进行分类时,应根据样本的离散性来选择模型,如果样本离散性较高,则SVM优于FSVM;相反,如果样本离散性较低,则FSVM优于SVM。
通过收集国内约100座大、中型水库的相关资料,分析了诱发水库地震的主要因素——岩性、岩体完整性、断层性质、库区区域应力状态、库区地震活动背景等,将其划分为11个因子,并建立相应的水库诱发地震SVM和FSVM模型。实例分析表明SVM和FSVM模型均可用于水库诱发地震等级的预测分析,具有预测精度较高、考虑因素全面的特点,相比之下SVM模型略优于FSVM模型。另外,在应用SVM和FSVM进行分类时,应根据样本的离散性来选择采用何种模型,如果样本离散性性较高,则SVM优于FSVM;相反,如果样本离散性较低,则FSVM优于SVM。
本文仅对水库诱发地震最大震级进行了预测,通常诱发地震除了发生主震外还会发生众多的前震或余震,其震级、震中位置都明显不同于主震,对于前震或余震的预测,则应根据不同地点断裂构造的规模、发育特点等获取相关数据,再应用所建立的SVM或FSVM模型进行预测。另外,由于水库诱发地震SVM或FSVM分类机是基于实测数据建立的,因此要想获得精度高的预测效果,必须收集大量的发震水库和未发震水库的水库特征、库区的地质资料、库水入渗特点等资料,并确保数据的可靠性。
[1] 易立新,王广才,李榴芬. 水文地质结构与水库诱发地震[J]. 水文地质工程地质,2004,31(2):29-32. [ YI L X, WANG G C, LI L F. Hydrogeological structure and reservoir induced seismicity[J]. Hydrogeology amp; Engineering Geology, 2004, 31(3):29-32.(in Chinese)]
[2] 常廷改. 岩溶塌陷型水库地震的形成条件分析[J]. 水文地质工程地质,2006,33(5):42-45. [CHANG T G. Forming conditions of karst collapsing induced earthquake[J]. Hydrogeology amp; Engineering Geology, 2006, 33(5):42-45.(in Chinese)]
[3] Turuntaev S B, Eremeeva E I, Zenchenko E V. Laboratory study of microseismicity spreading due to pore pressure change[J]. Journal of Seismology, 2013, 17:137-145.
[4] 魏海,杨华舒,王铭明,等.基于可靠度理论的水库诱发地震分析[J].地震地质,2016,38(4):885-896. [ WEI H, YANG H S, WANG M M,etal. Reliability based analysis on reservoir induced earthquakes[J]. Seismology and Geology, 2016, 38(4): 885-896.(in Chinese)]
[5] 丁文镜. 地震预报的力学问题[M]. 北京:清华大学出版社,2012. [DING W J. Mechanical problems in earthquake prediction[M]. Beijing: Tsinghua University Press, 2012. ( in Chinese)]
[6] Kenner S J, Segall P. A mechanical model for intraplate earthquakes: application to the New Madrid Seismic Zone[J]. Science, 2000, 289: 2329-2332.
[7] 苏锦星,夏其发,汪雍熙,等. 大藤峡水库诱发地震初步预测[J]. 中国地质灾害与防治学报,2009,20(4):42-51. [SU J X, XIA Q F, WANG Y X,etal. Preliminary prediction on Datengxia reservoir induced seismicity[J].The Chinese Journal of Geological Hazard and Control, 2009,20(4):42-51.(in Chinese)]
[8] 王秋良,姚运生,夏金梧,等. 统计模型对三峡库区诱发地震预测的应用[J].地震地质,2009,31(2):287-294. [WANG Q L, YAO Y S, XIA J W,etal. Application of statistical forecasting model to the prediction of the Three Gorges Reservoir induced seismicity[J]. Seismology and Geology, 2009, 31(2): 287-194.(in Chinese)]
[9] 夏金梧,李长安,王旭. 神经网络在三峡水库诱发地震预测中的应用[J]. 人民长江,2007,38(2):8-10. [XIA J W, LI C A, WANG X. Application of neural network theory in prediction of earthquake induced by TGP reservoir[J]. Yangtze River, 2007, 38(2): 8-10.(in Chinese)]
[10] Vapnik V N. The nature of statistical learning theory[M]. New York: Springer, 1995.
[11] Vapnik V N. Statistical Learning Theory[M]. New York: Wiley, 1998.
[12] 邓乃扬,田英杰.支持向量机——理论、算法与扩展[M].北京:科学出版社,2009:43-62. [DENG N Y, TIAN Y J. Support vector machine-theory, algorithm and expansion[M]. Beijing: Science Press, 2009: 43-62. ( in Chinese)]
[13] 唐浩,廖与禾,孙峰,等. 具有模糊隶属度的模糊支持向量机算法[J]. 西安交通大学学报,2009,43(7):40-43. [TANG H, LIAO Y H, SUN F,etal. Fuzzy support vector machine with a new fuzzy membership function[J]. Journal of Xi’an Jiaotong University, 2009,43(7):40-43. ( in Chinese)]
[14] 杜喆,刘三阳, 齐小刚. 一种新隶属度函数的模糊支持向量机[J]. 系统仿真学报,2009,21(7):1901-1903. [DU Z, LIU S Y, QI X G. Fuzzy support vector machine with new membership function[J]. Journal of System Simulation, 2009,21(7): 1901-1903. ( in Chinese)]
[15] Pal M, Deswal S. Modeling pile capacity using support vector machines and generalized regression neural network[J]. Journal of Geotechnical and Geoenvironmental Engineering, 2008, 134(7):1021-1024.
[16] Das S K, Samui P, Sabat A K. Prediction of field hydraulic conductivity of clay liners using an artificial neural network and support vector machine, international[J]. Journal of Geomechanics, 2012,12(5): 606-611.
[17] Valyon J, Horvath G. Selection methods for extended least squares support vector machines[J]. International Journal of Intelligent Computing and Cybernetics, 2008, 1(1): 69-93.
[18] 丁原章. 水库诱发地震[M]. 北京:地质出版社,1989. [DING Y Z. The reservoir induced earthquake[M]. Beijing: Geological Press, 1989. ( in Chinese)]
[19] 蒋海昆,张晓东,单新建,等. 中国大陆水库地震统计特征及预测方法研究[M]. 北京:地震出版社,2014. [JIANG H K, ZHANG X D, SHAN X J. Research on prediction method and statistic characteristics of reservoir induced earthquake in China mainland[M]. Beijing: Seismic Press, 2014. ( in Chinese)]
[20] 梅锦山,侯传河,司富安. 水工设计手册.2版.第2卷规划、水文、地质[M]. 北京:中国水利水电出版社,2014. [MEI J S, HOU C H, SI F A. Hydraulic design manual.2nd ed.Vol.2 Planning, hydrology, geology[M]. Beijing: China Water Power Press, 2014. ( in Chinese)]
责任编辑
:汪美华
AnanalysisofthereservoirinducedearthquakebasedonSupportVectorMachines
WEI Hai, TAO Kaiyun, WANG Xin, CHEN Danlei, LIAO Min
(FacultyofElectricPowerEngineering,KunmingUniversityofScienceandTechnology,Kunming,Yunnan650500,China)
The main factors inducing reservoir earthquakes, including lithology, rock mass integrity, fault property, tectonic stress state and seismic activity background in reservoir area, are divided into 11 factors and are quantified. Fuzzy factor of each sample reflecting the effect of the sample on this hyperplane was calculated based on the distance to the hyperplane of each class samples. The Fuzzy Support Vector Machines (FSVM) and Support Vector Machines (SVM) are used to establish the classifier of the induced earthquake, and to predict the magnitude of the reservoir induced earthquake (RIE). The cases analysis shows that FSVM and SVM models can be employed to predict the magnitude of RIE with high precision and over-all consideration. The SVM model are slightly superior to FSVM in the field of RIE prediction. Furthermore, when SVM and FSVM model are applied to classify samples, the SVM model is superior to FSVM if samples are with high discreteness. On the contrary, the FSVM model is superior to SVM if samples are with low discreteness.
reservoir induced earthquake; support vector machine; quantification; magnitude prediction
10.16030/j.cnki.issn.1000-3665.2017.06.20
P315.72+8
A
1000-3665(2017)06-0135-07
2016-12-25;
2017-03-17
云南省应用基础研究基金资助项目(KKSY20140426)
魏海(1975-),男,博士,副教授,主要从事工程地质、水工结构方面的研究。E-mail: weihai2005@126.com