面向对象的三峡库区新生型滑坡空间预测研究

2012-08-09 01:58许霄霄牛瑞卿
长江科学院院报 2012年12期
关键词:易发决策树滑坡

许霄霄,牛瑞卿

面向对象的三峡库区新生型滑坡空间预测研究

许霄霄,牛瑞卿

(中国地质大学地球物理与空间信息学院,武汉430074)

三峡水库运行期间,库水位的变动不仅可能诱发老滑坡复活,还会产生新的滑坡(新生型滑坡)。以库首区秭归段岸坡为研究区,采用了面向对象的C5.0决策树分类的预测方法,选取了库水、坡度、工程岩组、斜坡结构和影像纹理等作为评价因子,在遥感解译和野外调查的基础上,利用遥感、地理信息系统和空间数据挖掘技术,建立了新生型滑坡空间预测模型,生成了新生型滑坡易发性区划图。验证显示:预测结果与实际较为一致,该方法可为新生型滑坡的防治提供科学依据。

三峡库区;新生型滑坡;面向对象;C5.0决策树;空间预测

1 研究背景

三峡水库蓄水后,库水位迅速抬升近百米,打破了数万年以来大自然塑造的地质环境平衡。水库运行期间,库水位的浸泡与变动及周边库岸地下水位的抬升,必然产生众多的水库新生型滑坡[1]。与已经发生的滑坡(老滑坡)相比,水库新生型滑坡的特点是具有突发性、稳定性状态未知、产出位置不确定、受库水影响严重,因此难以识别和预测。对于新生型滑坡,现场调查确认是目前较为成熟可靠的方法[2],但受时间、资金、现场条件等限制,不可能大量实施。一些学者[3-7]利用GIS(Geographic Information System)和RS(Remote Sensing)技术可以快捷实时地调查和监测滑坡,分析滑坡孕灾环境和影响因素,并进行区域风险分区及预测,但没有涉及水库新生型滑坡的预测研究。另外,由于受影像空间分辨率的制约,传统的遥感变化监测和信息提取只能依靠影像的光谱信息,导致分类结果破碎、椒盐效应明显,且是在像素层次上通过目视判读的计算机分类,人为主观性较大、信息提取的精度和效率也不能兼顾。Beliz Aksoy[8]在滑坡识别和分类中提出了面向对象的分析方法,以对象作为分类的基本单元,提取纹理、光谱、形状信息,再将这些信息作为知识加入到分类器中,这样可以提高分类精度。但滑坡数据具有多样化、选择诱发滑坡的关键因子也是非常困难的,其采用的模糊隶属度分类亦不能充分挖掘多样复杂的滑坡信息,因此需要寻求一种数据挖掘[9]的算法。Shiuan Wan提出了决策树的数据挖掘算法来分析泥石流灾害问题[10],精简了诱发滑坡的因子,提高了预测的效率和精度。

鉴于此,本文提出了面向对象的C5.0决策树分类的空间预测方法,以三峡库区秭归段为研究区,建立了C5.0决策树预测模型,分析了新生型滑坡与各因子间的定量关系,绘制了新生型滑坡易发性区划图,为库区新生型滑坡预测及防治提供决策支持。

2 C 5.0决策树算法原理

决策树学习是数据挖掘中典型的分类算法,主要作用是揭示数据中的结构化信息,所建立的树型结构直观、易于理解,而且便于处理非线性数据,能提取数据中隐藏的知识规则。C5.0决策树算法分类的依据是信息增益(Information Gain),根据信息增益最大的字段对样本数据进行分类[11]。

通常可以用如下的方法计算C5.0决策树算法中的信息增益:设训练集样本总数为S,共分为m类样本Ci(i=1,2,…,m),类Ci中的样本数为Si,则样本集合S的信息熵定义为

式中pi是任意样本属于Ci的概率,可用pi=Si/|S|来估计。设属性X具有v个值{x1,x2,…,xv},则S被分成v个子集{s1,s2,…,sv}。令Sj为在样本集S中属性X的取值为xj的子集,j=1,2,…,v。在分类的过程中,如果X被选为决策属性,则根据属性X可以将样本集划分到不同的分枝中。如果用Sij表示子集Sj中属于Ci类的元组数量,则属性X为分类所需的期望熵(条件熵)是

式中属性X的每个取值对分类Ci的信息熵I(S1j,…,Smj)可由下式给出:

式中pij=Sij/|Sj|表示子集Sj中属于类Ci的概率。由此,可以得到属性X作为决策分类的属性的度量值(称为信息增益):

信息增益函数在可能产生多分枝的测试中更倾向于得到大的函数值,但是分枝多并不说明该测试对未知样本有更好的预测效果,为解决该问题出现了信息增益率函数。某个属性X的信息增益率函数表示为

3 研究区和数据

3.1 研究区概况

三峡库区位于长江上游段,研究区位于三峡库区首段秭归县境内,地理范围为110°30′~110°57′E,30°50′~31°04′N,面积约213 km2,长江大致呈NWW-SEE向穿越研究区,主干流长度约42 km,是库区人类工程活动强烈、滑坡灾害突出地段。该区地处中国地形第二阶梯向第三阶梯的过渡地带,是川东褶皱与鄂西山地会合部位,为中、低山侵蚀峡谷地貌[12]。地层发育较完整,除缺失泥盆系下统、石炭系的上统、下统和白垩系的大部分及第三系外,自前震旦系至第四系皆有出露,总体上地层具有自东向西渐新展布的规律[13]。在香溪以东峡谷区以三叠系的地层连续出露,以碳酸盐岩为主;香溪以西地区主要是中三叠至侏罗系(T2-J)地层,以碎屑岩为主,主要岩性为砂岩、粉砂岩和页岩。褶皱是区内的主要构造形式,主要发育黄陵背斜和秭归向斜。区内地层岩性多样、构造复杂,不仅提供了地质灾害发育的物质条件,还控制空间孕灾环境的差异,部分地层(如巴东组)被称为易滑地层,且大部分属于第四系堆积层滑坡。研究区是库区地质灾害最严重、灾害防治重点区域之一,曾在1985年发生著名的新滩滑坡以及2003年发生了千将坪特大型滑坡,庆幸的是这2处滑坡均已成功预报,滑坡体上人员在滑坡发生前安全撤离。近年来不断有滑坡险情出现,如白水河滑坡、卧沙溪滑坡等。研究区地质构造见图1。

图1 研究区地质构造图[13]Fig.1 Geological structure of the researched area[13]

3.2 数据准备

研究区收集到覆盖该区的Landsat TM近期数据6景和高分辨率SPOT全色波段的遥感影像,主要用于提取纹理特征因子和遥感解译选取样本;其他数据还有1∶200 000地质图、1∶10 000地形图、高精度DEM(数字高程模型),主要用于提取相关的地形地质因子;除此之外,还有典型新生型滑坡野外现场调查资料等。

4 新生型滑坡空间预测方法

针对三峡库区新生型滑坡空间预测问题,首先在收集数据资料基础上选择合理的评价因子,利用RS和GIS软件对因子信息进行提取;然后针对预测模型对地形地质因子进行分级,将所有的因子信息集中到ArcGIS软件中对多种数据进行叠加和综合;接着在遥感解译和野外调查的基础上选取训练样本数据集,建立C5.0决策树预测模型,对模型进行精度评价与分析,绘制新生型滑坡易发性分区图;最后结合野外调查资料对预测模型及预测精度进行验证。

4.1 多尺度分割

面向对象的信息提取技术是一种基于目标的信息提取方法,这种方法可以充分利用遥感影像的光谱、纹理、形状、相关性等空间信息。它主要包括2个关键技术:多尺度分割和面向对象的影像分类。多尺度图像分割采用异质性准则的区域合并策略,目的是实现分割后图像对象的权重最小异质性。在分割前需要确定异质性阈值的2种因子(图2):光谱因子与形状因子,其中形状又分为紧凑度和平滑度。分割程序始于单一的图像对象(即种子),在设定的同质阈值条件下,通过反复的循环合并来增大对象。处理过程是种子对象寻找最合适的邻域作为合并的对象。如果邻近像元符合异质性最小的特征则合并,不满足条件则设立新的种子对象并寻找符合条件像元。一个循环中,每个对象只处理一次,直到图像中没有新的对象合并为止。这种基于对象的分割技术具有效率高、分类结果连续性好的优点。

图2 多尺度分割概念图(据Definiens Developer 7 Reference Book修改)Fig.2 The concept ofmultiresolution segmentation(revised from Definiens Developer 7 Reference Book)

4.2 评价因子的提取

新生型滑坡空间预测需要考虑多种影响因子,根据三峡库区新生型滑坡的具体特点,选取了Landsat TM4,TM3和TM2波段的纹理特征因子(熵、能量、相关性、对比度)以及相关地形地质因子(库水、坡度、斜坡结构、工程岩组)共8个因子作为评价因子。这里选取TM4,TM3和TM2波段的纹理特征因子可反映研究区的植被覆盖情况和滑坡形态特征,通过影像校正、地理裁剪等预处理,利用面向对象的遥感软件eCognition提取影像的光谱和纹理信息。经过多次实验和反复验证,最终确定的分割尺度为20,形状异质性参数为0.3,则颜色异质性参数为0.7,其中表征形状的光滑度参数设为0.5,则紧凑度参数也为0.5。而地质因子主要利用地形图、高精度数字高程模型(DEM)和地质图通过ArcGIS软件来提取,并对提取出的因子进行了分级处理。评价因子的分级见表1。

4.3 构建C5.0决策树模型

样本选取对滑坡预测评价影响很大,它直接影响到评价因子的表达。新生型滑坡样本是结合三峡水库蓄水前遥感影像、DEM数字高程模型与地质图及部分野外调查验证资料综合解译来选取的。区内的新生型灾害主要有塌岸、库岸、不稳定斜坡和滑坡,其中新生型滑坡包括土质滑坡和岩质滑坡两大类。对于土质滑坡的解译主要依据是否存在第四系堆积物、具备优势滑动面、适宜的地形条件和库水位的浸泡与周期性升降等标志;对于岩质滑坡解译主要依据易滑岩层、岸坡形态、斜坡结构类型和库水位的浸泡等标志。通过样本数据采集,基于C5.0决策树算法构建分类预测模型,对样本的分类情况进行精度评价。

表1 地质评价因子分级Table 1 Classification of the geological evaluation factors

4.4 预测模型精度评价

本文利用数据挖掘软件Clementine构建C5.0模型,模型中参数均采用软件的默认设置。经面向对象的多尺度分割后,研究区共被分割成1 158个对象,选取了260个作为样本,占研究区总对象数的22%。样本中包括新生型滑坡样本60个属性赋值为1、非滑坡样本200个属性赋值为0。在构建C5.0决策树模型时对样本又进行分区,分为70%的训练样本和30%测试样本,C5.0决策树模型对样本进行分类预测的结果如表2、表3。

从表2、表3可以看出模型对于训练样本总的正确率达92.66%,测试样本总的正确率为80.72%,总体来说分类精度良好。Kappa系数是对分类精度的另一种度量,主要反映用户和智能分类是否具有一致性。表中训练样本的Kappa系数大于0.8表明两者分类精度一致性非常好,而测试样本的Kappa系数0.46表明两者的分类精度一致性很好。

表2 C5.0决策树模型对训练样本的分类预测结果Table 2 Prediction results by C5.0 decision treemodel for training sam ples

表3 C5.0决策树模型对测试样本的分类预测结果Table 3 Prediction results by C5.0 decision treem odel for testing sam p les

5 结果分析与验证

利用建立的模型对研究区1 158个对象进行分类,分类结果有2种形式:一种是离散型的只有0和1的值,0表示不易发生滑坡设为稳定区,而1表示发生滑坡可能性较大设为危险区;另一种形式是[0,1]的连续型预测值,数值越大,反映各因素对滑坡发生的综合影响越大,滑坡的发生就越容易。为了便于区分滑坡发生的容易程度,将预测值重新分类,分区依据的是预测连续值的统计直方图,按直方图的自然裂点将研究区划分为4级:不易发区、低易发区、中易发区、高易发区。C5.0决策树模型对研究区总对象的分类预测的结果如表4。

表4 C5.0决策树模型对研究区的分类预测结果Table 4 Prediction results by C5.0 decision treem odel for the researched area

根据C5.0决策树模型生成的易发性区划图(图3),结合研究区的实际情况和新生型滑坡的具体特点,分析得出危险区的分布特点及其影响较大的原因如下:

图3 研究区基于C5.0决策树的新生型滑坡易发性评价图Fig.3 The susceptibility evaluation of neogenic landslides by C5.0 decision treemodel for the researched area

(1)主要分布于库水强影响区和波动区。长江干流及支流两岸,童庄河和香溪河2大支流两岸为高易发区和中易发区的集中区,说明新生型滑坡受库水浸泡和升降影响非常严重。对于土质滑坡,库水位的浸泡会降低土体抗剪强度,升降会使坡体内地下水渗流形成动水压力;而对于岩质滑坡,岸坡前缘涉水段受到库水位的浮托而产生一个不利于岸坡稳定的浮托力,库水对岩体内软弱结构面或潜在滑面的软化会导致其强度降低,这些都不利于库岸边坡的稳定性。

(2)主要分布于软岩岩组。这是因为处于侏罗系、三叠系中统巴东组和志留系的易滑地层,特别是三叠系巴东组地层是调查中库区滑坡发育最多的地层。侏罗系地层岩性主要包括砂质泥岩、砂岩、泥质页岩及煤层;三叠系地层主要为灰岩、白云岩、泥灰岩、砂页岩互层等;志留系地层岩性主要为砂岩、粉砂岩、页岩等。

(3)主要分布于顺向坡和斜向坡的坡体结构。斜坡结构类型是根据岸坡坡向、下伏地层倾向以及长江流向的关系划分的,一般而言,岩质滑坡易发生于顺向坡之中的顺向飘倾坡、斜向坡,地层倾向和坡向交角较小易滑,而逆向坡不易于岩质滑坡的发生。其中,顺向伏倾坡一般不具备滑坡发生的剪出条件而不利于滑坡的形成。

(4)主要分布在缓倾坡,坡度在15°~30°。这个坡度范围的岸坡前缘地形较缓而后缘地形较陡,如果坡体两侧还具有冲沟或具有走向与坡向相近的断层条件,这时坡体就相当于一个六面体,不利于坡体的稳定性。

在易发性分区图中的塌岸实形是三峡水库172 m蓄水后野外调查的资料,共有21个塌岸,其中分布在高易发区的塌岸有8个、在中易发区的塌岸有10个、低易发区塌岸有1个、不易发区塌岸有3个。分布在高易发区的塌岸是一些大型的塌岸,中易发区的则为一些小型的塌岸。拍摄的野外调查塌岸图片与易发性分区图的对照如图4所示。图中显示了5个大型的塌岸,其中代号1,2,3的塌岸均为秭归县郭家坝镇蔡家坡塌岸,4号塌岸为秭归县郭家坝镇周家湾塌岸,5号塌岸为秭归县郭家坝镇谭家坡塌岸。蔡家坡塌岸和周家湾塌岸是典型的受水库蓄水后新生的大型塌岸,地层岩性为侏罗系上沙溪庙组的粉砂岩与长石石英砂岩,塌岸长度约1.5 km,涉水深度近30 m,危害房屋40余间,对耕地、柑桔和村级公路也造成较大危害。预测的结果将其划分在了高易发区,验证了预测结果的可靠性。

图4 易发性评价与野外验证图Fig.4 The susceptibility evaluation and field validation

6 结 论

针对三峡库区新生型滑坡的特殊性,本文提出了面向对象的C5.0决策树分类的空间预测流程,将多尺度分割技术、智能决策树分类法、GIS空间分析功能与模型预测有机地结合在一起。

以三峡库区秭归段长江干流为研究区开展了新生型滑坡的空间预测,利用易获得的遥感影像、地形图与地质图等资料综合解译和现场调查,选取分类样本、建立C5.0决策树模型,对研究区进行了新生型滑坡的易发性评价。研究得出:库水波动区和强影响区、软岩岩组、15°~30°缓倾坡及顺向坡和斜向坡坡体结构对新生型滑坡的影响和控制较大。经野外调查验证得出易发性评价结果与实际较为一致,表明本文提出的方法适合于库区新生型滑坡的空间预测。

[1] 罗先启,刘德富,吴 剑,等.雨水及库水作用下滑坡模型试验研究[J].岩石力学与工程学报,2005,24(14):2476-2483.(LUO Xian-qi,LIU De-fu,WU Jian,etal.Model Test Study on Landslide under Rainfall and Reservoir Water Fluctuation[J].Chinese Journal of Rock Mechanics and Engineering,2005,24(14):2476-2483.(in Chinese))

[2] 程圣国,方坤河,罗先启,等.三峡库区新生型滑坡滑带土抗剪强度确定概率方法[J].岩石力学与工程学报,2007,26(4):840-845.(CHENG Sheng-guo,FANG Kun-he,LUO Xian-qi,et al.Probability Method to Determine Shear Strength of Slide Zone Clay for Neogenic Landslide in Three Gorges Reservoir Area[J].Chinese Journal of Rock Mechanics and Engineering,2007,26(4):840-845.(in Chinese))

[3] 胡德勇,李 京,陈云浩,等.GIS支持下滑坡灾害空间预测方法研究[J].遥感学报,2007,11(6):852-859.(HU De-yong,LI Jing,CHEN Yun-hao,et al.GIS-based Landslide Spatial Prediction Methods,A Case Study in Cameron Highland,Malaysia[J].Journalof Remote Sensing,2007,11(6):852-859.(in Chinese))

[4] BISWAJEET P.Remote Sensing and GIS-based Landslide Hazard Analysis and Cross-Validation Using Multivariate Logistic Regression Model on Three Test Areas in Malaysia[J].Advances in Space Research,2010,45(10):1244-1256.

[5] BAISB,WANG J,LU G N,et al.GIS-based Landslide Susceptibility Mapping in the Three Gorges Area-Comparisons of Mapping Results Obtained by Two Methods:Analytical Hierarchy Process and Logistic Regression[C]∥Landslides and Engineered Slopes:From the Past to the Future:Proceedings of the 10th International Symposium on Landslides and Engineered Slopes,Xi’an,China,30 June-4 July,2008:1067-1070.

[6] OZDEMIR H,TUROGLU H.Landslide Susceptibility Assessment Using GISand RS in the Havran River Basin(Balikesir-TURKEY)[C]∥International Association for MathematicalGeology(IAMG).The12th International Mathematical Geological Congress,Beijing,August,26-31,2007:185-189.

[7] PRADHAN B.Remote Sensing and GIS-based Landslide Hazard Analysis and Cross-Validation Using Multivariate Logistic Regression Model on Three Test Areas in Malaysia[J].Advances in Space Research,2010,45(10):1244-1256.

[8] AKSOY B,ERCANOGLU M.Landslide Identification and Classification by Object-based Image Analysis and Fuzzy Logic:An Example from the Azdavay Region(Kastamonu,Turkey)[J].Computers and Geosciences,2012,38(1):87-98.

[9] 李德仁,王树良,李德毅.空间数据挖掘理论与应用[M].北京:科学出版社,2006.(LIDe-ren,WANG Shu-liang,LIDe-yi.The Theory and Application of Spatial Data Mining[M].Beijing:Science Press,2006.(inChinese))

[10]ABDALLAH C.Spatial Distribution of Block Falls Using Volumetric GIS-Decision-Tree Models[J].International Journal of Applied Earth Observation and Geoinformation,2010,12(5):393-403.

[11]柯新利,边馥苓.基于C5.0决策树算法的元胞自动机土地利用变化模拟模型[J].长江流域资源与环境,2010,19(4):403-408.(KE Xin-li,BIAN Fu-lin.Land-use Change CA Model Based on C5.0 Decision Tree[J].Resources and Environment in the Yangtze Valley,2010,19(4):403-408.(in Chinese))

[12]地质矿产部编写组.长江三峡工程库岸稳定性研究[M].北京:地质出版社,1988:1-69.(Compilation Group of Geology and Minerals Ministry.Research on Stability of Reservoir Bank of the Three Gorges Project[M].Beijing:Geological Publishing House,1988:1-69.(in Chinese))

[13]湖北省地质矿产局.1∶20万巴东幅(H~49~Ⅸ)区域地质调查报告[R].武汉:湖北省地质矿产局,1984:1-156.(Bureau of Geology and Mineral Resources of Hubei Province.Report on Areal Geology Survey of 1:200,000 Badong Map[R].Wuhan:Bureau of Geology and Mineral Resources of Hubei Province,1984:1-156.(in Chinese) )

(编辑:曾小汉)

长江科学院承担的“重庆港主城港区果园作业区二期扩建工程加筋边坡离心模型试验研究”通过验收

2012年11月15—16日,中交第二航务工程勘察设计院有限公司在武汉主持召开了“重庆港主城港区果园作业区二期扩建工程加筋边坡离心模型试验研究”课题评审会。来自重庆市交通委员会、重庆港务物流集团有限公司、重庆果园港埠有限公司、重庆双源建设监理咨询有限公司、中国科学院武汉岩土力学研究所、中国水利水电科学研究院、武汉大学、重庆交通大学等单位的专家和领导出席了会议。长江科学院汪在芹副院长、程展林副总工以及长江科学院水利部岩土力学与工程重点实验室相关学科的技术人员参加了会议。

与会专家听取了课题承担单位长江科学院水利部岩土重点实验室的项目研究执行情况和成果汇报,审阅了研究报告和相关成果资料,进行了现场质询和讨论。通过评审,专家们一致认为:本课题基于重庆港主城港区果园作业区二期扩建工程高陡加筋边坡的工程问题,采用离心模型试验与数值分析相结合的技术路线,揭示了该工程边坡变形规律,完成了合同规定的研究内容,符合已通过的《工作大纲》的要求,一致同意通过验收。同时,与会专家还认为本研究课题结论明确,研究成果可靠,对于指导该工程的边坡设计具有重要的指导意义。

(摘自:长江水利科技网)

Object-Oriented Spatial Prediction for Neogenic Landside in the Three Gorges Reservoir Area

XU Xiao-xiao,NIU Rui-qing
(Institute of Geophysics and Geomatics,China University of Geosciences,Wuhan 430074,China)

During the operation of the Three Gorges Reservoir,the reservoirwater level fluctuation could induce old landslide revivification and trigger new landslides(neogenic landslides).The aim of this study is to provide basis for the prevention and treatment of these neogenic landslides.A predictionmethod with object-oriented C5.0 decision treemodelwas presented.Evaluation factorswere selected,including reservoir water fluctuation,slope gradient,engineering rock group,slope structure and image texture.On the basis of RS interpretation,field investigation,and with RS,GISand spatial datamining technology,the spatial predictionmodel for neogenic landslide was built,and the susceptibilitymap was obtained.The bank slope of Zigui segment in the reservoir area was taken as a case study.Verification shows that the prediction results are consistentwith the actual situation.

Three Gorges Reservoir area;neogenic landslide;object-oriented;C5.0 decision tree;spatial prediction

P642.22

A

1001-5485(2012)12-0024-06

10.3969/j.issn.1001-5485.2012.12.006 2012,29(12):24-29

2011-11-22

国家高技术研究发展计划(863)(2009AA122004);国家自然科学基金项目(4067225);国土资源部三峡库区三期地质灾害防治重大科学研究项目(SXKY3-3-2)

许霄霄(1988-),女,山东泰安人,硕士研究生,主要从事遥感地质研究,(电话)13098821696(电子信箱)gisphh@126.com。

猜你喜欢
易发决策树滑坡
机用镍钛锉在乳磨牙根管治疗中的应用
贵州省地质灾害易发分区图
夏季羊易发疾病及防治方法
滑坡推力隐式解与显式解对比分析——以河北某膨胀土滑坡为例
冬季鸡肠炎易发 科学防治有方法
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
滑坡稳定性分析及处治方案
浅谈公路滑坡治理
基于决策树的出租车乘客出行目的识别