利用粗糙集的滑坡分阶段位移预测方法-以白家包滑坡为例

2014-07-05 14:11赵艳南
关键词:粗糙集滑坡水位

韩 舸,龚 威,吴 婷,赵艳南

1.武汉大学测绘遥感信息工程国家重点实验室,武汉 4300792.湖南省农林工业勘察设计研究总院,长沙 4100073.中国地质大学地球物理与空间信息学院,武汉 430074

利用粗糙集的滑坡分阶段位移预测方法-以白家包滑坡为例

韩 舸1,龚 威1,吴 婷2,赵艳南3

1.武汉大学测绘遥感信息工程国家重点实验室,武汉 4300792.湖南省农林工业勘察设计研究总院,长沙 4100073.中国地质大学地球物理与空间信息学院,武汉 430074

为解决大数据量下滑坡的位移数值精确预测,采用数据挖掘技术对滑坡多源监测数据进行预处理,进而采取粗糙集理论对输入变量集进行定量评价、约减并完成滑坡变形阶段预测,在此基础上利用不同算法进行滑坡变形位移数值预测。实验显示,粗糙集对滑坡变形阶段划分的准确度达到96.5%,在此基础上利用分类回归树预测滑坡位移的精度达到6.5 mm。结果表明,分阶段的位移预测方法是可行的,其提供的预测精度显著优于普通方法并且达到了工程应用的需求。

滑坡;粗糙集;变形阶段预测;位移预测

0 前言

滑坡的位移预测是一个高度非线性且极为复杂的问题[1]。滑坡预报模型和方法可分为定性和定量两类:前者主要是基于不同研究者的现场观察和主观认识;后者则一直是研究的重点,其包含了确定性预报模型[2]、统计预报模型[3-5]、非线性预报模型[6-7]的研究。进入20世纪90年代中后期,随着GPS技术用于滑坡监测,结合GPS位移数据和其他多源监测数据,采取数据挖掘技术进行滑坡变形预测成为新的研究热点[8-15]。

刘广润等[16]依据斋藤迪孝的岩土力学实验将滑坡的滑动阶段分为蠕滑阶段、匀滑阶段、加速阶段、破坏阶段。从物理角度上看,对于处于不同发育阶段的滑坡而言,其变形的驱动力有着一定的差别;从数值分析的角度上看,不同变形阶段时的变形值亦存在较大不同。因此,进行分阶段的滑坡变形预测得到学界的重视,然而相关文献却比较少见。

分阶段建模的前提在于滑坡变形阶段的确定,就目前的研究而言,黄润秋等[17]认为无论定性还是定量方法,无一例外都带有较大的人为性,从而导致评价结果具有较大的随意性。为此,笔者以白家包滑坡为例,结合数据挖掘手段,引入粗糙集理论客观的选取和评价建模的输入变量,从而完成滑坡变形阶段预测,在此基础上完成滑坡位移的数值预测。最后以白家包滑坡为例验证了利用粗糙集的分阶段滑坡位移预测方法的可靠性和准确性。

1 理论基础

1.1 粗糙集理论

粗糙集理论,是继概率论、模糊集、证据理论之后的又一个处理不确定性的数学工具。作为一种较新的软计算方法,粗糙集近年来越来越受到重视,其有效性已在许多科学与工程领域的成功应用中得到证实,是当前国际上人工智能理论及其应用领域中的研究热点之一[18]。

设A=(U,A)是一个信息系统,那么对于任何B⊆A都有等价关系:

INDA(B)=

INDA(B)称为B的不可分辨关系,即(x,x′)∈INDA(B),即仅仅利用属性集B无法区分对象x和x′。将B的不可分辨关系的等价类用[x]B来表示。

对于属性集而言,如果D完全依赖于C,则记为I(C)⊆I(D),如果D以程度k(0≤k≤1),依赖于C,那么:

其中:

POSC(D)是D在C上的正域,其代表D表达C的能力:如果这个值愈大,则D表达C的能力愈强;如果POSC(D)=POSC(C),那么D可以完全表达C所包含的信息,因此可以用属性集D来取代属性集C,从而达到属性约简的目的。简单地说,粗糙集能够在在大量输入变量中,挑选出部分变量,而这些变量所包含的信息量与全部输入变量所含的信息量是相同的。在这些被选出的部分变量中如果再去除任何一个变量,都会导致包含信息量的下降,而信息量下降的程度便反映了该变量对模型的重要性。

1.2 分阶段的滑坡位移预测方法

图1展示了所提滑坡位移预测方法的具体流程。数据挖掘技术被用于原始数据的清理和预处理,完成数字化监测结果向定性化指标的转换;进而,利用粗糙集评价各指标并以此进行滑坡变形阶段的自动化识别;最后混合定性化的信息和数字化的监测数据按不同变形阶段完成位移数值预测。

图1 分阶段的滑坡位移预测流程图Fig.1 Flow chart of the stage-divided method

2 数据源及预处理

2.1 白家包滑坡及其监测网点基本情况

图2 白家包滑坡专业监测网点分布图Fig.2 Sketch of monitoring arrangement in Baijiabao landslide

白家包滑坡位于湖北省秭归县归州镇向家店村,距香溪河入江口2.5 km。其展布于香溪右岸,前缘直抵香溪河,滑坡剪出口位于高程125~135 m处,滑坡后缘以基岩为界,高程265 m,滑坡左侧以山脊下部基岩为界,右侧以山梁为界,前缘宽500 m,后缘宽300 m,均宽400 m,纵长约550 m,滑坡面积22×104m2。其滑坡体上布设一纵一横的监测剖面,剖面A-A’与滑坡主滑方向一致,布置于滑坡体中轴线位置,剖面B-B’与横穿该滑坡的秭兴公路大致平行。在该滑坡上共布设4个GPS监测点,2个倾斜监测孔,2个滑坡推力监测孔、2个地下水监测孔。各点位名称及具体布设情况见图2。

2.2 原始数据及其预处理

研究依托于三峡库区三期地质灾害防治重大科学研究项目,通过在三峡库区目前已经完成的并投入监测的地质灾害监测网,收集了2006年12月至2010年11月间白家包滑坡的监测数据,包括库水位、GPS点监测、钻孔倾斜仪、地表相对位移、地下水位、降雨量等。其中:GPS位移监测数据一般为月度,部分月份为旬度,单位为mm;降雨量为日度数据,单位为mm;地下水数据构成相对复杂,时间间隔不等,本文所使用的地下水埋深监测值,单位为m;库水位数据为日度数据,单位为m。

首先,由于各数据时间间隔不等,因此需要统一时间间隔;其次,实验表明,直接利用定量数据进行滑坡发育阶段预测精度较低,故需要对数据进行定性化处理,其具体处理方法参见文献[19]。经预处理后,参与滑坡变形阶段预测模型的输入变量包括:库水位变化趋势(上升、下降)、库水位变化程度(快速、缓慢、稳定)、两月累计降雨量(多、一般、少)、单月降雨量(多、一般、少)、SK1水位变化趋势(上升、下降)、SK2水位变化趋势(上升、下降)、SK1水位变化速度(快速、缓慢、稳定)、SK2变化速度(快速、缓慢、稳定)、SK1埋深(偏高、偏低、正常)、SK2埋深(偏高、偏低、正常)、SK1至库水位高差(偏高、偏低、正常)和SK2至库水位高差(偏高、偏低、正常)共12个定性的变量。输出变量为滑坡发育阶段(稳定、蠕动、快速变形)。

3 结果与讨论

3.1 输入变量重要性评价

输入变量集经粗糙集处理后共得到19个约简集,表1为12个输入变量在这些约简集中出现的频率,其一定程度上反映了不同变量对预测形变阶段的贡献能力。

表1 输入变量在约简集中出现的频率

Table 1 Frequencies of input factors appear in the reduct set

变量出现频率/%排名库水位变化趋势100.001库水位变化程度57.895两月累计降雨量17.7912单月降雨量47.376SK1水位变化趋势31.5810SK2水位变化趋势63.164SK1变化程度1.001SK2变化程度0.427SK1埋深情况1.001SK2埋深情况0.379SK1至库水位高差0.3210SK2至库水位高差0.427

由表1可见,不同输入变量对结果的影响力差别比较大,其中两月累计降雨量最差,其原因可能与白家包滑坡工况有关。实地调查表明,白家包滑坡经过一定的人工治理,其治理方法主要是修建排水沟,因此降雨在滑坡体内贮存得较少,所以其对滑坡形变的影响十分有限。与之形成鲜明对比的是库水和地下水对滑坡形变的明显影响,这一结果与牛瑞卿等[19]结论吻合。笔者选取约简集(等价类):{库水变化趋势,库水变化程度,单月降雨量,SK1变化趋势,SK1变化程度,SK1埋深情况,SK1至库水高差}作为变形阶段预测的输入变量集,这样既保证了其预测能力较高,也可以提高处理效率。

根据粗糙集的原理,从约简集中取出任何一个变量都会导致其正域下降,而下降的程度则是该变量重要性的体现。因此,其评价变量集决策能力的指标为POSC(D)。表2中POSi代表去除变量i后的属性集的决策能力。POStotal-POSi代表总属性集与去除变量i的属性集的决策能力之差,这个指标直接体现了变量i的重要性。为了方便地比较各个变量的重要性,可以对POStotal-POSi进行归一化处理,表2中(1-POSi)/MAX1-POSi是归一化之后的重要性评价指标。需要指出的是,指标POSi和POStotal-POSi是具备数学物理意义的,能够与其他类似实验结果进行对比。(1-POSi)/MAX1-POSi由于进行了归一化处理,已经不具备明确的数学物理意义,只能用于评价本实验所涉及的各个变量重要性,不能与其他类似实验结果进行对比。表2为7个入选变量的重要性情况。

表2 选中约简集中各变量重要性情况

由表2可见,库水因素最为关键。具体而言,库水位变化程度比库水变化趋势重要。SK1埋深情况比SK1变化趋势和变化程度重要,再次是单月降雨程度,最次是SK1至库水高差,但并不能武断地认为变量地下水位至库水位高差不重要,因为这一变量的定量值计算是库水位和地下水位的线性组合。

3.2 滑坡变形阶段预测

为对比不同算法预测滑坡变形阶段的能力,选取了4种不同方法:支持向量机(support vector machine SVM)、BP神经网络、 Logistic回归和粗糙集。支持向量机的理论基础在于统计学习,以寻找完成最优分类的决策边界位置为目的,其核心思想是风险最小化原则[20]。BP神经网络是一种模范动物神经网络行为特征,进行分布式并行信息处理的算法数学模型,该算法已较常见于地球科学研究之中[21]。Logistic回归在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,该算法亦普遍用于滑坡易发区域敏感性评价[22]。

作为真值的验证数据来源于白家包滑坡监测月报,月报中对滑坡变形阶段的判断由专业人员依据现场勘探、监测和经验确定。为避免人为和偶然因素对结果产生影响,从而降低方法的可重复性,本文的训练样本是随机产生的,同时样本选择+预测的过程进行了100次重复。SVM、BP神经网络、Logistic回归和粗糙集取得的预测精度依次为80.26%、91.23%、80.26%和96.50%。可见粗糙集的模型预测结果与专家的判断最为一致,表明利用定性的观测变量来预测滑坡变形阶段是可行的、合适的。

利用混淆矩阵来进一步考察粗糙集预测的结果,表3显示误差来源主要是稳定-蠕动和蠕动-快速变形两类错分,未出现稳定-快速变形的错误,这表明粗糙集的方法是可靠的。按不同阶段来评价预测效果结果为:稳定>蠕动>快速变形,这一点可能是由于滑坡形变愈大,其对外因响应便愈复杂。

由于建模共选取了12个输出变量,虽然理论上这些变量都与预测滑坡变形阶段有直接关系,但是考虑到不同滑坡的自身特性,可能并非所有变量都具有显著影响。

考虑到可能存在的其他未知情况,12个输入变量中极有可能存在降低模型精度或者无益提升精度的变量。而基于粗糙集的预测过程是,首先计算输入属性集的约简集,在此基础上进而得出分类规则,从而利用规则集指导分类。其对属性的选择相对其他算法有着先天的优势,所以基于粗糙集的预测取得最优结果极有可能与此有关。

表3 粗糙集预测结果混淆矩阵

3.3 分阶段的滑坡位移预测

针对数值型的数据,本文选取BP神经网络、支持向量机以及分类回归树(CART)作为滑坡位移数值预测的算法。这3种算法常见于滑坡数值预测,各有优劣,需要指出的是,本实验中3个算法的参数都是常用值或默认值,这样做的意义在于增强了数据处理流程的可移植性和可操作性,对缺乏相关数学背景的工程技术人员更有参考价值。另外,本实验的目的在于验证分阶段后预测精度是否有提高,而非讨论不同算法预测滑坡位移能力。选取平均绝对误差(MAE)作为评价指标以评估各算法预测性能。MAE是指,对同一物理量进行多次测量时,各次测量值及其绝对误差不会相同,将各次测量的绝对误差取绝对值后再求平均值:

试验随机选取了80%样本作为训练样本,20%样本作为检验样本。选取的训练样本集远大于检验样本集是因为本文所建立模型在实际应用时有大量的累积数据作为其建模数据,而其所预测的对象往往只是比较少,甚至可能只是预测下个监测时间的位移值而已,这也是滑坡位移预测不同于滑坡稳定性评价之处。

表4 不同算法位移预测精度对比

表4对比了3种算法利用变形阶段信息和不利用该信息时的位移预测精度。3种算法取得的结果之间存在一定差异,但是都表现出相同特征,即利用变形阶段进行预测时其精度优于不利用该信息时的精度。这表明利用基于粗糙集的变形阶段预测成果来辅助滑坡位移数值预测是可行的、有效的。需要指出的是3种算法均未经过优化,其参数为均为默认值,因此表4结果不能用于评价3种算法之优劣。

4 结语

本文以白家包滑坡的多源监测数据为对象,结合数据挖掘技术将粗糙集理论引入滑坡变形阶段预测,进而利用得到的变形阶段预测结果指导滑坡位移的数值预测。实验结果表明:利用粗糙集处理定性的输入变量集能够取得与专业人员实地勘探结果吻合度极高(96.50%)的滑坡变形阶段信息;而利用这一信息指导滑坡位移预测,对于支持向量机、神经网络和分类回归树等3种算法都能明显提高其预测精度。这表明基于粗糙集的滑坡分阶段位移预测方法是有效的。同时,实验表明:不同算法预测滑坡位移的表现存在一定差异,针对滑坡的不同变形阶段选取和优化合适的预测算法将是后续工作的方向。另外需要指出的是蠕滑-加速的转变是滑坡预警的关键,然而这种情况出现的次数相对较少,因此今后工作需要选取更多的滑坡数据,获得更多的蠕滑-加速观测机会,从而进一步验证算法的适用性。

[1] Das S K. Slope Stability Analysis Using Genetic Algorithm[J/OL]. Bundle a of the Electronic Journal of Geotechnical Engineering,2005(10):[2013-0303]. http://www.ejge.com/2005/ Ppr0504/ Abs0504. htm:[2013-03-03].

[2] Saito M. Forecasting the Time of Occurrence of a Slope Failure[R]. Kokubunji:Japanese National Railways, Railway Technical Research Institute,1965.

[3] Voight B. A Method for Prediction of Volcanic-Eruption[J]. Nature, 1988, 322: 125-130.

[4] Voight B. A Relation to Describe Rate-Dependent Material Failure[J]. Science, 1989, 243: 200-203.

[5] Fukuzono T. Recent Studies on Time Prediction of Slope Failure[J]. Landslide News, 1990(4): 4-9.

[6] 晏同珍, 殷坤龙, 伍法权, 等. 滑坡定量预测研究的进展[J]. 水文地质工程地质, 1988(6):8-14. Yan Tongzhen, Yin Kunlong, Wu Faquan, et al. Progress of Landslide Quantitative Forecast[J]. Hydrogeology & Engineering Geology, 1988(6):8-14.

[7] 刘祖强. 滑坡破坏灰色预测[J]. 水利水电技术, 1991(2): 38-43. Liu Zuqiang. Grey Forecast of Landslide Hazard[J]. Water Resources and Hydropower Engineering, 1991(2): 38-43.

[8] Wan S A, Lei T C. A Knowledge-Based Decision Support System to Analyze the Debris-Flow Problems at Chen-Yu-Lan River, Taiwan[J]. Knowledge-Based Systems, 2009, 22(8): 580-588.

[9] Lu P. Artificial Neural Networks and Grey Systems for the Prediction of Slope Stability[J]. Natural Hazards, 2003, 30(3): 383-398.

[10] Wang H B, Liu G J, Xu W Y, et al. GIS-Based Landslide Hazard Assessment: An Overview[J]. Progress in Physical Geography, 2005, 29(4): 548-567.

[11] 王树良, 王新洲, 曾旭平, 等. 滑坡监测数据挖掘视角[J]. 武汉大学学报:信息科学版, 2004,29(7): 608-610. Wang Shuliang, Wang Xinzhou, Zeng Xuping, et al. View Angle of Landslide Monitoring Data Mining[J]. Geomatics and Information Science of Wuhan University, 2004,29(7): 608-610.

[12] 许强, 黄润秋, 李秀珍. 滑坡时间预测预报研究进展[J]. 地球科学进展, 2004,19(3): 478-483. Xu Qiang, Huang Runqiu, Li Xiuzhen. Research Progress in Time Forecast and Prediction of Landslides[J]. Advances in Earth Science, 2004,19(3): 478-483.

[13] 王尚庆, 徐进军, 罗勉. 三峡库区白水河滑坡险情预警方法研究[J]. 武汉大学学报:信息科学版, 2009,34(10): 1218-1221. Wang Shangqing, Xu Jinjun, Luo Mian. Study on Warning of Dangerous State of Baishuihe Landslide in Three Gorges Reservoir Area[J]. Geomatics and Information Science of Wuhan University, 2009,34(10): 1218-1221.

[14] 牛瑞卿, 彭令, 叶润青, 等. 基于粗糙集的支持向量机滑坡易发性评价[J]. 吉林大学学报:地球科学版, 2012,42(2): 430-439. Niu Ruiqing, Peng Ling, Ye Runqing, et al. Landslide Susceptibility Assessment Based on Rough Sets and Support Vector Machine[J]. Journal of Jilin University: Earth Science Edition, 2012,42(2): 430-439.

[15] 李秀珍, 孔纪名, 王成华. 多分类支持向量机在滑坡稳定性判识中的应用[J]. 吉林大学学报:地球科学版, 2010,40(3): 631-637. Li Xiuzhen, Kong Jiming, Wang Chenghua. Application of Multi-Classification Support Vector Machine in the Identifying of Landslide Stability[J]. Journal of Jilin University: Earth Science Edition, 2010,40(3): 631-637.

[16] 刘广润, 晏鄂川, 练操. 论滑坡分类[J]. 工程地质学报, 2002,10(4): 339-342. Liu Guangrun, Yan Echuan, Lian Cao. Discussion on Classification of Landslides[J]. Journal of Engineering Geology, 2002,10(4): 339-342.

[17] 黄润秋, 向喜琼, 巨能攀. 我国区域地质灾害评价的现状及问题[J]. 地质通报, 2004,23(11): 1078-1082. Huang Runqiu, Xiang Xiqiong, Ju Nengpan. Assessment of China’s Regional Geohazards: Present Situation and Problems[J]. Geological Bulletin of China, 2004,23(11): 1078-1082.

[18] Pawlak Z. Rough Sets-Theoretical Aspects of Rea-soning About Data[M]. Norwell: Springer, 1991: 252.

[19] 牛瑞卿, 韩舸. 利用数据挖掘的滑坡监测数据处理流程[J]. 武汉大学学报:信息科学版,2012,37(7): 869-872. Niu Ruiqing, Han Ge. Technological Flow for Processing Landslide-Monitoring Data Based on Data Mining[J]. Geomatics and Information Science of Wuhan University, 2012,37(7): 869-872.

[20] 徐红敏, 杨天行. 基于支持向量机分类算法的湖泊水质评价研究[J]. 吉林大学学报:地球科学版, 2006,36(4): 570-573. Xu Hongmin, Yang Tianxing. Evaluation of Lake Water Quality Based on Classification Algorithms of Support Vector Machines[J]. Journal of Jilin University: Earth Science Edition, 2006,36(4): 570-573.

[21] 罗伟平, 范晓敏, 陈军. 利用一种有监督模糊ART人工神经网络进行测井岩性识别[J]. 吉林大学学报:地球科学版, 2008,38(增刊): 137-139. Luo Weiping, Fan Xiaomin, Chen Jun. Using a Supervised Fuzzy ART Neural Network for Lithology Recognition in Logging[J]. Journal of Jilin University: Earth Science Edition, 2008,38(Sup.): 137-139.

[22] 李雪平, 唐辉明. 基于GIS的分组数据Logistic模型在斜坡稳定性评价中的应用[J]. 吉林大学学报:地球科学版, 2005,35(3): 361-365. Li Xueping, Tang Huiming. Application of GIS-Based Grouped Data Logistic Model in Evaluation of Slope Stability[J]. Journal of Jilin University: Earth Science Edition, 2005,35(3): 361-365.

A Stage-Divided Method for Landslide Deformation Prediction by Using Rough Set

Han Ge1,Gong Wei1,Wu Ting2,Zhao Yannan3

1.State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University, Wuhan 430079, China2.Hunan Prospecting Designing and Research General Institute for Provincial Institute of Agriculture, Forestry and Industry, Changsha 410007, China3.Institute of Geophysics and Geomatics, China University of Geosciences, Wuhan 430074, China

Rough set theory is introduced in variables set assessment and reduction for deformation stage prediction in the Baijiabao landslide after its multi-source monitoring data are preprocessed by means of data mining technique. On that basis, serval different algorithms are utilized to predict landslide displacement quantitatively for the purpose of comparison. The tests show that the rough set theory is capable of predicting landslide deformation stage precisely. The results obtained by the rough set contribute to improve performances of numerical prediction of the landslide displacement and the stage-divided method has an advantage over other conventional algorithm.

landslide; rough set; deformation stage prediction; displacement prediction

10.13278/j.cnki.jjuese.201403202.

2013-09-03

国土资源部三峡库区三期地质灾害防治重大科研资助项目(SXKY3-3-2)

韩舸(1987-),男,博士研究生,主要从事遥感地质及数据挖掘研究,E-mail:udhan@whu.edu.cn。

10.13278/j.cnki.jjuese.201403202

P642.22

A

韩舸,龚威,吴婷,等.利用粗糙集的滑坡分阶段位移预测方法:以白家包滑坡为例.吉林大学学报:地球科学版,2014,44(3):925-931.

Han Ge,Gong Wei,Wu Ting,et al.A Stage-Divided Method for Landslide Deformation Prediction by Using Rough Set.Journal of Jilin University:Earth Science Edition,2014,44(3):925-931.doi:10.13278/j.cnki.jjuese.201403202.

猜你喜欢
粗糙集滑坡水位
滑坡推力隐式解与显式解对比分析——以河北某膨胀土滑坡为例
基于Pawlak粗糙集模型的集合运算关系
浅谈公路滑坡治理
多粒化粗糙集性质的几个充分条件
双论域粗糙集在故障诊断中的应用
基于Fluent的滑坡入水过程数值模拟
“监管滑坡”比“渣土山”滑坡更可怕
基于MFAC-PID的核电站蒸汽发生器水位控制
两个域上的覆盖变精度粗糙集模型
基于PLC的水位控制系统的设计与研究