段功豪,牛瑞卿,彭 令,李亚楠
(1.武汉工程大学 计算机科学与工程学院,武汉 430205;2.中国地质大学 地球物理与空间信息学院,武汉 430074;3.中国地质环境监测院,北京 100081)
滑坡是自然界中最重要的地质灾害之一,在全世界具有灾害影响损失大、发生次数频繁、区域范围分布广泛以及运动速度快等特点[1-3]。近10 a来,三峡多期蓄水工程加剧了对库区内滑坡周边自然环境的改造,库水位的波动也同时影响着大坝和库区居民的安全[4]。在我国现有经济和技术条件下,对所有存在危险趋势的滑坡灾害进行治理显然不太可能。为了准确预测重大地质灾害,国内外专家分别通过分析滑坡内在外在环境诱发因子(降雨、库水波动、地下水等[5])和物理因素(滑坡土重度、黏聚力、安全系数等[6])特征,获取基于数据挖掘的滑坡演化判据[7];同时为了快速获取滑坡稳定性的实时情况,现有方法多以降雨监测模型[8]、地下水耦合模型[9]、多维空间模型[10]等地灾信息化理论为基础,初步建立了滑坡预报预报方法[11]。研究现状表明,现有预报方法实现了部分数据的分类存储与统一调用,属静态数据仓库的范畴[12]。在实际工作中往往需对遥感、矢量等来源数据进行初步验证,以保证数据有效性[13]。但滑坡数据时效性越来越短,采用人工修正历史数据的方法难以与日益庞大的多结构数据量达到平衡[14];此外,目前滑坡判据研究多是提取滑坡监测数据中与变形情况相关联的诱发因子,尚未考虑矢量数据的空间分布因素对稳定性的影响,如滑坡空间形态、涉水情况、距离河岸距离、是否属顺向坡等空间要素均是野外勘察工作治理中需要提防的问题。在此背景下,本文以三峡库区976个长江沿岸滑坡为研究对象,利用关联规则算法挖掘属性数据与滑坡空间分布对稳定性的重要影响因子,建立PostGIS内部响应机制,调用矢量数据空间函数处理多维判据,尝试实现滑坡稳定性自动化评价方案,形成滑坡稳定性分布概况图。
三峡库区广义上是指受三峡工程淹没的地区,主要覆盖湖北宜昌和重庆两地,总面积约10 000 km2,长江干流跨度约42 km。库区地处长江上游段,属四川盆地与长江中下游平原结合部,地层发育较完整,构造复杂,第四系地层和植被分布广泛,易滑岩层如巴东组多有出露,其广泛发育的泥岩,砂岩等软性岩石为滑坡的形成提供了先决物质条件;褶皱作为库区主要构造形式,如著名的黄陵背斜和秭归向斜等,为干流沿岸滑坡的孕育提供了良好空间环境[15-16]。自2008年至今,库区进行多次135~175 m水位试验性蓄水,在持续高水位期间的3~5 a内,涌现出大量新生滑坡和塌岸。目前,多期治理工作循序展开,多源监测指标,人文经济数据等滑坡相关资料已在地灾数据库中有效存储,据统计资料表明,共有约1 467个古滑坡和新生滑坡发育在研究区内。利用归一化水指数(Normalized Difference Water Index,NDWI)方法,从Landsat TM影像提取长江及支流水系面,添加专业监测数据库中的滑坡面数据,据三峡库区地质灾害防治工作指挥部数据,全库区范围及示例区(安坪乡至望霞乡段)滑坡分布情况如图1和图2所示。
图1 三峡库区水系面提取结果Fig.1 Geographical location of Three Gorges Reservoir area and extraction result of water surface
从图2中可见,在示范区的干流左右沿岸,滑坡经常呈现密集分布的特征。对目前三峡库区的滑坡资料进行不完全统计,发现全库区内共有976个滑坡位于水体周边,原因可能在于:约有90%的实测滑坡发生于雨季,库区降雨量十分充足,因此每年6—9月份为滑坡发生密集阶段。大多数研究区滑坡属于松散物堆积层类型,构成坡体坡面的主要松散物质易于水体的动力流通,考虑到坡体前缘部分经常受支流与干流水体侵蚀作用,坡面降雨和坡内地下水一起将形成水流通道灌入长江。上述因素将导致水体在坡体表面和内部发生循环动力作用,使得滑坡综合稳定性受到很大影响,最终演化为不同程度的灾害问题。对于库区而言,沿岸滑坡经常成群爆发,一段时间内会造成河道拥塞甚至堰塞湖的出现,严重影响着周边居民的生命财产安全。本次研究以沿岸滑坡为监测对象,从地灾数据库中提取翔实的数据资料,挖掘与滑坡稳定性变化相关的知识,形成以矢量数据处理分析为主要方法的滑坡监测流程。
图2 示例区滑坡分布(安坪乡至望霞乡)Fig.2 Landslide distribution in sample area
如今,三峡库区地质灾害防治工作组已在某些重点防治的单体滑坡体各部位均设置专业监测点位,目前有些滑坡位移等监测数据的更新周期已达到了小时级。但在目前有限监测仪器和险峻地质条件下,区域性滑坡群位移预测尚未达到有效的精度,多数滑坡仍采取临滑或滑后突击勘查和群测群防的方针加以治理。本次研究整理了多期滑坡监测报告,利用PostGIS存储功能,导入水体及滑坡面数据,从对矢量文件中分析并提取滑坡前缘高程、距河距离、面积等连续型数值指标和所在区发育岩性等离散属性,力求从有限的数据中挖掘沿岸滑坡在研究区中发育的一般规律,并建立定量化关联规则模型,有针对性地对潜在失稳滑坡展开库区全范围的先验监测,系统化监测流程,保证预测预警的时间效率。
关联规则模型体现了2个或多个变量间的某种规律性,核心算法是对多项数据的关联度的计算,并以单维或多维的规则,用来对规律和知识进行重现。但该算法难以处理量化的数据,即连续型变量不利于规则的生成。例如累积降雨量和持续降雨天数,两者只存在数值大小区分,因此关联度并不容易判别。从提高规则生成效率的角度出发,减小定量数据对建模影响,一般需要要将连续数值变量离散化。最终结合实际应用背景,采用不同算法的数据分箱化,转换为类型变量。
本文利用SPSS Clementine数据挖掘软件中的数据分箱功能,根据经验选择最短描述长度规则MDLP的熵分组方法,定义主管字段为已有滑坡稳定性的4种类型(不稳定、欠稳定、基本稳定、稳定),设置分箱字段为矢量数据中的稳定性相关因素;同时参考《地质灾害分类分级标准》(TCAGHP 001—2018)[17]划分滑坡体积;然后利用Fixed-width方法划分受灾人数、经济损失等人文经济指标。最终将连续数值的离散化处理结果和其他监测评价指标用于后续多维规则的前项集。分级结果如表1所示。
从本次试验的研究角度出发,首先定义滑坡稳定性情况为规则后项,前项设定为矢量相关属性的分类化指标,诸如“评价因子1、评价因子2、…、评价因子n综合考虑得到稳定性情况”视为多维判据。按照上述前项和后项的规定模式,以研究区滑坡的月相对位移划分完备的演化阶段属性列为后项,在其他参数默认情况,利用Clementine软件支持的Apriori广度优先算法建立多维关联规则。
参考表1定义的稳定性因子,按照平均覆盖研究区的原则选取600组滑坡作为模型训练集,得到基于规则的多维判据。在实际情况下,判据提取的过程需要给定一个终止判定条件,例如最大前项数,最小置信度等模型参数的阈值,最终可过滤多数无意义的关联规则。共生成326条规则,舍弃置信度低的项目集,去掉矛盾和重复的规则,整理置信度>0.75的序列,选取有代表性的规则如表2所示。
表1 稳定性评价因子多维分级Table 1 Multidimensional classification of stability evaluation factors
从表2中可以发现:前缘和后缘高程对滑坡失稳影响不大,数值等级呈随机分布于规则中;当滑坡所在区岩性为软硬相间、坡度在[15°,45°]范围内、距河距离在[0.10,117.90)m时越可能发生危险,规则后项往往被判定为不稳定或欠稳定,这是由于坡度较大的陡倾坡,易以崩塌体形式存在,相较堆积层滑坡更为稳定,非陡坡属于实际情况下发生较多的坡体坡度类型;当坡体受外力影响时,软硬相间的岩层由于抗滑抗剪系数的不均衡,造成坡体软弱岩性部位的坡体剪出,更易使得滑坡进入加速变形阶段;滑坡通常会在外界因素的触发下(如持续性特大暴雨、库水位长期波动、人类工程活动等)成群涌现,对两岸周边居民的安全和经济影响十分严重。所以,目前急需一种能准确利用判据,有效预测大量滑坡稳定性的解决方案。
表2 滑坡稳定性情况关联规则Table 2 Association rules of stability evaluation factors
滑坡和水体空间数据包含几何特征与属性信息,利用PostGIS提供的Shapefile Import Manager工具规范导入以上矢量数据,分别命名为landslide表和riversurface表。由于空间数据库的设计方法与传统数据库存在巨大差异,需要指定系统表存储和管理几何字段、空间参考等信息。PostGIS空间数据库包含spatial_ref_sys表,用来存放投影信息和坐标转换操作,矢量数据通过指定空间标识符与spatial_ref_sys连接,确定当前空间投影信息。数据结构如图3所示。
图3 属性表数据结构Fig.3 Data structure
除属性字段外,landslide和riversurface表中均含有geom字段,表示滑坡面和水系面的几何信息;GIS中通常使用欧洲石油调查小组(European Petroleum Survey Group,EPSG)的代码来表示一种地图投影,而在系统表spatial_ref_sys中,srid字段的值充当了EPSG的功能;在导入数据前指定srid的值为4 326,确定当前矢量数据的坐标参考系统为WGS 84。
试验中部分滑坡采用的是从遥感影像上提取的面信息,在叠加水系面时会出现滑坡前缘浸水过度的情况,不利于后续运算操作。采用PostGIS提供的ST_Difference()函数统一裁剪滑坡面,该函数参数设置为滑坡水系的矢量数据对象,返回非同属于这两类几何对象的结果集,利用该函数,可处理浸水过度的沿河面积。图4表示处理后的效果。
图4 滑坡面预处理Fig.4 Shapefile pretreatment
基于矢量数据库的监测技术将主动、快速、有效地分析滑坡图形数据的几何特征和属性特征,依据表2的知识规则,利用OpenGIS规范下的空间处理函数,分析与水体间的关系,获取坡稳定性特性,批量生成区域性滑坡的稳定性分布。
从数据库的角度来看,滑坡监测表(landslide)的更新包含属性和几何数据,本次试验将余下376个滑坡作为新增数据,通过建立表内触发器,将多维判据转换为对行数据(单个滑坡)的约束条件(即触发条件),当通过条件分验后,根据触发器事件代码,确定滑坡当前稳定性。以表2中第6条规则为例,流程如下:
输入:
landslide(shapefile)
riversurface(shapefile)
I(滑坡个数)
输出:
当前滑坡稳定性(稳定,基本稳定,欠稳定,不稳定)
K(符合规则的滑坡个数)
算法:
Repeat
I=I-1;
for each landslide
K=0;
If (ST_Distance(landslide,riversurface) in [117.90,402.70] and landslide.front_evevation in [586.67,850] and ST_Area(landslide) in [0,10] and landslide.lithology =‘软硬相间’ and landslide.impacted_people in [0,5000] and landslide.economic_losses in [0,5916.67])
If(other Multidimensional-criterion)
alter tablelandslide add stability (10) default ‘不稳定’;
K=K+1;
UntilI=0
程序开头声明I数值型变量,记录处理的滑坡总个数,约定程序循环次数;利用PostGIS提供的ST_Distance()函数,该函数以两项2维几何体为参数,返回在当前参考坐标系下两者的空间最小距离(m);ST_Area()返回参数所定义的多边形面积(m2);在触发器内部判断不同因子所属状态等级,在多维判据的指导下,推断滑坡稳定性;利用这种流程,添加多项判断语句,导入余下多维判据;若符合判定条件,添加字段stability确定当前滑坡稳定性,同时定义数值型变量K记录符合判据的滑坡个数。
利用这种快速评定流程,预测余下376个滑坡单体滑坡稳定性分布情况,典型区域滑坡稳定性分布预测图如图5所示。
图5 典型区域滑坡稳定性分布预测Fig.5 Predicted result of stability distribution in typical area
斜坡的形成是滑坡发育的现实基础,叠加DEM格网信息更易于锁定高程起伏较大的区域,合理利用多维判据的先验知识,上述稳定性分布图直观地评价典型区域滑坡发展趋势。汇总滑坡稳定性实际情况与全区预测评价结果,形成表3如下所示。
表3 多维判据精度评价Table 3 Accuracy evaluation of multidimensional criterion
从精度评价中可以发现,在对4类滑坡稳定性预测中,共发生了66处误判,但只有14处不稳定滑坡和10处欠稳定滑坡被划分为稳定或基本稳定,表明多维判据具有较好的灾害预测能力。误判原因主要在于关联模型的训练量不够,后期可引入新的评价因子优化触发器的代码。综上,本文利用遥感影像提取的水体和滑坡矢量数据,基于关联规则模型和矢量数据库的理论,建立三峡库区沿岸滑坡稳定性发展趋势预测图,综合正确率达82.45%,结果客观、可信,为滑坡灾害的实时监测提供了一种可以参照的自动化监测模式。
(1)针对大区域性滑坡稳定性预测中的海量多源数据与处理效率不平衡现象,本文基于数据挖掘的关联规则方法,利用三峡库区典型岸滑坡监测数据和人文经济指标,构建了置信度较高的多维判据,对影响滑坡稳定性变化的评价因子进行了快速、有效的提取。
(2)在以矢量数据为输入流的滑坡数据预处理过程中,通过利用空间函数ST_Difference()能够批量切除滑坡前缘过度涉水部分,节约了时间成本。
(3)本次试验提供了可复用的算法流程,将多维判据有效转换为矢量数据库知识,并基于先验规则库建立滑坡稳定性分布图。结果表明:基于关联规则和矢量数据库理论的滑坡稳定性快速判别流程具有较好的适用性,综合正确率达82.45%,评价结果客观、可信。
本文方法的优点在于先验规则获取较为便利,触发器代码响应快速、稳定并可复用,但需要指出的是,滑坡空间环境发育复杂,坡体物质等物理因素发生突变会对滑坡稳定性带来的影响,本次试验只考虑了矢量数据的体积和距河距离等因素,而对滑坡体形态等空间易变要素未有涉及。因此,下一步工作可以考虑利用遥感资料实时提取滑坡变化的地物特征及环境信息,提高这种快速监测流程的自动化程度和预测精度。