张晓东,刘湘南,赵志鹏,吴文忠,刘海燕,张 勇,高宇亮
(1.中国地质大学(北京) 信息工程学院,北京 100083;2.宁夏回族自治区地质调查院,宁夏 银川 750021;3.山东科技大学 地球科学与工程学院,山东 青岛 266590)
地质灾害敏感性评价是以地质环境条件为基础,参考地质灾害现状静态因素预测地质灾害在一定区域内发生的可能性大小[1-2],其评价方法包括层次分析法、模糊综合评判法、逻辑回归法、信息量法、确定性系数法等[3-5]。但由于单一的评价模型存在诸如不能客观地确定影响因子的权重、建模过程中主观干扰变量处理以及无法消除评价因子之间的相关性等问题,难以客观、定量、准确地进行区域地质灾害敏感性评价[6-7]。近年来,3S技术的快速发展有效地提高了区域地质灾害敏感评价模型的评价精度,尤其是基于GIS的逻辑回归法、信息量法以及确定性系数法等定量评价方法的组合使用在地质灾害敏感性评价中得到了广泛的应用并取得良好效果,如许冲等基于GIS与确定性系数分析方法的汶川地震滑坡易发性评价[8],方苗等基于GIS和逻辑(LR)回归模型对兰州市滑坡灾害敏感性进行评价与区划[9],田春山等基于确定性系数(CF)模型和LR回归模型对广东省地质灾害易发性进行评价[6],杜谦等利用二元逻辑回归(LR)和信息量(Ⅰ)模型相结合的方法对任河小流域进行地质灾害易发性分区研究[10]。本文将信息量模型和CF模型分别与LR回归模型相结合,在研究宁夏盐池县孕灾环境的基础上,选取了坡度、坡向、坡高、高程、地层、距河流距离、距道路距离、植被覆盖度(NDVI)等8个影响灾害发生的评价因子,结合231个地质灾害点,对宁夏盐池县地质灾害的敏感性进行评价,以期为盐池县城乡发展规划及防灾减灾预警工作提供参考。
盐池县位于宁夏回族自治区东部,总面积约为6 757.6 km2。气候属典型中温带大陆性季风气候,常年干旱少雨,风大沙多,年平均气温为8.4 ℃;多年平均降水量250~350 mm,从南向北、从东南向西北递减,年平均蒸发量2 403.7 mm。无常年地表水流,仅有一些小型的季节性溪流,季节性变化非常明显。地形总体呈南部高、北部低,中部高、东西两侧低的特点;北部为缓坡丘陵,地势平缓起伏,南部为黄土丘陵区,沟壑纵横, 地质环境条件十分脆弱,水土流失严重。地层区划属华北地层区,以车道—阿色浪断裂为界,西侧为鄂尔多斯西缘地层分区之桌子山—青龙山地层小区,东侧为鄂尔多斯地层分区之盐池—环县地层小区;区内出露最老地层为中元古界王全口组,奥陶系、三叠系、二叠系、侏罗系仅零星出露,白垩系主要分布在县城东部苏步井—红沟梁—佟记圈—青山一带,第四系地层分布广泛。大地构造位置属华北陆块之鄂尔多斯地块,以车道—阿色浪断裂为界,西部属鄂尔多斯西缘中元古代—早古生代裂陷带之陶乐—彭阳冲断带,东部属鄂尔多斯中生代坳陷之天环复向斜带[11]。地震烈度为Ⅵ—Ⅷ度,地震动峰值加速度为0.05~0.20g。
本研究所用的地质灾害数据源于2012年宁夏回族自治区国土资源厅支撑项目“宁夏盐池县1∶50 000地质灾害详细调查”统计结果,共计地质灾害点231个,其中滑坡125处,崩塌84处,泥石流19处,地面塌陷3处。此外,根据本文研究需求,在ArcGIS中随机生成非灾害样本点231个,样本点与非样本点之间的距离为2 km。地质灾害敏感性评价影响因子的基础数据包括DEM数据(30 m分辨率)、盐池县1∶20万地质图、1∶35万水系图、NDVI数据以及降水数据。其中NDVI由美国地质调查局网站提供的2014年7月28日获取的Landsat 8 OLI影像计算获得。
信息量模型是一种常用的统计分析方法,近年来在地质灾害领域得到广泛应用。在地质灾害敏感性评价中,信息量法通过确定影响因子所贡献的信息量大小与综合水平来进行相应的区域敏感预测与等级区划,其核心是计算与比较各个因子对于研究对象所贡献的信息量大小,其公式为:
(1)
式中:xi代表评价单元内所取的因子等级;I(xi,H)为因子xi对地质灾害所贡献的信息量;S为研究区面积;Si为研究区内含有因子xi的面积;N为研究区内地质灾害总数;Ni为发生地质灾害区域中含有因子xi的数量;I为评价单元中的综合信息量;n为影响因子数量。
确定性系数模型由Shortliffe等[12-13]提出并对其进行改进。该模型假设将来发生地质灾害的条件和过去发生地质灾害的条件相同,其计算公式为:
(2)
式中:CF为地质灾害发生的确定性系数;Pa为地质灾害在因子分类数据a中发生的条件概率,在实际研究中可用因子分类a中的地质灾害个数(或面积)与数据分类a的面积比值表示;Ps表示整个研究区的灾害总个数(或面积)与研究区总面积的比值。
由公式(2)可知,CF的变化区间是[-1,1]。其中,正值代表事件发生确定性的增长,即地质灾害发生的确定性高,地质环境条件易于发生地质灾害;负值代表事件发生的确定性降低,即地质灾害发生的确定性低,地质环境条件不易于发生地质灾害。
逻辑回归是研究二分类结果与其影响因子之间关系的一种常用的多元统计分析方法。在地质灾害分析中,它用来描述二元因变量(通常0代表地质灾害不发生,1代表地质灾害发生)和一系列的自变量(x1,x2,…,xn)之间的关系。自变量可以是连续的也可以是离散的,不需要满足正态的频率分布,其函数如下式:
(3)
式中:P为灾害发生概率,取值范围为[0,1];βi为逻辑回归系数。
本文从462个样本点(231个灾害点和231个非灾害样本点)中随机选择80%的样本点作为训练样本来建模,结合评价因子,分别采用信息量模型+逻辑回归模型(I+LR)和确定性系数模型+逻辑回归模型(CF+LR)2种组合模型评价盐池县的地质灾害敏感性并分区;分析2种组合模型得到的研究区地质灾害敏感性评价结果;利用20%的样本点,分别采用合理性检验和精度检验(ROC),结合地质灾害实际发育情况讨论并比较2种组合模型的准确性。
盐池县地质灾害主要包括滑坡、崩塌、泥石流和地面塌陷,以滑坡和崩塌为主。敏感性分区的精度取决于所选用的评价因子,因此,深入理解每个影响因子对区域地质灾害的贡献以及因子之间的累积效应有助于提高地质灾害敏感性评价及分区精度。根据盐池县地质灾害调查资料,结合对典型灾害点的详细勘察研究,经过分析选择坡度、坡向、坡高、高程、地层、距河流距离、距道路距离、植被覆盖度等8个因子(敏感性评价通常不考虑地震、降雨等诱发因素)作为盐池县地质灾害敏感性评价因子(图1),每个因子的分级指
标见表1。
根据462个样本点在各评价因子分类级别中的分布信息,分别利用公式(1)和公式(2)计算各分类级别在各因子中的I值和CF值,不仅可以比较同一评价因子下各分类级别的相对重要性,还可以和不同评价因子的分类级别之间进行比较,各分类级别的I值和CF值见表2。
图1 研究区地质灾害敏感性评价因子Fig.1 Conditioning factors for geological hazard assessment of the study area(a)坡度;(b)坡向;(c)坡高;(d)高程;(e)地层;(f)距河流距离;(g)距道路距离;(h)NDVI
Table1ClassificationofgeologicalhazardsusceptibilityevaluationfactorsinYanchiofNingxia
评价因子分级数指 标 分 级坡度/(°)80~5,5~10,10~15,15~20,20~25,25~30,30~35,>35坡向9平地,北向,东北,东向,东南,南向,西南,西向,西北坡高/m50~10,10~20,20~30,30~40,>40高程/m61 294~1 400,1 400~1 500,1 500~1 600,1 600~1 700,1 700~1 800,1 800~1 950地层10全新统,更新统,新近系,古近系,白垩系,侏罗系,三叠系,二叠系,奥陶系,中元古界距河流距离/m60~200,200~400,400~600,600~800,800~1 000,>1 000距道路距离/m50~100,100~200,200~300,300~400,>400NDVI50~0.1,0.1~0.2,0.2~0.3,0.3~0.4,>0.4
变量之间如果存在高度相关关系会使模型估计失真或难以估计准确。因此,本文首先随机选取灾害点总样本的80%作为训练样本(共计370个),提取每个样本的各个因子等级值,在SPSS中进行多重共线性诊断,统计其方差膨胀因子(VIF)。对所选8个评价因子进行共线性诊断,其VIF计算结果显示坡度和坡高2个因子VIF值明显偏高,表明变量之间可能存在共线性,相互之间有交互作用(表3)。对8个变量进一步做相关性分析,2种组合模型计算出的坡度与坡向均表现为在0.05水平上(双侧)显著相关,坡度与坡向的相关系数分别为0.905、0.862。因此,综合考虑后去除坡高因子,保留其余7个评价因子。利用相关分析再次对7个因子之间的独立性进行检验,以保证变量之间的独立性,各因子之间的相关矩阵见表4。从表4中可以看出各因子之间的相关系数均小于0.3,因此所选因子之间的相关性较小,7个因子均可以进入模型。
将370个样本点7个因子的I值和CF值分别输入SPSS中进行二项逻辑回归分析,各评价因子分类级别的I值和CF值作为自变量,是否发生地质灾害作为因变量(1代表地质灾害样本点,0代表非地质灾害样本点)。在灾害敏感性评价中B代表各因子权重的大小,每个变量在方程中的重要性通过比较Sig值来判断,Sig值小于0.05才有统计意义。回归结果显示,2种组合模型计算出的坡向因子的Sig值分别为0.156、0.911,无法通过显著性检验,无统计意义。因此,将该因子剔除,选择坡度、高程、地层、距河流距离、距道路距离及植被覆盖度6个因子重新计算,得到的结果的显著性均小于0.05(表5),故其回归系数在误差允许范围内是准确的。I+LR模型计算出的因子权重由大到小依次为距道路距离、距河流距离、NDVI、高程、坡度和地层,而CF+LR模型计算出的因子权重由大到小依次为距道路距离、距河流距离、高程、坡度、NDVI和地层。可见,2种组合模型中NDVI因子对模型贡献变化最大,I+LR模型计算出的NDVI回归系数为0.926,对模型起正向作用;CF+LR模型计算出的NDVI回归系数为-1.837,对模型起负向作用。2种组合模型计算出的其他5个因子回归系数则对模型同时起正向作用或负向作用。
在ArcGIS中,根据得到的各因子的回归系数结合公式(3)计算出盐池县地质灾害发生的概率P,形成研究区滑坡发生概率分布图,在此基础上采用自然间断点分级法将研究区按P值大小分为4个区,最终形成滑坡敏感性分区图(图2)。统计2种组合模型计算得到的极低、低、中、高4个级别的敏感区面积,结果表明:2种组合方法得到的低、中敏感区面积基本相当,高敏感区面积相差较大,CF+LR模型较I+LR模型高敏感区面积增加约533.6 km2,而极低敏感区面积减少约6%。从各敏感性等级分布状况来看,2种组合模型得到的敏感性评价分区均显示极低、低敏感区主要分布在研究区中北部的丘陵区,而中、高敏感区分布南部麻黄山黄土覆盖区,但中、高敏感区空间分布差异明显,尤其在高敏感区,差异尤为突出。I+LR模型敏感性分区图显示中敏感区主要分布在麻黄山地区以及北部的盐池县城—王乐井乡—青山乡一带,高敏感区分布在麻黄山地区及西南部的惠安堡镇(图2(a))。CF+LR模型敏感性分区图显示除I+LR模型敏感性分区图中分布的中、高敏感区外,麻黄山北部、王乐井乡以西也分布有中敏感区,青山乡—花马池镇—佟记圈、盐池县城北部以及高沙窝镇的西南部敏感性高且面积相对较大(图2(b))。此外,I+LR模型中河流为中敏感区,而CF+LR模型中则为高敏感区。
表2 各评价因子分类级别信息量模型和确定性系数模型计算结果
注:I,各因子对研究对象所贡献的信息量大小;CF,地质灾害发生的确定性系数。
表3 各评价因子的方差膨胀因子(VIF)计算结果
5.2.1 合理性检验
本文通过实际发生的灾害点在各敏感等级区内的分布状况来进行合理性检验,为保证已建模型的客观性和稳定性。检验点是未参与模型训练的92个样本点,约占总样本的 20%。模型合理性检验基于如下3 个检验标准:(1)检验点落在高敏感区的百分比最大;(2)低敏感区占整个研究区面积的百分比最大;(3)检验样本落在各等级区的百分比(Gei)和各等级区的面积占整个研究区的总面积的百分比(Sai)的比值(Rei)由低敏感区(Ⅰ)向高敏感区(Ⅳ)逐渐增大,即ReⅠ 表4 评价因子间的相关系数矩阵 注:**表示在1%水平(双侧)上显著相关;*表示在5%水平(双侧)上显著相关。 表5 逻辑回归分析结果 注:B代表模型中各个因子的回归系数;S.E.为标准误差;Wals为Wald检验统计量;df为自由度;Sig表示显著性。 检验结果(表6)表明:2种组合方法得到的敏感性分区均符合上述合理性检验的3个标准。2种组合方法的ReⅠ和ReⅡ相差不大,但I+LR模型的ReⅢ和ReⅣ值分别为2.40、6.87,明显高于CF+LR模型的ReⅢ和ReⅣ值1.37、3.35,这表明后者的敏感性分区更加均一。 5.2.2 精度检验 图2 研究区地质灾害敏感性分区图Fig.2 Susceptibility zonation maps of geological hazards in the study area ROC曲线是地质灾害敏感区域评价精度验证的常用方法。由于ROC曲线简单、直观,可准确地反映所用分析方法特异性和敏感性的关系,具有很好的试验准确性,因而广泛应用于地质灾害敏感性评价[14-15]。AUC表示ROC曲线下的面积,是度量分类模型好坏的一个标准,其值介于0.5~1之间,越接近1,则模型模拟值和样本值越接近。本文使用ROC曲线和AUC值对分区模型进行检验,曲线中纵轴为真阳性率,即实际灾害数量百分比累加量;横轴为假阳性率,即敏感性面积百分比累积量。检验结果显示,2种组合方法的AUC值分别为0.868和0.829(图3),渐进Sig.b均小于0.05,表明2 表6研究区地质灾害敏感性分区合理性检验表 Table6Rationalityverificationresultsofsusceptibilityzonationofgeologicalhazardsinthestudyarea 模型敏感区级别Sai/%Gei/%Rei=Gei/SaiI极低敏感区(Ⅰ)60.7928.260.46低敏感区(Ⅱ) 23.4414.130.60中敏感区(Ⅲ) 11.3427.172.40高敏感区(Ⅳ) 4.4330.436.87CF极低敏感区(Ⅰ)54.4926.090.48低敏感区(Ⅱ) 22.8918.480.81中敏感区(Ⅲ) 10.3014.131.37高敏感区(Ⅳ) 12.3241.303.35 注:Sai为i等级敏感区的面积占整个研究区面积百分比;Gei为落在等级i中的检验点占整个检验样本数量的百分比(i=Ⅰ,Ⅱ,Ⅲ,Ⅳ)。 图3 逻辑回归模型ROC曲线Fig.3 ROC curves for logistic regression models 种组合方法均能较为客观准确地对盐池县地质灾害敏感性进行评价,且I+LR模型的精度高于CF+LR模型。 本文采用I+LR模型和CF+LR模型分别对盐池县地质灾害敏感性进行评价,合理性检验和ROC检验表明2种组合方法均能有效地提取地质灾害信息并筛选因子,较为准确地划分地质灾害敏感区,进一步对盐池县地质灾害敏感性进行评价。2种模型6个因子权重结果显示,I+LR模型中坡度、高程、距河流距离、距道路距离4个指标的权重值相对于CF+LR模型中相同指标的权重值明显偏小,且植被覆盖度在前者中起正向作用,而在CF+LR模型中起负向作用而且权重值较大。由此可见,2种组合模型计算的权重差异较为明显,使相同的评价因子在2种评价模型中产生了不同的评价结果。2种组合方法的AUC值分别为0.868和0.829,表明I+LR模型的精度高于CF+LR模型;此外,敏感性分区图结果显示,CF+LR模型的敏感性分区结果的中、高敏感区域面积较大,且大部分分布在地质灾害很少发生的中北部丘陵区,这与地质灾害实际发育情况并不相符。综上所述,数学评价模型和地质灾害发育规律均表明I+LR模型在盐池县地质灾害敏感性评价中的精度更高。 本文以宁夏盐池县地质灾害详细调查的231个地质灾害点为基础,选取坡度、坡向、坡高、高程、地层、距河流距离、距道路距离、植被覆盖度等8个因子作为地质灾害敏感性评价因子,分别采用信息量模型+逻辑回归模型和确定性系数模型+逻辑回归模型2种组合模型对盐池县地质灾害敏感性进行评价和分区。结果显示,2种组合模型得到的低、中敏感区面积基本相当,而高敏感区面积相差较大;2种组合模型的合理性均符合检验要求,ROC精度检验、AUC值分别为0.868和0.829,表明2种组合评价模型都能较为客观准确地评价盐池县地质灾害敏感性且前者ROC精度更高;同时,盐池县地质灾害发育的实际情况也表明信息量模型+逻辑回归模型在该地区地质灾害敏感性评价中较确定性系数模型+逻辑回归模型精度更高。 参考文献: [1] GUZZETTI F,REICHENBACH P,CARDINALI M,et al.Probabilistic landslide hazard assessment at the basin scale[J]. Geomorphology,2005,72(1/4) : 272-299. [2] 倪化勇,王德伟,陈绪钰,等. 四川雅江县城地质灾害发育特征与稳定性评价[J].现代地质,2015,29(2):474-480. [3] 孟庆华,孙炜锋,王涛.陕西凤县地质灾害易发性评价研究 [J].工程地质学报,2011,19(3):388-396. [4] 张超,陈艳,张宇飞,等.基于多元线性回归模型的云南昭通地质灾害易发性评价[J].水文地质工程地质,2016,43(3):159-163. [5] CHAU K T,SZE Y L,FUNG M K,et al. Landslide hazard analysis for Hong Kong using landslide inventory and GIS[J].Computers & Geosciences,2004,30(4):429-443. [6] 田春山,刘希林,汪佳. 基于CF和Logistic回归模型的广东省地质灾害易发性评价[J].水文地质工程地质,2016,43(6):154-161. [7] 岳溪柳,黄玫,徐庆勇,等. 贵州省喀斯特地区泥石流灾害易发性评价[J].地球信息科学学报,2015,17(11):1396-1403. [8] 许冲,戴福初,姚鑫,等. 基于GIS与确定性系数分析方法的汶川地震滑坡易发性评价[J]. 工程地质学报,2010,18(1):15-26. [9] 方苗,张金龙,徐瑱. 基于GIS和Logistic回归模型的兰州市滑坡灾害敏感性区划研究[J].遥感技术与应用,2011,26(6):845-853. [10] 杜谦,范文,李凯,等.二元 Logistic 回归和信息量模型在地质灾害分区中的应用[J].灾害学,2017,32(2):220-226. [11] 张晓东,刘湘南,赵志鹏,等. 盐池县地质灾害遥感调查及空间分布特征分析[J].水文地质工程地质,2017,44(1):164-170. [12] SHORTLIFFE E H,BUCHANAN B G.A model of inexact reasoning in medicine[J].Mathematical Biosciences,1975,23(3):351-379. [13] HECKERMAN D. Probabilistic interpretation for mycin’s certainty factors[J]. Machine Intelligence & Pattern Recognition,2013,4:9-20. [14] LIANG J W, KAZUHIDE S, SHUJI M. Landslide susceptibility analysis with logistic regression model based on FCM sampling strategy[J].Computers & Geosciences,2013,57:81-92. [15] HAMID R P,MAJID M,BISWAJEET P. Landslide susceptibility mapping using index of entropy and conditional probability models in GIS:Safarood Basin,Iran[J]. Catena,2012,97:71-84.6 结 论