基于SVM-RF 模型的地质灾害易发性评价
——以河南省博爱县青天河景区为例

2023-11-11 01:45常勤慧
地质与资源 2023年5期
关键词:易发景区样本

茹 曼,郑 燕,张 斌,常勤慧

河南省航空物探遥感中心,河南 郑州 450000

0 引言

青天河景区位于焦作市西北20 km 处的博爱县境内,景区由佛耳峡、靳家岭、月山寺等七大游览区、308 个景点组成,是世界地质公园、国家5A 级旅游景区、国家重点风景名胜区、国家水利风景区、国家猕猴自然保护区,是素有“北方三峡”之美誉的综合型山水休闲度假旅游地.近年来,一方面由于前期修建青天河水库,两岸形成高陡岸坡,另一方面随着旅游业的快速发展及越来越多的新的景点被发现和开发,以道路建设为主的人类工程活动不断增加.受人类工程活动及自然的双重影响,水库两岸地带、景区道路、景点附近亦存在崩塌、滑坡、泥石流隐患,严重威胁游人的安全.特别是2021 年“7·20”“9·30”极端气象条件的出现,在景区内引发了崩塌、滑坡等地质灾害,使景区受到了一定程度的破坏.针对地质灾害的突发性与高危害性,科学评价与防灾管理是减轻其损失的最佳方案,根据以往资料显示①宋鹏飞,等.河南省博爱县1∶5 万地灾详查报告.河南省地质矿产勘查开发局测绘地理信息院.2015.,研究区内易发性评价存在区划中网格较大、易发区划分效果较差等问题,没有对研究区易发性真实情况进行细化研究、评价.因此笔者在查明研究区雨后地质灾害空间分布及孕灾地质环境条件的基础上,建立合适研究区的评价模型,实现地质灾害易发性有效评价,为景区科学防灾管理及保护当地社会经济发展提供依据.

地质灾害易发性评价是地质灾害危险性风险性评价的基础,主要包括查明地质灾害特征、挖掘易发孕灾条件、建立评价方法体系、对潜在易发区域预测,最终实现易发性高低合理分级[1-2].近年来,以统计学法和人工智能算法为代表的新技术使得地质灾害易发性评价理论与技术的研究上了一个新台阶.常用的方法有:证据权法、逻辑回归法、信息量法、随机森林模型、支持向量机模型、神经网络模型及组合模型等.其建立的评价模型一方面可得到更为科学且严谨的评价结果,另一方面能较好地解决地质灾害复杂的多源性、时空性和非线性机理特征,具有广阔的应用前景与研究价值[3-17],丰富的成果为后续的研究奠定了坚实的理论技术基础及经验参考.然而在上述研究中采用的地质灾害样本数量均较多,其理论方法是否适用于小样本区域地灾评价?针对地质灾害数量较少的区域如何更好地开展相关评价研究等问题,部分学者也开展了相关研究.薛永安等针对小样本情况下基于CF(确定系数法)和SVM(支持向量机)地质灾害敏感性评价模型的适用性及成果的可靠性问题展开研究,结果显示,无论单体模型还是组合模型其评价精度均较好,具有较高的适用性[18].另外,有部分研究者发现,SVM 与其他模型相比,在小样本数据中表现良好,被认为是目前针对小样本分类和回归问题的最佳方法,更加适合样本数据有限的情况[19-22].RF(随机森林)模型其集成学习算法在小样本数据中也展示了较好的模型预测精度[23-24].

基于上述研究现状,本文尝试采用SVM-RF 模型对青天河景区地质灾害易发性评价进行研究,探讨该模型在研究区的适用性及预测性,为青天河景区科学防灾提供有价值的依据.

1 研究方法

1.1 支持向量机模型

支持向量机(SVM)作为一种在高维空间中寻找分割超平面的算法,理论基础比较完善,面对形成机理复杂的地质灾害,能够通过核函数进行复杂的非线性分类[25-26].在地质灾害易发性评价中,灾害的特殊性决定了其样本数据有限,无法人为干预,且与各评价因子呈非线性关系.基于以上核心思想,引入SVM 可以高效地解决在灾害样本数量有限的前提下对高维数据进行非线性分类问题,故本研究选择支持向量机二分类方法分析研究区地质灾害易发性.

1.2 随机森林模型

随机森林(RF)是一种由多个决策树分类器构成的集成学习算法.其基本原理为:利用自主采样法随机产生k 个训练集,对k 个样本分别建立k 个决策树模型并形成k 个分类结果,RF 模型的输出结果为k个决策树中平均概率值最高的类型[27].整体工作流程见图1.

2 研究区概况与数据源

选取青天河景区西北部为研究区,面积约26.7 km2.区内海拔最高处为970 m,最低处为300 m,相对高差670 m,地形起伏较大,区内主要发育坚硬厚层状中等岩溶化石灰岩.研究区气候属暖温带大陆性季风气候区,降水时空分布不均,根据博爱县多年降雨资料,暴雨多发生于夏季(见图2).

图2 研究区地理位置Fig.2 Geographical location of the study area

本研究数据源主要包括以下两个方面.

2.1 地质灾害及隐患

充分考虑遥感数据的时效并选用暴雨前后两期影像作对比,分别是2021 年5 月和2021 年10 月中旬高分二号卫星遥感影像,进行地质灾害及隐患遥感解译.

通过影像的形态、色调、纹理结构等特征,采用二维与三维相结合方式对研究区开展地质灾害及隐患遥感解译判别(见图3).经过野外实地验证,最终确定该区域在“7·20”“9·30”暴雨后引发的地质灾害及隐患点共26 处,其中滑坡18 处、崩塌7 处、泥石流1 处,大部分规模为小型(见图4).

图3 研究区地质灾害遥感解译标志及野外核查照片Fig.3 Remote sensing interpretation marks and field verification photographs of geological disasters in the study area

图4 地质灾害及隐患点空间分布图Fig.4 Spatial distribution map of geological disasters and hidden danger sites

2.2 孕灾背景因子

选取与研究区地质灾害易发性评价相关的孕灾背景因子用到的基础数据有:1)10 m 分辨率数字高程数据(提取于1 ∶10 000 地形图),用于获取坡度、坡向信息;2)Sentinel-2A 影像(2021 年7 月26 日,空间分辨率为10 m),用于提取植被覆盖度;3)博爱县1∶5万岩土体工程地质类型分区图(源自博爱县地质灾害详查报告),用于工程地质岩组分类;4)高分二号影像(2021 年10 月中旬),用于提取土地分类信息.为了保证所有因子空间一致性,首先对收集到的遥感影像数据做预处理,数据处理主要包括遥感影像的辐射校正、正射纠正、图像配准、图像融合、图像增强以及遥感数据与其他地形、地质数据的几何配准等处理;其次将部分因子栅格化至具有相同空间分辨率.

3 评价因子体系建立

3.1 评价因子的选取与分级

根据研究区地质灾害发育的空间分布、地质环境条件并结合专家经验,最终选取7 个地质灾害易发性评价指标因子进行分析,分别为高程、坡度、坡向、岩土体、植被覆盖度、道路距离、土地利用.其中高程、坡度、植被覆盖度因子为连续型图层,坡向、岩组、道路距离、土地利用因子根据研究区地质灾害实际分布情况及专家经验进行分级处理.最终所有评价指标均由ArcGIS 软件制成专题图(见图5).

图5 研究区地质灾害易发性评价指标因子图Fig.5 Evaluation index factors of geological hazard susceptibility in the study area

3.2 评价因子处理

提取的评价特征因子可能存在异常值、数值之间的数量级不同,故做模型训练前须对其进行处理.主要包含数据异常值处理、定性因子编码化处理、标准化处理,处理后的因子数据集作为模型训练输入值.

4 基于SVM-RF 模型的地灾易发性评价

4.1 模型构建及训练

在Scikit-learn 机器学习框架下,使用Python 语言编程,构建基于SVM-RF 地灾易发性评价模型.选取7 类经过处理的特征数据作为模型训练输入值;训练样本随机抽取20 个灾害点和20 个非灾害点组成训练集,测试样本为剩余的6 个灾害点和6 个非灾害点组成测试集.因研究区样本数量较少,将SVM 四种核函数一起参与模型训练,采取5 折交叉验证法进行参数调优,调优后参数C、gamma 和tol 分别设为5、auto和0.0001,共生成40 个SVM 模型.RF 模型通过GirdSearch 方法网格搜索最佳参数,GirdSearch 选择的指标参数是Acc,同样是采取5 折交叉验证的方法得到RF 模型的最优参数值.调优后模型决策树的最大深度为7,决策树的个数为45,通过选取4 种不同的模型参数种子,得到4 个RF 模型.两种模型分别根据预测的结果概率通过加权法融合,逐格点计算地灾发生的概率.

根据上述模型分别求出SVM 和RF 的致灾概率分布,将两种模型结果进行加权融合,得到最终模型预测概率,输出为具有地理意义的TIFF 格式空间数据并在GIS 中绘制预测结果.采用准确率、F1 分数、召回率等指标对模型融合前后结果进行评估(见表1),从表1各个指标可看出,各模型的预测效果比较稳定,融合模型精度优于单个模型.

表1 模型指标评价Table 1 Index evaluation of models

4.2 模型应用与分析

4.2.1 结果分析

通过上述耦合模型得到研究区内地灾易发性概率分布,并基于自然断点法将研究区划分为稳定区、低易发区、中易发、高易发区(见图6).将发生的地灾点与各易发区进行叠加,统计各易发区内地灾点占比及地灾点密度,统计结果见表2.根据研究区地质灾害易发性评价结果可看出:研究区地质灾害高易发区主要分布于青天河水库两岸、青天河村-碗窑河一带及X030 公路沿线.其中高易发区面积占研究区总面积的11.66%,发育的灾害点占总数的88.46%.其主要原因:一方面修建库岸及景区人工栈道形成较低的高程及斜坡地形,另一方面活跃的人类工程活动形成不合理人工切坡使得地形坡度变陡.此外,该区域地层岩体主要为岩溶化石灰岩,自身的物理特性不利于边坡稳定,且该区域林地茂密,根劈作用易破坏岩土体结构,在降雨冲刷、风化剥蚀等外力因素下易引发崩塌、滑坡等地质灾害.

表2 研究区地质灾害与易发性分区关联统计表Table 2 Correlation between geological disasters and susceptibility zoning in the study area

图6 研究区地质灾害易发性分区图Fig.6 Zoning map of geological disaster susceptibility in the study area

从表2 和图6 中可以看出,随着灾害易发性等级的提高,地灾点密集程度亦逐渐增大,在高易发区达到最大值.根据研究区以往的地灾数据显示①宋鹏飞,等.河南省博爱县1∶5 万地灾详查报告.河南省地质矿产勘查开发局测绘地理信息院.2015.,58%的地灾点在本研究灾害点调查中再次发生灾害,均分布在高易发区中,说明灾害在研究区有一定聚集特征,侧面证明了易发性等级划分结果与本次地灾点分布规律较为一致.

4.2.2 精度分析

采用成功率曲线做定量化分析,说明SVM-RF 模型在青天河景区地质灾害易发性评价中的准确性.该曲线线下面积大小反映了模型的预测准确性,越接近1 准确性越高[28-29].由图7 可知,该模型的线下面积(AUC)为0.9224,即预测的准确率为92.24%,说明该模型整体宏观上是可靠的.

图7 SVM-RF 模型成功概率曲线Fig.7 Success rate curve of SVM-RF model

5 结论

本文以博爱县青天河景区西北部为研究区,通过建立SVM-RF 耦合模型对研究区进行地质灾害易发性评价,对耦合模型在研究区地灾易发性评价中的预测性能及适用性进行了探讨,主要结论如下.

(1)基于青天河景区的地质环境条件与地质灾害发育空间分布特征,选取高程、坡度、坡向、道路距离、土地利用、岩土体、植被覆盖度等7 个地质环境因子建立研究区地灾易发性评价体系.

(2)本研究一方面从对模型选取到参数调优,保证了模型训练精度,另一方面通过模型训练总结该研究区形成地质灾害的行为模式.根据研究区地质灾害易发性评价结果可看出:研究区地质灾害高易发区主要分布于青天河水库两岸、青天河村-碗窑河一带及X030 公路沿线.通过成功率曲线定量分析,得到SVM-RF 模型预测的准确率为92.24%;与野外调查地灾数据对比,预测结果与实际情况吻合较好.显示出在研究区内地灾样本数量少,随机选取非地灾样本进行训练的情况下,其评价结果能较好地刻画模拟研究区地灾易发性规律,填补青天河景区地灾易发性细化研究,为青天河景区防灾减灾工作提供有效决策.

(3)在未来的研究中,将能够反映灾害体内部结构的指标因子纳入评价体系中,进一步挖掘指标因子与地质灾害蕴藏的关系.

致谢:文中地灾点野外调查照片及地形数据均来源于河南省资源环境调查一院,在此表示衷心的感谢!

猜你喜欢
易发景区样本
机用镍钛锉在乳磨牙根管治疗中的应用
贵州省地质灾害易发分区图
夏季羊易发疾病及防治方法
云南发布一批公示 10家景区拟确定为国家4A级旅游景区
冬季鸡肠炎易发 科学防治有方法
用样本估计总体复习点拨
『摘牌』
“摘牌”
某景区留念
推动医改的“直销样本”