基于随机森林的山洪灾害风险评价方法及应用

2022-04-07 09:03:34王倩丽马细霞刘欣欣
人民黄河 2022年4期
关键词:基尼林州市山洪

王倩丽,马细霞,2,刘欣欣,程 旭

(1.郑州大学 水利科学与工程学院,河南 郑州 450001;2.郑州大学 黄河生态保护与区域协调发展研究院,河南 郑州 450001)

1 引言

山洪灾害是我国洪涝灾害的主要灾种[1-2],具有来势猛、流速快、破坏力大、突发性强等特点,不仅对山丘区的基础设施造成毁灭性破坏,而且对人民群众的生命安全构成极大威胁,是山丘区经济社会可持续发展的重要制约因素之一,对其进行预报、预测、预防难度较大。 山洪灾害风险评价是对山洪灾害的自然属性和社会属性的综合评价,目的在于清晰把握山洪灾害风险的空间格局及内在规律[3],为山洪灾害预警、人员转移、抢险救灾等提供科学依据。

山洪灾害风险评价常用方法有熵权法、层次分析法、统计分析评价法、模糊综合评价法等,如陈真等[4]构建了小流域山洪灾害风险指标体系,采用主成分分析法提取致灾因子,采用层次分析法确定各指标权重,运用ArcGIS 空间分析叠加功能得到小流域山洪灾害风险等级分布图;朱恒槺等[5]运用层次分析法对各风险指标权重进行分配,借助GIS 手段得到河南省山洪灾害风险分级图;王英[6]采用综合权重法确定指标权重,应用GIS 进行空间插值形成栅格图层,分析甘肃黄土高原的山洪灾害风险区划情况。 然而,以上方法中确定指标体系和指标权重时存在一定主观性,影响风险区划结果。 近年来随着人工智能的迅速发展,随机森林算法逐渐被相关学者引入对象评价研究中,如刘云翔等[7]基于随机森林算法建立水华预警模型,对水体水华的发生进行预测,结果表明预警模型精度达到91.67%,能够有效进行短期预测;曹泽涛等[8]选取我国陕西北部的黄土高原作为研究区域,将随机森林算法运用于地貌分类,取得了较好的分类结果,对地貌形态监督分类及自动分类的方法学研究具有较大意义。然而,目前随机森林算法在空间尺度较小区域的山洪灾害风险评价方面的研究相对较少。 本文将随机森林算法引入林州市山洪灾害风险评价,结合林州市的山洪灾害特点和历史山洪灾害数据,运用后果逆向扩散法构建风险指标体系并建立风险评价模型,通过GIS绘制林州市山洪灾害风险区划图,结合历史山洪灾害发生点对该市的山洪灾害进行具体分析,以期为同类型区域的山洪灾害风险评价提供思路,进一步为防洪减灾管理工作提供依据。

2 方法介绍

2.1 基于后果逆向扩散法的风险指标体系

针对空间尺度较小区域的山洪灾害风险评价,为确保风险指标体系具有独立性、涵盖性和代表性,采用后果逆向扩散法对风险指标进行梳理(见图1)。 在自然灾害系统中,短历时强降雨是山洪灾害发生的主要原因之一,因此选取年暴雨天数、年最大1 h 暴雨量均值和年最大6 h 暴雨量均值作为致灾指标;高程较低、地形变化较小的区域更容易发生山洪灾害,为综合反映地表单元的陡缓程度,选取高程、坡度和汇流路径比降作为孕灾环境指标。 在社会灾害系统中,人类活动、GDP 密度会对山洪灾害的时空分布产生一定影响[9],此外,在土地利用类型中,相比林地和草地,耕地的不透水率较小,耕地面积占比也会影响洪水的发生,因此选取河道两侧人口密度、耕地面积占比和GDP 密度作为承灾体指标。

图1 基于后果逆向扩散法的风险指标体系

2.2 随机森林模型

随机森林算法是一种集成多棵决策树的有监督学习算法,基于数据处理结果类型可以完成分类和回归2 种应用[10]。 随机森林模型的分类器组合为{h(X,θK)|K=1,2,…},其中:h为分类器集合;θK为随机变量,服从于独立同分布;K为分类树序数,在已知自变量X的情况下,根据分类器投票情况决定最优分类结果。

通过分类树可以建立评价指标对应的评价级别,分类树以基尼指数为分支依据形成二叉树,由根节点、子节点和叶子节点组成,从根节点到叶子节点的每一路径对应一评判规则,每一叶子节点对应一评价级别。单棵分类树的生长过程见图2,按照既定标准把位于根节点的样本集S1自顶向下不断进行递归分割[11],满足分支的停止生长规则时停止生长。 具体地,根据临界值t1将样本集S1分为子样本集S2和S3,根据临界值t2再将S2分为子样本集1 和S4,子样本集1 的基尼指数已经很小,可认为该子样本集中所有样本属于同一类别,无需继续分割,而子样本集S4仍需继续分割,其余分类过程与上述过程类似。

图2 单棵分类树的生长过程

通过计算基尼指数可以判断指标的重要性,即比较每个指标在随机森林中每棵分类树上的贡献大小。节点的基尼指数表示节点的不纯度,公式为

式中:Gt为t节点处的基尼指数;t为节点序数;p(j/t)为风险等级j在t节点处的概率;k为风险指标序数。

计算最小基尼减小值即节点分支前后基尼指数的变化量:

式中:DG为t节点的最小基尼减小值;Gtl、Gtr分别为根据t节点分类的左右节点的基尼指数。

以指标的平均基尼减小值占所有指标平均基尼减小值总和的百分比来评估每个风险指标对总风险的贡献程度,公式为

式中:pk为第k个指标在所有指标中的重要程度;m为风险指标总数;n为分类树总数;T为节点总数;DGkit为第k个指标在第K棵树上第t个节点的基尼减小值。

2.3 山洪灾害风险评价流程

山洪灾害风险评价流程如下:①采用ArcGIS 以及反距离权重法对9 个指标进行空间插值形成栅格图层,再采用自然间断法将9 个指标分为5 个等级。②确定随机森林模型参数,主要有风险指标总数m和分类树总数n,其中:m默认为风险指标个数的二次根,m=3;n=100。 ③选取样本数据进行风险人工识别,采用Bootstrap 重采样法在样本数据集中有放回地随机抽取s个子训练集,训练样本、测试样本占比分别为70%、30%。 ④将训练样本输入随机森林算法,建立山洪风险等级与指标之间的关系,进而建立相应的分类规则,形成随机森林山洪灾害风险评价模型,通过测试样本对模型进行检验。 ⑤将处理好的各指标待测数据输入模型,分类得到林州市各行政村的山洪灾害风险等级并计算出各指标对模型判别效果的重要程度,最后利用ArcGIS 绘制山洪灾害风险评价图。

3 实例分析

3.1 研究区概况

林州市地处太行山东麓,地理坐标为东经113°37′—114°04′,北纬35°41′—36°22′,境域南北长90 km、东西宽30 km,总面积2 046 km2。 地貌类型比较复杂,分为深山、浅山、丘陵和山涧盆地,山脉以太行山为主干,林虑山为主峰,除市区、姚村镇、合涧镇、原康镇、临淇镇为小盆地外,其余乡镇均为深山或丘陵。 全市河流属海河流域漳卫南运河水系,有漳河、洹河、淅河、淇河4 条天然河流以及红旗渠,有中型水库4 座、小型水库63 座。 林州市是典型的空间尺度较小的山丘区,因此本文选取林州市作为山洪灾害风险评价的研究对象。

3.2 数据来源

年暴雨天数、年最大1 h 暴雨量均值、年最大6 h暴雨量均值、河道两侧人口密度以及历史山洪灾害发生点数据源自《2015 年河南省林州市山洪灾害调查评价》,其中年暴雨天数、年最大1 h 暴雨量均值、年最大6 h暴雨量均值为1982—2011 年场次暴雨统计结果;高程和GDP 密度数据分别源自中国科学院资源环境科学数据中心2012 年的地形地貌统计结果和社会经济统计结果,利用GIS 技术从数字高程模型(DEM)提取坡度数据;耕地面积占比数据源自2012 年《林州年鉴》。

3.3 风险指标等级划分及重要性分析

本文选取林州市203 个行政村的数据资料进行分析,运用ArcGIS 软件并采用反距离权重法对9 个风险指标进行处理,可得到各风险指标分布图(见图3)。采用自然间断法划分风险等级,各风险等级对应的指标值见表1。

图3 各风险指标分布

表1 山洪灾害风险指标分级

通过随机森林模型计算得到各风险指标对林州市山洪灾害发生的重要程度(见图4),可以看出,年暴雨天数、年最大1 h 暴雨量均值、汇流路径比降和GDP密度是对林州市山洪灾害发生影响较小的因素,相对而言,年最大6 h 暴雨量均值、河道两侧人口密度、坡度、高程和耕地面积占比的平均基尼减小值占比之和达65.04%,可知这5 个风险指标是比较重要的影响因素。 主要原因如下:林州市背靠太行山脉,太行山脉的海拔整体较高,林州市以东属于平原地区,山区和平原地区的耕地面积占比和人口密度差异较大,同时耕地的不透水率小于林地和草地,耕地面积占比会影响洪水的发生,因此河道两侧人口密度和耕地面积占比在林州市的山洪灾害风险评价中起到了较关键的作用。高程和坡度代表了地形起伏情况,林州市地处山区,山高坡陡,遇较大降雨时山洪暴发,洪水流速较快,冲刷力强、破坏性大,因此高程和坡度的影响较大。 山洪灾害往往由短历时的强降雨引发,对于空间尺度较小的区域,年最大6 h 暴雨量均值也具有较为关键的作用。

图4 风险指标重要程度

3.4 山洪灾害风险评价结果

将各风险指标输入构建的随机森林模型,根据很低、较低、中等、较高、很高5 个风险等级对林州市进行山洪灾害风险区划分(见图5),很低、较低、中等、较高、很高风险等级的风险区面积占比分别为1.71%、22.80%、53.43%、21.29%、0.77%,很低和较低风险等级的风险区面积占比之和为24.51%,基本分布于市区和合涧镇;中等及以上的风险区面积占比之和为75.49%,大多分布于五龙镇、东岗镇、任村镇、横水镇、河顺镇、东姚镇、石板岩乡、临淇镇等。

图5 林州市山洪灾害风险区划

3.5 结果验证

根据《全国山洪灾害防治规划》及河南省林州市山洪灾害调查评价成果,将历史山洪灾害发生点叠加到山洪灾害风险区划图中,叠加结果见图6。 统计历史山洪灾害发生点在各级风险区的数量与占比,结果见表2。 中等及以上风险区中历史山洪灾害发生点的占比为81.34%,此外,五龙镇、东岗镇、任村镇、横水镇、河顺镇这5 个镇的风险等级和历史山洪灾害发生频率均较高。 由以上分析结果可知本次山洪灾害风险评价的准确度较高,说明基于随机森林的山洪灾害风险等级划分结果可以用于指导林州市的山洪灾害防治工作。

图6 历时山洪灾害发生点分布

表2 历时山洪灾害发生点在各级风险区的数量与占比

4 结论

(1)本文采用后果逆向扩散法确定影响山洪灾害发生的风险指标,通过随机森林山洪灾害风险评价模型分析各风险指标的重要程度,得出年最大6 h 暴雨量均值、河道两侧人口密度、坡度、高程和耕地面积占比对林州市山洪灾害的影响较大,避免了传统评价方法中指标权重不易准确确定的问题。

(2)运用随机森林算法进行林州市山洪灾害风险评价,将历史山洪灾害发生点和山洪灾害风险区划进行叠加,得出随机森林模型的评价精度为81.34%,验证了该算法具有较高的准确性,为同类型区域的山洪灾害风险评价提供有效思路。 此外,五龙镇、东岗镇、任村镇、横水镇、河顺镇这5 个镇的风险等级和历史山洪灾害发生频率均较高,须做好相应预警防范措施。

猜你喜欢
基尼林州市山洪
Wimbledon Tennis
Chinese musician preserves folk art through music
坚持三业并举 实施总部经济——河南省林州市建筑业实现四个60%
中州建设(2020年4期)2020-12-02 03:20:10
林州市
优雅地表达
林州市
卷入选战的布基尼
环球人物(2017年7期)2017-04-17 10:12:29
强制“脱衫”
环球时报(2016-08-25)2016-08-25 06:36:24
遭遇暴雨山洪如何避险自救
湖北省山洪沟治理思路浅析
中国水利(2015年9期)2015-02-28 15:13:20