周 雨,肖 雯,李三角,谢克勇
(江西省气象服务中心,江西 南昌 330096)
江西省三面环山,中部丘陵起伏,亚热带季风气候和复杂的山区地形导致境内交通生态环境极其脆弱,公路地质灾害频繁发生。据统计,仅2020年全省公路滑坡、泥石流、塌方等地质灾害发生数量300 余起,其中有90%以上由强降水引起,对沿线交通设施、人民群众的生命安全构成严重威胁[1]。因此,加强山区公路地质灾害预报和防治工作具有重要意义。
地质灾害气象预报是一种基于气象条件与地质灾害时空关系特征,研究地质灾害发生可能性的方法,其核心是地质灾害气象预报模型研究。传统的关于地质灾害预报模型研究归纳起来可分为统计模型和动力模型两大类[2]。最初,在获取足够多且具有统计意义的地质灾害隐患点的基础上,刘传正等[3]、白利平等[4]、汤人杰等[5]、吕小波等[6]利用计模型计算诱发地质灾害的临界雨量阈值。此后,刘传正等[7]、狄靖月等[8]、张海磊等[9]将气象风险的理念应用到地质灾害预报领域,将地质环境条件做为承灾体的脆弱性纳入预报模型中,取得了较好的效果。统计模型主要依靠临界雨量的分析,其优点是数据读取快速、用户使用便捷,但是并未考虑降水入渗与产汇流等水文过程的影响。动力模型正好弥补了上述不足,刘艳辉等[10]通过分析降雨-渗流-灾害发生的机理过程,耦合水文地质模型与斜坡稳定性力学模型;ZHANG 等[11]、包红军等[12]、PAN 等[13]综合分析了地表降水和入渗径流造成土体边坡失稳条件引发地质灾害的机理过程。由于模型及参数的不确定因素,动力模型应用尚处于实验室或小范围研究阶段。
近年来,随着大数据和人工智能技术的发展,基于人工智能的机器学习和深度学习算法在地质灾害预报领域得到了广泛应用,KAIN 等[14]、刘艳辉等[10]、包红军等[15]、黄发明等[16]、孙德亮[17]、黄露[18]、刘福臻等[19]、董力豪等[20]的文章应用了逻辑回归、随机森林、支持向量机、神经网络等。本文以江西省高速公路为例,利用国家气象站观测雨量数据、江西省高速公路沿线交通气象站观测数据和地质灾害灾情数据,分析高速公路沿线地质环境条件和雨量特征。进一步基于支持向量机SVM、逻辑回归、K 近邻和随机森林4 种机器学习方法,开展公路地质灾害预报气象风险预报研究,以期为山区高速公路地质灾害预报提供科学参考。
江西地处亚热带季风气候区,雨量充沛,短时大暴雨或连续性降雨使得公路地质灾害时有发生。由江西省交通厅应急指挥中心发布的道路管制数据分析可知,仅2020年全省发生公路滑坡、泥石流、塌方等地质灾害300 余起,其中90%以上由强降水引起,导致道路遭到不同程度损毁,交通运行安全受到极大的影响。本研究选取江西省内主要高速公路为研究对象,所属区域东、西、南三面环山,中间丘陵起伏,北部为鄱阳湖及平原。如图1 所示,江西高速公路沿线高差大多在50 m以上,地势变化显著,坡度平陡不一,河网密集,植被覆盖差异显著,复杂的地形地貌和降水差异使得江西高速公路各路段呈现明显的小气候特征。江西省主要高速公路概况如表1 所示。
表1 江西省主干高速公路概况Table 1 Overview of main highways in Jiangxi Province
图1 江西省高速公路沿线情况Fig.1 Distribution of along highways in Jiangxi Province
研究所用的公路地质灾害数据由江西省交通运输厅应急指挥中心提供,时段为2015—2020年,包括灾害时间、类别、接报时间、阻断位置、通行情况等,并对灾害记录进行逐条梳理,保留与降雨相关的灾害记录。同期气象观测站点雨量数据源于江西省气象信息中心,为弥补道路沿线雨量数据不足带来的分析困难,基于ArcGIS 空间插值功能得到道路沿线地质灾害点雨量。考虑到气象观测站点与高速公路有一定距离,可能造成空间插值出现偏差,因此在插值时选取空间匹配站点最大距离不超过3 km,最近为500 m,插值结果验证时,检测剔除订正异常值,保证时空要素的一致性,同时泰和-井冈山高速公路沿线雨量还对比了沿线交通气象观测站点雨量,效果理想。基础地理信息DEM 高程数据来源于国际科学数据镜像网站SRTM 地形数据(http://www.gscloud.cn),空间分辨率为90 m×90 m。植被指数数据来源于中国科学院地理科学与资源研究所(https://www.resdc.cn/Default.aspx),空间分辨率为1 km。
地质灾害预报预警最终要预报的只是“发生地质灾害”或“不发生地质灾害”,这实质上是一种分类或回归预测问题,常用的解决该类问题的机器学习方法有SVM、K 近邻、逻辑回归、随机森林等。
SVM 方法是一种基于结构风险最小化理论求解凸二次规划的最优化算法,可高效处理小样本、非线性的分类和回归问题[21],因而在图像分析[22]、要素预测和数据挖掘[23]等领域取得了较好的实践效果。本次训练中,考虑到地质灾害样本的非线性特征,以降雨影响因子为输入向量,将输入向量映射投影到更高维的空间中,并在这个高维空间中寻找输入变量和输出变量的线性关系进而做出预报。映射函数的选择是模型结果好坏的关键,多次对比试验后选取高斯函数为映射函数,见式(1)。SVM 方法虽然分类思想简便,但是对机理过程解释不佳。
式中:σ——核光滑参数,其值大小取决于样本容量,通常采用交叉验证方法确定。
逻辑回归和 K 近邻算法既可作为一种分类方法,也可以实现一个因变量与一组自变量之间的回归分析,相较于SVM 方法更为灵活。使用逻辑回归模型进行地质灾害概率预测时,需选取相对独立的因子。K 近邻方法将降雨诱发因子做为样本特征参数,地质灾害发生与否做为目标向量,通过距离公式寻找距离目标最近的k个点(即k个“近邻”),而后通过这k个“近邻”所提供的信息,对新样本进行预测,将出现最多次的预测类别或者目标标签平均值作为预测结果的一种经典的机器学习方法。K 近邻方法稳定度和准确度高、对异常值不敏感,但与SVM 方法一样对于机理释用比较困难。随机森林是一种有监督的机器学习方法,该方法通过bootstrap 重抽样技术,从原始训练集中有放回地抽取多个样本生成新的样本集,由此构建多个相对独立的决策树,最终综合得到最优分类结果。相较于前述3 种方法,随机森林在样本选取方面更具随机性,且无须进行预处理,泛化能力更优,能有效避免过拟合。
本研究基于python 语言,构建基于SVM、逻辑回归、K 近邻和随机森林4 种机器学习模型,比较不同模型的预报效果,目的是研发精细化的山区高速公路气象风险预报产品,更好地开展交通气象保障服务,为公众正常出行和社会经济和谐发展保驾护航。
训练样本集的构建是基于人工智能学习研发地质灾害预报模型的根本[15],一定程度上直接决定了模型预报的准确度和泛化能力。研究表明,地质灾害的发生发展是地质环境和降雨条件共同作用的结果,因此本研究模型训练样本综合考虑了两方面的属性,其中地质环境条件做为易发性因子,包括地形、坡度、高程、河网密度、植被覆盖5 个地质环境特征项;降雨条件做为危险性因子,根据刘艳辉等[15]研究方法,综合考虑小时雨量、前0—2 h 雨量、前0—11h 雨量、前0—2d 有效雨量、前10 d 有效雨量以及前15 d 有效雨量等6 个雨量特征项。利用2015—2020年江西境内高速公路地质灾害点地质环境与同期雨量气象数据构进行空间叠加分析构建正样本集,选取同等数目的上述同期未发生地质灾害点构建负样本集。本次试验共收集716 样本,按照7∶3 比例划分样本训练集和测试集,样本构建及训练流程如图2 所示。
图2 基于机器学习方法的公路地质灾害预报技术路线图Fig.2 Road geological disaster prediction technology roadmap based on machine learning methods
采用研究区的DEM 数据,经过ArcGIS 栅格表面分析、掩膜提取、自然断点分级法等处理后,得到高速公路沿线地质环境因子。分析可知,江西省主要高速公路沿线地形极为复杂,高速沿线海拔高度范围为0~600 m,公路东北段和南段海拔高度普遍在200 m 以上,局部路段超过450 m;公路沿线坡度范围为0°~35°,东北段20°~35°。坡向分布上,公路沿线坡向为0°~360°,不同地域间差异不显著。公路附近的河网密度值为0.1~1.3km/km2之间,除鄱阳湖外,中部和东北部路段沿线河网密集。植被覆盖上,归一化植被指数指数值为0.2~0.7,环鄱阳湖路段植被覆盖相对较低。进一步将地质环境因子关联到灾害点,分析灾害点附近地质特征可知:江西高速沿线地质灾害隐患点海拔高度为300~450 m,占总数73%;灾害所处的坡度范围为10°~50°,数量随地形坡度增加呈现单峰型分布;这是因为坡度增大,斜坡坡面附近应力增加,坡脚应力集中,导致斜坡不稳定继而诱发地质灾害。坡向分布上,地质灾害点各个坡向在0°~360°均有发生。地质灾害附近河网密度值为0.5~1.0,占灾害总数的70%,河网越密集,越容易诱发地质灾害。高速沿线地质灾害发生点植被指数归一化植被指数值为0.3~0.6,表明有一定的植被覆盖地区反而更容易发生地质灾害。
统计结果表明,2015—2020年江西省公路地质灾害次数呈逐年上升趋势,其中崩塌、山体滑坡、泥石流、地面塌陷灾害占地质灾害总数的88%。受强降雨影响,地表水迅速汇集冲刷坡脚或渗入坡体软化岩土,重力作用使得位于公路边坡上的岩土体突然脱离母体,从而堆积在公路路基上造成灾害。研究发现,对地质灾害有影响的降雨一般发生在地质灾害前15 d 内[24-25],且不同的降雨类型诱发的地质灾害预报准确度不同[26-27],因此本文在分析地质灾害与降雨关系时,综合考虑了灾害发生前14 d 的总有效雨量和降雨持续时间2 个因子,进一步建立合理的判别依据,明确诱发地质灾害的降雨特征。
目前计算有效雨量普遍采用的是API 方法,计算有效雨量,计算公式如下:
式中:RE——有效雨量,表示从灾害发生时次的当天算起(灾害发生当日=0,灾害发生前1 d,i=1,前2 d,i=2)的雨量;
Ki——第i个递减系数;
Ri——灾害发生当日算起,前第i天降水量/mm。
在对降雨诱发的358 例地质灾害进行分析时,定义P为降雨量诱发公路地质灾害的贡献率,根据降雨持续时间长短,引入判别系数D和P对致灾降雨特征进行分类,公式如下:
由表2 计算得到D≈0.51 。根据式(3)(4),当P0-2d=R0-2d/R0-14d≤D时,认为该次公路地质灾害是由于长历时降雨造成的;当P0-2d=R0-2d/R0-14d>D时,认为该次公路地质灾害是由于短期降雨造成的;当R0-11h/R0-2d>0.8时,则认为该次公路地质灾害是由于短时强降雨造成的。通过计算得到,诱发地质灾害的降雨包括长历时降雨、短期降雨和短时降雨3 种类型:其中长历时降雨一般认为地质灾害发生当日前有连续性降雨,累计雨量在50 mm 以上;短期降雨为地质灾害发生当日及前2 d有降雨,累计雨量在50 mm 以上;短时降雨为地质灾害发生当时及前11 时以内降雨,累计雨量在30 mm 以上。当地质灾害发生前有降雨,但是累计雨量达不到30 mm 以上的,暂不考虑是降雨诱发引起的地质灾害;当发生地质灾害时满足短时、短期或长历时中两种或两种以上时,优先考虑是由长历时降雨引起,其次是短期或短时降雨。图3 给出了各类降雨引发的地质灾害分布,分析可知358 条公路地质灾害记录中,193 次公路地质灾害是由于长历时降雨造成的,主要分布在大广高速、昌九高速、沪昆高速萍乡至新余段;143 次公路地质灾害是由于短期降雨造成的,主要分布在G45 大广高速武宁-上高段和吉安-南康段、宁定高速、G76 厦蓉高速;仅6%是由短时降雨造成的,主要分布在G56杭瑞高速、G60 沪昆高速萍乡-新余段。总体而言,江西主要高速公路地质灾害大多是由长历时降雨和短期降雨造成的,由短时临近降雨造成的公路地质灾害情况占比较少。
表2 有效雨量衰减系数表Table 2 Table of effective rainfall attenuation coefficients
图3 地质灾害不同降雨型分布Fig.3 Distribution of geological disasters for different rainfall types
基于测试样本,对4 种常用机器学习分类模型进行对比评估,分析结果显示4 种预报模型的准确率均超过0.75,对比各模型的准确率和模型泛化能力指标可知:对于不同的降雨类型造成的地质灾害而言,4 种模型对连续性降雨造成的地质灾害预报准确率最好,其次为短期降雨造成的地质灾害,短时降雨诱发的地质灾害预报效果最不理想。这是因为短时降雨具有突发性,因而造成的地质灾害也具有瞬时性和不可预见性。对比同一降雨类型可知:对于短时降水,逻辑回归和随机森林方法预报效果相对较好,准确率都在0.82 以上,SVM方法和K 近邻方法预报效果不太理想,准确率分别为0.732 和0.785,AUC分别为0.756 和0.825,二者均存在漏报较多的情况。对于短期降水,K 近邻和随机森林方法预报效果较好,准确率分别为0.863 和0.924,AUC分别为0.756 和0.925。对于长历时降水,逻辑回归和随机森林预报较为理想,准确度都在0.95 以上,AUC值为0.94 以上。综合而言,4 种模型中逻辑回归模型预测准确率最高,为0.949,模型泛化能力为0.944;其次为随机森林模型,准确率为0.918,模型泛化能力为0.917;K 临近和SVM 模型相比较而言,效果不太理想。各模型的泛化曲线如图4 所示。
图4 4 种机器学习模型ROC 泛化曲线Fig.4 ROC curves of the four machine learning models
以2020年6 月8—9 日江西省一次强降水过程诱发地质灾害为例,基于逻辑回归模拟江西省2020年6 月8 日高速公路地质灾害预报业务运行,模型输出地质灾害发生的概率,依据概率大小确定预警等级:当概率P≤40%为低(较低)风险,不发预警;当概率P>40%且P≤60%为中风险,发布高速公路地质灾害黄色预警;当P>60%且P≤80%为较高风险,发布高速公路地质灾害橙色预警;当概率P>80%为高风险,发布高速公路地质灾害红色预警,结果如图5 所示。据江西省交通监控指挥中心提供的数据,2020年6 月8 日全省高速公路有8 处发生地质灾害,主要分布在德昌高速、济广高速赣州至泉南段、沪昆高速萍乡至丰城段,均落在高风险预警路段内。
图5 2020年6 月8 日江西省高速公路地质灾害预报Fig.5 Geological disaster forecast for Jiangxi Province highways on June 8,2020
本文基于4 种不同的机器学习方法,开展了针对不同降雨类型诱发的公路地质灾害预报研究,这在目前国内外公路地质灾害预报研究中是一种创新。陶星宇等[1]对林芝市公路地质灾害易发性开展了区划,基于逻辑回归方法建立了气象预报模型,但并未对造成灾害的雨量进行分类研究,其预报准确率不及本研究分类型预报的准确率。陈华兴[28]基于稳定性系数、临界降雨强度等各类滑坡预报判据,开展公路地质灾害预报,其对所预报路段地质灾害监测要求较高,普适性不强。李宇梅等[29]开展区域公路地质灾害临界雨量预报,该预报只考虑了降雨因子,并未考虑地质环境条件,在实际预报时经常会存在漏报的情况。尽管本文研究实现了对江西省高速公路地质灾害的预报预警,但仍存在一定的局限性,如地质环境特征只考虑了高差、坡度和坡向,并未考虑发生地质灾害的坡体类型,而实际上不同的坡体类型或地质构造对地质灾害发生与否影响重要。刘洋[30]研究表明,由土体组成的坡体较坚硬岩层坡体在强降雨作用下更容易诱发地质灾害。其次,划分的3 种诱发地质灾害降雨类型并不是有严格的界定,诱发地质灾害的降雨类型多样,有时是一种或者多种类型混合,如台风降雨造成的地质灾害既可能存在短时强降雨,也可能是短期降雨。再者,模型预报效果与样本数量有关,基于短时降雨预报效果较差,除了短时降雨的突发性外,可能与用于训练的样本较少也有一定的关系,这在我们的后续研究中将收集更多的地质灾害记录来改进。
(1)提出了基于机器学习的公路地质灾害预报预警方法,综合考虑地质环境因子和降雨因子构建预报模型,构建正负样本集、训练集和测试集,实现模型保存和调用。
(2)探讨了高速公路地质灾害与地质环境的关系,发现江西高速公路沿线地质灾害所处的海拔高度以300~450 m 最多;灾害坡度以20°~35°居多,随地形坡度增加呈现单峰型分布;河网密集和有一定的植被覆盖地区更容易发生地质灾害。提出了诱发公路地质灾害的3 种主要降雨类型,分别为长历时降雨、短期降雨和短时降雨,其中以长历时降雨和短期降雨诱发的地质灾害居多。
(3)分析了4 种机器学习模型优缺点,比较各模型在不同降雨类型诱发的公路地质灾害中的预报准确率、模型泛化能力AUC和ROC 曲线,并给出了模型输出地质灾害发生概率及相应的预警等级。以2020年6 月8—9 日江西省一次强降水过程诱发地质灾害为例开展实例校验,结果显示:当日8 处发生地质灾害均落在高风险预警路段内,上述预报模型预警效果较好,可做为实际业务预报参考。