张洪吉,赵 铮,陈建华,甘先霞,谢华伟,谭小琴
(1.四川省自然资源科学研究院,四川 成都 610015; 2.成都理工大学 地球物理学院,四川 成都 610059)
滑坡灾害的频发每年给人类带来巨大的生命和财产损失,据全国地质灾害通报统计,2019年共发生地质灾害6 181起,其中滑坡4 220起,占地质灾害总数的68.27%,其中特别是伴随着强降雨和地震过后的山区城镇极易发生山体滑坡[1]。滑坡危险性评价是研究区域滑坡发生的空间概率[2]。因此,高精度的滑坡危险性评价对于滑坡灾害的空间预测具有重要意义。
目前,国内外学者使用大量的机器学习方法应用于滑坡危险性评价,其中包括支持向量机[3-4]、信息量模型[5-6]、随机森林[7]、决策树[8-9]、人工神经网络[10-11]等,上述机器学习方法能够较好地挖掘自变量与因变量的非线性关系来模拟滑坡影响因子与滑坡类别(滑坡或非滑坡)之间的复杂关系[12],并且取得了较高的预测精度。但是其通过直接对输入数据进行分类并不能从其中获取更具代表性的特征来提高分类效果[13],同时也存在物理含义不明确等缺陷。
为了应对上述问题,近年来深度学习中的卷积神经网络(Convolutional Neural Network,CNN)深受研究人员的青睐,卷积神经网络方法被大量地应用于模式识别[14]、图像处理[15-17]、地学研究[18-19]等领域。卷积神经网络因其多层网络结构而具有强大的数据表征能力,在模型拟合和学习能力上具有显著的能力。但到目前为止,卷积神经网络方法还未在滑坡危险性评价中取得充分的应用。因此,本文提出一种深度一维卷积神经网络方法,针对四川芦山地区开展滑坡危险性评价方法研究,期望获得更优的评价效果,为滑坡危险性评价提供有力的评价方法。
芦山县位于四川盆地西缘,雅安市东北部。占地面积约为1 166.39平方公里,人口为119 886人。由于2013年芦山发生7.0级地震,震源深度13 km,地震使得山体斜坡内部受力发生改变,从而导致山体容易发生大面积滑坡。因此实验选择芦山县作为研究区(图1)。
图1 研究区范围Fig.1 Research area overview
滑坡危险性评价模型的性能主要取决用于训练的滑坡数据[20]。经调查显示2016年芦山县共有346个历史滑坡点,最大滑坡面积为16 000 m2,最小滑坡面积为200 m2,滑坡多发生于路网、水系两侧。为了开展实验,通过各种途径获取了基础数据集,如:从中国地震台网获取了芦山县2016年地震数据,由芦山县自然资源和规划局提供了水系数据,从地理空间数据云获取了30 m数字高程模型数据等。
滑坡的影响因子有上百种之多,合理地选择滑坡影响因子对于构建模型至关重要[21-22]。滑坡的影响因子可以分为以下几类:地理位置、地形地貌、地质构造、气候与水文、人口与交通等。通过对芦山区域环境条件的分析,选择了坡度、坡向、岩性、土地利用、植被覆盖度、降雨量、高程、人口密度、距断层距离、距路网距离、距水系距离、距震中距离共计12个滑坡影响因子(表1)。
表1 影响因子Table 1 Evaluation factors
结合研究区评价尺度和方法,参考地质灾害评价标准,芦山县属于面级、地方级、大比例尺的评价类型,结合遥感影像等相关数据资料,选定30 m×30 m的规则格网单元作为区域滑坡危险性的评价单元[24],最终将整个研究区划分成大小为1 323 696个格网单元。
实验为了验证因子之间的相关性,采用多重共线性检验对因子进行相关性分析[25]。一般认为,当方差膨胀系数(Variance Inflation Factor,VIF)大于10时,因子之间线性相关。实验结果如表2所示。由表2可知,其VIF最大为高程因子,其值为5.907,故所选因子之间不存在相关性,可全部用于模型训练和测试。
表2 影响因子方差膨胀系数Table 2 VIF of evaluation factors
由于评价因子数据类型的多样化,包括描述性数据及数值型数据,因此实验需要对因子数据进行分级处理,以便后期参与模型的训练及验证。实验结合滑坡数据分布特征,研究区范围、各评价因子的数据特征等多个方面将评价因子的相关数据进行分级,其对应的评价因子分级图如图2所示。
图2 芦山县滑坡危险性评价因子分级图Fig.2 Classification maps of landslide risk assessment factors in Lushan
卷积神经网络是一种深度学习方法,本质上仍是一种类似人工神经网络的多层感知器,一个基本的卷积神经网络结构包括输入层、卷积层、最大池化层、全连接层和输出层。它能够对输入的数据进行隐式的并行学习,分层的特征提取,不需要事先定义输入和输出间的精确数学映射关系,具有强大的表征学习能力,能够提取更多隐含特征。近年来被广泛应用于模式识别和图像分类领域。典型的CNN结构如图3所示。
图3 卷积神经网络结构Fig.3 General structure of convolutional neural networks
在滑坡危险性评价中,研究区构成的输入数据可以视为一幅图像,图像中的每一个像素包含对应的滑坡影响因子。因此输入数据中的每一格网单元可以被视为长度为影响因子数量的一维向量,该向量中的每一个元素对应一个滑坡影响因子。基于此,实验构建出一维卷积神经网络(Convolutional Neural Network with One Dimension,CNN-1D),该网络结构由卷积层、最大池化层、全连接层组成。假设有n个滑坡影响因子构成的长度为n的一维向量,经过N个大小为m的卷积核卷积之后得到图层为N个大小为(n-m+1)维的特征向量,特征向量中的每一个元素都对应输入数据中m×1的邻域。假设最大池化层的大小为c,其输出图层为N个长度为(n-2m+1)/c+1的向量。具有k个神经元的全连接层来表达池化层中所提取分离的特征信息。最后,实验使用输出层中两条神经元来表达二分类问题,即滑坡或非滑坡。由于实验中选择了12个滑坡影响因子,故该网络结构的参数为n=12,m=5,N=52,c=4,k=13。其网络结构及训练参数如图4所示。
图4 一维卷积神经网络结构Fig.4 Structure of CNN-1D
实验采用受试者特征工作曲线(Receiver Operating Characteristic Curve,ROC)和总体精度来验证模型的性能。ROC曲线能够总体评价模型的性能[22],以横轴表示滑坡危险性由高到低的面积累计百分比,纵轴表示对应危险性指数下滑坡点数量的累计百分比,绘制成功率曲线并计算其线下面积值(Value of the Area Under the Curve,AUC)作为精度评价指标,曲线形状越弯曲靠近图像左上部则AUC值越大,也就说明滑坡危险性评价结果越好。
在上述实验数据处理的基础上,通过统计分析研究区内历史滑坡点之间的距离,最终选择在历史滑坡点500 m以外的区域,利用创建随机点工具产生与滑坡点等量的非滑坡点,则构成了数量为692个的总样本数据集。按照8:1:1的比例将总样本集分层随机抽样分为训练集、验证集和测试集三部分用于实验。利用CNN-1D、支持向量机(Support Vector Machine with Radial Basis Function,SVM-RBF)、加权信息量模型(Information Value Method,IVM)对全区数据进行评价,利用GIS软件生成滑坡危险性评价图,采用自然断点法将滑坡危险性划分为高、中、低。实验为了验证CNN-1D模型的高精度特性,将使用性能良好的支持向量机模型、传统统计理论方法信息量模型与其对比。其模型参数的设置如表3所示。
表3 模型参数设置Table 3 Parameter settings of models
实验采用CNN-1D和对照实验组中的SVM-RBF、IVM进行滑坡危险性评价实验,通过模型来评价全区1323696个格网单元的滑坡危险性概率,并在GIS软件中绘制滑坡危险性评价图。图5(a)、(b)、(c)为相同实验数据集下针对CNN-1D和SVM-RBF、IVM模型预测的滑坡危险性评价图。图6为3种方法对应的滑坡危险性高中低面积占比。从图5中可以看出:滑坡高危险性区域主要集中在路网、水系处,图5(a)中低危险性区域最多、中危险次之、高危险最少,其危险性区域面积占比分别为68%、18%、14%,符合实际情况。而图5(b)中的低危险性区域和中危险区域面积大小均为40%,而高危险性区域接近20%,如此危险性分级图使得在对应区域的居民无法生存,不太符合实际情况。图5(c)中的低、中、高危险性面积占比分别为51%、33%、16%,其危险性分级图以及危险性面积占比相较SVM-RBF较为合理,但是其高危险区域主要分布在芦山县域中下部,且危险性分布较为密集,不太适合居民生活。从图中可知,基于径向基核函数的支持向量机模型对应的预测结果呈现出大面积的中危险区域,使得低危险性区域较少,覆盖范围广,大面积的覆盖居民城镇等地,其评价效果较差。而加权信息量模型中下部呈密集高危险性区域,其评价效果较差。因此,就危险性评价图可知,CNN-1D模型的评价效果优于SVM-RBF、IVM。就总体精度而言,CNN-1D和SVM-RBF的精度分别为0.9015和0.842,CNN-1D的总体精度远高于SVM-RBF,因此在精度指标上考虑,CNN-1D的评价精度更值得信服。综合滑坡危险性面积占比、总体精度等评价指标,从整体评价效果上看,SVM-RBF、IVM模型效果低于CNN-1D模型。
图5 芦山地区滑坡危险性评价分级图Fig.5 Classification maps of landslide risk assessment in Lushan
图7为相同实验数据集下3种方法对应的ROC曲线。其ROC曲线线下面积表示的是AUC值。从图中可知,CNN-1D、SVM-RBF、IVM的AUC值分别为0.888、0.876、0.818,说明在ROC曲线评价中,CNN-1D模型的预测能力表现得比SVM-RBF、IVM更好,其模型结果优于SVM-RBF、IVM。因此,从总体精度、ROC曲线和分级区划图结果可知,一维卷积神经网络模型表现优于支持向量机模型以及传统的信息量模型方法,从模型应用上来讲,论文提出的一维卷积神经网络模型可有效应用于相关滑坡危险性评价研究中。
论文提出了一种面向滑坡危险性评价的深度一维卷积神经网络方法,针对四川芦山地区开展滑坡危险性评价结果是比较有效的,可以应用于其它类似特征的区域。通过ROC曲线及总体精度进行对比,支持向量机、信息量模型的AUC值低于深度一维卷积神经网络,深度一维卷积神经网络的滑坡危险性评价总体精度明显高于支持向量机模型、信息量模型。
相比支持向量机模型及信息量模型,在全区危险性评价分级结果图上,深度一维卷积神经网络在芦山地区危险性评价方面更符合实际情况,在模型的拟合和效果上优于支持向量机、信息量模型。表明:相比于传统机器学习方法,深度一维卷积神经网络由于其能够挖掘更多更具代表性的特征信息,因此能够取得更优的模型性能。
致谢:感谢芦山县自然资源和规划局、芦山县公安局、芦山县交通运输局、雅安市公共气象服务中心、四川省地质调查院、中国地震台网、地理空间数据云网、美国地质调查局、欧空局提供了实验所需的各类数据。感谢秦宇龙先生在实验中提供的支持。