基于PSO-SVM模型的滑坡易发性评价

2021-04-19 06:48王念秦朱文博郭有金
长江科学院院报 2021年4期
关键词:府谷县易发滑坡

王念秦,朱文博,郭有金

(1.西安科技大学 地质与环境学院,西安 710054;2.西安科技大学 陕西省煤炭绿色开发地质保障重点实验室,西安 710054)

1 研究背景

滑坡易发性评价是一项区域滑坡预警评价的前期重要准备工作。评价过程大体上是以研究区历史滑坡以及潜在滑坡的野外调查、滑坡特征编录为基础,选取滑坡的影响因子,剖析了滑坡发生和各因子之间的一些空间分布关系。在此前提下,为研究区域建立评价模型,以评估滑坡易发程度,为滑坡预警、预报、防治规划、资金配置和工程部署等工作提供了科学的理论指导,对滑坡区域的防灾减灾具有非常重要的意义[1-2]。陕西省府谷县地貌繁杂,植物群落覆盖率低。近20 a来,在国家经济快速发展的同时,人口不断增长,工程活动加剧,土地开发利用不合理现象日益突出,造成区内地质环境不断恶化,引发了诸多地质灾害,例如滑坡、崩塌,严重影响人民生命和财产安全,妨碍了社会与经济的稳步快速发展[3-4]。所以,明确该区域滑坡灾害的易发性,可以提前采取措施,显著减少滑坡带来的各种损失,更好地促进经济高质量发展。

滑坡灾害由多种内外因素互相作用而引发,评价因子的选取是进行滑坡易发性预测的前提条件[5]。近年来,地理信息系统(GIS)在空间数据处理上占有很大的优势,并且在滑坡灾害预测分析研究中被广泛使用。遥感技术具有观测范围广、全天候重复观测等优点,实现了滑坡发育过程观测的自动化处理,大大提高了观测效率,增强了数据的连续性和准确性[6-7]。评价模型的选取会直接影响预测结果的可靠性与科学性,模型预测结果的准确性是衡量模型适用性以及性能优越的一项重要指标。熵指数模型[8]、信息量模型[9]、频率比模型[10]等一些常用的统计分析方法被广泛应用于大范围的区域滑坡易发性评价研究中。确定性方法主要根据斜坡的几何特征、物理力学参数以及地下水文性质等有关数据,建立评价模型来分析斜坡的稳定性[11],该模型仅适用于小规模的滑坡灾害预测评价,并不适用于大区域尺度范围内的滑坡灾害评价。

近些年来,随着新智能算法的不断完善,很多学者开始将机器学习[12-13]引入到滑坡灾害预测研究中,由于机器学习模型是通过大量的数据训练而得到的,因此在滑坡预测方面是一种新的突破。神经网络[14]是对人脑学习进程的一种相似模拟,经过对训练样本反复学习,形成评价模型,从而对研究区域进行预测。支持向量机(Support Vector Machine,SVM)[15]是在结构风险最小化原理算法上的发展,一定程度上可以避免计算结果出现过拟合现象,该模型已成为滑坡灾害易发性评价的一种理想模型。尽管此模型具有以上优点,但是在建模过程中,参数的选择会直接影响评价结果的准确性。一般选择参数有以下两类方法:①通过经验调参法选取模型参数,此方法得到的参数往往具有人为主观性;②通过优化算法进行参数的选取,此类算法得到的参数往往更具有客观性。常见的参数寻优法有蚁群算法[16]、交叉验证法[17]、鱼群算法[18]等。

为了选择支持向量机的最优参数,本文采用了粒子群优化算法(Particle Swarm Optimization,PSO),从而构建PSO-SVM模型,并将其用于府谷县滑坡灾害预测研究中。

2 研究区概况

府谷县总面积3 229 km2,坐落于陕西省北端,地理坐标38°42′28″N—39°33′44″N,110°25′40″E—111°15′36″E,地势总体呈现西北高、东南低的趋势,境内海拔范围为764~1 414 m。府谷县地貌单元包含黄土地貌、河谷阶地地貌和风沙地貌,属中温带半干旱大陆性季风气候,多年平均气温(1990—2016年)为9.3 ℃,多年平均降水量(2000—2018年)达428 mm,多条黄河水系支流贯穿整个境内。地质区域作为一个整体较单一,大的单斜结构、断层不甚发育,地震活动不甚强烈。府谷县在册滑坡灾害点有102处(2018年统计),其中,小型滑坡72处,中型滑坡20处,大型滑坡10处。研究区具体地理位置与境内滑坡分布如图1所示。

图1 府谷县地理位置以及滑坡灾害点分布Fig.1 Geographical location of the study area andlandslide points distribution

3 PSO-SVM模型

支持向量机(Support Vector Machine,SVM)模型是一种分类器,它是由模式识别中的广义肖像算法逐步发展而来的。其早期工作来自继人工神经网络后新一代的智能化学习培训算法。其中心思想是用核函数将样本的特征值分别从低维空间映射到对应的高维空间,从而在高维空间中寻找分类样本的最佳超平面。当构造SVM模型时,参数的选择将会直接干扰模型预测结果精密度,因而,在构建模型前首先需确定模型的基本参数(惩罚因子c、核参数σ)大小。

粒子群优化(Partical Swarm Optimization,PSO)算法是第一个进化计算技术。其基本原理来自对鸟群觅食过程中互相协作的行为分析,实现个体之间的信息及时共享,近年来,它在函数优化问题中得以广泛应用。所以,文中选取了径向基函数(Radial Basis Function,RBF)当作SVM模型的核函数,使用PSO算法升级优化模型参数,获得最佳参数组合,将最佳参数代入支持向量机模型的表达中。根据对数据集的训练,建立了PSO-SVM模型,并将模型用于府谷县滑坡灾害易发性评价分析当中,具体实现过程如下所述:

(1)对PSO-SVM模型参数设置初始值,主要参数包括种群规模、粒子初始位置与速度、惯性权重、迭代次数、学习因子。种群规模的大小会对算法的运行速率以及种群的多样性造成影响。当规模过大时,会减低算法的运行速率;当规模过小时,则会减少种群多样性。因此,依据经验值,比较适宜的种群规模取值范围为20~100,学习因子通常取值为2。若惯性权重较大,则全局优化能力较强,局部优化能力较弱;若惯性权重较小,则局部优化能力较强,全局优化能力较弱。每个粒子都代表着一个SVM模型,分别和不同的c和σ相匹配。

(2)粒子寻优过程中,每个粒子所在空间位置都视为一个解。通过确定适应度函数,将初始粒子各初始值代入函数表达式计算得到初始粒子适应值fi,同时通过比较粒子自身适应值以及粒子间适度值,获得粒子空间最佳位置和粒子群的历史全局最优位置。依据本身的最佳点和全局的最优位置不停地更新每个粒子的速度与位置。

(3)通常根据研究目的不同,设定不同的适应值阈值或者迭代次数来终止计算。当粒子群体中的粒子个体达到了制定的阈值或者迭代次数时,计算程序将被终止,并且输出最优参数组合c和σ;若未达到适应值阈值或者迭代次数,则会进行循环迭代计算,直到满足要求才终止。

(4)将上一步得到的最优c和σ作为SVM模型参数,然后提取样本训练集代入到最优参数下的SVM模型中进行循环训练,最终获得PSO-SVM模型,将整个研究区数据作为测试数据代入PSO-SVM模型中,得出区域滑坡的易发性指数(Landslide Susceptibility Index,LSI),由此分析区域滑坡发生的概率大小。

PSO-SVM模型实现流程如图2所示。

图2 PSO-SVM模型实现流程图Fig.2 Flowchart of PSO-SVM model

PSO-SVM模型适用于处理线性关系或者某种变形的线性关系,对自变量和样本的要求比较严格,并且必须保证较大的样本数量。PSO-SVM模型在高维空间中进行预测,将原本非线性的问题转化为线性问题预测,得到结果后再还原成非线性问题的解,与可靠性预测非线性的特点相适应。由于PSO-SVM模型涉及低维输入空间转化为高维空间和求解二次规划问题,当输入空间维数较高时,计算量急剧增加,计算效率成为制约模型性能发挥的瓶颈[19]。

表1 因子关联系数Table 1 Coefficient of correlation among factors

4 评价因子选取以及分析

4.1 数据源

本文采用的主要数据来源包括:①30 m分辨率的数字高程模型(Digital Elevation Model,DEM),以获得地形地貌以及水文等特征属性;②Landsat 8 OLI_TIRS(2015-07-02)影像数据,用来提取归一化植被指数(Normalized Difference Vegetation Index,NDVI)、地形湿度指数(Topographic Wetness Index, TWI)等地表覆盖信息;③1∶50 000地质图,主要用于提取地层岩性、断层等评价因子;④府谷县气象站点降雨量数据(2003—2013年),用来插值分析研究区降雨量因子;⑤野外调查报告、滑坡特征编目数据库以及部分航片等,用来确定滑坡空间位置以及滑坡解译识别。

4.2 选取评价因子

滑坡发生由多种因素决定,这些因素大体可以分为孕灾环境因子与诱发因子。本文根据研究区已有研究成果、区内滑坡自身特征以及研究区地质环境特征,选取的孕灾环境因子主要有:高程、坡度、坡向、曲率、地形起伏度、NDVI、TWI以及地层岩性;诱发因素主要有距道路距离、降雨量以及距水系距离。采用ArcGIS软件提取各因子图层如图3所示。

4.3 因子相关性分析

为了防止因子之间存在很强的关联性,导致评价模型运行速率下降以及运行结果出现过拟合,需要对因子间关联性进行检验。文中利用Pearson关联系数来分析各因子之间的关联程度,得到各因子间关联系数如表1所示。

由表1可知,地形起伏度与坡度的关联系数绝对值为0.980,呈现强关联性,因此剔除地形起伏度因子,选取剩余因子作为评价模型的读取信息。

5 滑坡易发性评价

滑坡易发性评价的基本评价单元称之为模型单元。模型单元主要包含栅格单元、斜坡单元、行政区划单元等。栅格单元对应于GIS中的栅格数据结构,具有数据采集、管理便捷,计算简易等优势。因此,在本文中,以评估单元作为基本的栅格,将研究区划分为35 m×35 m大小的栅格单元,共计2 610 717个。通过ArcGIS栅格转点工具提取研究区各评价因子属性值,建立区域属性数据库,给予滑坡易发性评价研究的数据支持。

图3 评价因子图层Fig.3 Assessment factor layers

随机选取72处滑坡(约为总滑坡数的70%)与相同数量的非滑坡属性数据作为训练样本集,剩余30处滑坡(约为滑坡总数的30%)与相同数量的非滑坡点组成测试样本集。设定PSO算法参数初始值,依据经验,设定种群大小为60,迭代到120,学习因子C1取值为1.5,学习因子C2取值同样也为1.5,最大惯性权重为0.9,最小惯性权重为0.4,检索SVM惩罚因子c和核参数σ,获取的最佳参数组合为c=1.42,σ=1.15。将最佳参数组合代入SVM模型中让训练样本开始学习,得到了源于PSO算法的支持向量机模型,从而将研究区属性数据集代入模型,得到了滑坡的易发性指数(LSI),按照从小到大顺序采用自然间断点法依次划分为极低、低、中、高、极高5个易发等级。各分区所占面积比例以及滑坡比例如表2所示,研究区的易发性区划如图4所示。高易发区和极高易发区面积占研究区总面积的31.50%,滑坡点数量占总滑坡点数量的83.34%,由此得出滑坡在高易发区和极高易发区分布较为集中。从预测分析结果的整体空间布局看来,滑坡呈现树枝状遍布,主要沿黄河及其支流分布。

表2 各易发区面积比例以及滑坡比例Table 2 Area proportion of each susceptible area andproportion of landslide

图4 基于PSO-SVM模型的滑坡易发性区划Fig.4 Landslide susceptibility mapping based onPSO-SVM model

6 结果分析与验证

受试者工作特征曲线 (receiver operating characteristic curve,ROC)可以定量测量质量评价模型性能的优劣。一般用成功率曲线与预测率曲线下面积(Area Under Curve,AUC)作为衡量指标。曲线越靠近左上方或者越陡,说明模型的预测性能越优越。当AUC=1时,表现为一种理想化状况,也就是说,滑坡预测的结果与滑坡的实际分布全部一致。当AUC值越接近1时,说明检测方法准确性越高。本文对PSO-SVM模型性能采用SPSS软件的ROC曲线分析工具进行检验,得到其成功率曲线与预测率曲线如图5所示。由图5可知,PSO-SVM模型的成功率曲线AUC值为0.931,预测率曲线的AUC值为0.917,PSO-SVM模型显示了卓越的性能。

图5 PSO-SVM模型的成功率曲线和预测率曲线Fig.5 Curves of success rate and prediction rate ofPSO-SVM model

除此之外,滑坡灾害易发性预测的分类误差是客观存在的,即“易发区”与“非易发区”有错分误差。因此,定义I为假阴性、II为假阳性,LI表示将滑坡点预测为非滑坡点的点数,LII表示将非滑坡点预测为滑坡点的点数,则假阴性率=LI/滑坡点总数,假阳性率=LII/非滑坡点总数。

使用混淆矩阵,根据Kappa系数计算得到PSO-SVM模型在训练集以及测试集下的预测精度。m为真阴性点数,n为真阳性点数,p为假阴性点数,q为假阳性点数。Kappa系数的计算公式为

(1)

其中,

po=(m+n)/(m+n+p+q) ;

式中k为Kappa系数。

PSO-SVM模型的训练集与测试集的分类预测分析结果如表3所示,训练集中,m、n、p、q分别为63、66、6、9。测试集中,m、n、p、q分别为27、26、4、3。训练集与测试集的预测模型的总体正确率分别为89.58%与88.33%,假阳性率分别为12.50%、10.00%。

表3 PSO-SVM模型的分类预测结果Table 3 Prediction results using PSO-SVM model

利用Kappa系数对PSO-SVM模型进行了检验,得到其训练集与测试集的预测精度分别为:79.17%、76.67%。

根据ROC曲线、分类正确率和Kappa系数分析,PSO-SVM滑坡预测模型具有预测能力强与预测效率高的特性。

通过实地调查结合遥感解译,随机识别出研究区20处滑坡灾害及其隐患点,其中10处滑坡点位于极高易发区内,6处滑坡点位于高易发区内,落入极高易发区和高易发区滑坡占滑坡总数的80%,剩余4处滑坡点位于中易发区,而低易发区与极低易发区无滑坡点分布。通过对比分析,现场调查滑坡点在各易发区所占比例与PSO-SVM模型中滑坡点所占比例相似,证实了PSO-SVM模型对府谷县滑坡预测结果区划的准确性和可靠性。

7 结 论

本文以府谷县作为研究区,基于多源空间数据、GIS以及机器学习算法对区内滑坡易发性预测研究进行分析,取得了如下结论:

(1)按照Pearson相关系数和显著性检验的统计分析,地形起伏度与坡度的相关系数绝对值为0.980,呈强相关性,故剔除地形起伏度因子。

(2)使用粒子群算法选取支持向量机模型的最优参数,得到模型最佳参数组合为c=1.42和σ=1.15。

(3)根据所得易发性区划图分析可知,高易发区和极高易发区占整个研究区域的31.50%,滑坡点数量占总滑坡点数量的83.34%,由此得出滑坡在极高易发区和高易发区分布较为集中。从预测分析结果的整体空间布局看来,滑坡呈现树枝状遍布,主要沿黄河及其支流分布。

(4)由ROC曲线可得,PSO-SVM模型的成功率曲线的AUC值为0.931,预测率曲线的AUC值为0.917,PSO-SVM模型显示了卓越的性能。训练集与测试集的预测模型的总体正确率分别为89.58%与88.33%,假阳性率分别为12.50%和10.00%。利用Kappa系数对PSO-SVM模型进行了检验,得到了其训练集与测试集的预测精度分别为79.17%、76.67%。

(5)PSO-SVM滑坡预测模型具有预测能力强和预测效率高的特点,具有较高推广价值。

猜你喜欢
府谷县易发滑坡
机用镍钛锉在乳磨牙根管治疗中的应用
贵州省地质灾害易发分区图
夏季羊易发疾病及防治方法
滑坡推力隐式解与显式解对比分析——以河北某膨胀土滑坡为例
冬季鸡肠炎易发 科学防治有方法
府谷县绿色通道建设经验和办法分析
滑坡稳定性分析及处治方案
府谷糜子优质丰产栽培技术
浅谈公路滑坡治理
“监管滑坡”比“渣土山”滑坡更可怕