基于SSA-BP 的泥石流敏感性分析

2022-04-12 03:40李英娜
电视技术 2022年3期
关键词:搜索算法泥石流敏感性

高 原,李英娜*

(1.昆明理工大学 信息工程与自动化学院,云南 昆明 650500;2.云南省计算机技术应用重点实验室,云南 昆明 650500)

0 引言

泥石流是一种以大于10 m·s-1的速度快速前行的混合物,由碎石、泥土和水组成,是一种极具破坏力的自然灾害。云南省昆明市东川区的泥石流有非常久远的历史,经过近百年的快速发展,东川区境内现有330 条类型、规模不尽相同的泥石流沟,其中36 条对居民的生产生活造成了严重的影响。

国外对于泥石流灾害的调查分析开展的较早,关于泥石流敏感性的研究也卓有成效。KOVACS于20 世纪80 年代使用定性评价方法对泥石流敏感性进行分析,为泥石流敏感性评价提供了思路[1-2]。与国外相比,我国对泥石流的研究起步晚,但是进步很快,唐川在20 世纪90 年代就使用数值模拟法进行泥石流敏感性评价。后来,层次分析法[3]、模糊数学法[4-5]、信息量法[6]、回归分析[7]、频率比法[8]以及人工神经网络[9-10]等多种模型被应用于泥石流敏感性评价。

麻雀搜索算法(Sparrow Search Algorithm,SSA)具有收敛速度快、寻优能力强等特点,本文使用麻雀搜索算法(SSA)优化BP 神经网络的泥石流敏感度评价方法,并对SVM,SSA-SVM,BP 神经网络及SSA-BP 神经网络4 种机器学习的模型进行比较分析。

1 研究区概况

东川区,东经102°48′~103°19′北纬25°47′~26°33′,隶属于云南省昆明市,位于云南高原北部,属川滇经向构造带与华夏东北构造带结合过渡部位,南北最大纵距84.6 km,东西最大横距51.2 km。境内山高谷深,地势陡峻,位于地震活动活跃的小江深大断裂带,几乎每年都有地震发生。另外,小江是一条深切割构型河谷,并且小江周围的山体大部分是碳酸岩类、泥质岩类和基性岩类等岩性软弱、易于风化的岩石,为泥石流的发生提供了丰富的物源条件。东川区年平均气温14.9 ℃,极端最高气温42 ℃,极端最低气温-7.8 ℃,年平均降水量约为1 000.5 mm,月最大降雨量208.3 mm,日最大降雨量153.3 mm,降雨主要集中在5—9 月,期间降水量占全年降水量的88%左右,充足的降水量容易引起泥石流的爆发。东川区矿产丰富,过度的开采使东川植被破坏严重,生态环境急剧下降,致使坡面抗冲刷能力差,容易形成泥石流。另外,由于东川泥石流具有分布广、发生频率高、破坏力大以及类型齐全等特点,东川又被称为“泥石流最佳观测站”“泥石流天然博物馆”[11]。

2 数据来源与评价因子分类

2.1 数据来源

本文采用的主要数据源如下。

(1)遥感数据。本文采用的遥感数据为2020年5 月成像的Landsat OLI 影像,来源于地理空间数据云平台。其中,多光谱影像分辨率为30 m,全色影像15 m,覆盖全区。根据Landsat OLI 影像,提取了归一化植被指数(Normalized Difference Vegetation Index,NDVI)。

(2)地形数据。采用的地形数据为ASTER GDEM,空间分辨率为30 m,来源于地理空间数据云平台。根据ASTER GDEM 数据,本文提取了坡度、坡向及平面曲率3 个地形地貌因子。

(3)气候数据。包括东川区及其周围站点1998—2018 年近20 年间的逐日降雨数据,来源于中国气象局。根据逐日降雨数据提取年平均降雨数据。

(4)地质数据。地质数据基于云南省1∶200 000 的地质图,包括地层数据和构造分布数据,来源于全国地质资料馆。

(5)居民点数据。采用1∶250 000 数据,包括居民地、普通房屋、蒙古包、放牧点等数据,来源于地理信息专业知识服务系统,用于提取居民点密度数据。

(6)道路数据。采用1∶250 000 路网数据,包含铁路、公路数据等,来源于地理信息专业知识服务系统,用于提取路网密度数据。

(7)土地利用数据。为中科院空天院发布的2020 年土地利用分布数据,空间分辨率为30 m,包括耕地、森林、草地、灌木地、湿地、水体、苔原、人造地表、裸地、冰川和永久积雪等10 种类型,来源于地球大数据科学工程数据共享服务系统。

(8)泥石流数据。本文采用的泥石流数据中,77 条来源于中国科学院资源环境科学数据中心,175 条来源于Google Earth 高分辨率影像人工解译,共计252 条。

2.2 评价因子的分类

昆明市东川区泥石流评价因子多种多样,并且各个评价因子之间并不相互独立。为了更客观地对泥石流敏感性进行分析,根据云南地质调查局野外调查结果和东川区泥石流分布特点,选择了10 个影响泥石流灾害的因素:坡度、坡向、曲率、年降雨量、归一化植被指数(NDVI)、地层岩性、距构造距离、土地利用、居民密度以及路网密度。同时,根据各评价因子对泥石流发生的影响分析,将这些因素划分为不同的等级如表1 所示。

表1 评价因子及其分类

评价因子的属性值是从30 m×30 m 网格中提取出来的,根据表1 的分类标准,生成各个评价因子的分级图,结果如图1(a)~图1(j)所示。其中,图1(a)、图1(b)、图1(c)分别为从DEM提取的坡度图、坡向图、曲率图。图1(d)为东川区年降雨量图,图1(e)是归一化植被指数(NDVI)图,图1(f)为地层特征图,图1(g)为东川区距构造距离图,图1(h)、图1(i)、图1(j)分别为土地利用分类图、居民密度图以及道路密度图。在此基础上,建立东川区泥石流敏感性评价因子数据库,共有2 080 635 个网格评价单元。在现有数据库中选择1 140 个网格单元作为训练样本构建训练数据集,包括176 个泥石流灾害点和964 个非灾害点;760 个网格单元作为测试样本,构建测试数据集,包括76 个泥石流灾害点和684 个非灾害点。利用训练数据集训练了用于泥石流灾害敏感性分析的4 个机器学习模型(SVM,SSA-SVM,BP 神经网络及SSA-BP 神经网络),并利用测试数据集验证了所构建的4 个泥石流敏感性评价模型的性能。

图1 泥石流敏感性评价因子分级图

3 研究方法

3.1 麻雀搜索算法

XUE 等[12]在2020 年提出了麻雀搜索算法(Sparrow Search Algorithm,SSA),它是根据麻雀在寻找食物以及逃避追捕者时候的行为特征提出的。在寻找食物的过程中,一群麻雀负责寻找食物并且把食物的位置提供给族群,其余的麻雀则根据位置前往觅食。种群中的麻雀会相互识别对方的行为,并且有一部分麻雀作为争夺者会去抢夺一些高摄入量的麻雀的食物,以提高自己的食物摄入。当然,受到抢夺的麻雀会根据抢夺者的行为做出反应。

能量储备的水平是由寻优过程中所寻食物的丰富性所决定的。麻雀会在遇到危险的时候做出反捕食反应。在算法迭代的过程中,发现食物的麻雀位置更新如下:

式中:t为当前迭代次数,itermax为最大的迭代次数,为第i个麻雀在第j维中的位置信息,α∈(0,1]是一个随机数;R2和ST分别表示预警值和安全值,其中,R2∈[0,1],ST∈[0.5,1];服从正态分布的随机数为Q,L中的每一个元素都为1,是一个1×d的矩阵。当R2

跟随者的最新位置为:

式中:目前发现者所占据的最优位置为XP,Xworst为当前全局最差的位置,A是1×d的矩阵,1 或-1是矩阵中每个元素的随机赋值,并且A+=AT(AAT)-1,其中A+为伪逆矩阵。当i>n/2 时,表明此时的第i个跟随者的适应度值较低,处于非常饥饿的状态,为了获得更多的能量,它需要去其他区域寻找食物。

麻雀种群会在意识到危险的时候进行反捕食,其数学表达式为:

式中:Xbest为当前的全局最优位置,β为步长控制参数,方差为1,服从均值为0 的正态分布的随机数;K是一个随机数,是步长控制参数同时还表示麻雀移动的方向,且K∈[-1,1];fi为当前麻雀个体的适应度值,fg和fw分别为当前全局最佳和最差的适应度值,ε为最小的常数。为简单起见,当fi>fg时,此时的麻雀非常容易受到捕食者的攻击,因为它们处于种群的边缘位置;当fi=fg时,处于种群中间的麻雀非常容易受到捕食者的攻击,因此它们要靠近其他麻雀来躲避风险。

3.2 BP 神经网络

反向传播(Back Propagation,BP)神经网络是由Rumelhart 和McCelland 带领的科研团队在1986年提出的[13]。BP 神经网络具有较强的自学能力,可以对生物神经网络和模拟神经系统结构进行模拟并传递信息,是一种非线性数据预测模型。

3.2.1 信号的正向传播

设xi为BP 神经网络隐藏层的输入值,那么隐藏层的输出值Hk为:

式中:n是输入层节点的个数,ωik是隐藏层之间连接权值,αk是隐藏层阈值,g是隐藏层的激活函数。激活函数常采用sigmoid 函数,即:

3.2.2 误差反向传播

通过连接权值和偏置的不断更新,误差函数的值逐步减小。当误差达到最小值时,权重参数是最接近最优解的[14]。运用梯度下降法来求解修正权值。这样的影响传递链条关系,可以通过参数的传递分析发现,即ωkj影响输出层输出值,最后影响到误差的大小。反向传播中权值的更新公式为:

式中:ωkj是连接权值,ej是预测误差,p是输入层节点个数,η是学习速率。

当相邻两次之间的误差值小于目标值,算法收敛,迭代结束。

3.3 麻雀搜索算法优化BP 神经网络

图2 为麻雀搜索算法优化BP 神经网络流程图(SSA-BP),麻雀搜索算法对参数的优化步骤如下。

图2 SSA 优化BP 神经网络流程图

(1)确定泥石流敏感性评价模型的输入与输出。将东川区泥石流敏感性评价因子作为模型的输入,东川区泥石流发生的概率作为模型的输出。划分训练集与测试集。

(2)对麻雀搜索算法中的种群规模、最大迭代次数以及BP 神经网络的权值和阈值进行初始化。

(3)使用交叉验证对训练样本进行分类,每个麻雀的适应度值为交叉验证的准确率,将最优的适应度值和麻雀的位置保留下来。

(4)以预警值的大小作为依据,根据式(1)对发现者的位置进行更新。

(5)根据式(2)对跟随者的位置进行更新。

(6)按照式(3)对觉察到危险的麻雀的位置进行更新,在种群中心的麻雀随机靠近其他麻雀,而外围的麻雀会向安全区域靠拢。

(7)计算每个麻雀最新位置的适应度值,将所得适应度值与之前的最优值进行比较,然后更新全局最优信息。

(8)判断是否达到最大迭代次数,如果不满足,则从步骤(3)开始继续重复上述步骤,反之则结束流程,输出最优参数,将测试集作为BP 神经网络模型的输入,并输出结果。

4 敏感性分析与精度评价

4.1 敏感性分析

将东川区2 080 635 个网格中各个评价因子的值输入到SVM,SSA-SVM,BP,SSA-BP 这4 个机器学习模型中,得到每个网格发生泥石流的概率。由于泥石流发生的概率为0~1,故将泥石流敏感性分为五个等级:极低、低、中、高和极高,并通过ArcGIS 软件生成东川区泥石流敏感性图。为了能直观地看出泥石流灾害点落在各个敏感性区域的情况,将地质灾害点标记在敏感图中,如图3(a)~图3(d)所示。由图可以看出,极高以及高敏感性区域主要分布在小江干流、大白河、中厂河流域,由于河流附近本身就容易发生泥石流灾害,并且距离人类活动区域并不远,会受到人类工程地质活动影响,因此这些区域具有较大概率发生泥石流灾害。

图3 不同模型生成的敏感性图

滑坡点所占各敏感性等级的百分比如表2所示。从表2 可以看出,在SVM,SSA-SVM,BP,SSA-BP机器学习模型所输出的泥石流敏感性图中,灾害点在极高敏感性区域中的占比分别为0.108 3%,0.183 9%,0.159 3%,0.203 5%,这说明在极高敏感性区域内,模型的精度由高到低为SSA-BP,SSA-SVM,BP,SVM。通过表2 还可以看出,灾害点在极低敏感性区域中的占比分别为0.001 3%,0.000 7%,0.000 9%,0.000 5%,这说明在极低敏感性区域内,模型的精度由高到低依然为SSA-BP,SSA-SVM,BP,SVM。

表2 滑坡点所占各敏感性等级的百分比

4.2 精度评价

受试者工作特征曲线(Receiver Operator Characteristic Curve,ROC)是评价模型精准度的常用方法[15-16]。ROC 曲线以敏感度(真阳性率)为纵坐标,代表东川区真实发生泥石流的概率;以特异度(假阳性率)为横坐标,代表东川区不真实发生泥石流的概率。AUC 表示ROC 曲线下的面积,主要用于衡量模型的泛化性能,即分类效果的好坏。ROC 曲线越靠近左上角,其曲线下面积越大,表示模型精度越高[17]。

图4 为东川区泥石流敏感性评价结果ROC 图。由图可以看出,各个机器学习模型的ROC 曲线很接近左上角,SVM,SSA-SVM,BP,SSA-BP 的AUC值分别为0.820,0.843,0.826,0.859。由此可见这四种模型精度较高,所得的东川区泥石流敏感性图结果可靠。

图4 东川区泥石流敏感性评价结果ROC 图

5 结语

本文以东川区泥石流灾害发生概率为研究对象,为了提高泥石流预测模型准确度,采用GIS 与RS 技术提取了10 个评价因子,并通过4 个机器学习模型进行预测,最终生成东川区泥石流敏感性图。结合东川区实际情况与各位学者对泥石流预测的研究,本文采用GIS 与RS 技术提取了坡度、坡向、曲率、年降雨量、归一化植被指数(NDVI)、地层岩性、距构造距离、土地利用、居民密度和路网密度这10 个泥石流评价因子,实验效果良好。与传统SVM与BP 神经网络相比,通过SSA 优化的SVM 与BP神经网络在预测精度方面有所提升,SVM,SSASVM,BP 神经网络以及SSA-BP 神经网络4 种模型的预测成功率可以达到0.820,0.843,0.826,0.859。综合来看,SSA-BP 神经网络模型表现最为优异。根据252 条泥石流数据,经验证所生成的泥石流敏感性图具有较高的可信度。该敏感性图对于相关部门在城乡规划、道路规划、防灾减灾方面具有实际指导意义,具有一定的社会经济价值。

猜你喜欢
搜索算法泥石流敏感性
CT联合CA199、CA50检测用于胰腺癌诊断的敏感性与特异性探讨
CR1500HF热成形钢氢脆敏感性能研究
一种基于分层前探回溯搜索算法的合环回路拓扑分析方法
经前烦躁障碍症发病与四氢孕酮敏感性中西医研究进展
改进的非结构化对等网络动态搜索算法
改进的和声搜索算法求解凸二次规划及线性规划
泥石流
基于莱维飞行的乌鸦搜索算法
“民谣泥石流”花粥:唱出自己
泥石流