基于支持向量机遥感影像滑坡信息提取研究

2023-01-03 11:44赵军利朱红巍杨文涛
地理空间信息 2022年12期
关键词:正确率分类器滑坡

赵军利,朱红巍*,杨文涛

(1. 中国地质大学(武汉)地质探测与评估教育部重点实验室,湖北 武汉 430074;2. 北京林业大学水土保持学院,北京 100083)

滑坡信息自动提取一直以来是学者们研究的热点问题。如何高效率并高正确率提取滑坡信息,人们还在不断地探索中[1-11]。近年来,机器学习理论和方法广泛被人关注。支持向量机(SVM)由于泛化能力强、提取精度高等优点,在遥感影像信息提取中常常被人们应用[12]。基于此,本文继续探索仅采用WorldView-2影像基于SVM提取地震滑坡信息,为以后应用影像开展滑坡信息提取及相关应用研究提供参考价值。

1 研究区概况和数据准备

1.1 研究区概况

本文研究区位于汶川县境内,映秀镇(31.021°N,103.367°E)以北的一个区域,地理坐标位于103°26′00″E~103°29′ 30″ E,31°4′ 30″ E~31°8′ 00″ N 之间(见图1),面积25 km2,属山间河谷的河流地貌,地形陡峭,平均坡度为34.7°[13]。从地质构造的角度而言,研究区位于龙门山活动断裂带的中央断裂带——北川-映秀断裂带上,研究认为该断裂带是汶川地震的发震断裂[13]。从地层岩性特征角度看,研究区以坚硬块状岩浆岩(中元古界花岗岩),侵入岩岩组(二叠系石英闪长岩,古元古界辉长岩)和片麻岩系(康定岩群)组成的彭灌杂岩体,以及沉积岩、火山岩及火山碎屑岩构成[14]。2008年汶川地震发生后,映秀地区受灾情况非常严重,房屋几乎全部倒塌,伤亡近万人,大部分交通设施中断,2 000多亩农田被毁[15]。

图1 研究区示意图

1.2 数 据

本文使用的数据是WorldView-2 卫星的高分辨率多光谱遥感影像,成像时间是2011-04-26。影像空间分辨率多2 m,影像由蓝光波段(450~510 nm)、绿光波段(510~580 nm)、红光波段(630~690 nm)和近红外波段(770~895 nm)4 个波段组成,该影像质量佳,无云。

本文验证数据来自Yang[16],滑坡是许冲[2]基于WorldView 数据半自动提取并对部分滑坡野外验证的结果。

2 研究方法

2.1 支持向量机方法原理

本文采用支持向量机进行滑坡信息提取,该方法是一种基于统计学理论为基础的机器学习模型算法,该方法是通过最优化问题解算以在数据高维特征空间里确定最优分类超平面,从而能够处理复杂数据分类问题[17-19]。SVM 通过将低维空间向量集映射到高维空间向量,再构造核函数进行分类,使得分类误差最小,最大程度提升分类器的泛化能力[19]。

SVM最优分类函数表达式如下:

式中,ai为非负拉格朗日乘子;yi为类别;K(xi,xj)为核函数;b为分类阈值。

目前,SVM 常采用的核函数有4 种,主要是Sig⁃moid核函数、多项式核函数(Polynomial)、径向基核函数(RBF)、线性核函数(Linear)。其中,本文多项式采用2次多项式,所有核函数表达式如下:

线性核函数(Linear)为:

多项式核函数(Polynomial)为:

式中,g>0;c为自然数,c=2。

径向基核函数(RBF)为:

Sigmoid核函数为:

2.2 结果可靠性评价指标

SVM 提取滑坡信息的好坏,需要进行可靠性检验。本文选取许冲在文献[11]中提出的滑坡提取率、滑坡非误判率和滑坡提取正确率3 个指标(见表1)评价SVM提取滑坡信息的可靠性。

表1 滑坡提取可靠性的评价指标

3 个指标中,A为检验数据集,即研究区内滑坡的正确数据集,本文以许冲[2]等学者目视解译提取的滑坡信息数据集为检验数据集。B为采用分类方法自动提取的滑坡数据集;A∩B为采用分类方法自动提取得到正确的滑坡数据;A∪B为采用分类方法自动提取的滑坡数据集与正确数据集的并集,即所有滑坡数据集。因此,理想状况下,应该可以得到A=B=A∩B=A∪B,即滑坡提取的正确率为100%。

3 结果及评价

3.1 提取方法

本文采用ENVI 5.3软件中的SVM进行滑坡信息提取。SVM 分类器的提取结果主要受核函数和分类可能性阈值(CPT)影响。在SVM 分类器中,CPT 值为0时,表示影像上的所有像元都参与分类;为1时,表示所有像元都不参与分类。为此,本文结合SVM核函数与CPT 的值域进行实验。SVM 4 个核函数为线性(Lin⁃ear)、多项式(Polynomial)、径向基(RBF)和Sig⁃moid,CPT 的值分别设置为0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9共10种情况,依次进行实验。然后将分类结果由栅格数据转换为矢量数据,并单独提取滑坡数据集,并做可靠性评价。将SVM提取的滑坡数据集与许冲[2]等学者目视解译的数据集进行对比分析,对每一个提取结果进行可靠性评价,该方法的流程图如图2所示。

图2 滑坡信息提取流程图

SVM分类器是一种监督分类方法,首先需要选取训练样本ROI。本文重点考虑提取WorldView-2 影像中的滑坡信息,滑坡概念上有广义和狭义之分。本文采用广义的界定,滑坡指坡体上、裸露的没有植被覆盖的不稳定基岩、碎屑物质等,包含滑坡、崩塌以及泥石流等[4]。其余地物主要分为不透水面(道路、堤岸、桥梁等)、植被以及水体4类。结合前期相关研究成果,并参照影像共采集4 种地物的训练样本,共30 181个像元。

为了更加快速自动提取滑坡信息,本文主要基于影像的光谱信息提取研究区的滑坡信息。结合World⁃View-2影像特点以及研究区地物情况,本文主要选取影像的多光谱波段、归一化植被指数(NDVI)和归一化水体指数(NDWI)以及纹理特征作为特征数据集。研究区位于山区,有不少地区被植被覆盖,NDVI能够灵敏地反映植被生长状况,在遥感影像植被信息提取中经常被用的度量参数[5]。研究区有河流经过,NDWI能够在遥感影像上反映水体的特征状况,并且能够将水体与非水体信息有效地区分[20]。WorldView-2是高分辨率影像,空间信息丰富,各种地物的纹理、结构和细节等信息更加突出,为此本文还加入了影像的纹理特征。

3.2 结果评价

实验总共获得了40个滑坡信息提取的结果,基于滑坡提取率、滑坡非误判率和滑坡提取正确率3 个指标评价滑坡信息提取的可靠性,详见表2,其中,滑坡检验数据集A包含2 358 273个像元。

表2 滑坡自动提取结果及可靠性评价

从表2反映出,采用SVM提取滑坡信息,同时取决于核函数与CPT 两个量。且无论选取哪个核函数,当CPT 的值为0 时,影像中的所有像元参与分类,提取的滑坡面积最大,与之对应的滑坡提取率也最大,相应的滑坡非误判率最小。

为了更直观地分析SVM中的核函数与CPT值之间对滑坡信息提取的影响,绘制SVM每个核函数滑坡提取率、滑坡非误判率和滑坡提取正确率结果图(见图3)

图3 SVM 4个核函数滑坡提取率、滑坡非误判率和滑坡提取正确率结果图

图3 四个子图直观反映出一个总的趋势,滑坡正确提取率随着CPT 的值越大,正确提取率逐渐变大。当CPT 值达到某一个数值时,正确提取率达到最大值,然后正确提取率随着CPT值变大而又逐步减小。

从图3 四个子图反映出,CPT、滑坡提取率与滑坡非误判率之间存在一个总体趋势,当CPT的值越大时,滑坡提取率越小,滑坡非误判率越大,相反,当CPT的值越小时,滑坡提取率越大,滑坡非误判率越小。但是在局部范围内存在一定的波动,如Sigmoid核函数CPT值为0.2时,线性核函数CPT值为0.3和0.5时,滑坡提取率出现了一小的波动。其中,Sigmoid核函数滑坡提取率最大,为77.77%;其正确提取率也最大,为73.34%,CPT值为0.7。表2实验数据表明,滑坡提取率大,并不一定代表滑坡正确提取率就高。如线性核函数最大提取率为70.97%,其正确提取率最大为67.33%。而多项式核函数最大提取率为68.18%,其正确提取率最大为67.39%。

根据图4b目视解译的滑坡信息,可以发现研究区滑坡体多,并主要位于山区地带。从图4c、4d、4e、4f 4个子图可以看出,SVM能够提取大部分研究区的滑坡信息,但是总而言,滑坡信息提取的精度不够高。主要是:①本文选择分类器为基于像元的提取方法,基于像元的分类器在对影像信息提取时,部分影像像元受地形、地表覆盖物、阴影等因素影响,导致在信息提取时被错分或漏分,以至于降低影像信息提取的精度。②由于滑坡与不透水面之间在影像上存在一些差异,但是其包含的光谱信息差异却不大,从4个信息提取的结果图上看,滑坡提取的误差主要是将一部分河岸、人工建筑物等要素错分到滑坡中,滑坡中的一些像元又错分至不透水面中去,导致滑坡信息提取精度不够高。③面积较小的滑坡体由于其光谱特征在影像上表现的不明显,多数小滑坡体被提取时存在错分或漏分的情况,这也是导致本文滑坡提取正确率不高的一个关键因素。

图4 影像原图及SVM提取的滑坡信息结果图

4 结 论

本文仅采用WorldView-2 高分辨率影像为数据基础,选择汶川县境内映秀镇以北的一个区域作为研究区,采用SVM 分类器,针对该分类器中的核函数与CPT 阈值设定进行滑坡信息提取,结果表明采用Sig⁃moid 核函数,CPT 为0.7 时,SVM 提取的滑坡 正确率最高,为73.34%。但是相比许冲[11]采用最大似然法提取的滑坡正确率有显著提高,且本文采用SVM提取的滑坡信息,面积较大的滑坡体提取的边界和分布范围相对完整。滑坡地质灾害发生后,在时间紧、区域大、滑坡数量多等紧急状况下,快速获得滑坡信息值得进一步研究探索,本文只采用一种影像数据,这种方法的可避免多种数据源在融合过程中存在的各种误差或复杂处理过程,但是本文自动提取的结果正确率还不够高,直接应用到滑坡定量分析研究中去,显然达不到要求。定量分析研究针对每一个滑坡的边界、位置等其他要素都有严格的量化要求,否则,其研究结果可靠性难以保证。因此,本文基于SVM在高分辨率影像上提取滑坡信息,虽然较前人研究在精度上取得了提高,但还需要进一步探索研究。

猜你喜欢
正确率分类器滑坡
2001~2016年香港滑坡与降雨的时序特征
个性化护理干预对提高住院患者留取痰标本正确率的影响
学贯中西(6):阐述ML分类器的工作流程
滑坡推力隐式解与显式解对比分析——以河北某膨胀土滑坡为例
基于朴素Bayes组合的简易集成分类器①
门诊分诊服务态度与正确率对护患关系的影响
基于特征选择的SVM选择性集成学习方法
基于差异性测度的遥感自适应分类器选择
浅谈公路滑坡治理
生意