基于Sentinel-2A的太行山区土地覆被分类方法研究

2020-06-22 06:06宋宏利雷海梅霍志敏邵明超史宜梦孙庆松
关键词:面向对象波段分类器

宋宏利,雷海梅,霍志敏,尚 明,邵明超,史宜梦,孙庆松

(1.河北工程大学 地球科学与工程学院,河北 邯郸 056038;2.河北省地矿局第六地质大队,河北 石家庄 050085)

土地覆被及其变化是全球环境变化过程中的重要因子,在地球生态系统过程的物质和能量交换中有着非常重要的地位,已成为能量传输模型、陆地生态系统过程模型研究的关键输入参数,同时也是全球变化和碳循环模拟、气候模拟等研究的重要内容[1-3]。近年来,随着遥感技术的不断发展,利用遥感数据及各种分类算法可以快速准确地获取区域土地利用/覆被信息,并且具有成本低、效率高、时效性强等优势。国内外学者在此方面作出了大量研究,并得出有价值的研究成果[4-9]。综合分析,当前利用遥感手段对土地覆被的研究主要集中于平原区域,且主要以Landsat、MODIS等为遥感数据源,而将Sentinel数据结合不同分类策略及分类方法在地表景观异质性区域土地覆被信息提取方面的研究相对较少。太行山区位于我国地势第二级阶梯东缘,集革命老区、集中连片贫困区、矿区于一体,是华北地区重要的天然屏障和水源涵养地。因此,如何基于遥感数据,采用机器学习方法识别区域的土地覆被类别及其动态变化,对于掌握区域生态环境演变,制定区域生态保护政策具有重要意义。

1 研究区概况

涉县地处晋冀豫三省交界处,河北省西南部,太行山东麓,介于北纬36°17′—36°55′,东经113°26′—114°之间。东西长37.5 km,南北宽64.5 km,海拔高度203~1 563 m,总面积1 509 km2。涉县气候属于暖温带半湿润大陆性季风气候,年平均降水量540.5 mm,雨热同期。研究区地形为典型山地地貌,太行山余脉贯穿全境,地势由西北向东南缓慢倾斜(图1)[10]。经文献调查及野外勘测,将研究区土地覆被类型分为5类:耕地、林地、草地、建设用地、水域。

图1 研究区地理区位图Fig.1 Geographical location map of the study area

2 数据及预处理

2.1 遥感数据

Sentinel-2A卫星发射于2015年6月,携带一个多光谱成像仪(MSI),包含13个光谱波段(波段信息如表1所示),空间分辨率为10~60 m,重访周期为10 d,光谱范围覆盖可见光、近红外及短波红外波段。本文选用2019年6月22日成像的Sentinel-2 A L1C级影像用于土地覆被类别提取,数据下载自欧空局数据中心(https://scihub.Copernicus.eu/dhus)[11],选择空间分辨率为10 m的3个可见光、1个近红外和20 m的3个红边波段。利用欧空局提供的Sen2Cor软件对影像进行辐射定标及大气校正处理,并使用SNAP软件进行重采样将其转存为ENVI5.3能够支持的格式,经矢量边界裁剪之后生成研究区影像。为了减小因波段间空间分辨率不一致而引起的分类误差,本文使用最邻近插值法将20 m空间分辨率的红边波段重采样至10 m。

表1 Sentinel-2A卫星波段参数Tab.1 Sentinel-2A satellite band parameters

2.2 样本数据

在Sentinel-2A原始影像基础上,结合Google Earth及野外采样数据进行样本选取,按照训练样本占60%、验证样本占40%的比例[12],在影像上随机选取样本点并保证均匀分布,样本点数量如表2所示。

表2 训练样本及验证样本数量Tab.2 Number of training samples and verification samples

3 研究方法

3.1 尺度分割及特征选择

图像分割是指根据地表覆盖类型在遥感影像上显现出的光谱、纹理等其他类型特征的不同,将影像像素合并成互不相交的同质单元的过程。在综合分析已有文献的基础上,本文基于eCognition软件中提供的多尺度分割算法,通过尺度优化工具ESP进行分割尺度的选择[13-14],最终将形状因子设置为0.1,紧致度因子设置为0.5,尺度因子试值范围为1~100,经迭代计算并结合目视判别,最终选定分割尺度为30。

有效的分类特征对于提高陆表土地覆被信息提取精度具有重要意义。本文在进行特征选择时,除了采用Sentinel-2A影像原始波段特征外,同时选取了归一化差值植被指数(Normalized Difference Vegetation Index,NDVI)、归一化差值水体指数(Normalized Difference Water Index,NDWI)、增强型植被指数(Enhanced Vegetation Index,EVI)、改进型叶绿素吸收反射指数(Modified Chlorophyll Absorption Ratio Index,MCARI)、地形(高程、坡度、坡向)、灰度共生矩阵(GLCM)、形状特征、几何特征等共计95个特征。

为了降低数据冗余,本文采用随机森林算法中MDA(Mean Decrease Accuracy)方法评价95个特征的重要性,该方法是基于OOB误差进行模型评估从而确定模型最优特征数量,值越大表示特征越重要。图2展示了前30个重要性较高的分类特征的重要性,从图中可以看出,光谱特征、指数特征以及纹理特征的重要性较高,形状特征及几何特征对分类影响较小。

通过以上对特征重要性的排序,选取不同数量的特征进行随机森林分类,研究特征数量对分类精度的影响。依次选择5、10、15、20、25和30个分类特征进行分类,结果表明特征个数增加到10个以后总体精度(89.7%)和Kappa系数(0.87)达到平衡态,再增加特征个数对分类精度的影响不大。最后使用全部95个特征进行分类,分类精度依然较高,说明过多的特征未导致随机森林算法出现过拟合问题。由于特征数量过多会导致模型复杂度过高且运行时间过长,因此本文选择重要性排列前10的特征(5个光谱特征、1个红边波段和4个植被指数)作为基于特征优选的随机森林模型的输入特征。

3.2 分类方法及参数训练

在综合分析已有文献基础上,本文选择了最大似然法、贝叶斯、支持向量机、CART决策树及随机森林5种分类方法,并使用验证样本数据对分类结果进行了评价。

贝叶斯分类算法是统计学分类方法,是一类利用概率统计知识进行分类的算法,该算法能运用到大型数据库中,且方法简单、分类准确率高、速度快[15]。

SVM分类器是基于统计学习理论的机器学习方法,已广泛应用于农作物种植信息提取和地表覆盖类型调查研究中[16]。由于本研究中样本的数量远远大于特征的数量,故本文选择径向基核函数(BRF)作为SVM分类器的核函数,并使用LIBSVM[17]对C和γ两个参数进行优化。在面向对象分类过程中,仅使用光谱特征时,惩罚参数和核参数分别设置为32.0和2.0,红边波段及指数信息加入后,惩罚参数和核参数分别设置为128.0和0.5。

图2 前30个重要性较高的特征变量Fig.2 Top 30 characteristic variables with higher importance

图3 随机森林特征数量及精度Fig.3 Number and accuracy of random forest features

CART决策树 (Classification And Regression Tree)基本原理是通过对由测试变量和目标变量构成的训练数据集的循环分析而形成二叉树形式的决策树结构[18]。在CART决策树分类过程中,depth是影响分类结果的一个重要参数,本文设置depth试值范围为1~20,通过迭代循环从而使分类器内部达到最优。如图4所示,仅使用光谱特征时,当depth值从5开始时,总体精度(Overall accuracy,OA)和Kappa系数趋于稳定且分类精度达到最优。红边波段及指数信息加入后,depth值从3开始时,OA和Kappa系数趋于稳定且分类精度达到最优。

3.3 精度评价方法

为了评估各分类器在不同特征组合模式下的分类准确性,本文采用OA、Kappa系数、生产者精度(Producer accuracy,PA)和用户精度(User accuracy,UA)4个指标来定量评价各分类器分类结果。其中,OA和Kappa系数用于比较整体分类精度(表4),PA和UA用于评价特定地类的分类精度。

图4 CART决策树参数优化Fig.4 CART decision tree parameter optimization

图5 各分类器分类结果图Fig.5 Classification results of each classifier

表4 面向对象各分类器分类精度Tab.4 Classification accuracy of each object-oriented classifier

4 结果与讨论

根据各分类器获得的分类结果,绘制了研究区内典型区域的各土地覆被类型空间分布图(图5)。

4.1 不同分类策略对分类精度的影响

表4对基于像元和面向对象两种分类策略下5种不同分类器所得精度进行了比较。总体上看,所有分类器在不同特征组合下均取得了较高的分类精度,总体精度均在86%以上,表明两种分类策略均适用于山区地表一级土地覆被分类。基于像元分类策略使用了ML、SVM和RF三种分类器,其中RF取得了最高的分类精度,OA为96.85%,Kappa系数为0.96;面向对象分类策略使用了Bayes、CART决策树、SVM和RF四种分类器,其中Bayes取得了最高的分类精度,OA为94.24%,Kappa系数为0.93。在相同分类方法下,面向对象SVM分类器较基于像元SVM分类器精度有所提高,仅使用光谱特征进行分类和使用光谱特征、红边波段、指数特征参与分类所得OA分别提升4.23%和1.03%,Kappa系数分别提升0.06和0.01;而面向对象RF较基于像元RF分类器精度降低,同种分类情况下,OA分别降低10.18%和4.22%,Kappa系数分别降低0.13和0.09。

为了更加清晰地对比基于像元与面向对象分类结果,本文选取典型区域(图5(a)),将两种分类策略下各分类器分类结果与目视解译结果(图5(b))进行比较。结果表明,基于像元ML(图5(c)、(f))和SVM(图5(d)、(g))有少量山地阴影被分类为水域,且耕地与草地混淆较为明显,耕地与建设用地内部小斑块较多,椒盐现象严重。基于像元RF(图5(e)、(h))虽然也存在一定程度的椒盐现象,但各地类内部相对完整,破碎度较小;面向对象各分类器(图5(i)—(p))分类结果较为相似,山地阴影被分类为水域的面积较多,林地与草地基于像元分类效果好,部分耕地与草地发生混淆,建设用地分类效果基于像元更为细致。

4.2 分类特征对各分类精度的影响

基于随机森林参数优化结果,分两种情况选取特征参与分类:一种是仅使用光谱特征参与分类,另一种是联合使用光谱、红边、指数特征参与分类。由表4可知,同种分类策略下的同种分类器在不同特征参与下分类精度不同。在基于像元分类中,联合使用光谱、红边、指数特征和仅使用光谱特征参与分类相比,ML和SVM的分类精度有所提升,OA分别提升了2.93%和4.72%,Kappa系数分别提升了0.03和0.06;RF的总体精度略微下降0.21%,Kappa系数不变,表明红边波段和指数特征的加入有助于提升ML和SVM的分类精度,而对提高RF分类精度作用较小。

面向对象分类中,联合使用光谱、红边、指数特征和仅使用光谱特征参与分类相比,Bayes、SVM和RF分类器分类精度提高,OA分别提高3.03%、1.52%和3.03%,Kappa系数分别提高0.04、0.01和0.04;CART决策树精度有所下降,OA降低0.61%,Kappa系数不变。由此可见,在面向对象分类中,红边波段和指数特征对提高Bayes、SVM和RF分类精度作用较大。

4.3 不同分类器对不同地类提取精度的影响

由表5可知,对于类别的生产者精度,基于像元中使用光谱、红边和指数特征参与分类的ML和RF对林地分类效果最好,PA为99.03%;仅使用光谱特征参与分类时的RF和光谱、红边、指数特征参与分类的ML、RF对草地分类效果最好,PA为99.03%;仅使用光谱特征参与分类的RF对水域分类效果最好,PA为93.75%;仅使用光谱特征参与分类的ML对建设用地分类效果最好,PA为98.8%;仅使用光谱特征参与分类的RF对耕地的分类效果最好,PA为95.15%。

由表6可知,对于类别的用户精度,基于像元中仅使用光谱特征参与分类的RF对林地分类效果最好,UA为100%;使用光谱、红边、指数特征参与分类的RF对草地分类效果最好,UA为97.14%;使用光谱、红边、指数特征参与分类的ML对建设用地分类效果最好,UA为97.94%;仅使用光谱特征参与分类的RF对耕地分类效果最好,UA为95.15%;面向对象分类中使用光谱、红边、指数特征参与分类的RF对水域的分类效果最好,UA为99.2%。

表5 土地利用类型生产者精度(PA)Tab.5 Land use type producer accuracy (PA)

表6 土地利用类型用户精度(UA)Tab.6 Land use type user accuracy (UA)

5 结论

1)5种分类器总体精度均能达到86%以上,其中,基于像元的RF分类精度最高,仅使用光谱特征及联合使用光谱、红边、指数特征两种分类情况下的总体精度分别为96.85%和96.64%。

2)分类特征的优化选择对监督分类方法的分类精度影响较大。在光谱特征参与分类的基础上加入红边、指数特征后,基于像元的RF和面向对象的CART决策树总体精度有所下降,但降幅均在0.5%左右,但其他分类器的总体精度均有所提升,表明红边和指数特征的加入能够在整体上提高分类精度。

本文仅探索了面向对象与面向像元两种分类策略和5种分类方法在土地覆被一级类别的精度比较,并没有考虑面向地块的分类策略和二级地类分类精度,同时也没有采用当前流行的深度学习分类算法,在今后的研究中,将会对上述问题进行深入探索。

猜你喜欢
面向对象波段分类器
GEE平台下利用物候特征进行面向对象的水稻种植分布提取
最佳波段组合的典型地物信息提取
学贯中西(6):阐述ML分类器的工作流程
基于朴素Bayes组合的简易集成分类器①
基于特征选择的SVM选择性集成学习方法
面向对象方法在水蓄冷PLC编程中应用分析
面向对象的组合软件工程研究
基于PLL的Ku波段频率源设计与测试
小型化Ka波段65W脉冲功放模块
基于差异性测度的遥感自适应分类器选择