韩新星 艾金泉 叶子君 牛春妹 唐鑫涛
摘要:
针对大型通江湖泊湿地植被精细分类中精度不高、算法稳健性不强的问题,以鄱阳湖湿地植被为研究对象,基于遥感云平台GEE和Sentinel-2影像,着重研究不同训练样本数量、不同时相特征数据及不同机器学习算法对鄱阳湖湿地植被类型分类的影响。结果表明:① 随着训练样本数量的增加,植被类型的分类精度呈现先上升后平稳的规律,当不同植被类型训练样本达到550个时,精度达到峰值平稳状态;② 不同时相特征的数据集分类精度具有显著差异,具体为:月度时序>枯水期>四季多时相>单时相,其中,月度时序数据集的总体精度最高,总体精度及Kappa系数分别为82%和0.79;③ 不同遥感算法获得的分类结果精度不同,RF分类精度最高,SVM和CART次之;④ 当不同植被类型的训练样本达到550个时,使用Sentinel-2月时序影像和RF算法能取得最优的分类结果。研究成果可为鄱阳湖湿地精细分类提供方法借鉴,为鄱阳湖湿地保护提供技术支持。
关 键 词:
湿地植被; 植被群落分类; 机器学习; Google Earth Engine; Sentinel-2; 鄱阳湖
中图法分类号: TP751
文献标志码: A
DOI:10.16232/j.cnki.1001-4179.2023.07.008
0 引 言
湖泊湿地是全球内陆湿地的重要组成部分,在调蓄洪水、净化环境、保护生物多样性等方面发挥着重要作用[1]。鄱阳湖湿地作为中国最大的淡水湖泊湿地,受气候变化、围垦和水利设施建设等的影响,面临着严重的退化问题[2]。湿地植被作为湿地生态系统极为重要的组成部分,是湿地提供水禽栖息地及鱼类繁殖场所的基础,是湿地碳汇的来源,也是表征湿地环境质量的重要指示器[3-5]。因此,对湿地植被分布进行精准监测和制图,可为湿地管理与保护提供科学依据。
早期植被信息提取,主要依靠野外实地调查,费时费力且不適合大面积作业。随着遥感技术的发展,遥感影像分类成为获取植被信息的重要方式[6]。在以往的研究中,湿地植被多采用单时相数据进行分类。例如,Martínez等[7]利用单时相Landsat5-TM影像进行湿地植被分类,Kappa系数为0.5;Kumar等[8]使用单时相Quickbird对盐沼植被群落分类时,总体精度仅有42%。这是因为植被之间的光谱极易混淆,常常产生“同谱异物,异物同谱”现象,致使单时相影像无法精准分类。而多时相遥感数据的影像序列可以反映植被的季相特征及物候规律,有效增加植被识别精度,被广泛应用于植被信息提取。Rapinel等[9]利用年度时序Sentinel-2数据进行草原植被群落分类,总体精度达到78%;朱琦等[10]依托GEE平台多时相Landsat 8数据,对热带天然林进行分类,分类精度达到91%。然而,目前针对不同影像选取策略对于大型通江湖泊湿地植被制图精度影响的研究还不多,尚需进一步深入研究。
除了时相特征影响分类精度外,分类方法的选择也是重要影响因素之一[11]。目前较为常用的湿地植被分类研究方法有随机森林、决策树、支持向量机、面向对象分析方法等[12]。例如:张晨宇等[13]将面向对象与随机森林算法相结合,利用多时相Landsat 8卫星影像,对黄河口保护区典型湿地植被进行分类,总体精度达到了92.3%;Heumann等[14]使用Worldview-2传感器,将决策树分类与机器学习支持向量机分类相结合,对红树林与其他沿海湿地植被进行分类,总体精度达到94%。对于大型通江湖泊湿地而言,现有的研究仍缺乏对不同分类器的分类性能和效果的比较,需要进一步研究。
已有研究表明,利用遥感影像进行信息提取时,不仅依赖分类器的选择,而且还依赖于训练分类器时样本数量的选择[15]。如卢小平等[16]以GF-2影像为数据源,研究K近邻算法、SVM算法在不同训练样本数量下,对湿地信息提取精度的影响,结果表明不同训练样本数量对于分类精度的影响不同;吴振彪等[17]基于Landsat 8-OLI影像应用最大似然法对东莞市土地覆盖类别进行监督分类,并探究不同数量的训练样本对地物分类精度的影响。然而,当前的研究仍然集中在样本数量变化对于土地覆盖类别、湿地大类的划分上,针对湖泊湿地植被分类精度影响研究较少。
针对以上问题,本文基于谷歌地球引擎(Google Earth Engine,GEE)与Sentinel-2影像,主要实现以下几个目标:① 评估不同训练样本数量对鄱阳湖湿地植被群落分类精度的影响;② 评估不同影像选取策略对于湿地植被制图精度的影响;③ 评估随机森林、支持向量机、分类回归树3种不同的机器学习算法对鄱阳湖湿地植被制图精度的影响。
1 研究区概况与数据
1.1 研究区概况
鄱阳湖位于江西省北部,长江中游南岸,其地理坐标为东经115°49′~116°46′、北纬28°24′~29°46′(见图1)。该地区的气候是典型的温暖、潮湿、亚热带气候,容易出现季风。年平均气温在16.5~17.8 ℃,年平均降水量在1 400~1 700 mm[18-19]。
鄱阳湖湿地植被类型丰富,群落结构完整。根据2021年11月实地踏勘调查,鄱阳湖主要的优势植被群落类型包括:① 苔草群落;② 虉草-廖子草;③ 芦苇-南狄;④ 其他植被群落(主要包括菰、人工植被、沙地植物、杂草类及其他禾草植物)。
1.2 数据与预处理
本文采用的数据是2021年1月至2022年3月的69景Sentinel-2影像数据。为减轻云污染对分类精度的影响,在合成无云影像时,首先通过GEE平台提供的CLOUDY_PIXEL_PERCENTAGE算法将含云量>20%的影像从数据集中剔除。其次,为避免遥感影像中少数云像素的影响,使用Sentinel-2云掩膜算法对指定时间和空间范围内的影像进行计算,对含云像素进行掩膜处理。最后,为获得2021年1月至2022年3月每月一期的遥感数据,对同一月份的多景数据,以中值合成方法重构当月最小云量合成影像,并利用cat函数叠加不同月份合成影像,以得到不同时相特征数据集。
2 研究方法
2.1 湿地植被群落分类系统
参照湿地公约及相关文献资料[20],结合实地踏勘研究区湿地植被分布的具体情况,将研究区湿地划分为水体、泥沙滩涂、农田、林地、建设用地、虉草-廖子草、苔草、芦苇-南狄及其他植被9类,如表1所列。
2.2 训练样本数量选取
本文样本点数据主要通过实地踏勘并结合2021年GF-2 PMS影像采用目视解译方式进行样本点选取。在GEE中按照7∶3的比例将样本点分为训练样本及验证样本,分别用于分类器的构建及精度验证。训练样本以50为步长分别设置50,100,150,200……800不同训练样本数,共计16种方案。由于研究区内不同地物类别占研究区范围大小不同,为了使面积占比较小的地物类别也能获得足够多的样本量,在选取不同方案的样本量时,采用分层抽样的方法获取样本点。
2.3 不同影像选取策略
根据韩杏杏[20]的研究结果与实地调查可知,鄱阳湖不同湿地植被群落之间存在显著的物候差异。芦苇-南狄群落一年有两个生长季,分别是当年的3月和9月汛期以后一段时间。虉草-廖子草的生长期为每年10月至次年1月,丰水期时死亡。苔草也具有两个生长期,分别为3月和10月。其他植被中,菰、菱等在汛期快速生长。鄱阳湖枯水期为当年10月至次年3月,正是各植被群落生长旺盛期,可以保留更多的湿地植被信息。四季多时相选择1,4,7,10月的影像,四季影像遵循不同植被在枯水、丰水期生长的特点选取。其中单时相影像通过目视解译选择植被生长旺盛期2021年3月作为分类影像。因此,本文的影像选取策略确定为月度时序数据、枯水期数据、四季多时相数据集及单时相影像4种策略。
2.4 分类器性能比较
GEE环境集成了多种分类器,本文比较了其中3种算法:随机森林(Random Forest,RF)、支持向量機(Support Vector Machine,SVM)、分类与回归树(Classification and Regression Tree,CART)的性能。比较从它们在土地覆盖、图像分类、作物识别等方面的适用法和可靠性[21-23]方面展开。
随机森林(RF)算法由Breiman[24]在2001年提出,是一种常用的机器学习算法,它能够应对高维数据和复杂的分类问题,同时具有抗噪声和泛化性能。此外,RF还能够输出特征重要性,有助于特征对模型的贡献度。进行遥感影像分类时,RF需要调整和优化的两个参数是决策树的个数以及最小叶节点数,根据之前的研究建议和数据测试[25],将ntree值设置为100,mtry为默认值(特征总数的平方根)。
支持向量机(SVM)[26]是一种基于核函数的非参数监督分类器,SVM在非线性、小样本和高维数方面具有显著优势。由于它训练样本小,支持高维特征空间,因此得到广泛应用。SVM需要调整的参数有核函数的类型、核函数的gamma值及cost参数,本文选用的核函数类型为径向基函数(radial basis function,RBF),该核函数已在许多分类研究中得到应用,并取得了较好的分类效果[26]。gamma值及cost参数的设置需要调参,本文通过网格搜索法分别迭代这些参数,根据不同参数组合得到的总体精度,将gamma、cost参数分别设置为10及10 000作为最佳参数组合。
分类回归树(CART)是由Breiman等[27]在1954年提出,由于其结构简单、计算速度快、易于理解等优点,被广泛应用于土地覆盖提取和遥感图像分类研究中。当使用CART对遥感影像进行分类时,需要优化的参数是最大和最小叶节点数,通过不同参数间组合得到的总体精度,选择900为最大叶节点数,最小叶节点数选择默认值1为参数值。
本文主要采用总体精度、Kappa系数、用户精度、生产者精度4个评价指标评价不同方案的精度。
3 结果与分析
3.1 不同训练样本数量对湿地植被制图精度的影响
如图2所示,随着训练样本数量的增加,植被类型的分类精度呈现先上升后平稳的规律,当不同植被类型训练样本数达到550个时,精度达到峰值平稳状态,总体精度及Kappa系数分别为78.2%和0.75。 当样本数仅有50个时,分类精度最低,总体精度及Kappa系数分别为67.6%和0.63。总的来说,分类精度随着样本数的增加而增加,但当样本数达到一定值时,分类精度不再随着样本数的增加而增加,而是呈现出振荡的趋势,这一现象可能是训练样本选择过程中,随着样本数量的增加,混合像元样本数增多,导致样本纯度不够,干扰因素增加导致。
3.2 不同影像选取策略对植被群落制图精度的影响
不同时相特征数据集的分类精度具有显著差异,其中月度时序数据集精度最高,总体精度及Kappa系数分别为82%和0.79。其次是枯水期、四季多时相数据集,总体精度与Kappa系数分别为78.2%、0.75,75.4%、0.72。分类精度最低的是单时相影像,总体精度及Kappa系数分别为64.7%和0.63。
从表2中可以看出,单时相影像对于所有地物类别的区分度都不高,尤其是不同植被间的提取精度,其中虉草-廖子草群落的生产者精度仅为32.5%,用户精度为37.1%。这是因为单时相影像难以解决不同湿地植被群落出现的“同物异谱,异物同谱”的问题。不同植被具有不同的生长周期,在不同生长周期内其光谱信息存在差异。因此仅利用单时相影像难以区分不同植被类别。月度时序数据集对于植被间的区分精度最高,这是因为时序数据集相对于四季影像和枯水期影像所包含的植被信息最丰富,不但可以在时间维上反映不同植被间的季相特征生长物候特征,还能够较好地从光谱上反映不同水深变化对植被生长周期的影响,从而增加了植被识别精度。
3.3 不同分类器对植被群落制图精度的影响
基于3种分类算法的植被分类结果如图3所示。从植被分布格局上看,其分类结果表现总体一致,芦苇-南狄群落主要分布在鄱阳湖湖区的南部洲滩,苔草在鄱阳湖的分布很广,该群落在南矶山湿地国家级保护区内呈现集中连片大面积分布,虉草-廖子草主要分布在吴城、南矶湿地自然保护区两边的滩地、中部三角洲前缘等各处接近通江水体上有广泛分布。3种不同机器学习算法得到的不同土地覆盖类别的比例及分布特征基本一致。其中水体占研究区比例最大,植被中以苔草和虉草-廖子草占比较大。
表3显示了使用不同遥感分类算法获得的分类结果的混淆矩阵。其中RF的分类精度最高,总体精度为82%,其次是SVM和CART。3种分类器在建筑、农田、水体、林地的分类精度都很高,但对于虉草-廖子草、苔草、芦苇-南狄存在精度差异,是因为非湿地类别间的光谱差异较大,易于区分,而湿地植被间的光谱值相似,产生“异物同谱”现象,致使分类精度较低。RF区分虉草-廖子草、苔草要优于另外两种分类器,其制图精度与用户精度明显高于另外两种分类器,而RF与CART对于虉草-廖子草的区分要优于SVM。
4 结 论
本研究依托GEE云平台及Sentinel-2影像,探讨不同样本数量、不同时相特征数据及不同机器学习的分类算法对鄱阳湖湿地植被类型分类的影响。主要得出以下结论:
(1) 随着训练样本数量的增加,植被类型的分类精度呈现先上升后平稳的规律,当不同植被类型训练样本达到550个时,精度达到峰值平稳状态,总体精度及Kappa系数分别为78.2%和0.75。
(2) 不同时相特征的数据集分类精度具有显著差异,具体为:月度时序>枯水期>四季>单时相,其中月时序数据集精度最高,总体精度及Kappa系数分别为82%和0.79,单时相影像分类精度最低,总体精度和Kappa系数仅为64.7%和0.63。
(3) 不同遥感分类算法获得的分类结果精度不同,RF分类精度最高,SVM和CART次之。
(4) 当不同植被训练样本数量达到550个时,使用Sentinel-2月时序影像和RF算法能取得最优的分类结果。
本研究通过遥感云平台在线调用遥感图像并进行处理,除样本采集外,几乎全自动的分类过程使该方法具有较强的泛化能力,可为湿地植被群落快速提取提供技术支持,有助于完善湿地栖息地的可持续管理。但本研究也存在不足:① 文中仅在Sentinel-2遥感影像上进行了研究和分析,对于其他类型遥感影像,例如Landsat系列、MODIS等,本文并没有进行对比研究,是否利用其他影像数据源也有相同的规律及结论,还需要进一步研究与分析。② 本文进行分类时都是基于像素机器学习分类模型,会出现“椒盐噪声”影响精度,应进一步探究面向对象方法在湿地植被群落提取上的潜力。
参考文献:
[1] 谭志强,李云良,张奇,等.湖泊湿地水文过程研究进展[J].湖泊科学,2022,34(1):18-37.
[2] 邴建平,邓鹏鑫,张冬冬,等.三峡水库运行对鄱阳湖江湖水文情势的影响[J].人民长江,2020,51(3):87-93.
[3] ZHOU R,YANG C,LI E,et al.Object-based wetland vegetation classification using multi-feature selection of unoccupied aerial vehicle RGB Imagery[J].Remote Sensing,2021,13(23):4910.
[4] 朱江涛,艾金泉,陈晓勇,等.基于GEE的鄱阳湖湿地植被长期变化特征及其对水文情势的响应[J].测绘通报,2022(8):7-13.
[5] 李冰,万荣荣,杨桂山,等.近百年鄱阳湖湿地格局演变研究[J].湖泊科学,2022,34(3):1018-1029.
[6] 杨超,邬国锋,李清泉,等.植被遥感分类方法研究进展[J].地理與地理信息科学,2018,34(4):24-32.
[7] MARTíNEZ-LóPEZ J,CARREO M F,PALAZóN-FERRANDO J A,et al.Remote sensing of plant communities as a tool for assessing the condition of semiarid Mediterranean saline wetlands in agricultural catchments[J].International Journal of Applied Earth Observation and Geoinformation,2014,26:193-204.
[8] KUMAR L,SINHA P.Mapping salt-marsh land-cover vegetation using high-spatial and hyperspectral satellite data to assist wetland inventory[J].GIScience & Remote Sensing,2014,51(5):483-497.
[9] RAPINEL S,MONY C,LECOQ L,et al.Evaluation of Sentinel-2 time-series for mapping floodplain grassland plant communities[J].Remote Sensing of Environment,2019,223:115-129.
[10] 朱琦,郭华东,张露,等.基于多时相Landsat8影像的海南岛热带天然林类型遥感分类[J].自然资源遥感,2022,34(2):215-223.
[11] 张强.湿地植被遥感分类研究进展[J].世界林业研究,2019,32(3):49-54.
[12] 李方方,刘正军,徐强强,等.面向对象随机森林方法在湿地植被分类的应用[J].遥感信息,2018,33(1):111-116.
[13] 张晨宇,陈沈良,李鹏,等.现行黄河口保护区典型湿地植被时空动态遥感监测[J].海洋学报,2022,44(1):125-136.
[14] HEUMANN B W.An object-based classification of mangroves using a hybrid decision tree—Support vector machine approach[J].Remote Sensing,2011,3(11):2440-2460.
[15] 潘洪涛,王轩,王晓飞.训练样本对农作物遥感分类的精度影响研究[J].红外与激光工程,2017,46(增1):149-156.
[16] 卢小平,杜晓贝,王懿,等.训练样本对湿地分类精度的影响[J].河南理工大学学报(自然科学版),2018,37(5):55-59.
[17] 吴振彪,沈德才,黄练忠,等.训练样本数量对最大似然监督分类精度影响的研究[J].林业勘查设计,2018(2):115-117.
[18] DAI X,WAN R,YANG G,et al.Impact of seasonal water-level fluctuations on autumn vegetation in Poyang Lake wetland,China[J].Frontiers of Earth Science,2019,13(2):398-409.
[19] 胡江军,孙宇,顾朝军.近60年鄱阳湖五河入湖水沙变化及影响因素分析[J].人民长江,2022,53(增2):47-51.
[20] 韩杏杏.基于长时序光学遥感数据的鄱阳湖湿地景观格局时空动态研究[D].武汉:武汉大学,2017.
[21] BROVELLI M A,SUN Y R,YORDANOV V,et al.Monitoring forest change in the amazon using multi-temporal remote sensing data and machine learning classification on Google Earth Engine[J].ISPRS International Journal of Geo-Information,2020,9(10):580.
[22] PRATICò S,SOLANO F,DI FAZIO S,et al.Machine learning classification of mediterranean forest habitats in google earth engine based on seasonal sentinel-2 time-series and input image composition optimisation[J].Remote Sensing,2021,13(4):586.
[23] YANG Y,YANG D,WANG X F,et al.Testing accuracy of land cover classification algorithms in the Qilian mountains based on gee cloud platform[J].Remote Sensing,2021,13(24):5064.
[24] BREIMAN L.Random forests[J].Machine Learning,2001,45(1):5-32.
[25] PHAN T N,KUCH V,LEHNERT L W.Land cover classification using Google Earth Engine and Random Forest Classifier:The role of image composition[J].Remote Sensing,2020,12(15):2411.
[26] SHAO Y,LUNETTA R S.Comparison of support vector machine,neural network,and CART algorithms for the land-cover classification using limited training data points[J].ISPRS Journal of Photogrammetry and Remote Sensing,2012,70:78-87.
[27] BREIMAN L,FRIEDMAN J H,OLSHEN R A,et al.Classification and regression trees[M].London:Routledge,2017.
(編辑:黄文晋)
Classification of wetland vegetation community in Poyang Lake based on remote sensing cloud computing
HAN Xinxing1,2,AI Jinquan1,2,YE Zijun2,NIU Chunmei2,TANG Xintao2
(1.Key Laboratory of Mine Environmental Monitoring and Improving around Poyang Lake of Ministry of Natural Resources,East China University of Technology,Nanchang 330013,China; 2.School of Surveying and Mapping Engineering,East China University of Technology,Nanchang 330013,China)
Abstract:
Aiming at the problems of low precision and algorithm robustness in the fine classification of wetland vegetation in large river-connected lakes,based on remote sensing cloud platform GEE and Sentinel-2 images,this paper studied the optimization scheme of vegetation classification in Poyang Lake wetland by different training sample quantity,simultaneous phase characteristics data and machine learning classification algorithms.The results showed that:①With the increase of the training samples number,the classification accuracy of vegetation types increased first and then stabilized.When the number of training samples of different vegetation types reached 550,the classification accuracy reached the peak stable state.② The classification accuracy of data sets with different phase characteristics was significantly different,specifically,monthly time series data set > dry season data set > four seasons data set > single time phase.The overall accuracy of monthly time series data set was the highest,and the overall accuracy and kappa coefficient were 82% and 0.79,respectively.③ Different remote sensing classification algorithms could obtain different accuracy of classification results.RF classification accuracy was the highest,followed by SVM and CART.④ When the number of training samples of different vegetation types reached 550,the Sentinel-2 time sequence image and RF algorithm could be used to obtain the best classification results.This study can be a reference for the fine classification of Poyang Lake wetland and provide technical support for its protection.
Key words:
wetland vegetation;vegetation community classification;machine learning;Google Earth Engine;Sentinel - 2;Poyang lake