基于WorldView-2卫星影像的红树物种种群识别方法研究

2023-12-14 10:25高常军甄佳宁王俊杰邬国锋
湿地科学 2023年5期
关键词:红树分类器梯度

高常军,甄佳宁,沈 震,王俊杰,徐 逸,邬国锋

(1.广东省林业科学研究院,广东省森林培育与保护利用重点实验室,广东 广州 510520;2.中国科学院东北地理与农业生态研究所,中国科学院湿地生态与环境重点实验室,吉林 长春 130102;3.深圳大学建筑与城市规划学院,广东 深圳 518060;4.自然资源部大湾区地理环境监测重点实验室,广东 深圳 518060;5.深圳大学生命与海洋科学学院,广东 深圳 518060;6.Faculty of Geo-Information Science and Earth Observation,University of Twente,Enschede 7514 AE,Netherlands)

红树林是生长在热带、亚热带海岸潮间带的木本植物群落[1]。受台风、海啸和人类活动破坏的影响,全球有67%的红树林曾经遭受不可逆的破坏,红树林的受威胁程度高于热带雨林和其他内陆森林[2]。近年来,虽然中国的红树林在不断恢复[3-4],但是目前的红树林面积也仅约为历史上红树林最大面积的1/10[5]。因此,中国的红树林恢复空间巨大。

对红树林中红树物种种群信息的识别和提取是红树林遥感研究的基础工作,其信息提取精度能直接影响红树林理化参数和生态系统过程等指标定量反演的准确性[6-7]。与陆地植物相比,由于红树生长在滩涂上,下垫面吸热量大,其反射率明显偏低;而红树林中各种红树物种种群之间的光谱差异很细微。因此,红树物种种群识别比红树林范围识别对遥感数据空间分辨率和分类算法的要求更高。

研究表明,中低分辨率的遥感数据可以用于红树林范围识别,但是无法对小斑块红树林中的红树物种种群进行准确区分[8];而高分辨率的遥感数据能够提供丰富的光谱特征和空间特征(纹理特征)信息,其在识别红树林中各种红树物种种群分布的研究中具有较大优势[9]。利用中等分辨率的Landsat-8、SPOT-5、Sentinel-2 卫星影像数据和高分辨率的WorldView-2卫星影像数据,对墨西哥沿岸红树林中的红树物种进行遥感分类,结果显示,利用Landsat-8 影像数据得到分类结果的总体分类精度(64%)最低,利用SPOT-5 和Sentinel-2 影像数据得到的分类结果的总体分类精度(75%和78%)相近,利用WorldView-2 影像数据得到的分类结果的总体分类精度(93%)最高[10]。利用高分辨率的GF-2和RapidEye-4影像数据,对红树林中红树物种种群的总体分类精度最高可达92.01%[11]。

一般采用非监督分类方法或者监督分类方法[12],对红树林中的红树物种种群分布进行遥感分类。非监督分类方法与监督分类方法的区别在于是否需要训练数据或者先验知识。近年来,机器学习算法在遥感分类中得到广泛应用。传统机器学习算法(例如,支持向量机和决策树算法等)是利用训练数据集寻找与实际分类函数最接近的分类器。但是,在多数情况下,单一分类器的分类结果难以满足研究对分类精度和效率的要求。集成学习算法(例如,随机森林和梯度提升决策树算法等)组合多个基分类器的分类结果,能弥补单一分类器分类结果的不足[13],故其在红树林制图和物种种群识别中被广泛应用[14-17]。目前,一些新提出的集成学习算法,例如,极端梯度提升(extreme gradient boosting,XGBoost)算法和轻量级梯度提升机(light gradient boosting machine,LightGBM)算法,在红树林物种种群识别中的应用较少。

集成学习算法能否有效提高模型分类能力与基分类器和模型算法密切相关。本研究利用WorldView-2卫星影像数据,构建光谱和纹理特征数据集,采用决策树(decision tree,DT)算法、随机森 林(random forest,RF) 算 法、自 适 应 提 升(adaptive boosting,AdaBoost)算法、梯度提升决策树(gradient boosting decision,GBDT)算法、极端梯度提升算法和轻量级梯度提升机算法,对广东湛江红树林国家级自然保护区核心区的高桥红树林区中的红树物种种群分布区进行遥感分类,旨在探讨各种集成学习方法在红树物种种群遥感分类上的适用性,以期为区域尺度红树林中红树物种种群的遥感分类提供方法上的借鉴。

1 数据和方法

1.1 研究区

本研究以广东湛江红树林国家级自然保护区核心区的高桥红树林区(21°31′N 至21°35′N,109°45′E 至109°48′E)为研究区(图1)。研究区的总面积约为510 hm2[17]。该区域气候属于南亚热带海洋性季风气候,4 月至9月为多雨季节,8月的降水量最大,10 月至翌年3 月的降水量较小。研究区所在水域的年平均水温为25~27 ℃,受不规则日潮影响,平均潮差为2.53 m,最大潮差为6.25 m[18]。

图1 研究区和野外调查点分布图Fig.1 Map of study area and field survey points

在研究区红树林中的主要红树物种包括桐花树(Aegiceras corniculatum)、白骨壤(Avicennia marina)、木榄(Bruguiera gymnorrhiza)、红海榄(Rhizophora stylosa)、秋茄(Kandelia obvolata)和无瓣海桑(Sonneratia apetala)等,各种红树物种种群呈带状分布,木榄种群的面积达300 hm2。在研究区的海岸带上,分布着黄槿(Hibiscus tiliaceus)和海檬果(Cerbera manghas)等半红树物种。

1.2 数 据

本研究利用了2020 年10 月7 日(晴天)的WorldView-2卫星遥感影像。多光谱波段影像的空间分辨率为2 m,全色波段影像的分辨率为0.5 m。

首先,利用ENVI 5.3 软件的Gram-Schmidt Pan Sharpening工具,融合多光谱波段和全色波段影像;然后,对融合影像进行辐射定标、大气校正和正射校正预处理。

1.3 方 法

1.3.1 野外调查方法

分别于2018 年5 月22 日至26 日、2018 年12月4 日至10 日、2019 年7 月22 日至24 日、2019 年12 月28 日、2020 年1 月2 日、2020 年8 月6 日至10日、2020 年12 月5 日至11 日,开展了野外实地调查工作。

利用手持GPS,在白骨壤种群、木榄种群、红海榄种群、桐花树种群、无瓣海桑种群和秋茄种群分布区各确定了68 个、192 个、65 个、229 个、29 个和16 个(共599 个)野外调查点。在每个野外调查点,记录红树物种的名称、地理位置和株高等信息。

根据野外调查结果,将研究区的地物划分为白骨壤种群区、木榄种群区、红海榄种群区、桐花树种群区、无瓣海桑种群区、秋茄种群区、水域和滩涂共8种类型。

训练样本数量和空间分布的选择是影响分类模型精度的重要因素[19-20]。结合野外调查数据和无人机影像,在WorldView-2影像中,共获取8 665个样本点。其中,白骨壤种群区、木榄种群区、红海榄种群区、桐花树种群区、无瓣海桑种群区、秋茄种群区、水域和滩涂的样本点数量分别为1 213个、1 261 个、1 240 个、1 221 个、1 198 个、150 个、1 175个和1 207个。在样本数据集中,67%的样本数据被用于训练模型,33%的样本数据被用来验证模型。

1.3.2 分类特征提取方法

提取WorldView-2 影像的光谱特征和纹理特征,用于对红树物种的精细遥感分类。影像的光谱特征包括8个原始波段和12种植被指数[归一化植被指数(NDVI)、绿色归一化植被指数(GNDVI)、归一化水指数(NDWI)、归一化植被指数与归一化水指数之差(CMRI)、叶绿素指数-绿光(CIg)、增强型植被指数2(EVI2)、改进的简单比植被指数(MSR)、修正型三角植被指数(MTVI2)、优化土壤调节植被指数(OSAVI)、修正型叶绿素吸收反射率指数(MCARI)、改进型叶绿素吸收植被指数(MCARI2)和归一化红边植被指数(NDVIRE)]的光谱特征。影像的纹理特征包括8种简单纹理特征、10 种高级纹理和10 种高阶纹理特征。在提取影像的纹理特征时,分别计算3×3至29×29窗口的纹理特征。依据计算结果,确定本研究的遥感分类最佳窗口为19×19。

利用python 语言,计算出12 种植被指数值。利用Orfeo ToolBox 开源遥感软件的Haralick Texture Extraction工具,提取影像的纹理特征。

为了得到红树物种种群识别的优势分类特征,在训练分类器之前,构建了3组特征组合,其分别为WorldView-2 影像的8 个原始光谱波段(特征组合1)、WorldView-2 影像的8 个原始光谱波段+12种植被指数(特征组合2)、WorldView-2影像的8个原始光谱波段+12 种植被指数+28 种纹理特征(特征组合3)。

1.3.3 集成分类器构建

集成分类器由多个基分类器组成。装袋(bagging)算法和提升(boosting)算法是集成算法中最具代表性的两种算法。装袋算法的代表性算法为随机森林算法。提升算法中的代表性算法为自适应提升、梯度提升决策树、极端梯度提升和轻量级梯度提升算法等。利用python语言的sklearn机器学习工具包、极端梯度提升和轻量级梯度提升机第三方库,实现集成算法。在模型训练过程中,采用十折网格搜索交叉验证方法,进行模型参数调优。

1.3.4 分类结果精度的评价指标

除了混淆矩阵、总体精度、生产者精度、用户精度这些常用的遥感分类精度评价指标外,本研究采用总体不一致性[21-22]来替代传统的Kappa 系数。总体不一致性是总体精度的补集,其可以分解为分配不一致性和数量不一致性。分配不一致性和数量不一致性的数值越小,表明分类模型的性能越好。当分配不一致性和数量不一致性的数值大于10%时,其所衡量的不一致是显著的[23-24]。

2 结果与讨论

2.1 分类结果

采用6 种分类器,利用3 种特征组合的数据,对红树林中的红树物种进行遥感分类,结果显示,研究区的总面积为537.12 hm2,水域的面积为15.22 hm2,滩涂的面积为17.32 hm2,红树林总面积为504.58 hm2。

图2 显示,在高桥红树林区中,桐花树种群和白骨壤种群的分布最广,桐花树种群主要分布在研究区北部西侧的中、低潮带处、北部东侧沿岸靠近岸堤处和中部河流沿岸的低、中潮带处;白骨壤是研究区的先锋物种,其种群的聚集程度比较高,主要成片分布在研究区的中部和东南部,在不同的潮间带都有分布;木榄种群和红海榄种群的分布区域距离较近,主要分布在研究区西北部的中间地带、中部和东南部靠近岸堤处;无瓣海桑种群主要分布在东北部和东南部岸堤处;秋茄种群分布区域最小,而且其常与桐花树种群和木榄种群混生。

2.2 分类精度

图3 显示,采用6 种算法和3 种特征组合的分类结果的总体分类精度变化在81.22%~93.15%之间。其中,基于特征组合3的轻量级梯度提升机算法分类结果的总体分类精度最高,为93.15%,其分配不一致性值为5.07%,数量不一致性值为1.78%;基于特征组合3的极端梯度提升算法的总体分类精度为92.79%,其分配不一致性值为5.97%,数量不一致性值为1.22%;基于特征组合3的随机森林算法的总体分类精度为90.87%,其分配不一致性值为7.48%,数量不一致性值为1.64%;基于特征组合3 的梯度提升决策树算法、自适应提升算法、CART决策树算法分类结果的总体分类精度分别为89.46%、88.04%和87.24%;整体分类精度最差的是基于特征组合2 的CART 决策树算法,其总体分类精度为81.22%,其分配不一致性值为16.22%(大于10%),数量不一致性值为2.55%。轻量级梯度提升机算法、极端梯度提升算法、随机森林算法、梯度提升决策树算法、自适应提升算法、CART决策树算法分类结果的总体分类精度依次减小。

图3 基于3种特征组合的6种分类器对红树物种种群区的分类精度Fig.3 The classification accuracy of 6 classifiers based on 3 feature combinations for mangrove species population areas

由表1可知,基于特征组合3的轻量级梯度提升机算法对白骨壤种群区、红海榄种群区、木榄种群区、秋茄种群区、桐花树种群区和无瓣海桑种群区分类结果的生产者精度分别为0.90、0.95、0.95、0.28、0.89 和0.97。基于特征组合2 的CART 决策树算法对白骨壤种群区、红海榄种群区、木榄种群区、秋茄种群区、桐花树种群区和无瓣海桑种群区分类结果的生产者精度分别为0.67、0.88、0.89、0.24、0.70 和0.70。由此可见,除了秋茄种群区以外,基于特征组合3的6种分类器都能准确识别研究区中的其他5种红树物种种群区,而且CART决策树算法的总体分类精度低于其他5种集成算法。

表1 基于3种特征组合的6种分类器对红树物种种群区分类结果的生产者精度Table 1 The producer accuracy classification results of 6 classifiers based on 3 feature combinations for mangrove species population areas

在18种分类结果中,轻量级梯度提升机算法、极端梯度提升算法和随机森林算法的分类结果精度较高,符合红树物种生长的空间分布规律;CART决策树、自适应提升算法和梯度提升决策树算法的分类结果存在比较严重的“椒盐”现象,各红树物种种群的分布零散,而且在各特征组合上的分类性能不稳定。例如,基于特征组合2的自适应提升算法的分类结果对木榄种群区和红海榄种群区、桐花树种群区和白骨壤种群区的区分性较差,这可能是因为自适应提升算法对异常样本和特征的选择比较敏感,而且自适应提升算法选择指数损失函数,对于过度聚焦且难以被准确分类的样本,当这些样本是噪声或者奇异值点时,会使分类器分类结果的分类精度下降。

在原始波段特征的基础上,加入12 种植被指数后,6 种分类器分类结果的总体精度变化不大,甚至部分分类结果的精度略下降,但是,当加入纹理特征后,各分类器分类结果的总体分类精度都明显提高。其中,CART 决策树算法、轻量级梯度提升机算法、极端梯度提升算法、随机森林算法、自适应提升算法和梯度提升决策树算法分类结果的总体分类精度分别提高了6.01%、5.03%、4.93%、4.75%、4.51%和3.15%。由此表明,纹理特征是提高红树物种种群识别精度的关键因素。

2.3 分类特征重要性

在基于WorldView-2 卫星各光谱波段影像的5种集成算法的分类结果中,光谱波段4至光谱波段7 的重要性值绝大多数都位居前4 位(表2),说明能区分红树物种种群区的WorldView-2 影像的光谱波段主要为黄波段、红波段、红边波段和近红外1波段。

表2 WorldView-2卫星影像各光谱波段特征对5种分类器分类结果的重要性值Table 2 The importance value of each spectral band feature of WorldView-2 satellite image to the classification results of 5 classifiers

对于基于特征组合2的分类结果,在重要性值位居前十位的优势特征中,5种集成算法选择的特征都包括光谱波段3至光谱波段6(表3),3种集成算法(随机森林算法、自适应提升算法和极端梯度提升算法)选择的特征都包括归一化植被指数与归一化水指数之差(CMRI)、修正型叶绿素吸收反射率指数(MCARI)、归一化植被指数(NDVI)和归一化红边植被指数(NDVIRE)。

表3 特征组合2中的各种特征对5种分类器分类结果的重要性值Table 3 The importance values of various features in feature combination 2 to the classification results of 5 classifiers

对于特征组合3的分类结果,在重要性值位居前十位的优势特征中,4种集成算法选择的特征都包括光谱波段4 和光谱波段6(图4)。随机森林算法选择的前20 个特征的重要性值、轻量级梯度提升机算法选择的前20个特征的重要性值的差异不大,其纹理特征数量分别为3个、9个;在自适应提升算法、梯度提升决策树算法和极端梯度提升算法选择的重要性值居于前十位的特征中,其纹理特征的数量分别为5个、3个和3个,植被指数的数量分别为2 个、2 个和3 个。这说明除了利用原始光谱波段影像以外,利用影像的纹理特征比利用植被指数更能提高红树物种种群识别的精度。

图4 特征组合3中的各种特征对5种分类器分类结果的重要性值排序图Fig.4 Ordination plot of the importance values of various features in feature combination 3 to the classification results of 5 classifiers

3 讨 论

数据源和分类算法是影响红树物种种群区分类精度的关键影响因素[7]。WorldView-2影像是红树物种种群识别的理想数据源[25]。与一般高空间分辨率的遥感数据源相比,WorldView-2影像数据增加了红边波段和近红外波段,能够获取更精细的红树物种种群差异信息,并且空间分辨率为0.5 m的影像数据能够衍生丰富的纹理特征,可以刻画出影像中重复出现的局部模式及其排列规则[26]。由于不同红树物种种群之间的光谱响应极其相似,需要将光谱波段影像信息和影像的纹理特征等信息相结合,以获得更准确的分类结果[27]。本研究中的6种分类器的分类结果都表明,纹理特征信息的加入明显提高了对红树物种种群的识别精度。与只利用原始光谱波段影像数据的分类结果的总体分类精度相比,基于特征组合3的分类结果的总体分类精度平均提高了4%;就单种红树物种而言,白骨壤、秋茄、桐花树和无瓣海桑种群区的识别精度明显提高,这与一些相关研究[15,17,22]的结果一致。

集成学习算法已经被应用于红树物种分类研究[6,17,28-29]中。本研究结果表明,与决策树分类器的分类结果相比,5种集成学习算法分类结果的分类精度更高。其中,轻量级梯度提升机算法分类结果的总体分类精度和单种红树物种种群分类精度都最优。此外,不仅常用的随机森林算法可以识别红树物种种群区,极端梯度提升算法在识别红树物种种群区方面也有巨大潜力,这与文献[22]的研究结果类似。在本研究中,秋茄种群区的面积所占比例(约为0.8%)最小,在6种分类算法的分类结果中,秋茄种群区的分类精度最低。这可能是因为秋茄常与桐花树和木榄混生且种群分布零散,导致没有获得足够有效的训练样本,影像的单个像元包含多种红树物种的混合信息,从而影响了分类器建立模型。

4 结 论

具有8个光谱波段的高空间分辨率WorldView-2影像是红树物种种群遥感分类的理想数据源。综合利用WorldView-2影像的光谱反射特征和纹理特征,可以有效地提高红树物种种群的识别精度。

在5种集成学习算法中,轻量级梯度提升机算法对红树林物种种群精细分类的优势最大,其分类结果的总体分类精度和单种红树物种种群的生产者精度都很高。基于WorldView-2 影像的8 个原始光谱波段+12种植被指数+28种纹理特征,轻量级梯度提升机算法分类结果的总体分类精度为93.15%,其分配不一致性值为5.07%,数量不一致性值为1.78%。

极端梯度提升算法和随机森林算法也在红树物种种群遥感分类中表现出良好的适用性和应用潜力。

猜你喜欢
红树分类器梯度
红树林诞生记
一个改进的WYL型三项共轭梯度法
红树植物无瓣海桑中重金属元素的分布与富集特征
一种自适应Dai-Liao共轭梯度法
一类扭积形式的梯度近Ricci孤立子
BP-GA光照分类器在车道线识别中的应用
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
红树植物老鼠簕内生真菌Aspergillus flavipes AIL8化学成分的研究
妈妈的眼睛