不同植被类型森林生物量反演模型研究
——以湖南省公益林为例

2024-01-20 02:46刘慧婷王光军樊红波胡孔飞
西北林学院学报 2024年1期
关键词:公益林决策树波段

刘慧婷,潘 俊,符 玥,王光军,樊红波,胡孔飞

(1.核工业二三○研究所,湖南 长沙 410007;2.湖南省伴生放射性矿产资源评价与综合利用工程技术研究中心,湖南 长沙 410007;3.中南林业科技大学 理学院,湖南 长沙 410004;4.中南林业科技大学 生命科学与技术学院,湖南 长沙 410004;5.湖南景辉农林生态科技有限公司,湖南 长沙 410004)

森林在全球碳循环和森林生态系统中发挥着不可替代的作用[1]。森林生物量是森林生态系统运行的能量基础和物质来源,是判断森林生态系统碳源、碳汇的重要标志[2-3]。为更好适应碳循环机制和提升森林生态质量,中国森林经营理念提出了维护和改善生态环境、保持生态平衡、保护生物多样性的生态公益林[4]。因此,在全球气候变化背景下针对生态公益林对其生物量的估测研究具有重要意义[5-6]。

传统的森林生物量估测方法已经难以满足森林结构参数的更新需求[7]。随着森林信息化的发展,遥感技术不仅具有监测范围广、动态更新周期短的特点,且能够准确反映植被分布、类型、长势等情况,现已成为森林生物量估测研究的主要手段[8-9]。许振宇等[10]、蒋馥根等[11]、周蔚等[12]探讨了不同遥感数据与森林生物量之间的关系,分别建立桂东县森林生物量估测模型、旺业甸林场落叶松(Larixgmelinii)和樟子松(Pinussylvestris)地上生物量回归估测模型、太平湖森林地上生物量估测模型。Landsat卫星因长期免费提供历史档案和空间分辨率而具有独特的优势,使其成为广泛运用于估算森林生物量的光学遥感数据源[13-15]。Lu[16]利用Landsat TM影像对巴西亚马逊地上生物量进行估计,发现遥感估测模型中加入纹理信息能提高森林生物量估算精度;Kelsey等[17]以2011年的Landsat影像和森林资源调查数据,采用性能最佳的神经网络模型,生成了2011年圣胡安国家森林的生物量图;周蓉等[18]基于Landsat 8数据,采用随机森林特征重要性分析遥感特征的贡献率,对比研究BP神经网络算法的2种训练算法、SVM支持向量机的3种核函数构建地上生物量模型。这些研究表明,遥感影像在森林生物量估算中具有一定潜力和优势,但缺乏对区域代表性森林植被类型生物量的遥感监测和分布研究。

本研究以湖南省公益林为对象,利用2021年湖南省公益林固定样地监测数据、Landsat 8遥感数据,基于不同植被类型,采用支持向量机模型、决策树模型和随机森林模型估算森林生物量,比较各模型的精度,最佳模型反演生成研究区域生物量分布图,为湖南省公益林资源的动态监测、功能区划和保护管理提供科学依据。

1 材料与方法

1.1 研究区概况

根据湖南省2021年森林资源管理“一张图”,2021年湖南省省级以上公益林(以下简称“湖南省公益林”)总面积495.28×104hm2,约占全省总面积的23.36%,其中国家级公益林391.78×104hm2,省级公益林103.50×104hm2,涵盖全省14个市(州)118个县(市、区)。将湖南省公益林植被分为5种植被类型,即针叶林、阔叶林、针阔混交林、竹林和灌木(表1)。

表1 湖南省公益林的基本描述

1.2 样地数据来源与处理

1.2.1 样地数据 样地数据采用湖南省2021年公益林面上固定样地调查监测数据(图1)。利用单木生物量方程,分类逐株计算每个样地的单木生物量,通过汇总后得到样地总生物量。根据植被类型划分,将样地分为针叶林、阔叶林、针阔混交林、竹林和灌木5种类型,样地生物量统计结果见表2。

图1 研究区森林固定样地

表2 样地生物量统计结果

1.2.2 遥感影像数据及提取 利用Google Earth Engine(GEE)平台所提供的Landsat 8地标反射率产品(LC08),空间分辨率为30 m。为保证影像完整覆盖以及与样地调查活动同期,影像选取的时间范围为2021年5-10月,并选择云量<5%的266张图像。为保证影像数据的质量,利用CFMask算法对云、阴影、水和雪覆盖的像素进行掩蔽;应用Mosaic函数和Clip函数融合、拼接和裁剪能代表研究区植被生长最好状态的地表反射率影像。

经过预处理后的遥感影像数据,在ENVI 5.3中提取各类遥感因子用于生物量建模研究中。本研究提取的影像因子包括原始波段、波段组合、植被指数、信息增强以及纹理特征5类(表3)。

表3 特征变量汇总

1.3 模型特征变量选择

Boruta算法是一种以随机森林为基础进行特征提取的方法。该方法首先对原特征数据集进行重新排列,创建混合副本,并生成阴影特征。然后使用随机森林方法对阴影特征集进行重要性排序,重要性得分越高,特征越重要[19]。在R 4.2统计软件中执行Boruta算法,针叶林、阔叶林、针阔混交林、灌木林和竹林生物量为因变量,115个遥感特征因子为自变量,变量被确定为重要变量和非重要变量。

1.4 生物量估算模型

采用支持向量机(support vector machine,SVM)、决策树(classification and regression tree,CART)模型、随机森林(random forest,RF)3种模型进行研究区生物量遥感。

支持向量机是由Cortes等[20]提出的一种广泛应用于分类和回归问题的机器学习方法,可以高效地适用于高维空间的数据,有效处理具有许多特征的数据集,在非线性情况下可以使用核函数将数据点映射到高维空间中,通过选择合适的核函数和正则化参数,可以避免过拟合。支持向量机模型在R语言中,使用Kernlab包。

决策树是一种基本的分类与回归方法,其中CART算法[21]是应用最广泛的决策树学习方法,包括特征选择、树的构建及树的剪枝三部分。该算法使用基尼指数(gini index)作为分类节点的衡量指标,基尼指数系数越小,该节点的变量分类纯度就越高。CART模型通过构建二叉树实现预测目的,所构建的模型具有易于理解和解释、可处理高维数据、具有较好的预测能力和鲁棒性等优点。CART算法采用R语言Rpart包。

随机森林(random forest,RF)是由Breiman[22]提出的一种分类和回归算法,它是一种以决策树为基础的bagging并行集成学习算法,主要依靠样本的随机选取和特征的随机选取消除过拟合问题。随机森林模型具有确定变量重要性、减少过度拟合的稳健性、需要调整的参数更少、对参数调整的敏感度更低、训练速度快等优点。模型用R语言random Forest包执行,需要调整的参数为建立的决策树数量(ntree)和决策树分裂时抽取的变量个数(mtry)。

1.5 模型精度评价

为充分利用样本以提高模型的可靠性,选择将数据集进行划分,70%的数据作为训练数据,30%的数据作为验证数据,进行试验。回归模型常用的评价指标有决定系数(coefficient of determination,R2)[23]和均方根误差(root mean square error,RMSE)[23]。其中,决定系数R2是对回归直线拟合程度的检验,值越接近1,表明关联性越高,自变量对因变量的解释能力也就更强。RMSE指的是估计值与实际数据的平方和与样本量n之比的平方和,数值愈低,则说明该方法的预测效果越好。

2 结果与分析

2.1 基于Boruta变量选择

筛选结果见表4,在所选的变量中,近NIR波段(光谱波段5)和SWIR波段(光谱波段6、7)及其纹理特征变量在森林生物量估测中具有重要作用。除了纹理特征变量之外,对于阔叶林和针叶林,植被指数变量占据重要地位;对于总林地生物量,原始波段、植被指数和信息增加也具有十分重要的作用。

表4 建模因子筛选结果

2.2 支持向量机生物量估测模型

5种植被类型以及不区分植被类型(总林地)生物量支持向量机模型验证结果见图2。利用支持向量机模型建模时,针叶林、竹林支持向量机模型拟合精度较好,其次是总林地,针阔混交林、灌木拟合精度较差。

2.3 决策树生物量估测模型

5种植被类型以及不区分植被类型(总林地)生物量决策树模型验证结果见图3。用决策树CART模型建模时,针阔混交林、总林地决策树模型拟合精度较好,其次是阔叶林、针叶林、灌木,竹林拟合精度最差。

图3 基于决策树的不同植被类型生物量模型精度

2.4 随机森林生物量估测模型

5种植被类型以及不区分植被类型(总林地)生物量随机森林模型验证结果见图4。利用随机森林模型建模时,针叶林、阔叶林、针阔混交林、竹林和灌木植被类型的随机森林模型精度拟合程度R2为0.73~0.79,RMSE为2.11~31.76 t·hm-2,结果明显优于不区分植被类型(总林地)的模型,这说明对森林生物量进行分类可以提高模型拟合精度;在这5种不同植被类型的随机森林模型中,竹林随机森林模型的拟合程度最好。

图4 基于随机森林的不同植被类型生物量模型精度

2.5 模型精度对比

通过比较3类模型,随机森林模型估计精度最高。同时,在随机森林模型中,竹林(RMSE=26.50 t·hm-2,R2=0.79)的精度最高,其次是针阔混交林(RMSE=15.76 t·hm-2,R2=0.76)、针叶林(RMSE=29.76 t·hm-2,R2=0.74)、灌木(RMSE=2.11 t·hm-2,R2=0.74)、阔叶林(RMSE=21.57 t·hm-2,R2= 0.73),总林地(RMSE=30.77 t·hm-2,R2=0.67)精度最低。综上所述,随机森林算法较适用于湖南省公益林生物量估算,同时,对植被类型进行分类可以有效提高模型拟合精度。

3 讨论

3.1 特征变量选择

结合以往热带和亚热带地区的森林生物量研究,NIR波段(B5)和SWIR波段(B6、B7)比可见光起着更重要的作用[24-26]。在森林生物量估测模型中,Landsat 8 OLI的SWIR波段(B6、B7)对林分结构中固有的水分和阴影成分更敏感,并且大气条件对光谱特征的影响小于其他较短波长(可见光)光谱带[27];NIR波段(B5)可以有效排除水汽吸收影响,使它对不同类型的植被更为敏感[28];并且,SWIR波段(B6、B7)在生物量建模中比更短波长的光谱带更有价值,对可见波段的森林光谱特征更为敏感。

不同植被类型(针叶林、阔叶林、针阔混交林、竹林和灌木)和不区分植被类型(总林地)的生物量反演模型在进行森林生物量估测时,纹理特征是关键变量,但在各模型中所占比重不同,这是由于研究区的公益林工程大多是土壤条件较差、水土流失易发生地带,森林经营水平低、森林结构不合理,从而使得原本林分结构简单的森林变得异常复杂。在针叶林模型和竹林模型中,由于树种相对较少、结构简单,纹理特征显得更为重要。在多个冠层和复杂冠层结构的阔叶林和混交林中,模型倾向于选择波段组合和信息增强变量。在不区分植被类型(总林地)生物量变量选择过程中,单独一个变量不能有效捕捉林分结构的复杂性,原始波段、波段组合、信息增强、植被指数和纹理特征的组合更有利于提高森林生物量模型的性能。

3.2 模型选择对生物量估测的影响

机器学习方法可以在数据分布不确定的情况下,在植被信息和遥感图像之间建立复杂的非线性关系,提高预测的准确性[26,29]。本研究选用3种机器学习算法构建湖南省公益林生物量估测模型,随机森林(RF)模型在不同植被类型中始终表现出最佳的性能。与另外2种模型相比,RF模型可以更好地防止过度拟合以及解决变量间复杂非线性关系的问题[30-31]。在其他亚热带森林生物量估算研究中,同样证明所选的随机森林建模方法精度更高[32]。随机森林模型虽然提升森林生物量遥感估测精度,但研究结果也显示,它并没有完全消除高值低估和低值高估,而这依然是影响森林生物量遥感估测精度的一个重要原因。

3.3 分类植被类型对生物量估测的影响

本研究表明,在建立RF模型时,对植被类型进行分类可以有效提高森林生物量的估测精度,但在建立SVM模型和CART模型时,对植被类型进行分类不足以提高模型拟合精度。植被类型通常反映不同的生长条件、土壤类型、环境因素等,将植被类型进行分类可以提高模型的泛化性能和准确性[26,33],而一些模型能够从遥感特征中捕捉植被类型的信息,将植被类型分类可能只会增加噪声,导致过拟合的问题。

RF不同植被类型公益林生物量估测模型的精度大小排序为:竹林>针阔混交林>针叶林>灌木>阔叶林。经比较发现,在对植被类型进行分类建模时,进行植被类型分类的模型精度大小顺序并不是固定的。Li等[34]利用理论模型将阔叶林、针叶林和混交林这3个精度值分别提高到0.897、0.856和0.826,模型精度大小排序为:阔叶林>针叶林>混交林。Liu等[35]建立森林类型生物量的RF模型呈现出阔叶林>针叶林>混交林的特征,R2分别是0.742 5、0.738 6、0.690 9,Ma等[36]在回归模型中加入地形和林分结构因素,拟合效果针叶林R2为0.98,混交林R2为0.96,阔叶林R2为0.96,这是因为土壤、海拔、气候等因素造成了不同植被类型生物量具有各自的物种组成和林分结构,而且遥感数据的使用以及样本量的大小都会造成生物量估测偏差。

4 结论

Boruta算法筛选变量,NIR波段(B5)和SWIR波段(B6、B7)及其纹理波段具有明显优势。

对于针叶林和竹林,纹理特征更为重要;阔叶林和混交林,波段组合和信息增强更为重要;对于总林地生物量变量选择过程中,多类遥感因子组合更有利于提高森林生物量模型的性能。

随机森林模型较之多元线性回归、支持向量机和决策树模型,公益林生物量模型拟合能力最佳。用随机森林模型估测的针叶林、阔叶林、针阔混交林、竹林和灌木生物量验证R2分别为0.74、0.73、0.76、0.79和0.74,RMSE分别为31.76、21.57、15.76、25.60 t·hm-2和2.11 t·hm-2,表明模型有较好的生物量估测精度。相对于总林地的随机森林模型R2为0.67,RMSE为30.77 t·hm-2,对植被类型进行分类可以有效提高森林生物量的估测精度。

猜你喜欢
公益林决策树波段
ArcGis在辽宁省国家公益林调整中的应用
龙泉七成公益林实现信息化管理
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
国家级重点公益林管理现状与发展对策研究
生态公益林可持续经营的探讨
基于决策树的出租车乘客出行目的识别
M87的多波段辐射过程及其能谱拟合
日常维护对L 波段雷达的重要性
基于肺癌CT的决策树模型在肺癌诊断中的应用