基于随机森林模型的云南松天然林生物量遥感估测*

2022-06-29 09:05李会朋胥辉张超欧光龙孙晓莉

西部林业科学 2022年3期

李会朋，胥辉，张超，欧光龙，孙晓莉

(西南林业大学，云南昆明 650224)

森林储存着全球陆地约80%的地上碳储量和40%的地下碳储量，在维持全球碳平衡中具有重要作用[1-2]，亦成为全球应对气候变化和实现碳中和关注的焦点[3]。森林地上生物量作为森林生产力的重要评价指标，亦是评估森林碳收支的重要参数。森林地上生物量的传统调查方法是通过现地测量森林的胸径及树高等测树因子，使用异速生长方程或蓄积量-生物量模型估算地上生物量[4-5]。基于地面样地调查的方法可准确估算森林地上生物量，但调查工作量大、成本高，还会对森林造成一定干扰与损伤，只适用于较小区域的森林地上生物量估算，在较大区域尺度上估算森林生物量则具有一定局限性[6-7]。

随着遥感估算技术在林业领域的广泛应用，利用遥感信息和GIS技术进行森林生物量的估算已经成为一种有效的手段[8]，遥感估测法具有快速[9]、实时成本低[10]、信息丰富[11-12]和大范围尺度同步检测[12]等特点，该方法可以快速的处理大批量数据，并且植被参数与其反射光谱值又具有一定的相关性[13-14]，遥感估测法已成为估算大范围森林生物量的常用方法[15-16]，尤其是在难以进入展开调查工作的区域，遥感估测法可以节省工作量，从而大大提高调查研究的效率。为了对森林生物量进行更精确地估测研究，各类传感器[17]、遥感图像处理方法、生物量模型以及不确定性评估方法等在不断开发利用的同时[18]，以不同传感器及其遥感影像与森林清查或野外调查数据为基础，分析森林生物量与遥感数据的量化关系及其参数或非参数分析，进而建立线性或非线性估测模型成为目前关注的热点[19]。

云南松(Pinusyunnanensis)林是我国西南地区的重要森林资源的树种之一，通常以其大范围纯林的形态分布，具有重要的经济价值、生态服务功能和碳汇效益。目前，已有大量学者通过构建树高曲线、遥感估测模型以及植被覆盖度等方法对生物量进行遥感估测[20-21]。魏安超等[22]对云南松天然林分的直径结构特征及动态变化规律展开研究发现株数集中分布在6～18 cm径阶范围，林分每公顷胸高断面积总体上随年龄的增加而增加，随林分密度的增加而增加。杨利华等[23]对云龙天池国家级自然保护区内云南松天然林草本层多样性的分布格局进行了探究，但是相对缺乏云南松天然林生物量遥感估测研究，尤其是基于样地实测数据或者连清数据进行构建遥感估测模型的相关研究工作甚少。基于此，本研究以Landsat TM/ETM+遥感影像为主要数据源，结合森林资源连续清查的样地数据，采用随机森林回归分析方法，构建大理州云南松天然林生物量遥感估测模型，进行非参数模型估测，以期为区域森林碳汇调查与评估提供技术支撑。

1 材料与方法

1.1 研究区概况

研究区位于云南省大理白族自治州(98°52′～101°03′E、24°41′～26°42′N)，土地总面积为29 459 km2，属低纬高原季风气候。由于受印度洋季风气候影响，干湿季节显著，气温年温差小。年均气温12～19 ℃，年均降水量约836 mm，雨季集中于5—10月。大理州处于云南高原、金沙江和滇西峡谷3个植物区的过渡接壤带，植物种类繁多、区系复杂，植被的垂直分布明显。全州主要分布有6种植被类型：半湿性常绿阔叶林、寒温山地硬叶常绿栎类林、寒温性针叶林、寒温性灌丛、干热河谷灌丛和高原湖泊水生植被。主要的优势树种包括云南松、华山松(Pinusarmandii)、铁杉(Tsugachinensis)、冷杉(Abiesfabri)、马尾杉(Phlegmariurusphlegmaria)、思茅松(Pinuskesiyavar.langbianensis)等。

1.2 数据收集

(1)森林资源连续清查样地数据。收集了云南省大理州第4次(1992年)、第5次(1997年)、第6次(2002年)和第7次(2007年)森林资源连续清查样地数据。云南省一类清查采用系统抽样方法布设固定样地，系统抽样的规模为6 km×8 km，单个样地面积为0.08 hm2。对上述数据筛选优势树种为云南松、起源为天然林、不被云层遮挡的样地，共67个，样地分布见图1。

图1 大理州云南松样地分布

(2)森林资源规划设计调查数据。收集了云南省大理州森林资源规划设计调查小班数据(共12个县/市)，对上述数据筛选优势树种为云南松、起源为天然林、郁闭度≥0.20、少受或不受人为干扰的小班(图2)。

图2 大理州云南松天然林分布

(3)Landsat TM/ETM+卫星遥感影像。收集了覆盖研究区的成像时间与一类清查数据同年的Landsat TM/ETM+卫星遥感影像，行带号分别为P131R42、P131R43、P132R42，共12景(表1)。同时，收集了覆盖研究区的数字高程模型(DEM)数据，空间分辨率为30 m。

表1 美国陆地资源卫星遥感影像信息

1.3 森林生物量计算

借鉴相关研究成果，利用已建立的云南松单木生物量与主要测树因子(胸径和树高)的估测模型计算云南松林的生物量[24]。依据林业行业标准LY/T2262-2014，对云南松林生物量的计算公式如下。

MA=0.702 31D2.103 92H0.411 20

式中：MA为生物量，D为胸径，H为树高。

计算单木云南松生物量，乘以样地株数，得到该样地的云南松生物量(kg/m2)。考虑到单个样地面积为0.08 hm2，乘以转换系数，最终得到单位面积云南松林生物量(t/hm2)。

1.4 随机森林模型

随机森林(random forest，RF)是Breiman于2001年提出的一种袋装法与分类回归树(CART)相结合的并行增强机器学习算法[25]，它是利用Bootsrap重抽样方法从原始样本中抽取多个样本,对每个Bootsrap 样本进行决策树建模,然后组合多棵决策树的预测,通过投票得出最终预测结果[26]。本研究采用袋外(out-of-bag，OOB)误差和基尼指数确定特征变量，研究并建立云南省大理州云南松天然林随机森林回归遥感估测模型。

1.5 模型评价

在本研究的67个一类连续清查样地中，按照训练集与测试集4∶1的比例将其分为2部分，随机抽取80%的样地数据(共54个样地)作为训练集进行建模；其余20%的样地数据(共13个样地)用于模型精度验证。模型拟合效果采用决定系数(R2)、均方根误差(RMSE)评价，模型预估能力采用总体相对误差(RS)、平均相对误差(EE)、绝对平均相对误差(RMA)、预估精度(P)评价[27-28]。

2 结果与分析

2.1 自变量优选

根据随机森林的重要性准则筛选模型的自变量[27-28]。为提高随机森林模型的精度，本研究对4期数据分别进行了重要性准则筛选，为每期数据找出最适合的变量进行森林生物量估测(图3)。

2007年2002年1997年1992年

从图3可以看出，2007年基于袋外(out-of-bag，OOB)数据计算均方误差，根据重要性排序结果，选择排名前9个变量作为自变量参与随机森林建模，分别为DVI、MID57、Third、ND32、RDVI、EVI、R9T5CO、R7T7EN和R7T5DI；2002年基于OOB数据计算均方误差，根据重要性排序结果，选择排名前9个变量作为自变量参与随机森林建模，分别为PC_Band_2、R7T5EN、PC_Band_3、R7T7CC、R9T5ME、R7T5SM、R9T3HO、R5T5SM和R9T1CC；1997年基于OOB数据计算均方误差，根据重要性排序结果，选择排名前9个变量作为自变量参与随机森林建模，分别为Third、EVI、R3T5ME、R3T3HO、TM57、RDVI、R7T7EN、R3T7CC和R3T7DI；1992年基于OOB数据计算均方误差，根据重要性排序结果，选择排名前9个变量作为自变量参与随机森林建模，分别为RDVI、DVI、PC_Band_2、R3T2VA、R3T7HO、R5T7CO、ND452、R7T7DI和R5T7DI。

2.2 模型构建

在R语言集成开发环境(R Studio)平台下，根据重要性分析提取的因子作为自变量、54个训练集样地的云南松生物量作为因变量参与回归建模。从图4分析可知，2007年在回归树的数量取值为2 000以后回归模型误差总体趋势趋于稳定，在保证模型的精度与模型结果的可靠度情况下，并考虑到决策树数目(ntree)和样本预测器个数(mtry)的取值是否会影响到有效计算率。2002年在回归树的数量取值为1 700以后回归模型误差总体趋势趋于稳定，在保证模型的精度与模型结果的可靠度情况下，并考虑到ntree的取值是否会影响到有效计算率。

2007年2002年2007年2002年

1997年和1992年在回归树的数量取值为2 500以后回归模型误差总体趋势趋于稳定，在为了保证模型的精度与模型结果的可靠度情况下，并考虑到ntree的取值是否会影响到有效计算率。综上，在不影响情况下，取ntree=3 000；自变量个数为9，取mtry=3。

2.3 模型评价

2.3.1 模型拟合精度评价

对1992年、1997年、2002年和2007年4期森林生物量样地数据进行建模，利用80%的训练集数据进行模型拟合效果评价。从决定系数(R2)和均方根误差(RMSE)2方面评价随机森林回归模型的建模精度。由表2可知，随机森林回归模型的R2不低于0.819，RMSE不高于9.347 t/hm2。

表2 不同年份随机森林模型建模的结果评价

2.3.2 模型验证精度评价

评价一个模型的估算效果，除了从其拟合效果的角度分析，亦需要评价其预测效果。

从随机森林模型预测效果(表3)可以看出，总体相对误差(Rs)、平均相对误差(EE)、均较小，绝对平均相对误差(RMA)在35.9%以内，预估精度(P)均在64.1%以上，表明各样本的模型预估能力均较理想。

表3 随机森林模型的预测效果

从图5可以看出,随机森林回归模型的预测值和真实值吻合较好。

2007年2002年2007年2002年

2.4 大理州云南松天然林生物量估测

根据大理州2006年森林资源二类调查小班数据，筛选优势树种为云南松、起源为天然林、郁闭度≥0.20、少受或不受人为干扰的小班(共76 839个)。以此为基础，按照其平均年龄，分别推算出1992年、1997年、2002年和2007年各小班的平均年龄。2007年、2002年、1997年、1992年小班数据分别为76 839、75 512、73 040、66 183个。分别计算1992年、1997年、2002年和2007年大理州云南松林生物量总量和平均生物量，结果见表4。

表4 1992—2007年大理州云南松天然林生物量和平均生物量

3 讨论与结论

3.1 讨论

(1)利用随机森林模型进行云南松天然林生物量遥感估测的适用性方面。综观有关森林生物量或森林碳储量的遥感估算研究中，最早使用的模型是线性回归模型。在实际中，多元线性回归模型存在共线性问题，严重影响模型的拟合精度。近年来，国内外学者利用非参数模型开展森林生物量遥感估算的广泛探索，具有代表性的非参数模型有随机森林、支持向量机、人工神经网络及地统计学等方法。本研究利用随机森林模型进行云南松天然林生物量遥感估测，结果表明随机森林模型对云南松天然林生物量的拟合效果较为理想，与相关研究[29-30]得出的结果一致，证明随机森林模型在云南松天然林生物量遥感估测的适用性。在拟合效果方面，随机森林模型的R2一般优于多元线性逐步回归、偏最小二乘回归等方法[31]，其预估精度高、检验精度效果佳，可作为今后森林生物量或森林碳储量遥感估算领域的重要建模方法和途径。

(2)光学遥感影像用于林分生物量估算的局限性方面。光学遥感影像具有成本低、数据获取直接、提供长时间序列数据等优势。但是，仅能获取森林植被的冠层光谱信息，无法获取植被的空间结构信息。本研究为消除云层影响，在进行样本数据筛选时，对被云层遮挡的数据进行剔除，损失一定数量的样本数据。在进行森林生物量遥感估测时，森林生物量达到一定数值时亦将发生光谱信息的饱和现象，对森林生物量估测精度将产生一定影响。在今后的相关研究中，应同时采用光学遥感影像和激光雷达数据，可获取森林植被的冠层光谱信息及冠层高度信息，对于提高森林生物量的估测精度将具有重要影响[32]。

(3)建模数据样本的局限性方面。本研究着重云南松天然林生物量遥感估测方法的探讨，所采用的数据时段仅涵盖1992—2007年，缺乏一定的时效性，后续研究可完善2012年(第8次)、2017年(第9次)和2022年(第10次)的森林资源连续清查样地数据，可使研究结果更具有应用价值。同时，受限于可用的森林资源连续清查样地数量，本研究用于建模的训练集样本数据较少，会对模型的预估精度产生一定影响。联合采用有精度保证的各类森林调查样地，如森林资源连续清查样地、森林资源规划设计调查抽样样地等，可进一步提高模型的预估精度。

3.2 结论

(1)建立的随机森林回归模型，决定系数(R2)不低于0.819，均方根误差(RMSE)不高于9.347 t/hm2，模型的拟合效果较好；从模型的检验结果看，绝对平均相对误差(RMA)在35.9%以内，预估精度(P)均在64.1%以上，表明该模型的预估能力较为理想。

(2)随机森林模型可用于云南松天然林生物量的估算，能够反映云南松天然林80%以上的生物量变化信息，本研究结果可为今后的云南松天然林生物量遥感估测提供方法借鉴和理论参考。