周友锋,谢秉楼,李明诗
(1. 南京林业大学林草学院、水土保持学院,南方现代林业协同创新中心,江苏 南京 210037;2. 浙江省森林资源监测中心,浙江 杭州 310020)
森林是陆地生态系统的重要组成部分,是陆地上最大的碳库,储存了大约 80% 的地表碳和 40% 的地下碳,在全球碳循环中扮演重要角色[1-2]。森林地上生物量(aboveground biomass,AGB)是森林生态系统固碳能力的直观表达,也是评估森林生态系统碳收支平衡的重要指标[3]。作为森林生态系统碳汇潜力评估的重要要素,如何快速、准确地获取大尺度 AGB 信息对于宏观掌握森林碳储量及其分布,进一步制定公平合理的碳排放政策具有重要意义[4-5]。
随机森林算法(random forest,RF)作为一种优秀的机器学习算法,近年来被广泛应用于基于遥感数据的 AGB 制图研究中。RF 所构建的模型属于非参数模型,能够应对 AGB 与遥感因子之间复杂的非线性关系[6-7]。而且它对训练样本中存在的噪声敏感度低,能较好应对由于数据缺失所引起的精度降低问题,同时还能识别预测变量的重要性[8-9]。诸多的研究表明,RF 相较于其他机器学习算法和传统统计回归方法具有更高的预测精度[10-12]。而 RF 在预测 AGB 时只考虑了 AGB 与遥感因子间的关系,而忽略 AGB 制图时邻近观测数据的空间自相关性[13-14]。将随机森林与克里金法进行协同从而构建随机森林/克里金方法框架(random forest Kriging,RFK)将能够有效应对上述缺陷。此框架通过克里金插值法对RF预测的模型残差值进行建模,以分离残差项中的结构化成分(空间自相关的描述项),并将之叠加到随机森林模型的预测结果上,从而达到改进制图精度的目的[15]。在过去近10年内,RFK模型已经用于预测环境因子、土壤有机质、树木材积等研究中,其预测精度均优于 RF 模型[13,16-17]。而在近两年的 AGB 预测研究中也出现了这类方法,研究结果皆表明,RFK 模型在 AGB 预测中是可行的。Chen 等[18]和 Silveira等[19]分别在大兴安岭地区和大西洋沿岸热带山地森林区域,采用 RFK 模型对 AGB 进行预测,所得到的预测精度及各项误差指标均优于 RF 模型。
然而,上述研究所使用的克里金插值法均为普通克里金插值法(ordinary Kriging,OK),它是最常用于区域化变量的最优无偏插值,但在环境复杂的地区预测能力有限[20]。协同克里金插值法(Co-Kriging,CK)是 OK 的一种扩展方法,通过添加一个或多个协变量,能够考虑多个变量之间的相关关系,因而可提高空间插值的精度效果[21-22]。目前已有的研究多为基于多源遥感数据,利用随机森林普通克里金(random forest ordinary Kriging,RFOK)模型对 AGB 进行预测,很少有利用随机森林协同克里金(random forest Co-Kriging,RFCK)模型进行AGB 制图研究的案例。因此,本研究采用国家连续清查野外样地调查数据,Landsat 5 TM 数据、ALOS-1 PALSAR-1 数据和 STRM DEM 数据,利用 RFCK 模型来执行 2012 年广东省北部亚热带森林 AGB 的制图任务。期望本研究提出的方法和制图结果,可以为我国南方森林增汇和可持续森林管理实践发展提供技术参考。
研究区位于广东省北部(112.74°~115.09°E,23.59°~25.51°N),主要包括韶关、清远和河源等市(图 1)。研究区的气候属于亚热带湿润季风气候,年平均降水量为 1 300~2 400 mm,年平均气温达18~21 ℃ ,水热条件优良,适合植被生长。海拔 10~1 710 m,地形起伏大,以山地和丘陵为主。研究区内森林资源丰富,植被群落类型复杂多样,涵盖了亚热带地区典型的植被群落类型。研究区属于典型的人工林区域,经常性的森林采伐和更新事件广泛存在[23],林分年龄时空异质性较高,便于 AGB 估算模型的构建与性能评价。树种多为常绿速生树种,优势树种包括杉木(Cunninghamialanceolata)、毛竹(Phyllostachysedulis)、马尾松(Pinusmassoniana)、桉树(Eucalyptusrobusta)等。
底图审图号:GS(2019)3333。图1 研究区样地点分布STRM 影像(上)及研究区缩略图(下)Fig. 1 The field sampling sites STRM image (upper) and overview map (lower)
1.2.1 遥感数据
本研究所使用的遥感数据主要包括2011 的 Landsat 5 TM 数据、2010 年的 ALOS-1 PALSAR-1 数据和 30 m 分辨率的SRTM DEM 数据,以上数据的投影坐标系均为WGS 1984 UTM Zone 49N。其中,Landsat 5 TM 和 SRTM DEM 数据来源于 USGS EROS 数据中心(https://glovis.usgs.gov/);ALOS-1 PALSAR-1 数据来源于日本宇宙航空研究开发机构(JAXA)。
Landsat 5 TM自 2011 年 11 月起停止采集影像,于是下载了邻近年份的 Landsat 5 TM 影像,并处于植被生长旺季内(采集时间为 2011 年 8 月 20 日)且含云量最小。并对之进行几何校正、辐射定标和大气校正以及地形校正等预处理操作。
由于 Landsat 5 TM 仅能采集森林冠层的平面信息,在高郁闭度森林内易发生光谱饱和现象[24]。因此本研究引入 ALOS-1 PALSAR-1 数据,其长波信号对森林冠层具有一定的穿透力,能在一定程度上降低饱和效应[25]。ALOS-1 PALSAR-1 数据自 2011 年 4 月起停止采集,故本研究采用邻近年份 2010 年的影像数据,数据产品等级为 Level 1.1,包括 HH 和 HV 双极化信息,空间分辨率为 25 m。从影像中提取振幅数据,利用公式(1)将其转换为后向散射系数(σ0):
(1)
式中:ND为 HH 和 HV 后向散射体的振幅数值;FC为绝对校准因子,为 -83 dB[26]。然后,对转换为后向散射系数的 HH 和 HV 影像执行 7×7 窗口的 Lee 滤波操作以减少散斑噪声。最后将之重采样为 30 m 分辨率,以匹配 Landsat 5 TM 数据。
1.2.2 样地数据
本研究所使用的样地数据为 2012 年的国家森林连续清查数据,来源于广东省森林资源监测中心。预处理过程如下:首先利用广东省森林资源监测中心发布的该地区各树种的异速生长方程[27](表 1),计算出连续清查数据的样地 AGB 观测值,单位为t/hm2;之后,对原始的 290 个样地 AGB 观测值进行质量控制。
表1 研究区内优势树种的异速生长方程
将遥感影像中被云及阴影所覆盖的样地点排除,对速生树种(如桉树)的样地 AGB 通过生物量随林龄增长模型进行修正[28],再利用3倍标准差法剔除离群值,共剩下 245 个有效样点。最后,对剩余的有效 AGB 观测值依数值大小进行分层抽样,提取 80% 作为训练数据,剩余 20% 作为验证数据。245 个有效样点依据林分类型划分的 AGB 分布状况如表 2 所示。
表2 有效样点 AGB 分布状况
对于 Landsat 5 TM 数据,通过对影像进行多种光谱特征变换、纹理信息提取以及波段组合运算,提取了共 80 个特征变量,包括植被指数、缨帽变换指数、主成分、纹理测度、原始单波段和波段组合。植被指数包含归一化植被指数(NDVI),差值植被指数(DVI),比值植被指数(RVI),大气阻力植被指数(ARVI),增强植被指数(EVI),土壤调节植被指数(SAVI);缨帽变换指数包含亮度(brightness)、绿度(greenness)与湿度(wetness);主成分为包含了 95% 以上原始影像光谱信息的第1主成分(PC1)、第2主成分(PC2)与第3主成分(PC3);纹理信息则通过基于灰度共生矩阵的纹理测度进行提取,其在刻画森林空间分布形态上是有效且重要的[29]。对第1主成分(PC1)采用 8 个纹理测度,包含均值(mean)、方差(variance)、均匀性(homogeneity)、对比度(contrast)、相异性(dissimilarity)、熵(entropy)、二阶性(second moment)、相关性(correlation)。纹理测度提取时的滞后距离为1个像元,方向为右下,移动窗口大小为 3×3,5×5,7×7,9×9;原始波段包括 B1—B7(不包含热红外波段)6个波段,同时将对应波段的反射率倒数作为备选变量,即 TM1_1,TM2_1,……,TM7_1;波段组合是对原始影像信息的组合,不同的波段组合会凸显不同的影像特征从而丰富影像信息,且部分波段组合对 AGB 相关性较高[30]。本研究提取 Landsat 5 TM 影像每个原始波段的地表反射率与其他 5 个波段反射率的比值,如 TM 75,即 B7/B5,共 30 个作为波段组合变量。
从 PALSAR-1 数据中提取的变量包括 HH 和 HV 的后向散射系数、HH/HV 和雷达森林退化指数(RFDI)[31]。此外,通过同样的方式提取 HH 和 HV 极化数据 4 个移动窗口大小(3×3,5×5,7×7,9×9)的8 个纹理测度。
另外,考虑到地形因子对植被生长有所影响,故本研究也从 STRM DEM 数据中提取坡度(slope)、坡向(aspect)、粗糙度(roughness)等地形因子作为建模备选变量。
1.4.1 随机森林建模
RF是一种基于决策树的分类和回归算法,通过多次 bootstrap 抽样获得多个随机样本,并通过这些样本分别建立相对应的决策树,从而构成随机森林。该方法适用于解决分类和回归问题,对于回归问题,取所有决策树预测结果的均值作为最终预测结果。本研究使用 R 语言中的 ‘randomForest’ 软件包来实现 RF 的建模过程。RF 有两个重要参数,分别为表示输入变量数量的mtry和代表决策树数量的ntree。mtry默认为数据集中变量数的二次方根(分类模型)或1/3(回归模型);ntree值是通过在模型误差相对稳定的情况下,经过不断测试能获得多少个决策树来确定的。本研究 RF建模所设定的参数值为:mtry= 3,ntree= 500。
本研究所提取的特征变量较多,需要对变量进行筛选,选取与AGB相关性较高的变量进行建模。使用randomForest包中的important命令进行变量重要性分析,通过2个指标均方误差百分比增加量(%IncMSE)与节点纯度增加量(IncNodePurity)来评估每个变量对建模性能的贡献。%IncMSE与IncNodePurity值越大,表明对应的预测变量的重要性越强[23]。为了保证各变量对 RF 模型的综合代表性,同时降低模型计算的复杂度,以 IncNodePurity 中前 25% 的变量为基础,若这些变量在 IncMSE% 中排名前 10,则选取作为建模变量,进行 AGB 预测。
1.4.2 克里金插值法
克里金插值法是一种用于空间插值的地统计学方法,可用估计的预测误差来评估预测的质量,所输入的数据集需要满足正态分布假设。本研究采用的克里金插值法包括 OK 和CK 两种方法。OK 以变异函数理论和结构分析理论为基础,它通过基于区域化变量的变异函数生成最优无偏估计[32]。计算如下:
(2)
式中:ROK(x0)为通过 OK 得到的残差预测值,n是用于插值的样点数量,Wi是点i的加权系数,可根据最优无偏估计原理与拉格朗日最小化原则确定[33],R(xi)是样地点i的残差值。
CK是 OK 的一种扩展方法,通过添加一个或多个协变量,考虑了多个变量之间的相关关系,可提高结构化成分的预测精度。由于研究区位于广东北部山区,AGB 空间分布受地形因素影响较大[19]。因此,本研究选择高程作为协变量。CK 的插值公式如式(3)所示:
(3)
式中:RCK(x0)为通过 CK 得到的残差预测值,R1(x1i)为样地点i的残差值,W1i为样地点i残差权重,R2(x2j)为样地j的高程,W2j为样地j的高程权重,N1为训练样本个数,N2为高程样本点个数,其中N1≥N2。
克里金法用变异函数测定空间自相关要素。变异函数描述的是区域化变量空间变化的特征和强度,可表示为随着距离增加,两样点间半变异函数值或协方差函数值的变化情况。变异函数可供拟合模型较多,本研究采用地统计学软件 GS+ 进行变异函数拟合模拟,选择最优拟合模型。GS+ 所提供的拟合模型有指数函数(exponential)、球面函数(spherical)和高斯函数(Gaussian),所采用的评价指标为决定系数(R2)与残差平方和(RSS)。拟合模型的R2越大,RSS 越小,拟合性能越好。变异函数的3个模型参数是块金(nugget)、变程(range)和基台(sill)。块金是距离为 0 时的变异函数值,表示测量或分析误差;变程是变异函数值稳定时的距离,即与空间自相关距离相对应;基台是变异函数的最大值。块金效应是块金值与基台值的比值,能够描述空间自相关性的强弱,块金效应越小,空间自相关性越强[34]。
1.4.3 随机森林克里金模型
RFK模型的实现步骤分为2步:①通过 RF 建模,得到 AGB 预测值;②通过克里金插值法分离残差中的结构化成分,并将之叠加到随机森林模型预测值上[式(4)]。RF 模型预测残差值通过公式(5)计算得到。
R(xi)=BBF(xi)-B(xi);
(4)
BRFOK/RFCK(xi)=BRF(xi)-ROK/CK(Xi)。
(5)
式中:R(xi)是样地点i的残差值,B(xi)是样地点i的AGB观测值,BRF(xi)是基于 RF 模型的样地点i的AGB预测值,BRFOK/RFCK(xi)是通过 RFOK 或 RFCK 模型得到的 AGB 预测值,ROK/CK(xi)是样地点i通过 OK 或 CK 得到的残差预测值。
使用决定系数(R2)[式(6)]、平均绝对误差[MAE,式中记为σ(MAE)][式(7)]、均方根误差[RMSE,式中记为σ(RMSE)][式(8)]指标量化模型的性能。采用式(9)计算 RFOK 模型和 RFCK 模型相对于 RF 模型的相对改进指数(relative improvement)[RI,式中记为σ(RI)],评估模型的改进效果。公式如下:
(6)
(7)
(8)
(9)
构建 RF 模型首先要求优选特征变量,为RF模型中变量重要度排序结果见图2,选择了如下 10 个建模参数:HV、HVcorrelation99、mean99、TM75、TM57、TM53、TM35、TM21、TM12、B2。总体而言,Landsat 5 TM 数据的原始波段和波段组合占了建模变量的很大比例。而纹理信息变量(例如:HVcorrelation99 和 mean99)重要度排序较高,对 AGB 预测也有一定影响。
以上述 10 个建模参数构建 RF 模型,同时通过训练集进行模型训练。基于训练集预测 AGB 和实测 AGB 间的R2为 0.96,MAE 为15.77 t/hm2,RMSE 为 19.98 t/hm2,表明模型的拟合效果优良。
B1、B2、B3和B7表示Landsat 5 TM影像1号、2号、3号与7号波段的地表反射率;TM12、TM13、TM15、TM21、TM24、TM31、TM34、TM35、TM42、TM51、TM52、TM53、TM57、TM74、TM75表示Landsat 5 TM影像某一波段地表反射率与另一波段地表反射率的比值,如TM12,即B1/B2;TM1_1、TM2_1、TM3_1和TM7_1表示Landsat 5 TM影像1号、2号、3号与7号波段地表反射率的倒数;PC1和PC3表示Landsat 5 TM影像的第1主成分与第3主成分;RVI和ARVI分别表示比值植被指数与大气阻力植被指数;Brightness表示Landsat 5 TM影像通过缨帽变换得到的亮度值;mean77、mean99和correlation99分别表示基于PC1采用7×7窗口得到的均值纹理特征,采用9×9窗口得到的均值与相关性纹理特征;HH和HV表示PALSAR-1 HH与HV极化信息的后向散射系数;HHcorrelation55和HHcorrelation77分别表示HH采用5×5与7×7窗口得到的相关性纹理特征;HVmean55、HVmean77和HVmean99分别表示HV采用5×5、7×7与9×9窗口得到的均值纹理特征;HVcorrelation77和HVcorrelation99分别表示HV采用7×7与9×9窗口得到的相关性纹理特征。B1, B2, B3 and B7 represent the surface reflectance of Landsat 5 TM images at bands 1, 2, 3 and 7. TM12, TM13, TM15, TM21, TM24, TM31, TM34, TM35, TM42, TM51, TM52, TM53, TM57, TM74 and TM75 represent the ratio of surface reflectance in one band of Landsat 5 TM image to that in another band, such as TM12, that is B1/B2; TM1_1, TM2_1, TM3_1 and TM7_1 represent the reciprocal of surface reflectance in bands 1, 2, 3 and 7 of Landsat 5 TM images. PC1 and PC3 represent the first principal component and the third principal component of Landsat 5 TM images. RVI and ARVI represent ratio vegetation index and atmospheric resistance vegetation index, respectively. Brightness indicates the brightness value of Landsat 5 TM images obtained by hat transformation. mean77, mean99 and correlation99 indicate the mean texture features obtained in 7×7 window size based on PC1, and the mean value and correlation texture features obtained in 9×9 window size, respectively. HH and HV represent the backscattering coefficients of HH and HV polarization information of PALSAR-1. HHcorrelation55 and HHcorrelation77 indicate the correlation texture features obtained in the 5×5 and 7×7 window sizes of HH, respectively. HVmean55, HVmean77 and HVmean99 represent the mean texture features obtained by HV using 5×5, 7×7 and 9×9 window sizes, respectively. HVcorrelation77 and HVcorrelation99 indicate the correlation texture features obtained by HV using 7×7 and 9×9 window sizes, respectively. 图2 RF 中变量重要度排序结果Fig. 2 The importance ranking of the variables for AGB mapping by using RF model
对随机森林预测残差进行统计分析,得到残差的范围为-59.73~39.64 t/hm2,均值为 0.53 t/hm2,标准差为20.04 t/hm2,绝对峰度值为3.50(接近 3),绝对偏度值为0.89(接近 1),说明残差近似服从正态分布。因此,符合进行克里金插值的前提假设,可以对 AGB 预测残差进行随后的克里金插值分析。
OK和 CK 的变异函数模型模拟结果及相关参数见图3及表3。依据 GS+ 建模的结果,在 OK 和 CK 方法下,高斯函数模型拟合效果略优于其他两个模型,最终作为 OK 和 CK 最优拟合变异函数模型。总体而言,CK 的变异函数模型拟合性能优于 OK 的模型,前者的R2更大,RSS 更小(表 3)。图4是依式(2)和式(3)建立的残差空间插值结果。CK 较 OK 具有更大的残差预测范围,OK 的残差插值范围为-19.61~19.38 t/hm2,CK 的范围则为-28.72~21.37 t/hm2。此外,本研究还通过布设 100 个随机点提取得到不同海拔区间的平均插值结果。OK 和 CK 在低海拔区域(34~300 m)的平均插值结果分别为 1.24 和 2.09 t/hm2,在中海拔区域(301~600 m)为 0.13 和 0.30 t/hm2,而在高海拔区域(601~1 158 m)则为-0.45 和-2.01 t/hm2。可见,在3个海拔区域中,通过分析 AGB 高程空间位置关系,CK 相比 OK 均分离了更多残差项中的结构化成分,所得到的残差插值效果更好。
表3 OK 和 CK 的变异函数拟合模型及其参数
图3 基于 OK 和CK的残差变异函数模拟Fig. 3 The variogram simulation of residuals derived from OK and CK models
图4基于OK和CK的残差插值结果和各模型生成的AGB专题图Fig. 4 The inter polated spatial patterns of residuals derived from OK, CK models and AGB patterns derived from the models
依据式(5),从RFOK模型和RFCK模型构建改进后的AGB预测值(图5)。如图5所示,在模型的泛化能力方面,RFCK模型的AGB预测范围为0.48~165.76 t/hm2,略高于RF和RFOK模型。3个模型的AGB预测值在高海拔的山地区域都较大,且呈现由西北往东南增多的趋势。用20%的独立样本进行验证,结果如下:RFCK模型的RI值为0.08,R2由0.46增加到0.57,MAE由27.28减少到25.12 t/hm2,RMSE由32.48减少到29.80 t/hm2。RFOK模型的RI值为0.03,R2由0.46增加到0.51,MAE由27.28减少到26.63 t/hm2,RMSE由32.48减少到31.58 t/hm2。两种改进模型的精度评价表现均优于RF模型,且RFCK模型较RFOK模型更胜一筹。图5展示了RF模型的验证数据集R2在0.46左右,拟合线(虚线)与1∶1线有较大差异,存在比较明显的低值被高估,高值被低估的现象,但是这种现象随着针对预测误差的空间插值技术的引入而得到一定程度的减弱。
图5 模型验证时 AGB 观测值与预测值的散点图Fig. 5 Scatterplots of the observed AGB and the predicted AGB when validating the models
根据重要度排序结果,本研究选择了 10 个变量进行 RF 建模。其中,与两个短波红外波段(B5、B7)反射率的波段组合占据很大比例。Landsat 5 TM 的B5与B7波段的反射率与植被水分含量有关,在夏季多雨的亚热带地区分辨植被较为有利,而通过设置与其他波段的比值更能够使原始波段上不易区分的植被能够识别[35]。HVcorrelation99和mean99与AGB有较高相关性,这与部分研究的特征优选结果是一致的[36],表明在林分结构复杂的亚热带森林区域引入纹理信息进行AGB估测是可靠的。另外,由PALSAR-1数据发展的特征变量(后向散射系数HV等)在AGB估测上也有贡献,这主要由于PALSAR-1数据的长波信号能够穿透冠层,获取植被AGB的主体——树干的信息。
本研究的结果表明,结合了残差插值结果的RFOK与RFCK模型较RF模型具有更高的AGB制图精度,低值高估和高值低估的现象在一定程度上得到改善,各项精度指标均优于RF模型,同时也优于部分亚热带地区AGB估测研究结果[11,21]。但本研究不足在于RFOK模型与RFCK模型的RI分别为0.03和0.08,精度改进效果不高。以往有关RFK模型在AGB预测应用的研究,最高RI值均能够达到0.10以上,本研究结果与之相比偏低[18-19],这与本研究AGB残差空间自相关性较低有关。本研究OK和CK变异函数模型的块金效应值较高,均在0.9以上。而之前有关土壤特性的研究结果表明,当块金效应值低于0.6[13],其精度提升效果十分显著。这也表明相比土壤特性,AGB预测残差受空间地理位置分布关系的影响并不大。而就数据源而言,一方面本研究采用的遥感数据包括Landsat 5 TM 和PALSAR-1数据。前者易存在光谱饱和现象,后者虽能减弱饱和现象,但饱和点通常在 150 t/hm2左右,在本研究研究区内的高 AGB 区域作用相对有限[26]。另一方面可能与 RF 模型的建模变量结合了Landsat 5 TM 和 PALSAR-1 数据,而非单一数据源有关[18]。此外,还可能与本研究遥感数据与样地数据时间不匹配有关。本研究所使用的 Landsat 5 TM 数据为 2011 年,PALSAR-1 数据为2010年,而样地数据则为 2012 年。研究区内部分样地属于灌木林、幼龄林与迹地,且树种多为速生树种。虽然本研究对这些样地进行了部分修正,但这些样地的遥感数据信息与实际样地信息显然仍有差距。这一方面部分解释了 RF 模型的过拟合现象,另一方面可能对于残差数据的空间自相关性有所影响。
RFCK模型通过将高程作为协变量,除考虑 AGB 距离与方位间的关系外,还将 AGB高程间的空间关系考虑在内,相比 RFOK 模型所得到的变异函数拟合效果更好,空间自相关性更强,这与其他有关 CK 的研究结果是一致的[20,22]。从结果上看,相较 RFOK 模型,RFCK 模型在本研究中高海拔区域(如西北、中部及东南区域)和低海拔地区(如东北、南部区域)的插值效果更好。相对应地,RFCK 模型在刻画 AGB 空间分布模式的效果时也要优于 RFOK 模型,轮廓更加清晰。RFCK 模型在山地和平原的分布情况更加接近实际情况,特别是山地区域,这也说明饱和效应得到进一步削弱。因此在具有高 AGB 的亚热带山地区域,相比传统的 RF 和随后改进的 RFOK 模型而言,RFCK 模型更加适合用来进行亚热带山地区域森林 AGB 制图,若结合长时间序列数据进行分析,能够更好掌握当地桉树、松树等人工林与天然林的生长健康状态与森林碳储量动态分布情况,以评价当前森林经营抚育措施是否合理,有助于进一步制定针对性强的森林经营方法和公平合理的碳排放政策,增强森林生态系统综合效益。
虽然 RFCK 模型的 AGB 预测精度优于 RFOK 模型,但是精度提升的效果并不明显,这可能与本研究只采用了一个协变量有关。如果在选取协变量时,仅仅选取一个与目标变量相关性较高的因子,则不能全面反映协变量的信息,预测效果提升有限[20]。因此未来的研究可考虑添加多个协变量,以充分发挥 CK 的优势。同时可通过主成分分析法选取协变量,以应对 CK 在插值时协变量较多造成计算复杂度增加,而协变量较少引起插值精度降低的问题[22]。另外,RFCK 模型虽然能降低 RF 模型的过拟合现象,但是 RFCK 模型的过拟合依然存在。RF 模型出现过拟合,与训练数据中存在噪声有关,而本研究中的样地数据恰恰有此问题。因此,除了上述通过优选协变量进行改进,也可对 RF 模型训练时的样地数据进行优化减少噪声,抑或增大研究区,扩大数据量来削弱模型过拟合现象。
本研究以 Landsat 5 TM、PALSAR-1 遥感影像数据为主要数据源,并且结合国家森林连续清查数据,比较了 RF、RFOK 与 RFCK 模型在 AGB 预测中的效果,同时比较了 RFOK 与 RFCK 模型相较于 RF 模型的预测精度改进水平。总体而言,以高程作为协变量的 RFCK 模型对 AGB 的预测效果更好,其次是 RFOK 和 RF 模型,且 RFCK 模型的精度改进效果也优于 RFOK 模型,能更好地描绘实际 AGB 的分布情况,特别是在山地区域。本研究所获得的高精度亚热带大区域 AGB 专题图,有助于了解当地 AGB 分布情况,为政府制定与完善相关政策提供依据,并为早日实现碳达峰与碳中和目标打下基础。