廖佩莹,王雅楠,丘甜,华伟平,3*,郑士超,周艳,饶贵川
(1.武夷学院 生态与资源工程学院,福建 武夷山 354300;2.武夷学院 商学院,福建 武夷山 354300;3.福建农林大学 林学院,福建 福州 350002;4.武夷山国家公园科研监测中心,福建 武夷山 354300)
森林是陆地生态系统的组成部分之一,具有净化空气、调节气候、涵养水源等8 种生态功能,同时它还具有碳汇功能,森林植被总碳储量中80%以上的贡献来源于天然林[1]。我国森林资源十分丰富,根据全国森林资源清查报告数据显示,我国森林面积在逐渐增加,其中,福建省的森林覆盖率达到66.8%,是全国森林覆盖率最高的省份。全国森林清查中的一项是对森林蓄积量的调查,森林蓄积量不仅反映一个国家的森林资源数量规模,而且对森林生态系统整体固碳功能也起着重大作用[2],也是评价森林生长质量、森林生产力的重要指标[3]。随着全球气候的变化,森林生产力受到了不同程度的影响[4-6]。
近年来,森林蓄积量一直都是国内外学者们研究的热点。D’Amico[7]研究野外样地数据和ALS 数据以及Landsat 数据对蓄积量生长的贡献,得出在使用Landsat 数据时相对效率为1.16,使用ALS 覆盖率增加的情况下,相对效率高达1.33;黄冰倩等[8]利用遥感技术、随机森林、多元逐步回归方法对森林蓄积量进行估测研究,主要是利用光谱、纹理特征进行组合研究,未将地形、环境因子参与建模分析;崔博文[9]利用机器学习结合遥感卫星对森林蓄积量进行研究。有的学者在研究森林蓄积量时还会以立地因子、林分年龄、气候因子等环境因子为自变量结合机器学习来估测森林蓄积量,如:王震等[10]利用贝叶斯模型平均法(BMA)和逐步回归法(SR)构建杉木林分蓄积量与林分变量因子和气候因子的关系模型;刘帅[11]以地形、地貌、气候、土壤、林分结构等为自变量来估测森林蓄积量。
随着科技不断的发展,机器学习方法越来越受研究者的青睐,并且在不同领域被广泛的应用。机器学习是人工智能的一个重要分支,对处理数据量大的数据具有优势之处。自20 世纪90 年代以来,机器学习越来越多地用于生态学领域研究,如水文学、气候变化、物种分布等领域[12]。本文以环境因子为自变量,借助决策树回归、随机森林回归、adaboost 回归、梯度提升树回归(GBDT)、CatBoost 回归、ExtraTrees 回归、XGBoost 回归、LightGBM 回归8 种机器学习的方法,分析比较在有无林分年龄的情况下,环境因子与林分蓄积量的关系,为后期建立天然林生长模型构建提供理论支撑。
福建省地处中国东南沿海地区,介于23°33′N~28°20′N、115°50′E~120°40′E,东隔台湾海峡,东北与浙江省毗邻,西北横贯武夷山脉与江西省交界,西南与广东省相连。福建省气候属亚热带海洋性季风气候,温暖湿润,雨量充沛,光照充足,年平均气温17~21 ℃,平均降雨量1 400~2 000 mm,雨量丰富[13]。气候条件优越,但气候区域差异较大,闽东南沿海地区属南亚热带气候,闽东北、闽北和闽西属中亚热带气候,各气候带内水热条件的垂直分异较明显。其土壤类型以红壤、黄壤为主。
数据来源于福建省第九次森林资源清查一类固定样地中的马尾松、阔叶林树种(组)、针阔混交树种(组)、针叶混交树种(组)。马尾松有121 块样地、阔叶林树种(组)695 块样地、针阔混交树种(组)147、针叶混交树种(组)76 块样地。调查因子主要包括树种(组)、年龄、蓄积量。
表1 不同树种(组)天然林蓄积量统计值Tab.1 Statistical values of natural forest volume for different tree species (groups)
研究对象是环境因子中的气候因子和立地因子以及林分年龄因子对4 种树种(组)蓄积量的影响。其中气候因子有年平均温度、年降水量、生长积温、哈格里夫斯气候水汽亏缺等,其数据是通过固定样地的纬度和经度以及高程利用ClimateAP[14]获得;立地因子主要包含坡位、坡度、土层厚度、腐殖层厚度、枯枝落叶厚度。
机器学习法主要有决策树回归、随机森林回归、adaboost 回归、梯度提升树回归(GBDT)、CatBoost 回归、ExtraTrees 回归、XGBoost 回归、LightGBM 回归。决策树回归具有很强的可解释性,能处理离散和连续变量的优点[15];随机森林回归具有训练速度快、准确率极高、处理高维数据、处理特征遗失数据、处理不平衡数据等优点[16];adaboost 回归具有较高科学性、规范性和可行性、准确率高、运算速度快的优点[17];GBDT 预测准确率高、强鲁棒性等优点,可灵活处理各种数据[18];CatBoost 回归具有具有性能卓越、鲁棒性与通用性更好、降低了模型过拟合的可能[19];ExtraTrees 回归具有训练出来的模型方差小,随机性、泛化能力强、具有抵抗噪声的能力的优点[20];XGBoost 回归具有较强的泛化能力、较高的扩展性、较快的运行速度的优点[21];Light-GBM 回归具有效率快、高精度、高效并行的优点[22]。
采用评价指标为MSE(均方误差)、RMSE(均方根误差)、MAE(平均绝对误差)、MAPE(平均绝对百分比误差)、相关系数(R2),R2值结果越靠近1 模型准确度越高。
式中:yi为第i 样本实测值;是第i 样本预估值;m 为样本数。
不同方法分析4 种树种(组)蓄积量与气候因子和地貌因子关系检验结果存在较大差异。从表2 可得,马尾松中GBDT、CatBoost 回归和XGBoost 回归的方法较好,最佳的是GBDT,较差的是随机森林回归和ExtraTrees 回归;而阔叶林树种(组)中方法较好的是adaboost 回归、GBDT 和XGBoost 回归,最佳的是adaboost 回归,较差的是决策树回归、随机森林回归和ExtraTrees 回归;在针阔混交树种(组)中GBDT、XGBoost 回归和LightGBM 回归的方法较好,最佳的是GBDT,较差的是随机森林回归、LightGBM 回归;在针叶混交树种(组)中方法较高的是GBDT、CatBoost 回归和XGBoost 回归,其中最佳的是GBDT,较差的是随机森林回归和ExtraTrees 回归。总体来看,8 种机器学习方法分析4 种树种(组)蓄积量与气候因子和地貌因子关系检验的结果存在差异性,但不明显。除阔叶林树种(组)外,最好的方法为GBDT。因此,本次选用GBDT计算马尾松、针阔混交树种(组)、针叶混交树种(组)与气候和地貌因子重要值(或特征值),选用XGBoost 回归计算阔叶林树种(组) 与气候和地貌因子的重要值(或特征值)。
表2 未引入年龄因子的预测模型效果评价Tab.2 Evaluation of the effectiveness of predictive models without introducing age factors
在考虑林分年龄后,不同方法分析4 种树种(组)蓄积量与林分年龄、气候和地貌因子关系检验结果存在较大差异。表3 表明,马尾松中GBDT、CatBoost 回归、XGBoost 回归的方法较好,最佳的是GBDT,较差的是ExtraTrees 回归;而阔叶林树种(组)中方法较好的是决策树回归、GBDT、XGBoost 回归,最佳的是XGBoost 回归,较差的是决策树回归、ExtraTrees 回归;在针阔混交树种(组) 中决策树回归、GBDT、CatBoost 回归、XGBoost 回归的方法较好,最佳的是GBDT,较差的是随机森林回归、LightGBM 回归;在针叶混交树种(组)中方法较好的是GBDT、CatBoost 回归、XGBoost 回归,最佳的是GBDT,较差的是随机森林回归、Extra-Trees 回归、LightGBM 回归。8 种机器学习方法分析4种树种(组)与林分年龄、气候和地貌因子关系检验的结果存在一定的差异,除阔叶林树种(组)外,最好的方法为GBDT。因此,本次选用GBDT 计算马尾松、针阔混交树种(组)、针叶混交树种(组)与林分年龄、气候和地貌因子重要值(或特征值),选用XGBoost 回归计算阔叶林树种(组)与林分年龄、气候和地貌因子的重要值(或特征值)。
表3 引入年龄因子的预测模型效果评价Tab.3 Evaluation of the effect of introducing age factor in predictive models
不同的树种,在未引入林分年龄的情况下,各因子对林分蓄积量的影响存在一定差异。图1 可看出,对马尾松影响较大的因子有平均最冷月温度、腐殖层厚度、年平均降水量、坡度、夏季平均最低温度;对阔叶树种(组)蓄积量影响较大的因子有土层厚度、干燥指数、坡度、夏季降雨量、夏季平均最低温度,年平均温度对其影响较小;对针阔混交树种(组)蓄积量影响较大的因子有夏季平均最高温度、坡度、夏季降雨量、腐殖层厚度、年平均降水量,年平均温度对其影响相对较小;对针叶混交树种(组)蓄积量影响较大的因子有平均气温差、腐殖层厚度、生长积温、夏季降雨量、土层厚度,坡位、夏季平均最低温对其影响相对较小。从整体上来看,气候因子和地貌因子均交互影响4 种树种(组)的蓄积量,因此在建立林分蓄积量预估模型时,应当要充分考虑气候与地貌因子。
图1 未引入年龄的4 种树种(组)重要值占比Fig.1 The proportion of important values of four tree species (groups) without introducing age
引入林分年龄后,各因子对各林分的影响与未引入林分年龄的存在差异。在所有影响因子中林分年龄对林分蓄积量影响均较大,且大于0.50;其他因子对4种树种(组)的影响有所不同,其中,对马尾松影响较大的因子有年平均降水量、平均最冷月温度、坡度、腐殖层厚度,哈格里夫斯气候水汽亏缺、平均月最热温度对其影响相对较小;对阔叶树种(组)蓄积量影响较大的因子有夏季降雨量、夏季平均最低温度、腐殖层厚度、干燥指数、土层厚度;对针阔混交树种(组)蓄积量影响较大的因子有腐殖层厚度、土层厚度、夏季降雨量、年平均温度、平均气温差,坡位对其影响相对较小;对针叶混交树种(组)蓄积量影响较大的因子有夏季平均温度、夏季平均最高温度、生长积温、年平均温度、夏季平均最低温度,坡位、哈格里夫斯气候水汽亏缺对其影响相对较小。(图2)林分年龄对4 种(组)树种林分蓄积量的影响程度都很大,且气候因子和地貌因子均交互对4 种树种(组)林分蓄积存在不同程度的影响。因此,在建立气候和地貌因子与林分蓄积量关系模型时,应当将林分年龄作为重要的因子。
图2 引入年龄因子的4 种树种(组)重要值占比Fig.2 The proportion of important values of four tree species (groups) introducing age factors
国内的学者也有利用机器学习对蓄积量进行研究,黄宇玲等[21]利用XGboost 方法结合林分因子、地形因子、遥感因子对森林蓄积量研究,他们得出的结论是逐步回归特征选择方法结合XGboost 方法对森林蓄积量的估测效果最佳,与我们研究的结果有所差异,这一现象可能在研究过程中采用的自变量以及所用的具体机器学习方法不同而导致结果有所差异;贾勃等[23]对比逐步回归与贝叶斯模型平均法得出的决定系数相对于贝叶斯模型平均法逐步回归更为准确,林分因子、环境因子对林分蓄积量的影响也是不尽相同;胡建锦等[24]利用4 种不同的机器学习法在不区分树种情况下对森林蓄积量进行估测,得出的结论是Catboost 的预测结果最优,与此研究得出的结果有所差异。相对于其他学者研究的情况而言,本研究对环境因子研究范围较大,采用了多种机器学习方法进行比较,认为环境因子对4 种树种(组)蓄积量有影响。
利用决策树回归、随机森林回归以及adaboost 回归等8 种机器学习方法对福建省的马尾松、阔叶林树种、针阔混交树种、针叶混交树种的蓄积量进行处理分析,研究结果表明,马尾松、针阔混交树种(组)和针叶混交树种(组)无论是否引入林分年龄,GBDT 模型能较好地分析出环境因子与蓄积量重要性,而对于阔叶林树种(组)来说,在引入林分年龄的情况下,模型较好的为GBDT;未引入林分年龄的情况下,预估模性较好的均为adaboost 回归。GBDT 和adaboost 回归的评价指标R2都大于0.95。通过较好模型预估的R2来看,林分年龄对蓄积量的影响较大,其值大于0.50。因此在建立天然林蓄积量生长模型时应综合考虑林分年龄、气候、地貌、土壤等林分和环境因子。