高若楠,谢阳生,雷相东,陆元昌,苏喜友
(1.北京林业大学 信息学院,北京 100083;2.中国林业科学研究院 资源信息研究所,北京 100091)
立地质量评价是指对立地的宜林性或潜在生产力进行判断和预测[1],是实现科学造林、经营森林以及森林收获预估的关键。立地质量评价可为适地适树、育林措施等提供依据。立地质量评价分为有林地立地质量评价和无林地立地质量评价,无林地的生产潜力可通过有林地的环境因子及林木生长状况预估[2]。传统的立地质量评价方法有多元线性回归方法[3-5]、数量化方法[6]等。但是林木生长与环境因子间通常是复杂的非线性关系,传统的线性建模方法一般都简化假设条件,难以达到理想的效果。朱光玉等[7]通过对年龄、优势高进行分级,针对杉木纯林构建了多形立地指数曲线模型预估立地生产力。黄家荣等[8]以马尾松为例,应用BP神经网络建立了立地因子与立地指数之间的关系,取得了比多元回归模型更好的预测精度,但是BP神经网络存在训练时间长,预测能力与泛化能力矛盾,易出现过拟合等弊端[9]。目前的研究主要针对纯林,对于混交林的立地生产力研究并不多见。
随机森林模型能够有效地处理非线性、交互作用等问题,同时能够有效地避免过拟合,而且拥有变量重要性评估功能,被成功应用于地质、生态等领域[10-15]。但目前国内外将随机森林模型用于立地生产力评价预测的研究不多,蒋育昊[16]采用随机森林模型模拟了红松在全国的潜在分布结果,但并没有考虑红松在各区域的生产力状况。本研究采用随机森林模型,考虑立地因子、气候因子对立地生产力的影响,以汪清林业局大荒沟林场、大柞树林场等11个林场的蒙古栎Quercus mongolica、阔叶混交林及针阔混交林为研究对象,选取19个气候因子及6个立地因子作为自变量,应用随机森林回归算法,分别建立蒙古栎、阔叶混交林及针阔混交林的立地质量评价模型,对不同环境条件下的造林地进行生产潜力预测,从而实现无林地与有林地立地质量评价的有机统一。
汪清林业局位于吉林省延边朝鲜族自治州东部,地 理 坐 标为 129°56′~ 131°04′E,43°05′~43°40′N。全局下设塔子沟、大柞树、沙金沟、金沟岭、地阴沟、荒沟、浪溪、金苍、六道、兰家、西南岔、杜荒子、大荒沟13个林场。该区域属寒温带大陆性季风气候,四季分明。年平均气温3.9 ℃,极端最高气温37.5 ℃,极端最低气温-37.5℃,年≥10 ℃的活动积温为2 300 ℃,年均日照时数约为2 351 h,年均降水量为550 mm。初霜期在9月中旬,终霜期在5月下旬,全年无霜期137 d,全年冰冻期约4个半月。汪清林业局地形地貌属长白山系的中低山丘陵区。境内土壤类型有针叶林灰化土、暗棕壤、白浆土、草甸土、冲积土、沼泽土等8个土类、14个亚类。典型暗棕壤占89.6%,暗色暗棕壤占4.9%,泥炭沼泽土占0.9%,草甸土占0.8%,草甸暗棕壤占0.4%,其它土壤占0.4%。 山地土壤以暗棕壤为主,川地、谷地以泥炭沼泽土、草甸土为主,土壤垂直变化明显。植被属长白山植物区系深山区以针阔混交林为主,近山区以次生蒙古栎林和杨桦林为主。主要乔木树种有红松Pinus koraiensis、云杉Picea asperata、长白落叶松Larix olgensis、紫椴Tilia amurensis、水曲柳Fraxinus mandschurica、胡桃楸Juglans mandshurica、黄菠萝Phellodendron amurense、蒙古栎、白桦Betula platyphylla、大 青 杨Populus ussuriensis、白 杨Populus tomentosa、色木槭Acer mono等;主要灌木树种有稠李Prunus padus、暴马丁香Syringa reticulata、鼠李Rhamnus davurica、花楸Sorbus pohuashanensis、青楷槭Acer tegmentosum、花楷槭Acer ukurunduense、忍 冬Lonicera japonica、胡枝子Lespedeza bicolor、刺五加Acanthopanax senticosus、榛 子Corylus heterophylla等; 主 要草本植物有蕨类Pteridophyta、羊胡子草Carex rigescens、山茄子Lonicera caerules等。
本研究数据来源有两类:1)汪清林业局二类调查数据,来源于大荒沟林场、大柞树林场、地印沟林场、杜荒子林场、荒沟林场、金苍林场、浪溪林场、六道林场、砂金沟林场、塔子沟林场、西南岔林场等11个林场2007年森林资源二类调查数据,包括海拔、土层厚度、坡位、坡向、腐殖质层厚度、坡度等立地因子以及每公顷蓄积量、生长年龄、优势树种等测树因子;2)生物气候数据,来源于世界气候数据库(http://www.worldclim.org)[17],研究选取对林木生长具有重要影响的包含温度、降水量等指标的19个气候因子(表1)。
表1 参与模型构建的环境因子Table1 Environmental factors involved in model building
1.3.1 随机森林原理
随机森林是由Breiman于1995年提出的一种基于决策树的机器学习算法[18]。它是利用Bootstrap重抽样的方法从原始数据中抽取多个样本,对每个Bootstrap样本进行决策树建模,然后对多颗决策树的预测进行组合。当预测变量为数值型变量时,生成的随机森林模型为多元非线性回归模型,模型预测结果为多颗决策树预测结果的平均值。
假设原始数据样本含量为n,变量个数为m。应用Bootstap从原始数据集中有放回地随机抽取ntree个自助样本集,并构建ntree棵决策树。在每次抽样中未被抽中的样本组成ntree个袋外数据(Out-Of-Bag,OOB),作为随机森林模型的测试样本。在每棵决策树的每个节点处随机抽取mtry个变量作为备选分支变量,然后根据最优分割准则选取最优分枝。一般地,随机森林回归模型中,mtry的推荐值为m/3[19],ntree的取值只需满足随机森林的整体误差趋于稳定即可[20]。
1.3.2 模型评价方法
随机森林回归模型采用袋外数据OOB为测试样本,无需预留数据做交叉验证,模型回归效果评价采用OOB预测的残差均方[21-22],见公式(1)、(2)和(3)。
式(1)至(3),yi为OOB中预测变量的实际观测值,为随机森林回归模型的预测值,σˆ2y为模型预测值方差。
1.3.3 变量重要性评价
本研究中,随机森林回归模型中的变量重要性评分采用随机置换的残差均方减小量来衡量。其基本思想是:首先,对于构建的ntree 棵决策树模型,计算每棵决策树对应的OOB残差均方,记为MSE1,MSE2,…,MSEntree。其次,对于变量Xj,在ntree 个OOB样本中随机置换,形成新的测试样本。利用已建立的模型对新测试样本进行预测,得到随机置换后的OOB残差均方,见矩阵(4)。最后,将MSE1,MSE2,…,MSEntree分别与矩阵(4)中的每一行相减,求其平均值,并与标准误作商得到变量Xj的重要性评分,见公式(5)。
1.3.4 模型实现
从汪清林业局2007年森林资源二类调查数据中,分别选取优势树种为蒙古栎、针阔混交林、阔叶混交林的小班,数量为3 313个、3 660个、10 713个。选择海拔、土层厚度、坡位、坡向、腐殖质层厚度、坡度6个立地因子以及林分每公顷蓄积、生长年龄2个测树因子。本研究采用林木年平均蓄积生长量作为预测立地生产力的依据,其计算方法见公式(6)。其中V′为年平均蓄积生长量,V为林分每公顷蓄积,a为林分生长年龄。
将19个气候因子导入ArcGIS10.2软件中,通过数据转换功能,将气候数据转换成ASCII格式文件。栅格数据处理地图采用中国行政区划图(1∶400)。应用ArcGIS软件将栅格数据与基础数据配准、裁剪得到研究区19个气候因子图层。为了便于直观地了解蒙古栎、针阔混交林、阔叶混交林的有林地生产力情况,表2统计分析了3种天然林海拔、坡度、年平均蓄积生长量及19个气候因子的最大值、最小值、平均值、标准差。
表2 3种天然林定性因子统计量分析Table2 Statistical analysis on qualitative factors for three natural forests
将年平均蓄积量作为随机森林回归模型的输出变量,模型的输入变量选择海拔、土层厚度、坡位、坡向、腐殖质层厚度、坡度6个立地因子以及包含温度、降水量等的19个气候因子,分别构建蒙古栎林、针阔混交林、阔叶混交林3个随机森林回归模型,建模时参数mtry取值为8,ntree取值为1 000。
表3显示了所建立的3个随机森林回归模型的MSE、RMSE及R2的值,其中MSE值分别为:0.05、0.29、0.27;RMSE的 值 分 别 为:0.22、0.54、0.52;R2值分别为:0.79、0.79、0.72。从数值来看,模型拟合效果较为理想。
表3 随机森林模型效果评价Table3 Evaluation of the effects of random forest models
将1 488组无林地的环境因子分别输入所建立的3种随机森林回归模型,预测3种立地类型林木年平均蓄积生长量。表4展示了3种无林地的生产力对比情况。就年平均蓄积生长量的平均值而言,针阔混交林、阔叶混交林分别为2.173 m3·hm-2和2.125 m3·hm-2,均高于蒙古栎纯林 1.912 m3·hm-2。其中,阔叶混交林的年平均蓄积生长量最大值达到7.611 m3·hm-2。而从年平均蓄积生长量最大值和年平均蓄积生长量的最小值对比来看,混交林最大值和最小值之间的差异明显大于纯林,这也间接说明混交林的水平结构更加稳定。因此,在无林地进行造林时,可考虑尽量不要选择造纯林,而以造物种更加丰富、生态系统更加稳定的混交林为主。
表4 3种无林地生产力对比Table4 Comparison of three kinds of non-forest land productivity (m3·hm-2)
关于以上特征变量对林木生长的影响权重,本研究采用变量相对重要性来描述,图1、图2、图3分别表示影响蒙古栎、针阔混交林、阔叶混交林的变量相对重要性排序。可以得出,对蒙古栎生长影响较大的因子依次为月平均气温差、温度季节性变化、坡度、年降水量、年平均气温差,对其生长影响较小的因子依次为等温性、最暖季平均气温、最干月平均气温;对针阔混交林生长影响较大的因子依次为:坡度、腐殖质层厚度、月平均气温差、最湿季度降水量、最暖季度降水量,对其生长影响较小的因子依次为最干月降水量、最湿月降水量、年平均气温差;对阔叶混交林生长影响较大的因子依次为:坡度、坡位、坡向、温度季节性变化、最干旱季平均气温,对其生长影响较小的因子依次为最干月降水量、海拔、最冷季度降水量。以上结论看出,在立地因子中,坡度、坡向、坡位对天然林的生产力有较大的影响,与曾斌、单长卷[23-24]的研究结论一致。另外气候因子对林木的生长量和树种的分布也有重要影响,这与刘丹、贾翔、张雷等[25-27]的结论基本吻合。
图1 影响蒙古栎生长的变量相对重要性Fig.1 Relative importance of variables affecting growth of Q.mongolica
图2 影响针阔混交林生长的变量相对重要性Fig.2 Relative importance of variables affecting growth of conifer-broadleaf forest
图3 影响阔叶混交林生长的变量相对重要性Fig.3 Relative importance of variables affecting growth of broadleaf mixed forest
随机森林回归模型能够有效地处理非线性、交互作用等问题,在没有显著增加运算量的前提下,可提高模型的预测准确率。本研究以汪清林业局大荒沟林场、大柞树林场等11个林场的蒙古栎、阔叶混交林及针阔混交林为研究对象,从森林资源二类调查数据中选取优势树种为蒙古栎、阔叶混交林及针阔混交林的小班,选择海拔、土层厚度、坡位、坡向、腐殖质层厚度、坡度6个立地因子以及年平均气温、月平均气温差、等温条件、温度季节性、最热月最高气温、最冷月最低气温、年平均气温差、最湿季平均气温、最干旱季节平均气温、最热季平均气温、最冷季平均气温、年降水量、最湿月降水量、最干月降水量、降水量季节性、最湿季降水量、最干季降水量、最热季降水量、最冷季降水量19个气候因子,采用随机森林回归算法,分别建立了针对蒙古栎、阔叶混交林及针阔混交林的年平均蓄积生长量预估模型。
本研究所建立的3个随机森林回归模型,总体来看决定系数R2的值分别为0.79、0.79、0.72,均方根误差RMSE的值分别为0.22、0.54、0.52,模型的拟合效果较好。模型可以对研究区域内的蒙古栎林、阔叶混交林及针阔混交林的年平均蓄积生长量进行非参数模型估测,对不同立地条件下的造林地进行生产潜力预测,从而实现无林地与有地立地质量评价的有机统一。通过对比同一立地3种类型的生产力可知,就平均值而言,针阔混交林、阔叶混交林的年平均蓄积生长量均高于蒙古栎纯林,针阔混交林略高于阔叶混交林。
同时,利用随机森林模型的变量重要性评估功能,分析了立地因子及气候因子对于树种生长的影响程度。对于蒙古栎纯林,由于其为相对喜湿的阔叶树种[23],气温变化及年降水量是影响其生长的主要因素,与贾翔等[24]研究结论较为一致。对针阔混交林,对其生长影响较大的因子依次为:坡度、腐殖质层厚度、月平均气温差、最湿季度降水量、最暖季度降水量;对于阔叶混交林,坡度、坡位、坡向、温度季节性变化及最干旱季平均气温是影响其生长的主要因素,最干月降水量对于3种林木生长影响均较小,地形因子对林木生长的影响与曾斌、单长卷[23-24]的研究结论一致。不同的环境因子组合对于树种的生长,表现出不同的作用程度。因此,应客观考虑各环境因子的影响程度,使林木的生长环境条件尽可能地处于最佳组合状态。
尽管随机森林回归模型具有较好的拟合效果及预测准确率,但是所构建模型为非参数模型,在应用方面存在局限性。此外,本研究在建模时,mtry的取值选用系统默认的输入变量个数的1/3,如何更加合理的选取mtry和ntree的值,使得模型在保证准确率的同时提高运算速度,还有待进一步地研讨。