基于哑变量的湖南栎类次生林直径分布研究*

2021-07-16 09:06李世荣李临兵

林业与环境科学 2021年3期

李世荣李临兵

（广东省岭南综合勘察设计院，广东广州 510663）

直径分布是指林分内各种大小直径林木按径阶的分配状态，是最重要、最基本的林分结构[1]。林分直径分布是研究林分树高、断面积和材积等结构的基础，也是造林设计、确定林分发展阶段、建立林分生长和收获模型的重要前提工作[2]。目前，直径分布的研究对象主要以同龄林为主[3-4]，而天然林受林分自身的树种组成与特性、演替阶段、更新过程等因素的影响而变得复杂多样。

林分直径分布规律的研究主要从概率分布函数和理论模型入手。相关研究经历了静态到动态的过程，静态模拟方法是指以正态分布、负指数分布、SB 分布、 β 分布、Gamma 分布、Weibull分布等概率密度分布函数模拟林分分布规律[5-6]。林分直径分布规律的动态预测主要是指以参数预测、参数恢复和百分位等方法估计模型参数[7]，用以预测林分直径分布的动态变化规律。目前常用的方法是参数预测法[8]，即通过分布模型的参数与林分变量（平均胸径、平均树高、断面积等）直接构建函数关系，用以预测新林分的模型参数，进而描述新林分的直径分布规律。参数预测法通过林分变量来预测林分直径分布结构，能最大限度的减少林业中的测量成本，但是也存在预测精度较低的问题。哑变量模型已被广泛的应用于回归分析和建模研究，并被证实能有效提高模型的预测精度[9]。然而，直径分布模型的参数预测中还没有发现应用哑变量技术的相关研究，通过在参数预测方程中加入林分相关的哑变量或许能提高参数的预测精度，因为模型参数与林分变量是紧密相关的。

栎类的自然分布范围遍及亚热带、热带和温带地区，是阔叶林的主要建群种之一。在中国，栎类是天然林的主要组成树种之一，据第八次全国森林资源清查结果统计[10]，中国栎类总面积达到1 672 万hm2，其面积和蓄积分别占全国乔木林的10.15%和12.94%。由于遭受过较严重的破坏，中国的栎类主要是萌生的次生林，普遍存在林分过密、干形弯曲和树冠发育不完整等质量低下问题[11]。因此，本研究以湖南栎类次生林为研究对象，探讨利用哑变量模型构建栎类直径分布预测模型，提高直径分布预测精度，为栎类的林分结构经营管理提供参考。

1 研究区概况

湖南省位于中国中南部长江中游地区，地理坐标为108o47′～114o15′ E， 24o38′～30o08′ N。海拔分布范围为24～2 122 m，地形地貌复杂，包括有丘陵、平原、山地等。水热充足，年平均温度在15～18℃之间，年平均降水量1 200～1 700 mm，土壤类型主要以红壤和黄壤为主。湖南是亚热带栎类天然次生林的主要分布区之一，栎类总面积占全省阔叶林面积的13%。湖南栎类林分中的针叶树主要包括马尾松Pinus massoniana、杉木Cunninghamia lanceolata，阔叶树包括樟Cinnamomum camphora、枫香Liquidambar formosana、鹅耳枥Carpinus turczaninowii等。

2 材料与方法

2.1 数据来源

数据来源于湖南省森林资源连续清查数据库，从中筛选出栎类株数占比超过30%且总株数超过750 株/hm2的固定样地共188 块，树木总数为22 323 株。样地主要分布于怀化、岳阳、郴州、吉首、永州、常德市等地。固定样地的面积大小为25.8 m×25.8 m，调查时间为2014 年。样地的林地调查因子包括海拔、坡度、坡向和坡位等，林分调查因子包括树种、每木胸径、相对位置等。经调查，栎类样地内的主要树种包括有杉木、马尾松、枫香、木荷Schima superba以及其它阔叶树种。将栎类林分划分为3 种林分类型，其中栎类树种占比超过70%的划分为栎类纯林类型S1（34 块），针叶树种占比超过35%的划分为栎类针叶混交林S2（124 块），阔叶树种占比超过35%的划分为栎类阔叶混交林S3（30 块）。本研究中，栎类总样本被随机划分为两个部分：70%（133 块）样地用于建模，30%（55 块）样地用于检验，样地的基本概况见表1。

2.2 直径分布函数的选取

选取目前应用较普遍的6 个直径分布函数（正态分布、对数正态分布、Weibull 分布、Gamma 分布、Beta 分布和Logistic 分布函数）来拟合栎类次生林的直径分布规律，并利用ForStat软件计算各函数的参数估计值。函数的具体表达式见表2。

其中，Logistic 分布函数的参数估计使用百分位法，其余函数的参数估计采用矩估计法。采用Kolmoglov-Smirnov 检验法对样本总体的分布类型进行检验[12]。

2.3 参数预测模型的构建

参数预测模型是通过构建林分变量与分布函数各个参数的函数关系，用以预测其它林分的分布函数参数值的模型。目前常用的分布函数参数预测方法是构建林分变量与参数的逐步回归方程。2.3.1 逐步回归参数模型选取林分平均直径D、直径平方D2、总断面积BA 和每公顷株数N共4个林分变量作为多元逐步回归参数预测模型的自变量，分布函数的参数值为因变量，构建如下关系式：

表1 栎类样地的基本情况Tab.1 Basic situation of the oak secondary forest plots

式中，iy为分布函数的参数，i= 1,2…n；1φ～4φ为模型系数；0φ为截距。

多元逐步回归的具体步骤[13]：首先建立因变量与自变量的总回归方程，然后对回归方程及每一个自变量进行假设检验，当某自变量对因变量的影响不显著时，则剔除该变量，重新建立回归方程，循环计算，即可筛选出对因变量有显著影响的因子。其中，为了避免出现自变量之间存在严重的共线性问题，设置只有方差膨胀因子小于10 且具有显著影响的变量才进入模型。

2.3.2 哑变量参数模型树木的生长在不同的林分类型之间往往表现出一定的差异，因此本文考虑将栎类纯林S1、栎类—针叶混交林S2、栎类—阔叶混交林S3 作为哑变量加入逐步回归参数模型中，以进一步提高参数的预测精度。

表2 直径分布函数的表达式Tab.2 Expression of the diameter distribution function

哑变量，又称二元型变量，常用来处理定性因子或分类变量，一般取值为0 或1。在多元回归模型（1）式中引入林分类型哑变量，其模型表达式为：

2.4 模型的评价与检验

2.4.1 模型的评价模型评价指标主要包括决定系数R2、残差平方和SSE 和相对均方根误差RRMSE 共3 个，其中R2越大，说明模型的拟合程度越好，SSE 和RRMSE 越小，说明模型的预测误差越小，精度越高。3 个指标的表达式如下：

式中，n为样本数；yi为断面积测量值；yˆ为断面积预估值；为断面积测量值的平均值；k为参数数量。

2.4.2 模型的检验根据建模数据可模拟得到预测栎类林分直径分布的参数模型，利用参数模型计算55 个检验样本的分布函数参数并预测各径阶的直径分布状况，对比分析预估值与观测值的相关关系和残差分布，以检验本研究构建的栎类次生林直径分布预测模型是否准确。

3 结果与分析

3.1 直径分布拟合结果

运用6 种分布密度函数分别拟合133 个样地的直径分布结果，并用KS 检验法对拟合结果进行判断，结果见表3。正态分布和Logistic 分布的样地接受率仅为30.1%和25.6%，说明两者不适合栎类次生林的直径分布拟合；对数正态分布、Weibull 分布、Gamma 分布和Beta 分布的样地接受率均超过70%，说明这4 个函数在拟合栎类次生林的直径分布时具有一定的适用性；Weibull分布函数的样地接受率最高，达到91.7%，说明Weibull 分布函数在拟合栎类次生林的直径分布时效果更佳。

对Weibull 分布函数3 个参数的分布特征进行分析（表4），最小值参数a 的变化范围在[4.677,6.080]，尺度参数b 的变化范围在[1.439,19.133]，形状参数c 的变化范围在[0.642, 2.016]；形状参数c ＜1 的样地数占总样地的21.8%，1 ≤c ＜3.6的样地占总样地的78.2%，c ＞3.6 的样地数为0，说明湖南省栎类次生林的直径分布以具有正偏的山状曲线为主，反“J ”型分布曲线次之。

表3 分布函数拟合结果Tab.3 Fitting results of the distribution function

表4 Weibull 分布函数的参数统计特征Tab.4 Parameter statistical characteristics of Weibull distribution function

表5 Weibull 参数预估模型Tab.5 Prediction model of Weibull parameter

表6 哑变量模型的拟合结果Tab.6 Fitting results of dummy variable model

3.2 参数预估模型拟合结果

3.2.1 逐步回归参数模型为进一步预测和分析湖南地区栎类次生林的林分直径分布规律，利用通过检验的122 块样地的Weibull 分布函数参数值（a、b、c）分别与林分变量（平均直径D、直径平方D2、总断面积BA、每公顷株数N）的主要指标建立多元逐步回归模型，得到Weibull 参数的逐步回归预估模型。

由表5 可知，入选参数a 预估模型M1 的自变量为总断面积BA，入选参数b 预估模型M2 的自变量为平均直径D，入选参数c 预估模型M3 的自变量为直径平方D2和每公顷株数N；入选自变量在统计学上都具有显著意义，且方差膨胀因子均小于10，不存在共线性问题；参数a、b 预估模型M1、M3 的决定系数R2为0.134、0.258，拟合精度较低，但整体模型具有显著意义。

3.2.2 哑变量参数模型将林分类型哑变量以线性形式引入各参数的多元回归预估模型中，构建各参数的哑变量模型。由表6 可知，相对于参数b 预估模型M1，参数b 的哑变量预估模型M5 的决定系数R2提高了0.104，RRMSE 降低了0.83 个百分点；相对于参数c 预估模型M3，参数c 的哑变量预估模型M6 的决定系数R2提高了0.134，RRMSE 降低了3.18 个百分点；参数a 模型引入哑变量后，模型精度无变化。

3.3 直径分布预测效果的比较

对逐步回归参数模型和哑变量参数模型在预测林分径阶频率的效果进行比较。对两类模型的决定系数R2、SSE 和RRMSE 进行比较，并对模型的平均绝对残差进行差异显著性检验，结果见表7。与逐步回归参数模型相比，哑变量参数模型的决定系数提高了0.085，RRMSE 降低了6.43 个百分点；逐步回归参数模型与哑变量参数模型的平均绝对残差存在显著差异（P=0.025 ＜0.05），说明哑变量参数模型的直径分布预测效果显著优于逐步回归模型。

表7 模型预测效果比较Tab.7 Comparison of model prediction effect

3.4 模型的检验

进一步利用验证数据对2 个模型的预测效果进行检验，绘制2 个模型的预估值与观测值的相关关系图以及残差分布图（图1）。2 个模型的径阶频率预估值与观测值的相关系数均在0.913 以上，预估精度高；残差分布比较均匀，不存在明显异方差，哑变量模型的预测残差分布范围更窄。

图1 预估值与观测值的相关关系及残差分布Fig.1 Correlation and residual distribution between estimated and observed values

4 结论与讨论

4.1 Weibull 函数在栎类的直径分布应用中具有较好的适用性。Carretero 和Alvarez[14]的研究认为，Weibull 函数是预测和管理栎类森林的一个非常有用的工具。本研究中，Weibull 分布函数在模拟栎类次生林的直径分布规律时一样表现出了很好的适用性。在6 个直径分布函数中，Weibull 分布函数的接受率最高，达到91.7%；Gamma 分布函数和对数正态分布函数次之，分别为86.5%和82.0%；Logisitic 分布函数和正态分布函数最低。Rafał[15]的研究表明，Weibull 分布和Gamma 分布适用于冷杉Abies fabri白桦Betula platyphylla混交林多层林分的直径分布模拟，周永奇等[16]在拟合6 年生杉木的直径分布时，发现对数正态分布的效果最好。结合本研究的结果，我们可以认为Weibull、Gamma 和对数正态分布函数在拟合树木的直径分布规律时具有较高的灵活性，最适用的分布函数可能因树种或林分结构的差异而不同。

4.2 在模拟具有定性变量的数据时，哑变量模型能表现出较好的拟合效果。申家朋等[17]运用哑变量模型拟合落叶松的生物量模型时，得出了哑变量模型比一般异速方程具有更好性能的结论。由于没有在分布函数的参数中引入哑变量的相关研究，本研究尝试在参数a、b、c 的回归模型中加入林分类型哑变量，期望能提高分布函数的预测精度。研究发现哑变量的引入确实能显著提高参数b、c 模型的拟合精度，说明林分类型对Weibull分布函数的b，c 参数具有显著影响。同时，相比于逐步回归参数模型，哑变量变量的引入也能显著提高直径分布预测效果，说明栎类次生林的直径分布确实受到林分类型的影响。

4.3 由于栎类次生林的林分结构与地貌结构复杂多样，本研究未能对样地的林分年龄、林层结构以及立地指数等因子进行详细的调查，这也导致构建直径分布模型时的可选择变量较少。后续研究中可以选择林分年龄、立地指数或林层结构等因子为自变量或哑变量，以进一步降低模型的预测误差。