赵文纯 张再鑫 刘检明 赖永超
摘 要: 以湖北省赤壁市国有林场40块杉木人工林实测数据为例,运用随机森林方法,以胸径、优势树高、优势胸径为自变量,建立树高预测模型。首先根据随机森林的置换精度重要性筛选出建模的自变量,并确定决策树的数量和竞争节点变量数,得到决定系数R2为0.945 0,均方误差MSE为2.696 6的随机森林树高预测模型。利用检验数据对随机森林树高预测模型和传统树高预测模型分别进行精度检验。结果表明:随机森林模型的拟合效果与预测效果都优于该传统树高模型,随机森林模型可以作为有效的树高预测技术。
关键词: 杉木;标准树高曲线;随机森林
中图分类号:S757;S791.27 文献标识码:A 文章编号:1004-3020(2021)05-0020-04
Generalized Height-diameter Model for Cunninghamia lanceolata Based on Random Forest
Zhao Wenchun Zhang Zaixing Liu Jianming Lai Yongchao
(Hubei Provincial Forestry Investigation and Planning Institute Wuhan 430079)
Abstract:
Taking the measured data of 40 Cunninghamia lanceolata plantation plots in the national forest farm of Chibi City,Hubei Province as an example,a tree height prediction model was established by using the random forest method and taking the DBH,dominant tree height and dominant DBH as independent variables.First,the independent variable for modeling was selected,then,number of trees and number of predictors sampled for spliting at each node were determined,then,an optimum random forest model was developed,with a determinate coefficient of 0.945 0 and error of mean square of 2.696 6.And then,it was compared with one traditional generalized height-diameter equation,the validation datasets were used to test the models,respectively.The fitting effect and prediction effect of random forest are better than the traditional equation,and random forest model can be used as effective tree height prediction technology.
Key words: Cunninghamia lanceolata;generalized height-diameter model;random forest
树高和胸径是两个重要的林分调查因子,常用于预测林分生产力和树木材积。一般而言,林木胸径的测量简单、方便、结果准确,而在林分中树高的测量较为费时费力,比较复杂。因此在林分调查中,一般通过先测量部分林木的胸径和树高,建立树高胸径的回归方程,然后预测缺失的树高。
树高和胸径的关系会受到立地条件、林分条件、营林措施的影响[1-2],不同样地间的树高和胸径关系通常存在着较大的差异。而仅以胸径为自变量的简单模型不能描述不同林分状况下树高和胸径关系的差异。仅以胸径为自变量的普通树高曲线需为每个林分建立不同的模型,因此,其应用范围非常有限。而加入了林分因子的标准树高曲线可适用于更广的区域[3-5]。传统树高曲线建模,多运用与树高生长相关的各因子,建立线性或非线性曲线方程。目前标准树高曲线建模体系主要包括传统模型、神经网络和混合模型3种方法[6]。
随机森林是一种机器学习方法,可以应用于分类和回归,其因高效和准确的特点,越来越多地应用到各行各业中[7,8]。近年来,随机森林逐步被应用到林业中来,张雷等将随机森林算法应用于云南松的分布模拟[9],梁慧玲等将随机森林算法应用于林火预测[10],王云飞等将随机森林算法应用于地上生物量的遥感反演[11],张晓羽等将其应用于遥感影像分类[12]。国内将随机森林算法应用于标准树高曲线的研究还报道较少。采用随机森林方法建立了杉木的标准树高曲线模型,探讨了随机森林方法在树高估测上的可行性,在树高预测方法上进行了探索。
1 研究区概况
研究区位于湖北省咸宁市下属的县级市赤壁,赤壁市地处湖北省东南部,长江中游的南岸,为幕阜低山丘陵与江汉平原的接触地带,地势由南向北逐渐倾斜,南部为海拔500 m左右的低山群,中部为丘陵地带,北部长江沿岸地区为海拔50 m左右的冲积平原。土壤以红壤土为主,少量分布有潮土。属亚热带季风气候,温暖湿润,雨量充沛,四季分明,日照充足,年平均氣温16.9°C,年平均无霜期247~261 d,降雨量1 251~1 608 mm。
2 研究方法
2.1 数据获取
选取分布于赤壁市国有林场的40块杉木纯林样地(3 765株),样地大小为20 m×20 m或20 m×30 m,实测样地内杉木的胸径与树高。杉木起测胸径为2 cm。通过参考国内外标准树高曲线与常用方程[13],选取胸径(D)、优势胸径(Dt)、优势树高(Ht)、样地平均胸径(Dg)、样地单位胸高断面积(BA)、林分密度(SPH)等因子作为备选自变量。其中优势胸径和优势树高的值,分别为样地中最大胸径和最大树高5株树的平均值[3]。本研究以32块样地的2 777株树作为建模数据,以8块样地的988株树作为检验数据(表1)。
2.2 随机森林方法
随机森林是由Leo Breiman和Cutler Adele在2001年开发完成的一种数据挖掘方法,它是一种现代分类和回归技术[9],随机森林利用bootstrap重抽样方法从原始样本中抽取多个样本,然后对每个bootstrap样本进行决策树建模,组合多棵决策树的预测,最后通过投票得出最终预测结果。大量研究证明随机森林具有很高的预测准确率,并且随机森林还能够处理自变量有高阶交互作用及自变量相关的问题。
2.3 模型构建
本研究中随机森林树高模型的构建是通过R软件中的random Forest包来实现的。首先,通过importance参数提供的各自变量影响力分析结果,选出合适的自变量。然后,调试ntree和mtry这两个关键参数。ntree是决策树的数量;mtry是节点竞争变量数目[11]。最后,通过选出的自变量和确定的ntree与mtry值构建出随机森林树高模型。
模型评价:采用决定系数(R2)和均方误差(MSE)作为模型评价指标。
R2=1-∑ni=1yi-y︿i2/∑ni=1yi-y-2
MSE=1n∑ni=1yi-y︿i2
式中:n为样本数,yi、y-、y︿i分别为实测值、实测值平均值和模型预测值。
3 结果与分析
3.1 自变量的确定
变量重要性,特别是随机森林所有的置换精度重要性度量是非常有用的工具。其原理为,随机撤掉某变量,这时如果预测精度大大降低,则说明该变量特别重要。除了关于精度降低的重要性之外,还有关于变量拆分节点不纯度的总降低的重要性,对于回归是按照节点平均MSE降低来度量的。
该表就是这两种重要性,第一列是关于置换精度的,第二列是关于节点纯度的,都是值越大,对结果的影响越大,重要性越高。因此,自变量重要性大小顺序为D>Ht>Dt>Dg>BA>SPH。
图1是利用十折交叉验证得到的变量个数(横坐标)与误差(MSE)(纵坐标)的关系,图中变量数目变化的次序是按照变量重要性确定的,从图1可以看出,当变量数目达到3以后,误差基本不再下降。因此结合自变量大小顺序和误差随变量个数,将重要性最大的前三个自变量D(胸径)、Ht(优势树高)、Dt(优势胸径)作为模型输入的自变量。
3.2 决策树数目和节点最优竞争变量数目的确定
随机森林随着决策树的数目(ntree)增加,误差会降低,而随着变量的增加,误差也会降低。从图2中可以看出,当决策树数目达到1 000时,误差基本就不再下降,因此将决策树数目值定为1 000。
R中random Forest关于节点竞争变量数目(mtry)选项的默认值为自变量数目的1/3,但这并不一定对所有数据都合适。表3是OOB误差随的变化情况,可以看出,对于本数据,当节点的竞争变量数目为2时,误差是最小的,因此节点最优竞争变量数目为2。
3.3 最优模型
由于随机森林的方法是取多个决策树所产生的结果的平均值作为最终预测值,因此,不会产生一个具体的方程形式。本研究中最优随机森林模型为以胸径(D)、优势胸径(Dt)、优势树高(Ht)为自变量,ntree设为1 000,mtry设为2建立的模型,该模型的决定系数R2=0.945 0,均方误差MSE=2.696 6。
3.4 模型的检验和比较
根据随机森林树高模型所选用的三个自变量:胸径(D)、优势树高(Ht)、优势胸径(Dt),在研究中选取了一个使用相同自变量的传统标准树高曲线模型M[1],使用相同的建模数据预估该模型的各参数值,并使用同一检验数据分别代入这两个模型进行树高预测,最后对它们的预测结果进行分析。
H=Htea0da1+a2Htea0Dta1+a2Ht (M)
从表4中可以看出,在模型的拟合效果部分,随机森林模型的决定系数R2大于传统模型,隨机森林模型的均方误差MSE小于传统模型,说明随机森林模型的拟合效果优于传统模型。在模型的预测效果部分,随机森林模型的决定系数R2同样大于传统模型的,随机森林模型的均方误差MSE小于该传统模型,说明随机森林模型的模拟效果也优于该传统模型。
运用两种模型对检验数据的树高值进行预测,两种模型的残差分布如图3所示。可以看出随机森林模型的残差分布均匀,没有出现发散的情况,说明模型的预测效果较好。
4 结论
本研究基于32块样地实测数据作为训练数据,根据随机森林自带的自变量重要性和误差随自变量个数变化的情况,选出合适的自变量。经过对随机森林模型参数的优化,最终以胸径、优势树高、优势胸径作为自变量,以树高作为因变量,构建了基于随机森林方法的杉木标准树高曲线模型,并结合使用相同自变量的一个传统树高模型,将剩下8块样地实测数据作为检验数据,分别对两个模型进行检验,对比分析两者的拟合效果和预测效果,发现随机森林模型的拟合效果和预测效果都优于使用相同自变量的传统树高模型。
胸径和树高一直存在密切的关系,优势胸径和优势树高在一定程度上反映了林地的立地质量,因此,本研究中将胸径、优势树高、优势胸径选为自变量,是具有生物学意义的。本研究建模数据中起测胸径为2 cm,包含了杉木幼树,说明随机森林模型也可以较好的预测幼树的树高。随机森林树高模型在预测树高时,需要测量的数据为胸径、优势胸径、优势树高,这些数据是易于测量的,建立的随机森林树高预测模型可在本研究区内应用。本研究使用随机森林建立树高预测模型的方法可以应用于其他地区树高预测模型的構建上。因此,随机森林树高模型可以作为一个实用、有效预测树高的新方法。
参 考 文 献
[1]Krumland B E,Wensel L C. A generalized height-diameter equation for coastal California species[J]. Western Journal of Applied Forestry,1988,3(4):113-115.
[2]臧颢,雷相东,张会儒,等.红松树高-胸径的非线性混合效应模型研究[J].北京林业大学学报,2016(6):8-16.
[3]丁贵杰.贵州杉木人工林标准树高曲线模型[J].贵州农学院学报,1996(4):16-21.
[4]王明亮,唐守正.标准树高曲线的研制[J].林业科学研究,1997(3):36-41.
[5]董云飞,孙玉军,王轶夫,等.基于BP神经网络的杉木标准树高曲线[J].东北林业大学学报,2014(7):154-156,165.
[6]董云飞,孙玉军,许昊.3种标准树高曲线建立方法的比较[J].西北农林科技大学学报(自然科学版),2015(11):82-90.
[7]方匡南,吴见彬,朱建平,等.随机森林方法研究综述[J].统计与信息论坛,2011(3):32-38.
[8]李欣海.随机森林模型在分类与回归分析中的应用[J].应用昆虫学报,2013(4):1190-1197.
[9]张雷,王琳琳,张旭东,等.随机森林算法基本思想及其在生态学中的应用——以云南松分布模拟为例[J].生态学报,2014(3):650-659.
[10]梁慧玲,林玉蕊,杨光,等.基于气象因子的随机森林算法在塔河地区林火预测中的应用[J].林业科学,2016(1):89-98.
[11]王云飞,庞勇,舒清态.基于随机森林算法的橡胶林地上生物量遥感反演研究——以景洪市为例[J].西南林业大学学报,2013(6):38-45,111.
[12]张晓羽,李凤日,甄贞,等.基于随机森林模型的陆地卫星-8遥感影像森林植被分类[J].东北林业大学学报,2016(6):53-57,74.
[13]魏晓慧,孙玉军,马炜.基于Richards方程的杉木树高生长模型[J].浙江农林大学学报,2012(5):661-666.
(责任编辑:郑京津)