穆喜云 刘清旺 庞勇 胡凯龙 张秋良
(赤峰市林业科学研究院森林生态研究所, 内蒙古·赤峰, 024000)(中国林业科学研究院资源信息研究所) (中国矿业大学(北京)地球科学与测绘工程学院) (内蒙古农业大学林学院)
基于机载激光雷达的森林地上碳储量估测1)
穆喜云 刘清旺 庞勇 胡凯龙 张秋良
(赤峰市林业科学研究院森林生态研究所, 内蒙古·赤峰, 024000)(中国林业科学研究院资源信息研究所) (中国矿业大学(北京)地球科学与测绘工程学院) (内蒙古农业大学林学院)
以内蒙古大兴安岭生态站为研究对象,以2012、2013年的66块样地数据和2012年同步获取的机载LiDAR遥感数据为数据源,分别采用多元线性回归和随机森林回归算法,通过对比不同算法间的估测精度差异,选择更适于研究区的估测方法,实现研究区森林地上碳储量的遥感估测。结果表明:随机森林回归算法的估测精度最优,模型训练精度(R2为0.861,RMSE为11.133 t/hm2,rRMSE为0.279)和预测精度(RMSE为17.956 t/hm2,rRMSE为0.342,估测精度范围40.898%~95.129%,平均估测精度76.385%)均优于多元线性回归的模型训练结果(R2为0.676,RMSE为11.846 t/ha,rRMSE为0.351)和模型预测结果(RMSE为22.703 t/hm2,rRMSE为0.636,估测精度范围45.824%~94.752%,平均估测精度69.859%)。机载LiDAR数据的高度变量和密度变量与森林地上碳储量均具有显著相关性,高度变量相关性更为显著。随机森林回归算法对区域森林地上碳储量的估测结果趋于真实分布情况,效果比较理想。
机载LiDAR;随机森林回归;多元线性回归;森林地上碳储量
In the Great Khingan State Ecosysterm Research Station in Inner Mongolia, we chose a more suitable method to estimate forest aboveground carbon storage with the plots data from 2012, 2013 and the synchronously acquired airborne LiDAR data of 2012 as data sources in the study area, by comparing the model estimated accuracy of multiple linear stepwise regression and random forest regression algorithms to realize the remote sensing estimation of forest aboveground carbon storage of study area. The random forest regression algorithm was training higher accuracy (model training accuracyR2=0.861, RMSE=11.133 t/ha andrRMSE=0.279; testing accuracyR2=0.826, RMSE=17.956 t/ha,rRMSE=0.342, the estimate accuracy range is in 40.898%-95.129% and its average estimate accuracy is 76.385%) than the multiple linear stepwise regression algorithm (model training accuracyR2=0.676, RMSE=11.846 t/ha andrRMSE=0.351; testing accuracyR2=0.727, RMSE=22.703 t/ha,rRMSE=0.636, the estimate accuracy range is in 45.824%-94.752% and the average estimate accuracy is 69.859%). The percentile height and density variables of LiDAR data had significant correlation with the forest aboveground carbon storage, percentile height variable correlation is more significant. Therefore, the estimate results of total forest carbon storage on regional scale using random forest regression algorithm was closer to its true distribution with ideal effects.
森林作为陆地生态系统的主体,蓄储了全球陆地生态系统中约80%以上的碳[1],作为陆地生态系统中最大的碳库,对吸收CO2等温室气体,减缓气候变化发挥着关键作用。森林碳储量是判断系统中碳源和碳汇的关键因子[2],也是森林与环境间物质循环和能量流动复杂关系的衡量指标,对全球碳收支平衡、气候变化及全球碳循环研究具有重要意义。遥感作为有效的技术手段,解决了大区域定量估算问题,减少了对森林的破坏性,提高了工作效率。但众多遥感数据中,光学遥感数据含有丰富的光谱信息,数值获取受天气条件限制。激光雷达(LiDAR)是一种新兴的技术手段,通过测算激光信号由传感器到达目标物之间的时间进行距离换算的一种主动遥感技术,被广泛地应用于城市三维建模、资源勘探、土地利用、古建筑物保护与修缮、军事及森林参数估算等方面。近年来LiDAR已成功应用于林业领域,对森林生态系统小气候、径流、能量循环、生物多样性及立地质量评价具有重要的研究意义[3],凭借其获取植被垂直结构信息的优势,实现了森林参数的定量测量与反演,估测精度可达亚米级[4]。
近年来,一些学者将支持向量机算法[5]、最近邻算法[6]和随机森林算法[7-11]等非参数化机器学习算法应用于森林生物量遥感估算研究中。
随机森林是一种集成学习方法,最早由Leo Breiman[12]提出,通过多个决策树的组合提高模型预测精度,其优点体现在处理大数据时,学习过程快,效率高[13]。决策树的非参数化方法具有显著的优势,不需要假设先验概率分布,具有更好的灵活性和鲁棒性。
以内蒙古大兴安岭生态站寒温带典型森林为研究对象,利用机载LiDAR数据结合随机森林回归算法对研究区森林地上碳储量进行估测。通过实测数据进行验证,随机森林回归算法表现出了较高的模型拟合效果,为提高研究区森林地上碳储量估测精度提供参考数据。
研究区位于根河市的内蒙古大兴安岭森林生态系统国家野外科学观测研究站,简称“大兴安岭生态站”。试验区面积102 km2,地理坐标121°30′~121°31′E,50°49′~50°51′N,高程变化范围为810~1 116 m,是我国目前纬度最高的森林生态系统野外科学观测站。属寒温带湿润气候区,典型寒温带北方森林,森林覆盖率为75%。主要森林类型为针叶林(兴安落叶松(Larixgmelinii))、阔叶林((Betulaplatyphylla))和混交林(兴安落叶松-白桦),有少量山杨(PopulusdavidianaDode)伴生[14]。
2.1 数据获取
机载LiDAR数据:2012年8月至9月在研究区开展飞行试验,以“运-5”飞机搭载Leica ALS60机载雷达系统,对地发射激光信号(波长1 550 nm,频率100~200 kHz,扫描角±35°,平均飞行高2 700 m,飞行速度220 km/h)共获得32条航带数据,覆盖面积213 km2,获取的LiDAR数据的航带平均扫描宽度1 000 m,航带最高重叠率为80%,激光点云平均密度为5.6个/m2。
地面调查数据:2012年8—9月份,在大兴安岭生态站研究区内,设置固定样地(40 m×40 m)48块,2013年8月设置45 m×45 m的固定样地9块和临时样地9块。设置的66块样地,以针叶林为主,针阔混交林其次,阔叶林数量较少,涵盖幼龄林、中龄林和成熟林。样地每木调查因子包括:胸径、树高、枝下高、冠幅、郁闭度、覆盖度等林分基本信息。临时样地仅进行每木胸径检尺,按照径阶抽取部分林木测定树高和冠幅。
胸径尺测定每木胸高处直径,激光测高仪(USA)测定树高和枝下高,皮尺测定东西、南北两个主方向的冠幅,对样地的四角分别进行差分GPS(DGPS)定位,精度控制在米级(1 m以内)。
2.2 数据预处理
机载LiDAR数据:对机载LiDAR数据进行去噪、分类等预处理。主要进行地面点、植被点的提取和分类。将研究区域范围内的点云数据进行归一化处理,去除地形起伏等因素对LiDAR高度变量提取过程中精度的影响。机载LiDAR的第一回波在多次回波中较稳定,故采用第一回波进行森林参数运算。本文定义高于地面2米的回波点为植被点[15],对点云数据进行归一化处理,提取各样地的百分位高度变量5%(h5)、10%(h10)、15%(h15)……95%(h95),最大高度(hmax)、平均高度(hmean);百分位密度变量,定义为分位高度内的点占所有点的比例,即5%(d5)、10%(d10)、15%(d15)……95%(d95)和变量c,c为所有大于2.0 m的回波点占所有点云的比例[16]。百分位数能很好地体现激光点云的分布情况,样本分布和位置的统计量由分位数来描述。分位数为p,定义为对于总体X和给定的p,如果存在使得P(X≤θp)=P,则θp为总体X的p分位数。先对植被点云高度进行排序,然后计算总高度的p处分位树高。
地面调查数据:以森林地上碳储量为研究对象,根据生物量和碳储量的关系,首先计算森林地上生物量,利用生物量方程分树种计算每木的生物量,然后累加得到样地尺度的森林地上生物量。生物量方程采用陈传国等[17]幂函数方程。以获取的生物量乘以含碳转换率,含碳转换率采用国际上常用的转换系数0.5[18],计算样地水平内的森林地上碳储量。待测生物量方程如下:
W=aDb。
(1)
式中:W为待测生物量,D为胸径,a和b为方程系数(见表1)。
以森林地上碳储量为研究对象,分别采用多元线性逐步回归法和随机森林回归法,结合样地实测数据,对研究区的森林地上碳储量估测。选取43个样本数据进行模型的构建,对比分析2种回归算法的R2变化情况,选择更适合研究区森林地上碳储量估测的遥感模型。
表1 相关树种生物量方程系数
2.3 多元逐步回归
以提取的LiDAR变量和计算获得的样地森林地上碳储量进行多元逐步回归分析,采用对数变换的形式进行回归建模。通过逐步渐进的方式筛选变量因子,直到满足F值较大且达到t检验的显著性水平(p<0.05)则进入模型,否则剔除[19]。具体回归方程如下:
lnWi=β0+β1lnh5+β2lnh10+…+β19lnh95+β20lnhmean+β21lnhmax+β22lnd5+β23lnd10+…+β40lnd95+β41lnc+ε。
(2)
式中:Wi为地面实测生物量;β0、β5、…、β41为待定的回归系数;ε为误差项。
2.4 随机森林回归
首先,从训练样本数据集中,随机有放回地抽取N个样本;从特征变量数据集中,随机地抽出M个变量;依据上述得到的子集实施CART方法(无需剪枝),从而形成一个单独的决策树;重复上面步骤X次,就构建了有X棵树的随机森林模型。在对新数据进行预测分类时,由X棵树分别预测,综合最终投票结果,获取预测结果。
本文基于R语言进行随机森林算法的实现,R语言是一种用于统计分析和绘图的语言和操作环境。本研究选择randomForest函数包进行的随机森林回归。
R语言的randomForest函数在进行随机森林回归时,程序通过两个指标判断每个自变量的重要性,对自变量进行选择,一是自变量出现在袋外数据时,模型的MSE增量,二是自变量出现在袋外数据时,对模型树节点纯度的影响力,由残差平方和来衡量,对应数值越高,该变量的重要性越大,程序会选择进入模型的自变量。通过构建不同的模型,进行模型运算,最终输出模型的预测结果。
2.5 模型评价方法
通常采用决定系数(R2),均方根误差(RMSE)和相对均方根误差(rRMSE)对回归模型进行模型拟合优度评价[20]。
R2的数值越大越好,越大表示模型的拟合能力越强,RMSE和rRMSE越小代表模型的预测能力越强。由于RMSE受数量级的影响,本文对变量进行过对数变换,因此,更进一步地选择rRMSE对模型预测能力进行评价。
(3)
(4)
(5)
如表2所示,多元逐步回归(MLR)的模型相关系数R为0.822,自变量与因变量间显著相关性较高,决定系数R2为0.676,可以解释总体变异的67.6%,训练RMSE为11.846 t/hm2,模型验证R2为0.727,验证RMSE为22.703 t/hm2,验证rRMSE为0.636,验证样本的估测精度范围为45.824%~94.752%,平均估测精度为69.859%。
随机森林回归(RF),模型训练R2为0.861,可以解释总体变异的比例为86.1%,训练RMSE为11.133 t/hm2,模型验证R2为0.826,验证RMSE为17.956 t/hm2,验证rRMSE为0.342,模型估测精度范围为40.898%~95.129%,平均估测精度为76.385%。
表2 森林地上碳储量模型评价指标运算结果
RF回归模型的训练精度和预测精度均优于MLR回归模型的运算结果。本文中采用相同的训练样本数据和验证样本数据,在统一数据选择的基础上,对两种不同的模型运算方法进行精度对比,由此可见,RF模型的训练和验证R2和RMSE效果较理想,用于估测森林地上碳储量可行,其模型的学习能力比MLR模型R2提高了18.5%,RMSE提高了0.713 t/hm2,平均估测精度提高了6.526%,但MLR模型的最低估测精度高于RF模型的最低估测结果,两种模型的最高估测精度差异不显著。虽然RF模型构建的树较复杂,此算法对数据的学习性较好,但由于抽样过程随机,属于暗箱操作,如与噪声(即误差)部分过度学习,即会导致数据估测结果的整体偏差。
如图1所示,RF估测结果与实测值间的差异性明显小于MLR的估测结果。各别样点的实测值与估测值偏差较大,估测结果偏低,由于这些样地内单木株数较少,且为成熟林,所以样地实测生物量较高;而机载点云在获取样地内点云分位变量时,对冠顶的错失,导致对样地内分位高度统计的误差,从而增加了模型的估测误差。总之,两模型的预测值均偏低,如图2所示,大部分的数据点分布于对比线上方,模型估测值低于实测值。本文中实测值采用的单因素生物量方程,由此计算的生物量必然存在一定的误差,而含碳系数统一为0.5,按照不同树种,不同林龄其含碳率是各不相同的,因此又造成了误差的累积,在模型的学习过程中,随机的训练样本数据,使得模型对该部分数据的学习能力较强,但是模型的普适性,仍然存在一定的局限性。
图1 各验证样本点的森林地上碳储量估测
由RF模型运算生成的研究区森林地上碳储量空间等级分布图(见图3),最大估测值86.78 t/hm2,单位面积碳储量为38.299 t/hm2,总碳储量为394 037.454 t。MLR模型对研究区域范围的运算结果最大估测值为59.10 t/hm2,总碳储量估测值为169 330.987 t,单位面积碳储量估测值为16.586 t/hm2。本文以2005年小班数据为参考,将小班蓄积进行换算,得到研究区范围内的总碳储量为247 542.6 t,单位面积碳储量为19.908 t/hm2。MLR估测结果与小班结果差异性较大,本文中的LiDAR数据为2012年获取,与小班数据获取的时间间隔较长,这段时间内,森林地上碳储量以一定的速率进行增汇,总碳储量应呈现增长的趋势,而MLR估测结果较低,低于2005年的森林地上碳储量,RF估测结果符合该区域碳储量增汇的情况,具体数值估算精度,有待于进一步结合林业部门的最新调查数据进行对比分析。MLR估测结果的趋势分布与RF的估测结果相一致,表现为由北向南逐渐递减,森林地上碳储量最高值分布区域位于北部的原始林区,人为干扰较少,该区域碳密度较大,而靠近公路的区域较易受到人为干扰与破坏,导致森林地上碳储量相对较低,碳密度较小,如图3中碳密度的局部分布情况(采伐带)清晰可见。
图2 MLR和RF模型的森林地上碳储量估测
图3 RF模型估测研究区森林碳储量等级分布
以机载LiDAR数据结合地面调查数据,对根河内蒙古大兴安岭生态站,具有典型区域代表性的寒温带研究区进行森林地上碳储量估测,采用两种回归算法进行对比分析,RF回归模型的估测效果较理想,估测精度均优于MLR模型的估测结果。在相同样本的前提下,随机森林回归算法对参与建模的样本数据具有较强的学习能力,泛化精度较稳定,验证样本点的估测值未出现较大偏差。RF算法更适合处理多自变量的问题,可根据变量的重要性,得出各自变量对因变量的重要性排序,选择进入模型,避免了信息的冗余,提高了模型的运算效率。在以往的研究中,RF模型的估算结果出现过拟合现象[21-22],本文中未出现过拟合现象原因是数据采集、抽样方法以及运行程序有关。
随机森林回归算法的估测结果优于李明阳等[23]在福建武夷山筛选出的最优人工神经网络碳储量遥感估测模型的结果。由此可见,随机森林回归算法具有一定的优越性,但是其运算过程属于暗箱操作,回归模型不可见,参与建模的样本随机性较大。因此,随机森林回归算法的研究领域仍具有一定的提升空间,算法原理性及参数优选意义方面有待进一步的深入研究。
使用的LiDAR数据,虽然在估算森林生物量、碳储量方面具有较好的应用前景,但其也存在一定的局限性,数据获取成本较高等[24]。有学者利用HJ星数据进行生物量和碳密度制图,其运算结果能够满足反演制图的需要[25]。由此可见,联合不同数据源,有助于提高森林参数的估测精度。为保证模型的稳定性和可靠性,在后续的研究中,结合森林调查数据和充足的样数量,优化抽样算法,以提高模型的鲁棒性和普适应。
遥感估测手段,从定性研究到定量研究,从小区域到大尺度乃至全球范围的估测研究,为林业研究提供了有效的技术手段,多传感器的联合估算,通过联立方程组模型的方式进行多元化的森林碳储量估测[26]。本文仅以小区域范围的研究为基础,探讨随机森林回归算法的可行性,为下一步的研究奠定基础。
[1] 周广胜.全球碳循环[M].北京:气象出版社,2003.
[2] 孟宪宇.测树学[M].北京:中国林业出版社,1995.
[3] HANSEN A J, PHILLIPS L B, DUBAYAH R, et al. Regional-scale application of lidar: Variation in forest canopy structure across the southeastern US[J]. Forest Ecology and Management,2014,329(1):214-226.
[4] LEFSKY M A, COHEN W B, HARDING D J, et al. Lidar remote sensing of above-ground biomass in three biomes[J]. Global Ecology and Biogeography,2002,11(5):393-399.
[5] LI M, IM J, QUACKENBUSH L J, et al. Forest biomass and carbon stock quantification using airborne lidar data: A case study over huntington wildlife forest in the adirondack park[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2014,7(7):3143-3156.
[6] GUO Y, TIAN X, LI Z, et al. Comparison of estimating forest above-ground biomass over montane area by two non-parametric methods[C]//Geoscience and Remote Sensing Symposium (IGARSS), 2014 IEEE International. IEEE,2014:741-744.
[7] 孙雪莲,舒清态,欧光龙,等.基于随机森林回归模型的思茅松人工林生物量遥感估测[J].林业资源管理,2015(1):71-76.
[8] 孙雪莲,舒清态,欧光龙,等.基于随机森林回归的不同龄组思茅松人工林生物量遥感估测[J].广东农业科学,2015,42(15):148-153.
[9] ZHANG J, HUANG S, HOGG E H, et al. Estimating spatial variation in Alberta forest biomass from a combination of forest inventory and remote sensing data[J]. Biogeosciences,2014,11(10):2793-2808.
[10] TORRESAN C L, STRUNK J, ZALD H S J, et al. Comparing statistical techniques to classify the structure of mountain forest stands using CHM-derived metrics in Trento province (Italy)[J]. European Journal of Remote Sensing,2014,47:75-94.
[11] AHMED O S, FRANKLIN S E, WULDER M A, et al. Characterizing stand-level forest canopy cover and height using landsat time series, samples of airborne LiDAR, and the random forest algorithm[J]. ISPRS Journal of Photogrammetry and Remote Sensing,2015,101:89-101.
[12] BREIMAN L. Random forests[J]. Machine Learning,2001,45(1):5-32.
[13] 李欣海.随机森林模型在分类与回归分析中的应用[J].应用昆虫学报,2013,50(4):1190-1197.
[14] 张秋良,王立明.内蒙古大兴安岭森林生态系统研究[M].北京:中国林业出版社,2014.
[15] NILLSSON M. Estimation of tree heights and stand volume using an airborne lidar system[J]. Remote Sensing of Environment,1996,56(1):1-7.
[16] NASSET E, GOBAKKEN T. Estimation of above and below ground biomass across regions of the boreal forest zone using airborne laser[J]. Remote Sensing of Environment,2008,112(6):3079-3090.
[17] 陈传国,朱俊凤.东北主要林木生物量手册[M].北京:中国林业出版社,1989.
[18] KNIGGE W, SCHULZ H. Grundriss der forstbenutzung: entstehung, eigenschaften, verwertung und verwendung des holzes und anderer forstprodukte[M]. Hamburgund Berlin: Verlag Paul Parey,1966.
[19] 穆喜云,张秋良,刘清旺,等.基于激光雷达的大兴安岭典型森林生物量制图技术研究[J].遥感技术与应用,2015,30(2):220-225.
[20] 庞勇,李增元.基于机载激光雷达的小兴安岭温带森林组分生物量反演[J].植物生态学报,2012,36(10):1095-1105.
[21] ELITH J, GRAHAM C H. Do they? How do they? WHY do they differ? On finding reasons for differing performances of species distribution models[J]. Ecography,2009,32(1):66-77.
[22] 穆喜云.森林地上生物量遥感估测方法研究[D].呼和浩特:内蒙古农业大学,2015:62-63.
[23] 李明阳,吴军,余超,等.福建武夷山自然保护区森林碳储量遥感估测方法与空间分析[J].南京林业大学学报(自然科学版),2014,38(6):6-10.
[24] 曹林,佘光辉,代劲松,等.激光雷达技术估测森林生物量的研究现状及展望[J].南京林业大学学报(自然科学版),2013,37(3):163-168.
[25] 曹林,阮宏华,代劲松,等.基于HJ-1A/1B CCD数据的区域银杏生物量估测及碳密度制图[J].南京林业大学学报(自然科学版),2013,37(2):8-14.
[26] 肖湘,王西峰,范文义,等.黑龙江省区小兴安岭森林生态系统碳密度遥感估算[J].东北林业大学学报,2015,43(4):127-130.
Forest Aboveground Carbon Storage Using RF Algorithmic Model and Airborne LiDAR Data//
Mu Xiyun; Liu Qingwang, Pang Yong; Zhang Qiuliang
(Institute of Forestry Ecology, Chifeng Academy of Forestry, Chifeng 024000, P. R. China)(Institute of Forest Resource Information Techniques, Chinese Academy of Forestry); Hu Kailong(China University of Mining & Technology (Beijing))(Inner Mongolia Agricultural University)//Journal of Northeast Forestry University,2016,44(11):52-56.
Airborne LiDAR data; Random forest regression; Multiple linear regression; Forest aboveground carbon storage
1)国家高技术研究发展计划(863计划)项目(2013AA12A302);国家重点基础研究发展计划(973计划)项目(2013CB733404)。
穆喜云,女,1987年11月生,赤峰市林业科学研究院森林生态研究所,助理研究员。E-mail:xiyunmuyd@126.com。
刘清旺,男,中国林业科学研究院资源信息研究所,助理研究员。E-mail:liuqw@caf.ac.cn。
2016年5月24日。
S757
责任编辑:王广建。