李世波 ,林 辉 ,王光明 ,程韬略
(1.中南林业科技大学 林业遥感信息工程研究中心,湖南 长沙 410004;2.贵州林业勘察设计有限公司,贵州 贵阳 550003;3.醴陵市林业局,湖南 醴陵 412200)
森林蓄积量是指森林中全部立木材积之和,伴随“3S技术”(遥感技术、地理信息系统和全球定位系统)的发展与计算机水平的提高,数学模型在该领域的应用研究越来越深,为森林蓄积量的实时估测、快速监测带来了新的方法,根据现有文献和书籍表明,遥感技术应用在森林蓄积量的估测日趋广泛[1-6]。
遥感估测森林蓄积量常用遥感影像为Landsat TM/ETM/OLI、Modis、SPOT5、IKONOS等。 遥感因子从单一的光谱信息逐渐向植被指数、纹理因子、地形因子等多特征变量发展,且随着变量类型的增加会提升蓄积量估测的准确度[7-12],但引入的遥感因子并不是越多越好,且引入的因子会存在共线性问题,过多会造成数据冗余,增加计算量,过少会降低估测精度,针对变量选择的多少,有学者从向前选择法、向后淘汰法、逐步删除法、Person相关性、岭估计、方差膨胀因子等方法上开展研究,其中,方差膨胀因子和相关性应用较为广泛[13-15]。
遥感估测森林蓄积量采用的方法由经典的多元线性回归模型向非线性回归模型转变,如BP、RBF神经网络、k近邻分类(KNN)、空间地理加权等,已证明非线性回归模型估测精度较优[16-20]。选用线性回归建模时,多光谱波段的光谱信息与植被指数间存在一定的自相关性和共线性,这种情况会使模型估测精度不稳定。BP神经网络用于森林蓄积量的估测存在太多的不确定性,如学习效率、隐含层神经元个数、训练函数的选择等都要根据具体情况而定,因其隐含层存在黑箱操作,对于输入和输出间的关系无法准确表达和具体分析。KNN方法受到的影响因素较多,如最邻近K的大小、距离度量函数的选择以及影像波段的选取等,且计算量较大。目前,随机森林模型在遥感影像分类上应用较多,而在估测上的应用相对较少,且国产GF-1遥感影像用于森林蓄积量的估测研究较少。本研究以醴陵市为研究区,利用16 m分辨率的国产GF-1遥感影像为数据源,提取影像的光谱信息、植被指数、纹理因子,分别采用多元逐步回归、偏最小二乘回归、随机森林模型估测研究区森林蓄积量。
本研究选取湖南省醴陵市为研究区(图1)。醴陵市位于湖南省东部,东邻江西省萍乡市,西界株洲县,北接浏阳市,南连攸县,地理坐标为113°09′49″~ 113°45′43″E, 27°22′15″~ 27°58′07″N。研究区内森林植被属中亚热带常绿阔叶林带。主要植被类型有次生常绿阔叶林、落叶阔叶林、针阔混交林和竹林等类型。树种资源丰富,有木本植物132科、433属、727种,主要树种有樟树、马尾松、杉木、湿地松等。北部有海拔800 m以上的箭杆山、纱帽尖、鹿角尖和海拔500~800 m的赵公山、彰仙岭等山峰,西南部有市内最高峰明月峰,海拔859.6 m,还有海拔近800 m的天华台、军山等山峰。醴陵市境内地势呈北部与西南部隆起双向中部腹地四级阶梯状倾斜,地貌以山丘和山地为主,此地貌占醴陵市总面积的27.1%。
图1 研究区位置Fig.1 Location of the study area
样地数据来源于醴陵市二类调查抽样调查数据,在研究区内按照800 m×900 m系统布点,从北至南、从西至东编号,预估蓄积量变动系数为0.6,可靠性为95%,剔除无效点(含采伐迹地、火烧迹地、未成林造林地、疏林地、非林地和样地数据异常等),实际得到的合格样地共计1 215个(图2)。调查时间为2013年8—11月。
图2 样地位置分布Fig.2 The sample position distribution diagram
样地调查采用角规测树方法进行,调查因子包括每个样地的地理坐标、郁闭度、树种、林分类型、胸径、树高等,利用《湖南省森林资源调查常用数表》查询单木材积,累加得到样地森林蓄积量。
将样地按照7:3的比例随机划分为建模样本与检验样本,得到850个建模样本和365个检验样本。
以2013年10月5日获取的醴陵市GF-1遥感影像(1景)为数据源,分辨率为16 m,投影为UTM。首先,对原始影像进行辐射定标,利用ENVI 5.3 Radiometric calibration 工具对GF-1遥感影像进行辐射定标,将影像的无量纲值(DN)转换为辐射亮度值。其次,采用ENVI 5.3 FLAASH大气校正模块对辐射定标后的遥感影像进行大气校正,得到表征真实地物的反射率图像。最后,以用于二类调查的高分辨率影像(TIF格式,西安80坐标系)为基础影像,通过选取道路、河流、池塘、农田等交叉点来对研究采用的GF-1遥感影像进行几何精校正。选取分布均匀的地面控制点78个,几何精校正误差控制在1个像元内,将影像转换为西安80投影坐标系,利用醴陵市行政区矢量图,裁剪几何精校正后的遥感影像,得到研究区范围的遥感影像(图3)。
图3 研究区预处理遥感影像Fig.3 The study area of remote sensing image preprocessing
遥感影像因分辨率不同而存在多种尺度,而地面实际调查样地与遥感影像中的单个像元或多个像元的总面积并不相等,且在地理空间位置上不匹配。本研究从GF-1遥感影像像元与样地不匹配角度出发,应用移动窗口法解决像元与样地的不匹配问题。样地调查采用的是角规绕测的方式,即代表的是每公顷蓄积量,而GF-1遥感影像的单个像元面积为16 m×16 m,即256 m2。在Matlab中,以6×6的移动窗口取平均值,代表0.92 hm2森林植被的反射率,能使像元与样地较好的匹配。
1.5.1 遥感因子的设置
研究选取的遥感因子主要有3种类型:光谱信息、植被指数、纹理因子。其中,光谱信息包含蓝光波段(band 1)、绿光波段(band 2)、红光波段(band 3)和近红外波段(band 4);植被指数主要为比值植被指数(RVI)、差值植被指数(DVI)、归一化植被指数(NDVI)、增强型植被指数(EVI)和土壤调节植被指数(SAVI);纹理因子选取常用的8个,即均值(Mean,ME)、协同性(Homogeneity,HO)、方差(Variance,VA)、 相 关 性(Correlation,CO)、 二 阶 矩(Second moment,SM)、相异性(Dissimilarity,DI)、熵(Entropy,EN)、和对比度(Contrast,CT),影像包含4个波段,合计32个纹理因子。共选取遥感因子41个。
1.5.2 遥感因子的筛选
变量筛选是森林蓄积量估测的关键,用得不好将会影响估测的结果和精度。数据筛选采用计算机软件SPSS20.0,分析森林蓄积量与遥感因子的相关系数,利用方差扩大因子法逐步对遥感因子进行筛选,寻求影响蓄积量估测的主要变量,消除自变量之间的共线性问题。考虑建模因子的数量,只选取相关系数绝对值大于0.100的因子,结果见表1。
由表1可知,当显著性水平在0.01时,与森林蓄积量相关系数达到显著的变量有NDVI、DIband3、ENband2等10个遥感因子;在0.05时,SMband2、ENband3、COband2等 8个遥感因子与森林蓄积量显著相关。其中NDVI、DIband3、SMband2等9个因子相关系数在0.200以上,而DI3与森林蓄积量的相关性水平最高,达到0.614。通过方差扩大因子进行评价可知,方差扩大因子大小排序与相关性的排序没有直接的关系。VIF值大于10的有HO1、ME1、EN2等8个变量,其中最大值达到50.36,说明自变量间存在较强的多重共线性。首先,若将这些变量全部用于建模,会使数据量计算增加,模型变得更复杂。其次,因存在多重共线性会导致模型不稳定,甚至估测失败。研究采用逐步剔除法解决多重共线性问题,经过3次变量筛选,森林蓄积量建模因子最终保留 为 8个:NDVI、DVI、Band2、DI3、CO1、EN2、SM2、En3、VA4、EN3。
表1 样地蓄积量与GF-1遥感因子相关性†Table1 Correlation between sample plot volume and GF-1 remote sensing factor
2.1.1 多元逐步回归模型的构建
根据多元逐步回归的基本原理,若拟合方程包含的自变量越多,则回归平方和越大,拟合方程的效果越好,估测值的误差相应更小,但参与建模的自变量越多,增加的计算量就越大,相关性不大的因子会对估测结果造成影响。因此,对自变量的数量应进行严格控制。本研究通过Excel 2010对样本数据进行标准化,用SPSS20.0中的多元回归工具进行建模,结果见表2。
通过进入、删除遥感因子,经5次多元逐步回归拟合,有5个特征变量进入回归方程。分析表2可知,多元逐步回归引入的变量有3种类型的遥感因子,分别为光谱信息、植被指数和纹理因子,说明引入遥感因子类型多有助于提高建模精度。随着遥感因子的增加,R2、校正R2均增大,估计标准误差随之减少,当变量增加至5个时,R2为0.528、校正R2为0.512、估计标准差为3.247,模型拟合效果较好。
表2 多元逐步回归拟合结果Table2 The results of stepwise multiple regression fitting
因此,模拟森林蓄积量的最优多元逐步回归方程为:
式(1)中:x1为 NDVI,x2为 Band2,x3为 DI3,x4为CO1,x5为DVI,y为森林蓄积量。
2.1.2 偏最小二乘回归的构建
偏最小二乘回归较多元逐步回归的优势在于能解决自变量间的多重相关性问题,且能解释参与建模因子的回归系数,使模型的拟合效果更好。本研究根据偏最小二乘回归的基本理论,在matlab2010中编写程序,主要分3个步骤:首先,对遥感因子进行主成分分析;其次,根据主成分的均方根估测误差进行分析,建立含主成分的模型;最后,根据建立的主成分模型还原为具有遥感因子具有解释意义的偏最小二乘回归。
式(2)和式(3)中:P1、P2、P3为第一、二、三主成分;x1、x5为 NDVI、DVI,x2为 Band2,x3、x4为DI3、CO1,y为森林蓄积量。
2.1.3 随机森林模型的构建
基于R语言RandomForest程序包构建随机森林模型。采用经Excel 2010处理后的无量纲数据,通过MSE增量和节点纯度两个指标来选择参与建模的影响力较高的遥感因子。构建随机森林模型共需要7个参数,其中,mtry和ntree两个参数最为重要,mtry是指决策树的数量,mtry为随机特征的数量,即输入变量的个数,通常为回归分析中输入总变量数的1/3。它们主要通过不断执行多棵决策树数量下的模型R2和均方根误差变化来确定。通过分析ntree和误差变化,回归树的数量达到1 800以后回归误差趋于稳定,为使估测结果可信度高,在不影响计算效率的情况下使用2 500作为回归树的数量。在回归误差趋于稳定下,分析遥感因子影响力评价表中两个指标的大小,选取影响森林蓄积量较大的10个特征变量:NDVI、DVI、Band2、DI3 、CO1、EN2、SM2、En3、VA4、EN3、DVI、ME1。
通过对3个模型的决定系数(R2)、均方根误差(RMSE)和估测精度(EA),检验模型估测值和实测值是否存在较好的拟合关系,检验结果散点图(图4)。
图4 3个模型估测Fig.4 Three kinds of regression models to estimate figure
通过分析3个模型拟合估测值与实测值的散点图(图4)可知,决定系数相差在0.1~0.2。随机森林模型拟合效果最好,决定系数R2为0.73,其次为偏最小二乘回归(R2为0.63),最差为多元逐步回归(R2为0.57)。
根据3个模型估测方程,应用估测结果与实测结果的差异进行精度检验,结果分析见表3。
根据表3中3种回归方法的精度检验结果分析可知,随机森林模型估测精度最高,为83.69%;偏最小二乘回归次之,估测精度为78.83%;多元逐步回归效果不理想,估测精度为63.56%,3种回归模型的均方根误差(RMSE)依次为4.16、3.78、3.42,成下降趋势,估测结果与建模结果基本一致,说明随机森林模型优于偏最小二乘回归,逐步回归效果稍差。
表3 3个模型精度检验结果Table3 The results of accuracy test of three models
通过多元逐步回归、偏最小二乘回归和随机森林模型对模型精度和样本检验精度的分析,能在一定程度上满足实际需求,但不能解决大规模的估测问题,因此,根据所建立的模型反演整个研究区的森林蓄积量,才是解决传统调查方法存在周期长和成本高等问题。利用ENVI Band Math功能,将拟合效果最好的随机森林模型应用于整个研究区蓄积量的反演,影像中的每个像元的值就代表具体位置的森林蓄积量,醴陵市蓄积量分布见图5。
图5 醴陵市森林蓄积量等级分布Fig.5 The grade distribution map of Liling’s forest accumulative volume
根据随机森林模型反演的醴陵市森林蓄积量等级分布图,通过逐像元累计之和可得整个研究区的森林蓄积量。随机森林模型反演醴陵市的森林蓄积量为1 984 576.382 m3。
本研究以醴陵市为研究区,以地面调查数据与GF-1遥感影像为数据源,因地面实际调查样地与遥感影像中的单个像元或多个像元的总面积不相等,且在地理空间位置上不匹配,故从GF-1遥感影像像元与样地不匹配角度出发,应用移动窗 口法可有效解决像元与样地的不匹配问题,再选择较优的遥感因子,利用多元逐步回归、偏最小二乘回归以及随机森林模型,实现国产GF-1遥感估测醴陵市森林蓄积量。主要结论与讨论如下:
1)由于以往研究较少考虑遥感影像像元与样地位置的对应关系[3,8,19],如刘琼阁等[3]、戚玉娇等[19]未考虑一类调查样地与遥感影像像元之间的匹配关系,王月婷等[20]应用移动窗口法解决像元与样地的对应问题,得出拟合优度较高的模型,但并未真正体现窗口大小与样地相对应关系。因基于像素级的森林蓄积量估测与样地的位置较敏感,故本研究的创新点在于引用移动窗口法可有效解决像元与样地的不匹配问题,有效提高随机森林模型估测森林蓄积量的估测精度。
2)相关性分析和方差膨胀因子方法筛选的遥感因子都包含了3个模型建模所需的特征变量,多元逐步回归采用进入方法筛选,偏最小二乘回归采用主成分分析再还原遥感因子方式,而随机森林模型则是通过MSE增量和节点纯度来筛选影响力较高的因子,因选择方法不同导致建模因子不相同,但3个模型选择的遥感因子都包含NDVI、Band2、DI3、CO1和DVI等5个因子,说明其对森林蓄积量的估测比较敏感。
3)根据模型拟合效果、估测精度分析,随机森林模型优于偏最小二乘回归,多元逐步回归稍差,随机森林模型决定系数R2为0.73、估测精度为83.69%,均优于多元逐步回归和偏最小二乘回归。本研究只采用了GF-1遥感影像,如以其他遥感影像为数据源,采用移动窗口法结合随机森林模型估测森林蓄积量是否能取得更好的效果,有待下一步研究。
4)遥感影像因分辨率不同而存在多种尺度。国产GF-1遥感影像存在多种分辨率(2 m,8 m,16 m),而地面实际调查样地与遥感影像中的单个像元或多个像元的总面积并不相等,本研究只采用16 m分辨率进行森林蓄积量遥感估测,应用移动窗口法解决像元与样地空间位置不匹配问题,可有效提高估测精度,但该方法应用于其他分辨率是否能取得较好的效果,有待进一步研究。