唐金灏,张加龙,陈立业,程 滔
(1.西南林业大学 林学院,昆明 650224;2.芷江侗族自治县林业局,湖南 怀化 419100;3.国家基础地理信息中心,北京 100830)
森林地上生物量(Aboveground Biomass,AGB)是森林生态结构优劣和功能高低的最直接表现,也是进行森林碳循环和碳储量及其变化分析的基础[1]。研究森林地上生物量对于森林生态系统乃至全球碳循环有着极其重要的意义。随着遥感技术的发展,遥感影像已成为对地观测研究的主要数据源[2]。当前森林生物量估算的主要方法有线性回归和随机森林[3-4]、梯度提升回归树[5]、偏最小二乘模型[6]、神经网络[7-8]、支持向量机[9]和K-最近邻(K-nearest Neighbor,KNN)算法[10]等。多源遥感数据相比单一遥感数据能够提供较多时间尺度和空间尺度的森林信息。通过对多源遥感影像尺度的转换,可以获得低成本、大范围、高精度的森林生物量估算结果。
遥感影像的尺度转换问题一直是地理学研究中的核心问题之一,尺度转换作为遥感科学的研究热点之一,是获取目标尺度影像的捷径,尺度转换问题对遥感影像数据的研究及发展有重要的现实意义及推动作用。现存的遥感数据在空间分辨率上存在一定的差异,导致对相同地物的表达产生误差,对地物特征提取、空间格局和定量反演等结果产生影响[11-13]。遥感影像尺度转换的研究成果可以为反演产品真实性提供理论与技术支持,对于真实性检验的需要来说,尺度上推的研究更为重要[14]。本文以滇西北香格里拉市为研究区,采用30m分辨率Landsat-8影像数据、10m分辨率Sentinel-2A影像数据和6m分辨率Spot-7影像数据,分别用最邻近像元法、双线性内插法、三次卷积插值法、局部平均法和像元聚合法将Sentinel-2A影像、Spot-7影像上推至30m分辨率,并结合研究区30m×30m外业调查样地数据,采用随机森林(Random Forest,RF)和梯度提升回归树(Gradient Boosted Regression Trees,GBRT)分别建立香格里拉地区高山松的生物量估测模型,最后与目标尺度Landsat-8影像所建立的生物量估测模型进行对比,研究不同尺度转换方法升尺度后的影像对估测森林生物量精度的影响。
香格里拉市位于滇西北“三江并流”区,隶属迪庆藏族自治州,其地理范围覆盖北纬36°52′~28°52′,东经99°20′~100°19′,总面积为11 613km2,其中有林地面积757 105.2hm2,森林覆盖率达74.99%[15]。优势树种主要有云杉(PiceaasperataMast.)、高山松(PinusdensataMast.)、高山栎(QuercussemicarpifoliaSmith)、云南松(PinusyunnanensisFranch.)等[16],动植物资源丰富,在此展开生物量估测研究具有特殊的意义。
采用2018年在香格里拉研究区内调查的30m×30m高山松纯林样地,共计40块。样地在高山松纯林的中间地带随机布设,以减小影像和样地间叠加以及尺度转换过程中产生的误差,且任意2块样地间隔在3km以上。利用南方测绘的北极星X5手持式GPS定位样方四角顶点坐标,对胸径大于5cm的高山松进行每木检尺,记录树高和胸径。
选取香格里拉研究区2018年无云或少云的Landsat-8影像数据3景、Sentinel-2A影像数据4景、Spot-7影像数据2景(表1)。其中Landsat-8和Spot-7影像数据的预处理工作基于ENVI 5.3平台完成;Sentinel数据为L1C级别,预处理基于欧空局(ESA)发布的Sen2cor插件和SNAP平台完成。
表1 获取的研究区影像Tab.1 Obtained images of study area
高山松样地地上生物量由样地内高山松的单木生物量汇总而来。单木生物量的计算采用香格里拉市高山松单木生物量模型计算,其模型预估精度(P)为87.941%[17]。样木调查、取样、测定以及单木生物量构建过程详见文献[17],模型形式如下:
W=0.073×DBH1.739×H0.880
(1)
式中:W为单木生物量(kg);DBH为胸径(cm);H为树高(m)。
为了使样地值与像元值对应更为准确,本文参考文献[5]的方法,利用像元边界分割样地,以每个地块重心位置的遥感因子值乘以所在地块的面积,再将4个值相加后除以总面积即为此样地对应的遥感因子值。
2.5.1最邻近像元法
直接将距离新像元最近的原像元值作为该像元的新值进行计算[18],具有简单、快速且影像光谱信息保持好的特点,但转换后影像的像元值空间连续性较差。
2.5.2双线性内插法
沿X轴和Y轴对未知像元分别进行线性插值取样,再得出其加权平均值,结果即为该像元的新值。该算法对于空间连续性较差的缺点有所改善,但会损失一些细小的特征,对影像栅格值有一定的改变[19]。
2.5.3三次卷积插值法
利用离映射位置最近的16个相邻的像元值进行加权平均,进行3次插值计算后得到新的低分辨率影像的像元栅格值[20]。该算法较好地保留影像边缘信息和纹理信息,考虑了相邻像元间灰度值和其间的变化率。但计算量较大,会改变原始影像的栅格值。
2.5.4局部平均法
将一定大小窗口内的像元合并,将其平均值作为合并后新像元的值。该算法运算简单,能较好的保持影像均值信息,但容易丢失部分细节信息[21]。
2.5.5像元聚合法
利用像元聚集使移动窗口内的像元值向平均值进行聚合,根据不同尺度上推倍数对输出像元有贡献的所有像元进行加权平均。此算法简单快速,但转换结果使影像的局部方差下降,会丢失部分空间细节信息[11]。
分别提取由上述5种尺度转换方法上推至30m分辨率的Sentinel-2A影像数据和Spot-7影像数据,以及30m分辨率Landsat-8原始影像数据的遥感因子,分别为原始波段因子、植被指数因子、纹理因子,其中纹理因子按单波段分别用3×3,5×5,9×9 三种窗口提取。每幅影像共计提取104个遥感因子用于筛选建模,该操作在ENVI 5.3中完成。遥感因子变量如表2所示。
表2 遥感因子变量Tab.2 Remote sensing factor variables
采用皮尔逊相关系数来筛选建模因子,在SPSS软件中分析提取的遥感因子与生物量数据之间相关性强弱关系,选取相关性显著的因子作为自变量,文中因子选入的显著性水平设定为P≤0.05,因子剔除的水平设置为P≥0.1(表3)。
表3 建模因子筛选Tab.3 Selection of modeling factors
2.8.1随机森林
随机森林(Random Forest,RF)[22]是一个集成学习模型,其中含有多个决策树。它作为一种集成学习方法常被应用于多领域的数据分类和非参数回归[23]。本研究中随机森林模型算法的实现基于Python语言“Sklearn”包中提供的“Random Forest Regressor”算法。本文采用RF方法分别对采用5种尺度转换方法将尺度上推至30m分辨率后的Sentinel-2A影像和Spot-7影像数据,以及30m分辨率Landsat-8原始影像数据构建高山松生物量估测模型,对建模效果进行比较。
2.8.2梯度提升回归树
梯度提升回归树(Gradient Boosted Regression Trees,GBRT)[24]是一种集成方法,通过合并多个决策树,经过多次迭代来构建一个更为强大的模型,其被广泛应用于业界,是监督学习中最强大也是最常用的算法之一。与随机森林不同,梯度提升回归树对于参数的设置更为敏感,如果参数设置正确,模型精度更高。本文中此算法基于Python实现。
2.8.3精度评价方法
模型精度评价是表达预估方法准确性的重要指标。本文随机抽取80%的数据进行建模分析,剩余20%用于模型的精度评价,模型精度评价指标有4个分别为决定系数R2、均方根误差RMSE、相对均方根误差rRMSE以及预测精度P,其计算公式如下:
(2)
(3)
(4)
(5)
使用5种尺度转换方法将Spot-7影像分辨率上推至30m后,采用随机森林和梯度提升回归树这2种方法分别建立高山松生物量估测模型,并与30m分辨率的Landsta-8原始影像所建立的高山松生物量估测模型进行对比(表4)。
由表4可知,使用5种尺度转换方法将Spot-7影像分辨率上推至30m后,采用随机森林建立的高山松生物量估测模型中,最邻近像元法上推后的影像数据所建立的模型估测精度与Landsat-8原始影像建立的生物量估测模型精度(R2=0.92,P=84.20%)最为接近,决定系数R2=0.86,预估精度P=76.65%。其余4种尺度转换方法建模效果为:双线性内插法=(R2=0.86,P=63.94%);三次卷积插值法(R2=0.84,P=68.69%);局部平均法(R2=0.83,P=66.81%);像元聚合法(R2=0.82,P=68.20%)。
表4 Spot-7尺度上推后和Landsat-8建模结果对比Tab.4 Comparison of the modeling results of the Spot-7 scaling up images and Landsat-8 images
采用梯度提升回归树建立的高山松生物量估测模型中,同样为最邻近像元法上推后的影像数据所建立的模型估测精度与Landsat-8原始影像建立的生物量估测模型精度(R2=0.85,P=79.03%)最为接近,决定系数R2=0.85,预估精度P=75.55%。其余4种尺度转换方法建模效果为:双线性内插法(R2=0.79,P=69.78%);三次卷积插值法(R2=0.81,P=69.06%);局部平均法(R2=0.74,P=69.74%);像元聚合法(R2=0.83,P=61.43%)。
使用5种尺度转换方法将Sentinel-2A影像分辨率上推至30m后,采用随机森林和梯度提升回归树分别建立高山松生物量估测模型,并与30m分辨率的Landsat-8原始影像所建立的高山松生物量估测模型进行对比(表5)。
表5 Sentinel-2A尺度上推后和Landsat-8建模结果对比Tab.5 Comparison of the modeling results of Sentinel-2A scaling up images and Landsat-8 images
由表5可知,使用5种尺度转换方法将Sentinel-2A影像分辨率上推至30m后,采用随机森林建立的高山松生物量估测模型中,最邻近像元法上推后的影像数据所建立的模型估测精度与Landsat-8原始影像建立的生物量估测模型精度(R2=0.92,P=84.20%)最为接近,决定系数R2=0.86,预估精度P=81.78%。其余4种尺度转换方法建模效果为:双线性内插法(R2=0.83,P=73.92%);三次卷积插值法(R2=0.84,P=79.14%);局部平均法(R2=0.81,P=77.27%);像元聚合法(R2=0.77,P=73.46%)。
采用梯度提升回归树建立的高山松生物量估测模型中,同样为最邻近像元法上推后的影像数据所建立的模型估测精度与Landsat-8原始影像建立的生物量估测模型精度(R2=0.85,P=79.03%)最为接近,决定系数R2=0.63,预估精度P=72.74%。其余4种尺度转换方法建模效果为:双线性内插法(R2=0.60,P=69.42%);三次卷积插值法(R2=0.39,P=64.78%);局部平均法(R2=0.40,P=61.03%);像元聚合法(R2=0.41,P=61.42%)。
1)通过对比两种非参数生物量估测模型精度,发现各尺度上推后的影像与目标尺度的影像存在一定的差异。导致这种差异的主要原因是尺度效应的存在[14]。本次选取的5种尺度转换方法均未反应估测对象的物理现象和地学特性,对高分辨率影像像元之间存在的吸收和散射特性也未考虑[25],使得遥感信息在尺度上推之后发生偏差,最终导致生物量估测模型精度降低。基于此类问题,出现了基于统计方法[26]和物理机制[27]的尺度转换方法。但前者由于需要大量样本数据,参数物理意义不够明确,后者由于实用性及模型适用性存在限制,都仍需进一步完善。
2)本研究中随机森林建模效果优于梯度提升回归树,吴迪等[28]、孙雪莲等[29]的研究也表明随机森林模型可以有效地估算森林生物量,同时对于大区域的森林生物量估测也具有一定的优势。在后续研究中,要扩大尺度上推范围,对大尺度上推后的影像与真实影像进行分析评估,以便更加全面完整地表现不同上推尺度对遥感影像的改变。除此之外,在尺度上推算法中应该考虑不同地物的特性,根据不同研究对象构建不同的校正因子,使升尺度转换模型具有更好的适用性。
1)本次使用的5种尺度转换方法中,采用最邻近像元法进行尺度上推后的Spot-7影像和Sentinel-2A影像,结合外业数据构建的高山松生物量估测模型精度均高于其余4种方法,其中随机森林的建模效果优于梯度提升回归树。表明最邻近像元法更适用于基于生物量估测的遥感影像尺度上推,随机森林模型更适用于尺度上推后的影像进行生物量估测。
2)通过对比Spot-7和Sentinel-2A影像经最邻近像元法尺度上推后利用RF构建的模型精度发现,采用Sentinel-2A影像的建模效果(R2=0.86,RMSE=13.24,P=81.78%,rRMSE=23.66)优于Spot-7影像(R2=0.86,RMSE=13.67,P=76.65%,rRMSE=25.96),表明Sentinel-2A影像更适合尺度上推进行森林生物量估测。