应用PLS-GA-SVM构建的云南松林分蓄积量遥感估算模型1)

2020-12-22 04:44何理深张超
东北林业大学学报 2020年12期
关键词:蓄积量植被指数样地

何理深 张超

(西南林业大学,昆明,650224)

森林蓄积量和生物量作为森林资源最基本的调查因子,是观察、分析和评价森林状态的重要指标。通常情况下,对于某个地域上森林蓄积量和生物量的估测多数是以行政界线为对象,通过融合、裁剪多幅不同时期遥感影像作为基础建模数据,这种方法往往忽视了植物的季节性光谱差异。为满足精准森林监测的发展需求,基于季节或时间序列数据的植被物候遥感信息估算森林参量已成为目前的研究热点。Sun et al.[1]以15期MODIS-Terra MOD13Q1数据提取的归一化植被指数(NDVI)为自变量,探讨时间序列数据对估算森林生物量的有效性;Chrysafis et al.[2]基于多季节sentinel-2影像估测了希腊东北部地中海地区的森林蓄积量。多季节遥感在一定程度上提高了预测精度,但季节或时间序列的遥感研究往往受限于影像的可获得性(影像数量、影像云量等)以及地表植被生长特性,单季节遥感建模相对容易。在森林参量模型构建的过程中,线性回归是最广泛被使用的统计技术之一[3]。虽然线性回归法使用简单并容易解释,但许多因子的关系通常是非线性的,在某些情况下选择非线性回归可能更为合适[4]。云南松(Pinusyunnanensis)是我国西部偏干性亚热带的典型代表群系,广泛分布于我国西南大部分地区,具有生境适应性多样、生态地理变异突出和天然更新能力强的特点。研究根据云南省大理州3景(春季、秋季和冬季)Landsat-5卫星影像提取的单波段、植被指数和纹理因子作为自变量,结合2007年大理州森林资源连续清查样地数据,使用偏最小二乘法(PLS)进行特征提取,经过遗传算法(GA)优化支持向量机(SVM)估算大理州云南松林分蓄积量。为提高遥感估测蓄积量精度、准确提取林分参数提供技术支持与参考。

1 研究区概况

大理白族自治州(98°52′~101°3′E,24°41′~26°42′N)位于云南省中部偏西,地处云贵高原与横断山脉的结合部位,区位优势得天独厚。气候属于低纬高原季风气候,雨量适中,受地形气候影响,北部降雨大于东南部。海拔一般在2 300 m以上,根据海拔不同,又分为南亚热带、中亚热带、北亚热带、暖温带、中温带和寒湿带等6个气候带。大理州地质地貌历史悠久,土壤类型多样,主要有亚高山草甸土,棕壤、红壤、干燥红土、黄壤和水稻土等土类。境内动植物资源丰富,据统计,高等植物有182科、927属,近3 000种;禽类有150多种,森林哺乳动物50多种。全州土地总面积283.57万hm2,其中有林地面积占三分之一。

2 研究方法

2.1 数据来源

云南松一类调查数据:以林业部门提供的2007年云南省大理州森林资源连续清查样地数据为基础数据。一类清查样地的系统抽样间距为6 km×8 km,方形固定样地面积为0.08 hm2。调查的主要因子有树种、胸径、树高、郁闭度、覆盖度和蓄积量等。筛选遥感影像覆盖区域、优势树种为云南松的天然纯林样地共81个。从总样本中随机提取80%的数据作为训练样地,20%作为验证样地。样地分布情况见图1。研究采用MATLAB编程软件实现样地数据的处理与建模,为消除因子间不同量纲产生的影响,对所有变量进行数据归一化。

遥感数据:采用美国于1984年3月发射的光学对地观测卫星Landsat-5数据,条带号为131/042的3景同一地点不同季节、云量均小于10%的单季节遥感影像。分别对应冬季(2006-01-25),春季(2006-05-17)和秋季(2006-12-11),如图2所示。由于夏季的影像图较少且云量较多,无法获得该季节的可靠遥感影像进行研究。所有单季节影像使用ENVI软件进行辐射定标、大气校正、几何校正和地形校正等处理。

2.2 云南松自变量因子提取

由于绿色植物对各个波段都有不同的吸收和反射特性,通过多光谱单波段数据的线性或非线性组合能较好的反应植物的生长状态和林分的空间信息,基于各波段反射率可构造增强植被信息或抑制非植被信息的植被指数。其次,纹理信息可表现出图像灰度在空间上的重复性变化,能够反映物体表面的具有缓慢变化或者周期性变化的结构排列规律。研究选取6个单波段灰度影像、20个植被指数和48个纹理信息,共74个因子作为建模的初始自变量。其中,纹理信息包括6个单波段的协同性(Homo)、对比度(Con)、相关性(Corr)、均值(M)、方差(V)、相异性(D)、熵(E)、二阶矩(SM),植被指数包括归一化植被指数(INDV)、绿通道归一化植被指数(IGNDV)、重归一化植被指数(IRDV)、三角植被指数(ITV)、红外植被指数(IIPV)、转化归一化植被指数(ITNDV)、加权差分植被指数(IWDV)、可见大气阻绿色指数(VARIg)、大气阻抗植被指数(IGAR)、叶绿素绿色指数(CIg)、宽动态植被指数(IWDRV)、增强植被指数(IEV)、差值植被指数(IDV)、比值植被指数(SR)、归一化绿色指数(NG)、叶绿素指数(IC)、归一化叶绿素指数(INC)、归一化红色指数(NR)、归一化近红外指数(NNIR)、归一化多波段干旱指数INMD)。具体计算公式如表1所示(以Landsat-5传感器为例)。

表1 研究使用植被指数概要

PLS:PLS是一种集成了主成分分析(PCA)和典型相关分析(CCA)的统计方法。PCA提取的前若干个主成分能携带原始变量矩阵的大部分信息,但没有考虑主成分对输出变量的解释能力,方差贡献率很小但对输出变量有很强解释能力的主成分可能会被忽略。PLS用于寻找自变量和因变量之间的基本关系,即在这两个空间中对协方差结构建模的方法,在自变量空间中找到多维方向,以解释因变量空间中的最大多维方差。当预测变量矩阵的变量多于观测值,并且自变量矩阵之间存在多重共线性时,使用PLS更优[21]。

GA:惩罚系数c与核参数g的大小对SVM的影响至关重要,许多学者对于SVM的参数设定经行了大量的研究[22]。GA是一种基于自然选择原理和自然遗传机制的搜索(寻优)算法,它模拟自然界“优胜劣汰,适者生存”的生命进化原理,在编码系统中实现特定目标的优化。GA优化的过程就是通过循环迭代获取最优解,主要包括对初始化种群(种群中每一个个体均编码完成)、种群个体评价(根据计算适应度函数进行评估)、优良个体进行配对,随机交叉染色体并随机改变某些染色体的基因产生下一代种群。以此方式使种群不短迭代,直到满足进化终止条件。本次研究中,GA的适应度函数评价指标为均方误差(EMS)、最大迭代次数设置为100、种群数量为50、c参数与g参数的范围均为0~100、交叉概率为0.9、变异概率为0.01。

SVM:SVM虽然诞生只有短短的20多a,但是得益于它良好的分类性能自一诞生便被广泛应用在机器学习领域。其理论最初来源于对数据的分类处理,保证最终的分割平面位于两类数据的中心位置,简单解释就是:寻求一个最优分类超平面,使得超平面在保证分类精度的同时也能够使超平面两侧空白区域最大化。虽然支持向量机方法是解决分类问题提出的,但是它一样可以通过定义适当的损失函数推广到函数拟合的问题中,就是让一个集合的所有数据到该超平面的距离最近。研究中SVM核函数选择径向基函数(FRB),c、g参数通过GA计算,损失函数p采用设置默认为0.1。模型均使用决定系数(R2)和均方根误差(ERMS)评价训练集的预测精度与测试集的鲁棒性。公式如下:

实验使用中国台湾大学林智仁教授开发的LibSVM库,该库运算速度快,支持数据集的分类和回归估计,并提供5种核函数(线性核、多项式核、径向基函数核、S型函数核、预计算核)。LibSVM开源且支持C++、Java、MATLAB和Python等编程语言,帮助其他领域的学者更简单地使用SVM工具。

3 结果与分析

3.1 各季节影像变量与云南松蓄积量相关分析

皮尔逊相关系数(Pearson)是度量两个变量之间相互关系的指标,分析自变量与因变量的相关性有助于了解单季节遥感数据间的差异。光谱大理州云南松林分蓄积量与各季节单波段、光谱指数和纹理信息的相关系数如图3所示,所有光谱自变量与林分蓄积量的相关性较低,相关系数绝对值均无法达到0.5以上;B1、B2、B3、B5、B7、Mean(B1)、Mean(B2)Mean(B3)Mean(B5)Mean(B7)、NG、CI、NR与林分蓄积量有相对高的负相关性;INDV、IIPV、ITNDV、VARIg、IEV、SR、NBR与林分蓄积量有相对高的正相关性;单波段B1、B2、B3、B5、B7相关性绝对值按从大到小的排序为春季、冬季、秋季,B4波段单季节遥感数据相关性的趋势与其他波段明显不同;冬季,春季和秋季影像提取的数据与林分蓄积量相关性整体趋势保持一致,但Homo(B2)、Ent(B2)、ITV、IEV、INC的春季光谱数据相关性系数与秋季、冬季差异明显。

3.2 PLS特征提取

PLS特征提取通过累计贡献率确定主成分个数(见表2)。3个季节74个光谱因子的特征提取结果相对一致,说明不同季节的光谱信息总体上差异不大、各季节的单波段、光谱指数和纹理数据构建的自变量与因变量的协方差也相对一致。前几个主成分能反应的总体信息变化程度不高,冬季、春季和秋季遥感数据前3主成分累计贡献率分别为52.99%,54.40%,57.83%。整体从第1主成分到第13主成分的贡献率依次下降,下降趋势不明显。冬季,秋季和冬季遥感数据均要提取前13个主成分才能保留90%的原始变量信息。因此,各季节皆提取PLS前13个主成分作为构建SVM模型的自变量。

3.3 GA参数优化结果

图4显示了各季节基于PLS降维的SVM模型寻优情况。冬季影像数据的GA适应度经过50次进化得到最优c参数为2.45,最优g参数为0.09,适应度值为0.018。最佳适应度经过前7次迭代小幅下降至0.018,随后进化稳定直至达到终止条件;平均适应度在迭代初期从0.036迅速下降至第11代的0.022,第11代之后随最佳适应度的平稳而趋于稳定;最佳适应度与平均适应度均呈现适应度值随进化代数增加而收敛的趋势。春季影像数据GA适应度同样在第50代寻得最优c参数为0.39,最优g参数为0.21,适应度值进化至0.029。最佳适应度前36次迭代没有发生变化,在第44代断崖式下降到0.029;平均适应度经过前6次进化迅速靠近最佳适应度,在第44代以后没有随最佳适应度收敛而减小。秋季影像数据GA适应度也在第50获得最优c参数为0.72,最优g参数为0.20,适应度值为0.028。最佳适应度在迭代初期下降不明显,在第25代之后呈现阶梯状下降至0.028;平均适应度大体上与最佳适应度保持相同趋势,但后25次的迭代并没有随最佳适应度收敛而稳定。3个季节最终进化得到的c参数与g参数都较小,说明构建的PLS-GA-SVM模型能容忍较大误差、能支持较多向量。

表2 主成分贡献率

3.4 林分蓄积量模型训练

基于大理州云南松一类调查数据选取的64个训练样本进行归一化后经过PLS特征提取、c参数和g参数寻优和SVM模型拟合得到训练样本的拟合值,再经过数据反归一化函数计算对应的真实林分蓄积量。计算结果如图5所示:冬季影像数据训练样本构建的SVM对大部分蓄积量值低于40 m3的样地拟合效果较好,对高蓄积量值大于60 m3的估算效果在3个季节中表现最优,峰值的预测误差最小,训练集R2为0.67,ERMS为6.85 m3;秋季影像数据的SVM预测结果次之,低蓄积量值(<40 m3)拟合情况不如冬季,蓄积量值大于60 m3的估计并不准确,只能对60 m3以下的样地有较好的训练效果,整体R2为0.58,ERMS为8.17 m3;春季影像数据SVM拟合蓄积量值反应原数据变异情况的能力与秋冬季节没有明显差异,R2为0.56,整体误差不大,ERMS为8.17 m3。对比3个季节的模型训练情况,冬季影像数据拟合的云南松林分蓄积量具有最高的R2与最低的ERMS,大多数预测值估算准确,但有部分样本出现高值低估的情况;基于春季和秋季影像数据的训练结果相对一致。根据PLS-GA-SVM的训练效果按从优到差的排序为冬季、秋季、春季。

3.5 林分蓄积量模型精度验证

将测试集导入训练好的的SVM模型进行计算,同样通过反归一化得到蓄积量值。图6显示冬季、春季和秋季遥感数据基于SVM训练结果在测试集样本上的泛化能力。冬季的泛化结果良好,R2和ERMS分别为0.66、10.70 m3。得益于冬季遥感数据的训练能力,高蓄积量在测试集上能较准确地拟合,但仍然出现高值低估的现象。春季遥感数据的泛化能力在3个季节中表现最差,R2(0.10)远低于冬季和秋季,ERMS(13.86 m3)最高;PLS-GA-SVM无法拟合测试样本的真实反映,说明春季影像的反射光谱复杂程度高、噪声多,增加了模型学习的困难程度。秋季遥感数据的R2最高,为0.85,真实值与预测值整体上保持相对一致的变动趋势,但ERMS(13.61 m3)并没有降低。个别低蓄积量值能被准确拟合,但大部分样本的预测值皆低于实测值,二者之间的误差较大,导致ERMS较高。因此,单季节遥感数据的泛化能力按从优到差的排序为冬季、秋季、春季。

4 结论与讨论

以云南省大理州2007年森林资源连续清查样地数据做为因变量,3期(冬季。春季和秋季)单季节遥感影像提取的单波段、植被指数与纹理信息为自变量,通过PLS特征提取,利用GA优化SVM拟合云南松蓄积量模型。结论如下。

1)林分蓄积量与单季节遥感数据相关性较弱;冬季、春季和秋季遥感影像提取的光谱信息整体差异不大,经PLS降维后的主成分贡献率相对一致。冬季遥感影像数据在蓄积量上的反应更“清晰”,GA迭代优化的平均适应度和最佳适应度收敛速度更快,更稳定。

2)基于冬季遥感影像构建的PLS-GA-SVM模型效果最好,泛化能力最佳。春季遥感数据复杂性较高,无法准确反映预蓄积量变化情况。

3)高值低估现象普遍存在,但冬季遥感数据能更好的预测高蓄积量样本。

云南松林分蓄积量与各季节单波段、植被指数和纹理信息的相关性分析结果不理想,与Lu et al.[23]的研究结论相类似,多数纹理与森林生物量的相关性较弱。一方面,森林生态系统的绿色植物包括乔木、灌木、草本和苔藓,植物种群根据各自生长特性占据不同的生态位置。树木与周围环境相互影响形成一个稳定的结构,一个像元的波段特征反映的是样地植被的综合,光学遥感估计林分蓄积量存在较多不确定性。Spanner et al.[24]研究表明,基于遥感光谱特征的生物量估计的困难在于植被林分结构的非均一性和大林分林冠阴影带来的影响。另一方面,植物受当地气候和季节变化的影响,造成不同时间尺度的植被反射率差异。Zhou[25]采用长期遥感NDVI信息量化中国东北地区植被生长的季节特征,指出平均植被绿度在林区随时间延长而(春季到冬季)减少以及温暖的秋季有利于改善植被活动的长度和强度。这也许能解释冬季遥感数据模型较秋季遥感数据模型更好的原因。根据大理州地区干湿分明的气候特点,6—10月属于雨季,冬季降雨量少,与Mauya et al.[26]的研究结果相反:基于sentinel-2遥感影像雨季的预测变量拟合松树蓄积量模型的RMSEr最小。另外,自变量与蓄积量之间的低相关性没有影响SVM的训练效果,基于结构风险最小化原则的SVM计算得到的是全局最优点,保证机器学习具有良好的预测精度和泛化能力。而且SVM以统计学理论为基础,主要针对有限样本,对小样本回归有较好的拟合优势[27]。对于高值低估的普遍现象,原因是研究使用的调查数据多数样本林分蓄积量偏低,主要集中在10~60 m3,林分蓄积量大于60 m3的样地只占少数,加上森林遥感的不确定性,SVM对此类样本得不到有效的训练,预测值普遍低于真实值。

通常情况下,地理位置与气候信息对云南松蓄积量变化有显著影响。由于数字高程模型数据与年气象数据组成的自变量因子在季节尺度上保持恒定,个别因子可能因占据较大权重从而影响模型训练过程得到错误结论,故没有将此类因子置入模型构建。下一步将在确定影像季节的选取上,引入样地经度、纬度、海拔、年均气温和日照时数等信息,并结合更多性能优异的机器学习算法,更大程度地提高云南松蓄积量模型精度。

猜你喜欢
蓄积量植被指数样地
四川省林草湿调查监测工作进展
桉树培育间伐技术与间伐效果分析
仁怀市二茬红缨子高粱的生物量及载畜量调查
基于无人机图像的草地植被盖度估算方法比较
额尔古纳市兴安落叶松中龄林植被碳储量研究
当阳市森林植被碳储量及其价值评价
祁连山青海云杉林生物量与碳储量及其影响因素分析
植被指数监测绿洲农区风沙灾害的适宜性分析