不同机器学习算法在草原草地生物量估算上的适应性研究

2022-12-01 11:50卜灵心刘心怡
草地学报 2022年11期
关键词:锡林郭勒盟贡献率生物量

卜灵心,来 全,2*,刘心怡

(1.内蒙古师范大学地理科学学院,内蒙古 呼和浩特 010022;2.内蒙古自治区遥感与地理信息系统重点实验室,内蒙古 呼和浩特 010022)

草地是地球表面最大的陆地生态系统[1],面积约为3.42×109hm2,约占全球陆地总面积的40%[2],是仅次于森林的第二大绿色覆被[3]。草地AGB约占全球植被总生物量的36%,是陆地生产力的重要组成部分,也是碳循环的重要指标[4-5]。草地地上生物量(Aboveground biomass,AGB)的变化能够直接反映草地退化及草场荒漠化程度[6-7],有利于监测草场是否过度放牧以及清晰了解草场土地利用的变更情况。

传统的草地生物量测算方法是基于现场采集样方并带回实验室测量,不仅消耗大量的人力和物力,而且容易对植被造成不必要的损害,不适合进行大面积草地AGB的估算[8]。随着遥感技术的发展,目前大部分研究仍基于单一的植被指数与生物量之间的关系建立模型,尝试实现大范围草地AGB的估算[9]。研究方法也局限于一元或多元的线性非线性回归等相关问题,通常导致估算模型的精度较低[10]。针对以上问题,近年来已有学者使用机器学习算法成功建立AGB估算模型的案例,有效提高了模型的精度[11-12]。常用的算法包括:使用人工神经网络(Artificial neural network,ANN)和支持向量回归(Support vector regression,SVR)以及随机森林回归(Random Forest,RF)等[13-15]。然而,常见的研究模式是在研究区域内不区分草地类型进行估算,各类机器学习方法对不同草地类型AGB估算能力的差异性和适用性相关的研究鲜有报道。

锡林郭勒盟草地资源丰富,是我国北方重要的生态屏障[16]。近年来,随着气候变化和人类活动的加剧,草原生态平衡受到严重挑战。草原荒漠化、退化严重,成为中国北方沙尘暴的主要来源[17]。准确估算草地AGB,能够为该区域合理放牧措施的制定、生态系统的保护和可持续发展提供科学依据。因此,本文利用多源遥感数据,选取影响草地生长的主要因素作为特征变量,使用BP,SVM和RF三种常用机器学习算法,在不同草地类型均建立了AGB估算模型,并分析不同机器学习算法在估算研究区各类草地AGB时的反演能力。本研究结果可以为锡林郭勒盟各类草地类型AGB估算精度的提高和方法的选取提供科学建议。

1 材料与方法

1.1 研究区概况

锡林郭勒盟地处内蒙古中部偏东地区(41°35′~46°46′N,111°09′~119°58′E)[18]。整体地形平坦开阔,地势自西南向东北倾斜,海拔为729~1 939 m之间。气候类型属中温带半干旱和干旱大陆性季风气候,冬季寒冷,夏季炎热。该区域内草地类型多样,典型草原(Typical grassland,TYG),草甸草原(Meadow grassland,MEG),荒漠草原(Desert steppe,DRS)和其他草原(主要包括田间草地、林间草地以及少量的沙地植被等,Other)等。本文主要针对草地进行研究,区域内天然草场约1.97×108hm2,占草场总面积的97.2%(图1)。可利用草场面积达1.78×108hm2,占草场总面积的90.6%。锡林郭勒作为内蒙古大草原的重要组成部分,是我国重要的农牧业基地。

图1 锡林郭勒盟区位及高程图(a)和生态区划图(b)

1.2 数据来源与处理

1.2.1样方实测数据 2009—2015期间在内蒙古锡林郭勒盟草原范围内,每年8月份进行野外草地样方采集,为了尽可能降低因样方选址带来的误差,选取远离公路或者围栏内部以及受人类活动干扰较小的草地群落。尽量使其在每种草地类型均匀分布原则下,采集大小为1 m×1 m的样方,记录样方的经度(°)、纬度(°)、生物量(鲜重,g)和高程(m)等相关数据,最后在实验室进行烘干处理得到样方的干重(g)。数据来源于地理科学学院,样方的基本情况如表1所示。

表1 2009—2015年样方采集数分布表

1.2.2遥感数据 为了计算各种植被指数,采用2004年至 2015年空间分辨率为30 m,时间分辨率为16天的Landsat遥感卫星数据(https://earthexplorer.usgs.gov/),其中包括2004—2011年Landsat 5 TM影像、2012 年Landsat 7 ETM+影像和 2013—2015年Landsat 8 OLI影像。选取日期接近草地生物量采样时间,云覆盖率小于20%的影像,完全覆盖研究区共计16幅影像。对数据进行辐射定标、大气校正、镶嵌和裁剪等预处理,采用最大合成法计算得到各类植被指数。

1.2.3气象数据 气象数据下载于中国气象科学共享服务网站(http://data.cma.an/)和中国科学院资源环境科学数据中心(http://www.resdc.cn/)共16 个气象站点,为了使插值的精度更高,分别选取了内蒙古13个站点和周围的3个站点,气象站点空间分布如图1(b)所示。采用克里金插值方法插值成30 m空间分辨率,目的是与Landsat数据的分辨率一致。

1.2.4DEM数字高程数据 考虑到高程、坡度和坡向可能对草地生物量的估算产生影响,本文下载了空间分辨率为30 m的DEM数据,下载网址为(http://www.gscloud.cn/#page1/1)。对其进行镶嵌裁剪等预处理后,得到锡林郭勒盟DEM数字高程数据,之后利用ArcGIS软件分别计算得到锡林郭勒盟的坡度和坡向数据。

1.3 研究方法

1.3.1植被指数计算方法 光谱指数法是遥感反演地表参数的基本方法之一,具有一定机理性,便于掌握和使用。本文利用Landsat卫星数据计算NDVI,DVI,RVI,EVI,LAI,FVC六种植被指数,其中,Landsat 5 TM和Landsat 7 ETM+的蓝光、红光和近红外对应的波段分别为B1,B3和B4,Landsat 8 OLI影像的蓝光、红光和近红外对应波段分别为B2,B4和B5,植被指数计算公式见表2。

表2 植被指数计算公式表

1.3.2机器学习方法 SVM可以通过核函数将训练数据转换为高维特征空间[23],确定一个最佳超平面,使超平面与最近的正反面之间的距离达到最大[24]。本研究采用径向基函数作为支持向量机的核函数,并利用“tune.svm” and “svm”两个函数调整参数cost和gamma[25],确定两个参数的最佳组合。本文通过在MATLAB软件中通过调用SVM算法包实现SVM的计算。

神经网络是研究非线性回归最常用的方法。由输入层、隐含层和输出层组成一个多元网状结构[26],通过反向传播算法对网络的偏差和权值进行反复调整训练,得到最接近期望输出值的结果,该算法称为BP算法[27]。训练人工神经网络需要调整的参数包括网络结构即(隐含层的数量)、训练集和测试集的比例以及训练算法,Levenberg-Marquardt algorithm算法是目前常用的算法之一[28]。本文以影响草地生长的11种要素作为输入层,预测草地AGB作为输出层。

随机森林是一种统计学习方法,最早由Breiman于2001年提出[29],适用于解决分类和回归问题。随机森林回归算法的原理是组合大量的回归树,每棵回归树表示一组按层次组织并从树的根到叶依次应用的条件或限制[30]。通过重复抽样,每一个抽取样本被用来构建决策树,不断选择训练样本以最小化残差平方和,直到形成完整的树,并通过投票获得最终预测。回归树的数量一般默认为500棵,输入变量数一般为总体变量数的1/3[31]。本文基于多源数据利用随机森林方法构建草地AGB估算模型。

1.3.3模型精度评估方法 为了比较三种机器学习算法建立模型精度,本文采用R,RMSE,MSE,MAE四种误差评价指标对构建的模型进行评估,计算公式如(1)~(4):

(1)

(2)

(3)

(4)

其中,xi和yi分别代表实测草地AGB和预测草地AGB,本文的流程图如图2所示。

图2 不同机器算法建立生物量估算模型流程图

2 结果与分析

2.1 模型评价

2.1.1各模型对研究区AGB估算能力的分析 以研究区内2 352个草地AGB采样点的干重为因变量,选择影响草地生长的11个要素为自变量。整体样本按8∶2随机生成500个训练集和测试集,采用SVM,BP和RF三种方法建立草地AGB回归模型,用R,RMSE,MSE和MAE四个误差评价指标来评价模型的准确性,不同算法的训练测试结果见图3。可以看出,RF算法建立的模型具有较高的精度和较集中的分布,R,RMSE,MSE和MAE分别达到0.88,0.11,0.01和0.07。SVM算法的表现次之,BP神经网络算法较差,模型精度低,训练测试的结果比较分散,R,RMSE,MSE和MAE分别为0.80,0.11,0.01和0.09。与BP算法建立的模型相比,使用RF算法R增加了0.08,RMSE减少了0.03。分析结果说明在建立草地AGB估算模型时,RF比BP具有更好的适用性,可以明显提高草地生物量估算的准确性。

图3 不同机器学习算法训练测试结果图

2.1.2各模型对不同草地类型AGB估算能力分析 为评价基于不同机器学习算法建立的AGB估算模型对研究区不同草地类型AGB估算是否存在差异,本文基于图1(b)的草地类型图,分别采用SVM,BP和RF算法在典型草原、草甸草原、荒漠草原和其他草原上建立草地AGB估算模型,并对模型精度进行评估。图4(4a~4c)(4j~4l)表明在典型草原和其他草原区域内,机器学习表现出类似的趋势,即RF最好,SVM次之,BP最差。在典型草原区域内,由RF构建的模型,R,RMSE,MSE和MAE分别为0.86,011,0.01和0.08,与BP构建的模型相比,R增加了0.11,RMSE,MSE和MAE分别减少了0.02,0.01和0.02。在其他草原区域内,RF模型的R增加了0.10,而RMSE,MSE和MAE分别减少了0.04,0.01和0.03。这表明RF算法在这两种草地类型中更具适用性。图4(4 d~4f)(4 g~4i)显示为草甸草原和荒漠草原的建模情况。与前两种草地类型不同,SVM在这两种草地类型中建模精度更高。不同算法的精度比较结果为SVM性能最好,FR的性能次之,BP最差。在草甸草原区域内,SVM有明显的优势,相较于BP建立的模型R增加了0.10,RMSE,MSE和MAE分别减少了0.08,0.018和0.06。在荒漠草原区域内,相较于RF和BP相比SVM的R增加了0.02和0.08。该结果表明草甸草原和荒漠草原的AGB估计更推荐SVM算法。

图4 三种机器学习算法在不同草原类型上建立估算模型的精度表现

2.2 变量贡献率分析

2.2.1锡林郭勒盟整体AGB估算变量贡献率分析 机器学习算法可以在建立模型时选择最佳自变量来预测草地AGB。由图5可知,在随机森林算法建立的模型中,不同自变量对草地AGB的贡献率存在差异。在各种影响草地生长的要素中,FVC对草地AGB的贡献率达到83.2%,表明FVC对于预测草地AGB具有至关重要的作用。NDVI和EVI的贡献率也较高,分别达到63.7%和48.5%。气象要素中,降水(PRCP)的贡献率达到38.6%,高于温度的5.5%,说明锡林郭勒盟地区降水对草地AGB的影响更大。地形要素中,海拔、坡度和坡向对草地AGB的贡献率均较低,分别为1.4%,3.8%和2.2%。这表明,地形要素对草地AGB的影响相对较小。

图5 随机森林算法不同变量对草地生物量的贡献率

2.2.2不同草地类型AGB估算变量贡献率分析 由于三种机器学习算法建立的模型在不同草地类型AGB估算中所表现出的性能差异,本文针对各草地类型建立的最佳模型分别展开了变量贡献率分析(图6)。不同草地类型变量贡献率差异较大。典型草原中对AGB估算的贡献率排名靠前的因子与锡林郭勒盟整体草地AGB估算贡献率排名靠前的因子相似。FVC的贡献率最高为63.8%,其次是NDVI,贡献率为53%。气象因素中,降水对典型草原的贡献率达到45%,而气温的贡献率仅有2.5%。坡度、坡向和高程等地形要素对典型草原AGB的贡献率同样很低。与典型草原不同的是影响草甸草原和其他草原AGB的各个要素中贡献率最大的是EVI和DVI,分别达到95%,90%和94%,72.5%。表明这两个变量在很大程度上决定了草甸草原和其他草原AGB的大小。值得注意的是,影响荒漠草原AGB的各个要素中,NDVI的贡献最大为93%,其次为RVI 0.87。与其他三种植被相似的是气象要素中,降水对AGB的贡献率始终大于气温。各地形要素对草地生物量的影响始终较小。

图6 不同特征变量对机器方法建立模型的贡献率表现

2.3 草地生物量空间变化特征分析

从2004—2015年锡林郭勒盟草地生物量空间分布图可以看出(图7),锡林郭勒盟草地生物量总体呈现东高西低、从东部到西部逐渐减少的分布特征。研究区12年的年均草地生物量为6.0×105kg。其中典型草原区草地生物量最高、草甸草原区次之,荒漠草原区的草地生物量最低,空间差异明显。典型草原区年均草地生物量达到1.13×103kg,主要分布在东乌珠穆沁的西南部、西乌珠穆沁旗的西北部、锡林浩特市和阿巴嘎旗的大部分区域,主要的草地类型为典型草原。其中东乌珠穆沁的南部和西乌珠穆沁旗的东北部是草地生物量较高区域,草地生物量多为0.15~0.30 kg·m-2。锡林浩特市的北部和阿巴嘎旗的中西部是草地生物量较少的区域,草地生物量为0~0.15 kg·m-2。图7(d)可以看出,与其他年份不同2007年东乌珠穆沁的西部区域草地生物量较少,其余年份典型草原的草地生物量一直保持稳定。

位于东乌珠穆沁的东北部,西乌珠穆沁旗的西南部的草甸草原区,年均草地生物量为177.59 kg,主要草地类型为草甸草原,草甸草原是锡林郭勒盟历年草地生物量最高的区域,图7(h)至(k)可以看出典型草原的草地生物量多为0.45~0.75 kg·m-2。在2010年草甸草原草地生物量明显下降至0.15~0.30 kg·m-2,2015年东乌珠穆沁的东北部草甸草原草地生物量增加至0.45~0.75 kg·m-2。

图7 2004—2015年草地生物量空间分布图

位于锡林郭勒盟西部涵盖二连浩特市、苏尼特左旗和苏尼特右旗的荒漠草原区,年均草地生物量为72.88 kg。荒漠草原一直是草地生物量最少的区域。2006年以后开始零星出现0.15~0.30 kg·m-2的区域,2009—2011年绝大部分区域的草地生物量为0~0.15 kg·m-2。2012年是荒漠草原草地生物量最高的一年,大部分区域草地生物量为0.15~0.30 kg·m-2。

3 讨论

通过分析发现,三种机器学习算法对不同草地类型AGB估算能力有所差异。在样本点较少时,三种算法计算运行效率差异并不明显。然而,随着训练样本数量的增加,BP的计算速度明显加快,RF次之,SVM最低,但BP建立的模型精度较低。综合考虑,本研究区内建议采用RF算法模型。机器学习算法已被证明相较于传统的非线性回归分析具有更快的速度和更高的精度等优势。若不区分草地类型的前提上,RF模型对整个研究区的AGB反演估算能力明显优于其它两种算法,这与之前的学者得出的结论具有一致性[32-33]。

尽管RF算法建立的草地AGB估算模型精度较高且误差相对较小,但该模型仍存在改进之处。首先,Landsat卫星影像重返周期较长为16天,部分采样点的采样时间与遥感成像时间难以完全吻合。其次,虽尽量选取地形平坦且草原类型单一的区域进行采样,但以1 m×1 m的采样面积代表Landsat遥感影像像元大小为30 m×30 m的范围仍存在一定的误差。最后,由于8月份是研究区雨水较密集的月份,本文为尽量选择云覆盖面积较小的影像,导致部分影像成像时间与采样时间难以同步,误差不可避免。

植被要素中,FVC对草地AGB的贡献率最大,这可能是由于锡林郭勒的草地类型差异不明显。FVC高的区域草场长势较好,草地AGB较高。气象要素中,降水对草地生物量的贡献率较大(15.6%),气温只有1.5%。这主要是因为锡林郭勒地处干旱半干旱区域,研究期内气温相对稳定(18.6℃~21.7℃),降水成为影响草地生长的主要因素,与之前的学者研究结果一致[34-35]。另外,锡林郭勒的地势以平原为主,没有出现较大地形起伏,因而地形因素对草地AGB的影响较低。就不同草地类型而言,各个变量对典型草原AGB的贡献率与锡林郭勒整体情况相似,这主要归因于典型草原为该地区的主导草地类型,很大程度上反映了锡林郭勒草原植被生长的总体情况。而EVI在草甸草原和其他草原类型区域内贡献率最高,其原因可能是该区域内草地长势较好,FVC较高,加之NDVI易出现饱和现象,EVI能更好地表征该草地类型的生长变化。NDVI对荒漠草原生物量影响最大,究其原因可能是该地区的植被覆盖较少,草地类型相对单一,相较于其他因素NDVI可以更好地反映该区域草地长势和草地覆盖情况。

4 结论

本文首先基于多源数据,利用SVM,BP和RF三种机器学习方法建立了锡林郭勒盟草地AGB估算模型。其次,各模型对研究区草地类型AGB的估算能力进行了评价,最后分析了影响草地AGB估算精度的因素。得出以下结论:

使用三种机器学习算法建立的模型中,RF建立的模型精度最高(R=0.88,RMSE=0.10,MSE=0.01,MAE=0.07),表明在不区分草原类型的前提下,采用RF算法实施研究区的草地AGB估算是最优选择。

不同草地类型上机器学习算法估算精度存在差异。典型草原和其他草原中RF建立的模型精度较高,而在荒漠草原和草甸草原SVM建立的模型精度更高。

选取的11种影响草地生长的自变量中FVC,NDVI、EVI和PRCP四种变量对研究区草地AGB估算的影响较高,依次为63.2%,43.7%,28.5%和15.6%,而地形要素对研究区AGB的估算影响较小。

锡林郭勒盟草地生物量总体呈现东高西低、从东北部向西南部逐渐减少的空间分布特征,其中典型草原区草地生物量最高、草甸草原区次之,荒漠草原区的草地生物量最低,空间差异明显。

猜你喜欢
锡林郭勒盟贡献率生物量
轮牧能有效促进高寒草地生物量和稳定性
一种通用的装备体系贡献率评估框架
锡林郭勒盟潜在蒸散量和干燥指数的变化特征
关于装备体系贡献率研究的几点思考
В первой половине 2016 года вклад потребления в рост китайской экономики достиг 73,4 процента
生物量高的富锌酵母的开发应用
锡林郭勒盟马铃薯机械化高产栽培技术
锡林郭勒盟牧区储水窖工程建设探究
基于SPOT-5遥感影像估算玉米成熟期地上生物量及其碳氮累积量
水分胁迫对烤烟氨同化和生物量的影响