郭云开,刘雨玲,张晓炯,许 敏
(1.长沙理工大学 交通运输工程学院,湖南 长沙 410076;2.长沙理工大学 测绘遥感应用技术研究所,湖南 长沙 410076)
叶面积指数(Leaf Area Index,LAI)既是地表单位面积柱体内全部叶子单面面积的总和,也可理解为叶面积的总和与其占地表面积的比值[1]。与植被的光合作用、呼吸作用和蒸腾作用等生化作用息息相关,是植被的重要理化参数之一。因此,如何迅速、准确且无损地获取局部以及区域尺度植被生化参数含量及其分布状况的信息尤为重要[2]。
传统的叶面积指数直接测量法结果较为准确,但是耗时耗力,且叶片测量结果并不具有普遍代表性,不适用于大范围测量。遥感技术的优势表现在:时空分辨率高[3]和可以实现大面积、宽领域、实时动态的监测。此外,遥感不仅是一种无损且快捷高效的探察植被特征的工具,同样是研究生态系统的过程和功能的得力方法。定量遥感研究的两大基本问题是遥感建模与遥感反演[4]。现今,获取叶面积指数的建模方法大致分为以下几大类:经验模型、物理模型和机器学习回归建模。经验模型是利用原始光谱或植被指数等信息与地面实测叶面积指数的统计关系来估算叶面积指数,特点是模型易于实现但普适性差。物理模型具有较强的通用性,受外界环境影响小,但是复杂多变,参数需求多[5]。近年来,随着机器学习和人工智能的兴起,韩兆迎等[6]分别采用了随机森林算法和支持向量机算法搭建苹果树实测叶面积指数与冠层反射率之间的联系,发现支持向量机回归模型预测精度低于随机森林回归模型。而宋开山等[7]应用神经网络构建大豆LAI高光谱的反演模型,其反演效果优良,具有一定参考价值。综上可知机器学习回归建模在LAI反演中应用效果较好。在机器学习方法中,随机森林算法具有抗噪性强、抗过拟合和欠拟合能力强等特点,辐射传输模型与随机森林算法结合在路域植被参数反演的应用研究也从未有学者探索过。
因此,本文提出一种基于修正辐射传输模型(PROSPECT5+4SAIL Model,PRO-4SAIL)和随机森林算法的组合模型,通过敏感性分析和植被指数优化选取,反演得到叶面积指数,根据决定系数(R2)和均方根误差(RMSE)评价分析与实测数据的一致性,该方法可以为路域植被健康评价提供一定科学依据。
本文选取湖南省境内具有代表性的高等级公路-长韶娄高速(编号湘高速S50)为研究区域,该试验区地处南方丘陵地段,道路两侧植被茂盛且种类繁多,以常绿阔叶林为主,便于进行实地试验(见图1)。其中试验区气候类型为大陆性亚热带季风湿润气候,水、光、热资源丰富。
本次试验采取实地试验的方式,进行试验的时间是2018-06-16—17,该时间段少风无云,天气晴朗,光照充足,植被生长旺盛。试验区域设有50个采样区(15 m×15 m),每个采样方格区由一个中心及4个角点组成,采样区间隔均匀。每个测点均采集叶面积指数、叶绿素含量、GPS坐标点信息、冠层光谱、针阔叶比等信息,并且采集新鲜的典型植被叶片作为室内试验样本,其中叶面积指数测量方式是5次随机测量,取平均值,测量仪器是LAI-2 000。
图1 试验区示意图
本文的光谱测定仪器是AvaField-3 野外便携式地物采集仪,可测量光谱的波长范围为300~2 500 nm,其采样间隔在300~1 100 nm为0.6 nm,1 100~2 500为6 nm,300~1 100 nm的光谱分辨率为1.4 nm,1 100~2 500 nm的光谱分辨率为15 nm。每个样点采集10组数据,对其进行剔除异常光谱、取平均和最小二乘多光谱平滑(Savitzky-Golay Smoothing)处理,最后进行重采样等操作,得到所需的有效冠层高光谱。
PRO-4SAIL模型是由叶片光学模型PROSPECT5模型和冠层模型4SAIL模型组合而成模拟冠层反射率的耦合辐射传输模型。PROSPECT模型的主要输入参数包括叶绿素含量Cab、叶片结构参数N、干物质含量Cm及叶面积指数LAI等参数。而本文的PROSPECT5模型在其基础上加入了类胡萝卜素含量和棕色荧光成分含量两个参数,PROSPECT5模型能够使模拟的叶片反射率更加准确。1984年,Verhoef 在Suits模型的基础上改进得到了 SAIL 模型,而4SAIL模型是在SAIL模型的基础上,考虑了冠层结构参数、植被结构的热点效应、棕色叶子的比例参数和土壤的二向性反射等得到的[8]。
PRO-4SAIL耦合模型实际是将叶倾角分布、叶面积指数等参数与PROSPECT5模型最终输出的叶片透射率和反射率组合输入到4SAIL冠层模型中,得到植被冠层反射率。其中本文采取的PRO-4SAIL公式如下:
ρc=PROSPECT5+4SAIL(N,Cab,Car,
Cbrown,Cw,Cm,LIDFa,LIDFb,TypeLidf,
LAI,hspot,θs,θv,φsv,rsoil)
(1)
式中:ρc为植被冠层反射率;N为叶片结构参数;Cab为叶绿素含量;Car为类胡萝卜素含量;Cbrown为褐色素含量;Cw为含水量;Cm为干物质含量;LIDFa,LIDFb分别是平均叶倾角参数a和b;TypeLidf是叶片分布类型选择;LAI为叶面积指数;hspot为热点参数;θs为太阳天顶角;θv为观测天顶角;φsv为太阳和观测的相对天顶角;rsoil为土壤光谱反射率。
本文在PRO-4SAIL耦合模型的基础上通过一定步长叶面积指数变化进行植被冠层光谱的模拟,为后面基于随机森林回归的叶面积指数反演提供数据支持[9]。其中,耦合模型所需输入的叶片生化参数等数据来自LOPEX’93 数据库和室外实测数据。PRO-4SAIL耦合模型的具体参数设置见表1,根据以上参数设置,可得到模拟的植被冠层光谱反射率(见表2)。
表1 PRO-4SAIL模型的参数设置
表2 模拟冠层反射率 nm
敏感性分析是研究模型输出响应受各个输入参数变化影响程度的分析技术。利用冠层反射率进行叶面积指数反演前,先分析叶面积指数对PRO-4SAIL模型模拟的冠层反射率变化的敏感波段区间以及敏感程度[10]。本文在其它参数不变的情况下,通过一定步长来改变叶面积指数的大小,分析冠层光谱反射率的变化情况,其中步长设置为0.5。
除了单一波段或多个单波段可以反映叶面积指数,植被指数也是提取植被信息的优良载体,它能够有效地消除或减弱某些环境因素对冠层光谱的干扰,并且可以提取植被相对完整的特征信息[11]。本文在选取植被指数时,参考前人的经验及方法,结合多种常见植被指数(见表3)与叶面积指数相关性分析,从而确定参与到建模工作中的植被指数。
随机森林是于2001年由 Cutler Adele 和Leo Breiman 研究发现的一种数据挖掘方法,这是组合型的自学习与现代回归与分类结合的一种技术。随机森林既可用作分类与回归,也可用于聚类和生存分析。相比较于其它算法,它的优势在于对数据集的适应能力强,具有很好的抗噪性能和极强的拟合能力但是不会产生过拟合现象。随机森林通过自助法随机选择部分向量生长为分类树,每个树都会完整生长而不会修剪。其树的生成过程中,在随机挑出的少量变量中确定其节点的变量。该方式生成的庞大的树便用于回归和分类,因而称作随机森林[12]。随机森林模型有两个重要的参数:分类树的数量k和分割节点的随机变量m,在随机森林应用中区别是分类还是回归,取决于随机森林的每棵cart树是分类树还是回归树。
表3 常见植被指数及其表达式
随机森林回归模型的优点在于:①可以处理大规模数据集,可以预测上千个解释变量的作用;②对多元线性公式不敏感,缺失数据和非平衡数据的预测结果也比较稳健;③可以给出变量的重要性估计;④训练速度快[13]。本文随机森林回归模型的构建是在R语言中提供的Random Forest 软件包中实现的,它可以分析变量的重要性及模型的预测效果。随机森林回归算法的核心是确定随机森林决策树的数量ntree和分割节点的随机变量数目mtree,mtree代表着决策树每次分枝时选择的变量个数,在随机森林回归模型中该参数大小一般为变量个数的1/3,同时也需要根据具体情况分析,另外为保证样本的预测次数,ntree值不宜设定过小,否则将无法构建森林[14]。
敏感性分析是一种定量的分析,当研究特定因素发生某些变化时,对某些或某个因子的影响程度的一种非确定性分析[15]。本文通过模拟不同取值的叶面积指数的冠层反射率,发现叶面积指数LAI对每个波段区间都有不同程度的影响,而当叶面积指数逐步增大时,可见光波段和部分短波红外波段的冠层反射率逐步降低,而部分短波红外和近红外波段范围的冠层反射率是逐步升高的。由此可见,可见光波段区间和短波红外波段区间的变化受叶面积指数影响较大,即较为敏感,如图2所示。
图2 LAI敏感性分析
相关性分析是用指标来表明现象间相互依存的密切程度的一种分析方法。本文在植被指数选取过程中,根据常见植被指数与实测叶面积指数LAI的线性相关分析结果,选取出相关性较高的DVI、OSAVI、 MSAVI、 MCARI2 4个植被指数,作为随机森林回归模型的自变量的一部分[16]。其中选取的植被指数及其相关性分析见表4。
表4 植被指数相关性分析结果
本文根据随机森林回归模型本身对数据大小及数据结构的要求,以及LAI与植被指数相关性分析,将PRO-4SAIL模拟的DVI、OSAVI、 MSAVI、 MCARI2及其对应波段550 nm、670 nm、680 nm、800 nm的数据与叶面积指数作为训练集构建随机森林模型[17]。而测试集为挑选的实测叶面积指数和实测550 nm波段、670 nm波段、680 nm波段、800 nm波段、DVI、MSAVI、OSAVI、MCARI2。利用R语言中Random Forest软件包实现随机森林回归模型,经过多次试验比较,值和值分别设定为500和3。其中随机森林回归的训练集决定系数R2为0.988,建模精度较高,且没有出现过拟合或欠拟合现象。
反演的最终结果如图3所示,叶面积指数(LAI)实测值与预测值的决定系数R2为0.688,均方根误差RMSE为0.533,模型验证精度较好,最终反演得到的结果与实测结果一致。说明PRO-4AIL模型与随机森林算法回归的结合具有较好的反演精度。由上述试验证明,在样本挑选中剔除了多组光谱异常和信息缺失数据和LAI实测值的大小整体浮动较小的情况下,随机森林回归模型依然能取得较好的结果。
图3 反演结果
叶面积指数与植被的生长与健康息息相关。在路域环境评判监测中,主要根据道路修建完成后期对周边植被的健康影响状况来进行分析,因此,叶面积指数反演对路域环境健康监测有着重要理论支撑。利用PRO-4SAIL辐射传输模型模拟一定步长下的路域植被冠层反射率,选取适宜叶面积指数反演的反演因子,采用机器学习中的随机森林回归算法将几种反演因子与叶面积指数进行回归建模,进而分析组合模型反演叶面积指数的精度和稳定性。该回归模型抗过拟合能力强,最终反演的叶面积指数与实测结果一致,有效提高了模型反演的精度和稳定性,在植物生化参数反演领域有广阔的应用前景,为路域植被健康监测提供一定的技术支持。本文主要考虑的是辐射传输模型和机器学习组合应用在反演植被生化参数方面的内容,而在数据源的不同选择以及植被指数选取方面还有待后续研究与探索。虽然本文的模型应用较为成功,但对于模型反演的不同地域、不同主体等的推广应用未曾涉及,有待深入探讨。