纪童,王波,杨军银,李强,刘志刚,关文昊,何国兴,潘冬荣,柳小妮
(1.甘肃农业大学草业学院/草业生态系统教育部重点实验室/甘肃省草业工程实验室/中-美草地畜牧业可持续发展研究中心,甘肃 兰州 730070; 2.甘肃省草原技术推广总站,甘肃 兰州 730000)
叶绿素作为植被生化参数的光合色素,不仅与其他生化指标(氮、粗蛋白)有着密切联系,同时也是影响植物生产的重要指标[1]。当草地受到严重破坏时,叶绿素含量的降低侧面反映了植物在胁迫条件下的生理状态,显示草地的光合能力与健康状况[2]。传统的生理生化分析方法对叶绿素进行测定的过程具有破坏性,且难以实时、快速地监测。近年来,随着遥感技术的快速发展,高光谱技术已成为现代遥感技术的重要组成部分,例如:利用光谱仪进行植物光谱识别[3],以及对植物含水量[4]、叶绿素含量[5]、土壤有机质[1]、生物量等的估算和反演研究,这些成果有效解读了地物光谱特征规律,为遥感监测提供了理论支撑与技术指导。
基于高光谱的植物叶绿素含量研究十分普遍,刘伟东等[7]利用相关分析与逐步回归方法研究了水稻(Oryzasativa)叶绿素密度与光谱反射率光谱及一阶微分光谱的相关关系,并建立了相关的预测模型;唐延林等[8]发现高光谱植被指数(色素比值指数PSSRa、色素归一化差值指数PSNDa和红边位置λred等)与玉米叶绿素、类胡萝卜素存在极显著的相关关系;唐延林等[9]研究发现红边位置与红边斜率和大麦(Hordeumvulgare)冠层叶绿素显著相关;孙雪梅等[10]分析发现红谷面积与GNDVI指数与水稻叶绿素含量之间相关性均最好;宋开山等[11]研究了大豆(Glycinemax)叶绿素含量与冠层光谱相关性,发现神经网络模型结合光谱相关指标可以较好反演大豆叶绿素含量(R2=0.946 7);姚付启等[12]对法国梧桐(Platanusorientalis)与白毛杨(Populustomentosa)的光谱反射率、一阶导数和红边参数与叶绿素含量进行了相关性分析,并利用神经网络模型建立了精度较好的神经网络模型。
但光谱数据多维度、高相关、非线性以及数据量大等独特特点,给高光谱数据的筛选与建模带来了挑战,因此如何有效筛选光谱信息并应用于学习算法中,成为光谱数据分析领域中的重要问题。Person相关系数法[13-15]常用于光谱敏感波段与光谱指标的筛选,主成分分析法(PCA)[16-17]和偏最小二乘法(PIS)中的变量投影重要性(VIP)[18-21]等也被广泛应用于光谱数据降维与消除共线性。基于此,本研究利用Person相关系数法、PCA和VIP方法,选择对叶绿素比较敏感的原始光谱波段与植被指数,采用多元逐步回归与多元线性回归方法建立高寒草地植物群落的叶绿素反演模型,为祁连山东缘高寒草地的遥感监测提供技术支撑。
研究区位于甘肃省武威市天祝藏族自治县抓喜秀龙乡(N 37°40′,E 102°32′)的高寒草甸,海拔2 960~3 425 m,气候潮湿、空气稀薄、太阳辐射强,天然植被为寒温潮湿类高寒草甸。该地区水热同期,无绝对无霜期,仅分冷、热两季,年均气温-0.1℃,最热月7月均温12.7℃,最冷月1月均温-18.3℃,≥0℃的年积温为1 380℃;年均降水量416 mm,多集中于7、8和9月;年蒸发量为1 592 mm,水热同期,年蒸发量约是降水量的3.8倍。
土壤以亚高山草甸土、亚高山黑钙土为主,土层厚度40~80 cm,土壤pH为7.0~8.2。
为避免主观因素,在5个样地内利用等距取样法,每个样地设置10个1 m ×1 m样方,每个样方距离5 m,共计50个样方作为试验建模组,另随机采集10个样方,作为模型检验组。
光谱数据测定选择在天气晴朗、无风、无云天气,北京时间10∶00~14∶00进行。光谱采集时光纤探头垂直向下,距植被冠层垂直高度依据样品冠层大小及探头视场角(25°)确定,使样品冠层恰能位于探头视场范围内。每个样方共采集100个点(1 cm × 1 cm)的光谱数据,取其均值作为1个样方的光谱反射率。
表1 仪器参数及要求
1.2.2 叶绿素指标测定 光谱数据采集完成后,将样方中的草样剪下装袋,带回实验室用分光光度计法[22]测定总叶绿素含量(Chl),每个样方的草样重复测定5次,取其平均值作为对应的叶绿素指标。
1.2.3 植被指数选取 400~790 nm可见光波段,植物叶绿素对光谱特征影响极大,在760 nm附近反射率急剧上升,形成植物特有的红边现象[23],光谱区别明显,因此选取480~760 nm波段对植物自身叶绿素变化较敏感的光谱指数GI、RGI、MCARI、TCARI和CIred edge作为原始变量。另外,光谱测定极易受外界环境,如土壤背景、大气气溶胶、植被冠层等的干扰,导致结果出现误差,而RVI和VARI可以有效矫正大气气溶胶的影响,消除部分辐射误差,NDVI670和NDVI705对冠层结构非常敏感,PSRI可用于植被健康的监测与检测,选择这些植被指数有助于提升光谱精度。
本试验共筛选出15个植被指数(表2)。
表2 植被指数
光谱测定易受天气、空气水分、冠层水分等因素影响,导致光谱曲线出现异常。因此在进行光谱数据分析之前,应剔除有明显异常的数据。本研究使用地物光谱仪自带的View Spec Pro软件对每个样点的多次重复测量值进行平均处理,可消除光谱噪音的影响。
1.3.1 原始光谱数据 针对原始光谱数据量大,且光谱波段彼此间高度相关的问题,试验选择利用Person相关系数法筛选显著相关的原始光谱波段,以达到初步降维的目的,但筛选波段彼此之间仍存在高度相关(多重共线性),因此利用多元逐步回归法对筛选变量进行逐步筛选,去除指标间的多重共线性,保证模型精度。
1.3.2 植被指数 植被指数通常结合不同波长范围的反射率来增强植被某一特征或细节,因此利用植被指数增强光谱对叶绿素含量的敏感性,试验利用15种植被指数,通过相关系数法(Person)、主成分分析法(PCA)和变量投影重要性(VIP)筛选敏感植被指数,为避免指标间存在多重共线性,利用多元逐步回归法消除指标间的共线性,建立叶绿素反演模型。
2.1.1 原始光谱敏感波段筛选 波长小于1 327 nm时,植被冠层叶绿素含量与原始光谱反射率Person相关系数正相关,在384 nm(0.508)、528 nm(0.493)、721 nm(0.485)出现峰值,其中384 nm处相关系数最大(图1)。以0.05显著相关水平为依据,筛选出了波长处于350~650 nm、680~902 nm的522个原始光谱波段,作为多元逐步回归模型的变量。
图1 叶绿素与原始光谱反射率相关系数Fig.1 Correlation coefficient between chlorophyll content and original spectral reflectance
2.1.2 反演模型 因筛选出的522个原始光谱波段指标之间存在多重共线性,利用多元逐步回归消除多重共线性,建立多元回归模型(表3)。
表3 多元逐步回归模型
共建立了17个回归模型,其中紫外光波段与紫光波段入选较多,引入红光波段651 nm的模型17精度最高,RMSE最小(R2=0.889,RMSE=0.27),可以作为原始光谱叶绿素反演模型。
y=1.23×380 nm-0.356×363 nm+0.53×370 nm-0.462×439 nm+0.654×437 nm-0.789×373 nm-0.464×455 nm+0.325×459 nm-0.645×651 nm+0.424×466 nm+0.366×399 nm+0.232(R2=0.889,RMSE=0.27)
模型检验结果见图2(图中虚线为趋势线)。
估测值与实测值拟合情况较好,拟合精度R2=0.916 1,RMSE=0.05(图2),说明模型可以较好地反演高寒草地植物群落叶绿素。
图2 精度检验Fig.2 Accuracy test
2.2.1 Person相关系数法 经Person相关性矩阵分析(图3),植被指数RVI、SAVI、NDVI670、VARI、PSRI、ARVI、RGI、GI、OSAVI和GNDVI与叶绿素指标的相关性较高,相关系数绝对值均大于0.42。
图3 叶绿素与植被指数的Person相关系数Fig.3 Person correlation between chlorophyll and vegetation index注:图形分为两部分,上三角为相关系数与显著性检验,下三角为散点图与拟合曲线,图中星号代表显著性检验P值,无*与*代表差异性不显著,**与***代表差异性显著,各变量的相关关系可在两变量的行列交叉处找到。图中植被指数对应的横纵坐标无单位,叶绿素含量对应的横纵坐标单位为(g/m2)
植被指数之间相关性多元逐步回归消除植被指数之间的高相关性,建立的模型如下:
Y=6.675×OSAVI-2.166(R2=0.473,RMSE=0.525 6)。
2.2.2 主成分分析法 经主成分分析降维(图4)后的植被指数共有10个主成分。
图4 碎石图Fig.4 Scree plot
其中主成分1方差贡献率为60.3%,主成分2方差贡献率为17.4%,主成分3方差贡献率为11.6%,而主成分4~10累积方差贡献率不足10%,且主成分3到主成分4,斜率开始趋于平缓,因此剔除主成分4~10,只保留主成分1、2和3,这3个主成分既能达到降维的目的,又能反映原始数据89.3%的信息。
为研究各植被指数在3个主成分中的贡献程度,列出原始因子特征向量以便讨论各植被指数在主成分中的贡献情况(表4)。
表4 原始因子特征向量
将特征向量带入主成分公式中,得到主成分Z1、Z2和Z3的表达式:
Z1=0.3*R1-0.166*R2-0.246*R3-0.225*R4+0.303*R5+0.311*R6-0.304*R7+0.321*R8-0.303*R9+0.306*R10+0.106*R11+0.167*R12+0.167*R13+0.312*R14+0.194*R15
(1)
Z2=0.224*R1+0.396*R2+0.307*R3+0.343*R4+0.199*R5-0.059*R6-0.037*R7+0.118*R8-0.030*R9-0.024*R10+0.39*R11-0.310*R12-0.310*R13+0.145*R14+0.387*R15
(2)
Z3=0.148*R1-0.413*R2-0.217*R3-0.328*R4-0.113*R5-0.023*R6+0.019*R7-0.044*R8-0.056*R9-0.091*R10+0.084*R11-0.522*R12-0.522*R13-0.011*R14+0.192*R15
(3)
利用筛选出的3个主成分与叶绿素含量建立多元线性回归模型:
y=0.401*Z1+2.812*Z2-2.968*Z3-3.415(R2=0.391,RMSE=0.577)。
但模型精度(R2=0.391)过低,无法反演高寒草地的叶绿素。
2.2.3 变量投影重要性法 利用VIP方法进行重要性评价,当VIP值大于1时,说明该植被指数在估算植物叶绿素含量时具有重要作用。植被指数NDVI705与ARVI变量投影重要性大于1(图6)。
利用NDVI705与ARVI建立叶绿素多元逐步回归模型:
y=2.553×NDVI705+4.849×ARVI-1.861(R2=0.440,RMSE=0.547 8)
可明显看出数据点与方程拟合面的拟合程度不佳,模型精度过低(图6)。不能用于高寒草地群落叶绿素的反演。
图5 VIP指数图Fig.5 VIP Index Chart
图6 3维模型图Fig.6 3D model diagram
各种色素是支配植物光谱响应的主要因素,其中叶绿素所起的作用最为重要[27]。本研究发现,原始光谱敏感波段350~650 nm与680~902 nm的522个原始光谱波长与高寒草地植物群落叶绿素的相关系数均达到了0.05的显著相关水平。这522个原始光谱波长大体分布于紫外波段(350~380 nm)、蓝紫光波段(380~485 nm)、绿光波段(485~565 nm)、部分红光波段(625~650 nm、680~740 nm)与部分近红外波段(780~902 nm)。
350~380 nm紫外波段与叶绿素相关系数高的原因主要为试验地位于海拔3 000 m以上的高寒草地,紫外辐射强度较高,而叶绿素对紫外光都有较强的吸收作用[28]。范雅等[30-31]的相关研究也显示了叶绿素对近紫外线波段范围内的光具有较强的吸收,并指出该波段对叶绿素含量估算具有很大潜力。
绿色植物在450~500 nm为中心的蓝光波段及以650~680 nm为中心的红光波段,由于光合色素强烈吸收太阳辐射能而形成两个通常被称为“蓝谷”和“红谷”的低反射区。在这两个低反射区之间的550 nm附近,植物叶片对辐射能吸收很少,因而形成了绿光波段反射峰。本研究结果说明高寒草地植物群落在528 nm形成高反射峰,该波段对植物叶绿素含量极为敏感。
植物光谱曲线在红光波段的叶绿素吸收谷与近红外波段的高反射率之间的陡升部分,在700~750 nm处,被称为植物的“红边”区,典型绿色植被光谱曲线均具有明显的“红边”特征。研究[32,34]表明,植物红光波段(640~780 nm)与叶绿素含量相关性较好,本研究也发现,原始光谱波段721 nm与叶绿素相关性也较高。但近红外波段(780~1 000 nm)叶片光谱反射率受叶片色素含量影响较小,主要受叶片内部生理结构蛋白质纤维素和含水率等影响[35],解释了721 nm后相关系数降低的现象。
本研究中,原始光谱多元逐步回归模型在剔除了诸多变量后,得到了模型17,模型精度R2达到0.89,其中波段多为紫外波段、蓝紫光波段与红光波段的651 nm,说明高海拔紫外辐射强地区,紫外波段、蓝紫光波段与红光波段对高寒植物群落的叶绿素有重要影响。
单一原始光谱反射率有时对植物指标不敏感,而且光谱测定时易受到外界环境如土壤背景、大气气溶胶等影响,此时结合不同波段的植被指数,可以增强植物指标特征或消除环境因子的影响。本研究利用Person相关系数法分析了叶绿素的光谱敏感波段与高相关性植被指数,结果发现单波段(原始光谱)与叶绿素的相关系数远低于波段组合(植被指数),证明植被指数在高寒草地群落叶绿素指标的反演中优于单波段(原始光谱)。程乾等[36]的分析也发现基于美国卫星遥感器EMODIS归一化植被指数(EMODIS-NDVI)、增强植被指数(EVI)及红边位置指数(REP)与水稻叶片叶绿素含量的相关性高于可见光、近红外波段;易秋香等[34]对不同品种玉米叶片的叶绿素含量的反演结果发现植被指数优于单一特征变量,与本文研究结果一致。
在植被不同的生长时期,土壤背景及其变化对植被叶绿素含量的反演将产生一定的影响,因此反演叶绿素含量时,尤其是当植被覆盖度较低时必须考虑土壤背景的影响。本研究通过Person相关系数分析发现,可以修正土壤背景对植被指数的影响的植被指数OSAVI与高寒草地植物群落叶绿素的相关系数最高,而变量投影重要性分析也得出NDVI705与OSAVI为重要变量。NDVI705是NDVI的改进型,它对叶冠层的微小变化十分敏感,OSAVI有较好的抗土壤干扰的能力,因此土壤背景与植物冠层的差异是影响高寒草地叶绿素含量反演的主要因素。
本研究还发现,原始光谱的多元逐步回归模型精度远优于其余模型,这主要是因为多元逐步回归法是众多数学建模方法中针对线性问题的一种处理方法,该方法可以处理多个变量,不仅仅能解决单一因素所造成的影响,还可以将涉及到的所有变量以及可能影响结果的众多因素都带入回归方程,逐步排除,最终选取最佳的回归方程,并提供相应的验证参数。光谱模型受空间、时间、环境影响较大,利用该方法可以全面考量全光谱波段,是影响因素多时较为理想和便捷的解决方法。余蛟洋等[26]和沈佳等[37]的研究结果也表明了多元逐步回归模型在处理光谱信息时的优势作用。
综上所述,本研究所建立的原始光谱变量的多元逐步回归模型可以用于高寒草地植物群落叶绿素的反演。下一步拟进行其他营养指标的高光谱反演研究,为高寒草地群落的遥感监测提供理论支持。
原始光谱384、528、721 nm波段的反射率与高寒草地植物群落的叶绿素相关系数较高,共筛选出522个原始光谱波段作为多元逐步回归变量;植被指数RVI、SAVI、NDVI670、VARI、PSRI、ARVI、RGI、GI、OSAVI、GNDVI与群落叶绿素显著相关,且优于单波段原始光谱;利用筛选出敏感波段的原始光谱反射率与植被指数指标建立反演模型,其中原始光谱多元逐步回归模型精度(R2=0.889)最高,且模型检验结果较好(R2= 0.9161,RMSE=0.05),可作为高寒草地植物群落叶绿素的反演模型。