吕小艳,薛 琳,竞 霞,张 超,徐海清,朱启法
(1西安科技大学测绘科学与技术学院,西安710054;2中国农业大学土地科学与技术学院,北京100083;3安徽皖南烟叶有限责任公司,安徽宣城242000)
烟草作为中国的重要经济作物,科学化、精细化的管理对于提高烟草质量至关重要,烟草施肥、长势与品质的监管主要依据于烟草生化参数,叶绿素作为烟草主要生化参数之一,是叶片叶绿体内进行光合作用的主要色素[1],并且可用于烟草氮素状况、产量[2-5]等的预测。快速精准无损地估测烟草叶片的叶绿素含量,有助于及时掌握烟草的长势状况,为种植管理者提供科学依据。
传统实验室化学测定叶绿素含量的方法耗时,同时对作物具有破坏性。SPAD(soil and plant analyzer development)值可准确表征叶绿素含量,但获取SPAD值时需要反复接触叶片,不适于大范围叶绿素信息的获取[6]。高光谱数据具有快速、无损特点,已广泛应用于SPAD值的估测[7-11]。
目前,利用高光谱估算SPAD值的研究中,主要通过反射率原始数据[12]、变换数据[13-15]、微分数据[16,17]与SPAD的关系,反演SPAD值。而利用微分数据估测SPAD值的研究中,主要基于整数阶微分,但整数阶微分忽略了微分光谱的渐变信息,限制了估测模型的精度[18]。分数阶微分作为整数阶微分的拓展,可以突出光谱的细微信息[19-21]。王敬哲等[22]通过分数阶微分处理的光谱数据,研究了荒漠土壤铬含量反演,得出分数阶微分优于一阶微分。Fu等[23]通过研究地面高光谱遥感和Landsat 8 OLI数据的Grünwald-Letnikov分数阶微分光谱数据与土壤有效钾含量的相关性,表明分数阶微分可描述光谱数据的微小差异,茹克亚·萨吾提等[24]利用经过对数变换和分数阶微分处理的光谱计算的植被指数建立偏最小二乘模型,实现了小麦叶绿素含量的估算。
上述研究表明,对高光谱数据进行分数阶微分处理可挖掘高光谱数据的细微信息,且利用分数阶微分估测叶绿素含量是可行的,但目前该方法应用于烟草生化参数估测的研究较为鲜见,烟草是典型的双子叶植物,它的收获对象为叶片,估测叶片的SPAD值对于预测烟草产量具有重要意义。烟草旺长期是烟草的重要生育期,此时烟草的叶片数、叶面积、干物质积累迅速增加,是决定叶数、叶面积和叶重的关键时期,也是决定产量和品质的重要阶段。因此,本文以旺长期烟叶为研究对象,在以高光谱数据估测烟叶SPAD值的基础上,提出了利用高光谱分数阶微分估测烟叶SPAD值的方法,研究分数阶微分光谱在烟叶SPAD值估测中的可行性,以期为烟草长势监测提供科学依据。
以安徽省宣城市(29°56′48′—31°19′30′N,117°57′54"—119°38′39′E)为研究区,该区域属于典型的亚热带季风气候,年平均温度为15.6℃,年降水量1200~1500 mm,无霜期8个月,适宜烟草种植[25]。烟草品种为‘云烟97’,大田生长期为3月中下旬至7月下旬,种植行距1.2 m,株距0.45 m左右。试验选取能够代表该研究区特性的烟田16块,每个田块布设5个样点,样点之间相距50 m,共80个样点。
2019年5月7日—11日,采用美国SVC HR-640i型全波段地物光谱仪,实地采集烟叶高光谱数据。测量时天气晴朗、无风。视场角为25°,探头垂直向下。北京时间11:00—15:00进行光谱测量,以烟草的中部叶为测量目标,每片叶子采集5次光谱数据,将平均值作为该样本光谱反射率数据,每次测量前后均用标准参考板进行标定。该仪器有640通道,光谱探测范围为350 nm~2500 nm。在350~1000 nm波段的带宽≤1.5 nm,1000~1890 nm 波段的带宽≤14 nm,1890~2500 nm波段的带宽≤10 nm。对应于烟叶光谱的测定位置,采用SPAD-502便捷式叶绿素仪测定烟叶的SPAD值,每片叶子测量3次SPAD值,取平均值作为该叶片的SPAD值。
1.3.1 光谱数据预处理及最优变换方式确定 便于分数阶微分光谱的计算,将反射率光谱重采样为间隔1 nm,并利用Savitzky-Golay(SG)滤波进行平滑去噪。此外,利用原始反射率(R)和8种变换的反射率数据[倒数(1/R)、对数(logR)、均方根(SqrtR)、倒数对数(log(1/R))、对数倒数(1/logR)、均方根倒数(1/SqrtR)、多元散射校正(MSC)、标准正态变换(SNV)]与SPAD值进行相关性分析,通过统计达到0.001显著水平的波段数,以确定估测烟叶SPAD值的最优光谱变换方式,波段数越多表明与烟叶SPAD值的响应关系越优。由表1可知,SNV变换光谱与SPAD值达到0.001显著水平的波段数量最多为654,表明SNV变换光谱与SPAD值的响应关系最优,因此,SNV为最优变换方式。
表1 变换光谱与SPAD值达到0.001水平相关的波长数量
1.3.2 高光谱分数阶微分 分数阶微分是整数阶微分的扩展,常用的分数阶微分采用Grünwald-Letnilov(G-L)方法,其定义如式(1)[26]。
为了确定输入模型的特征波长,提高模型精度。首先通过分析烟叶分数阶微分光谱与烟叶SPAD值的相关性,去除未达到0.001显著水平的波长,实现数据降维;然后基于RF算法及OOB重要性方法实现特征波长的筛选。
RF是通过Bootstrap的方法抽取训练样本集,每个样本未被抽中的概率为(1-2/n)n=0.368,(n足够大时),这些未被抽中的样点成为OOB[27],然后利用OOB,计算每个波长变量的重要性,其具体步骤如下[28]:
(1)以袋外样本数据对n颗回归树测试,得到每棵树t的OOB误差(errOOBt);
(2)以随机扰动方法打乱袋外样本数据中变量XK的值,形成新袋外测试集,以新OOB测试集对n颗回归树测试,得到扰动后每棵树t的OOB误差(errOOB′t);
(3)计算两次测试的OOB误差的差值的平均值,即为单棵树对变量XK重要性得分,计算如公式(2)所示。
虽然OOB对波长进行了的重要性评价,但最终波长数量的过多或过少都会影响模型的准确率和稳定性。为此,本文将波长按照重要性从大到小进行排序,选取排序前20的波长,依次增加波长的数量作为RF模型的自变量,即,第一次仅用排序第一的波段建模,第二次使用排序第一、二的波段建模(1≤e≤20,e为波长数量),SPAD值为因变量,构建估测烟叶SPAD值模型,以决定系数(determination coefficient,R2)的最大值确定特征波长。
将样本数据(g=80)按照2:1的比例随机分成训练集(g=60)和验证集(g=20),以特征波长为自变量,SPAD为因变量,基于RF算法建立烟叶SPAD值估测模型,并通过R2和均方根误差(root mean square error,RMSE)2个指标对烟叶SPAD估测模型进行精度验证。
表2为不同阶次下估测烟叶SPAD值的特征波长数量及特征波长,通过分析不同阶次的特征波长可知,估测烟叶SPAD值的特征波长主要有叶绿素强反射区的绿波段(499、500 nm),叶绿素强吸收带的红边波段(634、636、702、703、732nm)、反映烟草冠层和叶片细胞结构的近红外波段(972、1286、1289、1295、1298、1316 nm)、和烟草含水量状况相关的短红外波段(1450、1453、1456、1806 nm)。
表2 不同阶次特征波长数量及特征波长对应表
以特征波长为自变量,烟叶SPAD值为因变量,建立RF-SPAD模型,模型精度如表3所示。由表3可知,RF-SPAD模型训练集R2的范围为0.824~0.925,比较稳定且较高。RF-SPAD模型验证集R2的范围为0.346~0.690,RMSE的范围为2.782~3.932,验证集精度最高的模型为1.9阶次的RF-SPAD模型,R2=0.690,RMSE=2.799,其R2比0、1、2阶次分别提高了22.1%、42.6%、87%,RMSE比0、1、2阶次RMSE分别减少了13.5%,20.2%,27.8%。由烟叶实测与估测SPAD值散点图(图1)可以看出,SPAD小于44时,估测SPAD大于实测SPAD,在SPAD大于44时,估测SPAD小于实测SPAD,表明该模型在SPAD值低时会高估SPAD值,而在SPAD值较高时,会低估SPAD值。
图1 1.9阶次的RF-SPAD模型估测SPAD值与实测SPAD值的拟合关系
表3 RF-SPAD模型精度
续表3
为了进一步确定分数阶微分的优越性,利用偏最小二乘(PLS)和BP神经网络(BP)模型建立了估测烟叶SPAD值的PLS-SPAD、BP-SPAD模型,模型精度见表4,由表4可知,BP-SPAD模型的最优估测精度在1.1阶,R2为0.589较0、1、2阶分别提高了25.8%、25.6%、38.0%,RMSE为3.219比0、1、2阶分别减少了9%、15.7%、13.6%;PLS-SPAD模型的最优估测精度在1.4阶,R2为0.660较0、1、2阶分别提高了19.7%、41.6%、145.4%,RMSE为2.870比0、1、2阶分别减少了17.6%、22.0%、33.4%。
表4 PLS-SPAD、BP-SPAD模型验证集精度
为了更有效地利用高光谱估测叶绿素含量,林少喆等[29]通过数学变换后的反射率光谱构建了不同光谱变换形式下冬小麦冠层SPAD值监测模型,结果表明不同光谱变换形式下适宜模型的组合可提高SPAD值监测效果;武倩雯等[30]以玉米抽雄期叶片为研究对象,探究了叶片叶绿素含量与多种高光谱参数的关系,表明预测玉米抽雄期叶绿素含量的最佳模型为:y叶绿素=6912x760+44.878(x760为760 nm处的光谱反射率一阶微分值)。尽管这些研究表明,通过对原始反射率光谱进行数学变换可以较好地估测叶绿素含量,但未结合分数阶微分,而本文在最优变换的基础上利用分数阶微分算法对光谱进行了处理,挖掘了高光谱信息估测叶绿素的潜能,为提高叶绿素估测模型的精度提供了更大的可能。
在叶绿素含量估测模型构建方面,本文除了建立RF-SPAD模型,为了进一步确定分数阶微分的优越性,还建立了PLS-SPAD、BP-SPAD模型,发现利用分数阶微分处理后的高光谱数据所建立的烟叶SPAD值估测模型较整数阶微分具有较好的稳定性和预测能力。但在不同的估测模型中,精度最高时所对应的阶次不同,RF-SPAD模型为1.9阶次、BP-SPAD模型为1.1阶次,PLS-SPAD模型为1.4阶次,表明叶绿素含量估测模型精度的变化除了受特征波长的影响,还受到RF、BP、PLS自身性能的影响,即使基于相同的因变量与自变量方法,但使用不同的机器学习建模方法,得出的结果会存在差异。
受高光谱数据采集的限制,本文仅在烟草旺长期建立了烟叶SPAD值估测模型,随着烟草生长地域、品种、生育期的变化,光谱与SPAD值的响应关系也会发生变化,因此该模型是否适用于不同烟草品种、不同生育期烟叶SPAD值的预测还需进一步验证。再者本研究仅利用地面高光谱数据研究了分数阶微分在叶绿素含量估测中的可行性,应用于无人机遥感、卫星遥感数据的效果如何,是今后研究大尺度叶绿素含量估测的方向。
本文基于高光谱分数阶微分光谱,利用1.9阶次的特征波长所构建的RF-SPAD模型R2=0.690,较0、1、2阶次分别提高了22.1%、42.6%、87.0%,RMSE=2.799,比0、1、2阶分别减少了13.5%,20.2%,27.8%,表明利用分数阶微分光谱进行烟叶SPAD值估测是可行的,为高光谱数据定量估测作物SPAD值提供了新的思路。