严志雁,王芳东,郭 熙,丁 建
(1.江西省农业科学院农业经济与信息研究所,江西南昌 330200;2.江西省农业信息化工程技术研究中心,江西南昌 330200;3.江西省农业科学院基地管理中心,江西南昌 330200;4.江西农业大学江西省鄱阳湖流域农业资源与生态重点实验室,江西南昌 330045)
【研究意义】叶绿素是植被光合作用的重要色素,研究表明便携式叶绿素仪测定的叶片绿色度(SPAD值)与叶绿素含量正相关,SPAD值能代替实验室检测测定叶绿素含量[1−3]。构建基于高光谱技术的水稻叶片SPAD估算模型,可实现对水稻叶片叶绿素含量的实时无损监测。【前人研究进展】已有学者采用不同数据预处理方法及预测模型对水稻叶片SPAD值进行预测。武旭梅等[4]运用水稻叶片波段组合的方式构建了一系列植被指数,筛选最佳植被指数作为自变量,应用普通回归分析方法和随机森林算法估算水稻冠层SPAD。于滋洋等[5]对叶片光谱反射率进行去包络线(CR)处理,采用可见光近红外波段提取水稻叶片反射光谱特征参数和植被指数,采用随机森林算法构建不同输入量的SPAD高光谱估算模型。孙玉婷等[6]采用归一化法对数据进行预处理,建立以叶色图像RGB值为输入参数、叶片SPAD值为输出参数的支持向量机回归模型。孙小香等[7]利用主成分分析对原始光谱数据进行降维,将得到的主成分作为输入变量,分别应用逐步多元线性回归分析法与支持向量回归法构建叶片SPAD值的高光谱估算模型。李永梅等[8]对水稻叶片反射光谱及SPAD值与氮素含量进行相关分析,筛选诊断氮素含量的特征光谱并构建氮素估算模型。还有学者用高光谱技术对小麦、油菜、生菜和柑橘等其他作物开展研究[9−12],分别采用基线校正、多元散射校正、标准正态变换、Savitzky−Golay(SG)卷积平滑滤波和一阶导数等预处理方法,分析比较线性回归、偏最小二乘、支持向量机、BP神经网络、随机森林等模型预测作物叶片营养元素[13−18]。【本研究切入点】现有对水稻叶片SPAD值高光谱估测模型的研究仅采用一种或少数几种方法进行数据预处理,采用基线校正、多元散射校正、标准正态变换等数据校正预处理方式及模型选取对水稻叶片SPAD值预测结果精度的影响及原因尚不清楚。【拟解决的关键问题】为比较不同预处理方法及模型选取对水稻叶片SPAD值预测模型精度的影响,本文选用7种预处理方法,结合偏最小二乘回归(partial least squares regression,PLSR)、支持向量机回归(support vector regression,SVR)以及随机森林回归(random forest regressor,RFR)3种回归建模算法,建立水稻叶片SPAD值的高光谱预测模型,对比筛选预测水稻叶片SPAD值的最佳预处理方法和模型。
为使样本间叶绿素含量产生明显差异,本文设计了不同氮肥运筹田间试验。试验区位于江西省崇仁县郭圩乡,水稻栽培品种为晚稻泰优390,试验设置8个不同肥料运筹试验处理:(1)不施肥(对照)、(2)10−0−0−0(基肥−分蘖肥−穗肥−粒肥,下同)、(3)6−4−0−0、(4)4−3−2−1、(5)4−2−2−2、(6)4−1−4−1、(7)3−2−3−2、(8)2−3−4−1,各施肥处理间氮、磷、钾总量相同(氮肥27.75 kg/hm2、磷肥35.25 kg/hm2、钾肥21.00 kg/hm2)。每个处理设置3次重复,共24个试验小区。分别于水稻分蘖期、抽穗期、灌浆期、成熟期等4个关键生育时期进行采样,共获取叶片光谱和叶片SPAD值96组。
水稻叶片光谱采用ASD FildSpec 4背挂型地物光谱仪和叶片夹进行测定。每个试验小区取3株植株、每株选取5片剑叶,用叶片夹进行叶片光谱测定,每次测量前及时进行标准白板校正,每片叶片测定按照上、中、下不同位置(避开叶脉)进行采集,取5个光谱反射率平均值作为该点的光谱反射率,取叶片光谱反射率平均值作为该植株样本的光谱反射率,3株的叶片反射率平均值作为该试验小区的叶片反射率。共获取叶片反射率数据96组。
研究表明水稻叶片绿色度(SPAD)值与叶绿素含量具有显著的相关性[3],本文用SPAD值代表稻叶叶绿素含量,采用SPAD−502型手持式叶绿素仪测定SPAD值。每株水稻取5片稻叶,测定叶片中部的SPAD值,取均值作为该株叶片的SPAD值。每小区取3株水稻的SPAD值的平均值作为该小区的叶片SPAD值。共获取叶片SPAD值96个。
本文选取基线校正、多元散射校正、标准正态变换、Savitzky−Golay平滑等数据校正算法对光谱进行预处理,方法如表1所示。经多次试验,选取预测结果最佳的参数作为预处理方法的参数,预处理后样本的平均光谱图像如图1所示。
表1 光谱数据的预处理方法Tab.1 Pre-processing method supplied to the spectral curves
本文选用偏最小二乘回归(PLSR)、支持向量机回归(SVR)以及随机森林回归(RFR)3种方法进行建模,模型的自变量为350~2 500 nm全波段光谱,因变量为SPAD值,依据决定系数R2、均方根误差值(root means quare error,RMSE)及相对分析误差(residual predictive deviation,RPD)来检验模型的精度与可靠性,筛选模型。
PLSR、SVR、RFR模型于Python3环境编译实现,采用train_test_splitt()函数划分训练集和验证集,验证集数量为样本数的25%,采用ShuffleSplit()函数进行随机置换交叉验证,份数K=10,采用Grid-SearchCV()函数选取最佳超参数[19]。
图1 预处理后的光谱反射率Fig.1 Spectral reflectance after pre−processing
结合不同预处理方法,采用PLSR模型建立叶片SPAD值估测模型,其建模精度与预测精度如表2所示。建模集所有预处理方法中,最优预处理为BC法,决定系数R2为0.95、RMSE为8.27、RPD为4.67;验证集所有预处理方法中,最优预处理也为SG+BC法,决定系数R2为0.82、RMSE为14.43、RPD为2.44。采用BC、SG、SG+BC、SG+SNV法均大幅提高了PLSR模型验证集的决定系数R2,MSC、SNV、SG+MSC降低了验证集的决定系数R2。图2为PLSR高光谱模型预测SPAD值最佳结果(R2=0.82)。
表2 偏最小二乘回归叶片SPAD值预测模型统计Tab.2 Statistics results for spectral models of SPAD value by PLSR
采用SVR模型,结合不同预处理方法建立水稻叶片SPAD值估测模型,其建模精度与预测精度如表3所示。训练集所有预处理方法中,最优预处理为BC法,决定系数R2为0.98、RMSE为0.10、RPD为388.21;验证集所有预处理方法中,最优预处理为SG+BC法,决定系数R2为0.86、RMSE为13.12、RPD为2.66。采用SG、SG+BC提高了SVR模型验证集的决定系数R2。图3为SVR高光谱模型预测SPAD值最佳结果(R2=0.86)。
图2 PLSR模型预测SPAD与实测数验证Fig.2 Result of validation between measured and predicted SPAD by using PLSR model
图3 SVR模型预测SPAD与实测数验证Fig.3 Result of validation between measured and predicted SPAD by using SVR model
表3 支持向量机回归叶片SPAD值预测模型统计Tab.3 Statistics results for spectral models of SPAD value by SVR
采用RFR模型,结合不同预处理方法,建立叶片SPAD值估测模型,其建模精度与预测精度如表4所示。训练集所有预处理方法建模处理后,预测精度最优的预处理方法为SG法,决定系数R2为0.96、RMSE为7.80、RPD为4.95;验证集所有预处理方法建模后得到的决定系数R2平均系数为0.69,预测精度最优的预处理方法为SG+BC法,决定系数R2为0.87、RMSE为12.38、RPD为2.82。采用SG、SG+BC、SG+MSC、SG+SNV提高了RFR模型验证集的决定系数R2。图4为RFR高光谱模型预测SPAD值的最佳结果(R2=0.87)。
图4 RFR模型预测SPAD与实测数验证结果Fig.4 Result of validation between measured and predicted SPAD by using RFR model
与原始光谱数据建模结论相比较,提高了验证集预测精度的预处理方法为有效预处理方法,有效预处理方法的模型平均预测精度如表5所示。由表2~表5结果可知,PLSR模型中,BC、SG、SG+BC、SG+SNV提高了验证集模型精度,这4种预处理与原始光谱建模的平均决定系数R2为0.67、平均RMSE为19.24、平均RPD为1.90。SVR模型中,SG、SG+BC提高了验证集模型精度2种,这2种预处理与原始光谱建模的平均决定系数R2为0.74、平均RMSE为17.28、平均RPD为2.11。RFR模型中,SG、SG+BC、SG+MSC、SG+SNV提高了验证集模型精度,这4种预处理与原始光谱建模的平均决定系数R2为0.84、平均RMSE为13.70、平均RPD为2.59。RFR模型比SVR和PLSR模型的验证集预测精度有明显提高,训练集的平均决定系数R2提高为0.06~0.15,平均RMSE降低为3.46~7.78,平均RPD提高为0.51~2.24;预测集的平均决定系数R2提高为0.04~0.17,平均RMSE降低为1.36~5.54,平均RPD提高为0.20~0.69。
表4 随机森林回归叶片SPAD值预测模型统计Tab.4 Statistics results for spectral models of SPAD value by RFR
表5 有效预处理方法的模型预测精度均值Tab.5 Mean result of SPAD value prediction model by pretreatment methods
本文计算了7种光谱预处理方法结合PLSR、SVR、RFR 3种模型预测水稻叶片SPAD值,目的是针对不同建模模型筛选合适的预处理方法。
在PLSR模型中,所选BC、SG、SG+BC、SG+SNV法预处理后提高了验证集的模型精度。PLSR实质是基于多项式的线性回归模型,除自变量和因变量本身的相关性外,其建模精度的影响因素主要是去除噪音或不相关因素的影响[20];BC预处理使得光谱曲线拥有的水平基线同时除光谱信号中的基线干扰信号(低频噪音)[21−22];SG平滑预处理使光谱曲线更加平滑,消除了光谱曲线上的细小噪声,在一定程度上可以提高信噪比[23];SNV的作用是将数据标准化,并将数据调整为标准正态分布,其作用主要是消除固体颗粒大小、表面散射以及光程变化对漫反射光谱的影响[[24−25]。单独采用SNV预处理没有提高模型预测精度,SG平滑预处理大幅提高了模型精度,所以SG+SNV也提升了模型精度。
在SVR模型中,SG、SG+BC预处理提高了验证集的模型精度;单独采用BC的训练集决定系数R2达到0.95,却没有提高模型验证集精度,说明单独采用BC使SVR模型过拟合;SG+BC的精度提升,也是由于SG平滑预处理提高了验证集的模型精度。BC、SG+MSC、SG+SNV预处理提升了训练集的模型精度,降低了验证集的精度,说明对于SVR模型,这些预处理可能会使模型出现过拟合现象,使得模型泛化效果不佳。
在RFR模型中,原始光谱的训练集建模精度较高,验证集建模精度较低,说明在数据未预处理的情况下,RFR模型会出现过拟合现象。SG及SG符合预处理均提高了RFR模型的验证集建模精度,说明消除数据细小噪声能明显提高RFR模型精度。BC单项预处理提高了训练集的建模精度但未提高验证集合的精度,说明BC预处理可能会使RFR模型出现过拟合现象。
在所有预处理中,SG+BC均为最优预处理方法,说明仪器操作等原因导致信号不稳定的噪声、背景细小噪声和信号的低频干扰,对于水稻叶片高光谱反演精度有重大的影响。
由表5可知,RFR模型优于SVR、PLSR模型的精度。PLSR能够解决多变量和变量之间的多重相关性等问题,但在对数据进行主成分变换后会损失部分有效信息,且PLSR在解决非线性问题时表现能力较弱,本文采用高光谱特征参数作为输入估算水稻叶片SPAD值,数据多重相关性小,需要采用非线性模型进行建模。RFR、SVR法能解决非线性问题,SVR对通过核函数来把数据从源空间映射到目标空间来处理非线性问题,但建模精度受模型参数设置的影响很大,需要做大量参数的调试;RFR法将性能较弱的多个分类回归树经过一定规则组合成一片森林,并通过森林中所有决策树投票得出预测结果,RFR的参数设置对其建模精度较小,在多分类或回归问题上,RFR的泛化能力显著优于支持向量机[26],因此,在估测水稻SPAD值时,RFR有更为明显的优势,在实际应用中可为未来精准农业提供精准的运算模型。
本研究采用7种光谱预处理方法集合PLSR、SVR、RFR 3种建模方法预测水稻叶片SPAD值对比发现,采用不同光谱预处理方法和建模方法对建模的精度有如下影响:
(1)对于采用350~2 500 nm光谱数据作为自变量,SPAD值作为因变量,BC、SG、SG+BC、SG+SNV预处理提高PLSR模型验证集建模精度,平均决定系数R2提高了0.21、平均RMSE降低了6.00,平均RPD提高了0.52;SG、SG+BC预处理提高了SVR模型验证集建模精度,平均决定系数R2提高了0.10、平均RMSE降低了3.77,平均RPD提高了0.53;SG、SG+BC、SG+MSC、SG+SNV提高RFR模型验证集建模精度,平均决定系数R2提高了0.23、平均RMSE降低了7.87,平均RPD提高了0.97。
(2)SG+BC预处理能提高PLSR、SVR、RFR模型建模精度,说明消除信号不稳定造成的噪声、背景细小噪声和低频信号干扰对于提高水稻叶片SPAD值的高光谱反演精度有重要的作用。
(3)数据预处理后随机森林回归模型RFR模型精度最佳,验证集的平均决定系数R2为0.84,RMSE为13.70,RPD为2.59,与PLSR与SVR两种模型建模比较,验证集R2提高为0.04~0.17,平均RMSE降低为1.36~5.54,平均RPD提高为0.20~0.69。
综上所述,采用SG及其复合预处理方法处理光谱数据,可使随机森林回归模型估测稻叶SPAD值的精度最佳。SG预处理方法与随机森林回归模型结合使用,可作为高光谱估测稻叶SPAD值的参考方法。