李 宝,王孟和,汪光胜,胡 阳,李伟涛,刘玉婵,徐建辉
(1.安徽省基础测绘信息中心,安徽 合肥 230000;2南京市测绘勘察研究院股份有限公司,江苏 南京 210019;3. 滁州学院 安徽地理信息集成应用协同创新中心,安徽 滁州 239000)
叶绿素是植物体所特有的一类与光合作用有密切关系的最重要的色素,植物叶绿素的含量及其变化能够较好地反映植物的光合能力、养分状况和生长健康状况[1-2]。在农作物长势监测、病虫害监测、作物产量估算和作物成熟期预测等方面具有重要意义[3]。传统的叶绿素测量方法多采用化学测定法,对叶片破坏性大,耗时长[4]。 随着高光谱技术的发展,特别是便携式高光谱测量仪器的出现,部分学者开始探讨叶片叶绿素与高光谱之间的关系[4-5]并将其应用到农产品研究中[6-8],取得较好的成果,验证高光谱监测叶片叶绿素的可能性且具有较高的精度。鲜桃生产是滁州市果树类农业生产的重要一部分,特别是山区经济发展的重要途径,但是在实际生产中,鲜桃生产管理的技术较为落后,还无法达到精准农业的要求,快速、低耗、无损地测定鲜桃叶片叶绿素含量对鲜桃长势监测,施肥控制,产量估测等具有重要意义。因此,基于高光谱技术,利用ASD公司的FieldSpec3光谱仪采集40棵鲜桃树的4个生长时期的叶片高光谱数据及对应的叶绿素含量数据,分别建立鲜桃叶片叶绿素的主成分分析-支持向量 (principle component analysis-support vector regression,PCA-SVR) 回归预测模型和小波去噪-偏最小二乘法(wavelet denoising-partial least square regression,WD-PLSR)回归预测模型,旨在实现鲜桃叶片叶绿素含量快速、无损检测,为鲜桃生产管理提供科学参考。
实验样本来源于安徽省滁州市来安县桃园,桃树品种为“秋蜜红”,桃龄约为10年,处于盛果期,树形为主干分层型,每年修剪一次枝叶,施肥以氮肥为主。样本采集时间分别为2015-05-12,06-20,07-22,09-06,对应鲜桃生长的萌芽期、稳果期、壮果期和采果期。选取40棵桃树,从每棵桃树分别均匀地采集8片大小匀称的健康叶片,使用清水清洗,并用棉布擦干后装入保鲜袋中封存编号,最后平整置于保温箱中。
在暗箱实验室环境中使用ASD公司的FieldSpec3光谱仪采集鲜桃叶片高光谱数据,光谱值范围为350~2 500 nm,光谱自然间隔为1 nm。光纤探头加装视场角为10°的镜头,探测距离为6 cm,使用ASD公司提供的标准白板进行光谱校正。分别在叶片尖部、中部和根部采集光谱反射率取其平均值作为此叶片的光谱反射率。取同一时期同棵鲜桃树上8片叶子的平均光谱反射率作为一个样本单元,提取4个时期40棵鲜桃树的160个鲜桃叶片光谱反射率样本。鲜桃叶片在4个生长期的平均光谱反射率如图1所示。
图1 不同生长时期鲜桃叶片样本平均反射率
由图1可以看出,四个时期叶片光谱差异较为明显,总体而言,萌芽期叶片光谱反射率略高于其他时期,采果期叶片光谱反射率较低,主要的光谱区分区间为500~560 nm的绿光波段,760~1 300的近红外、中红外和远红外波段,以及1 500~1 850 nm和2 000~2 400 nm波段,可区分性较好,在可见光波段向近红外过渡时,除萌芽期外,其他时期的光谱发射率的相对顺序都发生了转置,主要原因是这两个波段区间影响光谱反射率因素的影响状况差异明显。
为获取鲜桃叶片实际叶绿素含量,通过分光光度法测定每个叶片叶绿素含量,具体测定过程及叶绿素总质量浓度和叶绿素质量分数计算参见文献[9]。通过叶绿素测定实验,得到4个不同生长期160份鲜桃叶片样本叶绿素含量数据,统计结果如表1所示。
表1 不同生长时期鲜桃叶片叶绿素含量
测得的高光谱数据波段多达2 150个,存在多重共线性,数据冗余量较大,不利于数据处理和分析,也会降低数据建模结果的精度,因此对原始数据的降维处理是必要的。主成分分析能够确定原始波段最优线性组合,实现高光谱图像数据降维[10]。小波去噪是使用小波分解含噪光谱,将其与噪声部分分离,能够提高光谱数据信息的精度[11]。分别采用主成分分析法对原始光谱数据进行降维处理和使用小波去噪进行数据处理,经过多次试验,确定最优参数的组合,并对结果进行比较选优。
支持向量回归是由支持向量机应用在非线性回归问题上发展而来的,在保证逼近训练精度的同时降低学习机器的复杂度[9]。在高光谱分析中有很多应用[12-13]。利用SVR算法构建模型时,核函数参数γ和惩罚系数C对模型结果具有重大影响,本文选用径向基(Radial Basis Function,RBF)核函数并采用格点搜索法进行正交验证确定核函数参数γ和惩罚系数C。利用决定系数R2和均方根误差RMSE估测回归模型精度,最终选定PCA较优能量比和较优光谱形式。偏最小二回归具有主成分分析、普通多元线性回归及典型相关分析的综合优点,在解决高光谱多波段之间的多重共线性及复杂计算问题时,具有独特的优势[14]。因此,采用支持向量机回归和偏最小二回归以及传统建模方法进行鲜桃叶片叶绿素检测模型的构建,对构建模型的结果进行分析比较。
使用特征值能量占比的方法确定主成分数,分别从单个生长期和全生长期角度随机选取25和100个样本作为校正集,便于建模,共选取15和60个样本作为验证集,对模型性能进行评估(其他试验数据集的划分标准相同)。
根据小波参数中对去噪效果的影响程度,选取小波基函数、分解层数、阈值方案和阈值调整方案。为筛选最佳小波参数组合,引入正交试验。选择结果较优的3个小波基函数,通过实验寻找最优组合。选取1,3,5作为分解层数,正交试验因素水平如表2所示。使用留一交叉验证法对PLSR模型的最优主成分数进行确定,评估指标选择校正集模型决定系数(C-R2)、校正集均方根误差(C-RMSE)、验证集模型决定系数(V-R2)、验证集均方根误差(V-RMSE)。根据表2中3个水平和4个因素构造一个L9(34)正交表进行实验。模型构建过程详见图2。
图2 模型构建流程
表2 正交试验因素水平表
3.1.1 不同主成分数建模
通过实验,得到各生长时期及全生长期的不同能量比下校正集及验证集的模型性能指标实验结果(见表3)。
由表3可知,利用样本数据构建校正集时,各个时期随着能量比和主成分数的增加,模型的决定系数R2随之增大,均方根误差RMSE随之减小;但在相同能量比和主成分数构建相应时期的验证集时,R2并未呈现递增的趋势,而是在超过一定能量比后,R2大幅度降低,出现“过拟合”现象,所以以此能量比作为最优能量比。结果显示,在萌芽期和稳果期,能量比为96%,主成分数为3时,建模性能最优,校正集R2分别为0.843 6和0.838 3,验证集R2分别为0.822 4和0.830 2;在壮果期,采果期,全生长期,能量比为99%,主成分数为5时,建模性能最优,矫正集R2分别为0.851 4,0.843 6和0.830 5,验证集R2分别为0.838 3,0.825 1和0.813 7。因此,本试验选择能量比为96%作为萌芽期和稳果期建模的最优能量比以确定对应时期PCA主成分数目,选择能量比为99%作为壮果期、采果期、全生长期建模的最优能量比以确定对应时期PCA主成分数目,进而预测鲜桃叶片的叶绿素含量。
表3 不同能量比下主成分数及模型性能评估
注:R2为模型决定系数;RMSE为均方根误差,下同
3.1.2 不同光谱形式建模
不同的光谱形式含有其特有性质,可以从不同角度构建光谱与叶绿素之间的关系,采用原始光谱r,一阶导数光谱r′,二阶导数光谱r″,倒数光谱1/r,对数光谱log(r)经PCA预处理,并保持PCA不同时期最优能量比以构建模型,各时期SVR模型核函数参数γ和惩罚系数C通过格点搜索法和正交验证取得最优值,得到不同光谱形式下的建模结果(见表4)。
表4 不同光谱形式下建模结果
注:r为原始光谱;r′为一阶导数光谱;r″为二阶导数光谱;1/r为倒数光谱;log(r)为对数光谱,下同
由表4分析得出,不同光谱变换,不同时期下,一阶导数光谱r′建模精度最高;萌芽期、稳果期、壮果期、采果期、全生长期校正集R2分别为0.841 3,0.833 2,0.854 3,0.853 0,0.842 7,验证集R2为0.829 3,0.834 8,0.843 2,0.841 8,0.829 2;原始光谱r构建的模型精度仅次于一阶导数光谱r′,二阶导数光谱r″构建的模型精度最低。
3.2.1 小波去噪正交实验结果
采用极差分析法对小波去噪参数进行的正交实验进行分析,结果如表5所示。
表5 小波去噪正交实验结果
注:K1,K2,K3为某一水平的评价指标均值;R为极差
由表5可知,小波基函数位于K3、分解层数位于K3、阈值方案位于K1、阈值调整方案位于K2时校正集模型精度和验证集模型精度均能达到较高值,即小波基函数为sym2、分解层数为5、阈值方案为Rigrsure、阈值调整方案为sln。因此本试验最终选定A3B3C1D2水平组合对光谱进行小波去噪。
3.2.2 不同光谱形式的建模分析
使用最优A3B3C1D2水平组合的小波去噪处理不同变换形式的光谱,构建偏最小二乘回归模型,并使用留一交叉验证法确定模型的最优主成分数,得到建模分析结果(见表6)。
表6 不同光谱形式下建模结果
由表6可知,不同光谱变换,不同时期下,一阶导数光谱建模精度最高;萌芽期、稳果期、壮果期、采果期、全生长期校正集R2分别为0.891 3,0.883 2,0.8943,0.893 0,0.872 7,验证集R2为0.869 3,0.874 8,0.873 2,0.869 8,0.871 4;原始光谱r构建的模型精度仅次于一阶导数光谱r′,二阶导数光谱r″构建的模型精度最低。
将建模效果最好的小波去噪-偏最小二乘模型与3种传统模型结果进行对比。选取全生长期光谱数据的一阶导数光谱r′经小波去噪变换后导入4个模型中,得到各模型的验证集结果(见图3)。其中BP神经网络模型在输入数据之前进行了主成分降维处理,避免输入节点数过大的问题。
由图3可以看出,小波去噪-偏最小二乘建模拟合度最高,验证集模型R2为0.871 4,RMSE为0.154 4,其次是主成分回归模型,验证集模型R2为0.825 9,RMSE为0.174 0,逐步回归模型和BP神经网络模型结果相对较差。各模型验证集中均存在预测误差较大的点,主要在于提取出来的数据不能完全反映原始数据,只是对原始数据的最优分析,一定程度上会增加部分数据的误差,导致误差较大的点的出现。
基于主成分分析-支持向量回归和小波去噪-偏最小二乘回归两种方法,对鲜桃生长的4个时期的鲜桃叶片叶绿素含量进行建模。
1)采用PCA-VCR模型时,萌芽期和稳果期能量比为96%,壮果期、采果期、全生长期能量比为99%的模型预测性能较优。验证集的R2分别为0.822 4、0.830 2、0.838 3、0.825 1和0.813 7。
2)在不同光谱变换形式下,一阶导数光谱总体上优于其他光谱形式,作为输入矢量应用于PCR-SVR和WD-PLSR模型,全生长期数据验证集模型R2分别为0.829 2和0.871 4,RMSE分别为0.177 9和0.154 4估测精度最高,PCR-SVR模型略优于WD-PLSR模型。
3)三种传统模型中,建模效果最优的是主成分分析模型,全生长期验证集模型R2为0.825 9,RMSE为0.174 0。由此可见, PCA-VCR和WD-PLCR建模效果均优于传统的建模方法的建模效果,可以较好的应用于鲜桃树叶绿素含量监测研究中。
图3 不同建模方法下叶绿素质量分数真实值和预测值的比较(n=60)