王文俊,王璨,李志伟*,杜慧玲
(1.山西农业大学 工学院,山西 太谷 030801;2.山西农业大学 文理学院,山西 太谷 030801)
土壤营养元素的含量是提高农作物产量和农产品品质的重要因素。对土壤营养元素进行准确测量是实施精细农业的基础。传统的土壤营养元素的测定方法为化学法,化学法测量结果精度高,但需要消耗大量的时间和人力,难以满足土壤营养元素实时监控的要求。由于近红外光谱技术具有高效、快速、无损和适合在线分析等特点,近红外光谱技术用于土壤营养成分的预测已成为国内外学者的研究重点。高光谱技术光谱分辨率高、光谱通道数多,能够更加真实、全面地反映物体的固有光谱特性及其差异,从而能够提高土壤营养元素的预测精度。高光谱技术已广泛应用于土壤营养元素的预测与反演。
李焱等[1]通过土壤高光谱反射率及其变形全氮含量的相关性,采用多元逐步线性回归(MSLR)和偏最小二乘回归法(PLS)对全氮含量进行预测分析。结果表明:MSLR和PLS均能对土壤总氮含量进行较好预测;采用反射率的二阶微分能够提高预测精确度。王一丁等[2]采用PLS方法建立了植烟土壤高光谱与总氮之间的定量反演模型,结果表明:采用光谱曲线的一阶微分及正交信号校正的光谱预处理方法能够提供预测精度。陈红艳等[3]采用高光谱技术对山东典型潮土土壤碱解氮含量进行了预测,结果表明采用遗传算法(GA)结合偏最小二乘法(PLS)可有效提高预测精度。D. Xu等[4]研究发现偏最小二乘回归(PLSR)能够较好预测土壤主要成分,是一种快速有效的土壤分类方法。Said Nawar等[5]发现多元自适应回归样条法(MARS)比支持向量机(SVM)和PLS能够更好的预测土壤中总氮含量。刘秀英等[6]采用近红外高光谱技术构建了基于相关分析和PLS的黄绵土土壤总氮和碱解氮含量的高光谱预测模型。X. Yu等[7]对胶东半岛苹果园土壤的总氮含量进行了研究,结果表明:多元线性逐步回归(MLSR)的预测效果要好于PLS。Antonios Morellos等[8]分别研究主成分分析(PCA)、PLS、最小二乘支持向量机(LS-SVM)和Cubist数据挖掘算法对德国Premslin地区土壤总氮含量的预测效果,结果表明Cubist数据挖掘算法对总氮含量的预测效果最好。汪志涛等[9]研究了重庆蓬莱镇组紫色土壤样品粒径和厚度对光谱反射率的影响,结果表明:土样光谱反射率随土样厚度增加而增大,随土样粒径增大而减小;碱解氮含量光谱预测精度有随土样厚度增加、粒径增大而提高的趋势;在土样厚度30 mm、粒径0.250~0.850 mm条件下采集可见近红外光谱的预测效果较好。郭熙等[10]等构建了南方丘陵稻田土碱解氮高光谱特征及反演模型。林丽新等[11]采用高光谱技术对国家矿山公园有效氮进行反演,结果表明采用进入法-偏最小二乘回归(Enter-PLS)能够降低自变量个数,提高计算效率。
目前,几乎所有实验室条件下的土壤营养元素的近红外的高光谱反演都要首先对土壤样本进行磨碎和过筛处理,而直接采集和利用原始土壤高光谱数据进行建模的较少;其次几乎所有的光谱数据的预处理方法都以平均光谱曲线(A)及其数学变换为主,而结合光谱成像技术的特点,提取并使用特征统计参数(标准差S、方差V)进行建模的极少。
本文以山西典型褐土土壤为研究对象,所有土壤样品经风干后,未经研磨过筛处理,直接装入样品杯进行测量。并采用高光谱成像技术获取近红外高光谱图像,并提取平均光谱曲线(A)、标准差曲线(S)和方差曲线(V)等统计参数。然后分别采用以平均光谱曲线(A)、平均光谱曲线的一阶导数(F)、A与F的乘积(A*F)、A与F的商(A/F)为基础的20种光谱预处理方法,结合PLS方法进行建模,并对验证集进行验证。本文旨在构建一种结合高光谱成像技术特点的,针对未经研磨和过筛处理的褐土土壤总氮含量的定量预测模型,并为土壤其他营养元素的快速预测提供参考。
试验用土壤样本共149个,采集自山西农业大学试验田,土壤类型均为褐土土壤,采集深度为0~20 cm,为农田耕层土壤。土壤样本经自然风干处理,手动捏碎较大的土壤颗粒并剔除较大的非土壤杂质(例如农作物根茎叶等残留)后,采用四分法取样,一式两份:其中一份直接用于实验室条件下土壤近红外高光谱图像的采集;另外一份用于实验室采用半微量开氏法测定土壤总氮含量。
在PLS建模时需要将土壤样本分类建模集和验证集两类。通常的做法是随机抽取总样本的80%到90%作为建模集,剩下的部分作为验证集。因此,本文随机选取约80%(119个)的土壤样本作为建模集,用于土壤总氮含量预测模型的建模;剩余20%(30个)作为验证集,用于预测模型的验证。根据实验室化学法测定结果,土壤总氮含量的特征统计见表1。建模集、验证集与所有土壤样本的总氮含量的范围、均值、校准差和差异系数均较为接近,即建模集和验证集均能较好反映土壤样本的统计特性。
表1土壤总氮含量的特征统计
Table1 Characteristic statistics of total nitrogen content in soil
样本分类样本数最小值/mg·kg-1Min最大值/mg·kg-1Max平均值/mg·kg-1E标准差/mg·kg-10σ差异系数/%CV所有149574.78 1 316.43 778.05 139.73 17.96 建模集119574.78 1 316.43 781.93 141.19 18.06 验证集30630.40 1 307.16 762.66 134.98 17.70
采用美国Headwall Photonics公司的Starter Kit室内移动扫描平台采集所有土壤样本的近红外高光谱图像。该采集系统主要由室内移动扫描平台、微型近红外高光谱成像仪、光源、控制器和电脑等组成。微型近红外高光谱成像仪的具体参数为:光圈1.4、焦距25 mm、光谱范围900~1 700 nm,入射狭缝宽度30 μm,光谱分辨率4.715 nm,共170个波段。采样参数为:物距320 mm,平台移动速度15.55 mm/s,曝光时间0.9 ms。由于在900 nm和1 700 nm附近,实测光谱反射率呈现振荡,误差较大,因此本文选取光谱范围为950~1 650 nm,共148个波段的光谱反射率作为建模和预测参数。土壤样本装入直径约3 cm,深约1 cm的样品杯,抹平并压实,然后放在移动扫描平台上采集近红外高光谱图像。每个土壤样本均采集1幅高光谱图像。
高光谱成像技术能够同时获取土壤样本的光谱信息和图像信息。高光谱图像上的每一个像素点,都有一条光谱范围为950~1 650 nm,共148个波段的漫反射光谱曲线与之相对应。本文采用SpectralView软件提取高光谱图像上土壤样本范围内所有像素点的漫反射光谱曲线。对每个波段所有像素点的光谱反射率进行统计,获取其算术平均值、标准差和方差。将所有波段的统计参数连接起来,即可获得对应土壤样本的平均光谱曲线(average reflectivity,A)、标准差曲线(standard deviation,S)和方差曲线(variance,V)。
平均光谱曲线(A)及平均光谱曲线的一阶导数曲线(first derivative,F)能够反映土壤总氮对光谱反射率的影响;而标准差曲线(S)和方差曲线(V)能够一定程度反映土壤样本的表面特性。因此本文选取平均光谱曲线(A)、平均光谱曲线的一阶导数曲线(F)、标准差曲线(S)和方差曲线(V)等4种曲线作为基本预处理方法,然后选取其中的一种或多种基本预处理方法的组合对光谱数据进行预处理。详细的预处理方法见表2。
表2 光谱数据预处理方法汇总Table 2 Summary of preprocessing methods of spectral data
偏最小二乘(partial least square,PLS)方法是结合多元线性回归和主成分分析的化学计量学方法,是近红外光谱预测反演土壤营养元素最常用、最有效的建模方法之一。本文选取主因子个数的方法为:调整主因子个数,使模型对建模集的验证结果为决定系数(R2)不小于0.9;且最大主因子个数不超过20个。该PLS主因子数的选取方法可以使所建模型对建模集的验证效果基本相同,因此模型的好坏只需要对比分析不同模型对验证集的验证效果即可。
本文采用建模集决定系数(Rc2)、验证集决定系数(Rp2)、建模集均方根误差(RMSEc)、验证集均方根误差(RMSEp)、建模集相对分析误差(RPDc)、验证集相对分析误差(RPDp)等指数来对模型进行评价。其中:决定系数(R2)越大越好,但不能超过1,越接近1表明模型的预测能力越强。均方根误差(RMSE)越小越好。相对分析误差(RPD)越大越好。当RPD≥2.0时,表明模型较好,可用于土壤总氮含量的定量预测;当RPD在1.0~2.0之间时,表明模型预测效果较差;当PRD≤1.0时,表明模型预测效果极差,无法用于定量分析。
按实验室化学法实测总氮含量对所有土壤样本进行分类,分别统计总氮含量低于700 mg·kg-1,700~800 mg·kg-1,800~900 mg·kg-1,900~1 000 mg·kg-1及1 100 mg·kg-1以上的光谱反射率,计算每类土壤样品的平均光谱曲线;并对平均光谱曲线求导,获取每类平均光谱曲线的一阶导数曲线。其结果如图1、图2所示。
图1 不同总氮含量的平均光谱曲线Fig.1 Average spectral curves of different total nitrogen content
图2 不同总氮含量的平均光谱曲线的一阶导数Fig.2 First derivative of the average spectral curve of different total nitrogen content
由图1可知,土壤的平均光谱反射率随波长的增加逐渐增大;在1 400 nm附近有显著的水吸收特征,这可能与自然风干后的土壤样本内仍有少量水分残留有关。当总氮含量低于1 000 mg·kg-1时,平均光谱反射率随总氮含量的增加而增加;当总氮含量高于1 000 mg·kg-1时,光谱反射率随总氮含量的增加急剧减小;且光谱波长越短,反射率减小的越多。平均光谱曲线随总氮含量先增加后减小的特点,可能导致两个总氮含量差异极大的土壤样本的平均光谱曲线非常接近,从而影响预测模型的预测准确性。
由图2可知,一阶导数曲线随着总氮含量的增加逐渐增加。总氮含量在700 mg·kg-1以下的一阶导数曲线比在700~800 mg·kg-1之间的一阶导数曲线略有增加,在图2中显示为基本完全重合。当总氮含量高于1 000 mg·kg-1时,一阶导数曲线随总氮含量的增加出现显著的增加。由于一阶导数曲线随总氮含量的增加单调增加,因此使用一阶导数进行建模,可能能够获得更好的预测效果。
分别采用A、F、A*F、A/F等20种光谱预处理方法,结合PLS方法进行建模,并对验证集进行验证。不同PLS模型及对验证集的验证结果见表3。不同光谱数据预处理方法对验证集的RPDc和Rc2的影响见图3和图4。由于在建模时优先考虑了模型对建模集的验证效果,并使所有模型的RPDc和Rc2基本相同,因此对模型进行评价只需要对比不同模型对验证集的验证效果即可。
建模效果最好的预处理方法为F*S,其PLS模型的主因子个数为11,验证集RMSEp=159.89,RPDp=2.120,Rp2=0.826;其次为A*F*S,其PLS模型的主因子个数为11,验证集当只使用平均光谱曲线A进行建模时,建模效果从好到坏依次为:F>A*F>A>A/F。即使用平均光谱曲线的一阶导数F和平均光谱曲线与一阶导数的乘积A*F能够取得更好的建模效果。当结合其它统计参数(S、V)进行建模时,以A和A/F为基础的PLS模型的RPDp和Rp2均有大幅下降,即A和A/F不适合与S、V组合进行建模。对于以F和A*F为基础的PLS模型,只有与标准差的乘积(*S)能够提高建模效果;而其他方法(/S、*V、/V)的建模效果均低于只使用F和A*F的建模效果。
表3 不同PLS模型及对验证集的验证结果Table 3 Different PLS models and validation results
图3 不同光谱数据预处理方法对RPDc的影响Fig.3 Influence of different spectral data preprocessing methods on RPDc
图4 不同光谱数据预处理方法对的影响Fig.4 Influence of different spectral data preprocessing methods on
RMSEp=165.85,RPDp=2.010,Rp2=0.804。这两个模型的RPDp在2.0以上,Rp2在0.8以上,可以对褐土土壤的总氮含量进行有效预测;其它模型的RPDp均小于2.0,对总氮含量的预测效果较差。
本文以山西典型褐土土壤为研究对象,所有土壤样品经风干后,未经研磨过筛处理,直接装入样品杯进行测量。并采用高光谱成像技术获取近红外高光谱图像,并提取平均光谱曲线(A)、标准差曲线(S)和方差曲线(V)等统计参数。然后分别采用以A、F、A*F、A/F为基础的20种光谱预处理方法,结合PLS方法进行建模,并对验证集进行验证。主要结论如下:
(1)平均光谱曲线随总氮含量先增加后减小,可能导致两个总氮含量差异极大的土壤样本的平均光谱曲线非常接近,从而影响预测模型的预测准确性。一阶导数曲线随总氮含量的增加而单调增加,使用一阶导数进行建模,可能能够获得更好的
预测效果。
(2)建模效果最好的预处理方法为F*S,其PLS模型的主因子个数为11,验证集RMSEp=159.89,RPDp=2.120,Rp2=0.826;其次为A*F*S,其PLS模型的主因子个数为11,验证集RMSEp=165.85,RPDp=2.010,Rp2=0.804。这两个模型的RPDp在2.0以上,Rp2在0.8以上,可以对褐土土壤的总氮含量进行有效预测;其它模型的RPDp均小于2.0,对总氮含量的预测效果较差。
(3)当只使用平均光谱曲线A进行建模时,使用平均光谱曲线的一阶导数F和平均光谱曲线与一阶导数的乘积A*F能够取得更好的建模效果。当结合其它统计参数(S、V)进行建模时,只有F和A*F与标准差的乘积(*S)的预处理方法能够提高建模效果。
本文选用的土壤样本未经研磨和过筛处理,能够极大缩短制样时间,提高预测效率。本文结合高光谱成像技术的特点,提出了多种统计参数结合的光谱数据的预处理方法,可为高光谱成像技术的土壤营养元素的反演提供参考。本文研究结果可为近红外高光谱成像技术应用于褐土土壤其他营养成份的快速预测提供参考。光谱数据预处理方法对其他建模方式、其他土壤类型、其他营养元素的反演有待进一步研究。