张楠楠, 张 晓, 施明登, 范泽华, 王 涛, 白铁成
(塔里木大学信息工程学院/中国农业科学院农业信息研究所新疆南疆农业信息化研究中心,新疆阿拉尔 843300)
在干旱与半干旱地区,土壤盐渍化是一种常见的土地退化方式[1],已发展成为国内外土壤学研究的热点[2]。土壤盐渍化是威胁农业生产和生态系统稳定的一个重要因素[3],目前已成为全球性环境问题。新疆盐碱土总面积848万hm2,现有耕地中31.1%的面积受到了不同程度盐碱化危害[4]。新疆南疆绿洲区为土壤盐渍化大区,盐碱土具有面积大、类型多、积盐重、形成复杂的特点[5]。
近红外光谱(NIR)技术具有快速高效监测的特点,已经在农业及其他许多领域中得到广泛应用[6-8]。近年来,许多专家学者致力于变量的选择问题[9]和采用不同的光谱预处理方法使所建立的土壤模型更稳定和精确。如代希君等借助模糊k-均值聚类方法、归一化处理等方法,采用偏最小二乘回归法进行全局盐分预测,预测精度有所提高[10];张娟娟等选取全谱、合频、N—H基团等组合的8个波段,采用多元散射校正等多种预处理方法组合进行土壤光谱样品处理,发现 4 000~5 500 cm-1波段的模型精度最好,其决定系数达到 0.90,说明模型具有极好的预测能力[11];黄帅等把原始光谱经微分变换后的12种高光谱指数与土壤含盐量进行相关性分析,筛选出对土壤含盐量变化敏感的特征光谱波段,构建了基于逐步多元线性回归和偏最小二乘回归模型,得出对数二阶微分变换形式模型的稳定性和预测精度最高[12];贾生尧等提出采用递归偏最小二乘法(recursive partial least squares regression,简称RPLS)来提高模型的预测能力,并同偏最小二乘法(PLS)、局部加权PLS、滑动窗口PLS对土壤速效磷与速效钾含量进行预测,结果表明,RPLS模型取得了最优的预测结果,决定系数分别为0.61、0.76[13];Lin等利用平滑与多重散射校正联合的方法对光谱进行预处理,再利用x-y矩阵法(sample set partitioning based on joint x-y distance,简称SPXY)算法挑选建模集样本,利用连续投影算法和遗传算法分别进行波长优选,得出2种算法均可减少参与建模的波长数且能提高模型的准确度,其中遗传算法的预测精度更高[14]。
本研究在总结前人研究的基础上,以南疆绿洲区为研究区,依据近红外光谱数据、土壤含盐量实测数据,通过多种处理方法对土壤光谱进行变换处理消除光谱噪声,运用连续投影算法(successive projections algorithm,简称SPA)[15]选出特征波长,建立偏最小二乘法(partial least square,简称PLS)和连续投影算法-偏最小二乘法(successive projections algorithm-partial least square,简称SPA-PLS)预测模型,并将2种模型进行比较,以期为土壤盐分预测模型提供一种新的研究思路和方法。
本研究选取新疆维吾尔自治区南疆绿洲区土壤为试验对象,该地区最高气温为35 ℃,最低气温为-28 ℃。研究区太阳辐射强度平均每年为0.56~0.61 MJ/cm2。年均日照时数为2 556.3~2 991.8 h,日照率为58.69%。研究区雨雪稀少,地表蒸发强烈,年均降水量为40.1~82.5 mm,年均蒸发量为1 876.6~2 558.9 mm。
在南疆绿洲区所选的典型样点进行土样采集,取表层 0~10 cm土壤,为保证所取土样样点的代表性,确定样方面积为3 m×3 m,采用5点法采样,即在每个样方的4角和中心各取1个土样,混合均匀,取500 g土样放入密封袋中,并做好标记。室内阴干:将采回的各土样放到塑料布上摊开,并做好标记后依次排开,将较大的土块捏碎,以利于磨细;将石子、草渣等杂物捡出,以免杂物过多,防止在称质量时产生较大误差。 研磨过筛,将阴干后的各土样倒入木盘中,用擀面杖或啤酒瓶研磨,并全部通过1 mm筛,分成2份,1份用于土壤盐分测定,另1份用于近红外光谱测定。共取得92份土壤样本。
土壤含盐量的测定参照《土壤农化分析》中的电导法[16],采用标准曲线法计算土壤全盐含量。
使用美国赛默飞世尔科技公司生产的Antaris Ⅱ FT-NIR型光谱仪,以仪器内部空气为背景,测量范围为4 000~10 000 cm-1,采样点数为1 557个,每张光谱扫描次数为32次,分辨率为8 cm-1,仪器使用InGaAs检测器,化学计量学分析软件为仪器自带的TQ软件。采集光谱前开机预热0.5h,确保光源更稳定,采集样品时重复3次,取平均值作为土壤样品的原始光谱(图1)。
应用MATLAB 2010b软件,采用多种处理方法对土壤光谱进行变换处理及相关分析。数据变换处理包括数据中心化(data centralized)、傅里叶变换(the fourier transform)、小波变换(wavelet transform)、归一化处理(the normalized processing)、一阶导数(savitzky golay first derivative)、二阶导数(savitzky golay second derivative)、多元散射校正(multiplicative scatter correction,简称MSC)、卷积平滑(savitzky golay smoothing,简称SG平滑)。进行光谱预处理的目的在于比较分析不同光谱预处理方法对模型预测结果的影响,从而为后续提高预测模型精度打下基础。
连续投影算法是一种新型变量选择方法,通过向量的投影分析,从光谱矩阵提取有效信息,并使光谱变量共线性最小[17],具体算法步骤参考文献[18]。
偏最小二乘法是一种多元数据统计分析方法,该方法是集主成分分析、普通多元线性回归和典型相关分析于一体的回归分析方法,解决了自变量多重共线性的问题[19],已经在光谱分析中得到了广泛应用。为了有效评价模型精度,本研究选取相关系数(r)、交互验证预测均方差(root mean standard error of cross validation,简称RMSECV)、预测标准差(standard error of prediction,简称SEP)、准确率(Precision)进行模型分析检验,其计算公式见表1。其中,r越接近1,回归(或预测)结果越好;RMSECV越小,说明该模型的预测能力越高;SEP越小,则表示模型对外部样品的预测能力越高;对于同一批次的样本,RMSECV和SEP越小,说明模型的精度越高,两者的值越接近,说明模型稳定性越好;Precision用来验证模型的准确程度。
由表2可知,数据中心化和归一化处理经SG平滑后,各项指标均有小幅度改善;傅里叶变换、小波变换、SG平滑、SG平滑+傅里叶变换、SG平滑+小波变换这5种处理方式的4项指标基本一样,是因为这5种处理算法都有平滑去噪的功能;一阶求导运用SG平滑处理后,SEP变大,r和Precision变小,RMSECV有较大改善;二阶求导经SG平滑处理后,4个指标均有较明显改善。从SEP来看,傅里叶变换、小波变换、SG平滑、SG平滑+傅里叶变换、SG平滑+小波变换的值较小,分别为0.019 876、0.019 877、0.019 876、0.019 876、0.019 877;从RMSECV来看,SG平滑+一阶求导的值最小,为0.008 877,其次为傅里叶变换、小波变换、SG平滑、SG平滑+傅里叶变换、SG平滑+小波变换,其值分别为 0.024 978、0.024 979、0.024 978、0.024 978、0.024 979;从r来看,SG平滑、傅里叶变换、SG平滑+傅里叶变换的值接近1,为0.982 686,其次是小波变换、SG平滑+小波变换处理,为0.982 685;但从Precision来看,傅里叶变换、小波变换、SG平滑、SG平滑+傅里叶变换、SG平滑+小波变换的值最大,为0.965 362。
表1 偏最小二乘法模型的检验指标
综合来看,效果最好的是SG平滑、傅里叶变换、SG平 滑+ 傅里叶变换,由图2可知,模型的SEP、RMSECV相对较小,分别为0.019 876、0.024 978,r最接近1,为 0.982 686,Precision为0.965 362。从全局波段来看,SG平滑、傅里叶变换、SG平滑+傅里叶变换适合土壤盐分含量的可见近红外光谱预处理。
表2 PLS模型对土壤中盐分含量的建模精度和预测能力
2.2.1 基于MSC+SPA的优选波长 采用校正集60个样本的1 557个光谱变量建立的PLS全谱模型在建模过程中的光谱数据量很大,同时还会引入干扰变量,反而会降低模型的预测精度。在全谱范围内使用MSC进行光谱预处理,之后使用SPXY进行校正集样品划分处理,最后使用SPA算法进行光谱变量压缩。由图3可知,模型中包含的变量数为6时,其均方根误差(RMSE)最小,为0.011 809。由图4可知,得到6个特征波长,波数分别为4 393.047、4 285.053、4 971.587、3 999.64、7 293.461、5 210.717 cm-1,其重要性依次减弱。
2.2.2 基于SPA特征波长的PLS模型 采用13种光谱预处理方法后建立SPA-PLS模型,由表3可知,数据中心化经SG平滑后,各项指标均变差;归一化处理经SG平滑后,各项指标均向好的方向变化;傅里叶变换、小波变换、SG平滑、SG平滑+傅里叶变换、SG平滑+小波变换这5种处理方式的4项指标基本一样;一阶求导运用SG平滑处理后,4项指标性能变差;二阶求导经SG平滑处理后,4个指标性能变差,r变化最剧烈。从SEP来看,傅里叶变换、小波变换、SG平滑、SG平滑+傅里叶变换、SG平滑+小波变换的值均较小,分别为0.016 931、0.019 144、0.017 688、0.017 688、0.019 262;从RMSECV来看,傅里叶变换的值最小,为0.016 769,其次是SG平滑和SG平滑+傅里叶变换的值,均为0.017 173;从r来看,傅里叶变换的值最接近1,为0.987 467;从Precision来看,傅里叶变换、小波变换、SG平滑、SG平滑+傅里叶变换、SG平滑+小波变换的值较大,为0.96左右。
表3 SPA-PLS模型的预测结果
综合来看,效果最好的是傅里叶变换,由图5可知,SPA-PLS模型的SEP、RMSECV相对较小,分别为 0.016 931、0.016 769,r最接近1,为0.987 467,Precision为0.968 915。从局部特征波段来看,傅里叶变换适合土壤盐分含量的可见近红外光谱预处理。
研究表明,利用可见近红外光谱技术、光谱预处理算法和连续投影算法检测土壤中的盐分是可行的。全波段建模过程中,经过13种光谱预处理后建立的PLS模型,效果最好的是SG平滑、傅里叶变换、SG平滑+傅里叶变换,模型的SEP、RMSECV都较小,分别为0.019 876、0.024 978,r为 0.982 686,Precision为0.965 362。说明SG平滑、傅里叶变换、SG平滑+傅里叶变换组合适合土壤盐分含量的可见近红外光谱预处理。
经SPA算法得到6个特征波长,将6个特征波长作为输入,经13种光谱预处理后建立的PLS模型中,效果最好的是傅里叶变换,模型的SEP、RMSECV相对较小,且比较接近,分别为0.016 931、0.016 769,r为0.987 467,Precision为 0.968 915。从局部特征波段来看,傅里叶变换适合土壤盐分含量的可见近红外光谱预处理。
比较全局波段和局部特征波段的模型,局部特征建模的精确度有所提高,而模型的运算量大大降低,并具有较好的稳定性。模型是否适合其他更广阔的区域有待进一步验证。