王 飞
(伊犁州水利局 伊犁州水土保持监测分站,新疆 伊犁 835000)
土壤有机质(SOM)是一种复杂的、自然存在的物质,在土壤肥力、有机耕作和可持续农业系统中发挥着关键作用[1]。土壤有机质是由活植物、动物和微生物生物量、腐朽的根部和其他植物残余物以及土壤腐殖质组成的。此外,土壤有机质还能促进植物的生长发育,改善土壤的物理性质,促进微生物和土壤有机体的活动,促进土壤养分的分解,从而改善土壤的施肥和缓冲作用。同时土壤有机质含量的维持对减少土壤荒漠化有着十分重要的作用。
传统的土壤有机含量测定方法是基于野外取样和复杂的室内分析。然而,这种实验室测量方法费时费力,难以获得土壤有机质的分布[2]。与传统的分析方法相比,土壤光谱学的吸引力在于测量速度快,土壤性质的估计比传统的土壤分析便宜。土壤反射光谱波段丰富,是土壤理化性质的综合反映。可见-近红外反射光谱(VIS-NIR),即高光谱已被证明是一种成本效益高、环境友好、无损、重复性好的分析技术,非常适合于SOM的分析。目前,在多元统计和化学计量学发展的推动下,定量土壤光谱预测土壤性质的研究仍在不断发展。
然而,利用高光谱检测土壤有机质含量时,往往因为高光谱丰富的波段信息,导致模型复杂不稳定。因此,必须要去除光谱信息中的冗余信息。已有研究表明,利用筛选算法可以降低光谱的冗余度,去除非关键的波段。变量迭代空间收缩法是一种新颖且有效的光谱变量筛选算法,可以利用该算法来开发适用于土壤有机质快速检测的模型。此外,于雷等发现利用竞争性自适应重加权算法(CARS)结合偏最小二乘回归(PLSR)可以较好地估测土壤有机质含量[3]。因此,本文将利用新开发的VISSA-PLSR和已有的CARS-PLSR进行对比研究。
研究区域为新疆吉木萨尔县(88°36′E,44°10′N)。该地区为卡拉麦里西南山前戈壁荒漠地带,属典型的极端干旱大陆气候,干旱少雨,且该地区面临土壤荒漠化。因此,有效监测土壤有机质含量对该地区的荒漠化防治是必要的。土壤类型为砂质土,在所研究区域共采集81份土壤样品。
在土壤样品分析前,样品经2 mm筛子筛分后,进行风干、粉碎、作物残渣、植物残渣和大石子的清除。然后采用重铬酸钾容量法测定土壤有机质含量。利用ASD地物光谱仪(Fieldspecc 3)测量土壤样品的反射光谱,光谱范围为350~2 500 nm。并对已测的光谱数据,利用二阶多项式和9个波长窗口大小的Savitzky-Golay(SG)平滑方法去除光谱中的随机噪声。此外,剔除边缘波段350~400 nm和2 401~2 500 nm,这部分波段具有较高的噪声且难以去除无法用于土壤有机质含量的预测。
CARS方法是Li等[4]提出的先进变量选择技术。它模仿达尔文生物演进理论的“适者生存”的原则,旨在通过自适应加权抽样和指数递减函数选择一些关键的光谱变量。
变量迭代空间收缩方法(VISSA)作为一种较为新颖的筛选方法,对近红外波段范围的数据具有良好的预测能力。VISSA使用加权二进制矩阵采样已得到跨越可变子空间的子模型,此方法可优化评估变量空间的性能。优化过程中将突出显示两个规则:第一,可变空间在每个步骤中都会缩小;第二,新的可变空间优于上一个,这是VISSA筛选方法的关键,也是区别于CARS的地方。最终以迭代结果均方根误差最小时的组合变量作为筛选结果。
上述两种方法在MATLAB 2018b软件中进行分析计算。
偏最小二乘回归(PLSR)是一种基于主成分回归的建模方法[5]。将偏最小二乘回归与光谱技术相结合,成功建立了各种土壤性质的预测模型。在预测器和响应空间之间进行矩阵运算的方法,PLSR使预测子空间和响应子空间之间的协方差最大化,通过将预测变量和实测变量投影到一个新的空间,找到一个较优的线性回归模型。本文将数据分割成一个建模集和一个验证集。随机选取70%的土壤样品作为建模集,对PLSR进行构建和校正,其余30%为验证集。图1为描述样本特征的统计图。由图1可知,总体样本集、建模集以及验证集三者之间的均值及方差都较为接近,说明建模集与验证集都能较好地代表总体样本。
图1 描述样本特征统计图
其中,计算R2、RMSE、及RPD的公式如下:
(1)
(2)
(3)
式中:S.D为观测值的方差;RMSE为均方根误差。
最优模型定义为RMSE最小、R2值最大的模型。此外,RPD的评价标准如下:RPD>3是一种极好的定量预测模型[6]。
图2为不同土壤有机质含量的光谱曲线特征。由图2中可知,土壤样品有机质含量的不同,其光谱曲线也有所不同。随着土壤有机质含量的增加,光谱曲线的反射率逐渐降低。此外,1 400、1 900和2 200 nm处的吸收谷主要与土壤中水分相关[7]。在1 800 nm附近,光谱曲线有一定的重合,说明该部分的波段对土壤有机质含量并不敏感。因此,在利用光谱检测土壤有机质含量时,需要去除部分不太重要的波段。
图2 不同土壤有机质含量的光谱曲线特征
将建模集数据输入到CARS及VISSA的程序中,可得筛选后的光谱结果。图3为CARS算法的运行过程图。图3(a)表示随着运行次数的增加,所选变量数目逐渐的减小;图3(b)表示交互验证均方根误差随运行次数的变化;图3(c)表示不同变量的回归系数随着运行次数的变化,其中“*”号表示在交互验证均方根误差最小时所选的波段。综合图3(a)-图3(c)可知,在运行到第5次时,交互验证均方根误差最小,此时的“星”号位置所截取的波段即为通过CARS所选的波段,共有1 138个,约占所有波段数目(2001)的56.87%,表明CARS确实极大地降低了波段的冗余程度。
图3 CARS算法的运行过程图
图4为VISSA算法的运行过程图。图4中,纵坐标表示不同变量数目时所建模型的均方根误差,横坐标表示所选的变量数目。由图4可知,当均方根误差最小时,所选取的波段即为VISSA算法所选的波段,共有301个,约占所有波段数目(2001)的15.04%,说明与CARS相比VISSA可以更为有效地减少波段的冗余。
图4 VISSA算法的运行过程
为了更加直观地对比CARS与VISSA两种算法所选波段的差异,绘制波段分布图,见图5。由图5可知,CARS所选的波段大致分成6个区间,分别是436~1 010、1 389~1 472、1 624~1 662、1 772~2 050、2 171~2 262及2 325~2 400 nm,这6个区间与土壤有机质含量具有一定的联系。而利用VISSA算法所选的波段区间主要在756~900、1 376~1 456和1 784~1 936 nm,以及一些少量的离散波段。这3个区间都在CARS所选的区间内,表明VISSA的筛选效果要优于CARS的筛选效果,且更为精细。
图5 基于不同筛选算法的波段分布图
表1 基于不同筛选算法的偏最小二乘回归建模与预测效果
为了进一步说明3个模型之间的差异,本文绘制了3个模型的建模及验证的散点分布图,见图6。由图6可知,VISSA-PLSR的建模与验证的拟合线都更加接近1∶1直线,且其95%置信带与95%预测带都较窄,说明模型具有较好的鲁棒性。而CARS-PLSR的建模与验证的拟合线与1∶1直线的接近程度要优于全波段-PLSR,95%置信带与95%预测带也相对较窄。说明经CARS筛选,一定程度上可以提升模型的效果,但提升效果不如VISSA。
图6 基于不同筛选算法的建模及预测精度比较
本文以新疆吉木萨尔县地区的土壤为研究对象,利用CARS和VISSA算法,分别筛选光谱变量并建模预测。通过模型的对比分析,得到以下结论:
1)VISSA筛选算法优于CARS筛选算法,VISSA算法可以去除大部分冗余波段,保留15.04%的波段变量。
2)土壤有机质含量检测模型的效果排序为:VISSA-PLSR最优,CARS-PLSR次之,全波段-PLSR最差。