罗德芳, 彭 杰*, 冯春晖, 柳维扬, 纪文君, 王 楠
1. 塔里木大学植物科学学院, 新疆 阿拉尔 843300 2. 中国农业大学土地资源管理学院, 北京 100083 3. 浙江大学环境与资源学院, 浙江 杭州 310058
土壤有机质(soil organic matter, SOM)是土壤肥力的决定性因素, 在提高植物营养、 改善土壤肥力等方面具有重要作用, 它的含量与土壤肥力特性如作物产量等直接相关, 高肥力土壤生产的食物营养品质高于低肥力土壤。 新疆是我国主要发展绿洲农业的地区, 优越的地理环境和成熟的栽培技术, 使棉花成为当地的优势特色种植作物, 同时棉花也是新疆主要的经济作物之一。 近年来因过度开垦及化肥、 农药等的不合理使用, 使棉田土壤肥力退化严重, 对棉花产量造成极大影响[1]。 快速诊断及改良土壤肥力, 是南疆农业可持续发展的关键。 土壤有机质包括胡敏素(humin, HM)、 胡敏酸((humic acid, HA)和富里酸(fulvic acid, FA)三个组分, 有机质不同组分矿质化难易程度和养分释放的能力具有明显差异[2]。 在有机质组分中, 胡敏素的相对含量最高, 但其不易矿质化, 养分很难释放出来供植物吸收利用, 胡敏酸的相对含量和矿质化难易程度为其次, 富里酸的相对含量最低, 但其最易矿质化而释放出养分供植物吸收利用。
探明土壤有机质及其组分含量对于准确掌握土壤的潜在和有效肥力具有重要意义。 传统土壤有机质测定过程繁琐, 具有采样成本高、 分析周期长等缺点, 难以胜任大尺度范围土壤有机质的监测, 高光谱技术因其快速、 便捷、 无损、 可重复分析技术等优点被广泛应用于土壤有机质测定。 可见光-近红外(VNIR)和中红外(MIR)光谱能够对土壤性质进行光谱特征分析, 操作简便、 不破坏土壤结构, 是近年来国内外学者研究的热点。 Vasat等[3]研究表明, 土壤有机质对土壤反射光谱曲线的形状及性质有显著影响, 是反射光谱法可预测的主要土壤性质之一。 Jiang等[4]利用VNIR光谱法研究表明在不同土壤水分条件下, 土壤盐分含量及广义最小二乘加权(GLSW)结合偏最小二乘回归(PLSR)模型可以有效地估算农田土壤中有机碳的含量。 陈思明等[5]利用线性波谱分解技术重建土壤光谱, 预测了土壤有机质的含量。 Bao等[6]通过分析不同地形土壤有机质含量与光谱反射率之间的相关关系, 发现一种新的光谱指数(R2 294 nm/R2 286 nm)可用于土壤有机质的估算, 并建立偏最小二乘-支持向量机(PLS-SVM)回归模型预测土壤有机质。 以上研究主要基于土壤近红外光谱的有机质物理性质或建模方法等, 对土壤中红外光谱及土壤有机质组分含量的预测研究还很罕见。
因此, 以南疆地区为研究区, 基于近红外(VNIR)、 中红外(MIR)以及组合光谱(VNIR-MIR), 利用偏最小二乘回归(PLSR)、 支持向量机(SVM)以及随机森林(RF)三种建模方法对土壤有机质、 胡敏素、 胡敏酸以及富里酸含量进行分析预测, 比较有机质与各组分在不同反射光谱下的建模预测精度, 为南疆地区土壤肥力的监测与精准施肥提供参考。
新疆位于中国西北地区, 分为北疆和南疆两个区域。 土壤样品采集于南疆地区, 包括南疆阿克苏地区的温宿县(40°52′—42°15′N, 79°28′—81°30′E)及阿瓦提县(39°31′—40°50′N, 79°45′—81°05′E); 和田地区的和田县(34°22′—38°27′N, 78°—80°30′E)。 阿克苏地区位于天山山脉和塔里木盆地之间, 是冲积平原中心, 年降水量约42.4~94.4 mm, 蒸发量约1 200~1 500 mm, 水资源丰富, 为暖温带干旱型气候。 和田地区位于南塔里木盆地边缘与北昆仑山之间, 年降水量较低(约35 mm), 年蒸发量较高(约2 480 mm), 属干旱荒漠性气候。
采样时间在2014年11月, 采样方法为五点梅花状取样法, 采集土壤类型温宿县为淤黄泥、 阿瓦提县为灌淤土, 和田县为水稻土, 每个采样区各采集31个土壤样品, 共采集93个0~20 cm的表层土壤样本。 将土样带回实验室经风干、 研磨、 过筛后分为两份, 一份用于土壤有机质、 胡敏素、 胡敏酸以及富里酸含量的测定, 一份用于可见-近红外光谱及中红外光谱数据测定。 土壤有机质采用重铬酸钾-滴定法进行测定, 土壤胡敏素、 胡敏酸、 富里酸采用焦磷酸钠提取重铬酸钾法进行测定。
描述性统计包括平均值, 标准差, 最小值, 最大值, 峰度和变异系数, 土壤有机质及其组分含量描述统计表如表1所示。 由表1可得, 土壤有机质含量最大值为68.02 g·kg-1, 最小值为12.52 g·kg-1; 土壤有机质及其组分含量的变异系数在50%左右, 属强变异性, 因此本研究结果适用范围较广。
表1 土壤有机质及组分含量统计
VNIR光谱利用美国生产的Field SpecPro FR型光谱仪进行测量[7], 测量范围为350~2 500 nm, 在350~1 000 nm采样间隔为1.4 nm, 光谱分辨率为3 nm; 在1 000~2 500 nm采样间隔为2 nm, 光谱分辨率为10 nm。 重采样间隔为1 nm, 输出波段数2 151个。 光谱测量在可控光条件的暗室进行, 光源为功率50 W的卤素灯, 光源距离土壤样品70 cm, 天顶角30°。 将样品装入直径10 cm、 深度2 cm的器皿中, 表面用直尺刮平。 传感器距土样表面15 cm, 探头为25°视场角, 测试之前进行白板校正, 每个土样进行10次重复测量, 取平均值作为该土样实际反射可见-近红外光谱数据。
MIR光谱利用Agilent Technologies(美国)生产的Agilent 4300手持式FTIR光谱仪[8]进行测量。 光谱范围为650~4 000 cm-1, 采样间隔为0.47 cm-1, 光谱分辨率4 cm-1, 每个频谱都是32次内部扫描的结果。 测量前将土壤样品在45 ℃条件下烘干24 h, 降低土壤样品中的水分含量之后再进行MIR光谱测量。 与可见-近红外光谱测量方法相似, 白板校正之后, 每个样本测量10次光谱, 取平均值作为土壤中红外光谱数据用于分析处理。
在测量过程中, 仪器受自身精度误差及大气影响会使光谱反射率有轻微偏移。 在分析可见-近红外光谱数据时需去除边缘350~399和2 401~2 500 nm噪声较大的土壤样品的初始反射率, 保留400~2 400 nm波段的土壤原始光谱反射率进行分析处理。 对中红外光谱进行重采样处理, 去除边缘波段, 保留3 600~650 cm-1波段范围光谱数据。 光谱数据重采样在ENVI软件中进行, 采样后对VNIR光谱以及MIR光谱进行Savitzky-Golay(SG)平滑处理。
将93个土壤样品按有机质及组分含量从小到大进行排序, 三分之二用于建模, 三分之一用于验证, 即62个建模集样本和31个预测集样本。 采用偏最小二乘回归(PLSR)、 支持向量机(SVM)回归与随机森林(RF)三种建模方式。 PLSR是一种常见的、 简单的、 易于使用的多元回归方法, 能够从土壤光谱中准确估计土壤的物理和化学性质[9]。 SVM主要用于回归和分类分析, 在解决非线性以及高维模式识别中有其独特的优势[10]。 RF是基于决策树的一种经典的机器学习方法, 对于很多数据集表现良好, 精确度比较高, 不容易发生过拟合, 在数据建模中具有一定的优势[11]。 PLSR与SVM模型在The Unscrambler X 10.5.1软件中实现, RF在R软件中实现。
模型的稳定性与预测的精度评价指标主要包括决定系数(R2)、 均方根误差(RMSE)、 样本观测值三四分位数Q3与一四分位数Q1之差与RMSE的比值(RPIQ)。 预测值与实测值的线性回归R2量化了模型所解释的可变性水平, 其余的变化归因于随机误差。 RMSE测量预测值和实测值之间的差异, 并通过比较不同模型的预测误差来量化预测的准确性。 因此, RMSE越小, 模型精度越好。 RPIQ是一个模型效度的度量, 它同时考虑了预测误差和测量值的变化。 RPIQ越高, 模型的预测能力越好。 相对于残差预测偏差(RPD), RPIQ更能表现出模型的精度, 它对测量值的正态性不作任何假设。 因此, 一个高精度的预测模型应该具有较高的R2和RPIQ值以及较低的RMSE。
不同有机质及其组分含量土样的VNIR和MIR反射光谱曲线如图1(a)和(b)所示, 图中的光谱曲线为不同有机质及其组分含量范围内多个土样的平均光谱。 由图1可以看出, 在不同土样的VNIR和MIR光谱曲线中, 土壤有机质及其组分含量越高, 土样光谱反射率越低。 在VNIR光谱曲线中, 不同有机质及其组分含量的土样光谱反射曲线特征大致相同, 在400~700 nm波段增长速率较快, 700~1 900 nm范围内反射率缓慢增加, 在1 900~2 100 nm范围内大幅度减小, 此后直到2 400 nm反射率呈上升趋势。 所有光谱曲线在1 400, 1 900和2 200 nm附近均有三个明显的光谱吸收谷, 在1 400和1 900 nm处, VNIR光谱反射率受H2O和OH-的影响, 在2 200 nm处VNIR光谱反射率受土壤有机分子的影响[12]。 但有机质各组分的光谱反射率有一定细节变化, 在400~700 nm波段范围内, 土壤胡敏素含量越低, 光谱反射率增长速度越大, 几乎呈90°直线上升, 在700 nm之后, 不同胡敏素含量的土样反射率趋于一致; 在400~900 nm波段范围内, 胡敏酸含量越低, 土样光谱反射率越低, 但低胡敏酸含量的土样光谱反射率增加速度最大, 在900 nm之后, 胡敏酸含量越低, 土样光谱反射率越大。
图1 土壤有机质及其组分的可见-近红外(a)和中红外(b)反射光谱特性
MIR光谱反射曲线表现出更加明显的特征波段, 出现更多的反射峰和吸收谷, 在3 600~3 500 cm-1处呈增加的趋势, 随后下降至3 300 cm-1波长后反射率大幅度增加至2 900 cm-1处, 在2 900~2 600 cm-1处迅速下降后又迅速上升至2 200 cm-1, 之后下降直到1 200 cm-1处出现波峰之后到600 cm-1处都持续下降。 MIR光谱反射曲线的吸收谷出现在3 500, 2 520, 1 800和2 500 cm-1左右, 吸收深度和面积与土壤有机质及其组分含量直接相关。 与吸收谷相比, 反射峰更加明显可见, 在2 900, 2 200以及1 200 cm-1附近波段处, 土壤有机质及其组分含量越高, 反射深度和反射面积越大[13]。 在不同含量有机质组分的土样反射光谱曲线中, 富里酸含量越小, 土样光谱反射率越大, 特征峰更明显。
将土壤有机质及其组分含量与土样VNIR和MIR光谱反射率分别作相关性曲线。 由图2可得, 土壤有机质及其组分含量与光谱反射率均呈负相关, 相关系数在-0.55~0之间。 较VNIR来说, MIR与土壤有机质及其组分相关性曲线中表现出更多的响应特征波段, 相关性更高。 在VNIR波段中, 特征点集中于400, 600, 900, 1 400, 1 700和2 200 nm等波段处, 在400 nm处, 土壤有机质及其组分相关性都最高, 土壤有机质、 胡敏素、 胡敏酸、 富里酸的相关系数分别为-0.799, -0.792, -0.653和-0.708。 总体来看, 不同有机质及其组分含量与VNIR光谱反射率相关性从大到小为有机质>胡敏素>胡敏酸>富里酸, 但在900~1 200 nm处, 土壤胡敏酸的相关性大于土壤有机质、 胡敏素及富里酸的相关性, 出现一个波峰, 在之后波段的相关性曲线中, 胡敏酸中出现的波峰或波谷都会提前于其他几种土壤性质, 且出现的波峰及波谷均明显大于其他几种土壤性质。
图2 不同土壤有机质及组分与可见-近红外(a)和中红外(b)反射率的相关关系
MIR波段中, 特征点出现在3 000, 2 300, 1 800, 1 500, 1 200, 900和600 cm-1等波段处。 土壤富里酸含量土样光谱反射率的相关性几乎全部为极显著性相关, 而土壤胡敏酸仅在1 700~2 000 cm-1波段处存在显著性相关。 土壤有机质及组分相关性在1 800 cm-1波段处最高, 土壤有机质、 胡敏素、 胡敏酸、 富里酸的相关系数分别为-0.835, -0.834, -0.630和-0.836。 不同有机质及其组分含量与MIR光谱反射率相关性从大到小为富里酸>有机质>胡敏素>胡敏酸。 通过对比分析, 土壤有机质及其组分在VNIR中相关性最好的是土壤有机质, 最大相关系数为-0.799; 在MIR中土壤富里酸的相关性最高, 相关系数为-0.836。
利用PLSR, SVM和RF模型结合VNIR, MIR和VNIR-MIR光谱数据集对土壤有机质及组分进行模型构建与验证, 分别得到土壤有机质及组分的9种预测模型, 如表2所示。
表2 基于不同光谱的PLSR, SVM和RF模型构建与验证
建模集中, 有机质及其组分建立的模型建模精度都较好。 在土壤有机质、 胡敏素、 胡敏酸、 富里酸中, 以土壤富里酸建立的模型精度最高, 决定系数R2均大于0.80, 最高可达到0.94; 土壤有机质、 胡敏素及胡敏酸建立的模型精度R2都能大于0.70, 最优土壤胡敏素及胡敏酸建模精度R2均为0.93; 土壤有机质的建模精度相对较差, 最大建模精度R2为0.92。 在PLSR, SVM和RF三种模式建立的预测模型中, 以RF模式建立的模型精度明显高于以PLSR和SVM建立的模型精度, 模型精度R2均大于0.80; PLSR模式建立的模型中有两个模型的精度R2小于0.80, 总体来说, PLSR模型精度也可较好的预测土壤有机质及其组分含量; SVM模型精度最差, 模型精度R2最低的仅为0.71。 在VNIR, MIR和VNIR-MIR三种光谱数据建立的模型中, 土壤有机质以VNIR-MIR建立的模型精度最高, 土壤胡敏素与胡敏酸以VNIR建立的模型精度最高, 土壤富里酸以MIR建立的模型精度最高。
综上所述, 土壤有机质在基于VNIR-MIR光谱的FR模型预测精度最高,R2=0.92, RMSE=2.90, RPIQ=4.52; 土壤胡敏素以及胡敏酸在基于VNIR光谱的RF模型中精度最高, 胡敏素预测精度为R2=0.93, RMSE=2.44, RPIQ=4.87, 胡敏酸预测精度为R2=0.93, RMSE=0.34, RPIQ=4.75; 土壤富里酸以MIR的RF模型的预测精度最高, 模型精度R2=0.94, RMSE=0.22, RPIQ=6.08。
土壤有机质及组分在模型精度验证中均以RF模型反演精度最高, 除VNIR-MIR光谱RF模型预测富里酸时, 模型决定系数R2小于0.8, 其他RF模型R2均大于0.8。 而PLSR模型与SVM模型相比, PLSR模型反演模型精度整体上高于SVM模型的反演模型精度, 但在VNIR-MIR光谱模型中, SVM模型精度大于PLSR模型精度。 9种模型的模型验证精度均小于模型预测精度。 反演模型精度最高的为富里酸, 模型R2可达0.94, RMSE为0.24, RPIQ为4.41。 胡敏素和胡敏酸的反演模型R2均为0.92, RMSE分别为2.66和0.34, RPIQ分别为4.61和3.93。 有机质模型预测精度低于各组分模型精度,R2为0.90, RMSE为4.08, RPIQ为3.51。
土壤有机质由胡敏素、 胡敏酸及富里酸3个组分组成, 这三种组分含量之和等于有机质含量。 筛选出上文中土壤有机质组分最优模型的预测结果, 将各组分含量预测结果之和与土壤有机质实测值建立线性模型, 图3为土壤有机质单一模型和组合模型与土壤有机质实测值的散点图。 有机质组合模型决定系数R2为0.93, 大于土壤有机质单一光谱模型精度(R2=0.90)。
图3 土壤有机质组合模型、 单一模型与有机质实测值散点图
土壤有机质的主要成分为腐殖质, 根据其溶解性可分为胡敏素、 胡敏酸和富里酸。 其中, 富里酸易溶于酸碱溶液, 在土壤中最易被分解, 胡敏素是在所有pH水平下仍不溶于水溶液的萃取部分, 在土壤中难以分解, 且与疏水性有机化合物紧密结合, 并在其结构中呈现出不变的生物聚合物, 如木质素和多糖, 提取过程复杂, 对土壤肥力性质的研究造成了一定的困难。 光谱技术是应用于土壤属性测定的一种新的技术手段, 已被证明能够有效的分析SOM。 Gu等[14]发现, 土壤有机质含量大于2%会对土壤光谱影响较大, 可能忽略其他因素的影响; 当小于2%时, 随着土壤有机质含量降低, 对光谱的影响能力逐渐减小, 也说明了土壤有机质含量越大, 光谱反射率越小。 Dinesh等[15]基于中红外光谱, 建立MNIRS-PLSR模型, 预测了再造林地土壤的总有机碳等指标, 结果表明总有机碳的验证精度R2可达到0.96。 现阶段大部分研究主要是对有机质的物理性质等方面进行研究, 对有机质组分研究的报道还很少见。 本研究分别做了有机质与其组分的预测模型, 在有机质组分层面对土壤肥力更为深入的研究发现, 尽管在近红外光谱中, 土壤有机质与光谱反射率的相关性最高, 相关系数最大, 但在实际建模预测过程中, 有机质的预测精度指标要小于其组分的预测精度, 富里酸的模型反演精度最好, 预测精度R2可达到0.94, 胡敏素与胡敏酸的模型反演精度R2也可达到0.92, 均大于有机质的模型反演精度, 说明有机质模型反演并不能完全反映出土壤肥力的高低, 有机质组分的矿质化程度也会影响土壤有机质的预测精度。 Machado等[16]研究发现, 土壤有机质组分中胡敏酸的反射率会掩盖土壤反射率和土壤颜色等信息, 当土壤中胡敏酸的含量增大时, 土壤有机质的反射率会降低, 与本研究得出的结论一致。 此外, 对比了胡敏素、 胡敏酸和富里酸的有机质组合模型与有机质单一光谱模型的预测精度, 有机质组合光谱模型预测精度高于有机质单一光谱模型, 表明这种组合建模方法即可精确预测有机质各组分的含量, 同时也提高了有机质的预测精度, 为提高光谱预测有机质的模型精度, 更精准的反映土壤肥力状况提供了新思路。
为探讨土壤有机质组分对土壤有机质光谱预测的影响, 大范围尺度的更精准的研究土壤肥力状况, 通过对南疆不同地区土壤有机质、 胡敏素、 胡敏酸以及富里酸进行反射光谱曲线及相关性分析, 基于VNIR, MIR和VNIR-MIR三种不同光谱数据, 结合PLSR, SVM和RF三种模型, 建立基于不同光谱数据的土壤有机质及组分的预测模型, 筛选最优模型, 得出以下结论:
(1)土壤中有机质及组分含量越大, 土壤光谱反射率越小。 VNIR光谱中, 在1 400, 1 900和2 200 nm波长附近出现吸收谷; MIR光谱中, 在3 500, 2 520, 1 800和2 500 cm-1波长附近出现波谷, 在2 900, 2 200以及1 200 cm-1波长附近出现波峰。
(2)不同土壤有机质及组分与土壤光谱反射率相关性在VNIR和MIR光谱中均为负相关, 土壤有机质及其组分在VNIR中相关性最高的是土壤有机质, 最大相关系数为-0.799; 在MIR中土壤富里酸的相关性最高, 相关系数为-0.836。
(3)对各模型精度进行比较及分析, 土壤富里酸模型精度最高, MIR-RF模型精度R2可达到0.94, RMSE为0.24, RPIQ为4.41, 胡敏素和胡敏酸最优预测模型为VNIR-RF模型, 决定系数R2可达到0.92, RMSE分别为2.66和0.34, RPIQ分别为4.61和3.93。 预测精度相对较差的是土壤有机质, 最优模型为VNIR-MIR-RF模型, 反演精度R2为0.90, RMSE为4.08, RPIQ为3.51。
(4)基于胡敏素、 胡敏酸和富里酸的有机质组合光谱模型决定系数R2为0.93, RMSE为2.58, RPIQ为5.89, 明显大于有机质单一光谱模型预测精度。 本研究表明不同土壤光谱反射率能够快速简便准确的预测出土壤有机质及组分含量, 实现迅速鉴定土壤肥力, 对南疆地区土壤肥力的监测及改良提供一些必要理论和技术, 也对南疆地区土壤肥力的治理具有一定的指导意义。