于 欢,刘 健,刘亚秋,顾子平,王瑷玲
山东农业大学资源与环境学院,山东 泰安 271018
土壤有机质(SOM)是植物营养的主要来源之一,并且与土壤微生物、土壤结构等关系密切,是土壤肥力和土壤质量的重要指标[1]。高效、精确测定土壤有机质含量不仅可以及时了解土壤营养状况,进行精准施肥,提高农业生产率,而且还有利于掌握耕地质量,保障土地资源的合理利用。传统的土壤有机质含量测定通过野外布点采样、实验室化验分析来进行,精度虽高但耗时长、成本高、时效差且步骤繁琐[2],不适合大面积土壤有机质含量的快速测定、动态管理,难以满足当前生产管理的需要[3]。基于农业生产的实际需要和科学技术的快速发展,农业高光谱技术应运而生且迅速推广,其具有时间快、效率高、信息量大且无污染的特点。已有研究表明土壤光谱反射率与有机质含量之间存在光谱响应关系,这为高光谱技术用于预测土壤有机质含量提供了可能[4]。
国内外学者多年来对土壤有机质高光谱估测的大量研究取得了一定成效。Al-Abbas 等[5]发现土壤反射率与有机质含量为负相关关系。Krishnan[6]等对伊利诺伊州土壤样品分析发现土壤光谱在可见光区域与有机质的相关性较高,预测最佳波长为0.6236 μm 和0.5644 μm。Ostovari 等[7]运用偏最小二乘回归对伊朗南部钙质土壤有机质含量进行了估测,决定系数R2达到0.6 以上,相关性较强。De Santana 等[8]通过对土壤光谱反射率预测有机质含量的模型研究,发现随机森林较偏最小二乘回归更优。聂哲等[9]探讨东北松嫩平原典型黑土区土壤有机质高光谱反演时发现结合一阶微分预处理的偏最小二乘回归模型反演最佳。南峰等[10]对黄土高原煤矿区复垦农田土壤有机质进行全波段和显著性波段的偏最小二乘回归模型预测,结果显示显著性波段建模效果更好。张森等[11]采用SVM 和BP 对滨海湿地土壤有机质含量进行估算,发现支持向量机的建模精度明显更优。单海滨]等[12运用多元逐步回归对北疆绿洲农田灰漠土有机质含量建模预测,结果显示高光谱反射率经过对数一阶微分处理预测精度最高。包青岭[13]、Gu 等[14]研究发现经过小波技术预处理后的随机森林有机质含量预测建模精度较高。综上,通过学者对高光谱技术估测土壤有机质含量的大量研究可以发现,高光谱数据的预处理、估测模型的精度与区域、地形、土壤类型等均有关系。丘陵区是我国重要的农业生产区,在保障粮食安全方面发挥着重要作用,需实时监测土壤有机质含量,但其高光谱预测研究较少。
基于此,本文以钢城区九龙庄村和小官庄村2 个丘陵村为研究区,以风干后的耕地土壤为研究对象,通过分析多种光谱变换与有机质含量的相关性,确定最佳变换方式,筛选显著性波段,建立随机森林(RF)、支持向量机(SVM)2 种机器模型和偏最小二乘回归(PLSR)、多元逐步回归(SMLR)2 种线性模型进行土壤有机质含量估测,最终对比分析确定土壤有机质高光谱估测最佳模型,以期为该区域土壤有机质含量快速高效监测提供依据,为其他类似区域土壤有机质含量估测提供参考。
九龙庄村位于钢城区艾山街道,地形起伏较大,海拔介于276 m~333 m,平均海拔291 m,土地总面积为2.33 km2,其中耕地面积0.92 km2,距城区较远,农业为主。小官庄村位于钢城区里辛街道,地形起伏相对缓和,海拔介于219 m~260 m,平均海拔236 m,土地总面积为2.05 km2,其中耕地面积1.14 km2,距城区较近,兼业为主。2 个村均为暖温带大陆性季风气候,年均气温130C,年均降水695 mm,丘陵地形,土壤类型为砂质黏壤土,农作物以玉米和花生为主,主要为一年一季轮作方式,机械化水平较低,以天然降水为主要灌溉方式。
考虑研究区地形、土地利用现状、耕地类型和分布、种植作物等,共布设样点70 个,其中九龙庄村34 个,小官庄村36 个。2019 年9 月,参考遥感影像,手持GPS 定位,采用五点交叉取样法野外采样,共取深度为0~20 cm 的土壤样品70 个,经室内充分风干后,将杂质剔除干净,然后进行研磨,以通过1 mm 标准筛的土壤采用四分法分成两份,分别用于土壤高光谱和土壤有机质的测定。
ASD FieldSpec3 型地物光谱仪进行风干后土壤样品的室内高光谱测定[15],高光谱范围为350 nm~2500 nm。
化学实验室内采用重铬酸钾容量法-外加热法[16]进行土壤有机质含量测定。
1.4.1 土壤高光谱数据预处理 由于环境不可控因素、仪器暗电流及不同传感器响应精度存在差异,测量的高光谱数据易混入噪声信息[17]。本研究删除每个土壤样品高光谱曲线中噪声较大的400 nm 之前和2400 nm 之后的波段,并采用OriginPro 8.1 软件利用Savitzky-Golay[18]滤波进行9 点3 次平滑去噪处理(图1a)。已有研究表明[19,20],低阶微分变换、对数变换和去包络线变换处理可以增强光谱细小的特征差异,进而光谱信息得以突出,土壤高光谱与有机质含量的相关性相比原始数据会有所提高,应用较为广泛。故本研究对平滑去噪后的土壤高光谱反射率R进行一阶微分R’、倒数对数的一阶微分[lg(1/R)]’和连续统去除CR 处理,其中R’和[lg(1/R)]’在Excel 表格中进行处理(图1b、图1c),CR 通过ENVI4.8 软件处理得到(图1d)。
1.4.2 土壤有机质数据预处理 实验室测定土壤有机质含量的过程中,由于多种不可控因素的存在,实验结果经常会产生一些缺失值或异常值,如不对其进行处理,会影响最终的研究结果。因此本文在测定过程中对每一个土壤样品进行3 次有机质含量重复测定,对实验过程中出现缺失的样品及时补充,确保土壤样品的完备性;同时对土壤有机质含量的测定结果进行箱形图检测,确保土壤样品的正常性。最终验证70 个土壤样品有机质含量均未出现缺失和异常,可用于后续研究。
将70 个土壤样品有机质含量自小至大排序,按照训练样本与验证样本3:1 的比例,每隔3 个训练样本选取1 个作为验证样本,最终确定53 个训练样本,17 个验证样本。综合已有研究,选用RF、SVM、PLSR和SMLR 4种估测建模方法,选取决定系数(R2)、均方根误差(RMSE)和相对分析误差(RPD)作为模型估测精度评价指标[21,22]。
70 个样本土壤有机质含量介于6.63~19.02 g·kg-1,均值13.26 g·kg-1,标准偏差2.55 g·kg-1,变异系数19.23%,综合来看研究区土壤有机质含量属于偏低水平,变异中等(表1)。训练样本和验证样本的土壤有机质含量均值分别为2.63 g·kg-1和2.36 g·kg-1。
表1 土壤有机质含量描述性统计分析Table 1 Descriptive statistical analysis of soil organic matter content
70 个土壤样本由低至高排序后划分为3 个区间,取每个区间所包含样本高光谱曲线的均值,得到不同有机质含量土壤高光谱曲线(图2)。图2 表明,不同有机质含量土壤高光谱曲线特征如下:(1)土壤有机质含量与高光谱反射率表现为负相关关系,即土壤高光谱反射率随有机质含量的升高而降低;(2)土壤有机质含量不同,高光谱曲线变化相似,760 nm 波段之前反射率平滑上升,760~2400 nm 波段间反射率平缓变化并时有高低起伏现象;(3)1400、1900 和2200 nm 左右波长处水分吸收谷较为明显,吸收谷的深度、宽度等因有机质含量不同而存在差异,一般认为与粘土矿物中所含的OH-有关[23]。
图2 不同有机质含量土壤光谱曲线Fig.2 Soil spectral curve under the background of different organic matter content
分析R及R’、[lg(1/R)]’、CR 3 种光谱变换的反射率与土壤有机质含量的相关性(图3)可以发现,R与有机质含量的相关系数较小,相关系数曲线波动也较小,不适宜进行估测建模;R’、[lg(1/R)]’、CR 3 种光谱变换均有波段通过0.01 显著性检验且相关系数在正负值间波动,但R’、[lg(1/R)]’相较于CR 通过显著性检验的波段数较多且相关系数曲线起伏较大;R’和[lg(1/R)]’通过0.01 显著性检验的波段数量和相关系数曲线起伏相当,但是观察两种变换,R’通过显著性检验波段的相关系数稍大于[lg(1/R)]’,细小和被隐藏的光谱吸收特征得到更好的体现。因此,本研究选取R’通过0.01 显著性检验波段部分突变点处的波段作为显著性波段。综合考虑显著性波段间的共线性问题,最终确定706、1002、1359、1415、1886、1914 和2221 nm 7 个波段作为显著性波段进行后续建模研究。
图3 土壤有机质含量与不同高光谱变换后反射率的相关性分析Fig.3 Correlation analysis of soil organic matter content and reflectance after different hyperspectral transformations
以选定的7 个显著性波段为自变量,土壤有机质含量为因变量,运用RF、SVM 2 种机器模型和PLSR、SMLR 2 种线性模型和进行高光谱建模估测和精度验证。SVM 和RF 2 种机器模型经过多次训练最终确定模型参数,其中SVM 的参数设定为:类型选择EPSILON-SVR,核函数选择RBF,惩罚系数Cost 为1,核函数系数Gamma 为0.1,损失函数P为0.01,收敛精度Eps 为0.001;RF 的参数设定为:决策树数目ntree 为400,节点处变量数mtry 为2。
由表2 可得,SVM 和RF 回归模型的R2、RPD 均高于PLSR 和SMLR,RMSE 低于PLSR 和SMLR,这表明土壤高光谱反射率与有机质含量并不是简单的线性关系,机器模型建模效果要优于线性模型。对比4 种估测模型,RF、SVM 和PLSR 的训练样本集RPD 均大于2,可以进行有效预测,其中RF模型的RPD 最大、为3.13,远大于2,其次为SVM 模型、RPD 为2.37,PLSR 模型的RPD 为2.02,刚大于2。考虑模型的稳定性和精度,RF、SVM 和PLSR 3 种模型中,RF 模型最优,其R2达到0.92,RMSE 为0.84,SVM 次之,R2为0.79,RMSE 为1.21,最差的是PLSR,R2为0.75,RMSE 为1.31。SMLR 的训练样本集RPD 介于1.4 至2 之间,但更接近2,可以对样本进行粗略预测,其R2为0.74,RMSE 为1.33,与PLSR 相比,两者各项建模指标较为接近。
表2 不同估测模型训练样本集比较Table 2 Comparison of training sample sets for different estimation models
基于训练样本构建的4 种高光谱估测模型,绘制17 个土壤验证样本实测值与预测值的散点图进行验证(图4)。可以看出,RF 模型效果最好,验证样本集的R2和RPD 最大,分别为0.73 和1.87,RMSE 最小,为1.26。其次是SVM 模型,验证样本集的R2、RPD 和RMSE 分别为0.67、1.78 和1.32。PLSR 和SMLR 模型验证结果相近,验证样本集的R2均为0.61,RPD 和RMSE 有所差异,SMLR 的RPD 大于PLSR,但RMSE 小于PLSR。
图4 4 种模型实测值与预测值的验证散点图Fig.4 Validation scatter plots of measured and predicted values of 4 models
综上,RF、SVM 2 种机器模型建模效果较好,可用于研究区土壤有机质含量高光谱估测。而RF 建模和验证均最优,其土壤有机质含量高光谱估测效果最好。
本研究以钢城区2 个丘陵村的耕地土壤为研究对象,利用测定的70 个土壤样品高光谱曲线及有机质含量,对不同高光谱变换反射率与有机质含量进行相关性分析,选择最佳高光谱变换方式,确定显著性波段,建立RF、SVM、PLSR 和SMLR 4 种土壤有机质含量高光谱估测模型,并进行对比分析,得到如下结论:
(1)对R及经过R’、[lg(1/R)]’、CR 3 种高光谱变换的反射率与土壤有机质含量的相关性分析发现,经过3 种变换的高光谱反射率与有机质含量的相关性较R有较大提高。这说明经过变换处理使得一些细小的和被隐藏的光谱吸收特征得以显现。
(2)比较分析3 种高光谱变换处理结果,R’与有机质含量的相关性最好,确定R’通过0.01 显著性检验的突变点处且无共线性的706、1002、1359、1415、1886、1914 和2221 nm 7 个波段作为有机质含量高光谱估测的显著性波段。
(3)对比分析4 种高光谱估测模型的评价指标,RF、SVM 机器模型的估测效果要优于PLSR、SMLR 线性模型,2 种机器模型均可实现研究区耕地土壤有机质含量高光谱估测,但以RF 模型的估测效果最佳,其建模样本集和验证样本集的R2分别为0.92 和0.73,RMSE 分别为0.84 和1.26,RPD分别为3.13 和1.87。
由于土壤高光谱特征是多种土壤理化性质相互作用综合影响的结果,不同地区土壤的成土条件、成土母质、成土过程等具有独特性、地域性[24],现已研究建立的区域有机质估测模型对非研究区土壤有机质情况并不具有完全适用性。因此本研究中建立的估测模型是否适用于其他丘陵区域,有待以后研究的进一步验证。