基于CARS-BPNN的江西省土壤有机碳含量高光谱预测

2022-10-31 02:25吴俊郭大千李果郭熙钟亮朱青国佳欣叶英聪
中国农业科学 2022年19期
关键词:波段光谱精度

吴俊,郭大千,李果,郭熙,2,钟亮,朱青,国佳欣,叶英聪

基于CARS-BPNN的江西省土壤有机碳含量高光谱预测

吴俊1,郭大千3,李果2,4,郭熙1,2,钟亮1,朱青1,国佳欣1,叶英聪1

1江西农业大学国土资源与环境学院/江西省鄱阳湖流域农业资源与生态重点实验室,南昌 330045;2中科生态修复(江西)创新研究院,南昌 330045;3江西省国土空间调查规划研究院,南昌 330045;4江西省地质局912大队,南昌 330045

【目的】探讨光谱变量选择及依据土壤类型进行分层校准两种方法对高光谱预测土壤有机碳(SOC)精度的影响。【方法】以江西省为研究区,490个土壤样本为研究对象,对研究区内的所有样本以及不同土壤类型样本分别通过竞争性自适应重加权采样(CARS)算法筛选特征波段,并采用偏最小二乘回归(PLSR)、支持向量机(SVM)、随机森林(RF)、反向传播神经网络(BPNN)4种模型,对比不同土壤类型下SOC在全波段以及CARS算法筛选后特征波段的预测精度。进而,还对比了全局校准和分层校准下SOC在全波段以及CARS算法筛选后特征波段的预测精度。【结果】(1)红壤筛选的特征波段为484、683—714和2 219—2 227 nm,水稻土筛选的特征波段为484、689—702和2 146—2 156 nm。红壤采用CARS-BPNN模型预测效果最佳(2=0.82),较全波段建模验证集2提升0.07。水稻土采用CARS-RF模型预测效果最佳(2=0.83),较全波段建模验证集2提升0.13。(2)在总体样本上,分层校准相比全局校准精度有所提升。采用CARS-BPNN进行分层校准预测效果最佳(2=0.82),较全局校准验证集2提升0.06。【结论】采用CARS-BPNN进行分层校准能够较好地预测江西省土壤有机碳含量,本研究可为其他类似地区预测土壤属性提供科学依据。

土壤有机碳;竞争适应重加权采样;分层校准;随机森林;反向传播神经网络

0 引言

【研究意义】土壤有机碳(SOC)在全球变暖、碳循环和粮食安全中起着关键作用,SOC储存的变化可能会影响生态系统服务的平衡[1]。因此,监测土壤中的SOC含量成为一项关键而紧迫的任务[2]。然而,高强度采样和传统化学分析使得SOC的监测成本高昂[3]。随着近地遥感监测技术的发展,可见光-近红外光谱技术凭借其极高的光谱分辨率和其高效环保等特性而广泛应用于SOC含量的估算,为SOC的定量研究提供了新途径[4]。【前人研究进展】模型的选择很大程度上影响SOC的预测精度[5]。目前,偏最小二乘回归(PLSR)作为一种经典的线性回归模型,已被广泛用于SOC的估算[6]。然而,由于SOC和光谱数据之间的关系本质上很少是线性的,线性模型在提供SOC的最全面解决方案时可能会遇到困难[7]。一些研究表明,非线性模型更适合处理SOC和光谱数据之间复杂的非线性关系。如Xu等[8]对稻田完整土壤核心的土壤属性进行预测,结果表明反向传播神经网络(BPNN)和支持向量机(SVM)提供了比PLSR更好的性能。纪文君等[9]研究表明相较于常用的PLSR建模方法而言,非线性模型随机森林(RF)也取得了较好的建模精度。除了采用非线性模型外,光谱变量选择也是进一步优化模型的常用方法[10]。变量选择尝试从光谱数据中识别和移除不相关、有噪声或不可靠的变量[11]。一些研究表明,通过使用变量选择方法去除光谱数据中不需要的变量,可以获得更精确的校准模型[12]。其中,竞争性自适应重加权采样(CARS)是目前光谱建模领域应用较为广泛的光谱变量选择技术[13]。如Liu等[14]尝试CARS结合RF模型用于预测靖边县土壤有机质含量,于雷等[15]采用CARS结合PLSR模型用于预测潮土的土壤水分含量,预测精度较全波段建模都取得了一定的提升。因此,可以考虑将多种非线性模型与CARS算法相结合进行SOC的光谱预测。研究区的尺度大小同样会对SOC的预测精度造成影响。目前学者们主要集中在县域尺度上进行土壤属性的预测[16-18],取得了较高的建模精度,主要是县域尺度环境变量相对较为统一,土壤属性的空间异质性小,但模型的普适性仍有待考证[19-20]。而在更大的研究尺度上,基于全局回归的预测精度较低,主要原因是土壤性质的空间异质性增加,而建立分层校准是减少土壤空间变异性的有效方法[21]。如Liu等[22]使用来自中国土壤光谱库(CSSL)的5种土壤类型的515个样本进行分层校准改进了SOC的预测精度,唐海涛等[23]依据土壤类型对黑龙江海伦市土壤样本进行分类,结果表明分层校准较全局校准预测精度有所提升。因此,可以考虑依据土壤类型分层校准预测大尺度地区的SOC含量。【本研究切入点】国内外研究者对SOC建模方法进行了大量研究并取得了显著成果,但目前对于多种非线性模型结合CARS算法预测SOC的比较分析尚不多见。此外,采用分层校准策略预测大尺度的土壤有机碳含量的报道较少。【拟解决的关键问题】本研究以江西省为研究区,采用PLSR、SVM、RF和BPNN共4种模型结合CARS算法和分层校准策略预测江西省土壤有机碳含量,以期为其他类似地区的SOC预测提供科学依据。

1 材料与方法

1.1 研究区概况

江西省位于中国东南部(24°29′14″—30°04′41″ N,113°34′36″—118°28′58″ E),土地总面积为16.69万km2,截至2020年全省人口4 666万,辖100个县级行政区。全省年均温约16.3—19.5℃,年降水量1 341—1 943 mm,属亚热带温暖湿润季风气候。境内东、西、南三面环山地,中部丘陵和河谷平原交错分布,北部则为鄱阳湖平原。土地利用类型主要以耕地、林地和园地为主。土壤类型主要包括红壤和水稻土,分别占全省土壤总面积的70.7%和20.3%[20]。

1.2 土壤样品采集与光谱数据预处理

课题组于2020年10—11月在研究区开展土壤样品的采集。为保证样本的代表性和空间独立性,在综合考虑地形、植被、土壤、土地利用类型的特征及道路可达性的基础上,在每个县级行政区采集4—6个土壤样本,共采集512个土壤样品(图1)。对于每个土壤样本,在1 m2范围内采集5个土壤亚样本,并彻底混合,以得到一个有代表性的样本。利用GPS记录样点经纬度,采样深度为0—20 cm。将植物材料、植物残余、根系和石块去除后,把土壤样本保存在密封包装。

土样于实验室风干、研磨后,过2 mm筛。然后每个土样被均匀分为两部分,分别用于SOC和土壤高光谱的检测。SOC含量采用重铬酸钾容量法测定,土壤高光谱采用美国ASD FieldSpec4地物光谱仪(350—2 500 nm)测定。每个样本采集10条光谱数据,取其算术平均值作为该样本的光谱曲线。将信噪比低的边缘波段350—400 nm和2 451—2 500 nm去除。最后,采用The Unscrambler X10.4对光谱数据进行Savitzky-Golay(SG)滤波5点平滑处理。

图1 研究区位置与采样点分布

1.3 CARS算法

选择使用高度共线波长的敏感波段将降低校准模型的稳定性,因此,消除冗余带和降低模型训练样本的复杂度可以提高预测模型的精度和速度,特别是对于高维数据的处理[24]。CARS是一种重要的基于频谱的变量滤波算法,具体运行步骤为:(1)从N次蒙特卡罗(MC)采样运行中依次选择波长子集;(2)采用基于指数递减函数(EDF)的强制波长选择和基于自适应重加权采样(ARS)的竞争波长选择的两步程序来选择关键波长;(3)应用交叉验证(CV)来选择具有最低交叉验证均方根误差(RMSECV)的子集[25]。在本研究中,CARS在matlab2012a中运行,采样次数设置为100次。

1.4 模型构建与精度评价

采用经验法则剔除SOC含量在3倍标准差之外的样本22个,最终得到490个土壤样本用于建模,使用K-S算法按照光谱间的欧氏距离以3﹕1的比例分为训练集和验证集[26]。采用4种机器学习方法,包括偏最小二乘回归(PLSR)、支持向量机(SVM)、随机森林(RF)和反向传播神经网络(BPNN),结合CARS算法分别预测研究区内红壤和水稻土SOC含量,具体流程如图2所示。其中,PLSR、SVM、RF在python3.7运行,BPNN在matlab2012a运行。模型训练过程中,4种模型均通过10折交叉验证进行验证并且采用网格搜索法进行参数寻优[27]。

PLSR集成了主成分分析、典型相关分析和多元线性回归的优点,目前应用较为广泛[28]。本研究调节的主要参数为保留的主成分数量(n_components)。

SVM是一种基于核的学习方法,它使用核函数将输入变量映射到高维特征空间,并从特征空间中提取线性超平面作为决策函数来解决回归问题[29]。本研究使用高斯径向基函数(RBF)建立校准模型,调节的主要参数为惩罚系数(C)和正则化参数(γ)。

RF是一种基于决策树的集成算法,其基本思路为从训练集中有放回的随机选取若干样本构建多个相互独立的决策树,然后通过多数表决原则来决定最终的预测结果[6]。本研究调节的参数为决策树数量(n_estimators)和决策树最大深度(max_ depth)。

BPNN的学习规则是采用最速下降法,通过反向传播不断调整网络的权值和阈值,使网络的平方误差之和最小。本研究选用三层BPNN结构,输入层节点数为光谱波段数量,采用试错法与经验法相结合的方法确定隐藏层节点数为12,输出层则为土壤有机碳含量,不同层之间的转移函数采用Sigmoid函数,目标误差设为0.0001,最大迭代次数设为1 000,学习速率设为0.01[30]。

采用决定系数(2)、均方根误差()和相对分析误差(RPD)评价模型预测效果。2和RPD越大、越小,说明模型预测效果越好[31],具体公式如下。

式中,为样本数量;yy分别为有机碳的实测和预测值;为有机碳实测值的平均值;SD是验证集实测值标准偏差;为验证集均方根误差。

图2 技术流程图

2 结果

2.1 不同土壤类型的有机碳含量的描述性统计

从表1可以看出,SOC含量值域范围为4.12—34.11 g·kg-1,平均值为16.75 g·kg-1。SOC的变异系数较高(>0.35),这表明SOC在研究区域内具有空间变异性,并提供了广泛的范围,从而具有良好的预测性能[8]。经单因素方差分析得知,不同类型土壤的有机碳含量均值差异显著,表明SOC含量与土壤类型有关。水稻土的SOC含量较红壤高,原因在于江西红壤地区水稻土在一年中浸水的时间较长,有利于SOC的积累[20,32-33]。

2.2 不同土壤类型光谱曲线特征

如图3所示,当0<SOC<20 g·kg-1,红壤光谱曲线呈现出其特有的陡坎型,由于受到氧化铁的影响,在800 nm处形成反射峰,900 nm处形成吸收谷,而水稻土则是平缓上升;在近红外波段,红壤和水稻土随着波长的增加,其反射率不断升高,增速不断降低。而2 000 nm之后红壤光谱曲线下降较为明显,水稻土则相对平缓。而当SOC>20 g·kg-1,两种土壤的光谱曲线差异较小。这表明当SOC较低时,不同土壤类型对光谱曲线差异影响较大。

2.3 CARS算法筛选特征波段

以CARS选择红壤的特征波段过程为例。图4-a为CARS算法选择变量数目变化图,选择变量的数量在前10次采样迅速减少,之后缓慢减少,这主要是由于指数递减函数的作用。图4-b为交叉验证均方根误差的变化图,呈现由高到低,再到高的变化,当采样次数为58次时,值达到最小值4.43 g·kg-1,这表明在1—58次变量选择运算过程中,剔除了与SOC无关的信息变量,而在58次之后开始上升,则可能剔除了与SOC有关的关键信息变量而导致值增大、模型效果变差。图4-c为回归系数路径变化图,最优子集对应于最低,由带星号的垂直线标记。

表1 江西省土壤有机碳含量描述性统计特征

Ⅰ:全集 Complete set;Ⅱ:训练集 Training set;Ⅲ:验证集 Validation set

(a)红壤Red soil,(b)水稻土Paddy soil

最终,CARS选择的红壤、水稻土以及全局的特征波段如图4-d、e、f所示。红壤的特征波段为484、683—714和2 219—2 227 nm,波段数量为41,占整个光谱的2.0%;水稻土的特征波段为484、689—702和2 146—2 156 nm,波段数量为25,占整个光谱的1.2%;全局的特征波段范围主要为491—494、695—707、1 197—1 200和1 588—1 591 nm,波段数量为25,占整个光谱的1.2%。这些结果表明CARS算法可以极大减少波段的输入数量,减少数据冗余。

2.4 土壤有机碳含量预测

2.4.1 不同土壤类型的土壤有机碳含量预测 从表2可以看出,全波段建模情况下,红壤的4种模型预测精度排序为SVM>BPNN>RF>PLSR。采用SVM模型预测效果最佳(2=0.76,=2.91 g·kg-1,RPD=2.05)。全波段建模情况下,水稻土的4种模型预测精度排序为BPNN>SVM>PLSR>RF。采用BPNN预测效果最佳(2=0.77,=3.32 g·kg-1,RPD=2.08)。

a:波段变量个数的变化;b:交叉验证均方根误差的变化;c:变量回归系数路径;d:红壤样本特征波段;e:水稻土样本特征波段;f:总体样本特征波段

经过CARS选择特征波段后,红壤的4种模型预测精度排序为CARS-BPNN>CARS-PLSR>CARS- RF>CARS-SVM。采用CARS-BPNN模型预测效果最佳(2=0.82),较全波段情况下的BPNN模型提升0.06。水稻土的4种模型预测精度排序为CARS-RF>CARS-BPNN>CARS-PLSR>CARS-SVM。采用CARS-RF模型预测效果最佳(2=0.83),较全波段情况下的RF模型提升0.13。这些结果表明,基于CARS的4种模型较基于全波段的4种模型预测精度有不同程度的提升。

图5显示了基于4种模型结合CARS或全波段的验证数据集中实测与估计SOC含量的散点图。与其他模型相比,CARS-BPNN模型和CARS-RF模型获得的SOC含量的测量值和估计值通常更接近1﹕1线。这些结果表明,基于CARS的4种模型较基于全波段的4种模型预测精度有不同程度的提升。采用CARS选择特征变量并用这些特征变量建立预测模型,不仅可以提高模型的效率,还可以提高模型的预测能力和鲁棒性。

2.4.2 综合土壤类型的土壤有机碳含量预测 将红壤和水稻土合并建模,得到总体样本的全局校准结果;将2.4.1小节中红壤和水稻土的预测结果汇总,得到总体样本的分层校准结果。然后比较全局校准与分层校准的结果。从表3可以看出,全波段情况下分层校准预测精度较全局校准均有不同程度的提高。具体而言,PLSR、SVM、F和BPNN的2分别提升0.06、0.03、0.11和0.15,分别降低0.40、0.23、0.66和0.91 g·kg-1,RPD分别提升0.21、0.14、0.31和0.46。4种模型分层校准时的预测精度排序为BPNN>SVM>PLSR>RF,BPNN模型的预测效果最佳(R=0.76,=3.14 g·kg-1,RPD=2.07),能较好地估测SOC含量。

图5 验证集不同模型下红壤和水稻土有机碳含量实测值与估测值比较

Fig. 5 Comparison between measured and estimated values of organic carbon content in red soil and paddy soil under different models of validation set

表2 不同土壤类型的有机碳含量预测精度

2:决定系数;:均方根误差;RPD:相对分析误差。R:红壤;P:水稻土

2: Coefficient of determination;: Root mean square error; RPD: Residual predictive deviation. R: Red soil; P: Paddy soil

CARS情况下分层校准预测精度较全局校准同样有所提升。具体而言,PLSR、SVM、RF和BPNN的2分别提升0.04、0.04、0.10和0.06,分别降低0.32、0.26、0.69和0.43 g·kg-1,RPD分别提升0.23、0.16、0.47和0.32。4种模型分层校准时的预测精度排序为CARS-BPNN>CARS-RF>CARS-PLSR>CARS-SVM,CARS-BPNN模型预测效果最佳(2=0.82,=2.75 g·kg-1,RPD=2.36),能较好地估测SOC含量。

图6显示了基于4种模型结合分层校准或全局校准的验证数据集中实测与估计SOC含量的散点图。与其他模型相比,结合分层校准的CARS-BPNN模型获得的SOC含量实测值和估值更接近于1﹕1线。这些结果表明,与基于全局校准的4种模型相比,基于分层校准的4种模型的预测精度都有不同程度的提高。与2.4.1结果相似,每个预测模型评价的散点图中,均表现一些极大或极小值预测偏差大,这表明了剔除异常样本的重要性。

3 讨论

3.1 CARS在土壤有机碳含量预测中的作用

本研究发现,红壤的特征波段的范围为484、683—714和2 219—2 227 nm,水稻土的特征波段的范围为484、689—702和2 146—2 156 nm。在可见光波段,两种土壤的特征波段较为相似,484 nm处主要受针铁矿的影响,683—714 nm处主要受O-H官能团的影响,这证实了Kawamura等[34]和Ji等[35]的研究结果。在近红外波段,两种土壤的特征波段差异较为明显,红壤特征波段为2 219—2 227 nm,主要受C-H和Al-OH等官能团的影响,这与Shi等[36]和Vohland等[37]的结果较为一致;而水稻土特征波段为2 146—2 156 nm,主要受C-O官能团的影响,与Xu等[38]和Hong等[39]的结果相符。总体样本的特征波段与单一土壤类型的特征波段有所不同,这可能是由于红壤和水稻土的土壤理化特性不同,需要选取两者共同的敏感波段作为特征波段,故选取的波段有所差别[29,31]。

图6 验证集不同模型下全局与分类建模的有机碳含量实测值与估测值比较

Fig. 6 Comparison between measured and estimated values of organic carbon content in global and classification models under different validation set

表3 基于全局与分类建模的土壤有机碳含量预测精度

G:全局Global;C:分类Classification

部分研究表明CARS算法能够在一定程度提升SOC的预测精度,如Vohland等[25]采用CARS- PLSR对SOC预测(2=0.74),较全波段建模2提高0.14,Hong等[40]采用CARS-SVM对SOM预测(2=0.70),较全波段建模2提高0.15。这些与本文的研究结果较为一致。原因在于CARS通过自适应重加权采样技术(ARS)选择出回归系数绝对值较大的波长,去掉权重小的波长,可有效选择与SOC相关的最优波长组合[14,21]。对比训练集和验证集预测精度可知,CARS可有效地减少模型的过拟合现象,从而提高模型的鲁棒性[26]。此外,CARS-BPNN模型预测精度最高,而CARS-PLSR模型预测精度最低。这一结果的原因在于BPNN能够很好地解决由于光谱仪工作状态的变化和土壤样品结构性质的变化而导致的土壤反射光谱和SOC含量之间的非线性问题[41]。而水稻土的4种模型预测精度中PLSR>RF,原因在于当样本数量较少时,PLSR可能优于一些非线性模型,这与Yang等[12]和Kawamura等[28]的研究一致。

3.2 土壤分类建模在土壤有机碳含量预测中的作用

在分层校准方面,Moura-Bueno等[42]依据土壤类型、土地利用、样品层和光谱特征,采用分层校准预测SOC,结果显示预测精度(2)较全局校准提升0.08;Araújo等[43]通过聚类的方法将巴西热带土壤样本分为若干组预测土壤有机质,结果显示预测精度(2)较全局校准提升0.06;Bao等[44]采用了不同的分层校准策略,包括土壤类型和光谱聚类,取得了良好的土壤有机质预测效果(2=0.89,= 0.42 g·kg-1,RPD=2.97),这些研究与本文的结果较为相符。分层校准能够改善模型预测能力的原因在于土壤光谱包含各种土壤属性的综合信息,土壤分类建模可以将复杂的光谱数据集划分为具有相似光谱特征的多个聚类,从而消除土壤矿物学等其他属性对SOC预测的干扰[45]。

3.3 不足与展望

本文重点探讨了CARS算法及土壤分类建模对土壤有机碳含量预测的影响。但值得注意的是,还存在其他可能改善土壤有机碳含量预测精度的方法,如改变样本量的分配比例和按照土地利用类型分类建模等[16, 32],有待后续的对比研究。

4 结论

本研究以江西省为研究区,采用偏最小二乘回归(PLSR)、支持向量机(SVM)、随机森林(RF)、反向传播神经网络(BPNN)4种模型结合CARS算法分别预测了红壤和水稻土的SOC含量,然后对比了分层校准和全局校准预测总体样本的SOC含量的结果。结果表明,CARS程序及分层校准能够在不同程度提升原始模型的预测精度。CARS-BPNN模型结合分层校准预测总体样本的SOC含量效果最佳(2=0.82,=2.75 g·kg-1,RPD=2.36)。因此,采用CARS- BPNN模型结合依据土壤类型的分层校准能够较好地预测江西省SOC含量。

[1] ROSSEL R V, WALVOORT D J J, MCBRATNEY A B, JANIK L J, SKJEMSTAD J O. Visible, near infrared, mid infrared or combined diffuse reflectance spectroscopy for simultaneous assessment of various soil properties. Geoderma, 2006, 131(1/2): 59-75.

[2] KUANG B, MOUAZEN A M. Calibration of visible and near infrared spectroscopy for soil analysis at the field scale on three European farms. European Journal of Soil Science, 2011, 62(4) : 629-636.

[3] ROSSEL R V, BEHRENS T. Using data mining to model and interpret soil diffuse reflectance spectra. Geoderma, 2010, 158(1/2): 46-54.

[4] 史舟, 王乾龙, 彭杰, 纪文君, 刘焕军, 李曦. 中国主要土壤高光谱反射特性分类与有机质光谱预测模型. 中国科学, 2014, 44(5): 978-988.

SHI Z, WANG Q L, PENG J, JI W J, LIU H J, LI X. Development of a national VNIR soil-spectral library for soil classification and prediction of organic matter concentrations. Science China, 2014, 44(5): 978-988. (in Chinese)

[5] MOUAZEN A M, KUANG B, DE BAERDEMAEKER J, RAMON H. Comparison among principal component, partial least squares and back propagation neural network analyses for accuracy of measurement of selected soil properties with visible and near infrared spectroscopy. Geoderma, 2010, 158(1/2): 23-31.

[6] DING J, YANG A, WANG J, SAGAN V, YU D. Machine-learning- based quantitative estimation of soil organic carbon content by VIS/NIR spectroscopy. PeerJ, 2018, 6: e5714.

[7] CHENG H, WANG J, DU Y. Combining multivariate method and spectral variable selection for soil total nitrogen estimation by Vis–NIR spectroscopy. Archives of Agronomy and Soil Science, 2021, 67(12): 1665-1678.

[8] XU S, ZHAO Y, WANG M, SHI X. Comparison of multivariate methods for estimating selected soil properties from intact soil cores of paddy fields by Vis–NIR spectroscopy. Geoderma, 2018, 310: 29-43.

[9] 纪文君, 史舟, 周清, 周炼清. 几种不同类型土壤的VIS-NIR 光谱特性及有机质响应波段. 红外与毫米波学报, 2012, 31(3): 277-282.

JI W J, SHI Z, ZHOU Q, ZHOU L Q. VIS-NIR reflectance spectroscopy of the organic matter in several types of soils. Journal of Infrared and Millimeter Waves, 2012, 31(3): 277-282. (in Chinese)

[10] VOHLAND M, LUDWIG M, HARBICH M, EMMERLING C, THIELE-BRUHN S. Using variable selection and wavelets to exploit the full potential of visible–near infrared spectra for predicting soil properties. Journal of Near Infrared Spectroscopy, 2016, 24(3): 255-269.

[11] 朱亚星, 于雷, 洪永胜, 章涛, 朱强, 李思缔, 郭力, 刘家胜. 土壤有机质高光谱特征与波长变量优选方法. 中国农业科学, 2017, 50(22): 4325-4337.

ZHU Y X, YU L, HONG Y S, ZHANG T, ZHU Q, LI S D, GUO L, LIU J S. Hyperspectral features and wavelength variables selection methods of soil organic matter. Scientia Agricultura Sinica, 2017, 50(22): 4325-4337. (in Chinese)

[12] YANG M, XU D, CHEN S, LI H, SHI Z. Evaluation of machine learning approaches to predict soil organic matter and pH using Vis-NIR spectra. Sensors, 2019, 19(2): 263.

[13] KAWAMURA K, TSUJIMOTO Y, NISHIGAKI T, ANDRIAMANANJARA A, RABENARIVO M, ASAI H, RAZAFIMBELO T. Laboratory visible and near-infrared spectroscopy with genetic algorithm-based partial least squares regression for assessing the soil phosphorus content of upland and lowland rice fields in Madagascar. Remote Sensing, 2019, 11(5): 506.

[14] LIU J, DONG Z, XIA J, WANG H, MENG T, ZHANG R, XIE J. Estimation of soil organic matter content based on CARS algorithm coupled with random forest. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2021, 258: 119823.

[15] 于雷, 洪永胜, 周勇, 朱强, 徐良, 李冀云, 聂艳. 高光谱估算土壤有机质含量的波长变量筛选方法. 农业工程学报, 2016, 32(13): 95-102.

YU L, HONG Y S, ZHOU Y, ZHU Q, XU L, LI J Y, NIE Y. Wavelength variable selection methods for estimation of soil organic matter content using hyperspectral technique. Transactions of the Chinese Society of Agricultural Engineering, 2016, 32(13): 95-102. (in Chinese)

[16] 国佳欣, 朱青, 赵小敏, 郭熙, 韩逸, 徐喆. 不同土地利用类型下土壤有机碳含量的高光谱反演. 应用生态学报, 2020, 31(3): 863-871.

GUO J X, ZHU Q, ZHAO X M, GUO X, HAN Y, XU Z. Hyper- spectral inversion of soil organic carbon content under different land use types. Chinese Journal of Applied Ecology, 2020, 31(3): 863-871.

[17] 钟亮, 郭熙, 国佳欣, 徐喆, 朱青, 丁萌. 基于不同卷积神经网络模型的红壤有机质高光谱估算. 农业工程学报, 2021, 37(1): 203-212.

ZHONG L, GUO X, GUO J X, XU Z, ZHU Q, DING M. Hyperspectral estimation of organic matter in red soil using different convolutional neural network models. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(1): 203-212.

[18] YANG M, MOUAZEN A, ZHAO X, GUO X. Assessment of a soil fertility index using visible and near-infrared spectroscopy in the rice paddy region of southern China. European Journal of Soil Science, 2020, 71(4): 615-626.

[19] SHI Z, JI W, VISCARRA ROSSEL R A, CHEN S, ZHOU Y. Prediction of soil organic matter using a spatially constrained local partial least squares regression and the Chinese vis-NIR spectral library. European Journal of Soil Science, 2015, 66(4): 679-687.

[20] 赵小敏, 杨梅花. 江西省红壤地区主要土壤类型的高光谱特性研究. 土壤学报, 2018, 55(1): 31-42.

ZHAO X M, YANG M H. Hyper-spectral characteristics of major types of soils in red soil region of Jiangxi province, China. Acta Pedologica Sinica, 2018, 55(1): 31-42. (in Chinese)

[21] LIU S, SHEN H, CHEN S, ZHAO X, BISWAS A, JIA X, FANG J. Estimating forest soil organic carbon content using vis-NIR spectroscopy: Implications for large-scale soil carbon spectroscopic assessment. Geoderma, 2019, 348: 37-44.

[22] LIU Y, SHI Z, ZHANG G, CHEN Y, LI S, HONG Y, LIU Y. Application of spectrally derived soil type as ancillary data to improve the estimation of soil organic carbon by using the Chinese soil vis-NIR spectral library. Remote Sensing, 2018, 10(11): 1747.

[23] 唐海涛, 孟祥添, 苏循新, 马涛, 刘焕军, 鲍依临, 张美薇, 张新乐, 霍海志. 基于CARS 算法的不同类型土壤有机质高光谱预测. 农业工程学报, 2021, 37(2): 105-113.

TANG H T, MENG X T, SU X X, MA T, LIU H J, BAO Y L, ZHANG M W, ZHANG X Y, HUO H Z. Hyperspectral prediction on soil organic matter of different types using CARS algorithm. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(2): 105-113. (in Chinese)

[24] 李冠稳, 高小红, 肖能文, 肖云飞. 基于sCARS-RF算法的高光谱估算土壤有机质含量. 发光学报, 2019, 40(8): 1030-1039.

LI G W, GAO X H, XIAO N W, XIAO Y F. Estimation soil organic matter contents with hyperspectra based on sCARS and RF algorithms. Chinese Journal of Luminescence, 2019, 40(8): 1030-1039. (in Chinese)

[25] VOHLAND M, LUDWIN M, THIELE-BRUHN S, LUDWIG B. Determination of soil properties with visible to near-and mid-infrared spectroscopy: Effects of spectral variable selection. Geoderma, 2014, 223: 88-96.

[26] HONG Y, CHEN S, LIU Y, ZHANG Y, YU L, CHEN Y, LIU Y. Combination of fractional order derivative and memory-based learning algorithm to improve the estimation accuracy of soil organic matter by visible and near-infrared spectroscopy. Catena, 2019, 174: 104-116.

[27] VISCARRA ROSSEL R A, HICKS W S. Soil organic carbon and its fractions estimated by visible-near infrared transfer functions. European Journal of Soil Science, 2015, 66(3): 438-450.

[28] KAWAMURA K, TSUJIMOTO Y, RABENARIVO M, ASAI H, ANDRIAMANANJARA A, RAKOTOSON T. Vis-NIR spectroscopy and PLS regression with waveband selection for estimating the total C and N of paddy soils in Madagascar. Remote Sensing, 2017, 9(10): 1081.

[29] DOTTO A C, DALMOLIN R S D, TEN CATEN A, GRUNWALD S. A systematic study on the application of scatter-corrective and spectral-derivative preprocessing for multivariate prediction of soil organic carbon by Vis-NIR spectra. Geoderma, 2018, 314: 262-274.

[30] KUANG B, TEKIN Y, MOUAZEN A M. Comparison between artificial neural network and partial least squares for on-line visible and near infrared spectroscopy measurement of soil organic carbon, pH and clay content. Soil and Tillage Research, 2015, 146: 243-252.

[31] HONG Y, LIU Y, CHEN Y, LIU Y, YU L, LIU Y, CHENG H. Application of fractional-order derivative in the quantitative estimation of soil organic matter content through visible and near-infrared spectroscopy. Geoderma, 2019, 337: 758-769.

[32] 纪文君, 李曦, 李成学, 周银, 史舟. 基于全谱数据挖掘技术的土壤有机质高光谱预测建模研究. 光谱学与光谱分析, 2012, 32(9): 2393-2398.

JI W J, LI X, LI C X, ZHOU Y, SHI Z. Using different data mining algorithms to predict soil organic matter based on visible-near infrared spectroscopy. Spectroscopy and Spectral Analysis, 2012, 32(9): 2393-2398. (in Chinese)

[33] 郭熙, 谢碧裕, 叶英聪, 谢文. 高光谱特征辨别潴育型麻沙泥田和潮沙泥田水稻土. 农业工程学报, 2014, 30(21): 184-191.

GUO X, XIE B Y, YE Y C, XIE W. Discrimination between hydromorphic alluvial sandy mud paddy and tide sandy mud paddy based on hyperspectral characteristics. Transactions of the Chinese Society of Agricultural Engineering, 2014, 30(21): 184-191. (in Chinese)

[34] KAWAMURA K, NISHIGAKI T, TSUJIMOTO Y, ANDRIAMANANJARA A, RABENARIBO M, ASAI H, RAZAFIMBELO T. Exploring relevant wavelength regions for estimating soil total carbon contents of rice fields in Madagascar from Vis-NIR spectra with sequential application of backward interval PLS. Plant Production Science, 2021, 24(1): 1-14.

[35] Ji W, Shi Z, Huang J, Li S. Correction: In situ measurement of some soil properties in paddy soil using visible and near-infrared spectroscopy. PloSone, 2016, 11(7): e0159785.

[36] Shi T, Chen Y, Liu H, Wang J, Wu G. Soil organic carbon content estimation with laboratory-based visible–near-infrared reflectance spectroscopy: Feature selection. Applied Spectroscopy, 2014, 68(8): 831-837.

[37] Vohland M, Besold J, Hill J, Fründ H C. Comparing different multivariate calibration methods for the determination of soil organic carbon pools with visible to near infrared spectroscopy. Geoderma, 2011, 166(1): 198-205.

[38] Xu L, Hong Y, Wei Y, Guo L, Shi T, Liu Y, Chen Y. Estimation of organic carbon in anthropogenic soil by VIS-NIR spectroscopy: Effect of variable selection. Remote Sensing, 2020, 12(20): 3394.

[39] Hong Y, Chen Y, Yu L, Liu Y, Liu Y, Zhang Y, Cheng H. Combining fractional order derivative and spectral variable selection for organic matter estimation of homogeneous soil samples by VIS-NIR spectroscopy. Remote Sensing, 2018, 10(3): 479.

[40] Hong Y, Chen S, Chen Y, Linderman M, Mouazen A M, Liu Y, Liu Y. Comparing laboratory and airborne hyperspectral data for the estimation and mapping of topsoil organic carbon: Feature selection coupled with random forest. Soil and Tillage Research, 2020, 199: 104589.

[41] England J R, Viscarra Rossel R A. Proximal sensing for soil carbon accounting. Soil, 2018, 4(2): 101-122.

[42] Moura-Bueno J M, Dalmolin R S D, Ten Caten A, Dotto A C, Demattê J A. Stratification of a local VIS-NIR-SWIR spectral library by homogeneity criteria yields more accurate soil organic carbon predictions. Geoderma, 2019, 337: 565-581.

[43] Araújo S R, Wetterlind J, Demattê J A M, Stenberg B. Improving the prediction performance of a large tropical vis-NIR spectroscopic soil library from Brazil by clustering into smaller subsets or use of data mining calibration techniques. European Journal of Soil Science, 2014, 65(5): 718-729.

[44] Bao Y, Meng X, Ustin S, Wang X, Zhang X, Liu H, Tang H. Vis-SWIR spectral prediction model for soil organic matter with different grouping strategies. Catena, 2020, 195: 104703.

[45] Gholizadeh A, Rossel R A V, Saberioon M, Borůvka L, Kratina J, Pavlů L. National-scale spectroscopic assessment of soil organic carbon in forests of the Czech Republic. Geoderma, 2021, 385: 114832.

Prediction of Soil Organic Carbon Content in Jiangxi Province by Vis-NIR Spectroscopy Based on the CARS-BPNN Model

WU Jun1, GUO DaQian3, LI Guo2, 4, GUO Xi1, 2, ZHONG Liang1, ZHU Qing1, GUO JiaXin1, YE YingCong1

1College of Land Resources and Environment, Jiangxi Agricultural University/Key Laboratory of Poyang Lake Watershed Agricultural Resources and Ecology of Jiangxi Province, Nanchang 330045;2Ecological Restoration and Innovation Research Institute of Jiangxi Province, Nanchang 330045;3The National Land and Space Survey and Planning Research Institute of Jiangxi Province, Nanchang 330045;4912 Brigade, Geological Bureau of Jiangxi Province, Nanchang 330045

【Objective】 This study explored the roles of spectral variable selection and stratified calibration based on soil type in visible–near-infrared (Vis-NIR) spectroscopy for predicting soil organic carbon (SOC) content on a large spatial scale. 【Method】A total of 490 samples were collected in Jiangxi province (Southeast China) and used for modeling with partial least squares regression (PLSR), support vector machine (SVM), random forests (RF), and back-propagation neural network (BPNN). The competitive adaptive reweighted sampling (CARS) procedure was used to select the feature bands of different soil types and total samples (i.e., sum of red soils and paddy soils). The prediction accuracy of models incorporating full bands or feature bands was evaluated for the different soil types. Further, the prediction accuracy of these models based on their global and stratification calibration was compared for the total samples. 【Result】 (1) The feature bands of red soils were 484, 683-714, and 2 219-2 227 nm, while those of paddy soils were 484, 689-702, and 2 146-2 156 nm. The CARS-BPNN model showed the best prediction performance for red soils (validation set2= 0.82), being 0.07 higher than that of BPNN with full bands. The CARS-RF model also had the best prediction performance for paddy soils (validation set2= 0.83), being 0.13 higher than that of RF with full bands. (2) Based on the stratified calibration, the best prediction performance was obtained using the CARS-BPNN model (validation set2= 0.82), which was 0.06 higher than that of the model based on global calibration. 【Conclusion】 The CARS-BPNN model combined with stratified calibration based on soil type could accurately predict SOC content in the study area.

soil organic carbon; competitive adaptive reweighted sampling; stratified calibration; random forest; back propagation neural network

10.3864/j.issn.0578-1752.2022.19.005

2021-12-07;

2022-03-30

国家自然科学基金(42071068)

吴俊,E-mail:JuneWu6667@163.com。通信作者郭熙,E-mail:guoxi@jxau.edu.cn

(责任编辑 杨鑫浩)

猜你喜欢
波段光谱精度
基于不同快速星历的GAMIT解算精度分析
基于三维Saab变换的高光谱图像压缩方法
Ku波段高隔离度双极化微带阵列天线的设计
最佳波段组合的典型地物信息提取
基于3D-CNN的高光谱遥感图像分类算法
新型X波段多功能EPR谱仪的设计与性能
热连轧机组粗轧机精度控制
最佳波段选择的迁西县土地利用信息提取研究
以工匠精神凸显“中国精度”
苦味酸与牛血清蛋白相互作用的光谱研究