樊泳灼, 李新国
新疆师范大学地理科学与旅游学院 / 新疆干旱区湖泊环境与资源实验室,新疆 乌鲁木齐 830054
土壤电导率是土壤重要的理化性质之一,它包含了丰富的物理和化学信息(朱成立等,2017),现多采用测量土壤电导率来间接反映土壤盐分含量,该方法省时省力,已成为土壤含盐量监测的重要方法(Srivastava et al.,2017;张一清等,2023)。传统的土壤含盐量测定费时费力,而高光谱遥感技术可以快速、准确地获取盐分信息(田安红等,2019),在土壤盐渍化防治方面发挥重要作用(Jin et al.,2015;亚森江·喀哈尔等,2019 )。Heil等(2019)利用电磁感应法对土壤电导率进行现场测量,效果明显好于室内实验测量。光谱数据通过数学变换和特征筛选能有效提高模型精度,经一阶导数变换后能够消除部分线性或接近线性的噪声光谱从而提高模型的精度(张贤龙等,2018)。吴俊等(2022)采用CARS-BPNN 方法能够较好地预测江西省土壤有机碳含量,CARS 算法能够在一定程度通过降低训练样本的复杂度从而提升土壤SOC 的预测精度。王涛等(2019)利用去包络线结合连续投影算法(SPA,successive projection algorithm)可以更优的选择特征光谱,可以快速、准确的实现对土壤电导率的检测,SPA算法可以最大程度的消除共线性对模型的干扰。干旱区土壤电导率与土壤光谱之间存在着复杂的非线性关系(曹肖奕等,2020),BP 神经网络模型可以很好的解决土壤盐分监测中复杂的非线性函数逼近问题,提升对土壤电导率高光谱模型的定量估算精度(Farifteh et al.,2007;曹肖奕等,2020)。
目前大多数研究将区域土壤电导率作为一个整体进行电导率反演模型的构建与验证(王懂等,2022),且大多数研究多以对光谱数据进行数学变换后利用相关性筛选特征波段建模(孙亚楠等,2022),但利用竞争性自适应重加权采样(CARS,competitive adaptive reweighted sampling)、连续投影算法(SPA)和竞争性自适应重加权-连续投影算法(CARS-SPA, competitive adaptive reweighting sample- successive projection algorithm)3 种筛选特征波段算法对湖滨绿洲单一土地利用类型土壤电导率的高光谱估算缺乏深入研究,本文以新疆博斯腾湖湖滨绿洲耕地、林地、荒地的土壤电导率为研究对象,利用ASDFieldSpec3 地物光谱仪采集并分析350~2 500 nm 波长范围的光谱反射率,分别利用CARS、SPA、CARS-SPA 等3 种方法对耕地、林地、荒地及整体土地筛选特征波段构建BP神经网络模型分析,找出研究区不同土地利用类型土壤电导率估算的优选方法,以期为湖滨绿洲不同土地利用类型土壤电导率的光谱高效估算及方法选择提供参考。
博斯腾湖湖滨绿洲位于新疆焉耆盆地东南部博湖县(41°45ʹ~42°10ʹ N,86°15ʹ~86°55ʹ E),是典型的人工绿洲和自然绿洲混合的湖滨绿洲,面积约为1 360 km2(图1),多年平均降水量83.55 mm,年均温约8.0~8.6 ℃,光照充足,属于大陆性荒漠气候(赵慧等,2021a)。研究区耕地、林地的土壤类型主要是潮土、草甸土、棕漠土等,其成土母质分别为:河流搬运沉积物、冲积湖积物及砂砾质洪积物,荒地的土壤类型主要以盐土为主,其富含盐分的母质环境使研究区土壤盐渍化较为普遍(李志等,2018)。研究区土壤盐分平均含量为2.84 g/kg (李新国等,2012)。
图1 研究区位置及采样点分布Fig.1 Location of the study area and distribution of sampling sites
根据研究区土壤现状,在不同土地利用类型的区域,选取具有典型性、代表性样地,并均匀布设样点;每个样点按照每10 cm为一层,采集0~20 cm 层的土壤样品。耕地、林地、荒地的采样点个数分别为28、15、14 个(图1),共采集114 份土样。土壤采样时间为2021 年4 月13~17 日,野外数据采集时地表无植被覆盖,能最大限度减小植被对光谱的影响;采集时去除地表的植物根系及石块等杂质,利用GPS 记录样点经纬度并记录采样点周围环境,每个样点运用四分法选取约200 g土样装袋标号密封带回实验室,将样品进行自然风干、研磨并过2 mm 筛后封装为两部分,一部分用于土壤电导率的测定,另一部分用于高光谱测定(赵慧等,2021b)。土壤电导率测定按照5∶1 的水土浸提液比例进行配置,并测定浸提液25 ℃时的电导率(EC,单位为mS/cm)(亚森江·喀哈尔等,2019)。
使 用 ASDFieldSpec3 地 物 光 谱 仪(350~2 500 nm),于无风且晴朗天气测定采集的不同土地利用类型样品的高光谱数据,采样时间为北京时间12:00~14:00,每个样品的光谱曲线以对其采集的10 条光谱数据的平均值为准(牛芳鹏等,2021)。由于环境存在复杂的影响因素因素,将受噪声及水汽影响较大的1 250~1 450、1 700~1 950和2 401~2 500 nm 波段剔除(孙亚楠等,2022)。为提升光谱曲线信噪比,利用The Unscrambler 软件对光谱数据进行Savitzky-Golay(SG)滤波9 点平滑处理。Cloutis(1996)研究表明,对光谱数据进行低阶微分处理可有效减少噪声的干扰,因此再对SG平滑处理后数据进行一阶导数变换,最终保留1 698个波段参与后续特征波段筛选。
采用CARS、SPA、CARS-SPA等3种方法对耕地、林地、荒地、整体土地分别筛选特征变量构建模型,有效解决光谱信息量大、数据冗余等问题,以提高估算模型的精度和速度(唐海涛等,2021)。
CARS 算法的关键在于利用指数衰减函数(EDP,exponentially decreasing function)和自适应重加权采样法(ARS,sdaptive reweighted sampling)2 个步骤对关键变量进行选择,将蒙特卡罗采样次数设置为100,对采样次数反复迭代,并用蒙特卡罗交叉验证法筛选交叉验证均方根误差(RMSECV,root mean square error of cross-validation)最小的最优变量组合(Jin et al.,2015)。在一定程度上可以减少光谱数据冗余,提高模型的验证精度。
SPA算法是一种前向变量选择算法,可以从光谱数据中选择共线性最少的波段作为特征波段,在一定程度上压缩光谱数据数量,从而提高模型运行效率(牛芳鹏等,2021;赵慧等,2021b)。本次运用Matlab 软件进行波段筛选及模型的构建(唐海涛等,2021)。
CARS-SPA 算法是利用SPA 算法对CARS 筛选过后的特征变量进行二次筛选,可以进一步的优化变量结构,减少输入的特征波段数目,提高模型的运行效率和精度。
BP 神经网络属于多层神经网络,一般由输入层、隐层、输出层三层结构组成,在处理非线性问题上有较好的应用,也是目前土壤高光谱定量估算中应用较多的非线性模型(田安红等,2020)。
采集耕地、林地、荒地、整体土地总样本数分别为56、30、28 和114 个,采用浓度梯度法对土壤样本按照3∶1 比例划分训练集与验证集(肖云飞等,2020),将耕地、林地、荒地及整体土地的光谱数据通过CARS、SPA、CARS-SPA 等不同算法筛选的特征波长为自变量,土壤电导率含量为因变量,输入到BP 神经网络模型中进行估算。对模型的精度评价通常以决定系数(R2)、均方根误差(RMSE)、相对分析误差(RPD)来表示,其中
式中ym和ye分别表示土壤电导率的实测值和估算值,yˉ表示土壤电导率实测值的平均值;
式中n是样本数量;
式中SD 是验证集实测值的标准偏差,RMSEv为验证集的均方根误差。其中R2和RPD 越大,RMSE越小(赵慧等,2021a;唐海涛等,2021),则说明模型较为稳定,估算性能较好。当RPD<1.40 则说明模型估算性能较差;当1.40 ≤ RPD < 2.00则说明模型估算性能一般,只能粗略进行估算;当RPD≥2.00 时模型能较好的实现对土壤电导率含量的估算(亚森江·喀哈尔等,2019)。
由表1可知,对耕地、林地、荒地土壤电导率进行描述性统计分析,耕地、林地、荒地土壤电导率分别为0.02~2.22、0.07~24.70 和0.18~16.66 mS/cm,平均值分别为0.84、5.43 和5.78 mS/cm,林地和荒地的平均电导率明显大于耕地,变异系数分别为61.61%、115.41%、83.72%。当把耕地、林地、荒地作为整体进行分析时,土壤电导率含量在0.02~24.70 mS/cm 之间,平均值为3.26 mS/cm,相比耕地增加了2.42 mS/cm,相比林地和荒地减少了2.17 和2.52 mS/cm, 变异系数为142.31%,属于强变异性。
表1 土壤电导率描述性统计Table 1 Descriptive statistics of soil conductivity
分别对一阶求导变换后耕地、林地、荒地、整体土地的高光谱反射率通过CARS、SPA、CARS-SPA 等3 方法筛选特征波段,筛选结果如图2~5。由图可以看出,不同方法对3 种土地利用类型土壤电导率的高光谱反射率筛选特征波段结果存在差异。
图2 耕地的筛选特征变量结果Fig.2 Results of cultivated land of screening characteristic variables
图2(a)可以看出,利用CARS 方法筛选特征波段的过程中,筛选变量个数随着采样次数的增加逐渐减少至平缓,而RMSECV 的波动较大。红线所表示的采样次数为71 次时,RMSECV 值达到最小为0.31,由图2(d)可知,在RMSECV 最小时对应CARS 方法筛选的特征波段为14 个,该方法筛选后的特征波段占全波段的0.82%。采用浓度梯度法按照3∶1 比例划分耕地土壤电导率为42 个建模集和14个验证集并通过SPA方法进行计算,由图2(b)可知,筛选特征波段数目为11 时,RMSECV值达到最小为0.34,特征波段分布如图2(e)所示,特征波段数目占全波段的0.65%。CARS-SPA 方法筛选过程如图2(c)所示,当CARS-SPA 筛选后特征波段为12 个时,RMSECV 值达到最小为0.30,其选择的特征波段在全波段的位置图2(f)所示,特征波段数目占全波段的0.71%。
从图3(a)可知,利用CARS 方法筛选林地土壤电导率特征波段的过程中,采样次数为60 次时,RMSECV 值达到最小为1.77,由图3(d)可知,在RMSECV 最小时对应筛选的特征波段为31 个,该方法筛选后的特征波段占全波段的1.83%。利用浓度梯度法按照3∶1 比例划分成23个建模集和7 个验证集并通过SPA 方法进行计算,由图3(b)可知,筛选特征波段数目为10 个时,RMSECV 值达到最小为2.34,特征波段分布如图3(e)所示,特征波段数目占全波段的0.59%。CARS-SPA 方法筛选过 程 如图3(c)所示,当CARS-SPA 筛选后特征波段为10 个时,RMSECV 值达到最小为2.52,其选择的特征波段在全波段的位置如3(f)所示,特征波段数目占全波段的0.59%。
图3 林地的筛选特征变量结果Fig.3 Results of forest land of screening characteristic variables
由图4(a)可知,利用CARS方法筛选荒地土壤电导率特征波段的过程中,当采样次数为64次时,RMSECV 值 达 到 最 小 为2.56,由 图4(d)可 知,CARS 方法筛选的特征波段为23 个,该方法筛选后的特征波段占全波段的1.35%。利用浓度梯度法按照3∶1 比例划分成21 个建模集和7 个验证集并通过SPA 方法进行计算,由图4(b)可知,筛选特征波段数目为2 个时,RMSECV 值达到最小为1.31,特征波段分布如图4(e)所示,特征波段数目占全波段的0.12%。CARS-SPA 方法筛选变量过程见图4(c)。当CARS-SPA 筛选后特征波段为1 个时,RMSECV 值达到最小为1.91,其选择的特征波段在全波段的位置如4(f)所示,特征波段数目占全波段的0.06%。
图4 荒地的筛选特征变量结果Fig.4 Results of wasteland of screening characteristic variables
对整体土地的高光谱反射率进行CARS、SPA、CARS-SPA 等3 种方法筛选,特征波段结果如图5。图5(a)表示利用CARS 方法筛选特征波段的过程中,当采样次数为66 次时,RMSECV 值达到最小为3.04,由图5(d)可知,在RMSECV 最小时,对应CARS 方法筛选的特征波段为20 个,该方法筛选后的特征波段占全波段的1.18%。采用浓度梯度法按照3∶1比例划分成86个建模集和28个验证集并通过SPA 方法进行计算,由图5(b)可知,筛选特征波段数目为18 个时,RMSECV 值达到最小为3.81,特征波段分布如图5(e)所示,特征波段数目占全波段的1.06%。SPA 算法能有效的减少筛选的特征波段的数目,而CARS方法筛选特征波段虽然数量相较于全波段有所减少,但波段数目仍较多,模型运行效率慢,因此利用CARS-SPA方法进行筛选,过程如图5(c)所示,当CARS-SPA 筛选后特征波段为17 个时,RMSECV 值达到最小为3.69,其选择的特征波段在全波段的位置图5(f)所示,特征波段数目占全波段的1.00%。
图5 整体土地的筛选特征变量结果Fig.5 Results of Overall land of screening characteristic variables
利用CARS、SPA、CARS-SPA 等3 种方法筛选特征光谱并结合BP 神经网络构建土壤电导率估算模型。从表2 可知,一阶求导(FDR)后全波段建模R2比原始全波段建模R2分别提高了0.15、0.18、0.19、0.03,RPD 分 别 提 高 了0.10、0.21、0.21、0.03,进行一阶求导变换后建模精度明显提高。
表2 基于BP的土壤电导率高光谱估算模型的构建与验证1)Table 2 Construction and verification of soil conductivity hyperspectral estimation model based on BP
基于CARS、SPA、CARS-SPA等3 种方法筛选特征波段结合BP神经网络构建单一土地利用类型估算模型,耕地相较于全波段建模R2分别提升了0.34、0.42、0.43,RMSE降低了0.27、0.22、0.07 mS/cm,RPD提高了0.44、0.62、0.64。林地相较于全波段建模R2分别提升了0.18、0.17、0.24,RMSE 降低了0.55、2.22、2.80 mS/cm,RPD 提高了0.35、0.33、0.58。荒地相较于全波段建模R2分别提升了0.10、0.09、 0.19。 RMSE 在FDR-CARS-BP 和FDRCARS-SPA-BP 中减少了1.37 和1.49 mS/cm,在FDR-SPA-BP中增加了0.82,RPD分别提高了0.17、0.15、0.37。整体土地建模相较于全波段建模R2分别 提 升 了0.15、0.15、0.20,RMSE 降 低 了0.83、0.78、2.22 mS/cm。在耕地、林地、荒地、整体土地4 种类型下,模型精度较好的均为FDR-CARSSPA-BP模型,平均R2=0.68,RPD>1.70。
综合对比模型验证集可知,耕地、林地、荒地中FDR-CARS-BP 模型的平均R2相比整体土地模型由0.51提升到0.63,提高了0.12。耕地、林地、荒地的FDR-SPA-BP模型的平均R2=0.65,比整体模型R2的0.51 提高了0.14,单一土地利用类型的FDRCARS-SPA-BP模型的平均R2相比整体模型由0.56提升到0.71。因此,基于CARS、SPA、CARS-SPA等3种方法结合BP神经网络构建耕地、林地、荒地土壤电导率估算模型精度明显高于整体土地建模精度。
本文采用原位测定可以更真实的反映土壤情况,从而避免了室内土壤光谱测定实验所带来的局限性,这与陈红艳等(2018)研究发现一致。通过一阶求导变换后全波段建模与原始全波段进行对比,发现精度有所提升,对原始光谱反射率进行一阶求导变换能够使部分与土壤电导率相关性较好的光谱信息显露出来,从而提高模型的整体精度,这与Bannari et al.(2018)研究表明一阶导数变换能够增强950~2 500 nm 的光谱特征的结论基本一致。地理异质性是影响研究区土壤电导率估算模型精度的重要因素之一,本文中考虑了不同土地利用类型的差异,分别构建了单一土地利用类型的土壤电导率反演模型和整体模型,旨在探索地理异质性对模型精度的影响(亚森江·喀哈尔等,2019;孙亚楠等,2022)。土壤电导率与土壤高光谱数据之间存在着非线性关系,机器学习通常可以更好的解决土壤属性间的非线性问题,这与曹肖奕等(2020)研究结果基本一致。
单一土地利用类型土壤电导率估算模型精度高于整体土壤电导率建模精度,分析可能是采样时间在春季,林地、荒地相较于耕地土壤表层结皮程度高,有研究表明(Fan et al.,2015;Bannari et al.,2018)土壤表层盐分结皮程度高其反射率及光谱特征更高,通过不同方法筛选不同土地利用类型土壤电导率特征波段可以看出,耕地、林地、荒地的光谱响应的波段存在差异性,从而使得单一土地类型的土壤电导率估算模型相比整体建模来说优势更明显,本文中单一土地利用类型土壤电导率估算模型FDR-CARS-BP 平均R2相比整体模型由0.51 提升到0.63,提升了0.12。单一土地利用类型土壤电导率构建FDR-SPA-BP模型比整体模型平均R2由0.51 提升到0.65。基于CARS-SPA-BP 的单一土地利用类型土壤电导率估算模型的平均R2由0.56 提升到0.71,提升了0.15。基于CARS、SPA、CARS-SPA 三种方法结合BP 神经网络构建耕地、林地、荒地土壤的电导率估算模型精度明显高于整体土地建模精度,这与孙亚楠等(2022)研究耕地和盐荒地土壤盐分的结论基本一致。
与已有研究(亚森江·喀哈尔等,2019;赵慧等,2021c)相比,本文利用CARS、SPA、CARS-SPA 方法筛选最优波段用于建立土壤电导率的估算模型,以提高土壤电导率的建模精度,为土壤盐渍化的相关研究提供新的方法;本文筛选得出的特征波段可以为湖滨绿洲土壤电导率最优波段选择提供参考。但受限于区域差异性(彭杰等,2014),土壤电导率变化除了与土地利用方式有关,可能还与成土母质及土壤类型等有关,本文确定的土壤电导率最优建模方法具有一定的局限性。在后续研究工作中,针对不同土地利用类型土地土壤电导率的估算机理有待于进一步探讨。
1)耕地、林地、荒地、整体土地土壤电导率均值分别为0.84、5.43、5.78和3.26 mS/cm。
2)通过CARS、SPA、CARS-SPA 三种方法筛选特征波段输入模型能有效提高模型运行效率。CARS-SPA 方法是对CARS 筛选后的波段利用SPA进行二次筛选,能有效减少筛选波段数据,得到耕地、林地、荒地、整体土地特征波段数据仅占全波段的0.71%、0.59%、0.06%、1.00%。
3)对耕地、林地、荒地的土壤电导率构建的单独估算模型明显提高了研究区土壤电导率的估算精度,在FDR-CARS-BP、FDR-SPA-BP、FDRCARS-SPA-BP 三种模型中,耕地、林地、荒地土壤电导率估算模型平均R2相比整体土地建模分别提 高 了0.12、0.14、0.15,FDR-CARS-SPA-BP 模型为研究区土壤电导率高光谱估算最优模型。