湖滨绿洲棕漠土有机碳含量高光谱估算

2023-11-25 06:58樊泳灼李新国
江苏农业学报 2023年6期
关键词:波段光谱建模

樊泳灼, 李新国

(1.新疆师范大学地理科学与旅游学院,新疆 乌鲁木齐 830054;2.新疆干旱区湖泊环境与资源实验室,新疆 乌鲁木齐 830054)

土壤有机碳含量是耕地质量、土地生产力水平的重要指标[1-2]。湖滨绿洲是干旱区发展农业的重要区域,干旱区绿洲土壤有机碳在全球生态环境及碳循环方面有重要作用,对绿洲农业的发展有重要意义[3-4]。传统的土壤有机碳含量测定方法是人工取样后进行实验室分析,费时费力且效率低下。近年来,随着高光谱技术的发展,利用波长为350~2 500 nm的高光谱数据进行土壤有机碳含量准确高效监测已成为农业遥感的新热点[5-7]。

虽然高光谱数据丰富,但同时亦带来了大量的冗余信息。因此,利用高光谱数据进行土壤属性监测的一个重要环节是特征光谱的筛选[8],即通过筛选对土壤属性敏感的特征波段可有效减少光谱数据冗余,提高估算模型精度和运行效率。吴俊等[6]通过竞争性自适应重加权采样(CARS)算法筛选特征波段,再利用偏最小二乘回归(PLSR)、支持向量机(SVM)、随机森林(RF)、反向传播神经网络(BPNN)等模型对江西省土壤有机碳含量进行了估算。唐海涛等[9]利用CARS算法筛选特征波段并结合随机森林(RF)算法建立不同类型土壤有机质含量估算模型。章海亮等[10]利用连续投影(SPA)算法筛选特征波段,并结合遗传算法实现了土壤有机质的监测。Wang等[11]利用SPA算法提取特征波段并结合偏最小二乘回归模型(PLSR)实现了黄灌区盐碱地土壤含盐量的估算,有效提高了估算值的决定系数(R2)和相对分析误差(RPD)。Liu等[12]利用 CARS 方法筛选特征波段结合非线性模型RF估算靖边县土壤有机质含量,估算精度较全波段建模取得了一定的提升。上述研究结果表明利用不同方法筛选特征波段输入估算模型可以较好地减少数据冗余,优化模型结构,提高模型的运行效率。另外,模型的选择也会影响土壤有机碳含量的估算精度。吴俊等[6]利用高光谱估算江西省土壤有机碳含量的研究结果表明非线性模型RF相较于线性模型PLSR建模精度更高。Cheng等[13]基于CARS算法筛选的特征波段比较了极限学习机(ELM)、BP神经网络(BPNN)、支持向量机回归(SVMR)和偏最小二乘回归(PLSR)等模型估算土壤全氮含量的差异,结果表明利用ELM模型能获得更好的精度。综合上述研究结果,特征光谱的筛选和估算模型的选择均会影响估算模型的精度和效率,且不同的土壤类型、监测的土壤属性指标也会影响到特征光谱的筛选方案和估算模型的选择。目前基于CARS、SPA、CARS-SPA算法进行特征光谱的筛选及利用非线性模型RF进行干旱区湖滨绿洲棕漠土有机碳含量的估算研究还鲜有报道。

本研究以新疆博斯腾湖湖滨绿洲棕漠土为研究对象,利用ASD FieldSpec3地物光谱仪采集棕漠土350~2 500 nm波长范围的光谱反射率,以CARS、SPA和CARS-SPA 3种算法筛选土壤有机碳含量的特征波段,并利用随机森林模型(RF)进行模型构建,实现棕漠土有机碳含量的估算,为区域棕漠土有机碳含量的高效监测提供参考。

1 材料与方法

1.1 研究区概况

博斯腾湖湖滨绿洲地处新疆焉耆盆地,隶属于新疆博湖县[14-15],位于41°45′~42°10′N,86°20′~86°50′E(图1)。博斯腾湖湖滨绿洲是典型的人工绿洲和自然绿洲混合的湖滨绿洲,面积约为1 360.0 km2,年平均降水量约83.6 mm,年平均气温约8.0~8.6 ℃,光照充足,属于大陆性荒漠气候[14-15]。棕漠土是博斯腾湖湖滨绿洲的重要耕作土壤,占研究区土壤总面积的90%以上[14-15]。

图1 研究区位置及采样地分布

1.2 棕漠土样品采集与处理

根据研究区的地形、植被及土地利用类型等因素,结合研究区的土壤调查现状,2019年7月在常年耕作的棕漠土地块上选取10个代表性样地按照“S”型布设样点并采集0~10.0 cm、10.1~20.0 cm、20.1~30.0 cm、30.1~40.0 cm、40.1~50.0 cm土层的土壤样品,采样时去除地表的植物根系及石块等杂质,利用GPS记录样点经纬度并记录采样点周围环境,每个样点运用四分法选取约200 g土样装袋标号密封带回实验室,共采集50份棕漠土样品。将棕漠土样品进行自然风干、研磨并过2 mm筛后封装为2部分,一部分利用重铬酸钾容量法测定土壤有机碳含量,另一部分用于高光谱测定[9,14]。采用浓度梯度法对土壤样本按照3∶1比例划分训练集与验证集[16],50份土壤样品,将37份土壤样品作为训练集用于建模,13份土壤样品作为验证集用于模型验证。

1.3 光谱数据采集及预处理

使用ASD FieldSpec3地物光谱仪(美国ASD公司产品)选择晴朗无风天气于室外测定棕漠土样品的高光谱数据,测定时间为北京时间12:00-14:00,每个样品采集10条光谱数据以平均值为该样品的最终光谱数据。剔除信噪比较低的2 430~2 500 nm波段及受水汽影响较大的1 300~1 450 nm波段和1 800~1 950 nm波段[14]。为提升光谱曲线信噪比,利用The Unscrambler软件对光谱数据进行Savitzky-Golay(SG)滤波处理[6]。考虑到低阶微分处理光谱数据可有效减少噪声的干扰[17],因此再对SG滤波处理后数据进行一阶微分变换,进而进行特征波段的筛选。

1.4 棕漠土有机碳含量特征光谱筛选

本研究采用竞争性自适应重加权采样算法(CARS)、连续投影算法(SPA)、竞争性自适应重加权采样-连续投影算法(CARS-SPA)3种算法筛选棕漠土有机碳含量特征光谱。研究中基于预处理后光谱数据及有机碳含量数据,采用MATLAB软件结合CARS、SPA、CARS-SPA等算法进行特征波段筛选[6,9]。

1.4.1 竞争性自适应重加权采样算法(CARS) CARS是一种结合蒙特卡洛采样与偏最小二乘回归(PLSR)的特征变量选择方法,其关键在于利用指数衰减函数(Exponentially decreasing function)和自适应重加权采样法(Adaptive reweighted sampling)两步骤对关键变量进行选择。研究中,设置蒙特卡洛采样次数为100,通过对不同波段组合的反复迭代,利用蒙特卡洛交叉验证法筛选出交互验证均方根误差(RMSECV)最小的波段组合,即为最优波段组合[6]。

1.4.2 连续投影算法(SPA) SPA是一种矢量空间共线性最小化的前向变量选择算法,使用SPA算法可以压缩光谱数据的数量,通过不断的计算筛选出均方根误差(RMSE)最小的最优波段组合作为最后结果输出,其在一定程度上可以消除光谱多重共线性和重叠干扰,从而提高模型的验证效率与精度[14]。

1.4.3 CARS-SPA算法 CARS-SPA算法是利用SPA算法对CARS算法筛选后的特征波段进行二次筛选优化,可以有效减少模型输入的特征波段数目,减少数据冗余,提高模型的运行效率和精度。

1.5 模型构建及精度验证

随机森林是一种基于决策树的集成算法,其中每一棵决策树都是从建模集中有放回的随机取样构建的,最终估算结果由多数表决原则来决定,在进行拟合前,需要调节的参数为决策树数量[18-19]。

分别以原始全波段、预处理后全波段及CARS、SPA、CARS-SPA 3种算法筛选的特征波段为自变量,棕漠土土壤有机碳含量为因变量,输入随机森林模型中进行估算,棕漠土有机碳含量估算模型构建流程如图2所示。研究中用决定系数(R2)、均方根误差(RMSE)及相对分析误差(RPD)3个指标进行模拟精度评价。其中,决定系数(R2)和相对分析误差(RPD)越大,均方根误差(RMSE)越小[19],说明模型较为稳定,估算性能较好。当RPD<1.40时,说明模型估算性能较差;当1.40≤RPD<2.00时,模型估算性能一般;当RPD≥2.00 时,模型模拟性能较好[5]。

图2 棕漠土有机碳含量高光谱估算流程图

(1)

(2)

(3)

2 结果与分析

2.1 棕漠土有机碳含量描述统计特征

棕漠土不同样本集有机碳含量的统计特征如表1所示。从表1可以看出,研究区棕漠土0~50.0 cm土层的有机碳含量总体变化范围在1.40~40.92 g/kg,平均值为14.20 g/kg,标准差为7.89 g/kg。建模集和验证集的平均值分别为15.16 g/kg、11.49 g/kg,总样本集、建模集及验证集土壤有机碳含量变异系数分别为55.54%、53.32%、59.89%,均处于中等变异水平,这表明研究区内棕漠土有机碳含量具有一定的空间变异性,数据比较离散,这一特征有利于监测技术的开展[20-21]。

表1 不同数据集棕漠土有机碳含量统计特征

2.2 棕漠土有机碳含量估算特征波段筛选

SG滤波及其一阶微分变换处理后的光谱曲线如图3所示。从图3A可知,SG滤波后的棕漠土光谱曲线整体变化趋势基本一致,在 350~1 950 nm波段,光谱反射率随波长升高而增强,在2 200 nm波段之后反射率逐渐减弱,在可见光波段光谱曲线上升速度较快,在短波近红外及部分长波近红外波段上升相对缓慢。图3B是对SG滤波后的光谱曲线进行一阶微分处理,可有效减少噪声干扰。

A:SG滤波后的棕漠土光谱曲线;B:一阶微分变换处理SG滤波后的棕漠土光谱曲线。

全波段经过CARS、SPA、CARS-SPA 3种算法选择特征波段过程及结果如图4所示,从图4中可以看出不同算法筛选特征波段结果存在差异。在CARS算法筛选特征波段的过程中,随着运行次数的增加,筛选出的波段数量呈指数衰减趋势,即早期快速衰减,后期变化平缓,而RMSECV波动较大,当运行次数为40时,RMSECV达到最小值(3.47 g/kg)(图4A)。由图4B可知,在RMSECV最小时,CARS算法筛选的特征波段为122个。利用SPA算法进行特征波段筛选时,随着变量(波段)数量的增加,交叉检验均方根误差总体呈减少趋势。当筛选出11个特征波段时,RMSECV值达到最小值(2.63 g/kg)(图4C),筛选出的特征波段分布如图4D所示。与CARS算法相比,SPA算法更能有效地减少筛选出的特征波段数量,即CARS算法虽然能有效减少特征波段数量,但其筛选出的特征波段数量仍较多,这势必会影响下一步的估算效率。因此,在CARS算法筛选出特征波段基础上,进一步利用SPA算法进行再次筛选。与SPA算法相似,随着特征波段数量的增加,CARS-SPA算法的交叉检验均方根误差总体呈减少趋势,当筛选出10个特征波段时,RMSECV值达到最小值(2.96 g/kg)(图4E)。筛选出的特征波段分布如图4F所示。对比图4D和图4F,可以看出,SPA算法与CARS-SPA算法得到的特征波段数量虽然比较接近,但其对应的波段却有较大差异。

A:CARS算法筛选特征波段;B:CARS算法筛选的特征波段分布;C:SPA算法筛选特征波段;D:SPA算法筛选的特征波段分布;E:CARS-SPA算法筛选特征波段;F:CARS-SPA算法筛选的特征波段分布。

2.3 模型建立与检验

基于不同数据集输入RF模型进行建模,得到的训练集回代检验结果和验证集检验结果分别如图5和图6所示。利用原始全波段数据建模,训练集回代检验的R2和RMSE分别为0.59和5.06 g/kg(图5A),而利用一阶微分变换预处理后的全波段光谱数据进行建模后,训练集回代检验的R2和RMSE分别为0.79和3.50 g/kg(图5B),模型精度有所提升。利用CARS、SPA、CARS-SPA 3种算法筛选的特征波段后,输入RF模型进行建模,训练集的回代检验结果如图5C、图5D、图5E所示。相比于预处理后的全波段数据建模,R2分别提高了0.11、0.10、0.11,RMSE分别降低了1.01 g/kg、0.87 g/kg、1.01g/kg。

R-ALL-RF:原始全波段数据输入随机森林模型;FD-ALL-RF:原始全波段数据经一阶微分变换预处理后输入随机森林模型;CARS-RF:竞争性自适应重加权采样算法筛选后的特征波段数据输入随机森林模型;SPA-RF:连续投影算法筛选后的特征波段数据输入随机森林模型;CARS-SPA-RF:竞争性自适应重加权采样算法筛选后的特征波段数据再经连续投影算法筛选后输入随机森林模型。

R-ALL-RF:原始全波段数据输入随机森林模型;FD-ALL-RF:原始全波段数据经一阶微分变换预处理后输入随机森林模型;CARS-RF:竞争性自适应重加权采样算法筛选后的特征波段数据输入随机森林模型;SPA-RF:连续投影算法筛选后的特征波段数据输入随机森林模型;CARS-SPA-RF:竞争性自适应重加权采样算法筛选后的特征波段数据再经连续投影算法筛选后输入随机森林模型。

利用原始全波段光谱数据建模,验证集检验的R2、RMSE和RPD分别为0.45、5.51g/kg和1.35(图6A)。由于RPD小于1.4,故构建的模型对棕漠土有机碳含量估算效果较差,棕漠土有机碳含量的实测值和估算值在1∶1线附近较为分散。利用一阶微分变换后的光谱数据进行建模后,验证集检验的R2、RMSE和RPD分别为0.63、4.84 g/kg和1.65(图6B)。这说明光谱经过低阶微分处理后不仅能降低噪声干扰更能凸显光谱特征,从而提升模型估算精度[17]。利用CARS算法筛选得到的特征波段数据进行建模,验证集检验的R2、RMSE和RPD分别为0.75、3.53g/kg和1.99(图6C)。由于RPD小于2.00,说明模型对研究区棕漠土有机碳含量的估算效果一般。而基于SPA算法和CARS-SPA算法筛选得到的特征光谱数据建模,验证集检验的R2分别为0.82和0.85,RMSE分别为3.07g/kg和2.72g/kg,RPD分别为2.34和2.59(图6D,图6E)。由于通过这2种特征波段筛选算法,RPD均大于2,表明这2种算法筛选的波段输入RF模型均能较好地估算棕漠土有机碳含量。对比两者的检验指标,利用CARS-SPA算法筛选的特征波段构建RF模型的效果最优。

3 讨论

目前已有研究结果表明进行室内土壤光谱测定可以降低周围环境对光谱数据影响,但不能模拟采样的室外自然环境,存在一定局限性[22]。本研究选择在室外进行棕漠土光谱测定,可以更大程度模拟野外采样的自然环境,实现对光谱数据的有效测定[23]。光谱数据经过低阶微分处理以后,可有效降低噪声的干扰[17]。本研究利用全波段原始光谱数据建模后,验证集检验的决定系数R2和RPD分别为0.45和1.35,而利用一阶微分预处理后的全波段光谱数据后,分别提升为0.63和1.65,模型的估算精度有了很大提升,这与张娟娟等[20]、牛芳鹏等[14]研究结果基本一致。棕漠土的光谱曲线除水分吸收峰及噪声影响外,整体趋势较为平缓,这与砂姜黑土[20]及砂壤潮土[7]的光谱曲线趋势大致相同。CARS、SPA、CARS-SPA 3种算法筛选出的棕漠土特征波段数分别是122个、11个、10个,即上述算法均能有效地降低有机碳估算模型的输入波段数目,提高模型的运行速率,这一结论与钟翔君等[7]、牛芳鹏等[14]、唐海涛等[9]研究结果基本一致。通过不同筛选算法筛选出的特征波段存在一定的差异,即不同算法筛选出的特征波段具有一定的不确定性。基于CARS算法筛选出的特征波段分布较为分散,在1 100~2 500 nm,主要是受到羰基、酰胺和羟基等基团分子振动的倍频与合频吸收影响[9];1 000 nm以下存在少量的特征波段,这可能是因为CARS采用交叉验证筛选出的特征波段为RMSECV较小的最优波段集而非相关性高的波段集。利用SPA对CARS筛选出的特征波段再次筛选后,筛选出的特征波段主要集中在近红外波段760~2 500 nm,这与钟翔君等[7]为预测砂壤潮土有机质含量,利用CARS-SPA算法筛选出的特征波段分布结果有所差异,这可能是土壤类型不同导致的。现有研究结果表明,使用非线性模型能取得更好的估算效果[6,9],本研究利用CARS-SPA算法筛选的特征波段结合非线性的随机森林模型,验证集检验的R2、RPD分别达到0.85和2.59,取得了较好的估算效果,即本研究筛选的特征波段及模型构建方法适用于基于高光谱的湖滨绿洲棕漠土有机碳含量估算。

4 结论

(1)博斯腾湖湖滨绿洲棕漠土0~50.0 cm土层有机碳含量变化范围为1.40~40.92 g/kg,平均值为14.20g/kg,标准差7.89 g/kg,变异系数为55.54%,整体呈现中等变异水平。

(2)CARS、SPA、CARS-SPA 3种算法筛选出的特征波段数及分布有较大差异,基于CARS-SPA算法筛选出的特征波段主要集中在近红外波段760~2 500 nm,且数目更少。

(3)基于CARS-SPA算法筛选出的特征波段构建的RF模型在估算棕漠土有机碳含量时效果最好,验证集R2为0.85,RMSE为2.72 g/kg,RPD为2.59。即利用该算法筛选特征变量可以减少冗余波段数据的干扰,提高模型估算精度和运行效率,实现研究区棕漠土有机碳含量的有效估算。

猜你喜欢
波段光谱建模
基于三维Saab变换的高光谱图像压缩方法
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
M87的多波段辐射过程及其能谱拟合
星载近红外高光谱CO2遥感进展
日常维护对L 波段雷达的重要性
基于SPOT影像的最佳波段组合选取研究
苦味酸与牛血清蛋白相互作用的光谱研究
三元组辐射场的建模与仿真