重庆市南川区土壤锰元素遥感反演

2024-01-12 05:54:32刘振华

光谱学与光谱分析 2024年1期

徐天,李敬,刘振华*

1. 华南农业大学资源环境学院,广东广州 510000 2. 广东省土地信息工程技术研究中心,广东广州 510000

引言

锰是植物、动物和人体不可缺少的微量营养元素,在生物化学过程中起着十分重要的作用。但锰的浓度过高将导致环境污染,影响植物的生长发育,使得作物产量减少,农产品质量下降,威胁生物多样性,人体长期接触高浓度锰则会出现组织损伤和锰中毒症状[1]。传统的土壤锰含量监测方法是田间调查、定点监测、室内样品实验分析。尽管该方法在监测点上可获得精确的土壤锰含量信息,但需要大量的人力、财力和物力,效率低。且就区域尺度而言,因受监测点网格和插值方法影响,非监测点的精度不高。随着遥感技术的发展,已有学者利用遥感技术监测土壤锰含量。目前基于遥感技术的土壤锰含量监测方法主要集中于利用土壤光谱指标反演土壤锰含量,可分为两方面: 一是利用高光谱技术反演土壤锰含量,二是利用多光谱遥感技术反演土壤锰含量。用高光谱技术反演土壤锰含量是基于土壤高光谱数据,获取土壤锰的光谱响应指标,构建光谱响应指标与土壤锰之间的关联模型,反演土壤锰含量。如: 潘勇等利用地物光谱仪采集矿区土壤光谱谱数据,并经主成分分析法降维后结合不同的建模方法对土壤锰元素进行分级与评价,结果表明模型预测效果良好[2]。 Pandit等通过探索土壤锰与反射光谱之间的响应关系,建立了基于偏最小二乘法的土壤锰反演模型并得到了较高的预测精度[3]。田烨等基于大量野外实测土壤光谱数据,探讨了不同光谱变换方法和预测模型对土壤锰含量反演的影响,并进一步探索了利用模拟卫星传感器反射率反演土壤锰含量的可行性,取得了较为理想的效果。

利用多光谱遥感技术反演土壤锰含量是基于多光谱影像,获取土壤锰的光谱响应指标,构建光谱响应指标与土壤锰含量之间的关联模型,反演土壤锰含量。如: 梁远玲等利用实测高光谱模拟Landsat8影像进行反演土壤锰含量的反演,应用最优模型得到的反演结果较实测插值结果的空间分布更为细致,但是反演结果只能反映基本的区域土壤锰含量的分布情况。袁涛等利用World View-3多光谱影像数据中提取的单波段反射率与裸地的土壤样点实测重金属含量建立回归模型,在裸地的建模结果中模型精度均较差,模型误差指数较高,无法进行高质量的区域土壤锰含量反演。

尽管基于遥感技术的土壤锰含量的监测研究取得了很大进展,但现有研究仅利用土壤光谱反演求取土壤锰元素含量,然而由于土壤组分的复杂性,信号干扰大,造成土壤锰的光谱响应指标获取困难,难以获取精准反演土壤锰的模型,鉴于土壤中微量元素直接影响植被的长势,导致植被光谱的变化,因此从植被光谱角度出发,探讨植被光谱与土壤锰之间的关联性,构建土壤锰含量反演模型,实现区域尺度的土壤锰含量反演。

1 实验部分

1.1 研究区概况

研究区位于重庆市南川区(东经106°54′—107°27′,北纬28°46′—29°30′),幅员面积2 602 km2,境内属亚热带湿润季风气候,气候温和,雨量充沛,既无严寒,又无酷暑,四季分明,霜雪稀少,无霜期,热量丰富,年均气温16.6 ℃。南川区境内多山,地形以山地为主,地势呈东南向西北倾斜,最高点金佛山风吹岭海拔2 251 m,最低点骑龙鱼跳岩海拔340 m。重庆市南川区主要土壤类型为紫色土、黄壤和石灰(岩)土,有机质含量低,磷、钾丰富,石灰(岩)土质地粘重,偏碱性,土壤阳离子交换量和盐基饱和度均高。

1.2 数据及预处理

基于重庆地理数据库随机选取694个样点,用梅花五点采样法采集土样,均匀混合后作为该点的土壤样品,提取样点的土壤锰含量数据,土壤锰含量区间为20～4 462 mg·kg-1。此外,在几何校正后的Landsat影像上,提取锰含量有关的光谱数据,获取样点的植被指数。选取其中的555个样点数据进行建模与测试,用随机抽样法按3: 1的比例对样点划分了建模集[图1(a)绿点]和测试集[图1(b)黄点]。为了验证基于植被光谱响应指标的土壤锰含量制图精度,将剩余的139个样点作为制图精度验证点[图1(c)红点]。

图1 研究区及样本点分布Fig.1 Study area and sampling distribution

影像数据来源于地理空间数据云(https: //www.gscloud.cn)的Landsat8 OLI影像。 Landsat-8卫星上携带两个传感器,分别是OLI陆地成像仪(Operational Land Imager)和TIRS热红外传感器(Thermal Infrared Sensor),卫星一共有11个波段,波段1～7,9～11的空间分辨率为30 m,波段8为15 m分辨率的全色波段,成像宽幅为185 km×185 km。本研究获取的数据成像时间为2019年8月13日,云量为0.09%,影像质量较高,符合使用要求,为消除传感器和大气影响,利用ENVI 5.3软件对Landsat8影像进行辐射定标和大气校正等预处理。此外,土地覆盖数据来源于GlobeLand30(http://www.globallandcover.com/)。

利用Origin软件对694个土壤样点中土壤锰含量和植被样点进行描述性分析,包括样点数据的取值范围、平均值、标准差和平均绝对偏差等能够反映数据基本情况的各项指标,结果如表1。

表1 土壤锰含量及植被样点描述性统计Table 1 Descriptive statistics of soil Mn content and vegetation sampling sites

1.3 方法

1.3.1 植被光谱指标的筛选

土壤中锰含量过少,植被叶绿体结构将受到破坏,叶绿素含量随之下降,将会导致叶片灰绿色或出现斑点等[4]。锰含量过高将阻碍植物对铁、钙、钼的吸收,经常出现缺钼症状。叶片出现褐色斑点,叶缘白化或变紫,幼叶卷曲等。大量研究表明植被光谱指标能够表征植被生长健康状况[5]。因此选用了11个植被光谱指标,其计算公式分别如下:

增强植被指数(enhanced vegetation index,EVI)

2.5×(B5-B4)/(B5+6B4-7.5B2-1)

(1)

比值植被指数(ratio vegetation index,RVI)[6]

B5/B4

(2)

绿度总和指数(sum green index,SG)

B5/B3

(3)

三角植被指数(triangular vegetation index,TVI)[7]

60×(B5-B3)-100×(B4-B3)

(4)

可见光大气阻抗植被指数(visible atmospherically resistant index green,VARI)[6]

(B3-B4)/(B3+B4-B2)

(5)

归一化植被指数(normailized difference vegetation index,NDVI)[8]

(B5-B4)/(B5+B4)

(6)

绿度归一化植被指数(green NDVI,GNDVI)[9]

(B5-B3)/(B5+B3)

(7)

蓝度归一化植被指数(blue NDVI,BNDVI)

(B5-B2)/(B5+B2)

(8)

蓝-绿通道归一化植被指数(green-blue NDVI)[10]

(B5-B3-B2)/(B5+B3+B2)

(9)

红-绿归一化植被指数(green-red NDVI)[11]

(B5-B3-B4)/(B5+B3+B4)

(10)

叶绿素指数(modified chlorophyll reflectance index Green,mCRIG)[12]

[(B2)-1-(B3)-1]×B5

(11)

式中B2,B3,B4,B5分别为蓝波段、绿波段、红波段和近红外波段反射率。

为了获取最优植被光谱响应指标,利用皮尔逊相关系数对11个植被指数进行筛选,皮尔逊相关系数表达式如式(12)

(12)

1.3.2 土壤锰含量最佳反演模型的筛选

为了获取土壤锰含量最佳反演模型,基于最佳植被光谱响应指标,利用偏最小二乘法(partial least-squares regression,PLSR)、多元逐步回归(multiple stepwise regression,MSR)和BP神经网络(back propagation neural network,BPNN)构建植被光谱响应指标和土壤锰元素之间的关系模型,比较分析三个模型的精度,确定最佳反演模型。

(1)偏最小二乘法

偏最小二乘回归(PLSR)综合了典型相关分析、多元线性回归和主成分分析三种方法,可以用于解决很多普通多元回归无法解决的问题,具有计算简便、预测能力强、模型稳健等特点[14]。该方法的最简形式是用线性模型来描述预测变量x和独立变量y的关系,如式(13)所示。

Y=Xβ+ε

(13)

式(13)中,Y为经过归一化的因变量(土壤锰含量);X为经过归一化处理的自变量(最佳植被光谱指标);β为系数矩阵;ε为残差矩阵。

(2)多元逐步回归

多元逐步回归(MSR)是回归分析中一种筛选变量的过程,结合了前向选择和后向剔除的优点,其本质是建立反映变量之间变化关系的最优多元回归模型。采用逐步回归法来建立植被指数与土壤锰元素含量的统计回归模型[15]。回归方程如式(14)

Y=b0+b1x1+b2x2+…+bpxp+ε

(14)

式(14)中,Y为经过归一化的因变量(土壤锰含量);Xp为经过归一化处理的自变量(最佳植被光谱指标);b0为截距;bi为回归系数;ε为误差项。

(3)BP神经网络

BP神经网络是一种由输入层(input layer)、隐含层(hide layer)和输出层(output) 构成的前馈式误差反向传播神经网络,该网络的特点是神经信号向前传递,误差沿着网络反向传播,该网络包含了神经网络的精髓内容,可以实现由任意的m维到n维的映射关系。 BP算法的中心思想是调整权值使网络总误差最小,通过把学习的结果反馈到中间层次的隐含层单元,改变它们的权系数矩阵,从而达到预期的学习目的[16]。典型的BP神经网络结构如图2。

图2 典型BP神经网络结构图Fig.2 Typical BP neural network structure

1.3.3 精度验证

参考现有的土壤属性含量光谱估算的评价标准,采用均方根误差(RMSE)、相对分析误差(RPD)和决定系数(R2)3个评价指标评估模型反演效果[17-18]。决定系数R2用于检验回归方程对样本预测值的拟合程度[式(15)],RMSE用于对模型的稳定性进行评价[式(16)],RPD能够反映回归模型的可靠性[式(17)、式(18)]。

(15)

(16)

(17)

(18)

2 结果与讨论

2.1 土壤锰的最佳光谱响应指标

利用Landsat8数据,按照表1中的公式获取11种植被光谱响应指标(RVI、 GVI、 mCRIG、 GBNDVI、 GRNDVI、 GNDVI、 BNDVI、 NDVI、 VARI、 EVI、 TVI),结果如图3。

图3 植被光谱指标Fig.3 Vegetation spectral indices

利用IBM SPSS Statistics26对南川区森林覆盖区域进行土壤锰和11种植被光谱响应指标的相关性分析,结果如图4所示,选取相关性大于0.5且相关性显著的植被光谱响应指标进行多重共线性诊断。获得3个与土壤锰元素有较高相关性且VIF均小于10的植被光谱响应指标(如表2)。因此,本文选取RVI、 GRNDVI和VARI为最佳光谱响应指标。

表2 最佳植被光谱响应指标Table 2 Best vegetation spectral response index

图4 土壤锰与植被光谱指标相关性Fig.4 Correlation between soil manganese and vegetation spectral indexes

2.2 土壤锰最佳反演模型

将最佳植被光谱响应指标作为自变量,南川区土壤锰含量作为因变量,利用PLSR、 MSR和BP神经网络构建两者的关系模型。基于PLSR的锰含量反演模型为:y=282.69+419.07RVI-5263.27GRNDVI-752.27VARI(R2=0.66),结果如图5(a)。基于MSR的锰含量反演模型为:y=272.776+417.174RVI-5216.026GRNDVI-748.28VARI(R2=0.66),结果如图5(b)。基于BPNN的锰含量反演模型中设置了3个隐含层和10个神经元节点网络迭代次数设置为2 000,学习率为0.01,学习目标为0.01; 输入层设置共3个,包括GRNDVI、 RVI和VARI; 输出层为土壤锰含量,这里设为1; 模型的建立和运行在MATLAB R2019a上完成,结果如图5(c)。

图5 建模集实测值与估测值散点图Fig.5 Scatter plots of measured and estimated values of modeling set

由图5可知,PLSR模型和SMR模型的建模结果较为相近,在土壤锰含量0～1 500 mg·kg-1区间具有较好的拟合能力,预测点能够较为均匀分布在1∶1线,而对于锰含量1 500以上的预测偏差值较大。 BPNN模型相对于前两种模型拟合程度更高,预测效果最优,在土壤锰含量0～4 000 mg·kg-1区间都具有较好的拟合能力。

三种模型的测试精度如图6所示。在测试过程中,PLSR模型和MSR模型在土壤锰含量0～1 500 mg·kg-1区间具有较好的拟合能力,预测点能够较为均匀分布在1∶1线,而对于锰含量1 500以上的预测偏差值较大。总体而言,基于BPNN模型所建立的反演模型表现出最优的预测效果,BPNN模拟的重金属含量与实测值比较更接近于1∶1直线。其中,BPNN模型建模的R2为0.78; 测试的R2为0.71; PLSR模型和MSR模型的拟合精度较为接近,建模R2均小于0.7。已有研究证明,BPNN在处理复杂的非线性建模问题中有较好的拟合能力,而PLSR和MSR通常被用于确定自变量和因变量之间的线性关系。本研究中,非线性模型(BPNN)的验证精度明显高于其他两种线性模型(PLSR和MSR),其原因可能是土壤锰含量和部分植被指数之间存在明显的非线性的关系。

图6 测试集实测值与估测值散点图Fig.6 Scatter plots of measured and estimated values of test set

2.3 土壤锰含量空间分布

由上述结果可知,BPNN模型明显优于其他模型,可以较好地反映土壤锰与最佳植被指数之间的映射关系。因此选用BPNN模型进行土壤锰空间制图,其结果见图7。

图7 南川区土壤锰含量空间分布Fig.7 Spatial distribution of soil manganese content in Nanchuan District

土壤锰含量反演能够充分体现出区域每个像元位置的土壤锰含量的变化特征。从土壤锰含量空间分布来看,研究区的东北—西南方向出现锰含量偏高的条带,土壤锰含量相对偏高的区域,是金佛山国家级自然保护区,该地区可能存在较为原始的未开发锰矿区,这也与样本点实测值的分布情况基本一致。

为了验证BPNN在区域尺度上估算土壤锰含量的可行性,使用139个样点作为验证集,对比分析其实测值与估算值的离散程度,结果如图8所示,可以看出,锰含量的实测值与预测值的R2、 RMSE和RPD分别为0.69,567.64,1.30,制图效果较佳,可以基本反映土壤锰含量的分布特征。说明利用BPNN模型进行土壤锰空间制图具有一定的可行性。

图8 验证集实测值与估测值散点图Fig.8 Scatter plots of measured and estimated values of validation set

2.4 讨论

利用遥感影像数据进行土壤锰含量的反演有助于高效监测区域尺度土壤锰含量。当前已有研究利用土壤光谱数据直接对土壤锰含量进行反演,并且反演精度较高(R2约为0.70～0.78),可以满足土壤锰的监测需求。但在植被常年覆盖的南方地区,难以从卫星影像中获取土壤光谱,此方法难以执行。

本研究引入植被光谱响应指标,利用线性(PLSR和MSR)和非线性(BPNN)方法构建土壤锰含量反演模型,与PLSR和MSR相比,BPNN能显著提高土壤锰含量的估算精度,非线性回归模型在大面积反演土壤锰含量方面具有很大的潜力,这表明土壤锰和植被指数之间的关系是较为复杂的,不能用简单的线性关系来表达。有学者研究土壤光谱和锰含量关联时,发现在400～900 nm波段对土壤锰含量有明显响应,会随着锰浓度增加出现依次降低的趋势,特别是红波段响应最为明显,而在绿波段其反射率变化不太大。这与我们利用植被光谱进行土壤锰含量反演研究比较一致。

在利用植被光谱响应指标反演土壤锰含量时,样点建模和空间制图均表现出不错的精度,说明在区域尺度进行大面积反演土壤锰含量是可行的。但受限于Landsat8数据具有光谱范围较宽、波段数量较少等缺点,反演精度偏低。在未来研究中,将尝试利用高光谱影像(如Hyperion影像等)反演土壤锰含量。此外,仅利用BPNN一种非线性方法反演土壤锰含量,这可能会导致植被光谱响应指标与土壤锰含量响应关系未能被准确刻画,未来引入更多非线性算法(随机森林回归算法、决策树回归算法等)以期提高反演精度。

3 结论

引入了植被光谱响应指标,以重庆市南川区694个地理数据库样点为数据源,利用BPNN算法进行土壤锰含量的预测,构建了土壤锰含量最佳反演模型,反演重庆市南川区的土壤锰含量。除EVI、 TVI外,其余9种植被光谱响应指标均与土壤锰有较高相关性,说明利用植被光谱响应指标与土壤锰含量具有较强的关联性。土壤锰含量的BPNN估算精度R2、 RMSE和RPD分别为0.78,334.24,2.13,制图验证点精度R2、 RMSE和RPD分别为0.69,567.64,1.30。结果表明利用植被光谱响应指标反演土壤锰含量具有一定的可行性。