Sentinel-2多光谱卫星遥感反演植被覆盖下的土壤盐分变化

2021-11-25 13:18杜瑞麒陈俊英张智韬徐洋洋殷皓原
农业工程学报 2021年17期
关键词:反射率盐分决策树

杜瑞麒,陈俊英※,张智韬,徐洋洋,张 兴,殷皓原,杨 宁

(1. 西北农林科技大学水利与建筑工程学院,杨凌 712100;2. 西北农林科技大学旱区农业水土工程教育部重点实验室,杨凌 712100)

0 引 言

在干旱-半干旱地区,土壤盐渍化问题严重制约着当地灌溉农业的生产与发展,及时、准确地监测土壤盐分含量的动态变化,对治理土壤盐渍化以及提高农业生产效率具有重要意义[1-5]。目前,遥感技术已被证明具备监测土壤盐分含量的能力。从光学角度来看,当前常用的传感器主要分为多光谱摄影机[6]、多光谱扫描仪[7]、航空摄影机(航摄仪)[8]、全景摄影机[9]、合成孔径侧视雷达[10]。相比于其他传感器,多光谱具有成像视角较广和频带预处理相对简单的特点,在区域尺度上更容易实现土壤盐分含量的实时采集和制图,如中分辨率成像光谱仪[11-13]、Landsat卫星[14]、IKONOS卫星[15]、和高分1号卫星[16]。然而,由于多光谱卫星回访时间较长及空间分辨率较低,使得在监测精度上存在一定局限。于2015年发射的Sentinel-2卫星是唯一一颗在红边范围上有3个波段的卫星,在监测植被健康信息上有较大优势[17-19]。

当地表存在植被时,裸土和植被均会对光谱反射率产生影响,对利用遥感技术反演植被覆盖条件下土壤盐分含量带来困难,如王飞等[20]基于机器学习算法预测中国新疆典型绿洲地区的土壤盐分含量时,发现对于植被覆盖程度较高的农田,预测效果并不突出,而在沙漠地区更符合实际情况。为此,很多学者通过探究作物生育期内植被生长状态与光谱反射率之间的关系,将光谱反射率计算成光谱指数以构建相应的土壤盐分含量反演模型,如黄权中等[21]基于 Landsat 8 OLI影像构建盐分光谱指数(Spectral Index,SI),以反演中国河套灌区农田土壤盐分含量,决定系数为0.46。然而,当前研究忽略了不同植被生长状态对同一土壤深度的土壤盐分含量响应的差异性,而这可能是导致反演效果仍不理想的原因。与此同时,植被生长状态也会受土壤含水率的影响,尤其在干旱-半干旱地区,植被生长状态会因受到水分胁迫而有所改变,进而影响光谱反射率,如梁静等[22]发现卫星光谱反射率与室内测量的光谱反射率的联合建模可降低植被生长状态和土壤含水率对光谱反射率的干扰,明显提高土壤盐分含量的估算精度。因此,有必要选择一个能同时考虑土壤含水率、土壤盐分含量和植被生长状态这3个因素的算法,从而精准地提取出土壤中的盐分含量。相比其他算法,决策树算法可根据数据本身的特点来实现信息精准分类,在监测土壤盐分含量方面上具有应用潜力,如孙滨峰等[23]通过构建以归一化植被指数(Normalized Difference Vegetation Index,NDVI)为分支标准、相关系数和马氏距离为评估标准的决策树来识别中国江西省永丰县的生态系统(湿地、森林、草地、农田),分类精度可达89.11%。

综上,本研究利用Sentinel-2卫星获取的多光谱影像,基于采样与试验获取土壤样本的土壤含水率和土壤盐分含量,通过构建以NDVI为分支标准的盐分深度决策树和以NDVI和表层土壤(<20 cm)的含水率为分支标准的类别决策树,以确定每个土壤样本盐分含量的最佳反演深度和类别,并应用自适应提升算法(Adaptive boosting algorithm,Adaboost)、支持向量机(Support Vector Machines,SVM)、偏最小二乘法(Partial Least Square Regression,PLSR)、渐进梯度决策树(Gradient Boosting Decision Tree,GBDT)和随机森林(Random Forest,RF)5种机器学习方法对不同类别的土壤样本分别构建土壤盐分含量反演模型,以期为多光谱卫星监测植被覆盖条件下土壤盐分含量的动态变化提供有效方案。

1 材料与方法

1.1 研究区概况

研究区域位于河套灌区解放闸灌域的沙壕渠。解放闸灌域位于内蒙古自治区西部(40°13'49"N,107°04'26"E),东接包头市,西到乌兰布和沙漠,南临黄河,北至阴山(图1a),控制面积为21.6万hm2,现有灌溉面积为14.2万hm2。研究区属于典型的大陆性气候,年降雨量为158 mm,年蒸发量超过2 000 mm,土壤以粉质黏壤土为主,种植作物主要以玉米和葵花为主。该区域内约60%的土地受到不同程度的盐渍化影响,严重制约当地农业活动的健康可持续发展[6]。

1.2 试验数据采集与预处理

1.2.1 土壤样本的采集与测定

本研究于2019年的6-8月在河套灌区沙壕渠进行土壤样本采集工作,待实地勘察之后,根据研究区域内土壤盐渍化程度的不同,均匀布设100个采样点(图1b)。土壤样本的采集时间为2019年6月13日、2019年7月21日、2019年8月13日(共计300个土壤样本),采样土壤深度为<20、20~40和>40~60 cm。

待采集完毕后,将土壤样本进行烘干处理,根据式(1)计算土壤表层(<20 cm)处的含水率(Soil Moisture Content,SMC,%);土壤样本在烘干之后进行研磨,经过土水比1:5进行溶液的配置和溶液静置沉淀后,使用电导率仪(DDS-307A,上海佑科仪器公司)测定土壤溶液的电导率(Electric Conductivity,EC,mS/cm),再根据经验公式[6]式(2)计算土壤盐分含量(Soil Salinity Content,SSC,%)。

式中SQorigin为土壤样本的质量,g;SQdried为烘干后土壤样本的质量,g。

1.2.2 Sentinel-2卫星影像的获取与处理

本研究在美国地质勘探局(United States Geological Survey,USGS)官方网站(https://www.usgs.gov/)上下载与采样时间同步的Sentinel-2卫星影像,然后利用Sen2cor、SNAP(Sentinel Application Platform)和ENVI软件(the Environment for Visualizing Images)对卫星影像分别进行大气校正、格式转换和数据读取(即波段2~12的光谱反射率)。

1.3 最佳反演深度和土壤样本类别确定

一般而言,不同土壤深度下土壤盐分含量与光谱反射率之间关系的显著性存在差异,且该差异与归一化植被指数(Normalized Difference Vegetation Index,NDVI)有关[24-26]。为此,本研究通过构建以NDVI为分支标准的决策树来确定每个土壤样本盐分含量的最佳反演深度。

本研究收集的土壤样本共计300个,每个土壤样本对应3种土壤深度的土壤盐分含量,故共计3300种深度组合。为筛选出最佳盐分深度决策树,需遍历所有深度组合构建的盐分深度决策树。为降低该计算量,本研究假定不同土壤样本的归一化植被指数在同一范围时,土壤盐分含量的最佳反演深度也一致[24-26]。基于此假定,本研究以NDVI为分支标准、分支数为3和每个分支样本数不低于70的分支结构来构建盐分深度决策树。因此,所有土壤样本会被2个阈值(NDVI1和NDVI2)划分为3个数据集,3个数据集的NDVI范围分别为[0,NDVI1)、[NDVI1,NDVI2)和[NDVI2,1)。根据土壤样本的实际划分情况,盐分深度决策树的阈值组合如表1所示。

SMC和SSC对光谱反射率均会产生影响,给SSC的反演带来误差,有必要考虑SMC对光谱反射率的影响,以实现土壤盐分含量的精准反演[27-28]。在实际情况下,SMC与SSC并无直接关系,故很难将SMC直接作为自变量来构建土壤盐分含量反演模型。与此同时,光谱反射率也会受到植被生长状态的影响。研究表明,根据NDVI划分土壤样本类别并分别构建土壤盐分含量反演模型的做法可取得理想反演效果[29]。对此,本研究通过构建以NDVI和土壤表层SMC为分支标准的决策树来实现土壤样本的类别划分,以降低植被生长状态和土壤含水率对反演土壤盐分含量的影响。

同样地,为降低计算量,本研究假定不同土壤样本的NDVI和SMC在同一范围时,植被生长状态和土壤含水率对土壤盐分含量的影响一致[24-26]。基于此假定,本研究设决策树共有2层分支,第一层以NDVI为分支标准,分支数为2;第二层以SMC为分支标准,每层分支数不超过2,且每个分支的样本个数不低于70。理论上,所有土壤样本至少会被类别决策树划分为4个类别,但由于每个分支内的样本数不得低于70,故所有土壤样本会被2个阈值(NDVI,SMC)划分为3个类别,并且有2种划分情况:划分1中,3个类别的NDVI和SMC范围分别为[NDVI1,1)和[SMC2,1)、[NDVI1,1)和[0,SMC2)、[0,NDVI1)和[0,1);划分2中,3个类别的NDVI和SMC范围分别为[0,NDVI1)和[SMC1,1)、[0,NDVI1)和[0,SMC1)、[NDVI1,1)和[0,1)。根据土壤样本的实际划分情况,NDVI1和SMC2的阈值组合共有16种(表1)。

表1 盐分深度决策树和类别决策树的阈值组合Table 1 Threshold combination of salinity depth decision tree and classification decision tree

在筛选最佳盐分深度决策树和类别决策树时,本研究分别以深度决策树相关系数(correlation coefficient of depth decision tree,RD)和类别决策树相关系数(correlation coefficient of classfication decision tree,RC)为指标来评估其构建效果,并选择评估指标达到最大时所对应的盐分深度决策树和类别决策树为最佳盐分深度决策树和最佳类别决策树。RD和RC的计算如式(3)和式(4)所示。

式中Bi为Sentinel-2卫星第i个波段的光谱反射率;Sdepth为指定土壤深度的土壤盐分含量,%;Rn为第n个分支内Sentinel-2卫星第i个波段的光谱反射率与指定土壤深度的土壤盐分含量的相关系数;SRD为最佳反演深度下土壤盐分含量,%,其中最佳反演深度由最佳盐分深度决策树得出;Rm为第m个分支内Sentinel-2卫星第i个波段的光谱反射率与最佳反演深度下土壤盐分含量的相关系数。

1.4 机器学习方法

本研究所用的机器学习方法有自适应提升算法(Adaboost)、支持向量机(SVM)、偏最小二乘法(PLSR)、渐进梯度决策树(GBDT)和随机森林(RF)。

自适应提升算法是一种从一系列弱分类器中产生一个强分类器的通用方法[30]。支持向量机是一种通过推广误差上界最小化来增强模型泛化能力的理论方法,本研究选取的核函数为径向基核函数,核函数参数和惩罚系数由序列最小优化算法(Sequential Minimal Optimization,SMO)筛选而出[31]。偏最小二乘法通过最小化误差的平方和找到一组数据的最佳函数匹配[32]。渐进梯度决策树是一种通过多轮迭代实现的决策树算法[33],能灵活处理连续和离散型数据,有效地防止过拟合现象。随机森林是一种利用多个决策树对数据进行判别与分类的集成算法[34],能在运算量没有显著提高的前提下提高预测精度,在数据缺失和非平衡情况下比较稳健。

1.5 土壤盐分反演模型

1.5.1 构建流程

由前人研究[6]可知,基于光谱指数监测土壤盐分含量反演效果较好。为尽可能尝试所有光谱指数,本研究采用遍历法对Sentinel-2卫星的11个波段(波段2~12)的光谱反射率进行随机组合(共165种组合),并按照张磊等[17]研究中提供的8个光谱指数形式(Spectral Index Calculation,SIC)计算相应的光谱指数,最终一共得到了1 320种光谱指数,其中光谱指数的计算如式(5)~式(12)所示。

式中SICz为第z种计算形式的光谱指数,z=1,2,…,8;Rλ1、Rλ2和Rλ3为Sentinel-2卫星波段2~12中随机3个波段的光谱反射率。在此基础上,本研究以光谱指数与最佳反演深度下土壤盐分含量之间的相关系数为评估标准,筛选出最佳的光谱指数作为土壤盐分含量反演模型输入的自变量。

本研究基于5种机器学习方法构建土壤盐分含量反演模型,为保证建模集和验证集均能代表土壤样本盐分含量的统计特征,利用 Kennard-Stone(K-S)算法对300个土壤样本按照3:2的比例划分为建模集(180个土壤样本)和验证集(120个土壤样本)。

1.5.2 精度评价

本研究引入决定系数(R2)、均方根误差(RMSE)、相对分布误差(Residual Predictive Interquartile Range,RPIQ)和相对分析误差(Residual Predictive Deviation,RPD)来综合评估拟合效果,其中R2越接近1,RMSE越接近0,RPIQ越接近0.38(验证集土壤盐分含量实测值的RIPQ为0.38),RPD越大,则说明土壤盐分含量反演模型的精度越高,其中RPIQ和RPD的计算如式(13)和式(14)所示。

式中S为验证集土壤盐分含量的标准差,%;Q3为第三四分位数,即验证集中土壤样本盐分含量由小到大排序后,位于第90(验证集中土壤样本数量的75%)的土壤样本盐分含量,%;Q1为第一四分位数,即验证集中土壤样本盐分含量由小到大排序后,位于第30(验证集中土壤样本数量的25%)的土壤样本盐分含量,%。

2 结果与分析

2.1 研究区域土壤盐分含量统计结果

对所有土壤样本的盐分含量进行统计分析,其结果如表2所示。由表2可知,2019年6-8月研究区域内土壤盐分含量的中位数范围为0.95%~1.68%,参照土壤盐渍化程度分级标准[3]可知,研究区域属于重度盐渍化(>0.5%~1.0%)。研究区域内土壤盐分含量的均方差范围为0.58%~0.82%,最大值范围为2.33%~3.35%,最小值范围为0.15%~0.21%,说明研究区域内土壤盐分含量的分布不均匀,存在局部土壤盐分含量过高的现象。与6月相比,研究区域内土壤盐分含量在7月和8月相对较低,土壤盐分含量的分布相对均匀,这可能是因为7-8月期间频发的降水使土壤水分和盐分发生剧烈的运移,从而改变研究区域内土壤盐分含量的分布。

表2 研究区域内土壤盐分含量统计Table 2 Statistics of soil salinity content in study area%

2.2 基于盐分深度决策树确定土壤样本盐分含量的最佳反演深度

通过构建盐分深度决策树可确定每个土壤样本盐分含量的最佳反演深度,构建结果如图2所示。由图2可知,当NDVI1和NDVI2分别为0.13和0.26时,波段2~12的RD均能达到最大。与此同时,利用式(3)可计算出每个土壤样本盐分含量的最佳反演深度,具体而言,当0≤NDVI<0.13时,土壤样本盐分含量的最佳反演深度为<20 cm;当0.13≤NDVI<0.26时,土壤样本盐分含量的最佳反演深度为20~40 cm;当0.26≤NDVI<1时,土壤样本盐分含量的最佳反演深度为>40~60 cm。

2.3 基于类别决策树确定土壤样本的类别

本研究通过构建以NDVI和SMC为分支标准的类别决策树来确定每个土壤样本的类别(图3),以增强土壤盐分含量对植被生长状态的敏感性和降低土壤含水率对1光谱反射率的干扰。当(NDVI1,SMC2)2为(0.30,0.21)时,波段2~12的RC均能达到最大(图3b)。因此,3个类别的土壤样本的NDVI范围依次为[0,0.30)、[0,0.30)和[0.30,1),SMC范围依次为[0.21,1)、[0,0.21)和[0,1)。

2.4 土壤盐分含量反演模型的精度评价

为评价土壤盐分含量反演模型的精度,本研究将验证集中土壤盐分含量的实测值与预测值进行比较,并利用R2、RMSE、RPD和RPIQ评价精度,结果如图4所示。由图4可知,基于5种机器学习方法的土壤盐分含量反演模型的R2范围为0.51~0.70,RMSE范围为0.25%~0.39%,RPD范围为1.30~1.67,RPIQ范围为0.34~0.35(验证集中土壤样本盐分含量实测值的RPIQ为0.38),根据反演精度由高到低的顺序,5种机器学习方法的排序依次为RF、Adaboost、GBRT、SVM和PLSR,其中RF的决定系数为0.70,均方根误差为0.25%,相对分布误差为0.35,相对分析误差为1.67,表明基于机器学习方法的土壤盐分含量反演模型可取得一定的反演效果。相比于其他机器学习方法,基于RF和Adaboost的土壤盐分含量反演模型精度较为接近,说明RF和 Adaboost这两种机器学习方法具有较强的泛化能力,能在不同的土壤含水率、盐分含量和植被生长状态下均实现理想且稳定的反演效果,在反演土壤盐分含量上拥有强大的优势和应用潜力。

为评价土壤盐分含量反演模型在反演不同土壤深度的土壤盐分含量上的表现,本研究将每个土壤样本盐分含量的实测值与土壤盐分含量反演模型的预测值进行比较,并利用R2和RMSE评价精度,结果如表3所示。由表3可知,土壤盐分含量反演模型在不同土壤深度上(<20、20~40和>40~60 cm)的R2依次为0.72、0.56和0.77,验证集中RMSE依次为0.24%、0.65%和0.22%,表明土壤盐分含量反演模型在<20 cm和>40~60 cm土壤深度上表现较好,且差异较小,在20~40 cm上表现较差。

表3 不同土壤深度的土壤盐分含量反演结果评价Table 3 Evaluation of inversion results of soil salinity content at

2.5 决策树对土壤盐分含量反演模型精度的影响

在植被覆盖条件下,土壤含水率、盐分含量和植被生长状态均能对光谱反射率产生影响,导致很难量化土壤盐分含量对光谱反射率的影响,给土壤盐分含量的反演带来困难。为此,本研究以构建类别决策树的方式,将土壤含水率作为先验信息,以降低土壤含水率对光谱反射率的影响。与此同时,本研究通过盐分深度决策树来考虑不同植被生长状态对同一土壤深度的土壤盐分含量响应的差异,降低植被生长状态对光谱反射率的影响。为能更清晰地了解盐分深度决策树和类别决策树对土壤盐分含量反演精度的影响,本研究在未考虑决策树情况下直接建立土壤盐分含量反演模型,将该模型的精度与考虑决策树的土壤盐分含量反演模型的精度比较,其结果如表4所示。光谱反射率对土壤盐分含量的敏感性,精度得到明显提升。研究表明,光谱反射率对植被根系所处土壤深度下土壤盐分含量更加敏感,而该土壤深度下土壤盐分含量与植被生长状态存在一定关系[36-37]。因此,当未考虑决策树直接建立土壤盐分含量反演模型时,由于忽略每个土壤样本在植被生长状态上的差异,同一土壤深度的土壤盐分含量与光谱反射率相关性较低,从而出现精度不高的问题。对此,有必要考虑决策树建立土壤盐分含量反演模型,使能根据每个土壤样本的植被生长状态来确定土壤盐分含量的最佳反演深度,增强Sentinel-2卫星在监测土壤盐分含量方面上的应用潜力。

表4 决策树对土壤盐分含量反演精度的影响Table 4 Effects of decision trees on inversion accuracy of soil salinity content

3 结 论

由表4可知,未考虑决策树时,土壤盐分含量反演模型的精度较差,其中R2为0.38,RPD为0.87,RPIQ为0.32,RMSE为0.44;考虑决策树时,土壤盐分含量反演模型的R2为0.70,RPD为1.67,RPIQ为0.35,分别比未考虑决策树时提高0.32、0.80、0.03,RMSE为0.25,比未考虑决策树时降低0.19,表明决策树可有效地增强

针对植被覆盖条件下土壤盐分含量反演精度较低的问题,本研究利用Sentinel-2卫星同步获取光谱数据,以构建决策树的方式来确定每个土壤样本盐分含量的最佳反演深度和类别,并按照不同类别土壤样本分别构建土壤盐分含量反演模型,以降低土壤含水率和植被生长状态对土壤盐分含量反演的影响,主要结果如下:

1)盐分深度决策树和类别决策树能增强光谱反射率对土壤盐分含量的敏感性,基于机器学习方法的土壤盐分含量反演模型可取得理想的反演效果,土壤盐分含量反演模型精度由高到低依次为随机森林、自适应提升算法、渐进梯度决策树、支持向量机和偏最小二乘法,其中随机森林的决定系数为0.70,相对分析误差为1.67,均方根误差为0.25%,相对分布误差为0.35。

2)土壤盐分含量反演模型的精度在不同土壤深度上存在差异,土壤盐分含量反演模型精度由高到低依次为>40~60 cm、<20 cm和20~40 cm。

猜你喜欢
反射率盐分决策树
利用镜质组反射率鉴定兰炭与煤粉互混样的方法解析
中红外波段超广角抗反射微纳结构的研究
商品条码印制质量检测参数
——缺陷度的算法研究
车灯反射腔真空镀铝反射率研究
滴灌条件下盐渍土盐分淡化区形成过程中离子运移特征
简述一种基于C4.5的随机决策树集成分类算法设计
海水这么咸的原因
决策树学习的剪枝方法
摄影欣赏
决策树在施工项目管理中的应用