基于集成学习的内陆水体叶绿素a浓度反演

2024-03-07 02:13黎,孟
海河水利 2024年2期
关键词:哨兵反射率波段

孟 黎,孟 静

(1.山东城市建设职业学院,山东 济南 250103;2.山东省国土测绘院,山东 济南 250102)

1 引言

在内陆水域中,湖泊富营养化是影响其自身及周边生态环境最严重的问题之一,叶绿素a(Chla)作为浮游植物携带的重要色素[1],其浓度含量会影响浮游植物生物量,也可能改变水库、湖泊、河流等水体的初级生产力与富营养化程度,因此定量评价内陆水体中Chla 浓度含量,描述水体光学性质与水质参数之间的关系具有重要意义[2]。相较于传统手段,遥感技术可以在宏观尺度上实时对目标进行监测,节省了大量人力物力财力[3]。对于Chla 浓度反演,国内外学者目前已作出重要突破,如朱广伟等[4]基于站点数据反演了太湖长时序Chla 浓度变化,并对其驱动因素作出分析。马荣华等[5]所提出的OCx算法,目前已经成为NASA 水色估算中的默认算法。徐京萍等[6]使用Modis 数据,对太湖蓝藻水华情况进行监测,为相关部门提供决策支持。此类研究中,数据源往往集中于Modis、Landsat、HJ1 等中低分辨率卫星影像,这些数据在Chla 反演过程中时空分辨率过低,导致在中小型湖泊上不适用。而于2015 年发射的哨兵二号卫星具有高时空分辨率[7],在中小型湖泊Chla 反演中的应用前景探讨相对较少[8]。随着计算机技术的发展,机器学习通过算法本身改善自变量与因变量的关系从而可以解决非线性问题,为水质参数反演提供了新思路。对于一些常见的机器学习算法,如决策树、支持向量机、多层感知机等,国内外众多学者已作出相应研究[9],而鲜有研究考虑集成学习算法在内陆水体Chla 反演中的适用性。鉴于此,本文使用哨兵二号多光谱数据联合2 种集成学习算法,开展内陆水体Chla反演算法研究。

2 研究区概况与数据来源

2.1 研究区概况

南四湖是淮河流域第二大淡水湖,位于中国山东省南部微山县,全湖面积1 266 km2,由微山湖、昭阳湖、独山湖及南阳湖串联而成,是山东省第一大湖,也是中国南水北调东线工程中的重要调水区。南四湖水环境健康运营对其周边湿地系统生态稳定至关重要,因此本文以对南四湖水体进行精准大范围遥感水质监测为手段,开展南四湖水体Chla 浓度反演算法研究。研究区概况,如图1所示。

图1 南四湖研究区概况

2.2 哨兵二号数据

哨兵二号A 星于2015 年发射,B 星于2017 年发射,实现卫星双星组网,重访周期为5 d,搭载MSI传感器共有13个波段,空间分辨率分10、20、60 m。本文采用哨兵二号A 星L2A 级产品,该产品于欧空局哥白尼数据中心下载(https://scihub.copernicus.eu),已经过了严格的几何校正与Sen2Res 大气校正,可直接用于一些遥感定量反演研究。

2.3 光谱及水质浓度数据

2021 年9 月10—12 日 和9 月21 日在南 四 湖布设126 个采样点,其中9 月10—12 日仅测定Chla 浓度,9 月21 日测量Chla 浓度与水面光谱信息。采样期间,天气状况良好,天空无云、无风,野外光谱测定条件达标。实测点位,如图1 所示。水面光谱信息通过美国ASD 公司生产的FieldSpec 4 Hi-Res 便携式地物光谱仪测定,每个采样点分别测量5 次光谱曲线求平均值以减小误差。将实测数据带入以下公式计算,获取湖面遥感反射率光谱曲线[10]。

式中:Rrs为湖面遥感反射率;Lw为纯水遥感反射率;r为水与天空光的反射比常数,一般取0.025;Lsky为天空光遥感反射率,取0.99;π取3.14;ES为灰板辐射信号;ρp为灰板反射率。

Chla 浓度采用美国安诺ChloroTech 121A 型手持式叶绿素测定仪测定。126 个采样点Chla 浓度分布,如图2所示。微山湖采样点较多,浓度与独山湖相比较低,总体数据均值为32.86 μg/L,标准差为17.65 μg/L,无异常值出现。

图2 采样点Chla浓度分布

2.4 卫星数据处理

下载2021 年9 月11—21 日 哨 兵二号L2A 级产品,影像无云,质量良好。首先,在SNAP 软件中对所有波段进行重采样处理,将其空间分辨率采样至10 m;然后,输出为ENVI 格式,在ENVI 软件中对所有波段进行合成,使用中国山东省微山县矢量数据对影像进行裁剪,并作反射率归一化处理;最后,进行影像拼接,以NDWI 法提取水体边界[11],并基于实测点位提取影像光谱信息。由于9月10—12日实测点位较多,因此使用9月11日影像反演,9月21日光谱信息仅用于增加样本点数量。

3 研究方法和模型因素选择

3.1 遥感反射率校正

由于哨兵二号L2A级反射率产品本质上属于地表反射率产品,对于水色遥感而言,严格意义上应当使用遥感反射率进行计算。因此,参考刘瑶等[12]的方法进行遥感反射率校正,由于认为内陆水体在短波红外(SWIR)的信号很小,所以从可见光和近红外波段减去短波红外波段的最小值,然后除以π,实现地表反射率到遥感反射率的转换。

式中:Rrs为影像地表反射率;Rsr为转换后的遥感反射率;Rswir为所有短波红外波段;π取3.14。

3.2 GBDT算法

GBDT(Gradient Boosting Decision Tree)是Boosting中的代表性算法,它既是当代强力算法XGBoost、LGBM 等算法的基石[13],也是实际应用场景中最稳定的算法之一。GBDT 中上一个弱评估器的输出结果会影响下一个弱评估器的计算过程,其基本核心思想为:依据上一个弱评估器的结果,计算损失函数,并使用损失函数自适应地影响下一个弱评估器的构建。集成模型输出的结果,受到整体所有弱评估器的影响。

3.3 XGBoost算法

XGBoost(EXtreme Gradient Boosting)是2014 年由中国学者陈天奇[14]提出的,是基于GBDT 升级的新一代算法。XGBoost 使用估计贪婪算法、平行学习算法、分位数草图算法创造了全新的建树流程;使用感知缓存访问技术与核外计算技术提升算法在硬件上的计算性能;引入Dropout 技术,为整体建树流程增加随机性,其基层树模型可以很好地拟合非线性数据。

3.4 模型输入特征选择

选取校正后的哨兵二号L2A数据的可见光及近红外共9个波段作为集成学习算法的输入变量。此外,加入4 种波段反射率比值,分别为蓝/绿、红/绿、近红/绿、近红/红,其中蓝、绿、红、近红分别对应哨兵二号的第2、3、4、8 波段。共计13 个输入变量,输出为Chla浓度。

3.5 评估指标选取

选取决定系数(R2)与均方根误差(RMSE)评估所有模型在全部波段选择策略上的泛化能力。2 个评价指标计算公式如下:

式中:n为样本数量;yi为实测数据;yj为模型预测值为实测数据平均值为模型预测值平均值。R2越大,RMSE越小,模型精度越高。

4 结果与分析

4.1 遥感反射率校正结果

采用式(1)计算各实测点位遥感反射率,取400~900 nm 形成光谱曲线。按上文提到的方法,对哨兵二号实测点位提取光谱进行遥感反射率校正。由于水质反演是使用可见光及近红外波段,提取400~900 nm 范围内的实测光谱、哨兵二号原始光谱及校正后的前9个波段对比,如图3所示。

图3 实测光谱与遥感反射率校正光谱对比

从图3 可以看出,在蓝光波段及670 nm 处均有吸收峰,570 nm 附近的反射峰是由于叶绿素和胡萝卜素的弱吸收以及细胞散射形成的,该反射峰值与色素组成有关,可以作为叶绿素定量的标志。685~715 nm 处反射峰的出现是含藻类水体最明显的光谱特征,该反射峰的位置和数值是Chla 浓度的指示,其出现原因是由于水体和Chla 在此处的吸收系数达到最小。所以,经校正后的反射率不仅保留了原始的Chla 浓度反射特征,而且更加贴合于实测光谱。因此,可以认为所选择的遥感反射率校正方法是有效的。

4.2 模型反演结果

本文模型的构建、训练、调参、测试均在Python与Anaconda的集成开发环境中完成,GBDT模型已在Scikit-learn库中提供方法,而XGBoost模型使用其原生代码所提供的Scikit-learn API接口实现,主要调试参数包括n_estimators、max_depth、learning_rate、subsample等。使用KFold五折交叉验证的平均得分,评估模型理论泛化能力。2种模型反演结果,如图4所示。

图4 基于实测点位的模型反演结果

从图4 可以看出,当13 个特征输入2 种模型时,2 种模型均具有较强的鲁棒性。五折交叉验证的决定系数R2在XGBoost 模型达到最高(0.723 5);均方根误差出现类似情况,在XGBoost 模型达到最低(9.168 1 μg/L)。经观察发现,Chla 浓度值为20~40 μg/L 时,2 种模型均产生了高估,结合图2,认为这是由于处于这个浓度的训练数据较少,模型学习不充分,从而产生了Chla 浓度值的高估。总体而言,XGBoost 模型的精度在基于实测数据建模中达到最高,后文将把2种模型应用于遥感影像,进一步探讨二者在遥感影像上的泛化能力。

4.3 哨兵影像反演结果

遥感影像上的反演结果,如图5 所示。Chla 浓度高低分布状况大体一致,独山湖明显高于微山湖。通过实地考察得知,在实地测量前,微山湖经过了大量放水,流向为自南向北,所以独山湖高于微山湖。我们的结果与Zhang 等[15]的研究结果一致,因此可以认为本文结果是准确的。在GBDT 模型反演结果中,独山湖Chla 浓度反演值几乎全处于40 μg/L 以上,这不符合实测数据的情况,所以GBDT 模型存在明显的Chla 浓度高估情况。此外,结合图2 与图1,就下级湖微山湖而言,GBDT 模型也高估了Chla 浓度,因此可以认为XGBoost 模型在哨兵二号数据上更具鲁棒性,反演结果更加符合实际情况。

图5 哨兵二号遥感影像反演结果

5 结论

本文以山东省微山县南四湖为研究背景,使用欧空局提供的Sentinel-2A 影像数据及实测数据,选取影像前9 个波段及4 种波段比值构建了Chla 浓度反演的13 个特征波段,在此基础上使用NDWI 法进行水体提取、光谱提取及反演模型构建,得到以下结论:经过遥感反射率校正的哨兵二号影像与实测光谱更具一致性,更适合用于水质参数反演。XGBoost、GBDT 模型可以用于南四湖水质参数反演,XGBoost 模型在实测数据及影像反演上均具有较强的鲁棒性,反演结果与实际情况更加一致。后期研究将会尝试将该模型应用于长时序水质参数反演。

猜你喜欢
哨兵反射率波段
影响Mini LED板油墨层反射率的因素
近岸水体异源遥感反射率产品的融合方法研究
具有颜色恒常性的光谱反射率重建
哨兵“后退一步,走”,树立“守规矩”鲜活标杆
哨兵神圣不可侵
化学腐蚀硅表面结构反射率影响因素的研究*
M87的多波段辐射过程及其能谱拟合
日常维护对L 波段雷达的重要性
欧洲“哨兵”-2A上天放哨
“联盟”号发射“哨兵”1A卫星