吉林省典型湖库水体浊度反演及时空变化研究

2024-12-04 00:00李宗峻马玥
科技创新与应用 2024年34期

摘 要:内陆湖库水体是重要的水资源,利用遥感技术监测水体浊度能够快速掌握大范围的水质和水环境状况。该文以Landsat遥感影像为主要数据源,以2017—2020年在吉林省采集的180个水体样本的浊度数据为研究对象,以光谱波段为基础特征变量,基于数学运算构建多种波段组合特征,提取并选择最优特征变量作为模型输入,构建极限梯度提升(XGBoost)和随机森林(RF)机器学习模型对浊度值进行估测,通过对比分析预测结果,选择最优模型对吉林省典型湖库水体浊度进行反演。研究结果表明,以蓝、绿、红波段计算得到的波段差值组合和比值组合作为最优特征变量,XGBoost的预测精度最高,决定系数R2和均方根误差RMSE分别为0.84和0.54 NTU。利用XGBoost模型反演吉林省典型湖库1985—2020年间每5年的水体浊度,分析其时空反演变化,为吉林省水环境治理与保护提供科学的技术支撑和决策支持。

关键词:水体浊度;机器学习;遥感反演;时空变化;Landsat影像数据

中图分类号:TP311 文献标志码:A 文章编号:2095-2945(2024)34-0030-05

Abstract: Inland lakes and reservoirs are crucial water resources, and monitoring water turbidity using remote sensing technology can quickly grasp the water quality and environment over large areas. This study primarily uses Landsat remote sensing images as data sources, focusing on the turbidity data of 180 water samples collected in Jilin Province from 2017 to 2020. Based on spectral bands as fundamental characteristic variables, various band combinations were constructed through mathematical operations to extract and select optimal features for model input. Extreme Gradient Boosting (XGBoost) and Random Forest (RF) machine learning models were developed to estimate turbidity values. By comparing the prediction results, the optimal model was selected to invert the turbidity of typical lakes and reservoirs in Jilin Province. The research indicates that the band difference and ratio combinations calculated from blue, green, and red bands serve as the optimal feature variables, with XGBoost achieving the highest prediction accuracy, R2 and RMSE being 0.84 and 0.54 NTU, respectively. The XGBoost model was used to invert the water turbidity of typical lakes and reservoirs in Jilin Province every five years from 1985 to 2020, analyzing its temporal and spatial variation. This provides scientific technical support and decision-making assistance for water environment management and protection in Jilin Province.

Keywords: Turbidity; Machine learning; Remote sensing; spatial-temporal variation; Landsat image data

湖库水体是我国主要的饮用水资源,在调节生态环境平衡,支撑工农业生产,提供人们生活保障等方面发挥积极的作用[1]。吉林省作为我国重要的粮食主产区和工业基地,为加快经济发展,振兴东北老工业基地,工农业及生活用水的需求量增加,导致水体面积发生较大变化,富营养化现象频发,极大程度影响人类生存和自然资源的可持续发展。浊度作为水质监测的重要参数之一,能够综合反映水体中悬浮物对光线阻碍程度。通过监测水体浊度,可以直接反映水体质量情况,有助于及时发现并预警水体浑浊度较高地区,科学有效地进行水质监测,对确保当地水生态系统良性发展具有重要的意义[2]。

利用遥感技术监测水体浊度已是广泛应用的技术手段[3]。通过卫星获取遥感数据,提取地表水质信息,反映水体浊度连续时空分布特征和变化情况,有效弥补了采用离散水面样点分析与监测的不足[4],众多国内外学者利用遥感影像来反演水体浊度进行了不同程度的分析,Hossain等[5]利用Landsat 8卫星影像和实地现场测量对美国的田纳西河进行水体浊度的反演;Ma等[6]利用Sentinel-2卫星影像与实地实测水体数据绘制了东北区域典型湖泊浊度反演图;晁明灿等[7]利用GF-1卫星影像与浮标监测站浊度数据相结合,对2019年巢湖浊度进行了时空分析。近年来,应用遥感数据估测水体浊度已经成为研究热点,构建浊度拟合模型用以准确表达浊度与波段反射率间的关系是关键问题。陈方方等[8]基于Sentinel-3影像利用支持向量机(SVM)算法构建查干湖水质高精度反演模型;Wang等[9]基于Landsat影像构建半经验模型获取大庆地区数百个湖库1984—2018年的浊度信息;Du等[10]基于Landsat影像构建指数模型定量分析松嫩平原水域总悬浮物浓度的变化,并进行了驱动力分析;曹引等[11]基于GF-1影像与HJ-1影像构建最小二乘模型对微山湖进行了总悬浮物浓度和浊度监测。

本文以Landsat遥感影像为主要数据源,以2017—2020年吉林省地区采集180个水体样本的浊度数据为研究对象,选择最优遥感特征变量,构建机器学习预测模型,通过对比预测精度,选择最优模型对吉林省典型湖库查干湖和松花湖水体浊度在1985—2020年进行反演,为区域水环境治理与保护提供科学的技术支持。

1 研究区与数据源

1.1 研究区概况

吉林省拥有丰富的湖泊资源,在生态环境中发挥着重要作用,本文以查干湖和松花湖作为主要研究湖泊,其中查干湖(124°03′~124°34′E,45°05′~45°30′N)位于吉林省松原市西部,是省内最大的天然湖泊。湖泊面积达到350 km2,平均深度为2.52 m。年平均降水量为400~500 mm[8];松花湖(126°45′~127°38′E,43°07′~43°50′N)位于吉林省吉林市东部,流域面积达到42 500 km2,湖水平均面积为550 km2,气候属于北温带大陆性季风气候,全年平均气温为4.4 ℃,多年平均降水量为657 mm[12]。

1.2 数据源获取

1.2.1 水体样本数据测定

2017—2020年,在吉林省湖库的典型湖泊共采集了180个水样,每个湖泊的采样点数量由湖泊面积决定。一般情况下,大湖泊(≥10 km2)设置8~15个采样点,小湖泊(<10 km2)设置3~8个采样点[9],野外采样日期为2017—2020年的4—10月,采样期间天空晴朗无云,水面平静,风速较小。按照布设的样点位置采水样时,在每个点位用采水器采集0~50 cm处的水体约2 L,采集水体样本,利用GPS获取点位坐标,记录采集时间、点号、水面环境等信息。采集水样置于车载保温箱中冷藏,1~2 d内运送回实验室进行分析测试。实验室测定时,采用UV-2600紫外可见分光光度计,室温20 ℃左右,以过滤的纯水作为参比,测定每个水样的浊度。

1.2.2 Landsat遥感影像数据及预处理

Google Earth Engine(GEE)是目前应用最广的云计算平台,集科学分析、遥感数据处理、地理信息数据可视化于一体的综合性平台[13]。在GEE平台上选择影像日期与现场实地采样日期相吻合(时间间隔7~15 d)的Landsat 7与Landsat 8遥感影像用于实测数据相关性分析及模型构建。下载1985—2020年吉林省查干湖和松花湖影像数据,以5年为间隔的Landsat TM/ETM+/OLI 影像用于后续时空变化分析。研究所用的遥感影像均为GEE网站中的Landsat Collection 2 Level-2数据产品,该数据产品是经过辐射定标、大气校正和几何粗校正的多光谱波段地表反射率数据。

2 研究方法

2.1 技术路线

利用归一化差异水体指数(Normalized Difference Water Index,NDWI)技术,将卫星图像精准地划分为水域和非水域区域。通过在水体感兴趣区域(Region of Interest,ROI)提取NDWI值,利用最大类间方差算法(OTSU)确定阈值。值得注意的是,由于不同图像的特性和条件可能存在差异,在实际处理过程中,对于阈值的设定需要根据具体情况进行适当的调整和优化,以确保分类结果的准确性和可靠性,技术流程图如图1所示。

2.2 数据集构建

由Kloiber等[14]的研究发现,通过对光谱反射率数据和实测水质参数进行对数转换,有助于提高对水体浊度的定量遥感结果精度,因此我们将原始波段反射率、波段反射率组合作为自变量,Ln(浊度值)作为因变量,构建回归模型。将180个实测数据样本按照3∶1的比例随机分配,使用135个建立模型,剩余45个样本检验模型精度。训练数据浊度范围为1.402~182.596 NTU,验证数据中浊度范围为1.043~153.919 NTU (表1)。

2.3 机器学习算法

RF模型基于Bagging方法,通过构建多个独立的决策树并对其预测结果进行平均或累加,减少单个决策树的过拟合问题;XGBoost模型基于Boosting方法,通过逐步构建多个决策树,每棵新树都针对前一棵树的残差进行训练,最终将所有树的结果累加作为最终预测。

本研究使用分类完成的训练集和验证集数据,通过实验对模型参数进行优化,构建了随机森林,XGBoost模型以获取湖泊浊度值,模型精度如图2所示。采用3折交叉验证法,对模型的决策树数量(n_estimators)、指定决策树的最大深度(max_depth)、模型学习率(Learning_rate)和叶子节点最小的样本权重和(min_child_weight)4个重要参数进行网格参数调优,依据获得的最高交叉验证精度,本文设定4个模型参数值分别为n_estimators=100、max_depth=5、Learning_rate=0.03,min_child_weight=2。

2.4 预测精度评价

模型精度由决定系数(R2)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)决定。R2量化了因变量的变异中由自变量解释的部分,RMSE和MAPE描述了预测值与实际值之间的总体误差。这些指标的定义如下

式中:yi和yi′为第i次观测值和预测值;为平均观测值;n为校准和验证样本的个数。

3 实验结果与分析

3.1 波谱反射率特征变量相关性分析

本文利用Landsat系列影像数据前6个波段进行波段插值与波段比值组合,应用SPSS进行波段组合相关性分析,筛选出相关性较高的特征变量,得到相关性热度图,由图3可知,选取相关性大于0.7的波段差值(B1-B2)、(B1-B3),波段比值(B2/B1)、(B3/B1)、(B1+B2)/(B2+B3)、B1/(B2+B3)作为模型的输入变量。

3.2 机器学习模型构建与精度评价

由图2可知,两机器学习模型在训练精度上的指标展示出相似表现,而XGBoost验证模型的R2最高为0.84,RMSE为0.54 NTU,小于RF模型的RMSE。此外,2个模型的MAPE相同,因此选择XGBoost模型用于浊度反演,为了增加模型的丰富性,除了波段比值与波段插值组合作为输入变量,将Landsat原始波段B1至B6波段也作为输入变量,拟合湖库浊度值。

3.3 查干湖浊度时空变化研究

图4为1985—2020年查干湖年际浊度的时空格局,从1985年到2000年,湖泊的浊度呈先下降再上升趋势。具体而言,1990年的平均浊度为44.21 NTU,2000年已增至67.88 NTU。这一变化反映出在此期间查干湖的水质状况有所下降。从2000年至2020年,湖泊水体浊度逐渐下降,但在2010年出现了轻微上升。

在空间格局上,查干湖表现出显著的空间分布特性。湖泊在沿岸区域的水体浊度较高,湖心区域相对较低,这种特殊的空间格局在2000年的浊度反演图像中表现得尤为明显。观察此时间范围的数据,查干湖的浊度分布在空间上呈现出从东南向西北逐渐上升的趋势。

3.4 松花湖浊度时空变化研究

图5呈现出松花湖的年际浊度整体下降的趋势,1985—1990年,浊度值下降至24.83 NTU。1990—2000年浊度值基本保持稳定,波动范围在24.83~28.23 NTU。然而,2005年浊度值稍有上升至44.45 NTU,从2005—2020年,再次呈现明显下降趋势。这些数据表明,松花湖正在经历一个从浑浊逐渐向清澈转变的关键时期。

从空间分布特征分析,松花湖的西北部水体相对清澈,而东南部的浊度较高。松花湖与查干湖在地理位置上存在显著差异:松花湖坐落于群山之间,远离人类活动的核心区域,因此受到的人为干预相对较小。

4 结论

本文利用野外实地采样的水体浊度数据和卫星影像数据,建立了一个湖泊水体浊度拟合模型,绘制1985—2020年吉林省查干湖与松花湖浊度的时空格局。主要结论如下:利用蓝光反射率(B1)、绿光反射率(B2)和红光发射率(B3)进行波段比值与差值组合作为自变量建立XGBoost机器学习模型更适合反演湖库浊度。空间格局上,查干湖与松花湖具有明显不同的浊度分布特征。查干湖的浊度分布在空间上呈现出从东南向西北逐渐上升的趋势,松花湖的浊度空间分布与其相反。其分布特征的差异性可能是由地理位置与环境因素(高程不同、湖库周围土地利用情况不同)共同作用导致的。时间格局上,查干湖的浊度变化在1985—2020年期间表现为先上升后降低的趋势,在2005—2020年内呈现逐渐下降的趋势。利用实地野外采样和遥感监测的方式相结合,对于卫星遥感在大规模、长期湖库水体浊度监测中具有重要意义。

参考文献

[1] 王红梅.浅析湖库型饮用水水源地环境保护工程措施[J].科学技术创新,2015(35):57.

[2] 李建鸿,黄昌春,查勇,等.长江干流表层水体悬浮物的空间变化特征及遥感反演[J].环境科学,2021,42(11):5239-5249.

[3] 徐国成,左少新,梁茜.遥感技术在水环境和大气环境监测中的应用探讨[J].江西化工,2018(4):12-13.

[4] 夏春林.长江流域水体浊度的时空动态变化影响因素研究[D].南京:南京信息工程大学,2023.

[5] HOSSAIN A K M A, MATHIAS C, BLANTON R. Remote sensing of turbidity in the Tennessee River using Landsat 8 satellite[J]. Remote Sensing,2021,13(18):3785.

[6] MA Y, SONG K, WEN Z, et al. Remote sensing of turbidity for lakes in northeast China using Sentinel-2 images with machine learning algorithms[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021(14):9132-9146.

[7] 晁明灿,赵强,杨铁利,等.基于GF-1影像的巢湖浊度遥感监测及时空变化研究[J].大气与环境光学学报,2021,16(2):149-157.

[8] 陈方方,王强,宋开山,等.基于Sentinel-3OLCI的查干湖水质参数定量反演[J].中国环境科学,43(5):2450-2459.

[9] WANG X, SONG K, WEN Z, et al. Quantifying turbidity variation for lakes in Daqing of Northeast China using Landsat images from 1984 to 2018[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021(14): 8884-8897.

[10] DU Y, SONG K, LIU G, et al. Quantifying total suspended matter (TSM) in waters using Landsat images during 1984-2018 across the Songnen Plain, Northeast China[J]. Journal of environmental management, 2020(262): 110334.

[11] 曹引,冶运涛,赵红莉,等.草型湖泊总悬浮物浓度和浊度遥感监测[J].遥感学报,2019,23(6):1253-1268.

[12] 丁洋,赵进勇,张晶,等.松花湖水质空间差异及富营养化空间自相关分析[J].环境科学,2021,42(5):2232-2239.

[13] 闫凯,陈慧敏,付东杰,等.遥感云计算平台相关文献计量可视化分析[J].遥感学报,2022,26(2):310-323.

[14] KLOIBER S M, BREZONIK P L, OLMANSON L G, et al. A procedure for regional lake water clarity assessment using Landsat multispectral data[J]. Remote sensing of Environment, 2002,82(1):38-47.

基金项目:国家自然科学基金项目(42201433);吉林省教育厅科学技术研究项目(JJKH20210269KJ)

第一作者简介:李宗峻(1998-),男,硕士研究生。研究方向为土木水利。

*通信作者:马玥(1990-),女,博士,讲师。研究方向为水环境遥感。