基于随机森林和多源数据江西省降雨量空间反演研究

2023-10-30 12:08杨承亮
陕西水利 2023年10期
关键词:降雨量降水量反演

杨承亮

(南昌市水利规划设计院,江西 南昌 330000)

随着气候变化和自然灾害频发,对降雨量准确空间反演变得愈发重要[1]。江西作为南方立体农业核心区,其降雨量分布对水资源管理和灾害防控具有重要意义。然而,由于该省地形复杂、降雨量具有明显的时空变化特征,传统的降雨量观测手段难以全面准确地获取其空间分布信息[2]。为此,许多研究者关注基于多源数据和机器学习算法的降雨量空间反演研究。其中,随机森林(RF)作为一种强大的非参数机器学习方法,已经在许多领域展现出了良好的预测能力[3-4]。通过结合多源数据,如气象站点观测数据、卫星遥感数据以及地理信息系统数据,可以获得更丰富的降雨量信息,提高空间反演的准确性[5]。因此,本研究以江西省为研究对象,旨在利用RF 算法和多源数据,实现对省域降雨量空间反演,为区域水资源管理、气象灾害预警等提供科学依据。

1 研究区概况

如图1 所示,江西省位于中国中东部、鄱阳湖南侧、武夷山北麓,总面积16.7 万km2。区域地形自东、南、西向中北部倾斜,海拔介于0~2160 m,形成环鄱阳湖平原、江南丘陵、幕府山地、武夷山系等折叠地貌,境内有长江赣江自南向北通过,具有径流量大、汛期长特点。

图1 江西省地形特征和气象站点分布

2 数据来源与研究方法

2.1 数据资料

本研究中的降雨量数据从气象科学数据中心(https://data.cma.cn/data)下载,鉴于数据可得性,仅获取了2020 年89 个气象站日降雨资料。该数据经0.1 mm 精度的质量控制,具有良好应用性。为实现对省域降水量进行空间反演,选择地理空间数据云(http://www.gscloud.cn)平台提供的STRM DEM 数据作为辅助,其空间分辨率为90 m,可精确反映局部地形变异;另外还基于DEM 数据提取了坡度和坡向信息。为反映降雨量经纬度地带性特征,以获取的DEM 数据为基础,先通过ArcGIS10.8 平台中的rater to point 工具将DEM 栅格转成成空间点数据,然后利用属性表中Calculate geometry 工具计算每一格点的经度和纬度,再通过point to raster 模块生成区域栅格式经、纬度信息。将全部栅格数据利用cubic 方法重采样成500 m 分辨率,用作空间反演辅助变量集。

2.2 随机森林方法

随机森林RF 是基于Boostrap 抽样和bagging 理论的一种组合器算法,它由许多决策树或回归树组成,每棵树依赖于独立采样的随机向量的值,并且数据中所有树的分布相同。在RF 建模中使用boostrap 采样允许袋外数据用于估计一般误差,预测结果是所有聚合预测的平均输出[6]。RF 建模需要两个用户定义的参数:用于生长每棵树的变量数量(mtry)、林中树数量(ntree)。mtry 参数确定每棵树的强度和树之间的相关性,增加mtry 还会增加每棵树的强度和树之间的相关性[7]。RF 模型性能通过增加树木强度和降低树木之间的相关性而得到改善。

2.3 降雨量空间反演精度评价

RF 机器学习作为数据驱动模型对数据结构具有一定敏感性,将89 个样本点按照7∶3 的比例随机划分成训练集(62个)和验证集(27 个),分别执行模型训练、独立验证。对于训练集、测试集,应用十折交叉验证方法计算模型的决定系数(R2)、均方根误差(RMSE)、平均绝对误差(MAE)来评估模型预测能力和空间反演精度。

式中:yp、yo为预测值与实际值;、为预测与实测序列的平均值;r为实测值与预测值之间皮尔逊相关系数;V2p、V2o分别为预测值、实际值的方差。

3 结果与分析

3.1 站点降水量统计特征

江西省2020 年89 个标准气象站点观测的降雨量统计特征见表1。年降雨量最小值出现在彭泽站,仅为1285.61 mm,最大值为资溪站的2340.46 mm,两者相差1054.86 mm;统计平均值为1799.53 mm,中值为1834.83 mm,单样本KS 检验显示其呈偏态分布。全部样带数据的离差系数为16.60%,表明全省降水量呈中度异质性。

表1 江西省站点降水量统计特征(n=89) 单位:mm

为深入认识站点降雨资料空间变异特征,使用ArcGIS10.8→Geostatistical analysis →Wizard kriging 工具得到其半方差函数Semivariance 结构图,其结果见图2。由图2 可知,区域降雨量空间分布符合高斯(Gau)模型,块金值为0.35,偏基台值Partial Sill 为2.23,块基比(Nugget/Sill)为13.56%,具有强烈空间自相关性(25%<Nugget/Sill<75%),其空间自相关范围为600 km。这表明,研究区不同空间位置上降水量具有一定相关性,局域降水量存在互相影响。

图2 江西省站点降水量Semivariance 结构图

3.2 随机森林模型构建分析

本研究以样本植被为输入变量,以站点时间降雨量为输出目标,在Rstudio平台中运用Caret程序包设计RF回归模型。RF 模型结构受超参数影响,为确保模型稳健性和拟合能力,使用gridsearch 方法进行参数寻优,其结果见图3。可见,模型训练精度R2随着ntree 数量增加先呈急剧增加后平稳趋势,当ntree 大于200 时,R2趋于稳定。由于输入变量较少,因此设置mtry 参数寻优区间为2~8,可见当其取值为8 时达到最大值。据此,选择ntree、mtry 的超参数配对依次为200、8。

图3 基于RF 算法降雨量插值模型优化过程

基于以上优化过程此训练RF 模型,并分别利用训练集计算精度评价指标R2、MAE 和RMSE,结果见图4。可见RF建模精度良好,其R2达0.78,MAE 和RMSE 分别为91.81 mm、139.81 mm。训练集里真实值与预测值分布于1∶1 线两侧,并具有局部离散特征,表明该模型在训练过程中较好拟合了降雨量与环境之间关系。因此可用以对未知区降水量进行插值预测。

图4 随机森林模型训练精度

3.3 降雨量空间分布特征

将上述训练好的RF 模型代入栅格变量数据集,进而对省域降雨量空间分布进行预测,其结果见图5。由图5 可知,降雨量栅格面值域介于1280 mm~2340 mm,栅格平均值为1823 mm,离差系数为23.54%,这与表1 中站点统计值一致,表明预测的降雨量分布集成了站点降雨特性。降雨量呈现自东北向西、北递减分布,降水量中心位于赣东鹰潭等地,局部降雨量可达1900 mm 以上;赣中地区次之,分布范围为1600 mm~1900 mm 之间;赣南地区降水量呈现自西向东增加分布,介于1500 mm~1750 mm ;赣西北地区的幕阜山地区最少,仅为1280 mm~1500 mm。这种分布特征主要受季风运移路径和地形影响。从局域特征来,该非线性插值结果并未出现“牛眼”“机械渐变”等非自然特征,而较好体现了经纬度地带性和地形变异,因而反演的降水量分布更符合区域实际。

图5 随机森林方法反演的降水量空间分布

3.4 降雨量空间反演精度评价

为进一步评价RF 模型反演精度,基于测试集计算了精度评价参数,并绘制散点图,其结果见图6。可知其独立验证的R2达0.76,MAE 和RMSE 依次为121.11 mm、151.70 mm,相对于训练精度的R2减小了2.56%,MAE 和RMSE 分别增大了-31.91%、8.50%,表明RF 模型在移植后发生了一定程度精度下降,但依然在可接受范围内。图6 显示,预测值与实际观测降雨量之间具有良好线性关系,因此空间反演结果在研究区具有一定替代性,同时表明RF 模型能挖掘降雨量—环境因素间显性、隐式关系进而更稳健拟合区域降雨分布。综合来看,使用多源环境变量与RF 算法反演省域尺度降雨量空间分布过程中不存在过拟合而且具有良好适用性。

图6 区域降雨量反演独立验证精度

4 结论

本研究通过联合GIS 与RF 机器学习技术,准确反演了省域尺度500 m 空间分辨率的降雨量分布式信息,结论如下:RF 模型基于站点降水量与环境因子之间非线性关系假设,模拟省域降雨量面分布,该方案克服了气象站点数据密度缺陷且促进了气候过程模式理解,可作为具有前景的数据解析技术,并能够移植到其他地区帮助构建稳健的气候要素反演模型,绘制更为精细的气候面空间图。然而,模型预测能力依赖于环境变量,本研究仅考虑了地形和经纬度因子,后续研究应纳入大气含水量、气温、地表温度等信息,进而改进模型性能;此外还应定量分析各环境因子重要性,深刻解释环境因子对降雨量空间异化的影响。

猜你喜欢
降雨量降水量反演
反演对称变换在解决平面几何问题中的应用
降雨量与面积的关系
降水量是怎么算出来的
黄台桥站多年降水量变化特征分析
1988—2017年呼和浩特市降水演变特征分析
基于低频软约束的叠前AVA稀疏层反演
基于自适应遗传算法的CSAMT一维反演
基于小波变换的三江平原旬降水量主周期识别
洞庭湖区降雨特性分析
叠前同步反演在港中油田的应用