基于随机森林算法的荆州市降水量空间插值研究

2024-03-27 08:28琨,周元,唐
水利技术监督 2024年3期
关键词:环境变量荆州市插值

陈 琨,周 元,唐 君

(湖北省荆州市水文水资源勘测局,湖北 荆州 434000)

1 研究背景

水是地球的生态系统中维系生命的重要元素。随着气候变化和人类活动的加剧,水资源的空分布特性越来越复杂,给水资源管理和防洪减灾工作带来了巨大挑战。为更好地应对这一挑战,对降水空间分布特征和变化趋势进行插值研究就变得尤为重要。传统插值方法通常采用回归分析、神经网络、克里金插值等估计未知点降水量,但都存在一定局限性。如回归分析等方法往往需要确定输入变量与目标变量之间的关系,而这种关系的确定往往基于经验和主观判断,且忽略了不同站点之间的空间相关性,导致插值结果不准确。为此,本研究引入随机森林插值法。随机森林是一种基于决策树的集成学习算法,通过构建多个决策树并结合它们的预测结果来获得最终的预测结果。与传统的插值方法相比,随机森林插值法具有以下优点:它不需要确定输入变量与目标变量之间的关系,免了主观判断和经验主义的干扰能够考虑到不同站点之间的空间相关性,从而提高了插值结果的准确性;具有较好的泛化能力。荆州市是湖北中南部一重要工业城市,也是长江中经济带一个关键节点。对荆州市的降水量插值研究具有重要的实际意义,以期为该市水资源管理和防洪减灾提供科学依据。

1.1 研究区概况

荆州市地处华中江汉平原中南、长江中段,总面积14067km2。地形为杨子准地台中部,处于第三级阶梯西缘、江汉平原主体,地势自西向东倾斜,海拔介于18~815.1m,平原、丘陵各占21.2%、78.8%。属北亚热带季风湿润气候区,且有季候分明、雨热同季特点,年均气温16.4℃、降水量1200mm,无霜期258d,年辐射总量4476.2MJ/m2,日照时数1823~1978h。水资源总量82.8亿m3,其中全市地表水资源量76.8亿m3,折合径流深546.4mm。内河湖密布,主要有长江干流及其支流松滋、沮漳河、洪湖等,境内长江干流河长483km,多年平均径流量4689亿m3。

1.2 随机森林回归算法

随机森林(Random forest,RF)是由 Breiman应用bagging理论对一束分类回归树(classification regression tree,CART)进行集成的机器学习技术,被广泛应用于分类、回归等无监督学习领域。RF工作方式如下:对原始训练数据进行n次又放回抽样;在每次抽样时,选择一组随机特征进而构建一棵CART;将n棵CART集合起来,得到森林。在应用于技术空间插值时,RF是一回归问题时,起预测结构被认为众多森林预测值的线性加权,则对于输入变量x0的预测表示为:

式中,ZF(x0)、n、wi和yi分别—预测标准差、测量次数、权重和降水量测量值,其中权重是基于测量值和预测位置的变量得出的。

1.3 数据来源与处理

本研究从湖北省气象局搜集获取了荆州市2020年气象站点逐日降水量资料,共有35个气象站点,其呈现均匀分布如图1所示。各站点均不存在数据缺失,因此可作为降水量空间插值的因变量。鉴于降水量空间分布具有经度、纬度和垂直地带性特征,因此选择海陆位置因子、地形因子作为降水量插值的辅助变量。其中地形因为STRM DEM数据源,其来源于地理空间数据云(http://www.gscloud.cn)网站,经纬度因子则为DEM栅格像素中心点位的地理几何特征,如图2所示。将全部栅格变量利用Cubic方法重采样至100m的空间分辨率,以备建模和空间插值使用。文中运用Rstudio软件编程实现降水空间插值分析,区域降水量空间可视化则通过ArcGIS10.5平台完成。

图1

图2 降水量空间插值使用的环境变量

2 结果与分析

2.1 样本数据统计特征

研究区35个气象站点空间统计特征见表1。可知,荆州市2022年降水量最大值出现在朱河站,达1269.00mm,最低值为监利站的726mm,中值为观音垱站的992.5mm,平均值为991mm,离差系数为0.2,显示出中等程度空间变异性。为确保降水量观测样本具有统计系意义,利用单样本K-S检验进行测试,得到其渐进显著性双尾sig值为0.09<0.5,表明其未通过基本信度水平测试,因此不符合正态分布。为确保降水量插值预测平稳性,使用对数(log)函数进行变换处理。

表1 气象观测降水量样本统计特征

2.2 环境变量与降水量之间的统计关系

环境变量如图2所示与观测降水量之间关系特征决定了RF模型建模精度。利用拟合分析方法直观解析协变量与降水量之间的关系,其结果如图3所示。可知,坡度与降水量之间呈二函数关系,这是由于一定的坡度易于汇聚大气中传输的水汽增加降水量,二者之间具有显著非线性关系(R2=0.21)。与海拔、坡向均呈现三次函数关系,在0.05水平上呈现显著相关(R2依次为0.11、0.23)。降水量与经度、纬度、经纬度乘积的关系更为复杂,但均具有显著性特征(R2依次达0.13、0.11、0.12)。以上分析表明,所选择的环境变量可较好拟合降水量随地形变化规律,因此在降水量空间插值建模中有效。

图3 环境变量与降水量之间关系特征

2.3 基于随机森林算法的降水量插值模型构建与插值结果

在RF回归模型中存在几个重要超参数,其中ntree表示是决策树数量,其数量越多俄模型拟合性能通更好,但导致计算效率低下。另一个超参数为mtry,它决定每棵决策树中使用特征数量。为此通网格搜索法寻找出最优的超参数组合,利用交叉验证得到的RMSE评估参数性能,其结果如图4所示。可知,不同超参数配置下,模型误差RMSE存在一定差异,当mtry取值为1,ntree为120时,RMSE达到最小仅为0.38。

图4 RF回归模型中超参数优化过程

利用最优参数模型对100m分辨率的栅格变量进行预测,得到研究区降水量空间分布,其结果如图5所示。可知预测的降水量分布范围介于713~1286mm之间,这拓展了实测降水量的值域范围见表1。由图5可以看出2022年降水量降水量呈现带状分布,降水量中心位于区域东西两部分,局部在1100mm以上;低值中心位于中部,局部在900mm以下。

图5 RF回归模型插值生成的降水量分布

为验证RF对降水量插值结果可靠性,利用气象站点与插值降水量的空间匹配,计算二者之间的误差,得到结果如图6所示。可知,RF模型验证精度R2达0.71,MAE和RMSE分别为48.09、60.26mm,表明该结果良好,验证精度可靠。

图6 RF回归模型验证精度

3 结语

本研究利用随机森林算法对荆州市的降水量进行了空间插值研究,得出以下结论。

(1)荆州市各气象站点的降水量差异较大,最大、最小值分别为726.00、1269.00mm。

(2)利用网格搜索法较好优化了RF模型性能,利用该模型对区域100m空间分辨率的环境变量集进行预测,生成了区域降水量地带性分布。该研究考虑了多个环境变量对降水量的影响,更准确地反映了荆州市的降水情况。

(3)RF插值法作为一种新型的、基于数据驱动的方法,具有广泛的应用前景和潜力。在未来可以进一步探索该方法在气候变化、生态保护和其他环境领域的应用。

猜你喜欢
环境变量荆州市插值
荆风楚韵 荆州市非物质文化遗产产
——碗灯舞
荆州市关工委走访慰问全市“五老”代表
从桌面右键菜单调用环境变量选项
捉迷藏比赛
彻底弄懂Windows 10环境变量
基于Sinc插值与相关谱的纵横波速度比扫描方法
诗祖文魂百代传一一首届“中华诗人节”在湖北省荆州市举行
一种改进FFT多谱线插值谐波分析方法
基于四项最低旁瓣Nuttall窗的插值FFT谐波分析
基于三阶段DEA—Malmquist模型的中国省域城镇化效率测度及其收敛分析