RF-SVR降尺度模型在滦河流域的适用性分析

2021-07-06 02:06孙傲涵李建柱
水资源与水工程学报 2021年2期
关键词:雨量站日数降雨量

孙傲涵,李建柱,冯 平

(天津大学 水利工程仿真与安全国家重点实验室,天津 300072)

1 研究背景

统计降尺度方法[1-2]是目前研究气候变化过程中提高全球气候模式(global climate models, GCM)分辨率的常用方法,具有简单、效果明显、计算量少等优点。目前常用的统计降尺度方法有随机天气发生器[3]、天气分型方法[4]、回归方法[5-7]等。也有一些耦合了不同类别技术的统计降尺度方法,例如SDSM(statistical downscaling model)模型[8]、ASD(automated statistical downscaling)模型[9]等。

支持向量机(support vector machine, SVM)回归已在径流预测[10-11]、降水-径流模拟[12]等多个水文研究领域取得了良好的效果,也被广泛应用于统计降尺度的研究。姚艺[13]比较了SVM模型及SDSM模型对于香溪河流域降雨降尺度的模拟效果,发现SVM模型的R2、RMSE等评价指标均优于SDSM模型;段凯[14]采用SDSM、SVM及LARS-WG等3种模型对淮河流域降水进行降尺度,结果表明SVM模型对干旱及半干旱半湿润站点的降水模拟具有优势。考虑到变量之间可能存在相关性,刘向培等[6]将主成分分析与支持向量机相结合,建立了江淮流域降水的统计降尺度模型,该模型对于降水在月、年尺度的变化有良好的描述能力。但支持向量机在极端降雨的模拟方面存在不足,会出现低估极端降雨量的情况。Anandhi等[15]应用SVM模型对印度河流域进行降水降尺度,结果表明该模型无法模拟实测降水中95%及以上分位数的极端降水事件;Okkan等[16]利用SVM模型对爱琴海地区格尼兹河进行降雨降尺度时,也有类似的发现。使用基于降雨模式分类的混合统计降尺度方法可以较好地解决这一问题,即先将降雨分为不同的模式,再估计降雨。常见的降雨分类方式有干、湿分类[17]、极端/非极端降雨分类[18]、基于降雨量级的分类[19]等。Chen等[17]使用支持向量分类及线性判别分析将降雨状态分为干、湿两类,然后利用支持向量回归预测降雨量,并比较了该降尺度模型与SDSM模型的效果。结果表明所提出的混合降尺度模型的标准差及偏态系数指标均优于SDSM模型,这意味着混合降尺度模型能更好地估计极端降水。Pham等[18]利用随机森林算法将降雨状态在分为干、湿两类的基础上,进一步分为极端降雨与非极端降雨,再利用最小二乘支持向量机算法估计降雨量,使得日降雨量大于50 mm的样本的预测效果得到提高。Devak等[20]通过改变K-最近邻算法的近邻数获得多组分类结果,将分类结果集成后利用SVM模型进行回归,建立了混合降尺度模型应用于印度玛哈那迪盆地,发现其对极端降雨的模拟情况优于SVM模型。

目前,对于滦河流域的未来降雨变化研究多集中在利用CMIP5模式数据分析未来降雨变化趋势及月尺度上的平均降雨量[21-22],而对于日尺度上的极端降雨估计研究较少。本文将基于降雨模式分类的混合统计降尺度方法应用于滦河流域的日降雨预测,以提高气候变化下日极端降雨的估计精度,改善流域极端降雨的预测效果,为降低气候变化带来的灾害风险提供科学的依据。

2 数据来源与研究方法

2.1 研究区概况

滦河流域地处中纬度欧亚大陆东岸,属温带大陆性季风型气候。年降雨量约520 mm,降雨时空分布不均,冬季寒冷干燥,夏季炎热多雨,年降雨量的80%左右集中在6-9月,受地形影响,降雨量自东南海岸向北递减。滦河流域地理位置及水系、雨量站分布见图1。

2.2 数据来源

由于上游降雨资料不完整,本文仅以河北省境内的10个雨量站(图1)为例。

图1 滦河流域地理位置及水系、雨量站分布

采用1961-2000年滦河流域10个雨量站的观测日降雨资料,以及2.5°×2.5°的NCEP/NCAR再分析资料建立统计降尺度模型,并采用2001-2012年资料对该模型进行检验。NCEP数据来自滦河流域附近的12个格点,格点中心坐标经度分别为115.0°E、117.5°E、120.0°E,纬度坐标分别为37.5°N、40.0°N,42.5°N、45.0°N。采用反距离插值法将NCEP数据插值到各雨量站坐标。

2.3 研究方法

降尺度方法主要由分类和回归两个步骤构成:(1)使用双样本Kolmogorov-Smirnov检验,对NCEP/NCAR中的天气因子进行筛选,选取相关因子用于分类。使用随机森林算法建立干湿日分类的分类模型。干、湿日定义标准分别为日降雨量=0和日降雨量>0;对于被划分为湿日的数据,进一步使用随机森林算法,建立极端降雨日和非极端降雨日的分类模型,分类标准分别为降雨量>10 mm/d和降雨量<10 mm/d。(2)使用主成分分析法,对所有天气因子进行计算,选取累计贡献率达到90%以上的因子用于回归模型。最后,根据上一步的分类结果,采用支持向量机算法,分别建立极端降雨回归预测模型和非极端降雨回归预测模型。RF-SVR(random forest-support vector regression)降尺度模型流程如图2所示。

图2 RF-SVR降尺度模型流程图

随机森林算法是一种基于Bagging的集成学习方法[23]。对于分类问题,是根据所有决策树的预测结果,采用投票的方式确定新样本的类别。利用每次抽样未被抽中的数据计算的模型内部误差则被称为袋外误差(EOOB),其计算原理如下:

(1)

式中:n为袋外数据样本个数;Y(Xi)为依据给定Xi随机森林模型预测出的Y,Yi为实测数据。

支持向量机回归(support vector regression, SVR)的根本思想是结构风险最小化原理[24]。其原理是给定样本{(xi,yi),i=1,2,…,m}∈Rn,m为样本个数,n为样本维度,回归函数为:

f(x)=wTa(x)+b

(2)

式中:a(x)为Rn到高维特征空间的非线性映射;w为超平面的权值向量;wT为w的转置;b为偏置。

根据结构风险最小化原则,原问题可转化为约束条件下求得最小值,即:

(3)

(4)

可使用准确率A来评估分类模型的精度,则干、湿日分类精度及极端、非极端降雨日分类精度如下:

(5)

(6)

式中:ADW为干湿日分类精度;ANE为极端/非极端降雨日分类精度;D为干日日数;W为湿日日数,D|D表示所有被正确划分为干日的干日日数;W|W表示所有被正确划分为湿日的湿日日数。N为非极端降雨日日数;E为极端降雨日日数。N|N表示所有被正确划分为非极端降雨日的日数;E|E表示所有被正确划分为极端降雨日的日数。

3 结果与分析

3.1 预测因子筛选

为了确定有效的预报因子,首先依据降雨量是否为0将率定期数据(包括NCEP数据及实测降雨数据)分为两组,以下简称干日组和湿日组。然后使用双样本Kolmogorov-Smirnov检验,对两组的NCEP再分析数据进行检验,两组间有显著性差异的因子(显著性水平为0.05),被认为在干日和湿日具有明显区别,可以作为分类模型的预报因子。结果发现绝大部分因子均在干日和湿日表现出显著性差异,但考虑到随机森林分类算法在处理高维度数据问题上的突出表现,不再对天气因子进行二次筛选,保留了全部能通过Kolmogorov-Smirnov检验的因子进行干湿日分类。然后,采用随机森林算法建立干湿日分类模型。

同样,对于干湿日分类中被分类为湿日的实测数据(包括NCEP数据及实测降雨数据)进一步依据日降雨量是否大于10 mm分为极端降雨组和非极端降雨组。并使用双样本Kolmogorov-Smirnov检验,对两组的NCEP再分析数据进行检验分类。最后,同样采用随机森林算法建立极端降雨与非极端降雨日分类模型。表1给出了用于建立两种分类模型的NCEP预测因子。

表1 用于建立两种分类模型的NCEP预测因子

3.2 精度评估

利用1961-2000年的雨量站点数据对分类模型进行训练,再利用2001-2012年的雨量站点数据进行两个分类模型的验证并进行效果评价。表2给出了验证期各雨量站点干湿日分类模型及极端降雨分类模型的率定精度。

由表2可见,在验证期内,干湿日分类模型的分类精度均高于0.85,平均分类精度为0.87;极端降雨分类模型的分类精度均高于0.73,平均分类精度为0.76。证明所构建的分类模型对于干湿日分类及极端降雨分类均有良好的判别能力。其中对于干湿日事件的分类精度高于对极端降雨事件的分类精度(平均约高11%),这可能是由于干日与湿日之间的大尺度气候因子之间有明显的差异,而极端降雨事件与非极端降雨事件之间的界限不够明显,其大尺度气候因子较为相似,导致难以区分。总体而言,两种基于随机森林算法的分类模型分别对极端降雨与非极端降雨和干湿日进行了准确可靠的区分。

表2 干湿日分类模型及极端降雨分类模型的精度

3.3 降雨量预测

在建立降雨回归预测模型之前,使用主成分分析(principal component analysis, PCA),对表1给出的26个NCEP再分析因子进一步筛选。目的是在保存数据中有效信息的同时,消除数据间的共线性,降低数据维度。依据主成分分析结果可以选择前9个主成分,其累计解释方差达到90%以上。将前9个主成分作为回归模型的预测因子,并将观测数据依据分类结果分为极端降雨组及非极端降雨组,分别建立RF-SVR模型。

利用1961-2000年的雨量站点数据对回归模型进行训练,再用验证期(2001-2012年)的湿润日降雨数据进行RF-SVR模型的模拟效果评价,并构建了普通SVR模型作为对比。SVR模型对月或季度尺度的降水总量及长期分布特征的模拟效果较佳[14],在月降水总量等指标上精度较高[6]。但本文侧重于探讨日尺度上降雨的模拟精度及极端降雨模拟效果,因此选取降雨量均值、标准差、降雨天数、极端降雨天数、日最大降雨量等作为统计指标。表3和4分别列出了率定期及验证期各雨量站点降雨的相关评价指标。

由表3和表4可以发现,无论是率定期还是验证期,SVR模型估计出的日降雨量均值及标准差均严重偏小,而降雨日数严重偏大。这是因为SVR模型会预测出大量小于0.1 mm/d的“微型降雨”,这些微型降雨在增加了降雨日数的同时,减小了所有湿润日的均值及方差。相比之下,RF-SVR模型由于加入了干湿日分类这一步骤,几乎不会产生“微型降雨”,对于降雨日数的估计较为准确,降雨量均值和标准差也更接近于实际值。对于极端降雨的估计方面,率定期RF-SVR模型对于极端降雨日数及日最大降雨量的估计值均等于或十分接近于真实值,但验证期RF-SVR模型对于极端降雨日数及日最大降雨量的估计值均偏小。SVR模型在率定期及验证期对于极端降雨日数及日最大降雨量的估计均严重偏小,整体来看RF-SVR模型对于极端降雨日数及日最大降雨量的估计也明显优于SVR模型。综合上述分析,RF-SVR模型降尺度的效果优于普通SVR模型。滦河流域干旱少雨,且30 mm/d以上的降雨量仅占湿润日总降雨量的约4%,50 mm/d以上的降雨量仅占湿润日总降雨量的约0.9%。样本数量的有限影响了极端降雨的预测效果。

表3 率定期各雨量站点湿润日的回归统计指标

表4 验证期各雨量站点湿润日的回归统计指标

4 讨 论

本文评价了RF-SVR统计降尺度方法对滦河流域典型雨量站日降雨量预测的效果,发现建立的统计降尺度模型模拟的滦河流域日降雨量偏差与普通SVR模型相比显著减小,更接近于实际值,并且在预测日极端降雨方面的表现也优于SVR模型。这与其他学者对于先分类、后预测的混合统计降尺度模型的研究结果相一致[20]。

但本文验证期内RF-SVR模型对于极端降雨日数及日最大降雨量的估计均偏小。这是因为滦河流域干旱少雨且小雨居多,10 mm/d以上的降雨量仅占湿润日总降雨量的10%左右,用于极端与非极端日降雨量分类的样本正负均衡性较差,导致随机森林分类模型训练过程中倾向于将更多数据分类为非极端降雨,这是导致验证期模型效果不如率定期的主要原因之一。如何克服样本正负均衡性差的局限性,实现极端降雨与非极端降雨的准确分类,进而提高气候变化下日极端降雨的估计精度,为降低气候变化带来的灾害风险提供科学依据,仍有待进一步研究。

5 结 论

利用RF-SVR统计降尺度方法预测了滦河流域典型雨量站的日降雨量。该统计降尺度模型由两部分构成:降雨状态分类和降雨量预测回归。选用1961-2000年的NCEP/NCAR再分析资料及滦河流域10个雨量站点的降雨观测数据进行率定,并通过2001-2012年相应数据进行了模型的验证。可以得到如下结论:

(1)采用随机森林模型进行干湿日分类及极端降雨与非极端降雨的分类。结果证明验证期内干湿日分类模型分类精度均高于0.85,各雨量站点平均分类精度为0.87;极端降雨分类模型分类精度均高于0.73,各雨量站点平均分类精度为0.76。两种分类模型对极端降雨与非极端降雨以及干湿日均能进行准确可靠的区分。

(2)利用分类结果(极端降雨组及非极端降雨组)分别建立RF-SVR模型用于降雨量回归模型,并将回归结果与普通SVR模型进行对比。整体而言,RF-SVR模型的预测效果优于SVR模型,在极端降雨日数、日最大降雨量等指标上比SVR模型更接近于实测值。

(3)在建立极端降雨分类模型的过程中,阈值的选择对于模型预测效果有明显影响。本文尝试了30 mm/d及50 mm/d的阈值,但均因极端降雨与非极端降雨的样本量比例过于悬殊导致分类及后续的回归结果不理想。极端降雨样本数量的有限,影响了极端降雨预测效果的进一步改善。但模型对非极端降雨预测的效果比较理想。

猜你喜欢
雨量站日数降雨量
汉江上游汉中区域不同等级降水日数的气候变化特征分析
来安县水旱灾害分析与防灾措施探讨
德州市多年降雨特征分析
降雨量与面积的关系
信息熵方法在辽宁省不同分区雨量站网布设的应用研究
雨量站网布设对水文模型不确定性影响研究
1961—2016年汛期东天山北坡不同量级降水日数时空变化特征
天津市滨海新区塘沽地域雷暴日数变化规律及特征分析
雨量站网测量精度的评估
ESSENTIAL NORMS OF PRODUCTS OF WEIGHTED COMPOSITION OPERATORS AND DIFFERENTIATION OPERATORS BETWEEN BANACH SPACES OF ANALYTIC FUNCTIONS∗