顾学志,叶 磊,赵铜铁钢,欧阳文宇,张 弛
(1.大连理工大学 水利工程学院,辽宁 大连 116024;2.中山大学 土木工程学院,广东 珠海 519082)
降水是水循环过程的关键环节,是维持地球生命的重要淡水来源,是能量循环的重要载体,也是大气、海洋和陆地之间水量能量交换的重要过程,并强烈的影响地球的气候条件[1-2]。然而,降水(尤其是日尺度降水)的观测资料往往历史年份较短,且部分地区存在降水缺测或无资料等问题,导致无法为水和能量循环及气候变化等方面的研究提供完备的数据支撑[3]。日降水量的概率分布是降水随机模拟的重要前提与基础,通过开展日降水量概率分布的研究确定降水变量的统计特征,再利用基于降水统计特征的天气发生器可获得与实测降水统计参数相同且长度任意的模拟序列[4]。Pumo 等[5]利用基于伽马(G2)分布的天气发生器结合土地利用模型,生成一系列包含长度足够的日降水序列的情景方案组合用于驱动水文模型,研究水文循环对气候变化和人类活动的响应,解释气候和土地利用变化是如何相互作用和影响水文过程的。Zhu 等[6]将6 种概率分布生成的日降水序列输入到新安江模型当中,用于模拟极端洪水事件,评价各概率分布还原洪水真实风险的能力。除了研究降水量全序列的统计特征外,Papalexiou 等[7]的研究结果表明探究日降水序列的最优概率分布及其尾部特征,是研究极端降水事件特征、推求设计暴雨的另一条有效的途径。Koutsoyiannis[8]指出,常用于研究极端降水的年最大值和超阈值抽样法会遗漏降水序列中隐含的有价值信息,可能会导致低估暴雨设计值,而日降水序列保留了完整的极端降水信息,可以有效地解决低估暴雨设计值的问题。因此,研究日降水概率分布对降水径流模拟、水库调度及水资源规划配置、农业规划、极端事件、气候变化等方面的研究均具有重要意义[9-14]。
20 世纪50年代开始就有学者对降水量的概率分布选择进行研究,早期的研究多推荐使用两参数的G2 分布来拟合日降水序列。Buishand[15]对不同国家的6 个雨量站的日降水序列进行模拟,指出日降水量序列的变差系数与偏态系数的经验比值与G2 分布的理论比值十分接近,从而认为日降水量的统计特征可由G2 分布描述。Geng 等[16]的研究表明G2 分布函数的形状参数可以较好地描述日降水量的正偏态性,并与降水量大小密切相关,得出日降水量服从G2 分布,可由G2 分布模拟的结论。除G2 分布外,两参数的威布尔(W2)分布也用常于日降水量的拟合与模拟。Duan 等[17]的研究指出由基于W2 和G2 分布的天气发生器产生的合成降水与实测的日降水量最为接近。
G2 分布虽然是迄今最为普遍使用的日降水量分布模型,但随着降水资料的延长、极端降水事件的频发,结构简单的G2 分布已经很难描述日降水全序列特征,如右尾处的极值特征。因此,日降水的概率分布选择从最开始结构简单的二参数G2、W2 等分布逐步向参数更多、更加灵活的偏正态分布、对数正态(LN3)分布、皮尔逊-Ⅲ型(P-Ⅲ)分布、卡帕(KAP)分布等方向转变[18-19]。Shoji 等[18]的研究指出LN3 分布对日本中部地区不同时间尺度降水序列的拟合效果均很好,适用性要优于W2 分布。Ye 等[19]开展了美国点尺度和流域尺度的日降水频率分析,结果表明G2 已经无法完备描述日降水的统计特征,参数更多P-Ⅲ和KAP 分布优势明显。除了单分布概率模型外,混合分布模型也常用于日降水序列的拟合,Li 等[20]采用指数—广义帕累托(E-GPA)混合分布对美国德克萨斯州日降水序列进行拟合,探究其模拟降水全序列的能力,虽然混合模型可以针对降水序列不同频段的特征,采用不同的概率分布来“分而治之”,但其在模型结构上复杂度更高、参数更多、参数估计方法更复杂,不易于推广与应用。
国内对日降水概率分布的研究,目前多集中在特定季节、特定区域以及降水极值部分,尚未见到对全国范围且完整的降水量序列开展概率分布的研究。在选择分布时,并未有通用、普适性的概率分布模型得到验证,多凭借经验选择G2 等分布[21-25]。Li 等[21]采用早期研究中推荐使用的指数(E)、G2、W2 等结构简单的分布以及混合概率分布拟合日降水量,仅考查了其模拟中国黄土高原地区日降水统计学特征的能力。刘学华等[22]和梁莉等[23]采用G2 分布分别拟合全国174 个站点夏季逐日降水序列和淮河流域158 个雨量站的夏日降水量序列,分析了无条件雨日和有条件雨日的降水概率特征。赵琳娜等[24]采用G2 分布模拟分析了中国东南地区台风小时降水总量的概率分布特征,得到了降水累积概率分布和极端降水阈值。廖要明等[25]采用基于G2 分布的天气发生器对中国各地的逐日降水进行模拟,并分析了G2 分布参数的空间特征。
为此,本文在全国范围内进行日降水量概率分布的适用性研究,以雨日(>0.1mm)降水量为研究对象,考查不同概率分布描述降水全序列统计特征的能力,并结合不同实际应用需求,给出可全面描述并重现日降水序列统计特征,且结构简单、参数少的全国日降水概率分布的空间分布图,以期为降水频率分析、随机模拟、气候变化等方面的研究工作提供借鉴。
本文研究采用中国气象数据网(http://data.cma.cn/)提供的全国气象站的日降水数据,选取日降水数据序列的时间长度不小于30年,且缺测率不大于1%的站点数据用于研究,最终选定820 个气象站点,其中数据长度范围为31 ~ 59年,大于55年的站点占比为95%。
针对雨日降水量序列,首先通过线性矩比值图选定潜在分布;接着采用线性矩法估计各潜在分布的参数并进行拟合优度评价,初步确定各气象站日降水量的最优概率分布;然后基于初步评价结果,对比参数个数不同分布的拟合效果,进一步制定不同的最优概率选择策略;再对参数个数不同但拟合效果相近的分布,开展基于天气发生器的蒙特卡洛模拟,考查评价各分布重现降水量不同分位值以及年际变异的能力;最后根据随机模拟值和实测值之间的偏差,选定不同模拟情形下的最优概率分布,并给出全国最优概率分布函数的空间分布。本文的研究方法和内容的技术路线流程图如图1 所示。
图1 研究方法及内容技术路线流程图
2.1 线性矩法及其比值图线性矩法是由Hosking 于1990年提出[26],定义为次序统计量线性组合的期望值,可以用概率权重矩的线性组合来表示,线性矩的计算公式:
式中:r 为线性矩λ 的阶数;k 为正整数; αk和 βk为变量总体的概率权重矩,可由次序样本Xi:X1≤X2≤…≤XN估算:
式中τ、τ3和τ4分别是统计量离散度(尺度)、偏度(形状)和峰度的度量。相比于传统的乘积矩,线性矩比值的重要特点是其变化范围存在界限。
线性矩及其比值λ1,λ2,τ,τ3,τ4主要用于参数估计,线性矩参数估计法相比于乘积矩法具有受样本长度影响小、对极值敏感度低的特点,因而比乘积矩法更稳健,也比极大似然法和概率权重矩法更简便[27-28]。线性矩的另一个关键应用是其比值图可用来缩小潜在概率分布的选择范围,以确定合适的概率分布[19]。将样本的τ3和τ4与候选潜在分布的理论关系绘制在同一张图上进行比较,样本的线性矩比值与概率分布的理论图形的接近程度可作为潜在概率分布的选择标准。其中,概率分布的各线性矩比值间的理论关系可通过多项式逼近方法确定[29],样本序列的线性矩比值可由式(1)(6)(7)计算得到。不同概率分布的τ3和τ4理论关系在线性矩比值图中表达形式不同:两参数的分布为点,三参数的分布为曲线,四参数的分布为面域。
2.2 降水量概率分布函数日降水量序列具有右偏和重尾的特征[20],针对此特征,目前常用于降水频率分析的概率分布[30]如表1 所示。
表1 常用于降水频率分析的概率分布函数
2.3 拟合优度评价本文采用均方根误差(RMSE)为指标对概率分布的理论频率曲线和经验频率点据间的拟合优度进行评价,该指标是理论值(模拟值)与实测值偏差程度的一种度量,其值越小表示拟合效果越好,是在各个研究领域中评价概率分布拟合效果或模型性能最常用的指标之一,计算公式如(8)所示。
式中: yi为按升序排列第j 个雨日降水量观测值;为按升序排列与第j 个雨日同频率下的降水量理论值; n 为雨日序列长度。
2.4 降水蒙特卡洛随机模拟RMSE 值衡量的是日降水数据全序列的综合拟合优度,但无法体现不同频段内的具体拟合效果。对于洪水研究更为关注的是日降雨序列中的大暴雨,而对于干旱研究更关注的往往是小雨,为给不同目的的应用提供依据,针对拟合优度相近的不同分布,开展蒙特卡洛随机模拟评价不同概率分布函数对日降雨序列不同分位点的拟合能力,基于此进行概率分布的优选更有针对性。蒙特卡洛模拟可用于分析抽样误差对分布拟合的影响,并通过适当地增加序列长度来减少抽样误差带来的影响[32],也是评价概率分布或参数估计方法适用性和稳健性[33]及不确定性[34]的重要手段,如果某概率分布的模拟结果更接近实测值或实测数据的统计特征,认为降水序列服从该概率分布[35-36]。模拟内容包括两部分,其一是采用降水发生模型来模拟降水的发生情况,其二是利用概率分布模型来生成符合实测数据统计特征的降水量序列[37],即本文的核心研究内容。
2.4.1 降水发生模型 降水的发生常用链相关的马尔可夫过程来模拟,马尔可夫过程的复杂程度由其状态数和阶数决定,状态数和阶数越多,模型就越复杂。研究表明一阶的马尔可夫链能够同高阶模型一样,可很好地描述降水发生等统计特征,已广泛应用于降水发生模拟[38-39]。本文选用一阶—两态的马尔可夫链来模拟重现降水发生。在一阶马尔可夫链中,第t+1日降水状态的概率仅取决于前一日t 的降水状态,降水的发生概率有两种情况:
式中:p01为非雨日之后发生降水的条件概率,p11为雨日之后发生降水的条件概率,可用条件概率公式进行计算;Xt为第t日的降水状态,1 和0 分别代表发生降水和不发生降水。
2.4.2 随机模拟过程 采用一阶—两态的马尔可夫模型随机生成降水发生过程,通过线性矩法估计实测降水序列对于不同概率分布的参数,用于确定概率分布的分位函数;采用均匀分布函数在[0,1]区间产生相应站点雨日长度的随机数,作为降水量的频率值;通过概率分布的分位函数计算相应频率下的分位数,获取随机模拟的降水序列,重复以上步骤1000 次(具体过程详见参考文献[38])。以模拟值50%、75%、99%、99.9%的分位点和年降水总量标准差(STD)分别代表日降水量序列的低值、中值、高值、极值以及年际波动情况,最后按照公式(11)计算模拟值和实测值的偏差来评价概率分布模型的性能。
式中: PObs为雨日序列各分位处及年降水量标准差的实测值; PSim为雨日序列各分位点及年降水量标准差的模拟值。
3.1 潜在概率分布理论分布和各气象站日降水量序列的L-偏度~L-峰度(τ3~τ4),如图2 所示。大部分气象站的经验关系点据落在P-Ⅲ曲线之上及周围,表明P-Ⅲ分布能够较好的描述这些站点的日降水统计特征。部分站点落在P-Ⅲ和GPA、LN3 分布之间。KAP 分布的理论区域是面域,以GLO 分布为上界,下界为分布函数的理论下限,所有站点的日降水序列数据的τ3~τ4的经验关系点据均在KAP 理论区域之内。结合国内外文献[15-25],最终选定G2、P-Ⅲ、GEV、GLO、GPA、LN3 和KAP 分布,为描述日降水量序列统计特征的潜在概率分布。
图2 线性矩比值
3.2 RMSE 评价结果用7 种潜在概率分布与日降水量序列进行拟合,以RMSE 为拟合优度的评价指标,各分布的RMSE 如图3 所示。KAP、P-Ⅲ和G2 相比于其它分布优势明显,这三种分布的RMSE和分位数如图4 所示。绘制KAP 和P-Ⅲ分布、P-Ⅲ和G2 分布的RMSE 散点图,重点考查这三种分布的拟合优度,部分气象站KAP 和P-Ⅲ的RMSE 值散点位于的1∶1 线附近,表明这两种分布描述这些站点日降水序列统计特征的能力很接近,如图5 所示。图6 表明对于几乎所有的气象站,P-Ⅲ的拟合效果要优于G2。总体上KAP 和P-Ⅲ分布要明显优于其它分布,而被普遍接受的G2 分布的拟合效果并不突出。
图3 7 种潜在概率分布的RMSE 值箱线图
图4 G2、P-Ⅲ和KAP 分布的RMSE 值箱线图
图5 P-Ⅲ和KAP 分布的RMSE 值散点图
图6 G2 和P-Ⅲ分布的RMSE 值散点图
基于RMSE 为评价指标,按照越小越优的原则,初步确定各气象站的最优概率分布,最优概率分布的空间分布如图7 所示。KAP 和P-Ⅲ分布有绝对的优势,其中以KAP 分布为最优分布的站点有605个(73.78%),P-Ⅲ分布191 个(23.29%),G2 分布14 个(1.7%),其余分布10 个。从拟合优度的评价结果来看,此前常用的G2 分布在中国的适用性很低,理论上是因G2 分布参数少,灵活性低于参数更多的P-Ⅲ和KAP 分布,很难较好地拟合日降水序列,尤其是当前观测资料不断延长与极端事件频发导致日降水序列呈现出更加复杂的统计特征。
图7 最优概率分布空间分布图(通过RMSE 值确定)
RMSE 值衡量的是理论频率曲线和经验频率点据之间的总体拟合效果,反映的是日降水数据全序列的综合拟合优度。对于总体拟合优度很接近的站点,如图5 中位于1∶1 线附近的气象站,不权衡概率分布参数的多少和降水量各分位的拟合效果,仅通过RMSE 值的大小来选择最优分布是不够充分的,需要深入考察KAP 和P-Ⅲ两种分布的拟合效果,直观展示不同的RMSE 值及其差值在拟合效果中呈现的差别,最终确定各气象站日降水序列的最优概率分布。
3.3 最优概率分布选择策略概率分布函数的结构越复杂、参数越多,就需要更多的数据才能准确估计分布参数。某些站点KAP 分布的RMSE 值虽然略高于P-Ⅲ分布,但两种分布因参数数量不同,KAP 分布不一定就是该站点最优的选择。因此需要综合考虑分布函数参数个数和拟合效果,对RMSE值KAP 大于P-Ⅲ的605 个气象站进行分类,确定两种分布RMSE 差值的2 个阈值,划分3 个区间,针对各区间制定不同的最优概率选择策略,对于难以直接判定最优分布的区间,开展蒙特卡洛随机模拟,最后结合实际需求确定最优概率分布。KAP 和P-Ⅲ分布的拟合效果分为3 种情形:
(1)对于KAP 和P-Ⅲ分布RMSE 值非常接近的站点,拟合效果的差别非常小,比较分析经验频率点据和理论频率曲线的拟合情况,选定0.035 为两种分布RMSE 差值的“阈值1”。56444 号气象站两种分布的RMSE 差值为0.034,图8(a)为KAP 和P-Ⅲ分布拟合该站日降水全序列的效果图,图8(b)—(d)为拟合效果的局部放大图。图8(b)(c)中两种概率分布的累积频率曲线几乎完全重合,仅图8(d)中有细微差别。按照其他研究中直接根据拟合优度指标的大小来选取最优分布的原则,通常会选择KAP 作为最优分布。如果权衡参数数量和拟合效果,选择KAP 作为最优分布并不合适。因此当KAP 和P-Ⅲ的RMSE 差值小于“阈值1”时直接选取参数更少、对数据长度要求更低的P-Ⅲ分布作为最优分布,有24 个气象站属于此类情形。
图8 KAP 和P-Ⅲ分布拟合56444 号气象站日降水序列效果
(2)对于KAP 和P-Ⅲ分布RMSE 的差值大于0.64 的站点,KAP 在日降水全序列范围内的拟合效果几乎均明显优于P-Ⅲ,参数少的P-Ⅲ分布不足以描述此类气象站日降水序列的统计特征。如图9 所示,53663 号气象站两种分布RMSE 的差值为0.651,除了个别分位处P-Ⅲ的拟合效果好些,KAP 分布拟合降水量的其它分位时明显占优。选定0.64 为“阈值2”,当两种概率分布RMSE 的差值大于“阈值2”时直接选择KAP 作为最优分布,有240 个气象站属于此类情形。
图9 KAP 和P-Ⅲ分布拟合53663 号气象站日降水序列效果
(3)当KAP 和P-Ⅲ分布RMSE 的差值在两个阈值区间0.035 ~ 0.64 时,拟合效果可分两类:其一,KAP 和P-Ⅲ分布在不同降水量分位点处各有优势;其二,经验频率点据介于两分布的理论频率曲线之间。54808 号气象站两种分布的RMSE 差值为0.037,如图10 所示,KAP 拟合降水量中低值表现更佳,P-Ⅲ拟合降水量中高值更优,而在极端降水处,两种分布的拟合效果相近。54213 号气象站两种分布RMSE 的差值为0.63,拟合情况如图11 所示,与54808 号气象站相比,P-Ⅲ分布的优势分位区间逐渐变小。有341 个气象站属于此种情形,对于此类气象站,开展基于天气发生器的蒙特卡洛随机模拟,确定不同降水量分位点的最优概率分布,四个代表站KAP 和P-Ⅲ分布的RMSE 值及其差值如表2 所示,开展蒙特卡洛模拟的气象站的空间分布如图12 所示。
图12 开展蒙特卡洛随机模拟的气象站空间分布
表2 四个代表站KAP 和P-Ⅲ分布的RMSE 值及其差值(分位值为对应图4 中箱线图的分位)
图10 KAP 和P-Ⅲ分布拟合54808 号气象站日降水序列效果
图11 KAP 和P-Ⅲ分布拟合54213 号气象站日降水序列效果
3.4 蒙特卡洛模拟开展蒙特卡洛模拟,分析KAP 和P-Ⅲ分布模拟341 个气象站日降水量序列的低值、中值、高值、极值以及年际变化能力(KAP 和P-Ⅲ分布模拟各气象站年平均降水量的结果非常接近,与实测值的偏差微小,为此本文着重对两概率分布模拟降水量的年际变化波动能力进行评价),以1000 次模拟结果的均值为最终结果,如图13 所示:
图13 KAP和P-Ⅲ分布在日降水序列不同分位点处及年降水量标准差的实测值和模拟值散点
(1)KAP 分布在50%分位处的模拟结果普遍好于P-Ⅲ分布,由于KAP 分布的参数更多,灵活性更好,可以更好地描述降水序列的低值部分的统计特征。
(2)KAP 和P-Ⅲ分布在75%分位处的模拟结果很接近,均可以很好地描述降水序列的中等值处的统计特征。相较于其它分位,两种概率分布模拟还原降水中等值部分的能力最强。
(3)KAP 分布在99%分位处的模拟效果总体上略好于P-Ⅲ分布,对于此分位处降水量较小的站点,KAP 和P-Ⅲ分布的模拟结果相当,均可以很好地描述降水序列的高值部分。P-Ⅲ分布由于在右尾处收敛的速度相对快些,随着降水量的增大,更倾向于低估降水数值,对于此分位处降水量较大的站点,KAP 的模拟效果要好于P-Ⅲ分布。
(4)KAP 和P-Ⅲ分布在99.9%分位处的模拟结果特征相反,KAP 更易高估极端降水,而P-Ⅲ倾向于低估极端降水,表明KAP 分布的重尾特性,与图10(d)、11(d)中经验频率点据介于两概率分布理论频率曲线之间的拟合效果相符。
(5)其相比于模拟不同分位处的降水量,KAP 和P-Ⅲ分布在模拟还原年降水总量的年际波动时,倾向于低估其标准差,尤其是当年降水量较大时,这种低估更加明显,这种现象可能与选择一阶的马尔可夫链来模拟降水的发生有关。总体上KAP 的模拟降水量年际波动的能力略强于P-Ⅲ分布。
3.5 最优概率分布的确定以1000 次蒙特卡洛随机模拟结果的均值与观测值的偏差为评价指标,比较降水量概率分布模拟日降水序列低值、中值、高值以及降水量年际变异的能力,并以此为依据选择最优概率分布。在开展模拟的341 个气象站中,以各分位及年降水总量标准差的偏差值为依据选择的最优概率分布的站点数量如表3 所示。随着分位的增加,以P-Ⅲ为最优概率分布的站点数量上升,表明P-Ⅲ分布模拟降水序列中、高值部分的能力要优于拟模拟低值部分的能力。
表3 KAP 和P-Ⅲ作为随机模拟日降水序列不同分位和标准差的最优概率分布数量
根据RMSE 值和蒙特卡洛随机模拟的结果,最终确定全国范围内各气象站点的最优的概率分布,最优概率分布的区域特征按照气候、地理和流域分区进行分析总结,如图14-16 所示。
图14 最优概率分布空间分布图(气候分区)
(1)气候分区。在季风气候区内,KAP 和P-Ⅲ分布有明显的区域特征,而在其它气候区内两种概率分布交错分布。KAP 分布的优势区域主要集中在亚热带季风气候区中东部、温带季风气候区北部,P-Ⅲ分布的优势区域集中在亚热带季风气候区西部和温带季风气候区南部,在亚热带季风气候东部沿海有小范围聚集现象。对于降水的高值分位点,P-Ⅲ分布的优势区域在高原高山气候区、温带大陆性气候区、温带季风气候区和亚热带季风气候区四种气候分区的交界处更加集中,同时P-Ⅲ分布可以更好地模拟高原高山气候区内降水量的年际波动。受多种类型气候的综合影响,日降水量更倾向于服从P-Ⅲ分布,而受季风影响显著的区域,KAP 分布更为适用。
图15 最优概率分布空间分布(地理分区)
图16 最优概率分布空间分布(流域分区)
(2)地理分区。KAP 分布作为最优概率的空间分布范围广泛,在东部地区较西部更为适用,尤其在东北、华中和华东中部地区,KAP 更是占据主导地位,仅少量P-Ⅲ分布零星散布其间,KAP 分布在这些区域模拟各个分位点的降水量有显著优势,同时KAP 分布能够更好地描述华中、华东和华南大部连片区域的降水量年际波动;P-Ⅲ分布有4 个集中的优势区域:华南西部-西南东部-西北东部沿线一带、西北地区中部、新疆中部、华北中部-华东北部一带。P-Ⅲ在华东地区作为降水中等值分位点处的最优分布数量明显增多,并可以更好地模拟青藏高原降水量年际波动。对于高值-极值分位点的降水,P-Ⅲ分布的优势区域在华南西部-西南东部-西北东部沿线一带更加集中。随着分位数的增大,P-Ⅲ分布作为最优分布的站点数量有上升的趋势,分布范围扩大。
(3)流域分区。相比于地理和气候分区,各流域分区内的最优概率分布呈现出更加明显的区域特征。在黄河流域,P-Ⅲ分布作为降水高值分位点的最优概率分布的区域更集中,主要集中在黄河上游及渭河流域内。对于其它分位点,KAP 分布是黄河流域的优势分布。长江流域中下游地区是KAP分布的集中优势区域,占据绝对的优势,而P-Ⅲ分布在长江上游地区东部分布较集中,总体上,长江流域的最优概率分布空间特征由上游至下游呈现出KAP~P-Ⅲ~KAP 的变化规律。淮河流域的优势分布为KAP,P-Ⅲ仅分布在流域北部一带。珠江流域西江上游为P-Ⅲ分布的优势区域,而西江中下游和东江流域为KAP 分布的集中分布区域。在黑龙江流域内,KAP 分布可以更好地描述降水低值-中值和极值分位点处的统计特征,P-Ⅲ分布零星散布在流域西部一带。在内陆河流域,随着降水分位的变大,P-Ⅲ分布的范围扩展明显。此外P-Ⅲ分布可以更好地模拟西南诸河流域内降水量的年际波动。
在选择概率分布开展研究和应用时,可根据实际需求情形,结合最优概率分布的空间分布进行选择。当对气象灾害、洪涝、水土流失等方面开展研究时,关注的一般是降水序列高分位,即降水高值和极值部分,因此可以按照99%和99.9%分位点的最优概率分布进行选择,以更加准确地模拟还原该频段内的降水量;对干旱方面的研究时,关注的是降水低值部分,除了研究降水发生模型外,在选择模拟量的概率分布模型时,可按照50%分位处的最优概率分布进行选择;在进行中长期径流模拟、水资源规划配置时,关注的是可以形成有效径流的降水量及其年际波动情况,选择概率分布时,可以降水中、高值分位数和反映年降水量真实波动的最优概率分布空间分布图为依据进行选择。
本文以覆盖全国的820 个气象站的雨日降水数据为研究对象,借助线性矩比值图、拟合优度评价、天气发生器以及蒙特卡洛模拟等方法,力求在全国范围内寻求具有普适性的最优概率分布,并为概率分布的选择和评价提供了一套通用的流程,以期为降水模拟、降水频率分析、气候变化研究提供基础支撑。本文的结论如下:
(1)线性矩比值图和均方根误差的计算结果表明,在全国范围内KAP 分布的适用范围最广,P-Ⅲ分布次之,G2 分布在中国并不适宜广泛应用。
(2)通过基于天气发生器的蒙特卡洛随机模拟,深入考察拟合优度很相近的KAP 和P-Ⅲ分布模拟不同降水分位点(频段)及降水量年际变化的能力,以此为依据进一步确定最优概率分布。结果表明在气候、地理和流域三类分区内,P-Ⅲ分布作为最优分布存在3 ~ 4 个较明显的集中分布区域,在这些区域P-Ⅲ分布足以描述日降水序列的统计特征,并不需要使用更复杂的KAP 分布。
(3)在选择概率分布模型进行降水模拟、频率分析、气候变化等研究时,可以本文的研究结果为依据,结合研究目的和工程应用来确定研究区的最优概率分布,以最大程度减少因选择概率模型不当而造成的偏差。