倪世纬 罗 兰 饶品隆
(万年县水利局,江西 万年 335500)
在水文要素分析中,运用理论频率曲线对其特征进行分析是一种常见的研究手段,其主要的思路为根据水文要素的样本数据,使用曲线进行拟合,使样本值和理论值之间的误差尽量最小。以径流量为例,国内外学者对其分布规律进行了大量的研究。方彬等[1]概述了枯水径流量频率分析的研究进展,采用低定量取样,应用负二项和指数分布分别拟合低定量系列的年发生次数和量级构成混合分布,并与皮尔逊Ⅲ型(P-Ⅲ)分布进行比较;孙照东等[2]采用频率分析法、流量历时曲线法分析了黄河部分水文站平均流量的特征;占润进[3]根据赛江干流白塔站长系列径流资料,采用累计曲线法、累积平均值曲线法等方法计算比较枯水流量,提出该地区生态用水量的合理取值。应针对不同河流选择不同的分布模型,常用的频率分布模型主要有Weibull分布、P-Ⅲ分布、Gumbel分布、广义极值分布和广义Pareto分布等。
但是在自然界中,不同河域、不同河流、同一条河流的不同位置,其流量的概率分布情况也不一样,目前常采用适线法进行流量累计频率曲线的选型和累计频率的计算,这种方法优点在于比较灵活地考虑多种因素对分布曲线的影响,缺点在于人的主观性较强,不同的人即使采用同一种分布函数,得出的结果可能差异也较大,且计算时间较长。
因此,本文提出了一种基于偏态系数Cs和峰度系数Ck相对关系的径流量累计频率曲线初步选型的方法,并将此方法选出的曲线与Weibull分布曲线、Gumbel分布曲线和广义极值分布曲线的拟合优劣程度进行了对比,所得成果可为类似工程设计提供参考。
Weibull频率分布是瑞典物理学家威布尔(W.Weibull)在1939年提出的[4]。随机变量的分布函数表达式为
(1)
式中:ξ为位置参数;α为尺度参数;κ为形状参数。
在3个参数确定下来之后,Weibull分布的频率分布函数也能确定。当κ=1时即为指数分布函数。
位置参数、尺度参数、形状参数与偏态系数Cs和峰度系数Ck的对应关系如下:
(2)
(3)
Gumbel频率分布函数是由耿贝尔(E.J.GUMBEL)于1941年提出[5],其频率分布函数的表达式为
(4)
相关参数的含义与上式一致。
位置参数、尺度参数、形状参数与Cs、Ck的对应关系为:Cs为固定值1.14,Ck也为固定值5.4。
广义极值分布(简称GEV分布)的表达式为
(5)
相关参数的含义与上式一致[6]。
位置参数、尺度参数、形状参数与Cs、Ck的对应关系为
(6)
(7)
广义Pareto分布(简称GP分布)函数是专门用于描述超过某一阈值的所有数据资料的概率分布函数[7],其随机变量的概率分布函数为
(8)
该分布函数的位置参数、尺度参数、形状参数与Cs和Ck的对应关系如下:
(9)
(10)
本文通过分析样本的偏态系数Cs和峰度系数Ck,提出一种快速进行初步选型的新方法,过程为:首先通过4种分布函数的Cs和Ck的公式计算并绘制分布函数的Cs-Ck的关系曲线;然后计算出径流量样本的Cs与Ck的数值,并将其绘制到上述Cs-Ck曲线图中;最后选择与样本点距离最近的理论分布曲线作为拟合曲线。
该方法的物理含义:偏态系数Cs反映样本的对称性,峰度系数Ck是反映样本频率分布曲线顶端尖峭或扁平程度的指标,当理论分布曲线能较好地拟合出样本的对称性和频率曲线的扁平程度时,该理论分布曲线与样本的吻合较好。
参数估计的方法主要有矩估计法和线性矩估计法,矩估计法是利用样本矩与总体矩的相关关系进行参数估计,线性矩估计法是利用样本线性矩与总体线性矩的相关关系进行参数估计,本文选择利用样本的矩估计法进行参数估计。
本文以江西省万年县荷塘水文站长序列(1978—2011年)的径流量参数为统计样本。荷塘水文站位于饶河水系昌江一级支流荷塘水中上游,鄱阳县荷塘垦殖场路家岭村,控制流域面积16.3km2。荷塘水文站于1978年1月设立并开始观测,该径流量样本均已按规范要求整编,资料精度可靠,代表性较好。实测资料中包含了1993年、1998年等丰水年,1997年、2008年等平水年,1979年、2007年等枯水年,这些典型年在该地区水文系列年中具有一定的代表性。实测资料长达34年,也具有较高的代表性,能够反映该位置处径流的特点。
样本的累计频率计算公式为
(11)
式中:m为将样本从大到小进行排序的编号;n为样本的个数;P为每个样本值所对应的累计频率值。
将计算得到的每个样本值对应的P绘制到概率格纸中,即可得到样本的累计频率分布散点图。
年径流量分布曲线以年径流量为横坐标,累计频率为纵坐标,从而反映出研究区域不同频率所对应的年径流量的大小。
本文以实测的34年的荷塘水文站的年径流量数据为样本,首先计算常见的4种分布函数的Cs与Ck的关系,绘制Cs-Ck的关系曲线;然后计算出样本的Cs与Ck的数值,并将其绘制到Cs-Ck曲线图中;最后选择与样本点距离最近的理论分布曲线作为拟合曲线。根据34年的实测资料,可得年径流量的时间过程线,期间年最大径流量为1608m3(1993年),年最小径流量为356.4m3(2007年),年平均径流量为915.2m3,见图1。
图1 1978—2011年年径流量过程
基于分布函数的Cs和Ck公式,计算得到4种分布函数的Cs与Ck的关系曲线以及样本点的Cs、Ck值,见图2。
图2 偏态系数Cs和峰度系数Ck的关系曲线(样本+4种分布函数)
由图2可知,样本点距离GP分布曲线最近,而其与3种分布距离样本点较远,这说明GP分布曲线能够较好地模拟出样本的对称性和样本频率分布曲线顶端的扁平程度。
曲线拟合的准则为照顾点群的趋势,尽量使曲线通过点群中心。为了定量比较不同分布函数的拟合效果,对拟合的结果进行K-S检验,K-S检验是以两位苏联数学家Kolmogorov和Smirnov的名字命名的,它是一个拟合优度检验[8]。K-S检验通过对两个分布之间的差异进行分析,判断样本的观察结果是否有显著性差异。检验统计量为
z=Max|Fn(x)-F(x)|
(12)
式中:F(x)为理论的频率;Fn(x)为样本的频率。
根据荷塘水文站34年的年径流量数据,采用4种分布曲线,使用矩估计法绘制得到累计频率分布曲线(见图3)。由图3可知,4种分布曲线在中部的拟合结果都较好,但是在顶端拟合效果相差较大,由于GP分布曲线在顶端穿过了点群中心,因而能更加准确反映径流量的大值,拟合效果最好。
图3 4种分布函数拟合结果
对4种分布曲线的拟合结果进行定量比较,4种分布对应的频率以及K-S检验结果见表1。
表1 4种分布对应的频率以及K-S检验结果
综合分析频率分布曲线和计算得到的频率结果可知,对于荷塘水文站的径流量拟合,采用GP分布曲线效果最好。
从数学意义上分析GP分布曲线拟合效果最优的原因:因为GP分布能模拟出与样本的偏态系数Cs和峰度系数Ck,从而可以较好地反映样本的顶部特征,从而拟合效果最好。
在水利工程设计中,往往涉及对工程地区河流径流量的累计频率分析,目前常用的方法是使用理论分布曲线进行适线得到工程所在区域的径流量重现期分布曲线,这种方法既有优点也有缺点。本文通过分析荷塘水文站多年连续的径流量样本的偏态系数和峰度系数,提出了对样本进行快速初步选型的新方法,并将该方法选择出的分布曲线与Weibull分布、Gumbel分布和广义极值分布曲线得到的拟合结果进行定性和定量的拟合误差分析,拟合结果充分表明:采用GP分布曲线对荷塘水文站径流量的拟合效果最好。