张少伟,杨勤科2,,陆广勇
(1.中国科学院水利部水土保持研究所,陕西杨凌712100;2.西北大学城市与环境学院,西安710069)
在水文径流、土壤侵蚀和污染迁移模型预测中使用高时间分辨率的降雨强度数据可以大幅提高模型的动态预测能力[1-2],然而我国大多数气象站点仅提供日降雨观测数据,时间间隔更小的雨强数据难以获得,因此如何使用现有的气象观测数据来估计出应用中适用的雨强数据就显得十分重要。Kandel等指出使用2 min间隔的雨强观测数据进行土壤侵蚀模拟的有效系数为0.8,而使用日降雨则仅仅为0.26,直接使用日降雨数据的模拟结果不佳是由于时间的平滑作用[3]。由于连续观测的雨强数据难以获得,雨强随时间分布研究作为一种改善降雨数据质量的折中方式应运而生[4],它通过使用现有的理论统计分布函数对雨强的时间分布进行描述,获得特定地区雨强统计分布曲线。雨强分布研究起源于降雨分解研究,通过对雨强统计分布的随机分解实现了大量随机天气发生器,另外雨强分布也可以通过转化直接应用于预测模型[3]。国内研究主要集中于降雨强度的应用方面,典型研究有谢云利用雨强进行降雨侵蚀力和降雨特征及其区域分异的研究[5-6],而如何表现雨强理论分布形态的研究鲜有发表。本文将以陕北地区两个典型气象站点长时期降雨强度累计资料为基础数据,探讨该区域小时雨强在月时间尺度上的理论分布方式,本研究对于改进和完善区域土壤侵蚀定量评价技术具有重要意义。
本文选择绥德站和延安站分别代表黄土丘陵I副区和黄土丘陵II副区进行研究。该区属于中温带干旱大陆性季风气候,降雨少且不匀,夏季多雨,冬季受干燥少雨,降雨主要集中在5-9月时段,4月和11月只有少数年份有降雨,其它月份几乎没有降雨。本文使用的降雨观测数据为延安、绥德两气象站点的逐日小时降雨观测资料,来自陕西省降水强度数据集,每日的观测从20:00开始,1961-2000年共40 a的连续观测。
为了能够进行月雨强样本的数值计算,选取3个条件对数据进行筛选:(1)整个月份的降雨记录完整无缺;(2)参照Anderson在日雨强分布的研究,本文选择小时雨强大于阈值(1.0 mm/h)的降雨用于月雨强分布估计,这样可以消除较小的雨强数据观测本身的误差,另外水文和土壤侵蚀研究中也更关心较大的降雨强度;(3)由于参数估计方法的数学限制,月内降雨的小时数必须不少于4个[7]。根据上述条件进行数据筛选后,获得可用于月降雨强度分布拟合的月份样本,延安站样本226个,绥德站190个。
本文将使用7种不同的理论分布函数对月雨强分布进行描述,并评价其适合程度,7种理论分布函数的简称、全称见表1,各种分布函数需要的参数个数在括号中标出。指数分布仅有一个参数,通用极值分布参数为3个,其他分布均为两个参数,带有星号的理论分布函数为3种极值分布类型。陕北地区降雨常出现短时暴雨,强降雨对土壤侵蚀的作用巨大,而极值分布常用于描述数据中的极端值,因此特别将3种极值分布包含在内。
表1 理论分布函数
目前进行参数估计的方法有矩估计法、最小二乘法和最大似然法等。最大似然法利用样本的联合密度函数达到最大进行参数估计,与理论分布函数的形式联系更加紧密。前两种方法在降雨分布研究中有应用,如Anderson等在澳大利亚日降雨分布研究中使用了矩估计法进行参数拟合[4],Ming Li在尼迫尔的研究中采用了最小二乘法[8],但一般而言矩估计法多用于大样本的参数估计,最小二乘法则多用于线性回归的参数估计,因此本文采用的最大似然法进行参数估计,其进行参数估计的根据是最大似然函数值最大。
经过参数估计并带入理论分布函数的数学形式,即可得到完整的月降雨强度理论分布函数,该函数有概率密度函数和累计分布函数两种形式。累计分布函数形式用来描述小于变量的值出现的概率之和,其反函数被称为反累计分布函数。将降雨量总和作为约束条件,在理论分布函数上按一定规则进行采样即得到理论估计的降雨强度。本文重点在于探讨适用于陕北月雨强分布的理论函数,采样规则利用观测雨强序列的超越概率(Probability Of Exceedance),首先将月降雨强度序列进行排序,对应有效降雨强度(P1≤P2≤…≤Pi),第i个雨强在理论分布函数上对应有超越概率xi,Cunnane的研究中将超越概率的计算方法定义为[9]:
式中:m——有效降雨强度数值的个数,将超越概率xi代入反累积分布函数即可得到对应的估计雨强值,估计雨强集合即为理论降雨强度序列。
本文对各种理论分布函数与降雨强度分布之间吻合度的评价有两个方面,一是选择有效系数作为定量标准评价理论分布和观测月降雨之间的吻合程度,将样本个数10%和50%分位数上的有效系数作为标志。有效系数COE(Coefficient of Efficiency)用于评价两个数据序列的差异大小,本文中用于表现月样本的观测降雨强度序列(Pi)和估计降雨强度序列(ˆPi)之间差异的大小,COE计算方法为[10]:
式中:Pi ——观测降雨强度的均值;m——当月雨强序列中小时雨强的个数,每个月降雨样本可计算出一个有效系数。评价的另一方面是检测理论分布函数对月降雨强度最大值的描述能力,用理论分布函数计算出的理论雨强峰值和观测雨强峰值计算有效系数和决定系数,决定系数代表观测值和理论值之间相关性的大小,有效系数代表直接用理论值代表观测值的有效性。
对延安、绥德两站小时降雨数据进行整理,获得两站的月降雨的小时记录,以月样本作为研究对象进行月雨强分布研究。陕北黄土高原地区冬季降雨稀少,40 a中符合数据筛选要求的月份主要集中在5-9月,绥德这5个月的平均降雨小时数为:9.7,13.9,21.3,22.8,21.7 h,延安站5个月的平均降雨小时数略大于绥德,分别是14.2,16.2,24.9,27.0,23.8 h。利用月降雨样本结合最大似然法进行参数估计,分别完成7种理论分布函数的参数拟合。
将理论降雨强度序列与月降雨观测数据进行比较,以观测数据作为标准计算有效系数COE,从而评价各种理论分布函数对月降雨分布的描述和重现能力。当月内的有效降雨小于10 h时,GEV分布估计的降雨出现极大的偏差,其它6种理论分布函数的均方根误差如图1所示,可见LOGN、GAMA和WBL三种函数较好地再现了月降雨强度分布。
图2为LOGN、GAMA和WBL在延安站COE值的分布,图中标出了样本个数50%和10%分位数的位置。这3种理论分布与实测月降雨吻合最好,延安站分别有50%的月份COE值大于0.90,0.89,0.89,同时仅有10%的月份COE小于0.73,0.72,0.74;绥德站有50%的月份COE值大于0.88,0.86,0.87,同时仅有10%的样本COE小于0.73,0.73,0.75。可见3种理论分布函数对月雨强的整体描述能力相当,延安和绥德两站的情况一致。
图1 理论分布函数的RMSE
其他几种理论分布函数中,EXP分布为单一参数的理论分布函数,对月降雨分布的表达能力不佳,两站均有20%左右的月份COE值小于0,因此认为EXP分布不适用雨强分布统计。GP和GUMB分布的COE值优于EXP分布,但仍出现部分负数。值得注意的是,COE值负数的月份有效降雨的小时数较少,这种情况下不利于理论分布函数的参数估计,可能是导致COE值负数的原因。GEV分布的COE值中出现个别非常大的负值(E5数量级以上),该分布为三参数理论分布函数,除了均值和方差外还有一个形状参数对其性质起决定作用,忽略对形状参数的约束导致该分布直接应用于月雨强分布时出现个别极端值。
图2 延安站不同理论函数分布的COE
降雨强度峰值是水文、土壤侵蚀等研究中需要考虑的重要因素[11],因此本文不仅考虑了理论分布函数对月降雨整体的模拟能力,同时将降雨强度峰值在理论分布函数上的表达和再现作为另一评价标准。文中降雨强度峰值即月雨强序列的最大值,根据月降雨强度峰值对应的超越概率,可以计算累积分布函数对应的理论雨强峰值,将各月降雨强度峰值和理论峰值绘制散点图,并计算有效系数COE和决定系数R2,决定系数代表观测值和理论值之间相关性的大小,有效系数代表直接用理论值表示观测值的有效性。
GEV分布的有效系数COE和决定系数R2出现异常,其他6种理论分布的COE值和R2见表2,可见极值分布对月雨强峰值的模拟相当好,特别是GUMB分布在两个站点的雨强峰值COE值均达到0.85,决定系数达到0.98,对雨强极值模拟的适用性非常好。GP分布是另一种能有效表现雨强极值的理论分布函数,但值得注意的是WBL分布虽然不及上述两种理论分布对表现好,但对月雨强分布整体的模拟也有良好的效果,是一种适用于陕北月降雨分布模拟的理论函数。
由图3可以看出,GP、WBL、GUMB三种理论分布函数对雨强极值的模拟效果良好,COE值均超过0.7,表现了直接用理论值来表达观测雨强极值是可行的。但理论雨强峰值仍倾向于低估雨强峰值,多数的研究结果中也有类似的结论,即人为模拟极端降雨时偏向于低估其值,此三种理论分布函数多年平均的低估值依次为11%、17%和15%。值得注意的是理论值和观测值之间有很强的线性关系,WBL分布决定系数值超过0.85,GP、GUMB分布超过0.95,因此有可能在特定站点用理论雨强峰值的线性变换来进一步提高对观测值的表达精度。
表2 雨强峰值有效系数COE与决定系数R2
图3 延安站不同理论函数分布对最大降雨强度的估计
(1)利用历史降雨强度数据,通过最大似然法进行参数拟合,LOGN、GAMA和WBL三种理论分布函数能够较好地再现月降雨强度分布。三种理论分布函数对月雨强的表现能力相当,LOGN分布略优于其它两种分布。
(2)降雨强度峰值是水文、土壤侵蚀研究中的重要参数,GP、WBL、GUMB三种理论分布函数较好地再现了月降雨强度峰值,极值分布GUMB明显强于其它理论分布函数。理论分布对降雨强度峰值有一定的低估,低估的范围约15%左右,理论模拟的雨强峰值和观测值有很好的线性关系。
(3)对陕北小时雨强在月时间尺度上的分布来说,WBL是一种有用的理论分布函数,虽然其对月雨强分布和月雨强峰值的表现均不是最好,但作为一种极值分布,它同时对二者有较好的再现。在陕北气候降雨条件下对月降雨强度分布进行模拟时,WBL分布将是一种行之有效的理论分布函数。
通过月降雨强度理论分布研究,表明将WBL分布应用于陕北黄土高原两个典型气象站点月雨强分布的表达有明显优势,但在整个黄土高原上是否适用仍需要更多典型站点资料进行验证。另外通用极值分布GEV是一种被广泛应用的理论分布函数,但本研究中未能成功对其形状参数进行约束,因此在研究中加入适用于月降雨分布的约束条件十分重要。最后,Kandel等研究中应用了LOGN分布来表现日雨强分布,但本研究中该分布表现月雨强极值的效果不佳,在陕北的日雨强分布是否符合LOGN分布也有待进一步研究。
[1] Koutsoyiannis D.Rainfall disaggregation methods:theory and applications[C].Workshop on Statistical and Mathematical M ethods for Hydrological Analysis,2003.
[2] Zhang X,Garbrecht J.Evaluation of Cligen Precipitation Parameters and Their Implication on Wepp Runoff and Erosion Prediction[J].Transactions of the ASAE,2002,46(2):311-320.
[3] Kandel D,Western A,Grayson R,et al.Process parameterization and temporal scaling in surface runoff and erosion modelling[J].Hydrological Processes,2004,18(8):1423-1446.
[4] Anderson B,Siriwardena L,Western A,et al.Which theoretical distribution function best fits measured within day rainfall distributions across Australia[C].30th Hydrology and Water Resources Symposium,2006.
[5] 谢云,林小鹃,殷水清,等.中国次雨量特征及其区域分异[J].地理学报,2009,64(3):323-330.
[6] 谢云,章文波.用日雨量和雨强计算降雨侵蚀力[J].水土保持通报,2001,21(6):53-56.
[7] Kirby W.Algebraic boundedness of sample statistics[J].Water Resources Research,1974,10(2):220-222.
[8] Li M,Shao Q,Renzullo L.Estimation and spatial interpolation of rainfall intensity distribution from the effective rate of precipitation[J].Stochastic Environmental Research and Risk Assessment,2010,24(1):117-130.
[9] Cunnane C.Unbiased plotting positions:a review[J].Journal of Hydrology,1978,37(3/4):205-222.
[10] Legates D,McCabe G Jr.Evaluating the use of‘goodness-of-fit'measures in hydrologic and hydroclimatic model validation[J].Water Resources Research,1999,35(1):233-241.
[11] Parsons A,Stone P.Effects of intra-storm variations in rainfall intensity on interrill runoff and erosion[J].Catena,2006,67(1):68-78.