雷冠军 王文川 殷峻暹 张丽丽
摘要:水文频率分析以概率统计理论为基础,通过建立模型来优化理论频率曲线参数,对经验频率曲线进行延展。对P-Ⅲ型曲线参数估计的矩法、概率权重矩法、权函数法、线性矩法、优化适线法、加权适线法、数值积分算法、优化适线准则在水文频率参数估计中的研究和应用,以及水文频率参数估计的不确定性研究进行了介绍和阐述,并提出了水文频率参数估计的建议:①加强对水文序列不确定性机理的研究,使水文频率分析的适线结果具有较好的延展性;②应立足于现有的水文频率参数估计的理论基础,针对不同的适线目的和数据精度,选择合适的参数估计结果,提高人机交互水平,将客观信息和主观经验结合起来,为水利设施规划、工程规模的确定提供有力支持;③水文序列存在非一致性,应对水文序列的不确定性和模型参数估计的不确定性加以有效分离和衡量,进一步提高适线精度。
关键词:不确定性;目标函数;适线法;解析法;参数估计;P-Ⅲ型曲线
水文频率分析计算以概率统计理论为基础,运用理论频率曲线对水文序列进行展延。正确的水文频率参数对于确定工程规模、合理规划水利设施、有效利用资金等具有重要的意义和价值。由于水文序列样本容量有限,加之历史特大洪水的存在、样本点据的精度以及适线的目的不同,因此根据已有的样本点确定理论频率曲线后,在对经验点据进行展延时需要综合考虑各种因素,反复协调试算。我国水文频率分析计算中规定以P-Ⅲ型曲线为通用线型,均值、变差系数和偏态系数为待定参数。参数的估计方法可分为解析法和适线法两大类,解析法包括矩法、权函数法、概率权重矩法、线性矩法等,适线法包括目估适线法和优化适线法。目前在工程实践中频率参数的确定采用的是二者联合运用的方法:运用解析法求出参数初值,根据适线目的、点据的精度和重要性,采用目估适线法或优化适线法进行参数调整,最终确定出最优且合理的频率曲线。目估适线法能够根据需要灵活调整曲线的偏向和走势,但是参数估计结果的主观性太强;优化适线法用目标函数表达适线目的,运用寻优算法求解最优的参数估计值,随着计算机运算性能的提高,能够实现全局最优的优化适线法得到了广泛运用。水文频率曲线参数估计的关键是合理选择初值的计算方法、目标函数、优化方法。由于输入数据的精度、可靠性、一致性存在差异,以及频率分析模型是对真实物理情形的概化拟合,因此参数估计结果相应具有不确定性。本文对P-Ⅲ型曲线参数估计数值解法的研究现状和发展趋势进行了分析,对优化适线法所涉及的问题进行了述评,以期为P-Ⅲ型曲线参数估计研究提供思路和启示。
1数值解法
P-Ⅲ型曲线参数估计的数值解法能够计算参数初值,其直接采用数学方法推导出参数估计的公式,建立参数与序列、分布、频率的关系,然而该方法在运用过程中存在两个基本问题:①水文序列样本的容量有限,参数估计结果存在较大的“端矩误差”;②用样本矩代替总体矩,矩法本身存在“梯矩误差”。为了提高参数估计结果的精度,减小误差,马秀峰等对求矩公式经过推演进行降阶,以低阶矩代替高阶矩,避免计算高阶矩;对不同阶的矩以权重为调整因子进行组合,分别对频率曲线参数估计的数值解法进行改进。数值解法都是基于矩法来建立参数估计方程,通过将样本点的值代入方程来对参数进行估计,其改进算法都是为了降阶,其中比较有代表性且运用较广泛的方法有权函数法、概率权重矩法和线性矩法等,李松仕等对线性矩法与概率权重矩法的关系进行了研究,指出线性矩法是概率权重矩法的线性组合,两种方法是同解的。
1.1矩法
矩法是用样本矩代替(或估计)总体矩,并通过矩和参数之间的关系式估计频率曲线统计参数的一种最简单的参数估计方法。矩法在使用时不必事先确定频率曲线的线型,方法简单,易于操作,在水文频率分析中被广泛用于计算初值。矩法用有限和去接近无限和,存在较大的“端矩误差”和“梯矩误差”,当样本容量较小时参数估计结果存在较大的误差,设计值有较大的负偏性。矩法的改进都是从降阶和减小“端矩误差”着手的。
1.2权函数法
针对矩法存在高阶矩和“端矩误差”的问题,权函数法引入了一个权函数,通过降低端矩的权重减小“端矩误差”,提高偏态系数的精度。为了进一步实现降阶的目标,需要对权函数的内容和形式进行研究和探索。对于严格服从P-Ⅲ型分布的理想系列样本因系列过短而造成的“端矩误差”,马秀峰对经验频率公式进行了改进,使得均值和变差系数进行还原计算后的计算精度有较大的提高,提出了用正态分布函数计算权重的权函数法。权函数法只是对偏态系数的计算进行了改进,而均值、变差系数的精度问题未能解决。刘光文在权函数法的基础上提出了数值积分单、双权函数法,单权函数法通过引入一个权函数来提高P-Ⅲ型曲线偏态系数的计算精度,双权函数法通过引入两个权函数有效提高了变差系数的精度。双权函数法引入一个新的权函数計算变差系数,同时引入了待定的参数值,刘光文采用近似的方法给这些参数赋值。双权函数法没有实现真正的降阶,增大了参数估计的不确定性。基于权函数和权函数的参数值难以有效确定这两个问题,梁忠民等对权函数从两个方面进行了改进:①不引入第二个权函数,而是对单权函数法的关系式进行变形迭代。通过联解两个不同的超越方程来估计变差系数和偏态系数,改进后的权函数法统计性能优良、计算简便;②将两个负指数型函数之差所构成的函数作为权函数。偏态系数的计算由二阶中心矩降低为一阶中心矩,其参数计算结果的无偏性和有效性与线性矩法相当,拟合效果较线性矩法略优,与概率权重矩法进行的比较表明两者统计特性相当。
权函数法通过设置不同的权函数,经过推导演算来避免计算高阶矩,从而减小误差。权函数的选用体现了加权的思想,改进权函数的降阶方法将是今后的研究重点。
1.3概率权重矩法
概率权重矩法起源于威克比分布的求解过程,而威克比分布只能用概率分布的反函数表示,这一特性决定了概率权重矩法利用的先决条件:能够求出分布函数的反函数。Greenwood J.A.等于1979年提出了概率权重矩法,该方法适用于能够求出反函数的分布形式中;Landwehr J.M.等推导了耿贝尔分布、广义极值分布、威克比分布、指数分布等的概率权重矩法的参数计算公式,结果表明该方法具有较好的统计特性,能够用于求解那些难以求得分布函数的线型中。
我国水文频率分析广泛使用的是P-Ⅲ型分布。该分布的反函数难以求得,从而限制了概率权重矩法的应用。宋德敦等运用数值积分的方法推求出P-Ⅲ型分布的概率权重矩公式,涉及到特殊积分时通过插值迭代的方法求解,该方法计算结果受概率公式的影响较大。概率权重矩法被引入到P-Ⅲ型曲线参数估计后,我国水文学者主要从两方面对该方法展开研究:①引入计算速度快、精度高的积分方法;②依据实际水文序列的特点进行相应改进。由于当时计算机运算性能较弱,因此为提高积分效率,李松仕推导出了简化的概率权重矩公式,制作了精度易于控制的查算数表;林洪孝等采用数学期望公式估计权函数值,采用开型数值积分求解矩,推导了新的概率权重矩公式,减小了计算误差。随着计算机性能的不断提高,运用计算机进行数值积分已经可以大大提高模型的精度。基于概率权重矩法的基本特性,在遇到不同的水文序列时,概率权重矩法的改进归根到底是序列所对应的经验频率值和累计频率值算法的改进,比如丁晶等对频率计算公式进行了改进,从而能够计算特大值样本的参数分布。另外,概率权重矩法还能有效处理水文序列出现的明显分段,即水文样本出现极大值或极小值的情形,大多采用广义极值分布拟合,如王怡璇等在我国西北干旱地区洪水频率分析时采用高阶概率权重矩或部分概率权重矩法,结果表明该方法具有较好的统计特性。
概率权重矩法能利用样本的数值信息和序位信息,概率公式对参数估计有较大影响,概率权重矩公式中的各项相关性较强,但是参数计算过程中的微小变化难以得到很好的体现。频率公式的选取以及提高计算结果对微小差异的敏感度,将是今后概率权重矩法研究的重点。
1.4线性矩法
线性矩法来源于概率权重矩法。是概率权重矩法的线性组合,线性矩法参数估计结果可以用次序统计量线性组合的期望值表示。Hosking J.R.M.于1990年提出了线性矩法,该方法具有良好的无偏性(对于小容量样本亦如此);陈元芳等在分析已有参数估计方法的基础上,推导出具有历史洪水序列的线性矩法参数计算公式,并将线性矩法扩展到对数正态分布、耿贝尔分布、广义极值分布、指数分布,大大扩展了线性矩法的适用范围:梁玉音等以太湖流域的雨量资料为样本,比较了线性矩法和常规矩法的无偏性、稳健性,结果表明线性矩法处理区域水文资料时表现较好。
部分地区缺乏水文观测资料或实测水文序列较短,线性矩系数是由样本次序统计量衍生的,可以通过对区域的线性矩系数进行检验,进而对地区进行水文分区,将地区整体的水文相似区的分布函数作为各个小区域的频率分布,能够有效提高较短样本设计值的精度,从而实现“以空间换取时间”。因此,线性矩法不仅可用于单站水文频率计算,而且便于地区综合和线型鉴别,用于无资料地区的水文频率分析。从Hosking J.R.M.等首先将线性矩法用于区域洪水频率分析开始,线性矩法得到了广泛的关注和运用:张静怡等将线性矩法引入水文频率分析中,阐明了线性矩法区域频率分析的基本步骤,对江西、福建两省的最大洪水资料进行了分析,认为这两个省份的P-Ⅲ型分布要优于广义极值分布;陈元芳等将线性矩法应用到长江中下游地区主要测站的水文频率分析中:陈永勤等研究了东江流域枯水期的频率分布,指出LN3分布最适合东江流域的枯水分布分析:朱惠玲对黄河下游8个不同站点的水文序列运用区域线性矩法进行了频率分析,认为广义极值分布在该区域的水文频率分析中具有最好的稳健性:杨涛等对珠江三角洲最高实测水位进行了区域洪水频率计算与分析,研究中将珠江三角洲分为3个水文相似区。线性矩法的关键是基于线性矩系数对研究区域进行水文一致性和相似性检验以及区域分布线型的鉴别,而以上研究大多是对该方法在不同区域运用的研究,对于一致性、相似性的机理,如何运用数学和水文学方法去证明研究以及如何改进区域分布线型确定方法的研究较少。
2优化适线法
优化适线法是通过建立目标函数使经验频率点据与已知的理论频率曲线拟合最优的方法,随着计算机运算性能的提高,智能优化算法大幅提高了水文频率参数优化计算的效率。
李宏伟等研究了蚁群算法在水文频率参数估计中的应用,发现蚁群算法搜索时间较长,算法的收敛性受初始参数设置的影响较大:王占海等运用遗传算法求解频率曲线的参数,目标函数以横纵向离差平方和最小为准则,遗传算法的迭代终止条件没有一致的标准,模型运算结果表明算法本身易陷入局部最优,寻优结果具有明显的不确定性;姚德仓等在水文频率曲线的拟合优化中引进了粒子群算法,但是粒子群算法参数较多,参数初值的好坏直接影响着寻优结果的优劣,需要通过反复试算确定初始参数;陈子全等将模拟退火算法应用到水文频率参数分析中,并通过实例进行了论证,结果表明该方法的参数初始值和步长都会对寻优结果的稳定性和收敛性产生影响。
3目标函数
优化适线法可归结为运用寻优算法去寻找最优值,最优值的确定取决于目标函数的确定。对优化适线法的改进和运用包括两方面:①改进优化算法的不稳定性以及早熟收敛:②结合适线目的对目标函数进行改进。优化算法的研究属于寻优的范畴,本文只对后者进行论述。适线目的基于不同的问题有很多,但都是从样本点在适线过程中的重要程度出发的,目标函数的研究分为:①以加权调整观测值的重要性;②以横坐标方向的数值积分体现频率的重要性:③以横纵坐标的离差或统计特性体现适线的重要性。
3.1加权适线法
如果对不同频率的经验点据与频率曲线的离差权重作等权处理,那么对于适线结果受部分不同频率点据计算结果影响较大的序列,就会导致频率曲线受少数异常点据的影响而偏离大多数经验点据的总体分布趋势。加权适线法能够对点据的适线过程加以调整。
谢平等提出了由于不同点据精度不同,因此在配线时对应的权重不同的理论:邱林等运用离差加权的方法对经验点据与理想曲线之间的拟合偏差加以处理,基于点据偏离最优曲线的波动程度服从正态分布的思想建立隶属度函数;谢崇宝等采用次序统计量推导出隶属度函數。邱林和谢崇宝等分别提出的两种方法都利用金光炎推导出的诺模图来计算隶属度函数中的标准差,同时在推导隶属度函数的过程中都忽略了样本容量是大样本的基本前提。对诺模图长度有限的问题也没有很好地加以处理。邓育仁等采用梯形法计算观测资料的误差,采用正态分布建立设计值、设计频率的隶属度函数,由于在建立隶属度函数中对于观测值误差的确定多采用经验值,因此该方法在逻辑推导上不具有可信度。
3.2数值积分
以频率拟合最优为目的,在横坐标方向上建立目标函数进行参数优化估计,大都从数值积分的角度来研究。应用P-Ⅲ型分布数值积分的关键是推求离均系数,推求过程中经常会遇到伽玛函数和伽玛函数分布函数的数值计算问题。
伽玛函数的数值积分一般采用龙贝格积分法和切比雪夫不等式进行逼近,吴明官等推导了一种新的切比雪夫不等式快速算法,该方法计算速度快于变量代换法、分部积分法和麦克劳林法,但是收敛域具有一定的局限性,不能通用在完整的积分区域内;刘钧哲等在对不完全伽玛分布函数进行分步积分的基础上,考虑到龙贝格积分法具有稳定性高、计算速度快、易于操作的特点和对分法能够提高搜索效率,将对分法和龙贝格积分法结合起来求解数值积分,与传统的切比雪夫多项式法、自适应辛普森算法相比,计算速度有了较大提高;李世才针对应用查表法以及常规的数值计算方法难以有效计算Kp(Kp为计算水文设计值的参数)值的问题,将数值积分的计算转换为伽玛分布函数和伽玛分布的分位数的计算。给出了通用算法的解析表达式和截断误差表达式,提高了数值积分数学模型的解算速度和收敛速度,增强了方法的稳定性和通用性;刘仕平等提出了变步长数值积分法,给出了伽玛函数分布函数通用算法的综合表达式,该方法的关键是步长变动函数的确定,在控制误差的基础上进行数值积分,经验证,在a(a为伽玛函数的参数)>2时,变步长数值积分法的计算结果容易溢出,步长变动函数计算精度不高:王文川等对变步长积分算法进行了改进,重新推导了步长变动函数,运用群居蜘蛛优化算法进行寻优,取得了较好的水文频率参数拟合结果。
水文复核计算多采用查表法插值计算离均系数φp值,由于精度低、工作量大、计算机编程时占用内存过大,因此该方法已不再使用。高斯求积法-梯形法、辛普森算法、龙贝格积分算法以及相应的改进算法已经相继提出,但是依然存在计算精度低、运算速度慢、收敛性差、容易溢出等问题,这将是今后的研究重点。
3.3优化准则
水文频率曲线参数估计的优化适线法是按照一定的优化准则建立目标函数来寻找最优的参数估计方法,优化准则反映的是适线目的。优化准则的研究分为两方面:①纵、横坐标方向的离差;②适线结果的统计特性。
拟合值和真实值的差异用纵、横坐标方向的离差表示,优化目的是寻找最优参数使得总体偏差最小。吴伯贤等提出了统计试验研究的基本判定准则,依据相对偏差和相对均方根误差对估计方法进行评判:胡素端等选用WLS准则-相对离(残)差平方和最小准则定量评估了高阶概率权重矩参数的估计效果;肖可以等提出了拟合优度评价的OLS准则(离差平方和最小准则)和AIC准则(赤池信息量准则),不仅可以衡量分布线型和实测序列之间的偏差,而且可以反映因模型参数个数不同而产生的不稳定性:宋松柏等将离(残)差绝对值和最小准则(ABS)引入到水文频率分析计算中;葛吉琦提出以拟合精度为基准,以4个目标函数为曲线拟合精度的指标,将同一样本序列4个指标的结果之和作为曲线的拟合优度。
在适线结果的统计特性研究方面,人们大多从参数估计结果的无偏性和有效性出发。杨荣富等将相对偏差和均方根误差作为评价指标,检验了分布参数和设计值的无偏性及有效性。
优化准则从不同角度对参数估计进行定量描述,是适线目标的抽象概化,其中偏差最小、波动最小是适线的主要目标,优化准则同时也是适线结果优劣的判别准则。适线过程是优化准则协调博弈的过程,在目标函数中综合协调各个目标,使得参数估计结果达到整体最优,以及建立评判标准对参数拟合效果进行评判,是今后需要研究的问题。
4频率分析的不确定性
水文频率分析存在3种不确定性:①水文事件本身的不确定性:②水文资料短缺及模型参数估计方法的不确定性;③线型选择的不确定性。不确定性分析以贝叶斯理论为基础,分为两种情形:①对参数和线型的不确定性分析:②对非一致性条件下参数估计的不确定性分析。第一种情形是對模型本身的不确定性分析,Wood B.A.D.等在贝叶斯理论的基础上分析了模型参数的不确定性,综合考虑了参数和线型选择对设计值造成的不确定性;Kuczera G.等依据贝叶斯理论对P-Ⅲ型分布和LP-Ⅲ型分布参数估计的不确定性进行了研究,利用“重要性抽样法”在参数的后验状态空问进行搜索,构造了具体设计值的抽样分布,并描述了设计值的置信区间;刘攀等研究了线型选择与线型综合对参数估计不确定性的影响,结果证明基于贝叶斯理论的贝叶斯模型选择与综合方法可以对样本的真实线型进行有效识别:梁忠民等以贝叶斯理论为基础,考虑参数不确定性和线型选择不确定性,运用全概率公式提出了能够同时考虑这两种不确定性的水文频率参数估计方法:鲁帆等基于M-H抽样算法的贝叶斯MC-MC方法对广义极值分布参数和设计洪水的后验分布进行了频率分析,M-H抽样算法的初始值、核函数和转移矩阵的确定均需要通过大量试算加以确定。
第二种情形是对气候变化条件下非一致性水文序列的不确定性分析,尚晓三等基于贝叶斯统计分析理论,运用自适应采样算法(AM-MCMC)对变化环境下样本序列长度、历史洪水个数对参数估计的不确定性进行了分析;冯平等采用Gibbs-MCMC算法对水文序列进行修正后,基于贝叶斯理论对均值和偏态系数进行估计,同时与适线法耦合,分析了非一致性对参数估计结果不确定性的影响;谢平等运用小波分析将非一致性洪水序列分为趋势性成分、随机性成分,对趋势性成分采用非线性函数拟合,对随机性成分采用P-Ⅲ型分布拟合,再对不同时期的设计值进行合成计算;胡义明等对非一致性水文序列作跳跃分析和趋势性分析后进行了一致性修正,对修正后的水文序列进行了频率分析,结果表明水文序列不作一致性修正可能将使适线结果出现严重错误;吴晶等运用TFPW-MK-Pettitt方法对水文序列的趋势性进行了检验,并采用EEMD(集合经验模态分解)方法对水文序列分解后加以修正,结果表明修正后的水文序列满足一致性要求,能够用于非一致性水文序列的频率分析。
合理选择计算方法对参数估计的不确定性进行定量识别,并运用其定量评估设计值的不确定性,将是今后需要研究的问题。
5结语
目前,对于水文频率的分析研究大多集中在线型选择、参数估计方法上,对于初值计算、权重确定、数值积分、优化准则等参数优化及设计值不确定性方面的研究较少。已有的研究没有在原来的基础上继续延伸并且深入探究其中的影响因素,致使在权重、数值积分、目标函数的研究方面突破较少。因此,建议:①加强对水文序列随机性机理的研究,使水文频率分析的适线结果具有较好的延展性:②立足于现有的水文频率参数估计的理论基础,针对不同的适线目的和数据精度,选择合适的参数估计结果,提高人机交互水平,将客观信息和主观经验结合起来,为水利设施规划、工程规模的确定提供有力支持;③水文序列存在非一致性,应对水文序列的不确定性和模型参数估计的不确定性加以有效分离和衡量,进一步提高适线精度。