石庆安,李 意,罗天文,王茂洋,赵朝彬,张健源
(1.黔东南水利投资(集团)有限责任公司,贵州 凯里 522601;2.贵州省水利水电勘测设计研究院有限公司,贵州 贵阳 550002)
洪水预报是保障水库安全运行的重要非工程措施。洪水具有洪峰、洪量、洪水过程线三要素,洪峰在预报中是十分重要的组成部分。科学合理的年最大洪峰流量预测对指导水库安全运行有一定的参考意义。黄金凤等[1]将可公度和灰关联模式识别法应用在淮河流域鲁台子站和蚌埠站,表明2种方法在预报年最大洪峰有一定的参考价值。王占明[2]运用灰色模型分析海城水文站的大洪峰流量,指出GM(1,1)模型适用性好,结果较为可靠。唐英敏等[3]将小波-ANFIS模型应用于张家庄水库的年最大洪峰流量预测中,得出收敛速度较快,且精度较高的模型。宋润虎[4]基于27项气象因子数据,运用多元线性回归和逐步回归方法,对年内最大流量和出现时间进行拟合。王文川等[5]基于水文序列数据,运用投影回归模型,预测年内最大洪峰。另有采用周期分析法、均生函数等方法[6-7]。
在预测年最大洪峰方面都有所研究,模型也具有一定的适用性。年最大洪峰受自然地理、水文气象、人类活动等诸多因素的综合影响,有较大的不确定性。因此,为探究一种新的思路预报年最大洪峰流量,本文选择平寨水库为研究对象,基于目前国家气候中心提供的130项气象因子(88项大气环流指数、26项海温指数和16项遥相关指数)和1952年~2019年年最大洪峰流量数据,采用逐步多元回归、支持向量机、BP神经网络、决策树等方法研究平寨水库年最大洪峰预报模型。
平寨水库位于贵州省毕节市,在乌江最大支流三岔河的流域范围内,是黔中水利枢纽工程的水源地,属于水源地一级保护区。正常蓄水位为1 331 m,总库容为10.89亿m3,坝址以上集水面积3 492 km2。流域内地形复杂、地势高低悬殊,也是典型的喀斯特地貌,属于亚热带季风气候区,年平均气温为12.6~16.4 ℃,年平均降水量为946.8~1 655.0 mm。
分析显示,平寨水库年最大洪峰流量都在4月以后发生。本文选择所有因子在预报年份1月~4月和上1年1月~12月的序列与实测历年最大洪峰进行相关性分析和逐步回归分析。例如,欧亚纬向环流指数与年最大洪峰序列(1952年~2019年)计算相关系数时,则应选择1952年至2019年1月~4月的4个序列和1951年至2018年1月~12月的12个序列,共16个序列,分别与年最大洪峰流量序列计算相关系数。其余指数同理。
通过相关系数法选择与实测洪峰序列相关系数绝对值大于0.25的全部因子,确保初选的因子和洪峰序列具有一定的相关性。然后,利用逐步回归方法,以均方根误差最小为目标,在F检验中达到0.05显著性作为因子入选阈值,逐步加入方差贡献大的因子,和剔除方差贡献小的因子。
本文选择逐步多元回归、BP神经网络、支持向量机、决策树4种方法作为平寨水库年最大洪峰流量预报模型。逐步多元回归与多元线性回归最大的不同在于对于多个自变量x,并不全部纳入方程,而是通过定义衡量自变量对因变量y重要性的指标,选出对y影响显著的因子。逐步多元回归[8-10]在挑选因子和水文预报方面有较多应用,方法简单实用。支持向量机是一种基于VC维和结构化风险最小理论的机器学习方法,在预测复杂性与非线性并存的水文系统中,预测精度高,模型泛化能力强[11-14]。决策树的基本算法是贪心算法,从一个根节点开始,自上而下生成子集,构造决策树。决策树可以有效将与预测目标有效的价值信息提取出来,对预测目标进行分类和预测[15-16]。BP神经网络一般分为输入层、隐含层、输出层,基本元素是用感知机模拟神经元,在模拟水文现象的非线性问题中应用广泛[17-18]。
为评价和对比各个模型的准确性,根据GB/T 22482—2008《水文情报预报规范》[19],洪峰流量预报以实测值的20%作为许可误差。当预报值与实测值的差值绝对值小于许可误差时,则该预报为合格预报。合格预报次数与预报总次数相比的百分数为合格率。合格率大于85%,精度评定为甲级。合格率介于85%和70%之间,精度评定为乙级。合格率介于70%和60%之间时为丙级。计算公式为
(1)
(2)
REt=[|Yf(t)-Y0(t)|/Y0(t)]×100%
(3)
式中,Yf和Y0(t)分别为t时刻的实测值与预测值;mt为合格预报次数;N为预报总时段数;REt为t时刻的相对预报误差。
通过采用2.1中所述预报因子挑选方法,共挑选出满足条件的预报因子13个(见表1)。所选因子计算得到的相关系数中,上年5月的东亚槽位置指数的相关系数最高,为0.45,最低是本年2月的亲漕区海温指数为0.25。相关系数绝对值的平均数为0.31。各指数的相关性都不是很强,这也反映了年最大洪峰流量所受到气候系统的影响十分复杂,是许多因素综合影响的结果。
表1 平寨水库预报因子筛选信息
从所挑选指数的时间分布来看,本年度有2个,上一年度共有11个,说明上一年度的气候变化对本年的年最大洪峰流量影响较大。值得一提的是,汛期内的指标只有2个,且大部分指标集中在秋冬季节,可以推测平寨水库的年最大洪峰流量受上一年度秋冬季节的大气变化影响更多。
本文选择逐步多元回归、支持向量机、神经网咯、决策树4种方法作为模拟和预报平寨水库年最大洪峰流量模型。在预报模型率定期和验证期分段中,以率定期和检验期时段长度之比约为3∶1分割。因此以1958年~2004年为率定期,共47 a;2005年~2019年为检验期,共15 a。如表2所示,为各模型在率定期和验证期预报合格率统计信息。图1为各模型在率定期和验证期模拟预报结果对比图。
表2 各模型在率定期和验证期预报合格率对比 %
图1 各模型在率定期和验证期模拟预报结果对比
从表2可以看出,在率定期各个模型的模拟能力都较好,率定期的合格率平均值为93.62%。所有模型的精度都达到了甲级(合格率大于85.00%)。决策树合格率最高为100.00%,神经网络次之,合格率为95.74%;逐步多元回归为91.50%;最差为支持向量机,合格率为87.23%。
在验证期,整体的预报效果也较好,平均合格率达到73.33%,精度评定为乙级。神经网络在验证期的预报效果最好,合格率达86.67%,精度评定为甲级。其次为逐步多元回归,合格率为80.00%,精度评定为乙级。支持向量机的合格率为66.67%,精度评定为丙级。虽然决策树模型在率定期合格率最高,但在验证期是最低,为60.00%。
综合率定期和验证期的模拟效果来看,神经网络在率定期和验证期的精度评定都达到了甲级,是4个模型中的最佳方案。其次较优方案为逐步多元回归,在率定期为甲级,验证期为乙级。神经网络和逐步多元回归可推荐作为平寨水库年最大洪峰流量的预报模型。其余两种模型仅作为一般参考。
本文基于130项气象因子,构建了神经网络、逐步多元回归、决策树、支持向量机这4种预报模型,结果表明,4种模型在验证期和模拟期都有较好的效果,特别是神经网络和逐步多元回归可以应用于平寨水库的年最大洪峰流量预报。这说明基于气象因子做年最大洪峰流量预报是可行的,在科研中有一定的探索意义;同时,预报模型可以为水库的安全运行、科学调度提供决策参考。
众所周知,年最大洪峰流量的影响因素复杂多样;而研究区域属于典型的喀斯特地貌,更加增大年最大洪峰流量的不确定性。本文仅基于气候系统的130项因子作为考虑因素,是不足以全面客观地描述影响平寨水库的年最大洪峰的诸多因素的,后期可继续从考虑喀斯特区域特征等角度进行深入研究。