基于Copula熵-随机森林的中长期径流预报研究

2021-12-09 23:12黄朝君贾建伟秦赫王栋
人民长江 2021年11期

黄朝君 贾建伟 秦赫 王栋

摘要:预测因子作为中长期预报模型的输入项,是影响预报结果精度的关键要素。为进一步提高预报精度,提出了一种Copula熵与随机森林模型相结合的中长期径流预报方法。该方法首先采用Copula熵指标对预测因子进行筛选,然后将选取的预测因子作为输入项,导入随机森林模型中对月径流进行相应预测。将该方法应用于汉江流域丹江口水库的逐月入库径流预报中,并与相关系数筛选法进行对比。结果表明:基于Copula熵指标筛选出的预测因子对应的模拟结果具有更高的精度,尤其对于汛期而言,其模拟值与实测值的拟合优度显著优于比选方法,说明其筛选出的预测因子具有更好的合理性。

关键词:中长期径流预报; 预测因子; 大气环流因子; Copula熵; 随机森林模型; 丹江口水库

中图法分类号: TV211.1+2

文献标志码: A

DOI:10.16232/j.cnki.1001-4179.2021.11.013

0引 言

中长期径流预报作为水文预报的重要组成部分,是指依据已知信息对预见期为月、季、年尺度的径流要素进行定性或定量的预测[1-5]。与短期径流预报相比,其预报结果可为水利管理部门提供更为充足的决策时间,在水库调度、防洪减灾及水资源综合管理等工作中发挥重要作用[6-8]。

目前,针对中长期径流预报已有大量研究,尤其随着人工智能与数据挖掘技术的快速发展,大量机器学习算法被应用于该领域。如郦于杰等[9]采用支持向量机对汉江流域皇庄站的长期径流过程进行了预报,并对预报结果的不确定性进行了相应分析;许斌等[10]以丹江口水庫为例,比较了随机森林与梯度提升树两种机器学习模型的预报精度;谢帅等[11]将LASSO回归与支持向量机相耦合,并应用于龙羊峡水库入库径流预报研究中;Huang等[12]将多种机器学习算法与BMA方法相结合,开展了基于多模型耦合的汉江流域中长期径流预报研究;郑炎辉等[13]采用随机森林与RBF人工神经网络模型开展了新丰江水库枯季入库径流中长期预报研究;王栋等[14]将经验模态分解方法与BP神经网络相结合,对青海省湟水河流域月径流过程进行了预测;仕玉治等[15]将相关向量机、支持向量机及自动回归滑动平均模型应用于南方两水库入库月径流中长期预报研究中,并比较了三者的精度差异。然而,上述研究大都侧重于预报模型的选取,对预报因子筛选普遍采用相关系数法,只考虑了预测因子与预测变量间的线性关系,缺乏对两者间非线性相关性的探索。

本文提出了一种基于Copula熵与随机森林模型相结合的中长期径流预报方法,并将其应用于汉江流域丹江口水库的入库径流预报研究中。该方法首先采用Copula熵指标对预报因子进行筛选,在此基础上采用随机森林模型对长预见期月径流过程进行相应预报。该预报方法结果精度更高,可为水利管理部门提供更为可靠的决策依据。

1计算方法

1.1Copula熵理论

1.1.1互信息(MI)

作为描述不同变量间相互联系的互信息指标源于信息理论学,其反映了不同变量间共有信息的大小,即互信息越大,两者相关性越强,反之则越弱[16]。假定随机变量X与Y间存在一定联系,则两者间互信息可通过公式(1)计算。

式中:xi及yi分别为随机变量X与Y的样本,N为样本容量。

由式(1)不难发现,当X与Y互不相关时,MI值接近于0,而当X与Y呈现函数关系时,MI值将接近于正无穷。与其他相似性指标相比,互信息指标不仅可以反映变量间的非线性相关性,且随机变量的任意可逆变换不改变互信息的大小。

1.1.2Copula熵

互信息指标具有较强的信息挖掘能力,但实际研究中不同随机变量间的联合分布往往是偏态且非均质性的,因此难以找到合适的分布类型对其进行拟合。为解决该问题,MA等[17]引入Copula理论,结合互信息原理提出了Copula熵指标。记u=F(x),v=F(y)分别为随机变量X与Y的边缘分布条件,则相应Copula熵值可通过公式(2)计算。

1.1.3预报因子筛选

基于Copula熵理论,在相关系数显著性检验的基础上,充分考虑不同变量与预测值间的非线性关系,来筛选合理的预测因子,具体步骤如下:

(1) 通过理论分析,搜集会对预测变量产生影响的所有可能变量。

(2) 计算所有初选因子与预测变量间的相关系数,并对两者的相关性进行显著性检验,挑选出显著性变量作为备选因子。

(3) 利用公式(2)逐一计算备选因子与月径流间的Copula熵值,并计算各因子对应的Hampel值。

(4) 依据Hampel准则,筛选合格的预测因子;若合格因子超过10个,则仅选取熵值排序前10的预测因子;若不足10个,则所有变量即为最终预测因子。

1.2随机森林模型

随机森林是Breiman于2001年提出的一种袋装法与分类回归树(CART)相结合的并行增强机器学习算法[20]。作为一种白箱模型,随机森林通过采用自举法(Bootstrapping)对原始数据进行大量采样,并对各生成样本分别建立决策树,通过改变变量取值来判断决策树的变化,在此基础上综合考虑整个决策森林的变化结果。最终,该算法通过对所有决策树的预测进行组合来获取模型模拟结果。具体步骤如下:

(1) 采用自助采样法对含m个样本的数据集进行T轮采样。

(2) 对每一轮采样结果进行训练时引入随机属性选择,即先从回归树的每个节点的属性集合(假设共有d个属性)中随机选择一个包含k个属性的子集,再从该子集中根据最优属性划分,从而拟合各个分类回归树。

2实例验证

2.1研究区域概况

汉江是长江中游最大的支流,干流流经陕西、湖北两省,于武汉市注入长江,干流全长1 577 km,流域面积约15.9万km2。流域地势西高东低,由西部的中低山区向东逐渐降至丘陵平原区。

丹江口水库位于汉江干流上游,是南水北调中线工程的水源地,具有防洪、供水、发电、灌溉、航运、养殖等综合功能。水库以上流域面积约9.52万km2,占汉江流域的60%,多为高山丘陵区,属北亚热带季风气候区,年降水量700~1 800 mm,年径流深300~900 mm。降水是径流的主要来源,两者年内分配不均匀、年际变化较大。

研究选取丹江口水库1956~2016年天然径流全年12个月数据,对各月流量过程进行模拟。丹江口水库天然入库径流由长江水利委员会水文局提供:丹江口建库前1956~1966年采用黄家港实测资料;建库后的1967~2016年,基于黄家港实测资料,考虑上游水库调蓄、引水量、库面蒸发、上游工农业及生活耗水等因素,根据水量平衡原理进行还原。

2.2预测因子筛选

考虑到各月流量过程影响成因存在一定差异,研究对丹江口水库入库天然径流全年12个月分别筛选预测因子,以选取的预测因子作为模型输入项,对各月流量过程进行模拟。

已有研究表明,大气环流与长期水文过程间存在密切关系,其异常现象将导致水文过程发生不同程度的变化。因此,本次研究将国家气象局气候中心提供的130项环流指数纳入预测因子的初选范畴。考虑大气环流因子与径流过程间的遥相关性,以径流过程发生前一年各月变量作为初选因子。其中,为验证基于Copula熵理论的预测因子筛选方法,研究设置了相应比选方案,该方案采用相关系数指标进行筛选,挑选出相关系数最大的10个变量作为预报因子。

以汛期7月平均流量为例,两种方案选定的预报因子如表1所列,其中方案1为比选方案,方案2为基于Copula熵理论的预报因子筛选方案。由表1可以看出,对于7月而言,2种方案所选因子主要差异在于第9项与第10项。基于Copula熵理论的方案2挑选了南海副高脊线位置指数和印度洋偶极子指数。这两项变量虽然与7月径流过程的线性相关系数并不突出,但大量学者从物理成因角度对两者与长江流域夏季洪涝灾害间的关系进行了深入剖析。如印度洋偶极子,已有文献认为印度洋偶极子事件与弱厄尔尼诺现象共同促使了海洋罗斯贝波与温跃层的下沉现象,引发了西北太平洋地区反气旋异常,并加剧了东亚上空的西风急流,从而导致长江中下游夏季暴雨频发现象的产生[21];而南海副高活动则是通过增大西太平洋副热带高压“北抬西升”效应,在冷暖空气相互作用下,导致汉江上游易产生持续的强降雨,从而形成大洪水[22]。考虑文章篇幅问题,其他月份对应预报因子筛选结果及对比并未展示在本文中。

2.3模型结果分析

本次研究将1956~2006年作为模型率定期,2007~2016年作為验证期,将2.2节中不同方案对应预测因子导入随机森林模型中,对丹江口水库逐月径流过程进行模拟预测。为充分利用有限的资料并防止出现参数过拟合现象,研究采用留一交叉验证方法,将逐次模拟值与实测值间MAPE值最小作为优化目标,确定了最优参数,最终不同方案对应模的拟结果及相应精度指标如图1~2所示及表2所列。

由表2结果可知,基于两种方案筛选出的预测因子,采用随机森林模型对丹江口水库月径流过程进行模拟,均取得较好的模拟效果。具体来看,率定期内两种方案Symbol值均大于80%,MAPE值小于30%,DC值大于0.8,而验证期的结果精度则略差于率定期,其中Symbol值较之率定期下降10%~14%,MAPE值变幅最大,整体提升20%~25%,DC值较之率定期下降0.20~0.21。对比2种方案,3种指标均表明方案2对应模拟精度显著优于方案1,这一现象说明方案2筛选的预报因子组合更加合理。

图1给出了丹江口水库实测与模拟月流量过程对比图,其结果表明在率定期及验证期内,丰水年份的模拟值略微偏小,而平水年及枯水年的模拟值略微偏大,对比图1(a)与图1(b),不难看出方案2对应的模拟结果对汛期径流的模拟性能要显著优于方案1。此外,通过对比率定期与验证期实测值与模拟值的散点图(见图2)可以看出,率定期及验证期的下半部分散点会略高于45°线,上半部分布散点则会略低于45°线,但所有散点都较为均匀分布在45°线附近,说明对应精度尚可。对比2种方案模拟结果可知,方案2对应结果整体更优,尤其对于汛期而言,其模拟结果与实测值更为接近。

为进一步比较不同方案模拟精度在年内的变化特征,本次研究还计算了验证期内各月份对应模拟值与实测值间的相对误差,如图3所示。结果表明:除少数极端值外,方案1对应模拟结果的相对误差值绝大多数处于-65%~226%,而方案2对应模拟结果的相对误差则整体处于-57%~161%之间。同时,两种方案对应模拟结果精度的差异主要处于汛期内(6~10月),这与上述结果得到的结论相互印证,说明方案2筛选出的预测因子组合对于预测来水量较大的汛期月份精度更高。

3结 论

本文提出了一种Copula熵与随机森林模型相结合的中长期径流预报方法,为了评估该方法的预测精度,研究将其应用于汉江流域丹江口水库逐月径流预报中,并将相关系数筛选法作为比选方案进行对比,结果表明:

(1) 以不同方案筛选的预测因子作为输入项,随机森林模型对于丹江口水库逐月径流的预测结果均取得了较高的精度,说明该模型能较好地应用于丹江口水库的中长期预报研究中。

(2) 对比2种方案的模拟结果,不难看出基于Copula熵筛选的预报因子对应预测精度显著高于比选方案,尤其对于汛期而言,前者的预测值与实测值拟合优度更好,说明采用Copula熵指标筛选的预测因子组合具有更好的合理性。

参考文献:

[1]林剑艺,程春田.支持向量机在中长期径流预报中的应用[J].水利学报,2006,37(6):681-686.

[2]楊旭,栾继虹,冯国章.中长期水文预报研究评述与展望[J].西北农业大学学报,2000,(6):203-207.

[3]王文,马骏.若干水文预报方法综述[J].水利水电科技进展,2005,25(1):56-60.

[4]王富强,霍风霖.中长期水文预报方法研究综述[J].人民黄河,2010,32(3):25-28.

[5]张利平,王德智,夏军,等.基于气象因子的中长期水文预报方法研究[J].水电能源科学,2003,21(3):4-6.

[6]冉笃奎,李敏,武晟,等.丹江口水库中长期径流量的多模型预报结果分析及综合研究[J].水利学报,2010,41(9):1069-1073.

[7]李红波,夏潮军,王淑英.中长期径流预报研究进展及发展趋势[J].人民黄河,2012,34(8):36-38,40.

[8]陈柯兵,郭生练,王俊,等.长江上游ECMWF降水和径流预报产品评估[J].人民长江,2020,51(3):73-80.

[9]郦于杰,梁忠民,唐甜甜.基于支持向量回归机的长期径流预报及不确定性分析[J].南水北调与水利科技,2018,16(3):45-50.

[10]许斌,杨凤根,郦于杰.两类集成学习算法在中长期径流预报中的应用[J].水力发电,2020,46(4):21-24,34.

[11]谢帅,黄跃飞,李铁键,等.LASSO回归和支持向量回归耦合的中长期径流预报[J].应用基础与工程科学学报,2018,26(4):709-722.

[12]HUANG H,LIANG Z,LI B,et al.Combination of Multiple Data-Driven Models for long-term monthly runoff predictions based on Bayesian Model Averaging[J].Water Resources Management,2019,33(9):3321-3338.

[13]郑炎辉,张力澜,田兆伟,等.基于随机森林和RBF人工神经网络模型的新丰江水库枯季入库径流中长期预报[J].人民珠江,2020,41(5):33-37.

[14]王栋,魏加华,章四龙,等.基于CEEMD-BP模型的水文时间序列月径流预测[J].北京师范大学学报(自然科学版),2020,56(3):376-386.

[15]仕玉治,彭勇,周惠成.基于相关向量机的中长期径流预报模型研究[J].大连理工大学学报,2012,52(1):79-84.

[16]赵铜铁钢,杨大文.神经网络径流预报模型中基于互信息的预报因子选择方法[J].水力发电学报,2011,30(1):24-30.

[17]MA J,SUN Z Q.Mutual information is Copula Entropy[J].Tsinghua Science and Technology,2011,16(1):51-54.

[18]温云亮,李艳玲,黄春艳,等.基于Copula熵理论的干旱驱动因子选择[J].华北水利水电大学学报(自然科学版),2019,40(4):51-56.

[19]陈璐,叶磊,卢韦伟,等.基于Copula熵的神经网络径流预报模型预报因子选择[J].水力发电学报,2014,33(6):25-29,90.

[20]BREIMAN L.Random forests[J].Machine Learning,2001,45(1):5-32.

[21]ZHOU Z Q,XIE S P,ZHANG R.Historic Yangtze flooding of 2020 tied to extreme Indian Ocean conditions[J].Proceedings of the National Academy of Sciences,2021,118(12):e2022255118.

[22]陶玫,蒋薇,项瑛,等.1998和2010年长江流域汛期洪涝成因对比分析[J].气象科学,2012,32(3):282-287.

(编辑:谢玲娴)

Abstract:As the key input of hydrological model for medium and long-term runoff forecast,forecast factors play an important role in improving the forecast accuracy.In order to further improve the accuracy of forecast results,we proposed a medium and long-term runoff forecast method combined with the Copula entropy and random forest model.For this method,the forecast factors were first selected based on the Copula entropy index,and the selected factors were used as input items and imported into the random forest model to simulate and forecast monthly runoff series.Finally,this method was applied to predict the monthly runoff series of the Danjiangkou Reservoir in Hanjiang River Basin,and compared with the correlation coefficient screening selection method.The results showed that the forecast results corresponding to the Copula entropy theory had a higher accuracy in forecasting monthly runoff series.Especially for flood season,the fitting effect of the simulated value and the measured value of this method was significantly better than that of the correlation coefficient method,indicating that the screened forecast factors are more reasonable.

Key words:medium and long-term runoff forecast;forecast factors;global circulation factor;Copula entropy;random forest model;Danjiangkou Reservoir