黄 炜,李雪真,赵 嘉,赵丽华,李臣民
(1.江苏省水文水资源勘测局,江苏南京 210029;2.河海大学计算机与信息学院,江苏南京 210098)
基于朴素贝叶斯算法的流域降水预测方法
黄 炜1,李雪真2,赵 嘉2,赵丽华2,李臣民2
(1.江苏省水文水资源勘测局,江苏南京 210029;2.河海大学计算机与信息学院,江苏南京 210098)
为了在降水成因尚不明确的情况下有效利用相关历史资料提高降水预报水平,提出了基于朴素贝叶斯算法的流域降水预测方法。以东江流域为例,通过构造不同降水数据特征集预测流域内降水情况,并与传统时间序列方法和BP神经网络方法进行预测准确率对比验证,结果表明,基于朴素贝叶斯算法的降水预测方法取得了比传统时间序列方法和BP神经网络方法更好的降水预测效果。
降水预测;朴素贝叶斯算法;贝叶斯估计;F-measure评价方法
准确、可靠地预测未来降水状况,特别是暴雨预测,既是水资源合理开发和科学调配的基础,也是确保社会稳定、人民生命财产安全,以及维护自然生态和环境安全的关键[1]。然而,降水是一种依赖于非线性动态多时空尺度环流系统的气象现象,同时也是局地环流、热力作用与当地不均匀的地形、地貌相结合的产物[2-3]。尽管已有许多不同时空尺度的降水预测研究成果,但由于降水产生的内部机理尚不完全明确,有效的降水预测,尤其是极端降水预测仍然是一个挑战。从方法上分,降水预测方法可分为天气学和统计学两种方法。天气学降水预测方法[4-5]主要依靠机理预测,缺点是不同预报员做出的降水量预报可能会有很大的差异,并且天气图上难以清楚分辨局部地区的中小尺度暴雨。统计学降水预测方法[6-7]是根据已有的气象资料,利用数理统计的方法寻找降水现象发生的可能规律,根据过去或者现在的天气气候给出未来降水事件出现的概率,可以分为基于生成模型(generative modeling)的预测方法和基于判别模型(discrimitive modeling)的预测方法[8-10]。生成模型从统计的角度表示数据的分布情况,主要反映同类数据本身的相似度;判别模型直接学习的是决策函数或者条件概率分布,不能反映训练数据本身的特性,但它寻找不同类别之间的最优分类面,反映的是异类数据之间的差异。由于引发降水的水汽条件具有连续性,生成模型从物理机制上更符合降水事件的预测,其主要应用难点在于特征集的质量以及特征选取。
本文提出了基于朴素贝叶斯算法的流域降水预测方法,通过基于函数的特征生成方法获取丰富的特征集,针对朴素贝叶斯的特征独立性假设,采用相关性分析并通过交叉验证取得最优特征集合,以东江流域为例对所提出的方法进行了验证,并与几种常用的时间序列方法和神经网络方法进行了对比分析。
1.1 朴素贝叶斯降水预测方法
朴素贝叶斯算法[7]是一种基于贝叶斯定理的统计学方法。贝叶斯定理是概率统计学中的一个分支,其核心是贝叶斯公式。设X为某一测试样本,Y={y1,y2,…,yk}为类别集合,表示样本X属于不同类别Y的概率,可以认为最大概率值对应的类别yi就是该样本被分配的类别,可通过贝叶斯公式求得:
本文中,X={x1,x2,…,xn}表示包含不同特征属性的降水特征集,Y={y1,y2,…,yk}表示不同降水等级类别集合。朴素贝叶斯算法中的独立性假设要求在给定特征集时各特征属性之间相互条件独立,基于此,条件分布概率计算可简化为
朴素贝叶斯算法中的独立性假设忽略了特征之间存在的条件依赖关系,使朴素贝叶斯算法的计算变得简单,但会牺牲一定的预测准确率。式(3)中可通过极大似然估计法计算。假设xj可取值有Sj(j=1,2,…,n)个,Y可取值有k个,则参数个数为,有
式(4)等价于在随机变量各个取值的频数上赋予一个正数(λ>0),当λ=0时就是极大似然估计,常取λ=1,这时称为拉普拉斯平滑。对任何l、p(l= 1,2,…,n;p=1,2,…,k),有
同理,P(Y)也可通过贝叶斯估计得到:
P(X)可通过以下公式求得:
因此,对于一个给定的降水特征集输入X={x1,x2,…,xn},根据式(1)可求得:
则降水等级为最大概率值对应的类别yi,即:
1.2 相关性分析
由于朴素贝叶斯算法中的独立性假设要求各特征属性之间相互条件独立,需要对算法采用的属性集进行相关性分析,以排除由于强相关的特征对模型预测效果带来的负面影响。通过相关性分析进行属性约简,得到满意的属性约简子集。本文通过对候选特征集合进行相关性分析,对于高于一定相关性阈值的特征在特征组合选取时不允许同时出现,以从一定程度上近似满足朴素贝叶斯算法的独立性假设要求。
1.3 特征集选择
朴素贝叶斯算法中特征集选择采用交叉验证(cross validation,CV)方法。交叉验证是用于确保预测模型具有较好泛化性能的一种方法,其基本思想是将原始数据分成两部分,一部分作为训练数据集,另一部分作为验证数据集。先用训练数据集对模型进行训练,比如参数选择,而对于朴素贝叶斯模型而言可以用于特征选择;然后利用验证数据集来测试训练得到的模型,以此作为评价或选择预测模型的性能指标。本文采用常用的K-fold CV方法进行最优特征集选取,该方法将原始数据分成K组(一般是均分),将每个组的数据分别充当一次验证数据集,其余的K-1组的数据集作为训练数据集。为了保持数据的年际特点,取K=5,并且是按年划分,而不采用随机划分,以此来确保数据划分保持年内变化。通过相关性分析去除存在高相关性的特征组合,然后选取交叉验证中取得最好预测性能的特征组合作为选定的特征集。
2.1 数据集的获取
以东江流域为例进行实例分析。东江流域是珠江流域的三大水系之一,流域面积27 040 km2,其中广东省境内占87.06%,江西省境内占12.94%。采用的数据集为从中国气象科学数据服务共享网中获取的中国逐日网格降水量实时分析系统数据,该数据集是通过实时从综合库提取全国2 419个站(包括国家气候观象台,国家气象观测一级站、二级站)逐日降水量,采用基于“气候背景场”的最优插值方法,实时生成中国区域逐日降水量的网格产品。在中国逐日网格降水量的基础上,结合实验流域所对应的格点面积比例进行计算[10],可以得出实验流域2008年4月1日至2014年3月31日6年的降水量样本数据,并依据中国气象局发布的降雨强度等级标准划分为[0 mm,10 mm)、[10 mm,25 mm)、[25mm,50mm)、[50mm,100mm)、[100mm,250mm)5个等级,以前4年数据作为训练样本,第5年数据作为测试样本,最后1年数据作为应用检验样本。
2.2 特征集构建
通常原始数据不能直接使用,需要构建特征集[11]。本文通过合适的特征生成方法,丰富特征表达,充分发挥各类数据在模型预测中的价值。在流域逐日网格降水量数据以及流域多年降水情况的基础上,保持可解释性的前提下,采用聚合、序列指标统计和规约等方法,从原始特征出发生成能有效应用于流域降水预测应用的特征集,如表1所示。
2.3 对比方法
采用传统时间序列方法和神经网络方法等4种常用方法,检验各方法在流域降水等级预测中的准确度。
a.简单移动平均方法(simple moving average method,SMA)。移动平均方法根据证据窗口的所有序列段的值来预测未来的值[12]。简单移动平均方法简单地给证据窗口的所有序列段赋予相等的权重,即采用证据窗口的平均降水预测未来时期的平均降水。
b.线性加权移动平均方法(linear weighted moving average method,Linear_WMA)。根据证据窗口内不同序列段的数据对预测窗口的影响程度,分别给予不同的权数,然后再采用线性的方法进行平均移动以预测未来值[13-14]。根据越是近期数据对预测值影响越大这一特点,不同地对待证据窗口内的各个数据,对靠近当前点的序列段的数据给予较大的权数,对较远的序列段的数据给予较小的权数,这样来弥补简单移动平均方法的不足。
c.基于先验概率的方法(prior probability based method,PriorPr)。该方法用最高先验概率的降水等级作为未来的预测值,而不考虑证据窗口的降水状况。
d.神经网络方法。神经网络也常用于预测未来降水。本文选取前馈(back-propagation,BP)神经网络方法(以下简称BP法)作为本文提出的基于朴素贝叶斯算法的流域降水预测方法(以下简称本文方法)的对比方法。BP神经网络模型是目前应用最广泛的神经网络模型之一,按误差逆传播算法训练样本,其激活转移函数通常是一个Sigmoid转移函数,可以实现输入到输出的非线性映射。
2.4 评价方法
参考我国降水预报业务系统中常用的对降水事件实况和预报的双态分类列联表,采用F-Measure方法[15]评价本文方法的预测结果。F-Measure方法中精确度P和召回率R分别表示为
式中NA、NB、NC分别为双态分类列联表中的实况发生、空报和漏报。
P和R取值为[0,1],数值越接近1,精确度或召回率就越高。在P和R指标出现矛盾的情况下,可对P和R加权调和平均:
当参数α=1时,F就是最常见的统计参数F1:
可知F1综合了P和R的结果,当F1较高时说明预报方法比较有效。
2.5 不同特征集的预测效果
采用以下3种特征集对比本文方法和BP法的预测效果:①“聚合”特征集,来自于流域降水序列数据中的聚合特征;②“聚合+统计”特征集,在“聚合”特征集的基础上进一步加入了流域降水序列数据中的统计特征;③“聚合+统计+规约”特征集,是进一步加入流域多年气象知识得到的规约特征。
2.5.1 流域降水预测
为验证不同特征集对流域降水预测准确率的效果,对3种不同特征集分别采用BP法和本文方法进行短(1 d、3 d)、中(7 d)、长(15 d、30 d)时段的降水预测,以此来检验本文采用的特征集的作用。通过相关性分析并采用第5年的数据进行特征选择,选出各特征集的最佳组合。表2为不同特征集时两种方法降水预测结果。
表2 不同特征集时两种方法降水预测结果
从表2可知,本文方法总体上优于BP法。在全年总体的预测准确率方面,仅采用简单聚合特征的本文方法取得了最高的预测准确率,短、中、长期5组预测的平均正确率达到80.2%,高于BP法最好的一组(聚合+统计+规约),其5组预测平均正确率为76.3%。
2.5.2 流域暴雨预测
由于采用聚合类简单特征的预测结果中,高准确率主要依靠预测更多的1等级降水得到,在暴雨(一般会带来流域3等级以上的整体平均降水)预测中存在明显缺陷。为验证不同特征集对流域暴雨预测的效果,分别对不同特征集采用BP法和本文方法对未来一周每一天的降水等级进行预测,在其基础上预测未来一周是否有3等级以上或者4等级以上的日降水。以3等级预测为例,采用的标准是:如果未来一周中预报到一天3等级以上降水,而实际中确实也存在某一天3等级以上降水,则判定为预测正确。分别采用不同特征集的两种方法预测结果如表3和表4所示(表中空值表示因预报该等级的降水次数为0,根据式(11)和式(14),相应的精确度和F1值无法计算)。
表3 不同特征集的两种方法3等级以上___________降水预测结果
表4 不同特征集的两种方法4等级以上_____________降水预测结果
从表3可以看出,具有全面特征集的本文方法取得了最佳的3等级以上降水预报效果,在预测精确度、召回率和F1值三方面都取得了最好的结果,比最好的BP法分别提高了35%、11%和21%,比采用“聚合+统计”特征集的本文方法分别提高了65%、131%和116%。而表2中预测结果最好的简单聚合特征集在本文方法中表现最差,完全不能预测大等级的降水。
从表4可以看出,对4等级以上降水的预报方面,BP法也完全不起作用,而采用全面特征集的本文方法则继续表现良好,保持了0.56的预测精确度、0.28的召回率以及0.37的F1值。
2.6 不同预测方法的预测效果分析
将前述分析中各特征集选出的本文方法和BP法的最好结果,和3种时间序列方法预测结果进行对比,结果见表5~7。
_表5 不同预测方法流域降水预测准确率对比__
表6 不同预测方法流域3等级以上降水预测对比
表7 不同预测方法流域4等级以上降水预测对比
从表5可以看到,本文方法取得了最好的短中长时段整体降水预测效果,PriorPr排第二。而在暴雨预测方面,PriorPr则不起作用(表6),在4等级以上降水预测方面(表7),除了朴素贝叶斯算法,其他方法都不起作用。
为直观比较预测结果和实际降水等级的差距,将本文方法、BP法和时间序列方法中最好的代表PriorPr的预测结果做成散点图进行比较,如图1所示(图中各预测结果与实际降水等级越接近或重合,表示预测准确性越高)。本文方法因为在流域降水预测准确率和暴雨预测效果中的最佳特征集不同,因此选出两个代表,“朴素贝叶斯1”代表采用“聚合+统计+规约”特征集的本文方法,“朴素贝叶斯2”代表采用“聚合”特征集的本文方法。从图1可以看出,在降雨等级为1时,各个预测时间段所有方法预测结果均能与实际降水等级的散点重合,表明各方法在预测实际降水等级较低的情况准确率较高。而对于数量不多的3等级以上或者4等级以上的日降水,采用“聚合+统计+规约”特征集的本文方法与实际降水等级散点重合度较高,因此具有更好的预测性能。
图1 不同预测方法预测结果和实际降水等级对比
本文针对降水物理机制和相关成因关系未明,
降水预测不准确,特别是极端降水预测存在较大误差的问题,提出了基于朴素贝叶斯算法的流域降水预测方法。通过实例研究,表明该方法取得了比传统时间序列方法以及BP神经网络法更好的降水预测效果,尤其是在暴雨预测方面。为进一步提高预测准确率,需分析更多与降水相关的气象知识及原始数据,寻找枯水期及前汛期的相关因素,进一步丰富降水特征集,提高预测准确率。
[1]王浩,游进军.水资源合理配置研究历程与进展[J].水利学报,2008,39(10):1168-1175.(WANG Hao,YOU JinJun.Advancements and development course of research on water resources deployment[J].Journal of Hydraulic Engineering,2008,39(10):1168-1175.(in Chinese))
[2]闵晶晶,孙景荣,刘还珠,等.一种改进的BP算法及在降水预报中的应用[J].应用气象学报,2010,21(1):55-62.(MIN Jingjing,SUN Jingrong,LIU Huanzhu,et al. An improved BP algorithm and its application to precipitation forecast[J].Journal of Applied Meteorological Science,2010,21(1):55-62.(in Chinese))
[3]刘可晶,王文,朱烨,等.淮河流域过去60年干旱趋势特征及其与极端降水的联系[J].水利学报,2012,43(10):1179-1187.(LIU Kejing,WANGWen,ZHU Ye,et al.Trend of drought and its relationship with extreme precipitation in Huaihe River basin over the last 60 years[J].Journal of Hydraulic Engineering,2012,43(10):1179-1187.(in Chinese))
[4]欧善国.用能量天气学方法分析预报9405号热带风暴暴雨[J].广东气象,1995(2):34-35.(OU Shanguo.The analysis of energy meteorology of tropical storm rain caused by No.9405[J].Guangdong Meteorological,1995(2):34-35.(in Chinese))
[5]STAUFFER D R,SEAMAN N L.Use of four-dimensional data assimilation in a limited-areamesoscalemodel:part I experiments with synoptic-scale data[J].MonthlyWeather Review,1990,118(6):1250-1277.
[6]施能.气象统计预报[M].北京:气象出版社,2009:128-142.
[7]李航.统计学习方法[M].北京:清华大学出版社,2012.
[8]林开平.人工神经网络的泛化性能与降水预报的应用研究[D].南京:南京信息工程大学,2007.
[9]XU Yejun,WANG Huimin.The induced generalized aggregation operators for intuitionistic fuzzy sets and their application in group decision making[J].Applied Soft Computing,2012,12(3):1168-1179.
[10]LIXuezhen,XU Lizhong,MA Zhenli,et al.Quotient space based flood risk analysis[J].International Review on Computers and Software,2012,7(1):344-352.
[11]BENGIO Y,COURVILLE A,VINCENT P.Representation learning:a review and new perspectives[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1798-1828.
[12]WU Y,HWANG K,YUAN Y,et al,Adaptive workload prediction of grid performance in confidencewindows[J]. IEEE Transactions on Parallel&Distributed Systems Distrib,2010,21(7):925-938.
[13]WANG H M,CHEN Z S,SU S L.Optimal pricing and coordination schemes for the eastern route of the south-tonorth water diversion supply chain system in China[J]. Transportation Journal,2012,51(4):487-505.
[14]CHEN Zhisong,WANG Huimin,QIXiangtong.Pricing and water resource allocation scheme for the south-to-north water diversion project in China[J].Water Resources Management,2013(27):1457-1472.
[15]CHEN T Y,KUO F C,MERKEL R.On the statistical properties of the F-measure[C]//Proceeding 4th International Conference on Quality Software. Braunschweig,Germany:QSIC,2004:505-513.
A precipitation forecasting method for a river basin based on naive Bayes algorithm
HUANGWei1,LIXuezhen2,ZHAO Jia2,ZHAO Lihua2,LIChenmin2(1.Jiangsu Province Hydrology and Water Resources Investigation Bureau,Nanjing 210029,China;2.College of Computer and Information Technology Engineering,Hohai University,Nanjing 210098,China)
In order to effectively use available historical observation data for precipitation forecasting in the case of an uncertain cause of precipitation,a precipitation forecasting method was developed based on the naive Bayes algorithm. Using the Dongjiang Basin as an example,a rich setof featureswas constructed based on the basin's precipitation data and meteorological knowledge.The forecasting accuracy of the proposed method was compared with those of the traditional time seriesmethod and the BP neural network method.The result shows that the proposed method outperformed both the traditional time seriesmethod and the BP neural network method.
precipitation forecasting;naive Bayes algorithm;Bayes estimation;F-measure evaluationmethod
TV125;P338
A
1006- 7647(2016)04- 0065- 05
10.3880/j.issn.1006- 7647.2016.04.012
2015- 06 23 编辑:熊水斌)
国家自然科学基金(71433003,51179047);“十二五”国家科技支撑计划(2015BAB07B01)
黄炜(1981—),男,博士,主要从事水文测验和站网管理研究。E-mail:wei.huang923@gmail.com
李臣明(1969—),男,副教授,博士,主要从事复杂系统分析与决策等研究。E-mail:lcm@hhu.edu.cn