杨丽洁
摘要:近年来,随着气候和水文模拟能力的提升,卫星等采集数据技术的改进以及智能计算的进步,数据驱动方法在洪水预报领域的使用越来越普遍。鉴于数据驱动方法在洪水领域的迅速发展,本文主要概述数据驱动模型的基本概念和其在过去不同类型流域、不同水文要素下的应用以及各学者做出的相关改进,即主要对BP神经网络、RBF神经网络、支持向量机(SVM)模型、栈式自编码(SAE)模型和模型组合应用作简要回顾;最后确定未来的研发方向。
关键词:数据驱动模型;BP;RBF;SVM;洪水预报
中图分类号:TP183 文献标识码:A 文章编号:1009-3044(2018)17-0275-03
Abstract: In recent years, with the improvement of climate and hydrological simulation capabilities, improvements in satellite data collection techniques, and advances in smart computing, the use of data-driven methods in flood forecasting is becoming more common. In view of the rapid development of data-driven methods in the field of flooding, this paper mainly outlines the basic concepts of the data-driven model and its application in different types of watersheds and hydrological elements in the past, as well as related improvements made by various scholars, that is, mainly BP neural networks, The RBF neural network, support vector machine (SVM) model, stack self coding (SAE) model and combination of different models are briefly reviewed. Finally, the future direction of R&D; is determined.
Key words: Data-drivin model; BP; RBF; SVM; Flood forecast
1 引言
与传统的水文模型不同,数据驱动模型在解决数值预测问题、重建高度非线性函数、时间序列分析等方面有着独特的优越性,其不需要考虑水文过程的物理机制,而是建立关于时间序列的数学分析,通过学习给定样本,发现水文变量间的统计或因果关系,在洪水预报领域中有广阔的前景。结合多数文章仅集中于分析某个具体模型在具体流域的使用情况的问题,本文就数据驱动模型在洪水预报领域的研究概况作简要回顾与总结。
2 方法介绍
构建数据驱动模型的过程遵循建模中采用的一般原则:研究问题-收集数据-选择模型结构-构建模型-测试模型和迭代。
2.1 BP神经网络
BP神经网络是在洪水预报中使用最活跃的一种方法,它是一个由简单信息處理单元组合成的非线性动力学系统,适用于描述系统输入和输出间的复杂关系。其可看成是一种从输入到输出的高度非线性映射函数,学习过程由正向传播和方向传播组成:正向传播过程中,从输入层经隐含层逐层处理,并传向输出层;若输出层与期望值间的误差较大,则转入反向传播,按梯度下降原则,不断修改各神经元权值使误差最小[1]。水文模型网络结构为:
式中,[t]为当前时刻,[Q]为站点流量,[Pr]流域降雨量,[Δt]为时间间隔,[x]和[y]为整数且大于等于1,[FBF]为一种非线性映射函数。简而言之,BP网络对洪水进行预报的过程,就是利用历史水文数据获得非线性函数[FBP]的过程[2]。
针对标准的BP模型的缺点,许多学者分别从各方面给出了相应的改进方案:
除以上对BP本身的改进外,针对现多数水文模型不是纯粹基于知识就是数据驱动的现状,Jianjin等[3]提出将BP神经网络算法应用到半分布式新安江(XAJ)模型中。他们以安定河为例,将观测到的局部流量和XAJ模型的模拟流量作为BP网络的输入,以每一河段的局部流量计算误差估计作为输出,后再以马斯经根法(Muskingum)使用校正后的局部流量重复计算汇合处的流量,直至达到精度要求。这个改进的洪水预报模型以具有物理意义的XAJ模型的中间变量及输出作为BP网络的输入,可以大大减少神经网络的校准时间,同时能够在不损失领先时间的情况下更新流量预测误差。
2.2 RBF神经网络
式中,[wij]为隐藏层到输出层的权重,[h]表示隐藏节点数,[yj]为第[j]个输出节点输出值,具有最佳逼近和全局最优的优点。
黄国如等[4]将RBF神经网络成功运用于感潮河段的洪水位预报。A. W. Jayawardena等[5]将RBF方法分别应用于预测试验性排水的流域和风暴期间特定河流的水位,并将结果与BP网络进行比较:从预测的准确度看,使用K-均值聚类的RBF模型在性能上与BP模型相当;同时,RBF在建模上的优点,使得其在开发过程只需要较少的试验就保证其收敛到特定网络架构的最佳值,因此比采用BP方法所需的时间和精力更少。
FI-John[6]提出了一种基于模糊聚类的RBF神经网络以构建降雨-径流模型,用于预报一至三小时前台风期间的洪水流量。对比RBF网络学习常用的聚类分析K-均值算法,模糊极大极小聚类不需要预先确定RBF的数量与特征,可以动态自动确定节点数量,有效定位每个RBF的[c]和[a],不会使任何目标函数最小化,因此可以减少训练的时间。
2.3 SAE-BP模型
尽管人工神经网络(ANN)在洪水预报中得到了广泛的应用,但对于非凸优化问题,其仍不能突破一至二个隐藏层[7]。结合栈式自编码深度提取数据集特征的能力,FAN[7]等提出栈式自编码器(SAE)与BP网络相结合的深度学习洪水预报方法。
自编码器(AE)是一种无监督学习算法,它尝试学习一个[hw,b(x)≈x]的函数,使得输出[x]接近输入[x],当自编码神经网络加入某些限制,如限定隐藏神经元的数量:当隐藏神经元数量较少时,迫使AE发现输入数据间的相关性;当隐藏神经元数量较多时,通过给隐藏神经元加入稀疏性限制,使神经元大部分的时间都是被抑制,这样AE仍可发现输入数据中的相关性。栈式自编码(SAE)由多层稀疏自动编码组成,其前一层自编码器的输出作为其后一层自编码器的输入,从技术上讲,栈式自编码(SAE)拥有深度提取数据集特征的能力。
FAN等提出的SAE-BP集成算法的网络结构由1个输入层、1个输出层和K个隐藏层组成;在训练前,由于数据分布的不平衡性,首先采用K均值聚类方法对所有数据进行分类,每个类别分别对多个SAE-BP模型进行训练,在SAE训练完深层网络第K - 1隐层后,K - 1隐层连至负责预测的BP神经网络。实验结果表明,SAE-BP集成算法性能比其他基准(SVM、BP、RBF、ELM)要好得多,同时SAE-BP可以更准确地预测高流量段。
2.4 SVM模型
支持向量机(SVM)是一种基于统计学习理论和结构风险最小化原理的机器学习方法,它已成功应用于分类任务、回归和时间序列分析。与人工神经网络相比,因其可以自动最小化支持向量的数量,具有泛化能力强、收敛到全局最优、维数不敏感等优点[8][9],在水文领域的应用也引起了人们的关注。
不合理的参数设置会对模型的训练效果和训练时间有着非常负面的影响。Michaela等[10]就专门在特定流域下对各SVM模型结构、核函数、比例因子,模型参数[(C,ε)]和输入向量之间的关系进行了探究,对建立更有效的SVM模型有一定的参考价值。Mahyat等[11]以来西亚瓜拉丁加奴盆地为研究区域,就具有不同核函数的SVM对洪水发生的空间预测能力做了评估,同时对各输入因子按对洪水的影响度进行了排序,结果表明:SVM-SIG对训练数据的适应性更好,在预测率方面,SVM-RBF的准确率最高;海拔高度和坡度是最主要的影响因素,从条件因素数据消除地表径流因子更好,其降低了最终结果的可靠性。
样本数据的个数也决定了标准支持向量机算法的复杂程度,样本数据越大,相应的二次规划问题也将变得越复杂,训练速度越慢。针对这一问题,李晓丽等[12]以南告水库的四个水文监控站为例建立基于粗糙集预处理的支持向量机预测模型,提高了训练速度。丁海蛟[13]提出了基于最小二乘支持向量机的河道洪水预报方法,将二次规划问题转化为线性方程组求解问题,降低了计算的复杂性。
3 总结
数据驱动方法基于客观信息建模,因此它们在数据具有代表性和正确建模的前提下,结果可能比物理、概念模型更精确。当代趋势是将不同模型结合,实现优缺点互补,即将不同类型的模型相結合,并遵循不同的建模规范以构建合适的组合模型。同时,众多文献都指出,最合适的方法是将两类方法中的最好的方法相结合,即理论驱动与数据驱动方法的结合。随着大数据量、不同类型河流(流域)、不同水文要素的应用分析研究,以及与不同水文预报模型的组合应用研究,加之作业洪水预报中的实践检验,数据驱动方法在水文预报领域中的应用将更趋完善。
参考文献:
[1] 董曼玲, 黄飞, 秦丕梓. 水文预测中的神经网络模型实用对比分析[J]. 山东农业大学学报(自然科学版), 2002, 33(2):207-211.
[2] 马凯凯, 李士进, 王继民,等. 数据驱动的中小河流智能洪水预报方法对比研究[J]. 中国科学技术大学学报, 2016(9):774-779.
[3] Wang J, Shi P, Jiang P, et al. Application of BP Neural Network Algorithm in Traditional Hydrological Model for Flood Forecasting[J]. Water, 2017, 9(1):48.
[4] 黄国如, 胡和平, 田富强. 用径向基函数神经网络模型预报感潮河段洪水位[J]. 水科学进展, 2003, 14(2):158-162.
[5] Jayawardena A W. Comparison of multilayer perceptron and radial basis function networks as tools for flood forecasting[C]// North American Water and Environment Congress & Destructive Water. ASCE, 1997.
[6] Chang F J, Liang J M, Chen Y C. Flood forecasting using radial basis function neural networks[J]. IEEE Transactions on Systems, Man and Cybernetics-Part C : Applications and Reviews, 2001, 31(4):530-535.
[7] Liu F, Xu F, Yang S. A Flood Forecasting Model Based on Deep Learning Algorithm via Integrating Stacked Autoencoders with BP Neural Network[C]// IEEE Third International Conference on Multimedia Big Data. IEEE, 2017:58-61.
[8] Sujay R N, Deka P C. Support vector machine applications in the field of hydrology: A review[J]. Applied Soft Computing Journal, 2014, 19(6):372-386.
[9] 但灵芝, 王建群, 陈理想,等. ν-支持向量机洪水预报模型研究[J]. 水文, 2016, 36(2):7-11.
[10] Bray M, Han D, Happold B, et al. Identification of support vector machines for runoff modelling[J]. 2004, 6(4):265-280.
[11] Tehrany M S, Pradhan B, Mansor S, et al. Flood susceptibility assessment using GIS-based support vector machine model with different kernel types[J]. Catena, 2015, 125(125):91-101.
[12] 李晓丽, 周小健, 沈钢纲,等. 不确定支持向量机在洪水预测模型中的应用[J]. 兰州理工大学学报, 2012, 38(3):107-110.