基于事件的多元水文数据整编与挖掘

2012-04-30 01:56袁福怀王清香
水利信息化 2012年1期
关键词:中顺水文暴雨

袁福怀,王清香

(中顺大围工程管理处,广东 中山 528400)

0 引言

珠江三角洲河网地区水事件频发,每年都会经历洪水、暴雨、台风暴潮及咸潮等事件,受潮汐影响,每天都有潮起潮落,水文环境时刻发生着变化,复杂错综的水事件或因果相关,或偶发叠加,在应对和防御这些事件的过程中,当地水利工程管理部门采取了一系列水利工程调度措施,这些工程开启闭运行指令的组合都构成事件。

这些事件或独立发生,或叠加发生,但均有开始、演变、发展和结束等过程。事件的开始和结束均有明显的时间标记和水文特征值,演变过程由一系列水文特征数值组成,与时间序列对应。它们常常叠加发生,互相影响,具备因果关系,如台风可能导致暴雨、暴潮,暴雨时常与洪水相伴,洪水有时会遭遇天文大潮,应对事件必须要采取相应的工程调控措施,工程措施实施后会影响受控范围的水文特征变化。但事件的过程建立在时间序列上,伴随事件产生和结束。

作为一种新的数据分析工具,数据挖掘技术的发展十分迅速,而水文数据挖掘研究近年来不断发展,从早期水文数据的单项和局部数据的模拟与处理方面[1-2],向对基于水文数据库的全局性、多元化、相似性等因素数据挖掘研究和应用方面不断深入[3-5]。本文利用水文数据的相似性特点,提出了基于事件的多元水文数据整编与挖掘思路,通过对事件的分类、定义、数据提取,特征搜索与数据挖掘,以期构建基于水事件的经验模型和知识体系。

正确理解和掌握事件的实时性、连续性、偶发性、多元性、相似性等特点,通过时间序列上的多元相关性分析应用,借助数据挖掘,综合分析,查找出事件发生规律,总结出应对事件的经验和方法,达到对未来事件正确防范、从容应对的目标。

1 中顺大围试验区基本情况

中顺大围试验区位于广东省中山市,属珠江三角洲河网地区,长 120 km,分东西 2 条干堤,与南部五桂山区构成 1 个 790 km2的三角形防洪工程,沿堤近 50 座水闸控制着内部上百条纵横交错的河网流态,形成了 1 个封闭的流域范围,围内(中顺大围范围内)主要水事件有洪水、暴雨、台风、咸潮及水闸调度等 5 类事件。

1.1 洪水事件

主要指西江上游产生洪峰,中顺大围外江水位上涨,参考水文站水位到达防洪预案设定限值时的演变过程,关注重点是外江水位、潮位,围内降雨和内河水位,同时关注与之伴随的工程调度措施。洪水期间,堤防水闸一般关闭,围内河网水体停流,如遇围内暴雨或外江水位长期高位维持,围内则面临内涝和水环境恶化的困境,需要挖掘或提取综合利用洪水资源、借助下游潮汐和泵站调度解决内涝或水环境困境的知识体系,建立应对洪水事件的经验模型。

1.2 暴雨事件

主要指围内发生降雨,根据强度演变为可能的暴雨、大暴雨等事件,导致围内内河水位上涨,重点关注降雨量、降雨强度、内河水位演变过程,相关关注外江水位、潮位及与之伴随的工程调度措施。暴雨期间,需要对围内水量预排,排水量大小关系内涝和围内工农业用水,需要挖掘或提取历史暴雨及预排的应对调度措施,建立不同降雨量、强度下围内河涌水位上升速度与排涝工程措施的关系模型,以期建立起应对暴雨事件的经验模型。

1.3 台风事件

主要指西太平洋或南海生成的热带气旋,视强度不同经由热带低气压、热带风暴、强热带风暴、台风、强台风、超强台风等 6 个等级的变化过程。重点关注中心位置、移动方向和速度、风力等级等,相关关注由此产生的降雨、水位、潮位变化及采取的工程调度防御措施等。台风往往带来大的风暴潮和暴雨,但有时并没有多少降雨,因此在防御台风事件时常常综合防御暴雨事件,围内水位与风暴潮高度的反向水头差大小直接影响水闸工程的安全,需要挖掘和提取历史上防御台风和暴雨综合事件过程中的水文模型和相应的工程调度措施,正确掌握确保工程安全和防止内涝的平衡关系。

1.4 咸潮事件

至枯水季节,上游来水不足,伴随大潮,潮水上溯,外江潮水含盐度上升,产生咸潮,咸潮属水质事件,重点关注水体含盐量、潮水位,相关关注应对咸潮采取的工程调度防御措施等。

1.5 调度事件

应对上述事件和围内生产、环境用水而采取的调度措施,由一系列调度指令组成,具体到每个工程个体的开启闭操作指令,如全日关闸、排渍,关闸防咸、蓄水,水体置换等典型调度事件。

中顺大围已建成完善的工程监控系统,包括近100 个水位站点、15 个雨量站点、4 个 ADCP 流量站、4 个自动测咸站,实时获取水位、雨量、流量等水文数据,监控系统长期自动记录工程运行状态。系统已积累了大量的多元水文数据,并将长期不断地持续积累。

2 数据分类与整编

2.1 多元水文数据描述

基于事件的多元水文数据主要划分为以下几类:

1)水位数据。各水位(潮位)站点在时间序列上的数值记录,当水位达到某警戒值时记录为洪水事件。

2)雨量数据。各雨量站点在时间序列上的数值记录,当录得降雨时,记录降雨事件,视记录降雨量大小区分暴雨、大暴雨、特大暴雨事件。

3)热带气旋数据。热带气旋时间序列上的特征值记录,包括中心位置、移动速度、中心风速、气压等。视中心风速在时间序列上区分热带风暴、强热带风暴、台风、强台风、超强台风。

4)咸潮数据。潮水含盐量在时间序列上的特征值记录,当录得盐度值时记录咸潮事件,视咸度值大小,启动关闸防咸调度事件。

5)调度数据。为满足各种事件防御需要而启动的工程运行指令组合,依调度目标不同,启动不同调度事件,记录时间序列上各被调度工程的启闭运行状态。

6)事件数据。反映事件类别、名称、编号、开始和结束时间,以及事件水文特征信息等。

2.2 多元水文数据整编

2.2.1 数据现状

数据整编的目的是为了满足基于事件的多元相关分析和数据挖掘需要,为了获取和积累事件应对经验和知识体系。

中顺大围水文遥测系统按照规范标准建有水文遥测数据库,由于站点建设的时间先后,存储了跨度达 1~20 a 的数据,较为完整的数据为 6 a 内数据,流量数据不足 1 a。

2.2.2 整编原则

数据整编按照以下 3 个原则分类进行:

1)区分时间精度。指基于事件特征记录值的时间间隔密度,最高时间精度为初始入库时的原始记录间隔值,一般为 5 min 间隔。提出时间精度概念,是为了便于检索和查询,提高数据挖掘效率,不同的时间精度,整编出不同的数据表库对应,以满足不同时间尺度下的查询分析和应用展示。按照不同的时间精度,主要整编了 5、15 min,1、4、24 h 数据;5 min~1 h 数据时间跨度不超过 1 月,1 h 数据间隔以上数据跨度不超过 1 a。

2)按照事件分类。整编不同时间精度下的水位、降雨、热带气旋、咸潮、工程调度运行等数据。

3)面向数据挖掘。数据挖掘是基于事件的多元水文数据整编的目标,整编、搭建易于挖掘和综合分析的数据仓库系统,为获取经验和知识模型提供保障。

2.2.3 整编方法

以自动整编为主,人工干预为辅进行整编,基于水文遥测和工程监控系统的为数据源,在数据管理系统中通过软件进行自动整编。

水位、雨量、咸度、流量数据通过数据库服务软件自动提取和抽稀获取,并重构不同时间精度的多元水文数据库;

调度事件数据通过自动获取工程监控系统中的工程开关状态及时间,在人工辅助下完善不能自动获取的工程运行状态数据,随着中顺大围工程调度决策支持系统的建成运行,调度事件数据整编也会实现自动化;

热带气旋数据库借助第三方专业台风监控平台自动获取,并且实时更新;

事件数据整编由人工生成并通过历史数据校准。对于洪水事件,当参考站水位值达到限值时自动记录开始时间,以上级三防部门的预案启动和结束的通知做校核;暴雨事件由气象部门的预警信息作为启动和结束点,以事件结束后的历史降雨数据做校核,重新界定起止时间;台风事件按照气象部门的预报和级别人工输入;咸潮事件由系统界定咸度超标时记录,低于标准时结束。

人工辅助干预的事件整编已纳入业务部门的值班人员日常工作范畴,通过系统界面录入即可,事件分类已经约定,事件和编号由系统自动生成。

3 多元水文数据挖掘

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[6]。数据挖掘技术在人工智能领域,习惯上又称为数据库中的知识发现(KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤[7]。知识发现过程由以下 3 个阶段组成:1)数据准备;2)数据挖掘;3)结果表达和解释。

本文提出基于事件的多元水文数据挖掘,旨在通过对本地区水事件的相似性分析,对各类事件演变过程产生的时间序列数据进行抽取、清理,经过系统加工、汇总和整编构建数据仓库,在数据挖掘技术支撑下,获取各类事件的特征和演变规律,重要的是获取应对事件所采取的综合调度措施、方法,积累一系列经验模型和知识集合,为积极应对洪水、暴雨、风暴潮等严重水事件,科学调度水利工程提供决策支持。

3.1 多元水文数据表达

中顺大围工程调度系统是集信息采集、通讯网络、远程监控、调度指挥、决策支持系统为一体的水利信息化应用系统,其中工程调度决策支持系统是系统的核心。调度决策支持系统以数据仓库和挖掘为目标,基于事件,对多元水文数据进行挖掘,应用仪表盘软件设计思路表达,在时间序列上,综合表达水位、雨量、流量、事件、咸度等多元水文信息,开发了多元水文信息查询系统,系统界面如图 1 所示。

图1 多元水文信息查询系统界面

系统将水位、雨量、流量、咸度等多元水文信息与事件集成在同一时间轴上,形成时间流与数据流对应,时间尺度与事件尺度对应,直观显示在同一事件时段内水位、降雨、流量、咸度等的变化及相关性。图 1 中左侧为特征查询数据显示区,右侧为综合查询选择区,顶栏为时间精度选择,中间多元信息查询显示区可依次选择水位、雨量、流量或咸度,也可自由组合,无降雨的季节可以补充选择咸度,底部 3栏自上而下分别为事件、时间、月相等轴。

事件轴:用标准台风、暴雨符号、自行设计的工程调度指令符号标注事件的开始和结束时间点。

时间轴:在时间轴上拖动选择框可以方便地选择时间范围,也可以左右扩展时间框范围,不同的时间精度也约定了相应的时间范围,选择事件的开始标志可以框定事件开始到结束的时间范围框。

月相轴:感潮地区,非常关注农历时,潮汐规律与月相相关,月相轴用月亮的阴晴圆缺变化来直观表达潮汐规律,同时也是农历时间轴。

3.2 多元水文数据挖掘

数据挖掘通过分类、估计、预测、相关性分组或关联规则、聚类、描述、可视化等流程与方法获取知识和经验模型[6]。

由于已构建了基于事件的多元水文数据仓库,基于事件的水文特征聚类分析变得可行和简单。传统结构化数据库管理系统提供的多项复合条件检索,已为中顺大围工程调度决策支持系统获取一系列水事件发生规律,包括时间、演进、特征范围,特别是为获取应对事件所采取的防御措施、调度方法等知识经验提供便利,辅以专家决策,对将要发生的水事件进行评估和特征预测也已初步可行。

多元水文信息查询系统目前已实现基于 SQL Server 数据库的综合应用查询,可以综合查询台风、暴雨及综合调度事件,借助数据库复合检索查询,获取历史台风、暴雨产生的多元水文特征数据,以及基于事件(相似形分组[6])的关联查询,通过综合分析和挖掘,获取的知识和经验模型包括历年洪水特征和演进、暴雨及特征、台风演进及暴雨、暴潮特征、咸潮规律等模型,以及防御上述事件所采取的工程综合调度模型。在试验区内,基于算法的数据挖掘尚在起步中。

4 结语

本文提出的思路,是在中顺大围工程调度决策支持系统建设中的一个应用尝试,数据仓库和挖掘是一门新兴技术,涉及一系列数据仓库支撑技术[7]、各类挖掘算法[3-4],需要在今后系统深入建设中进一步深入应用和研究。

[1]艾萍,王志坚,索丽生,等. 水文数据在线分析与知识发现系统模型研究[J]. 水利学报,2001(11): 15-16.

[2]艾萍,倪伟新. 我国水文数据挖掘技术研究的回顾与展望[J]. 计算机工程与应用,2003 (28): 13-14.

[3]李士进,朱跃龙,张晓花,等. 基于 BORDA 计数法的多元水文时间序列相似性分析[J]. 水利学报,2009 (3):378-379.

[4]张奕韬,万定生. 水文时间序列关联规则挖掘模型研究[J]. 计算机与数字工程,2008 (12): 35-36.

[5]欧阳如琳,任立良,周成虎. 水文时间序列的相似性搜索研究[J]. 河海大学学报:自然科学版,2010(3): 241-242.

[6]谭建豪. 数据挖掘技术[M]. 北京:中国水利水电出版社,2009: 128-185.

[7]陈志泊. 数据仓库与数据挖掘[M]. 北京:清华大学出版社,2009: 8-120.

猜你喜欢
中顺水文暴雨
“80年未遇暴雨”袭首尔
暴雨
当暴雨突临
继往开来 守正创新——河北省水文工程地质勘查院
中顺洁柔2020年前三季度净利6.72亿增长53.42%
水文
水文水资源管理
中顺洁柔2019年前3季度净利润同比增长39.96%
暴雨袭击
水文