一种支持大数据的水利数据中心基础框架

2013-09-24 10:04莫荣强吴礼福岳兆新
水利信息化 2013年3期
关键词:结构化数据处理数据中心

莫荣强 ,艾 萍 ,吴礼福 ,岳兆新 ,冯 鹏

(1. 广东省防汛抢险技术保障中心,广东 广州 510635;2. 河海大学,江苏 南京 210098;3. 北京师范大学,北京 100875)

0 引言

经济社会和技术的发展扩展了水利数据服务的领域,现代水利数据的应用早已不局限于防灾减灾、工程设计等传统应用范畴。遥感、GIS、传感网和射频技术等现代信息技术的发展与应用,全面拓展了水利信息的时空尺度和要素类型,水利数据的种类和数量急剧膨胀,逐渐呈现出多源、多维、大量和多态的大数据特征。有效存储和应用水利大数据,已经成为水利信息化发展面临的重要关键技术问题之一。

根据水利信息化规划,水利数据中心建设的目的在于全面整合分散的各类水利信息资源,实现资源共享,并对其进行深度挖掘,以满足水利业务/事务发展的需要[1]。然而,现有水利数据中心的技术定位与基本体系,在处理大量的水利数据(PB 级甚至更高),特别是图像和数据流等半结构化、非结构化数据方面,还存在能力、技术等多方面的不足。因此。本文以水利数据中心现有技术架构为基础,提出一种支持大数据的水利数据中心基础框架,并对其技术特点进行简要分析与讨论。

1 大数据技术的研究

继物联网、云计算技术之后,大数据技术也接踵而至。大数据技术[2]是指对数据规模大、结构复杂度高、关联度强的数据集进行处理与应用的信息技术。目前,对于大数据还没有一个统一的定义,主要通过“4 V”表述特征[3],即:1)大量(Volume),存储空间大,计算量大;2)多样(Variety),来源多,格式多;3)快速(Velocity),增长速度快,处理速度要求快;4)价值(Value),数据中包含着有价值的信息。

在国外,一些政府机构和相关学者对大数据技术进行了比较全面的投入和研究。美国联邦政府于 2012 年发布了“大数据研发专项研究计划”[4],把大数据研究上升到国家发展战略;《科学》杂志于 2011 年发表专刊“Dealing with Data”[5],对大数据在科研中的作用展开讨论;美国匹兹堡大学的 Alexandros Labrinidis[6]提出大数据面临的机遇、存在的争议,以及解决目前问题的可能途径;Kapil Bakshi[7]提出大数据的架构和处理方法,并对非结构化数据进行了重点分析;Quang Tran 等人[8]在肯定大数据技术在处理海量数据,挖掘知识方面作用的同时,提出数据安全性的问题,并就此提出相应的解决方案;Surajit Chaudhuri[9]提出大数据跟传统数据库的区别,大数据处理采用的方法及大数据和云计算的关联。

目前,国际上大数据处理通常是在 Hadoop 平台上通过 MapReduce 编程模型实现的,大数据应用研究的主要内容包括大规模存储和大尺度计算、技术模型和框架、机器学习和挖掘算法,以及大数据可视化、安全性等方面。

国内的很多学者也对大数据的基础架构和应用进行了深入的研究。中国工程院“ICT 的 2012”[10]提出了所谓“大数据时代”,并就大数据的技术支持和商业前景进行了预测和展望;李国杰院士[11]认为:“‘数据科学’研究的对象是什么?计算机科学是关于算法的科学,数据科学是关于数据的科学。”;王珊等人[12]认为大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点,并列举了大数据分析平台需要具备的几个重要特性,对并行数据库、MapReduce 及基于两者的混合架构进行了分析归纳,指出了各自的优势及不足,并对技术发展做出了展望;孟小峰等人[13]在对大数据基本概念进行剖析的基础上,阐述了大数据处理的基本框架,并与云计算进行了比较分析,提出了大数据时代面临的挑战;成静静等人[2]针对大数据时代特点,提出了基于云计算的大数据统一分析平台,对架构体系、软件架构、网络架构等进行了讨论。对于大数据技术在水利领域的应用,仍处于基本技术的探讨阶段,还未见公开报道的成果。

2 水利数据中心的节点结构

水利数据中心是水利信息化发展水平的重要标志,是具体实现水信息组织的信息基础设施,是实现信息资源集成与共享的核心平台[14]。在水利信息化综合体系和管理分类中,数据中心均处于核心地位,是水利信息资源开发与应用的重要基础设施。

根据国家水利数据中心建设基本技术要求,国家水利数据中心系统由“三级两域四区”的多节点构成,各级节点的逻辑结构包括资源层、服务层和门户,以及保障和运行环境 5 个部分,框架示意图如图 1 所示。

按水利信息化顶层设计,水利数据中心系统的主要建设内容可分为基础设施、数据资源、信息组织平台、保障环境等的建设。其中:基础设施建设包括机房、网络和硬件的建设;数据资源建设是数据中心建设的重点内容之一,要做好数据资源的规划和组织,建立完善的信息资源目录、元数据体系,根据需要建设若干主题和专用数据库;信息组织平台建设包括目录服务、信息资源门户服务、信息组织与管理服务和信息交换等部分,实现数据中心的信息共享与综合开发支撑功能;保障环境建设包括安全、备份容灾、日常管理制度等的建设。

从水利数据中心建设的主要内容可以看出,当前水利数据中心的节点结构,主要考虑结构化数据的处理,虽然也考虑了部分非结构化和半结构化数据的处理需求,但没有对具有“4 V”特征且不能用常规手段处理的水利大数据进行适应性分析与设计。如果需要支持水利大数据的处理,需要在此基础上,进行必要的体系架构和基础设施的扩充,更重要的是,需要扩展水利数据中心建设的技术理念,以适应水利大数据的处理需求。

3 支持大数据处理的水利数据中心基础架构

当前,水利数据中心基本上采用关系数据库组织和管理结构化数据,用 GIS 加关系数据库组织地理空间数据,用关系数据库管理目录或特征加文件贮存数据实体组织半结构化和非结构化数据。这样的方式,难以适应水利大数据的组织需求。

根据大数据 “4 V”特征和大数据处理技术,支持大数据处理的水利数据中心的建设思路需要做以下基本扩充:

1)根据大数据存储量大、计算量大,且需求不断增长的特点,水利数据中心的存贮与计算能力需要大幅度提高,以满足水利数据的大规模存储、大数据并行计算的需要。云计算环境是必须考虑的可能选择之一。

2)为了实现大数据的分析与应用,综合分析水利数据的本源组织结构与主题化需求,结合大数据技术的特点,注重水利信息分类采集的要素、时间和空间分辨率、准确度和精确度间的协调机理与方法分析,使得水利大数据的组织、降维、抽取、主题化,特别是满足非结构化、半结构化海量数据处理的需要具有应用意义下的可操作性。

图1 水利数据中心节点逻辑结构框架示意图

为了组织处理水利大数据,引入信息动态组织的基本原理,构造支持大数据处理的水利数据中心基础架构,如图 2 所示。

图2 所示的基础架构,基本遵循了在水利数据中心形成多形式、主题基本数据存贮,以支撑水利信息产品的生成、面向主题的新一代水利业务应用及多模式的水利信息发布与服务这一基本原则[14],只是强调了对多源、异构、大量的水利大数据进行动态组织,从而实现支持水利大数据分析与应用的目标。

在图 2 中,存贮支撑平台扩充了水利数据中心的运行环境,需要应用混合型的云存贮(如Hadoop)来存贮结构化、半结构化和非结构化数据;数据组织与服务平台按照信息组织理论,以满意度最大化为尺度,应用 SQL 及非 SQL 的数据抽取工具,对数据进行抽取、集成与转换,实现大数据分析的数据准备,并支持采用流或批处理方式的MapReduce 或其它模式与工具,以及数据挖掘和机器学习等技术,完成水利大数据的分析与应用,达到用全数据分析关联关系,而不是用抽样数据分析因果关系的目标。

根据图 2,归纳在支持大数据的水利数据中心系统中,水利大数据处理的基本流程可以抽象为以下 3 个阶段:

1)数据抽取与集成。与所有领域的大数据一样,水利大数据同样具有多样性的特点,也就是多源、异构、多时空尺度,数据类型极为繁杂,其应用的第一步就是要对所需数据源的数据进行动态抽取和集成,按照水利信息组织的模式从源数据中提取出关系和实体,经过关联和聚合之后采用统一定义的结构来存储这些数据。由于大数据通常是先有数据再有模式,且模式不断动态演化。因此,水利信息组织的动态组织模式对水利大数据的清洗、抽取和集成,特别是集成模型的动态构造,具有重要的指导作用与实用价值。

图2 支持大数据处理的水利数据中心基础架构示意图

2)数据分析。水利大数据分析是根据主题化应用的需求,在信息组织模式与体系的支持下,进行数据分析与处理。大数据分析处理可以应用并行化或云计算体系下的数据挖掘、机器学习、统计分析等技术进行,关键是要解决好数据准备和分析等过程中的大规模计算问题,特别要树立工具是传统的,但结果是大数据的。特别是实时流处理条件下,结果是实时性和准确率间的平衡,而不是非大数据条件下的精确结果。

3)数据应用。大数据分析结果的应用与常规数据分析结果的应用一样,需要有有效的结果表示方式,以帮助用户正确理解和应用分析成果。由于水利大数据分析的结果往往是复杂的时空关联关系,因此,基于 GIS 的多维可视化、标签云、历史流、空间信息流等技术的应用是必要的。根据水利应用的特点,能够让用户动态参与并加入先验知识的大数据分析与结果展示技术,更适合水利大数据的分析与数据应用。

支持大数据处理的水利数据中心,与一般水利数据中心的主要区别在于存贮数据和进行数据处理的能力要强得多,数据存贮与应用的模式及技术也很不相同。但是,从水利信息化发展的角度看,支持大数据的水利数据中心并不是一般水利数据中心的替代,而是随着水利信息化发展的扩展,因为在水利业务应用中,不但有大数据分析支持的应用,还有常规的非大数据支持的应用。

4 结语

大数据技术是正在发展中的信息技术,是数据变大导致的技术改变。随着数据的更大规模生产与应用,大数据技术也将不断发展。而在水利信息化的过程中,因水利管理对象的特有特征和领域及管理权限等因素的限制,水利大数据暂时还没有大到常规技术无法解决的程度。但是,随着国家信息化推动下的管理观念与政策应用的变化,以及信息技术的更加深入与全面应用,水利管理需要更多复杂类型的数据(如与水利管理对象相关联的社会经济数据、时空尺度更复杂的面观测数据等)来支持的局面,将会很快来临。因此,对支持大数据处理的水利数据中心展开研究与实验开发,已经成为推进水利信息化科学可持续发展的重要方面。本文提出的一种支持大数据处理的水利数据中心基础架构,是这方面的先导性探索,是对水利数据中心发展思路的一种扩充,这个基础架构将在广东省水利数据中心的建设与应用中进一步实践、修改与完善。

[1] 成建国,钱峰,艾萍. 国家水利数据中心建设方案研究[J]. 中国水利,2008 (19): 32-34.

[2] 成静静,喻朝新. 基于云计算的大数据统一分析平台研究与设计[J]. 广东通信技术,2013 (1): 6-10.

[3] 李国杰,程学旗. 大数据研究:未来科技及经济社会发展的重大战略领域—大数据的研究现状与科学思考 [J]. 中国科学院院刊,2012, 27 (6): 647-657.

[4] Big Data Across the Federal Government [EB/OL]. [2013-05-26]. http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_final_1.pdf.

[5] Science Special online collection: Dealing with data [EB/OL]. [2013-05-26]. http://www.sciencemag.org/site/special/data/, 2011.

[6] Alexandros Labrinidis, H. V. Jagadish. Challenges and Opportunities with Big Data [C] //Proceedings of the VLDB Endowment Hompage table of contents archive. VLDB Endowment InC, 2012: 2032-2033.

[7] Kapil Bakshi. Considerations for Big Data: Architecture and Approach [C]//2012 IEEE Aerospace Conference. Big Sky, Montana: 2012.

[8] Quang Tran.A Solution for Privacy Protection in MapReduce [C]// Proceedings of the 2012 IEEE 36th Annual Computer Software and Applications Conference. 2012: 515-520.

[9] Surajit Chaudhuri. How Different Is Big Data? [C]//Proceedings of the 2012 IEEE 28th International Conference on Data Engineering. IEEE: 2012.

[10] 邬贺铨. ICT 的 2012 [EB/OL]. [2013-05-26]. http://wenku.baidu.com/view/874185c08bd63186bcebbc8f.html.

[11] 李国杰. 大数据研究的科学价值 [J].中国科学院院刊,2012, 8 (9): 8-15.

[12] 王珊,王会举,覃雄派,等. 架构大数据:挑战、现状与展望[J]. 计算机学报,2011, 34 (10): 1471-1752.

[13] 孟小峰,慈祥. 大数据管理:概念、技术与挑战[J]. 计算机研究与发展,2013, 50 (1): 146-169.

[14] 艾萍. 水信息工程引论[M]. 武汉:长江出版社,2010: 115-138.

猜你喜欢
结构化数据处理数据中心
酒泉云计算大数据中心
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
浅析数据中心空调节能发展趋势
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
关于建立“格萨尔文献数据中心”的初步构想
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
基于云计算的交通运输数据中心实现与应用