◆唐芳 袁敏 孟若琳
基于云计算架构的水文大数据云平台建设策略
◆唐芳 袁敏 孟若琳
(山东省水利勘测设计院 山东 250013)
在当今的大数据时代中,水文工作也实现了信息化的发展。为有效提升水文工作的信息化效果,本文特对以云计算框架为基础的水文大数据云平台建设进行分析。希望通过本次的分析,可以对水文大数据储存、处理、管理与应用等工作的信息化提供相应参考。
大数据;云平台建设;云计算框架;水文大数据
随着当今水文工作的不断发展,各种形式的水文数据积累量也越来越多。在这样的情况下,传统的水文数据处理模式越来越难以满足水文大数据的实际处理需求。因此,技术人员一定要将云计算框架作为基础,对水文大数据云平台进行合理建设,让水文大数据的处理需求得以良好满足,为水文工作的良好进行与信息化发展奠定坚实的技术基础。
为满足水文大数据的处理需求,在本次云平台建设中,将关系型数据库以及分布式文件系统相结合的方法作为基本思路。具体建设中,需要将本地IDC中的私有云作为基础,将Hadoop开源框架作为首选。该开源框架可以为密集型大数据的分布式储存和批量分析处理提供支持,在离线数据分析和储存中十分适用;在关系型数据库管理系统中,它可以作为补充来使用。但是私有云条件下的Hadoop集群建设需要很多的内部组件联动,具有较高的学习门槛,这就会使其部署和运维成本进一步增加。为解决这一问题,可以将分布式框架作为基础,借助于虚拟化技术来实现弹性服务的提供,满足其高度扩展需求。对公有云服务商所提供出的分布式数据储存和计算服务加以直接应用,这样便可实现运维成本的有效降低,同时也可以进一步提升平台的性能效率与扩展能力,为水文大数据云平台建设架构提供更加优秀的技术方案。
本次设计中,选择的是阿里云计算平台,该平台首先根据具体功能对集群形式的基础框架组件进行封装,使其成为若干种服务,再通过TableStore表格储存和OSS对象储存的方式为大数据访问和储存提供出透明的自动化移动和分布服务。与Hadoop相同,MaxCompute大数据计算引擎也是将SQL标准接口作为基础,按照MapReduce标准范式对整个计算过程进行解析,将整个处理过程划分成若干个小部分,每一个小部分都可以在集群中的任意一个节点上进行执行,同时也可以重新执行。另外,在MaxCompute中,也实现了自动形式的函数接口开放和数据挖掘算法库的集成。图1是阿里云服务框架示意图。
在水文工作中,各种数据处理都具有非常高的时效性需求,这样才可以对紧急事件及时作出相应的预警和决策。为达到这一目标,在水文大数据云平台的建设过程中,可以将阿里云服务中的StreamCompute实时计算框架加入水文数据中心框架中,该计算框架可对数据源进行不断更新,对接收到的每一条数据都会及时作出处理。因此,将该计算框架应用到水文大数据云平台中,便可对水文大数据进行实时清洗,同时也可以实时进行专业模型计算与数据流处理。
元数据指的是对数据进行描述性,它会按照统一标准对数据所具有的基础属性、操作及其业务定义等进行规范记录。在大数据环境下,对元数据管理及其维护系统进行科学建立,便可让元数据得到良好维护,使其形成分布式文件系统以及关系型数据库中各种类型信息储存的数据字典。当数据发生变化的情况下,便可借助于元数据同步更新来实现多源化水文数据信息的一致性与完整性保障,同时也使其具有可追溯性特征。
在本次以云计算框架为基础所设计的水文大数据云平台中,在本地机房中进行了水文应用的部署,借助于VPN持久连接的形式来实现公有云和私有云平台的互通。公有云主要对水文大数据进行弹性管理,并与私有云部署相配合,对关键的水文数据进行备份,并进行相应的资源优化处理工作。在该云平台中,主要的子系统有五个,第一是数据门户管理子系统,第二是数据汇集子系统,第三是数据存储子系统,第四是数据处理分析子系统,第五是数据分发子系统。图2是该水文大数据云平台的总体框架结构示意图。
在水文大数据平台的具体应用中,需要采集来源不同的异构数据,比如遥测数据以及来自其他领域的数据。其中,遥测数据大多为实时监测数据,采集过程中需要借助于标准码转换器转发的方式来接入。来自其他领域的相关数据包括气象数据、国土数据等,这些数据需借助于已定义接口或者是连接的方式来接入。就数据格式来看,水文大数据主要有非结构化、半结构化以及结构化格式。通过云服务器上寄存的ETL,可将采集到的异构数据实时写入到信息队列中,再通过实时计算服务来进行数据的质量的校验与清洗,这样便可实现水文数据入库效率与质量的良好保障。
在本次所研究的水文大数据云平台中,关系数据库与分布式文件系统之间实现了有机结合,以此来共同储存水文大数据。借助于关系型数据库服务,对结构化形式的实时遥测数据、元数据以及质量管理控制数据进行储存;借助于分布式文件储存服务以及大数据表格,对非结构或半结构化的视频数据、图像数据、文档数据和历史数据等进行储存。
在这两种数据储存方式中,每一种方式都不是独立存在,而是借助于相应的装载工具或者是数据集成服务来进行相互补充,以此来达到数据库的弹性扩容效果,让海量数据增长与数据结构多样化发展需求得以良好满足,进而为水文大数据云平台的长期应用奠定良好基础。同时,在具体建设中,通过主题库以及元数据库的建立,可以让水文数据中的所有数据格式得到准确定义与描述,进而为水文系统可用性及其易用性的提升提供足够便利。
在水文大数据云平台中,水文大数据分析主要是将主体化应用的实际需求做成依据来进行相应数据的分析与处理,因为水文数据体量十分庞大,所以需借助于并行计算或者是云计算引擎来进行处理。对于OSS以及TableStore中储存的海量分布式水文数据,可在云端通过数据集成服务对其进行高速交换,然后便可借助于MaxAompute中的MapRedute并行计算来进行多节点高效处理,以此来满足海量水文数据的实际分析与处理需求。在此过程中,云平台也可将可用性极高的自定义算法和线性、非线性统计法等入口提供给用户,为其水文数据的分析和挖掘提供足够便利。借助于StreamCompute实时计算服务,可进行消息处理和数据库更新,对水文数据的具体计算、处理以及预报模型套用情况进行实时监测,并实现水文数据显示、紧急情况告警和灾情调度方案等的实时生成。同时,借助于云平台中的深度学习、决策树以及人工神经网络等的各种技术方法,可对水文数据中所隐含的信息以及数据之间的内在联系进行探索与发现,为跨行业多源化数据的融合与共享、以及水文数据中潜在价值的挖掘预留接口。
对于水文大数据中的非结构化数据,具体分析中,可借助于文本分析的形式来实现摘要和关键词的自动产生,并按照主体对各种数据进行分类。这样便可为后续的水文数据资料快速检索与浏览提供足够便利。
在该云平台中,数据分发系统的云计算能力十分强大,通过该系统的应用,可让水文数据实现及时的端对端分发,以此来有效确保各个单位与业务部门之间的快速联动。而在该水文大数据云平台中,其数据服务对象不仅仅包括各个服务单位、制版系统以及预报系统等,同时也包括了普通的社会群众。借助于标准化的API接口,可将水文大数据云平台中的水文数据、相关科普信息以及分析结果等向社会公众开放,让相应水文数据在社会群众的生产生活中发挥出充分的应用价值,进而为社会群众提供出更好的水文服务工作,尽最大限度降低紧急情况对社会群众的不良影响。
在水文大数据云平台的设计与建设中,统一门户管理是一项重要内容。具体管理中,借助于统一的简洁界面,将各种历史水文信息、实时水文信息和水文信息分析预报结果等直观地展示给用户,为其水文数据的应用分析与理解提供足够便利。同时,在该云平台中,借助于API调试技术,可实现每一个服务组件的统一运维和监控,而这些功能也都集中在一个统一的界面上。通过这样的方式,便可实现整体平台响应效率及其易用性的显著提升。
综上所述,随着大数据时代的来临,水文工作中的各种信息数据也以海量的形式不断增加。在这样的情况下,传统的数据处理技术便表现出了越来越多的弊端。如果水文数据处理技术得不到及时的更新,海量的水文数据处理需求必将无法得到有效满足。
为解决水文大数据处理问题,技术人员应将云计算框架作为基础,对水文大数据云平台进行科学建设,将各种先进的技术应用到云平台建设中,做好云平台总体框架和各个子系统的设计与开发。通过这样的方式,才可以有效确保水文大数据云平台的建设质量,使其在水文大数据处理中发挥出显著优势。
[1]傅耀威,杨国威,徐泓,等.云计算和大数据技术发展现状与趋势[J].中国基础科学,2018,20(03):35-37.
[2]雷成茂,郭银,杨国德,等.利用云计算技术构建水文大数据平台应用前景探讨[J].山西水利,2016(11):34-35.