浅谈电力大数据平台关键技术研究与应用

2016-12-28 23:25付盼刘晓龙
中国科技博览 2016年24期
关键词:数据整合数据存储大数据平台

付盼++刘晓龙

[摘  要]近年来,经过SG186工程、SG-ERP建设,国家电网公司积累了丰富的数据资源,但随着公司业务系统数据量的不断增大,数据价值挖掘需求的增长,电力大数据平台需要横向扩张,进一步整合优化数据资源。本文研究探讨了电力大数据平台关键技术研究与应用,充分分析现有数据中心平台组件待优化点基础上,开展公司大数据平台基础组件的研究,以实现统一为公司各类应用建设提供海量数据采集处理、存储处理、计算处理、分析挖掘等基础性支撑功能。

[关键词]大数据平台;关键技术;数据整合;数据存储

中图分类号:F426.61 文献标识码:A 文章编号:1009-914X(2016)24-0194-01

1 引言

随着国网公司“三集五大”管理体系和调控、运监、客服三中心的全面建设,信息系统已全面融入公司生产经营管理业务的各个方面,积累了大量的结构化数据、非结构化数据、海量历史准实时数据和地理信息数据。按照“统筹规划、协同推进、统一平台、规范建设”的总体策略,在充分继承现有信息化建设成果和一期大数据平台试点建设经验的基础上,2016年公司将全面推广大数据平台建设工作,以提升公司内外部数据资源整合处理和价值挖掘水平,促进管理提升和业务创新。

2 关键技术研究

1)关系数据与分布式存储同步技术

关系数据库与分布式存储同步技术是指可以将关系数据库的数据抽取到分布式存储中,又可以将分布式存储中的数据回写到关系数据库中。

大数据平台中的数据通常采取分布式存储技术进行海量数据存储,数据主要来源于公司现有的关系数据库、数据仓库。在数据进行传输的过程当中,既需要保障数据能在关系型数据库和分布式存储之间无缝传输,又需要保障大规模数据的传输与流转效率,不能影响业务系统正常运行。而传统的ETL抽取工具一般只具有关系数据库、文件、服务等数据源之间同步功能,缺少关系数据库与分布式存储之间数据同步能力。因此需要利用关系数据库与分布式存储同步技术实现不同存储机制下的数据双向同步。

2)文件采集与处理技术

数据平台的数据来源除了传统的数据中心、数据仓库之外,更多的数据是来自之前无法有效处理的各类文件,如系统日志、数据交换文件、现场检修照片、远程监视的视频等。这些文件数据结构不明确、清晰,变化频繁,数量巨大。通过大数据平台的分布式存储可以低成本存储文件,也可以将其中的数据解析成结构化或半结构化的数据存储在大数据平台中。

3)分布式文件系统

分布式文件系统是指基于客户机/服务器模式,文件系统管理的物理资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统表现为文件数据存储在分散的低成本存储介质上,对外提供一致的文件访问接口,具有良好的容错性。分布式文件系统的引入,解决了海量数据存储的难题,其所具备的全分布式架构、数据块粒度切分、在线扩容减容、复制备份及普通PC硬件适用性等关键技术,支撑了安全的PB级以上规模数据在线存储,使安全、低成本、可任意扩容的大数据存储成为可能。

3 平台架构内容

大数据平台为业务系统大数据应用开发、运行提供统一的平台支撑。其架构内容主要包括数据整合、数据存储、数据计算、数据分析、平台服务、安全管理、配置管理等模块,并提供各种形式的服务对业务应用提供支撑。架构图如下图1所示。

数据整合:通过数据抽取、实时数据采集、文件数据采集、数据库实时复制等多种技术从外部数据源抽取和采集结构化数据(关系数据库记录)、半结构化数据(日志、邮件等)、非结构化数据(文件、视频、音频、网络数据流等),同时,实现数据的实时、非实时采集。

数据存储:负责进行大数据的存储,针对全数据类型和多样计算需求,以海量规模存储、快速查询读取为特征,存储来自外部数据源的各类数据,支撑数据处理层的高级应用。

数据计算:对多样化的大数据提供流计算、批量计算、内存计算、查询计算等计算功能,允许对分布式存储的数据文件或内存数据进行查询和计算。通过流计算技术提供实时分析处理的计算能力,实现实时决策、预警等。通过离线计算提供落地数据的计算能力,实现数据的批量处理。

数据分析:对多样化的大数据进行加工、处理、分析、挖掘,产生新的业务价值,发现业务发展方向,提供业务决策依据。

平台服务:将底层数据分析工具、组件等能力封装后为业务系统的大数据应用提供平台服务支撑,包含存储服务、计算服务、分析服务、展现服务等。

安全:解决从大数据环境下的数据采集、存储、分析、应用等过程中产生的诸如身份验证、授权过程和输入验证等大量安全问题。由于在数据分析、挖掘过程中涉及企业各业务的核心数据,防止数据泄露,控制访问权限等安全措施在大数据应用中尤为关键。

管理配置:实时监测大数据处理全过程中的整体运行状态、资源使用情况和接口调用情况等性能指标并对关键系统险情进行告警,支持大数据组件安装、配置和状态管理,可快速扩展应用功能和能力,可实时性监控和调度任务计划,可对大数据集群的计算资源和存储资源进行配置和管理。

4 总结

对电力大数据平台关键技术的研究与应用的成功实施,为公司各类应用建设提供海量数据采集处理、存储处理、计算处理、分析挖掘等基础性支撑功能,提升公司内外部数据资源整合处理和价值挖掘水平,促进管理提升和业务创新。

猜你喜欢
数据整合数据存储大数据平台
Hadoop性能测试自动化研究
基于大数据的智能停车场管理系统设计
基于大数据分析的智慧仓储运营支撑平台设计
开源数据库数据存储的实现路径分析
基于Android开发的APP数据存储研究
高等院校实验中心共享教学资源库建设研究与设计
哈希算法在物联网数据存储中的应用
袜业行业大数据平台的应用研究
基于数据挖掘的网络营销系统研究
大型在线式UPS及监控系统在中控机房的应用