基于分布式技术的电力大数据高性能处理中的应用研究

2015-07-19 06:40邓贤添广东电网有限责任公司江门新会供电局广东江门529100
中国新技术新产品 2015年24期
关键词:数据分析系统分布式计算分布式

邓贤添(广东电网有限责任公司江门新会供电局,广东 江门 529100)

基于分布式技术的电力大数据高性能处理中的应用研究

邓贤添
(广东电网有限责任公司江门新会供电局,广东 江门 529100)

分布式技术应用属于新兴技术,是基于网络应用所开发的一项技术,可以提供效果良好的网络应用开发模式,此项技术实现了高效率及大规模和组件化的分布式程序的开发。Internet技术水平持续提升,随之人们对网络应用系统有了更高的要求及需求。

分布式技术;电力大数据;高性能处理

分布式应用技术诞生至今,由最初两层应用模式发展到具有应用层及业务逻辑与数据层的三层模式,再到目前的多层体系结构模式总共经历了三个发展阶段。为了有效处理电力数据分析系统处于大数据时代下所出现的性能及可伸缩性的瓶颈问题,以便充分适应于各方面生产及营销等各种系统的要求,着眼于云计算技术各方面优势,提出了基于云计算的电力大数据分析系统体系结构和主要技术。

一、电力大数据概论

近年来,数字信息化发展飞速,各类信息资源更是持续暴涨。人类在享受信息化所带来的便捷时则也造成全球数字信息资源飞速增长。按照国际数据统计资料显示,截止2014年底全球数据量已经超过了2.0ZB,还会每年以50%增长速度不断上升。大量数据浪潮不断涌入,社会各界也相继开始了数据化进程。学术界及政府和商业界也都参与其中,无一幸免的进入大数据时代。国内电力工业是全球第二大经济体能源支撑体系,则进入大数据时代无可厚非。

大数据概念在业内并无统一定义,引用IDC基于信息基础设备推进研究会中对其的描述,就是大数据自身具备大量数据体及诸多数据类型和极快的数据处理,加上其价值密度偏低的这四方面特征,属于一个海量数据集合,这也是业界所一致认同的。大数据也就是不能在规定时间之内采用传统数据库软件工具对相关内容施以获得及管理与处理的大数据集合。如图1所示,CORBA调用模型简视图。

着眼于大数据来讲,电力大数据属于能源改革过程中电力工业技术改革的关键过程,并不是简单的技术。电力大数据不只是技术发展和进步,是关乎到总体电力系统处于大数据时代而面临的发展理念及管理机制与技术路线变革问题,这也是智能化电力系统处于大数据时代下其自身价值形态提升。

图1 CORBA调用模型简视图

二、几种分布式计算比较分析

本文只对极具代表性的网络计算及云计算和志愿计算这三类分布式计算进行分析和比较。网络计算思路属于聚合分布主要资源,可以支持虚拟组织,以提供更高层次的服务,其网络拓扑结构较为稳定,参与者只需完成相关任务则就可以退出系统。而志愿计算节点登出/入系统任意性较强,尽管提升的灵活性会出现相关任务并未完成就没有音信的状况,不过在未能完成任务时则会涉及到此节点信誉度,下次分配任务时系统会对此节点的信任度降低则缩减任务分配量。

网络计算及云计算与志愿计算等均可支持异构资源,但是以理念上来讲确实各不相同。网络关键是经过中间件进行屏蔽异构系统,并且对用户透明,把实际过程交于中间件来有效执行。云计算可以有效确保用户方面实现按需分配,也就是运用服务就像是日常生活中用水电一样,但是异构方面则是利用镜像执行,或者是采用服务机制解决此问题。志愿计算异构性影响较小,具体来讲则是只要志愿者能够返回结果即可,利用机型及系统等方面不同并没有特别的要求。

云计算及网络计算与志愿计算相比而言则分布式技术可以说是被进一步应用,降低了参与者的各方面工作,只要选用期望运用的类型和付费类型,其余两类计算方式均是需要对总体系统运行进行相关设定。并且,云计算能够把较为集中的资源用作执行较为分散的应用,网络计算及志愿计算均是需要对分散资源进行聚合,再执行较大型应用。

志愿计算则主要是体现分布式计算灵活性,也就是采用网络间的闲置资源把分割好的任务交于各个子志愿者执行,再施以整合且提交任务,该过程的实现不需要网络计算中的数据中心,更不需要云计算中诸多云终端,只是需要假定服务器及host,从而进行调度,这和以往传统式分布式计算理念非常类似。

图2基于云计算的大电力数据分析系统体系构架简视图

三、基于云计算的电力大数据分析系统

电力大数据及互联网大数据这两者的区别主要是:第一,互联网场景下的典型大数据应用均需顺序扫描数据集,所以分布式并行大数据分析系统Hive等都没有提供良好的索引。电力大数据分析时则多维区域查询非常多,因为没有对应索引则会造成访问出众多不需要的数据,这也降低了查询执行功能。这时也就需要对多维区域查询特征而设计适宜的索引构架及机制;第二,互联网大数据典型特征就是一次写多次读。对于这种数据特征来讲则分布式文件系统都没有提供数据改写机制,仅仅是经过全部覆盖数据方式间接实现改写数据。电力大数据业务场景下会存在诸多数据改写语句,覆盖数据的方式执行查询时则会造成执行效率偏低。所以应提供良好的数据改写机制;第三,互联网企业按照自身业务需求设计大数据查询语言,比如HQL仅是SQL的子集,电力数据分析系统大都是采用标准SQL语言所编写的,这也是需要人力及时间来达到数以万计的SQL语句翻译,形成等价的HQL语言翻译,从而翻译成正常的HQL语言,提升遗留应用迁移速度,达到电力数据分析业务无缝平滑迁移。

通常为了能够适应智能电网对电力大数据分析的需求及要求,则针对性的对电力大数据和业务逻辑典型特征进行分析,并且有效结合云计算技术先进技术和行业部署经验,最终研发出基于云计算的电力大数据分析系统。此系统是基于分布式并行计算构架,利用Hive为数据分析软件,针对于电力大数据各方面特征而开发的基于网络文件多维索引,基于查询重写的SQL至HQL自动化翻译工具及支持数据更新的储存模型,这些都充分提升了Hive性能及易用性。此系统也已经成功运用在国内诸多电力用电信息采集系统中,充分提升了系统性能,降低系统运行成本。电力大数据分析系统体系构架主要是包括分布式文件系统模块、Hadoop、Hive、监控工具和运行调度工具这几个方面。如图2所示,基于云计算的大电力数据分析系统体系构架简视图。

图3 性能测试对比柱状图

四、案例分析

某供电企业采用电信息采集领域,处理目前用电信息采集系统爆发式增长的大量采集数据储存及查询与统计计算等方面性能所出现的瓶颈问题,利用分布式并行计算平台来完成传统式基于Oracle数据库平台用电信息采集系统技术构架最优化及性能提升。

案例试验中是利用某供电公司用电信息采集系统三个月内的真实数据,其中涉及到19张业务表,总共是6.39亿的数据,测试两类不同技术下的低压数据完整率统计及终端通信流量统计,加上低压日常电量计算及用户负荷查询这四类用电信息采集业务解决。

最终测试显示分布式并行计算平台1/8硬件投入时其性能提升大约7倍,不只是验证了通过Oracle数据库平台转化为分布式并行计算平台有着极高的可行性,这也显示了分布式并行计算平台所呈现的优势。如图3所示,性能测试对比柱状图。

结语

以往传统式网络应用程序均是传输层协议上直接编程,此类编程方式极为复杂且不能适应于较大规模多用户大型应用系统,加上此系统不能拓展,此时分布式应用技术也就应运而生。本文就分布式技术在电力大数据高性能处理方面进行了分析,对几种分布式计算进行了比较,结合电力大数据特征及云计算技术的发展,分析了基于云计算的电力大数据系统,以便提升国内基于分布式技术的电力大数据高性能处理水平。

[1]王放.解析分布式计算的应用[J].电脑编程技巧与维护,2013(09).

[2]贺宗春,承德宝.分布式技术在智能数字调度系统中的应用[J].电子技术,2014(17).

[3]张冬萍,雷博,高凯.分布式技术在数据库开发中的应用[J].吐哈油气,2014 (11).

[4]邓灵,陈亮,叶仲和.分布式技术及其应用概述[J].计算机时代,2014(21).

[5]衡星辰,周力.分布式技术在电力大数据高性能处理中的应用[J].电力信息与通信技术,2014(20).

TM769

A

猜你喜欢
数据分析系统分布式计算分布式
利用GSM-R接口数据分析系统偏移的方法研究
焊接设备实时监测与数据分析系统在核电建造行业的应用
云计算中MapReduce分布式并行处理框架的研究与搭建
面向异构分布式计算环境的并行任务调度优化方法
基于DDS的分布式三维协同仿真研究
西门子 分布式I/O Simatic ET 200AL