基于内存计算技术的大数据平台推动电网企业实时运营

2015-05-30 01:20吴飞
中国新通信 2015年23期
关键词:决策支持数据分析大数据

吴飞

【摘要】 随着智能电网和企业信息化的大规模建设,电力企业积累了海量的大数据,如何基于这些数据形成实时业务洞察和分析决策,是目前电力企业广泛思考的问题。基于此,本文主要介绍了基于内存计算技术的实时数据管理和分析平台,进行性能加速,全面提升系统运行分析效率,让企业根据不断变化的海量数据进行快速处理与分析,实时掌握企业运营情况,提高企业整体效益和竞争力。

【关键词】 大数据 内存计算 性能加速 数据分析 决策支持

众所周知,我们正处于一个信息爆炸的时代,全球数据量的复合增长率将达到59%,越来越多的企业利用大数据分析和挖掘技术,来实现更大的业务价值。同样,随着智能电网的建设、自动化和信息技术的应用,电力企业数据量快速增长,但是,基于大数据实现实时业务洞察和分析决策,目前还存在很多问题和挑战:

1)数据量的急剧增加使得业务应用系统响应变慢,影响业务应用系统生产效率。

2)海量数据统计分析性能低下,管理者无法及时了解业务生产总体状况,动态监管滞后。

3)随着总部、省(市)公司两级数据中心的建设,实现了将不同来源的业务系统数据进行统一存储和对外提供数据服务,跨部门、跨专业的综合性应用分析需求日益增多,现有技术无法满足决策层快速智能分析和辅助决策的要求。

基于此,本文介绍了基于内存计算实时数据平台的技术架构和特点,以及在电力行业的典型应用,并介绍了相关的技术验证和实践;利用基于内存计算的实时数据平台,可以有效地支持电力行业实现实时业务洞察和分析决策,将大数据转化为巨大的业务价值。

一、内存计算技术简介

1.1内存计算技术概述

内存计算技术是指CPU直接从内存而不是硬盘上读取数据,进行计算、分析,是对传统数据处理方式的一种加速。内存计算技术利用计算机硬件(多核心CPU和超大内存)方面的优势,巧妙的将数据放在计算机内存里进行处理,并在内存中进行大量的数据分析和计算,以实现更快速的数据处理能力。因此,内存计算非常适合处理海量的数据,以及需要实时获得结果的数据,相对于传统数据处理方式,内存计算技术在商务智能分析、数据挖掘加速器、模拟分析预测、在线交易处理和在线分析处理等业务领域,更具有优势。当前,内存计算主要以下四种关键技术:海量内存管理技术 、数据压缩存储技术、并行计算技术和高效计算模型。

1.2 SAP HANA

SAP HANA是SAP公司于2011年推出的基于内存计算技术,面向企业分析性应用的产品。利用SAP数据同步复制技术将源系统数据同步到HANA内存数据库中,再利用SAP高效的内存计算引擎对数据运算分析后,提供给前台进行数据展现。SAP HANA内存计算平台具有以下特点:

(1)高效的并行处理机制

SAP HANA内存计算平台整体的体系架构基于Inter X处理器平台支持多服务器、多处理器的高效并行处理。在底层开发中,Inter为SAP HANA提供专门的开发包,让HANA的应用能够最高效、充分的利用多处理器的并发能力。

(2)基于内存的高效数据读取和处理

从硬盘中读取数据的速度是毫米级的,而从内存中读取数据的速度是纳秒级的。SAP HANA是将数据直接存储在内存中,比传统的将数据从硬盘中读取性能要快100万倍,大量提高了数据的读取和处理时间。

(3)高效的数据压缩

SAP HANA采用基于智能数数据字典的高效数据压缩机制,能够将数据压缩5~20倍,从而节省硬件投资。

(4)行存储和列存储混合模式

SAP HANA是行业中唯一能同时支持行存储和列存储的内存数据库,所以能够对OLAP交易系统和OLTP分析系统同时提供高效的支持。

(5)在数据库层面进行数据运算

SAP HANA除了提供完善的数据库功能外,其内置的内存计算引擎可以将原本在应用层进行的运算转移到数据库层进行运算处理,这样能够优化应用层和数据库层之间的数据交互,从而从整体上提升系统的效率。

二、基于HANA内存计算的大数据优化

目前基于HANA内存计算的大数据优化方法主要有两种:一是加速器架构方式,二是ON HANA架构方式,具体说明如下:

2.1 HANA加速器架构

加速器架构是指将HANA数据库作为源系统的第二数据库,利用SLT数据实时复制工具将ERP系统中的表实时增量复制到HANA中,再利用HANA高速的内存计算特性对数据进行加速处理,最终返回给源系统应用层进行展现。对于用户而言,其操作界面仍在源系统中,操作方式未作任何形式改变,仅感到系统运行速度变快。同时,通过配置或程序控制,报表程序能自动优先选择从HANA数据库中查询数据,当HANA服务器出现故障时,报表程序会自动切换到连接原系统数据库(如源系统为Oracle)中,从而全面保证业务流程的正常执行。基于HANA加速器的技术架构如图2所示。

(1)SLT实时抽数工具:基于源系统数据库触发器的数据抽取策略。

(2)DS定时抽数工具:基于源系统数据库时间戳的数据复制策略,同时具体数据转换功能。

(3)RS实时抽数臣僚:基于源系统数据库归档日志的数据实时策略。

2.1.1适用范围

HANA加速器架构主要适用范围为仅需改善查询统计分析效率的业务场景且不要求对数据写入进行优化,项目投资成本有限,项目周期要求短、成果见效快等方面。

2.2 ON HANA架构

ON HANA架构是指将源系统数据库(如源系统为Oracle)的数据全部迁移到HANA数据库的过程。ON HANA的技术架构如图3。

2.2.1适用范围

ON HANA架构主要适用范围为查询统计分析和数据写入需作一并优化,对系统后期扩展性要求高,与外围系统交互频繁等方面。

2.3关键技术

(1)数据建模

在SAP HANA中,数据建模有别于传统数据仓库。HANA中的数据模型都是虚拟的,系统只保存这些数据模型内表的勾稽关系以及数据的运算逻辑,但不会把数据另外进行存储,只有当前端提交分析请求时,HANA才会根据虚拟数据模型进行数据的计算并将结果提交给前端。这意味着HANA中不会存在冗余的数据,从而大大节约的硬件的投资和维护成本。

SAP HANA包含了属性视图、分析视图、计算视图和存储过程等4种分析建模方法。

(2)应用层(代码)改造

主要是对源系统的代码进行优化,减少应用层的运行及访问压力。

例如,可以将复杂的运算逻辑、多重循环、多次与数据库交互等严重影响系统性能的语句移植HANA数据模型中,这样子就可以大大减少应用层运算压力及与数据库交互的次数,以全面提升系统的性能。

三、福建电力在HANA内存计算的技术验证和实践

3.1研究内容

基于内存计算技术和大数据平台,福建电力主要开展的工作包括两个层面,一是在大数据环境下提高现有系统的数据分析性能,二是基于内存计算技术优势,探索预测性分析技术在电力行业的应用。主要研究内容如下:

1、ERP系统报表优化:基于HANA加速器架构,采用ABAP展现技术,不改变现有ERP报表操作界面,开展ERP系统报表性能优化提升工作。这项工作是国网首例。

2、营销系统报表加速验证:基于HANA加速营销报表,采用Java为展现技术,开展营销系统报表性能优化的验证。

3、基于HANA构建配变重过载风险中期预警模型验证:采用HANA 内置的预测分析库函数构建配变重过载风险中期预警模型,验证HANA的预测分析能力。

3.2 研究成效和收益

通过研究和实际验证,基于内存计算的大数据平台技术能大大提升大数据环境下的数据分析能力,能够有效地支撑业务部门对海量数据的应用和分析需求;并且架构简单,易于实施。具体表现在:

1)提升了ERP用户的工作效率和满意度,缩短财务结算时间

? 使用HANA后,ERP系统报表运行速度平均提升63倍,且不改变用户原有的操作习惯

? 缩短财务年结、月结时间:财务年结报表平均运行时间由原来的291秒(1张报表运行超时)下降为9.9秒,为财务年结提供有力技术支撑。

? 架构简单,易于实施,标准报表通过ERP升级补丁即可支持HANA加速器方式,实施周期短、风险低,见效快。

2)提升营销数据实时处理能力和分析精益化程度,提高使用者的体验,简化开发难度

? 将目前需要4-6天的报表处理时间缩短到1~2天,提升业务响应时间。

? 实时处理数据,数据使用部门可以及时得到数据并可以对数据进行下一步的处理,提高使用部门的用户满意度。

? 为进一步增加分析维度提供足够空间,有助于进一步提高营销管理分析精细度。

3)建立重过载配变风险预警模型,支撑电网安全运行,有效提升配网规划建设水平

? 结合客户信息、设备信息,针对重过载配变风险预警模型输出结果,不仅支撑电网企业资产管理水平与客户服务能力,最终有效提升配网规划建设水平。

? 内存计算技术大大提升当前海量数据体积的处理速度,SAP HANA SQL/SQL Script支持直接在HANA数据库端实现现有的预处理逻辑,从而避免网络传输瓶颈,避免中间过程CSV文件的生成与存储,大大缩减计算时间和空间。

? 开发模式简单便利,SAP HANA的SQL/SQL Script可以非常灵活地实现非常复杂的计算逻辑,这样既可以让更多计算逻辑贴近数据,进而提高运算速度,也可以让开发人员用一门语言完成更多的业务逻辑,减轻开发人员的负担。

四、结束语

充分利用和分析挖掘日益增加的海量数据,实现实时业务洞察和决策支持,优化电网和企业运营,提高效率,已经越来越成为电力企业的共识和重要工作内容。面对大数据管理和应用的问题,利用内存计算技术,可有效解决海量数据信息系统的运行分析效率,为全面提升公司管理决策提供信息化支撑。

目前,本研究成果已在国网福建省电力有限公司应用,取得了预期效果,为国家电网公司海量数据分析项目提供借鉴依据。

参 考 文 献

[1]徐子沛,大数据:正在到来的数据革命,2013-4-1,广西师范大学出版社

[2]付云,大数据时代 内存计算先行,互联网周刊,2012(2)

[3]赵衍,基于内存计算的计算机快速自动信息标引技术,图书馆学研究,2013(19)

[4]黄岚 孙珂 陈晓竹 周敏奇,内存集群计算:交互式数据分析,华东师范大学学报(自然科学版),2014(5)

[5]江泽源 刘辉林 吴刚 王国仁,内存数据库的可用性综述,华东师范大学学报(自然科学版),2014(5)

[6]胡健,和轶,SAP内存计算——HANA,2013-7-1,清华大学出版社

猜你喜欢
决策支持数据分析大数据
商业智能分析模式在医保病人住院化管理当中的应用研究
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
基于大数据背景下的智慧城市建设研究
秦山核电应急决策支持系统开发与研究
基于RFID的汽车零件销售策略支持模型