基于大数据技术的实时数据中心重构研究

2017-04-12 08:29李贤慧季胜鹏
浙江电力 2017年3期
关键词:列式监测数据数据中心

李贤慧, 季胜鹏, 周 升, 陈 军, 楼 平

(1.江苏瑞中数据股份有限公司,南京 210000;2.国网浙江省电力公司电力科学研究院,杭州 310014;3.国网浙江省电力公司湖州供电公司,浙江 湖州 313000)

基于大数据技术的实时数据中心重构研究

李贤慧1, 季胜鹏1, 周 升2, 陈 军3, 楼 平3

(1.江苏瑞中数据股份有限公司,南京 210000;2.国网浙江省电力公司电力科学研究院,杭州 310014;3.国网浙江省电力公司湖州供电公司,浙江 湖州 313000)

提出了一种基于大数据技术的电网企业实时数据中心重构的方法。通过对实时数据中心数据接入接口的改造,实现实时数据接入大数据组件HBase;通过对HBase表结构设计及相关参数的调优,实现电网企业实时数据的标准化存储;通过基于大数据组件设计符合实时数据中心规范的标准访问接口UAPI,实现实时数据中心上层业务应用的迁移和平滑过渡。该方法的可行性已在多个省(市)电力公司得到验证。

实时数据中心;大数据技术;HBase;实时数据管理;数据接入;重构

0 引言

“十二五”期间,国家电网(以下简称国网)公司和南方电网公司建成了实时数据中心,实现了对电力生产运行过程中各业务应用生成的实时数据的按需存储、整合、共享交换和计算加工,接入了用电信息采集、SCADA(监控与数据采集)、电能量、输变电在线监测等业务系统的实时数据,支撑了大量业务应用的实时数据访问服务。

随着信息化技术的发展,大数据已成为当前数据处理领域的研究热点[1-3],电网企业也在积极探索基于大数据的电网数据处理、分析、挖掘和应用[4-10]。电网企业依托大数据、云计算等新技术,提出了构建大数据平台支撑数据存储、整合、计算、分析和挖掘等战略规划。因此,原有实时数据中心有必要基于大数据技术进行重构,通过在实时数据中心引入大数据技术,可以优化数据整合、数据存储、数据计算、数据分析、数据服务能力,支撑业务应用建设。

1 实时数据中心现状

实时数据是国网公司四大数据类型之一(结构化、非结构化、电网空间和实时数据),是公司设备状态监测、辅助决策分析、大数据挖掘等的重要基础。根据公司“十二五”规划,实时数据中心是公司实时数据按需存储、整合、共享交换、计算加工和标准访问的场所,是为智能电网和SG-ERP各业务应用(特别是跨专业、跨部门业务应用)在实时数据层面提供全面支撑的信息基础设施。

以国网实时数据中心为例,覆盖数据处理、数据加工、数据质量、元数据管理等9大功能模块、180余个子功能模块。实现了与电网运营监测、营销稽查监控等21类业务应用的集成工作,在各单位深入挖掘平台应用需求,开展与“量价费损”、一体化电量与线损等核心业务应用的集成工作,覆盖了营销、运行检修、运行监控、发展策划等部门。已完成调度EMS(能量管理系统)、用电信息采集等11类数据源的实时数据接入,平台接入量测点数达17.58亿,磁盘空间占用总量192.46T,月增长10.3T。国网实时数据中心的总体架构见图1。

图1 国网实时数据中心架构

2 重构技术架构

根据采集监测数据的总体规划,基于大数据平台技术架构的实时数据中心组件迁移改造工作主要包括数据接入改造、数据存储、应用查询与共享、历史数据迁移、实时数据管理、业务应用迁移,最终通过相关大数据技术的应用,实现采集监测数据的接入,提升采集系统的处理能力、海量存储能力,并支持后续对采集监测数据的离线分析应用,满足业务应用上对各类数据的深度应用和分析挖掘需求。重构总体架构见图2。

图2 重构总体架构

(1)数据接入改造。

对原实时数据中心数据接入组件进行改造,在支持实时数据中心数据接入的同时实现将数据接入大数据平台,完成数据接入接口改造,保障数据质量与有效性。

(2)数据存储。

实时数据的访问对时效性要求高,具有断面访问等特点,需针对各类实时数据的使用场景进行综合分析,设计合理的存储模型,以支撑实时数据的高效查询与快速存储。

(3)查询与共享。

为使实时数据中心业务应用能平滑过渡到大数据平台,也为了简化实时数据的访问复杂度,开展基于大数据平台接口封装UAPI接口,实现新老系统的平滑过渡。

(4)历史数据迁移。

设计研发历史数据迁移工具,完成各业务系统存量实时数据的迁移,数据可从实时数据中心迁移到大数据平台,也可从原业务系统数据库迁移到大数据平台。

(5)实时数据管理。

对原有实时数据中心实时数据管理模块进行重构和迁移,完成可视化实时数据管理工具、数据质量、访问服务、计算服务等模块的迁移和重构。对接入的各类数据,在进入大数据平台之前,需进行数据的预处理(即清洗和规范),对原数据中的噪声、数据格式不规整等问题进行处理;同时,数据的存储模型非常关键,在大数据应用过程中,将数据处理成需要的存储格式。

(6)业务应用迁移。

对原有基于实时数据中心统推、自建、个性化二次开发等业务应用进行迁移改造,实现基于大数据平台的迁移和重构,保证原有业务应用的连续性和平稳过渡。

3 重构技术架构

3.1 数据接入改造

分析域采集监测数据需要接入的数据来自于现有采集监测类业务系统,数据接入面临系统数量多、开发厂商众多、数据格式不统一、接口形式多样等困难,因而数据接入的工作量巨大,综合分析各类数据源,认为有2种数据接入方式(见图3):第1种,重构原实时数据中心的接入组件,将其提升为分析域的接入模块,通过重构后的模块进行“一发双收”,为全业务统一数据中心分析域提供数据。第2种,研发全新的数据接入模块,与各业务系统进行对接,将数据接入至分析域数据中心。

当前,信息通信部门主要通过实时数据中心接入相应的采集监测数据,其拓扑结构见图4。

改造实时数据中心接入组件和重新建立数据接入组件的接入拓扑见图5。

图3 数据采集接入2种方式

图4 现有实时数据中心接入组件

图5 改造后实时数据中心接入组件

重构实时数据中心接入组件的方式主要优点如下:

(1)原有的各业务系统无需感知,在数据需求不发生变化的情况下不需要做任何变化,避免了与各业务系统再进行一次沟通、协调接口的工作,并避免了各业务系统端的开发工作。

(2)不会增加原有各业务系统的压力。

(3)接入组件屏蔽了各种复杂性,实时数据中心和大数据平台均无需感知前端对接接口的差异性,有利于以后的扩展。

(4)极大缩短了数据接入的工期,降低了建设代价。

重构后的数据采集组件总体结构见图6。

各系统产生的原始数据直接来自于源系统存储模式,在进入大数据平台列式存储前需进行转换,进行必要的规范化处理,否则信息无法接入大数据平台。其次业务应用可能产生增量计算需求,需要在入库前进行流式增量计算(见图7)。

数据处理的整个架构按照管道过滤器的方式来进行设计,数据在各个管道中进行流转,每个处理过程为一个线程任务,所有过程以流水线方式串联起来形成完整的处理过程。每一个过滤器均为一个处理单元,设置为一个处理规则,最终,将数据处理成目标格式或计算结果。

图6 重构后的数据接入组件

图7 增量计算示意

3.2 数据存储

数据存储环节实现对分析域采集监测数据的分布式存储(见图8)。按照国网公司大数据平台的统一规划,大数据平台主要有分布式列式数据库、分布式内存数据库、分布式数据仓库等,原则上,建议采集监测数据存入列式数据库中,并将近期数据(当前半天或者一天内)置于缓存中,便于对于实时性要求较高的应用进行处理。

图8 实时数据存储示意

采集监测数据量大,数据有其固定格式,查询模式以批量查询和断面查询为主,在数据读写方面,写入数据要求很高的吞吐量,读取数据强调低时延。为满足这些存储需求,数据存储方面首先在设计上需要有缓存机制,提高访问效率;其次系统要具备良好的高可扩展性以应对数据的不断增长;同时还需要关系型数据库存储经流计算或离线计算程序计算得出的一些统计信息。

(1)数据存储策略。

为了提高数据访问效率,将近期数据存储在数据缓存中,将长期数据存储在“列式数据库+分布式文件系统”中。而关系型数据库系统主要存储大数据平台流计算或离线计算过程中需要保存的计算结果集。

(2)采集监测数据存储模型。

对于分布式缓存系统,需要设计其键值模型,对于一般的采集监测类数据,以“测点编号+时间戳”为RowKey前缀,以量测值为Value将近期数据写入缓存。应用系统进行数据查询时,首先查看数据是否存在于分布式缓存中,如找到则返回,反之从列式存储中进一步查询获取。

采集监测数据进入系统后,最终存储在“分布式列式数据库+分布式文件系统”中。考虑到分布式列式数据库原始接口写入吞吐量并不理想,为进一步提高数据加载效率,通过分布式文件系统Batch Load方式将数据循环导入分布式列式数据库中。分布式列式数据库中需结合应用场景对数据存储模型进行设计,比如批量查询业务场景,可以选择以“测点编号+时间戳”为Rowkey前缀,列族为t,以时间戳后缀为列,以量测值为列对应的值。需要指出的是,当前的分布式列式数据库中存储模型的设计方法都在假设业务查询场景存在“二八”现象,即认为业务应用要么以批量查询为主,要么就以断面查询为主,因此如果遇到一些批量查询和断面查询都很频繁的业务应用,则需要重新调整存储模型设计。

3.3 实时数据管理

基于大数据平台总体技术架构,借鉴实时数据中心的研发思路,研发实时数据管理模块(见图9),支持对测点描述数据、实时数据的管理。具体包括:

(1)研发实时数据可视化管理模块,提供在大数据平台环境下支持测点数据的可视化增加、删除、修改、查询功能。

(2)研发测点数据质量模块,实现基于大数据平台的内部数据整理与数据处理;研发实时数据补招模块,在大数据平台环境下支持对量测数据根据指定时间段、指定数据源的补招等。

(3)实现实时数据访问,提供对外数据访问服务、服务内容配置、数据访问监测与控制管理及访问异常处理。通过UAPI、Webservice等方式对外提供实时数据的专用访问服务。

(4)基于大数据平台提供针对业务的特定计算配置功能,为应用提供数据侧计算服务。

图9 实时数据管理

3.4 应用查询与共享

数据应用与共享环节主要功能见图10,可以实现:已建采集监测数据应用系统迁移至大数据平台;采集数据对外的统一共享服务。

图10 应用查询示意

(1)“搬数据”到“搬计算“的应用改造。

基于大数据平台,利用分布式列式数据库存储采集监测数据,同时可通过分布式计算,结合其他业务数据,支撑对采集监测类数据的计算分析,实现从“搬数据”到“搬计算”的应用改造,即原则上不对数据进行大规模搬运,而是将业务应用的数据分析计算在大数据平台中实现,返回计算结果给业务系统,以减少采集监测业务数据库压力,提升用采数据分析应用的构建效率。

(2)采集数据共享服务构建。

针对部分采集监测数据的查询类操作或必要的子集数据共享,提供符合国网实时数据访问标准的UAPI接口、大数据平台通用的HBase-API接口、类SQL的JDBC数据访问接口,支撑断面查询、批量查询和特定逻辑的查询。其中,通过UAPI服务,实现外部业务系统对列式数据库、数据缓存系统的统一访问,同时实现外部系统与列式数据库/数据缓存系统的解耦。通过SQL服务,实现外部业务系统对内部列式数据库、关系型数据库、分布式数据仓库的统一逻辑访问,可对测点数据、关系型数据进行统一访问,降低业务系统根据业务模型访问实时数据的复杂度。

4 历史数据和应用迁移

4.1 历史数据迁移

目前,各省(市)公司实时数据中心存储的实时数据从数TB到数十TB不等,根据项目要求,需要将历史数据迁移入大数据平台。

目前,已接入实时数据中心的量测类系统多达11个,数据量大小不一,完成一次历史数据迁移用时从数小时到数天不等,且不同系统历史数据导入导出形式各不相同,需要针对各系统开发专用的历史数据迁移工具。

4.2 业务应用迁移

全网共有40多个基于实时数据中心的业务应用,各省(市)公司情况不尽相同,随着各公司分析域建设的推进,实时数据将逐步迁入大数据平台,同步对原有基于实时数据中心统推、自建、个性化二次开发等业务应用进行迁移改造,实现基于大数据平台的迁移和重构,主要包括:

(1)实时数据中心原有业务应用的元数据存储于关系型数据库,在实现元数据迁移到大数据平台关系库基础上,通过关系型数据与业务应用的双向调整,实现两者的无缝融合。

(2)保证基于实时数据中心的访问接口标准和规范基本不变,在实现基于大数据平台标准访问接口的基础上,对原有业务应用进行适应性调整,保证原有业务应用的连续性和平稳过渡。

(3)通过原有实时数据中心计算服务、访问服务等模块的重构,基于大数据平台架构特点,实现原有业务应用的改造、调整,保证满足原有业务应用的功能与性能要求。

5 结语

提出一种基于大数据技术的电网企业实时数据中心重构整体解决方案。通过对实时数据中心接入接口的改造,实现实时数据接入HBase;通过对HBase表结构的合理设计和参数的调优,支撑实时数据的快速存取;通过对实时数据中心UAPI基于大数据技术的重构,支撑未来应用的平稳过渡。重构后,HBase支撑了电网企业实时数据的集中存储与访问。

HBase作为通用的K-V(主存健值)数据库,其对具体场景的适应能力还需进一步优化,具体包括:

(1)K-V数据模型要经过大量优化设计才能满足“测点ID,时间戳,值”采集数据模型,并且在性能上要低于实时数据库。

(2)对于时序采集数据复杂应用场景,如采集频率不同、周期性采样或变化采样、断面查询和曲线查询等,简单的HBase难以支撑。

(3)HBase在外部大量数据快速写入情况下会自动触发HRegion分拆过程,导致数据接入速度波动明显,高峰时时效性下降。

[1]A MCAFEE,E BRYNJOLFSSON.Big data∶the management revolution[J].Harvard Business Review,2012,90(10)∶60-66.

[2]V MAYER-SCHNBERGER,K CUKIER.Big Data∶A Revolution That Will Transform How We Live,Work,and Think[J].Information,2014,17(1)∶181-183.

[3]陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,25(s1)∶142-146.

[4]王继业.大数据:电网企业创新发展驱动力[J].国家电网,2015(12)∶58-61.

[5]张东霞,苗新,刘丽平,等.智能电网大数据技术发展研究[J].中国电机工程学报,2015,35(1)∶2-12.

[6]朱朝阳,王继业,邓春宇.电力大数据平台研究与设计[J].电力信息与通信技术,2015,13(6)∶1-7.

[7]朱艳伟,黄森炯,蔡一骏,等,电网大数据时代调控管理应对策略研究[J].浙江电力,2015,34(7)∶30-32.

[8]贺琛,王彦波,王云烨.基于电力通信传输网大数据的温度监测系统研究[J].浙江电力,2016,35(7)∶65-68.

[9]潘坚跃,赵海,施婧.多系统监测与大数据分析在供电抢修服务中的应用[J].浙江电力,2015,34(8)∶59-61.

[10]王远,陶烨,蒋英明,等.智能电网时序大数据实时处理系统[J].计算机应用,2015,35(s2)∶88-92.

(本文编辑:方明霞)

Research on Real-time Data Center Reconstruction Technology Based on Big Data

LI Xianhui1,JI Shengpeng1,ZHOU Sheng2,CHEN Jun3,LOU Ping3
(1.China Realtime Database Co.,Ltd.,Nanjing 210000,China;2.State Grid Zhejiang Electric Power Reseach Institue,Hangzhou 310014,China;3.State Grid Huzhou Power Supply Company,Huzhou China)

This paper presents a new method for the reconstruction of the real time data center of power grid enterprises based on big data technology.Through data interface transformation of real-time data center,realtime data can have access to HBase;By optimization of HBase table structure design and parameters,realtime data storage standardization of grid enterprises is implemented;via big data based standard access interface UAPI with its component design complying with norms of real-time data center,upper-level services of real-time data center can be migrated and smoothly transited.This method is verified in many province(prefecture)level electric power companies.

real-time data center;big data technology;HBase;real-time data management;data access;reconstruction

TP311.13

:B

:1007-1881(2017)03-0075-06

2016-10-24

李贤慧(1983),男,工程师,主要从事实时数据库、大数据平台、MPP数据库研究。

猜你喜欢
列式监测数据数据中心
酒泉云计算大数据中心
浅析数据中心空调节能发展趋势
秦皇岛河口湿地环境在线监测数据应用研究
关于建立“格萨尔文献数据中心”的初步构想
准确审题正确列式精确验证
每筐多装多少
基于小波函数对GNSS监测数据降噪的应用研究
让课堂焕发创造活力
二年级万以内数的加法和减法单元自测题
北京经济社会发展月度监测数据(2008年11月)