用电信息采集系统量测数据处理技术方案

2018-01-17 15:51张珂珩
电子技术与软件工程 2017年20期
关键词:用电信息采集系统大数据

摘 要 随着智能电网信息技术的快速发展,用电信息采集系统自建成后积累了海量的电网采集量测类型的数据,采集量测数据是电网领域的重要数据类型之一,是电网设备状态监控、电网业务辅助决策分析的主要依据,当前用电信息采集系统量测类数据主要采用传统关系型数据库Oracle数据库进行存储。本文提出了基于大数据技术的用电信息系统量测数据处理技术方案,解决了传统关系型数据库用处理效率低的技术问题。

【关键词】用电信息采集系统 量测数据 大数据 kafka

1 电力大数据现状

用电信息采集系统建设理念是通过获取海量的电网电能信息,优化电能的生产、输送、调配以及用户用电消费。用电信息采集系统将承载电力流、信息流、业务流,并且基于此基础在实现用电信息数据的采集、深度处理和分析,实现电能的清洁生产、电能的高效传输、灵活动态分配电能、合理利用电能的智慧电力的目标。随着坚强电网的建设,产生了一大批服务于各个专业的信息采集与管理系统,用电信息采集系统拥有海量的采集量测类数据,构成了电力大数据的来源。量测类数据是电力海量数据中重要的一类数据,系统包括SCADA、WAMS和AMI三类。其WAMS系统采集周期为毫秒级,相比SCADA分、秒级采样周期,WAMS可以准确实时反映电网运行动态信息,带来的数据量增长也是成百上千级。AMI面向的是庞大的用户群体,收集了粒度更细的海量用户用电信息。而传统架构的逐渐暴露出技术不足与局限性,不能够很好的支撑大数据环境下对量测数据的高效计算与深度挖掘。本文提出的基于大数据技术的用电信息采集系统量测数据处理方法,可解决传统关系型数据库用于电力信息系统量测数据处理效率低的技术问题。

2 量测数据处理系统设计

2.1 模型设计

依据Hbase数据库、Redis数据库的特点以及用电信息采集系统量测数据特性设计数据处理系统,该量测数据处理系统能够将同时刻的同一电站所有设备数据逻辑上显示在数据库的同一行,并且在物理磁盘上也存储在相邻位置。因为Hbase是列式存储数据库,海量的列对于数据的访问性能几乎没有影响,并且在Hbase的行存储上是非常稀少的,行存储中没有值的单元不会占用物理存储空间。当用户进行量测数据断面查询时,数据处理系统将能够快速查询得到该时刻具体电站所属区域的所有采集量测数据设备断面值。当用户进行量测数据批量查询时,由于设计了量测数据存储模型与处理方案,对表按照具体类型进行了分表分区,量测类数据分布在服务器集群中,批量查询中集群中的服务器并行处理要查询的数据,查询结果可以快速获取。存储模型如图1所示。

2.1.1 表名规范

用电信息采集量测数据按照月度进行分表,表名划分为三段,格式为“省(市)公司编码_源业务系统类型码_分表标识”,每段之间用“_”分隔,段内不得使用“_”,表名中英文使用大写,如:ZJ_103_201506表示浙江用电信息采系统2015年6月份的数据。

2.1.2 表分区规范

存储在HBase表内的数据划分为多个分区进行存储,决定分区数量有两个因素,分别是服务器数量与所存储表的数据量,分区的原则是分区数量设置为服务器数量的整数倍,单个分区的数据量控制在2GB到4GB之间。

2.1.3 行键规范

行键可修改,将用电采集系统量测数据模型的相层级体现到RowKey的设计中,行键规范的各个层级可以根据具体的表进行定制化的配置,提高了行键配置的灵活度,如用电信息采集系统中量测数据模型行键可划分为四段,格式为“地市级供电单位编码.业务检索字段.采集时间.量测类型”,分隔符为“.”,段内不得使用“.”。例如“CY.21001111. 01012017040101.BA”表示朝阳区21001111号台区下2017年1月1日4时1分1秒反向有功。

2.1.4 列名规范

利用HBase特性,表列数设计与设备数量相等。表列名选用“电能表ID”。例如“1000000201”表示编号为1000000201的电能表。

2.2 系统结构

用电信息采集系统量测数据处理系统主要包含四个环节,分别是数据对接,即时处理,数据加载与存放以及数据查询。

2.2.1 数据对接

用电信息采集系统量测数据接入大数据平台前需要定制的对接程序,对接程序的作用有两个,分别是用于传输协议的协调以及对源业务系统数据进行数据模型的转换。对接程序部署在用电信息采集系统与大数据平台的卡夫卡消息队列组件之间,定制的对接程序根据量测数据的类型的不同,分别将数据投递到卡夫卡不同的消息队列中,用电信息采集系统量测数据类型虽然纷乱复杂,但是通过定制的对接程序可以将其分类,有效的投递到卡夫卡不同的队列中。卡夫卡消息队列的优势有三点,分别是分布式、异步通信与通信带宽大。用电信息采集系统量测数据通过卡夫卡消息队列接入大数据平台可以有效的缓解数据接入高峰对大数据平台的冲击,避免量测数据的丢失,保证数据的完整与有效。

2.2.2 即时处理

在卡夫卡消息队列与数据存储组件Hbase与Redis之间 ,部署了分布式实时流计算组件Storm,Storm组件可以将海量的数据分布到服务器集群进行数据处理,主要是对数据进行即时计算。 Storm组件在本系统中主要完成两项工作,包括对采集量测数据进行深度处理,比如数据完善、数据质量验证等,经过深度处理的数据投递到Hbase与Redis中,对量测数据进行分析以及计数统计,将结果保留在关系型数据库中。

2.2.3 数据加载与存放

量測数据的加载与存放有两种,分别是随机加载存储与固定加载存储,加载存储方式的选择主要依据实际场景的需求。本系统采用了分布式数据库Hbase加Redis数据库的组合,Hbase数据库与Redis数据库具备不同的特点。Hbase数据库是一个构建在HDFS上的分布式列存储系统,基于Google BigTable模型开发的典型的key/value系统,主要用于海量结构化数据存储。在逻辑上,HBase将数据根据表、行和列进行存储,依靠横向扩展,通过不断增加廉价的服务器,来增加计算和存储能力。Hbase中的一张表可以有数十亿行,上百万列,完全满足海量电网量测数据的采集。 Redis是一个速度非常快的高性能的key-value数据库存储系统。Redis数据库很大程度上补偿了memcached这类key/value存储的不足。Redis支持存储五种value数据类型,包括string(字符串)、list(链表)、set(集合)、hash(哈希类型)和zset(sorted set --有序集合)。这些数据类型都支 持push/pop、add/remove及取交集并集和差集及更丰富的操作,而且这些操作都是原子性的。在此基础上,redis支持各种不同方式的排序。为了保证效率,数据都是缓存在内存中。redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件,并且在此基础上实现了master-slave(主从)同步。 总之,HBase和Redis都是基于Key、Value的数据库,他们的不同点在于HBase是基于文件系统的,Redis是基于内存的。本系统根据Hbase与Redis数据库的不同特点,将用电采集系统的历史存档数据存储在Hbase上,将近期增量量测数据存储在Redis中,该设计既可以利用Hbase存储海量量测类数据,又可以利用Redis基于内存的特点,当用户需要查询最近数据时,快速得到查询结果。本系统需求是将量测数据尽可能的存储在邻接的物理位置,当进行数据查询时,磁头可以通过较少的IO读取次数将数据取出,能够大幅度提取读数量测数据的效率。endprint

2.2.4 数据查询

依据量测数据的进入大数据平台的时间不同的特点,分别将数据加载存储在Redis数据库以及Hbase列式数据库,进入数据库中的量测数据已经经过了前端定制程序处理, 本系统基于国网海量平台的UAPI接口,升級设计了通用访问接口UAPI, 使用户可以忽略数据的存储细节,使用电采集系统的业务应用依据电网模型查询数据,实现量测数据分流、中间计算结果临时存储、量测数据的高效查询等功能。

3 实验分析

为了验证所设计的量测数据处理系统有效性,以某网省用电信息采集系统量测数据处理为例,用电信息采集系统数据接入组件部署如图2所示。

Windows服务器部署三个软件,分别是海量平台一发双收工具、Mysql数据库以及SFTP服务。海量平台一发双收工具用于将业务系统的数据转换为标准形式的E文件;Mysql数据与用于存储业务系统的档案数据;SFTP服务用于提供E文件下载服务。

Linux服务器中的第一台服务器部署五个组件,分别是SFTP下载组件、Eparse组件、RPC组件、RedisLoader组件以及Kafka2hbase组件。另一台Linux服务器部署Kafka2hbase组件。SFTP下载组件用于将海量一发双收工具生成的E文件下载到Linux服务器本地文件夹;Eparse组件用于将E文件进行解析,写入分布式消息队列Kafka中;RPC组件用于各组件的通信;Kafka2hbase组件将消息队列中的数据写入Hbase;RedisLoader组件将消息队列中的数据写入Redis。

在该网省现场,Kafka2hbase写入大数据平台服务器Hbase数据库中的写入速率可达到75M每秒,满足该网省用电信息采集系统采集监测数据应用需求。

4 结语

本文提出了一种基于大数据技术的用电信息采集系统测数据处理方法,解决了传统关系型数据库用于电力信息系统量测数据处理效率低的技术问题。通过实验证明了该处理方法的可行与有效。

参考文献

[1]孙柏林.“大数据”技术及其在电力行业中的应用[J].电气时代,2013(08):18-23.

[2]赵云山,刘焕焕.大数据技术在电力行业的应用研究[J].电信科学,2014,30(01):57-62.

[3]WITT S.Data Mangement & Analytics for Utilities 2014[EB/OL].[2014–5–20].http://www.smartgridupdate.com.

作者简介

张珂珩(1972-),男,高级工程师。主要研究方向为电力大数据处理技术研究开发、建设运行和技术管理。

作者单位

江苏瑞中数据股份有限公司 江苏省南京市 210012endprint

猜你喜欢
用电信息采集系统大数据
基于用电信息采集系统的抄核收新模式探究
基于用电信息采集系统的四表合一技术研究与建设
智能家居产品在用电信息采集系统的补充实现
大数据环境下基于移动客户端的传统媒体转型思路