毋毅+赵康
摘要:通过研究电网统一数据中心全业务数据分析域平台,使用大数据技术,对电网核心业务系统进行数据采集监测和清洗分析,建立统一数据模型、统一分析服务、统一决策中心,以实现智慧电网全业务统一数据分析域。
关键词:大数据平台;电网统一数据中心;全业务;数据分析域
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)34-0015-03
數据分析域是全业务、全类型、全时间维度电网数据的汇集中心,是为电网公司各类分析决策类应用提供完备的数据资源、高效的分析计算能力及统一的运行环境,改变过去分析型应用数据反复提取、冗余存储的局面,实现“搬数据”向“搬计算”的转变,支撑企业级数据分析应用的全面开展。
1 电网全业务数据分析域平台的作用
基于大数据平台的电网全业务数据分析域主要完成ERP、生产、营销、调度等核心业务系统数据的提取清洗、实时采集类、分析决策类相关应用迁移迁移改造;完成统一数据模型及主数据标准验证;完成统一分析服务建设等工作,建成全业务统一数据分析域。
2 电网全业务数据分析域平台接入的业务数据
2.1内部业务系统数据接入
基于电网公司总部数据字典统一梳理成果,以业务系统实际情况,结合统一数据分析服务、采集监测与分析决策等问题,遵循统一数据集成接口规范,统一数据模型(SG-CIM3.0、数据仓库模型),梳理ERP、财务管控、营销业务、营销稽查监控系统、营销档案管理、营销移动作业、一体化缴费接入管理、PMS2.0、OMS、电能质量在线监测、资产全寿命、省级计量中心生产调度、供电电压自动采集、科技与信息化项目管理、项目过程管理、电力市场交易、IMS、TMS、电动汽车智能、干部管理、信息客户服务管理、应急预案管理、车辆调度管理、经济法律、输变电GPMS、双流双控等业务系统,全量接入数据分析域,对于不符合SG-CIM3.0及主数据标准的相关业务数据进行清洗转换,完成数据流转至数据仓库的接口开发,为各类分析应用的实现提供完备的数据资源。
2.2外部数据统一采集
基于大数据平台,根据大数据分析应用业务,完成经济、气象、征信等外部数据采集。
3 电网全业务数据分析域平台分析服务功能设计
3.1统一分析服务
基于统一分析服务功能,开展低电压实时监测、负荷预测及防窃电分析、配网故障量监测分析、临时用电超期未办理合规性监测场景四个应用建设。
3.1.1配电网低电压实时监测
配网低电压监测主要针对目前电网设备发生低电压的程度,从低电压台区和低电压用户两个方面监测低电压的场景研发。运用数据分析域上多源异构数据集成等数据存储技术,实时计算技术,统计分析出低电压的区域分布情况、涉及台区情况、低电压出现频率等,及时将发现的问题通知到相关部门,由相关部门对低电压台区或用户进行现场核实,查找出详细原因,提出改造措施,消除低电压情况。
3.1.2用户侧负荷预测及窃电行为分析场景
用户侧负荷预测及窃电行为分析功能可以提取客户信息、用电量信息、用电负荷、事件异常等数据,从用电概况、负荷预测分析、负荷特性分析、防窃电预警分析等方面,选取相关性最高的影响因素,利用数据挖掘算法构建负荷预测模型、负荷特性分析模型、防窃电预警模型。
3.1.3配网设备状态监测分析场景
通过提取设备台账、用电负荷、用户档案等数据,从配变设备基本概况、配变故障量预测分析及配变重过载的深化研究等方面,选取相关性最高的影响因素,利用数据挖掘算法构建故障量预测模型、农网配变重过载预测模型、迎峰度冬重过载预测模型实现配网设备状态监测分析场景。
3.1.4临时用电超期未办理合规性监测
通过提取临时用电数据,从“退费条件后是否按时退费给用户”和“转收入条件后是否按时进行转收入”两个维度,按单位、按月、按异动项目类型,总体展示临时接电用户目前总体情况及明细数据,并通过提醒、告警等方式监测各单位未及时退费项目、未及时转收入项目的情况,提醒相关人员及时处理,避免造成的合同纠纷或企业损失,有效提升公司临时用电业务合法性、合规性。
3.2采集监测与分析决策类应用迁移改造
3.2.1用电信息采集系统迁移改造
采用分布式消息队列+分布式流计算方式,完成用电信息采集数据访问接口的设计开发,实时同步用电信息采集数据,并基于大数据平台,实现实时采集数据的统一对外共享,为用电信息采集系统前端应用及营销业务、生产管理等系统,提供统一、高效的采集数据访问服提升用电信息采集数据的共享服务能力。
3.2.2输变电在线监测系统迁移改造
通过输变电状态监测数据在线计算、离线计算等程序设计研发,同时完成数据访问接口的设计研发,实现输变电状态监测信息的采集和在线处理,为输变电设备状态监测提供灵活可扩展的数据存储和分析能力,实现通过大数据平台,统一对外提供高效的输变电设备状态采集数据服务。
3.2.3同期线损系统迁移改造
基于数据分析域,通过分析线损系统现有大数据计算框架与大数据平台技术路线的差异,开展同期线损系统中电量与线损大数据计算区功能融入大数据平台的研究及开发,将线损系统Cassandra存储改为HBase存储,对已实现的电量与线损分布式计算服务和提供的电量与线损结果查询服务接口进行改造,完成同期线损迁移改造方案、存储模型设计,实现线损相关存储、计算组件的迁移改造及数据迁移。
3.2.4配电网运营分析应用迁移改造
利用大数据平台,结合用电信息采集数据迁移,完成配电网运营分析应用优化改造,优化并提升数据提取、传输以及单体设备计算能力。结合配电网运营分析应用的数据模型成果,基于大数据平台完成数据缓冲表、接口表/中间表、计算结果表的模型设计。根据PMS、营销、调度等数据接入需求,基于大数据平台,完成PMS2.0、营销业务系统档案数据定期同步接口开发,完成调度数据采集及解析程序开发。
3.3统一数据模型与主数据标准验证
基于统一数据模型设计成果,在数据分析域上验证数据仓库模型。结合数据提取清洗及统一分析服务建设需求,开展人员组织、财务、物资、项目、电网、资产、客户等主题域的数据模型的差异性比对,对数据仓库模型进行完善及优化。将数据仓库模型部署至数据分析域中,并按不同业务域模型规范将ODS的数据存放至数据仓库中,支撑分析应用场景建设。
4 电网全业务数据分析域平台技术架构
根据统一数据中心总体架构设计,数据分析域是全业务、全类型、全时间维度数据的汇集中心,是为各类分析决策类应用提供完备的数据资源、高效的分析计算能力及统一的运行环境,改变过去分析型应用数据反复提取、冗余存储的局面,实现“搬数据”向“搬计算”的转变,支撑企业级数据分析应用的全面开展。
根据统一数据中心数据分析域总体架构要求,结合电力数据中心、大数据平台的实际建设情况,设计电力数据分析域系统架构,包括数据接入、数据存储、数据计算、统一分析服务、系统管理等5个层次。
平台通过分布式消息队列、ETL、Sqoop、API等各种技术手段,提取结构化非实时数据、实时数据、外部数据,对各类数据按照统一数据规范进行标准化及关联,并按不同时效性的计算及应用需求,分类进行数据存储、流转及管理。
5 电网全业务数据分析域平台采用的开发技术
数据分析域的数据抽方面取采用大数据平台数据加载工具(基于Sqoop优化封装)+文件导入方式。业务系统存量数据接入ODS区,涉及业务系统数据提取至缓冲区、缓冲区数据提取至统一视图区。
大数据平台数据加载组件,基于Sqoop工具优化封装,支持关系型数据库与大数据平台中的分布式数据库之间的数据提取。对于ODS数据加载至数据仓库/数据集市,采用大数据平台中的数据加载组件(基于Sqoop优化封装)。对于ODS缓冲区、ODS视图区、数据仓库、数据集市之间的数据清洗转换,采用大数据平台数据提取组件(基于Kettle优化封装)实现。提取工具(基于Kettle优化封装)基础功能包括数据获取、数据清洗转换、数据加载、任务管理等,支持内部所有异构系统、多数据类型、不同数据提取方式的数据采集,对多种数据库、套装软件、封闭式主机、EAI软件、文本等数据批量提取,实现对数据高效提取、传输和分发,满足对数据提取和数据清洗功能。
电信息等实时类数据采集,采用大数据平台消息队列组件(基于Kafka优化封装)+流计算组件(基于Storm优化封装),实现生产实时数据的高效采集、计算和存储。消息队列组件(基于Kafka优化封装)用于接收来自前端不同实时源的数据,后端则采用流计算组件(基于Storm优化封装)技术对实时数据进行保存及分析。
外部数据采集主要有3种模式,一是线下手工采集,然后文件导入大数据平台;二是通过外部接口采集;三是通过数据爬取程序采集。
数据仓库存采用基于Hadoop HIVE+Impala组件优化封装的分布式数据仓库,存放按业务主题进行划分、归类的历史数据。数据集市的数据由数据仓库的数据经过转换后形成,直接支撑前端的应用需求。数据集市,采用基于开源PostgreSQL优化封装的分布式关系型数据库。在数据集市应用中,对于实时性要求不高的结果数据查询,将通过访问PostgreSQL实现;对于实时性要求高的即时查询应用,则直接通过Impala访问HIVE的明细数据。
面向海量规模的实时采集类数据,采用基于Hadoop Hbase优化封装,Hbase是基于Hadoop的NoSQL大数据平台分布式列式数据库作为存储媒介。为大数据提供实时的读/写操作,能够利用HDFS的分布式处理模式,并通过MapReduce获取强大的离线处理或批量处理能力,同时能够融合key/value存储模式,以实现实时查询能力。热点数据存储在基于Redis优化封装的大数据平台内存数据库中,以供快速读取、应用。
分析服务,采用大数据平台自助式分析工具。大数据平台自助式分析工具提供易用、快速、灵活的可视化设计器和丰富多样化的可视化控件,结合数据建模发布的数据主题和数据挖掘发布的业务挖掘模型,业务人员可自定义配置分析界面。
数据分析域的系统管理,采用数据管理服务平台实现,根据各类扩展需求,对数据管理服务平台进行增强开发,以适应统一数据中心分析域的系统管理要求。
6 结束语
通过对大数据技术的研究和应用,开发部署电网统一数据中心全业务数据分析域平台,能够有效支撑电网配、变、过载、预警、分析等场景应用,为数据分析人员提供数据挖掘模型构建能力,满足电网各类业务应用的大数据分析、挖掘需求。
参考文献:
[1] 陈毅波,陈乾,眭建新.基于大数据技术的电网运营分析决策系统研究[J].电力信息与通信技术,2015,13(8):128-131.
[2] 王忻.基于大数据技术的电力公司运营系统研究[J].商,2016(4):214-214.
[3] 赵云山,刘焕焕.大数据技术在电力行业的应用研究[J].电力行业信息化年会,2013(30):57-62.
[4] 段军红,张乃丹,赵博,闫晓斌.电力大数据基础体系架构与应用研究[J].电力信息与通信技术,2015,13(2):92-95.
[5] 刁柏青,步万峰.构建集中统一的电网集团数据中心[J].电力信息与通信技术,2004,2(10):57-59.
[6] 姚强,杨志武.基于集中数据中心的统一数据发布平台建设分析[J].内蒙古电力技术,2010,28(3):3-5.
[7] 秦小强.电力大数据基礎体系架构与应用浅述[J].工程技术:引文版,2016(1):11-11.
[8] 刘阳.浅析大数据背景下电力行业数据应用[J].华东科技:学术版,2015(5):244-244.