康鹏 刘康 汤玮 刘旭 张光辉
摘要:目前电网调度平台的数据分析存在数据冗余、系统处理成本高等问题,为了解决这些问题,本文中进行了调度平台全景调控统一数据模型的构建与研究,介绍了调度自动化平台架构,以及调度平台数据自动化识别、分析关键技术,实现了调度平台各类异构数据的快速处理,为调度平台的应用提供了必要的技术支撑手段。
关键词:调度平台;自动化;Map Reduce;ETL
中图分类号:TP301.6
文献标识码:A
文章编号:1001-5922(2020)12-0037-04
南方电网具有交直流混合运行、距离远、容量大等特点,在电网的发展和技术进步的同时,电力系统中的各种问题逐渐暴露。一方面,随着用电需求的逐渐增大,电力系统逐渐复杂,电力系统在安全运行过程中面临的压力越来越大,为了适应科学发展理念,电力系统需要不断进行资源的优化配置,实现发电过程中的节能减排,还要面对各种复杂的环境因素等,目前的电力系统迫切需要革新;另一方面,随着电网的逐步扩大,其运行过程中所产生的数据也在不断增加,合理分析和处理大规模的数据,提高电网的运行效率是目前电力系统发展中的重大课题。
在解决上述问题的过程中,人们开发设计了可以自动进行电力调度的平台,基于计算机、数据库以及各种类型电力电子等相关技术的支持构建智能自动化操作系统,而与各项技术突飞猛进式发展以及优化相伴随,这种自动化调度平台必须提高自身的专业度以及运作效率,通过对新技术、新手段等的合理与有效利用,在相关设备与工具的支持下为电网调度及监控工作的顺利与健康开展提供切实有效的手段。但是,数据的不断累积,目前调度平台在数据分析方面也面临以下问题。①数据表现出程度不一的冗余性,且这一冗余问题存在的范围比较广泛,如量测設备内部、不同的量测装备之间以及具有相邻关系的子站之间均或多或少地受到数据冗余情况的困扰。②在进行数据的处理与分析之时,所采用的方法依旧以常规形式的数据存储以及管理为主,同时,所采用的基础架构主要还是大型服务器,它们往往需要支付较高的费用才可获得,在存储硬件上,所采用的是磁盘阵列,无法保证较好的系统扩展性,且同样不具备价格优势。在此背景下,就调度平台中所需要的海量数据而言,急需挖掘并引入新的计算技术实现对上述问题的解决[1]如刘晓明等研究了基于全景监测暨运维调度平台的手持设备,金刚基于规则设计了用户全景视图。
因此,本文构建调度平台的全景调控统一数据模型,基于Map Reduce的数据运算技术、ETL的多源异构数据处理技术实现调度平台的数据自动化识别、分析。
1 调度自动化平台架构
遵循“统一调度、分级管理”的划分与管理原则,可以将电网调度控制机构由上至下划分为国调、网调、省调、地调以及县调5个不同的等级。此处用上级调度控制中心来代表调度自动化平台的主站,它由在各个安全区分布的子系统共同组成,主要包括计算机硬件、计算机软件以及相应的通信设备等组件,在监视并分析各项数据信息的同时,还将对数据的处理与储存任务承担起来,同时,根据各项信息准确、有效下达调度控制命令。表1所示为主站业务子系统域的安全分区以及区域内所包含的业务系统。
以业务所表现出来的不同的重要程度为依据,调度自动化主站可划分为不同的安全区域,各区域中有其相应的业务系统,表1所示的I区、Ⅱ区之间进行了防火墙的设立,目的在于实现逻辑层面的隔离。在纵向上,不同类型的业务系统会在交换机中被划分到不同的虚拟局域网中,在对信息进行分类的同时执行对流量的控制任务,同时,基于纵向加密装置与防火墙的支持同实时与非实时的VPN通道建立连接[4-5],以此实现同远方子站之间的实时、有效通信。
在调度自动化系统内部,经由子站传输给主站的各类数据在从路由器接人之后,需要在表1所示的I区经过纵向认证装置,以此实现同对应区域交换机的连接,这是一个必要条件,而在表l所示II区,其与交换机的连接又需要经过防火墙过滤,这也是一个必要条件。2个必要条件的存在要求内部网络对双星型接线的百兆或千兆带宽的以太网予以采用。
2 调度平台数据自动化识别、分析关键技术
2.1全景调控统一数据模型
就电力调度控制系统而言,其大数据来源相对广泛,包括SCADA、EMS等不下10套应用系统,每一套系统均具有不依赖于其他系统独自运行、不对其他系统产生干扰的能力,不同系统集中了不同来源多种类型的数据,具有自己的独立性,各应用系统之间的数据口径并不一样,这就信息的共享以及数据潜在价值的挖掘与发挥来说并不是有利条件。而另一方面,各系统中还拥有十分大的数据量,这存在显而易见的覆盖有效信息的风险与不足。与调控多元异构数据所具有的相应特征以及大数据具备的数据层面的特征相结合,调控大数据表现出很明显的数据量大、数据类型多、价值密度低、真实性可以保证等特点。
为了做好电力调度自动化工作,在数据处理过程中,首先要有规范统一的数据结构,执行对电力调度自动化系统中各项数据信息的统一任务,同时,为不同变电站信息类型同数据之间的相互对应提供可靠保证,使每一项涉及的到的数据信息在上传之时均能实现对电力企业相应需求的有效满足,统一于国家电网发布的对应数据。只有将这些工作做好、做实,电力调度自动化系统中的数据信息的汇报以及分析等效率才能得到切实有效的保证,系统在使用过程中才具有安全性可言。文章设计了电网调度自动化平台中设计了调控全景数据模型,实现了调控大数据统一管理、组织,模型的框架如图1所示。
根据图1,构成该调控全景数据核心数据模型的分别有SCADA、WAMS、EMS等,它们的获取相对方便,可通过对各个应用系统中的相关信息与数据模型进行融合来完成获取任务。
建立全景调控统一数据模型之后,数据分析任务的实现便可通过以Hadoop为基础的调控大数据系统来完成,分层次来看,即分别将以Map Reduce为基础的数据运算技术、以ETL为基础的多元异构数据处理技术以及以HDFS与HBase为基础的数据存储技术作为对数据进行处理、对数据进行集成以及对数据进行调控的处理、集成以及存储框架。
2.2 基于Map Reduce的数据处理框架
作为一个能够为大数据集的计算工作提供便利的分布式平台,Hadoop可以在集群中采用并行的工作方式将计算速度提升,缩短计算时间。NameNode与DataNode共同构成Hadoop集群,前者的任务在于对资源进行调度,同时,执行对文件目录结构的管理操作;后者功能则体现在对数据存储的管理之上。而作为Hadoop中的一个子项目,MapReduce的作用为并行计算大数据集,它能够提供有足够效率的并行计算能力以及并不复杂的通用并行算法设计环境,这于电力设备的故障诊断而言是非常方便的。图2所示为MapReduce的工作流程示意图。
在数据的分割、负载均衡以及容错处理等问题上,MapReduce运行模式极具优势,这些任务可通过MapReduce自动完成。在对MapReduce程序进行设计之时,所需做的工作比较简单,具体地,分解数据并行计算问题,将它们用许多可以并行执行的子问题表示出来,同时,进行相应Map与Reduce函数的设计,保证程序可以良好地在分布式系统上运行。在一个MapReduce模型中,输入的数据文件可以被分割为很多有着相同大小的数据片段,它们会由Hadoop集群中的不同存储节点保存下来,并经过之前所设计好的Map函数得到相应的运算结果,在排序与合并等一系列操作之后,相同的key值运算结果会向相同的Reduce函数传送,并统一接受数据的归并处理。最终,以Reduce函数结果作为依据,在分布式集群上完成对各项结果数据的保存。如此一来,很多计算的执行效率都得到了有效的保证,它们还彰显出可以拓展的特点,在大规模数据的计算上体现出更加明显的优势[6-7]。
MapReduce模型Map任务将每个系统一段时间内的历史数据和该时间段内实时数据作为输入,经过数据的筛选、检验等过程生成映射数据对,等所有Map任务完成后,系统会生成若干个Reduce任务,将相同的数据进行总结,更新平台数据库[8]。
2.3基于ETL的多源异构数据处理技术
服务器端主要由接口层、统一数据模型管理模块以及ETL执行引擎构成,用于调控多源异构数据ETL处理的实现。在服务器端各个组成部分中,接口层的功能在于提供数据操作的接口,用户可在这些接口的支持下完成相应任务,如对ETL流程的设计等。统一数据模型管理模块在ETL框架中所发挥的作用是基础性的,它对数据的模式、数据的结构等进行清晰地描述,可以为元数据提供存储以及访问等相关服务。另外,作为ETL框架的核心模块,ETL执行引擎对流程解析以及执行2个环节均有涉及。若数据属于小量的结构化数据类型,可选择利用本地计算机实施ETL流程;若数据属于大量的结构化数据或者非结构化数据,则需要通过以Hadoop大数据分析平台为基础的MapReduce技术对ETL中的数据转换以及解析等各类问题进行处理。MapReduce对并行数据ETL的主要方法如下。
1)抽取有用数据:结合数据源所表现出来的特点,将其加载至能够进行业务系统运行的对应数据库中。在访问数据文件之时不会对数据库有所涉及,数据的加载大致与数据文件的MapReduce读取相类似。 2)清洗与转换需要的数据;访问各个数据,将与修补数据源中不一样、无法保证完整性以及准确性的数据剔除出去,实现对数据类型以及粒度的有效转换。之后,通过MapReduce的并行操作来处理各个文件中涉及到的全部数据,在MapReduce中添加检查数据格式的函数指令,达到不完整、不一致、噪音处理各项数据的目的,基于此,实现对数据的清洗、不一致转换以及商务规则计算等。伪代码如下:
3)数据装载:数据抽取、清洗轉换之后进行数据装载,关键代码如下:
3 结语
在电网运行过程中,电网调度发挥着核心作用,目前,我国电网将坚强、智能的电网建设作为总的发展目标,这使得电网调度自动化的研究成为一个必然趋势。文章在分析了电网智能调度平台的总体结构之后,主要对调度平台的数据自动化识别分析进行研究,提出了全景调控统一数据模型及基于Map Reduce的数据运算技术、ETL的多源异构数据处理技术的数据集成框架,实现了调度平台各类异构数据的快速处理,为调度平台的应用提供了必要的技术支撑手段。
参考文献
[1]曲朝阳,朱莉,张士林.基于Hadoop的广域测量系统数据处理[J].电力系统自动化,2013,37(04):92-97.
[2]刘晓明,王娟,葛健.基于全景监测暨运维调度平台的手持设备应用研究[J].自动化应用,2017,(11):131-132+134.
[3]金刚.基于规则的用户全景视图的设计与实现[D].上海:上海交通大学,2015.
[4]李红.电力调度自动化网络运维平台的设计与应用[J].机电工程技术,2019,48(06):205-206+259.
[5]罗小杰.一体化技术在电力调度自动化系统的应用[J].电子技术与软件工程,2017( 20):115.
[6]曲朝阳,陈帅,杨帆,等,基于云计算技术的电力大数据预处理属性约简方法[J].电力系统自动化,2014,38(08):67-71.
[7]王波,王怀彬,张超.基于MapReduce的频繁模式挖掘算法的优化[J].天津理工大学学报,2018,34(01):6-11.
[8]肖文,胡娟,周晓峰.基于MapReduce计算模型的并行关联规则挖掘算法研究综述[J].计算机应用研究,2018,35(01):13-23.