李子乾 朱青 穆松鹤 张月
摘要:为有效满足智能电网对大数据处理的需求,文章完成了SP-DPP大数据处理平台的构建,该平台基于云计算,主要由客户端、存储管理、任务分配调度、执行四大模块构成,并根据电网人数据处理需求完成了数学模型的构建及数据任务的划分,对平台处理人数据的编码方式进行了详细描述,并以IEEE118节点电网为例介绍了大数据处理程序,该平台在吞吐量及加速比方面表现出了较大的优势,为提升智能电网对电网大数据的处理性能提供参考。
关键词:智能电网;大数据处理平台;云计算;潮流计算
中图分类号:TP311.13;TM76文献标识码:A 文章编号:1001-5922(2019)11-0169-05
快速发展及应用范围不断扩大的现代电网促使电网数据迅速增长,电力系统已进人大数据时代,为电力系统的数据存储及管理工作提出了巨大的挑战,传统的数据处理模式已经难以满足满足电网现代化的运营管理需求。近年来随着现代先进技术在智能电网中的广泛使用(包括网络计算机通信、传感器测量等技术),面对不断扩大的电网规模包括数据采集与监控、相量测量等在内的电力系统中所产生的数据呈指数级增长(数据量巨大且种类繁多),构建面向智能电网的大数据处理平台提升电网管理效率及质量已成为行业内的重点研究领域之一。
1需求分析
电压、电量、用户负荷等是智能电网正常运行的基础,传统包括MPI集群、Globus网格等计算处理技术随着电网数据及软件容量的不断增大已经难以满足智能电网数据处理需求,迅速发展的云计算及大数据等技术凭借自身的强大优势逐渐在智能电网监管及检测等领域普及应用。云计算将一种有偿的商业服务提供给客户端,各大IT公司拥有云平台源代码版权,作为技术跃进或商业实现结果,云计算实现了部分源代码的开放,已成为处理大数据的主要手段,具备科学高效处理优势的云平台可有效满足智能电网大数据的处理需求。采用云计算并行处理大规模数据集的方法易于搭建,可有效降低开发及使用成本。本文针对智能电网采用云计算的MapReduce规范开源代码完成了SP-DPP(smart power system big dataprocessingplatform in cloud environment)大数据处理平台的构建,并对平台的设计和实现过程进行了阐述。
2SP-DPP平台的设计
为满足高效处理电网海量数据的需求,本文所设计的SP-DPP云平台架构示意图如图1所示,不同于传统计算平台,SP-DPP云平台以服务的方式向用户提供IT相关功能,用户通过注册及访问服务即可使用该平台,平台通过具备稳定可靠优势的中心节点(主要由集群服务器构成)完成智能电网大数据的存储,平台需将大数据处理任务调度到中心节点上,在此基础上完成任务的提交和分配处理过程,SP-DPP云平台按照逻辑分为客户端、存储管理、任务分配调度、执行4大模块。以潮流计算的结果为依据完成分析及监控电网状态的功能。
2.1大数据存储与管理模块
该模块的主要功能在于存储所需处理的大数据以及各类文件系统的名空间,具体通过使用DFS(分布式文件系统)完成存储过程,在设计选取DFS时为使其优于集群并行文件系统,本文充分利用了虚拟化技术,系统平台对电网海量数据(由TB到PB级)通过DFS进行自动管理,程序设计过程中仅包含一个对用户透明的文件系统显著提高了平台获取数据的便利性(如/DFS/tmp/filel),实际由众多不同物理节点存放大数据。此外,通过管理文件系统的命名空间使平台中的其他模块能够对相关数据进行高效便捷的访问。
2.2任務分配与调度模块
大数据的处理(包括任务分配、调度及处理执行)需以大数据的存储作为基础,任务分配与调度作为平台的核心模块主要负责划分平台的大数据处理任务,然后在空闲工作机上分配并执行各个子任务,该模块重点考虑的问题在于:任务划分,需根据大数据处理类应用的特点进行划分以确保其能够在SP-DPP平台上运行,划分任务时针对潮流计算的大数据处理可通过于任务的设计(对应预想异常的初始参数)完成最基本工作单元的确认和处理过程,需通过调度模块对涉及到的工作单元进行高效的调度使其合理分布于不同工作机上执行;调度策略,需对实际使用的工作机进行综合考虑,包括硬件配置情况(如CPU、内存、空余磁盘空间等)及软件信息(如CPU利用率、网络带宽、负载等),以确保工作单元的迁移更加灵活高效(在各物理节点间);容错问题,采用冗余方式的SP-DPP平台需能够对失效节点进行自动检测和及时排除,确保平台主控任务的正常运行;负载均衡,在同一物理节点上对多个虚拟机计算节点(负载较小)进行合并,使实际各物理节点的资源利用率得以显著提高。在创建其它工作机时需以当前文件位置及大小为依据完成,同时监控工作机的执行状态。
2.3大数据处理执行及客户端模块
本文所设计的SP-DPP云平台运用了包括桌面、系统虚拟化等在内的虚拟化技术,云资源的使用基于桌面虚拟化,该平台在虚拟机上完成电网大数据处理过程,通过执行模块采用虚拟机的方式完成具体工作单元(由调度模块分发)的接收和执行,并向调度模块返回执行状态和临时结果。该模块子任务从存储管理模块中获取大数据处理信息并执行完后,仍在大数据服务器中存储结果。用户通过客户端在联网状态下即可对SP-DPP云平台进行访问,客户端可以服务等级协议(SLA)为依据进行按时付费管理。
3电网大数据处理的数学模型
3.1数学模型的构建
电网运行情况的判断已成为各电网公司调度中心的重要工作内容,目前潮流计算是对智能电网状态进行判断时较为常用的数据模型,假设,Pi,Oi,Ui,Uj,Gij,Bij,θij均表示电网相关参数,潮流方程的极坐标表达式如下。
判断电网的状态通常需对P、Q、U、θ中的任意两个参数进行设置,在此基础上以方程组的约束条件为依据完成另外两个参数的求解过程。智能电网的规模同方程组中n的取值成正比。
3.2智能电网大数据的划分
本文在对电网大数据任务进行划分时编程模型的思路采用了主-从模式,针对电网异常状态将对应不同的预想事故进行设置,将各预想事故对应一个同Mapper(位于MapReduce中)类似的子任务形式,通过Mapper子程序代码能够获取电网不同运行状态(采用串行潮流计算方法)。考虑到预想事故不一定会导致电网出现异常需进行汇总判断,具备汇总归约功能的Reduce可有效满足判断汇总电网状态的需求。电网大数据处理的划分模型如图2所示,方程组约束中的潮流通过各Map获取对应特定电网运行状态的子结果,各Reduce对应各参数指标判断结果(越界或异常),整个运行流程由一个主程序进行控制,最终实现电网运行状态异常的检测过程。
4平台的实现
并行大数据处理的编程模型主要包括映射归约(MapReduce)、主一从、分治等模式,均具有独立子任务执行功能(类似工作单元),不断发展的数据存储及管理技术使云平台大数据处理时存在依赖关系,允许子任务节点间交互的软件拓展了云平台的应用处理类型,在SP-DPP云平台中使用了较为先进成熟的开源的MapReduce规范(位于Apache的Hadoop中,一种软件代码不对外界公布的云计算的编程模型),适用于分布式大数据处理(包括存储、调度、执行、容错、负载均衡)。针对电网大数据状态MapReduce编程规范只需通过编写Mapper和Reducer程序即可完成安全分析。
4.1核心模块功能的实现
本文选用Hadoop的HDFS实现大数据存储与管理功能,通过使用HDFS完成对主控服务器、数据服务器、作业服务器和任务服务器等角色的部署,大数据存储及管理文件系统命名空间功能主要通过主控服务器、数据服务器完成。任务分配调度功能则通过使用Hadoop的任务服务器实现,分配电网大数据任务时需先完成预先放置于HDFS中的分片的设置,采用Hadoop中的原始调度、容错及负载均衡策略(通过分析更改开源代码可实现对这些策略的改进)。任务和数据服务器需同时部署于存储的物理节点上,在MapReduce中,运行于数据服务器上的下属任务服务器(负责执行工作单元)通过作业服务器进行调度和管理。工作机模块功能通过使用任务服务器角色实现。作业服务器负责主控任务,运行在从属节点上的任务服务器主要负责接收并执行子任务,并向作业服务器返回执行状态和结果。图3为本文所设计平台的各功能模块逻辑关系,虚线框表示虚拟节点,实际的物理节点负责实现大数据任务分配调度功能,由实线框Master表示;实现工作机和存储管理功能的实际物理节点由实线框Slave表示。
4.2电网大数据处理的编码
在完成平台基本软件环境搭建的基础上(通过配置MapReduce实现),利用MapReduce编写潮流计算程序,其中Map函數代码(针对潮流计算的串行计算)表示如下。
考虑到MapReduce通常采用Java语言,而潮流计算大多采用C++作为串行源代码,本文在Java环境下通过使用JNI技术完成C++代码的调用,使Hadoop能够透明的执行相应角色。
5平台测试
为检测本文所设计的SP-DPP智能电网大数据处理平台的性能,采用IEEE118节点电网基本数据进行试验,据此完成电网运行状态的计算,将电网预想事故预设为5*104个(数据容量为15GB),SP-DPP平台包含9个实际PC机物理节点(处于同一个局域网内,均安装了RedHatLinux操作系统),采用内存为8C DDR4的Intelxeon云服务器主机,通过交换机连接各节点,用户通过继承MapReduce-Base即可完成Map、Reduce程序的编写。遵循Apache的Hadoop规范,将主控服务器和作业服务器部署在1个Master机器上,将数据服务器和任务服务器部署在8个Slave机器上。在运行时间为2000s的情况下吞吐量(在相同时间内,通过调整实际物理节点个数比较预想事故完成情况)实验结果如表1所示,证明平台预先设置故障完成个数同物理节点的数量成正比。执行时间测试结果如表2所示,加速比测试结果如图4所示,在电网状态安全分析方面该平台的执行时间同Slave物理节点的数量成反比,Speedup则保持稳定的增加,将更多的物理节点部署于云平台上能够快速完成全部工作单元的计算过程,电网公司的调度中心据此可对电网整体运行的安全性进行准确判断,证明了本文所设计平台具有较高的实际应用价值。
5结语
文章主要基于云计算技术完成了一种智能电网大数据处理平台的构建,电力系统潮流计算测试结果验证了本文SP-DPP云平台在吞吐量和加速比上的优势。具有Master-slave特点的并行应用均可在SP-DPP平台上运行,在完成任务及数据划分的基础上通过MapReduce的应用完成计算过程。