基于云平台的电力行业数据处理方案研究

2022-05-24 11:44林君颖
电子设计工程 2022年10期
关键词:电力行业数据处理集群

王 岩,黄 莹,林君颖

(1.海南电网有限责任公司信息通信分公司,海南 海口 570203;2.海南电网有限责任公司客户服务中心,海南 海口 570203)

随着我国电力行业的飞速发展,电力系统在长期运行中也产生愈来愈多的数据信息,导致传统数据处理系统出现较多的技术弊端。在目前现代信息技术背景下,大数据、云计算等新兴技术的应用,为电力行业的数据处理提供了新机遇。因此文中立足电力行业的业务开展情况及特点,将云平台引入研究,提出基于云平台的电力系统数据处理方案。该方案能够运用云平台的数据存储资源,实现对海量电力系统运行数据的高效处理,有效提升了电力系统的数据处理工作效率。提出了基于逻辑回归的改进分类算法,可以实现用电记录数据的分类计算,做到正常、异常两种用电数据的有效区分,能够为电力企业提供更合理的决策支撑。

1 云计算关键技术

云计算将计算任务分布在大量计算机构成的资源池中,各系统根据需要获取资源池内提供的各类计算、存储等资源服务,主要依赖以下3 种技术。

1.1 虚拟化技术

实现计算机程序基于虚拟平台而非真实平台运行,能够有效简化系统配置,明显提升计算机技术的工作效率。虚拟化技术系统结构如图1 所示。

图1 虚拟化技术系统结构

1.2 Hadoop技术

大数据技术能够处理各种数据类型,从中获取具有丰富价值的数据信息。大数据关键技术包括数据采集、预处理、存储、分析和挖掘以及结果呈现,如图2 所示。Hadoop 共计包括了三大核心组成,分别为Hdfs、Yarn 和MapReduce。

图2 大数据关键技术

1.3 流式数据采集

基于Hadoop 能够提供有效的大数据处理技术支持,侧重于数据计算、存储、分析,并未重点针对数据进行接入处理。流式处理则能够实现数据流入至系统中,完成连续的数据计算。

2 云平台架设

该文搭建云平台的关键步骤如下:

1)部署Hadoop 集群。首先进行JDK 和SSH 安装,并对Hadoop 配置文件进行修改,对文件成功复制后进行格式化处理,在可以通过DataNode 成功看到Node、Manager 后,即表示搭建成功。

2)部署ZooKeeper 集群。ZooKeeper 能够实现Hbase、Kafka 以及Spark 的多集群协调管理。首先对zoo.cfg 文件进行修改,成功复制文件后即可启动服务,部分代码如下:

3)部署Hive。为了有效提升Hive 元数据处理的安全性,通过MySQL 实现元数据存储,完成MySQL安装后进行Live 配置。首先完成MySQL 安装,之后对hive-site.xml 文件进行修改,成功复制文件后即可启动服务。

4)部署Hbase 集群。在完成ZooKeeper 集群安装后,下载安装regionservers、hbase-env.sh 等文件,成功复制文件后即可启动服务。

5)部署Spark 集群。首先进行SCALA 安装,对其中参数配置进行修订,成功复制文件后即可启动服务。

6)部署Kafka 集群。在完成ZooKeeper 集群安装后,修改相应配置文件,成功复制文件后即可启动服务。

根据以上建立该次研究的云平台,主要是为了满足以下功能:1)处理系统大数据集。2)实时查询数据。3)对流式数据进行处理分发。4)统计分析并成功挖掘数据。

平台技术架构如图3 所示。

图3 云平台技术架构图

3 电力行业数据处理方案

3.1 电力行业数据处理业务特点

从数据采集来看,实现电力行业运行数据的远程采集,作为我国建设智能电网的关键基础技术,能够在电力行业数据采集中应用数据处理技术,有效提高数据远程采集的时效性、精准度。经服务器汇总并处理数据,在数据库内写入数据即可实现数据持久化工作,并上调应用服务层。

其次,从电量数据计算业务来看,在电网运行中存在诸多业务逻辑,其中以电量计算、线损计算最为广泛,差异化表计能够在电力系统的不同运行状态下,成功采集各类运行数据,虽然应用了差异化数据处理方法,但最终能获取统一的数据格式。

最后,从查询业务来说,一般情况下业务人员对于计算机信息技术并不熟悉,所以不可能要求从业电力行业人员能够经计算系统得出计算结果。所以需要实现以下的数据查询任务,包括查询原始数据、单日电量、单日线损、单用户历史电量、单用户历史线损。

3.2 数据处理业务方案设计

基于云平台能够有效整合大数据组件,实现横向数据处理平台拓展,有效增强系统数据处理的计算存储能力。基于云平台电力业务处理方案的数据流程如图4 所示,主要运用了模块化设计理念,包括数据采集分发、在线处理、离线处理、存储查询、Web展示五大模块。

图4 基于云平台电力业务处理方案数据流程

数据采集分发模块能够采集并分发电力行业数据;在线处理模块可以检测系统设备的运行产生数据;离线处理模块能够计算用户的电量、线损,满足具体的查询业务;存储查询模块可以存储和查询相应的详细数据信息;Web 展示模块能够为系统操作用户呈现最终的数据参数输入、查询结果。

3.3 基于云平台的数据处理分类计算

3.3.1 逻辑回归算法

逻辑回归计算公式如下:

根据式(1)建立逻辑回归计算模型,其最大似然函数公式如下:

3.3.2 基于信息量特征选择法

1)在用电数据分析过程中,产生的异常数据一般为产生较大波动以及较大波动频率的数据,可能是运用的计量设备发生了故障,应当对其进行相应的技术排查。在分析过程中极易发现多数用户都能获得稳定的用电数据,所以在全部用电数据中异常数据的占比较小。所以在对用电数据进行分析时,需要重视异常数据的正确分类。

2)在对电力行业信息量进行计算并选取特征数据时,可以运用高维用电数据进行分类,根据一定特征输入分类算法,在分类建模过程中判定该类分类数据的依据,主要的测试集内包括了正常、异常两类数据,而该类数据并不能直接代表类别特点,所以在特征输入时需要尽可能避免产生异常特征。

在选取特征时就要求能够对每一个异常特征都完成相应的信息量计算,并根据相应的选取规则有效降低计算复杂度。特征选取流程图如图5所示。

图5 特征选取流程图

4 性能测试

4.1 实验环境

测试中主要的实验环境包含2 台联想服务器、1 000 M 以太网交换机,并配置了5 台云平台节点和Web 服务器。

4.2 云平台数据处理性能

该方案设计中,云平台对于数据的底层存储由Hdfs 实现,经前置机Kafka 有效分发数据后,存入Hdfs 系统,所以获得了良好的云平台数据读写性能,然后将关系型数据库内存储数据输入Hdfs 内。Hadoop 能够提供API 获得Put,成功拷贝Hdfs 内的数据,即可存储处理后的数据。监测数据曲线如图6所示,图中曲线代表随着实验次数增加,所测得实验数据总量也随之增长。该次设计的基于云平台的电力行业数据处理方案,能够获得较快的数据读写速度,并且可以满足每天最高达到5 TB 以上的数据读写量,所以可以用于承载电力行业的数据业务处理。

图6 监测数据曲线图

5 结束语

随着我国智能电网事业的大力开展,智能电表的广泛应用产生了海量数据。该文提出基于云平台的电力行业数据处理方案,实现了Hadoop、Kafka、Hbase 等大数据处理技术的有效整合,并提出基于逻辑回归算法的数据分类计算方法,经平台测试验证了该数据处理方案能够获得较好的数据读写、安全及平台拓展性,简化了数据处理计算的复杂度。

猜你喜欢
电力行业数据处理集群
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
基于低频功率数据处理的负荷分解方法
无人机测绘数据处理关键技术及运用
共谱新时代电力行业党建和企业文化建设新篇章
海上小型无人机集群的反制装备需求与应对之策研究
培育世界级汽车产业集群
一种无人机集群发射回收装置的控制系统设计
电力人才开发与培训探讨
基于MATLAB语言的物理实验数据处理探讨
勤快又呆萌的集群机器人