云计算智能电网大数据驱动的方法研究

2020-07-06 07:57吴佳苏丹袁卫国杨延
计算技术与自动化 2020年2期
关键词:区块链智能电网数据挖掘

吴佳 苏丹 袁卫国 杨延

摘   要:针对智能电网数据繁多、用户应用困难的技术问题,提出了智能电网大数据驱动方法,并设计出基于云计算软件平台管理智能电网大数据的系统。通过采用数据挖掘算法对智能电网大数据样本训练、学习,建立多个数据处理模型。根据决策树算法能够实现智能电网数据不同属性数据的分类,使得用户快速从浩瀚的云端数据库中获取目标数据,并将处理后的数据通过区块链系统保存,进而实现数据的永久性存储。不同用户通过签发密钥实现数据的共享,使得数据应用和管理更为便捷有效。本方案为智能电网大数据处理与应用提供了技术参考。

关键词:智能电网;大数据;驱动;数据挖掘;区块链

中图分类号:TP393.09                                     文献标识码:A

文章编号:1003—6199(2020)02—0184—05

Abstract:Aimed at the technical problems of smart grid data and user application difficulties,a smart grid big data driving method is proposed,and a system based on cloud computing software platform to manage smart grid big data is designed. This paper uses data mining algorithms to train and learn smart grid big data samples and build multiple data processing models,according to the decision tree algorithm,the classification of different attribute data of the smart grid data can be realized,so that the user can quickly obtain the target data from the vast cloud database,and the processed data is saved by the blockchain system to realize the permanent storage of data. Different users can share the data by issuing the secret key,which makes the data application and management more convenient and effective. The scheme designed provides technical reference for smart grid big data processing and application.

Key words:smart grid;big data;driver;data mining;blockchain

云計算作为一种特殊的计算方式,是软件即服务(SasS)、平台即服务(PasS)、基础设施即服务(IasS)、虚拟化Virtualization等技术的跃进或者商业实现的结果[1-3]。通过云计算,使用户能够快速、便捷地处理智能电网大数据。云计算的形态通常包括私有云、公有云和混合云,私有云是集群企业内部的云计算,使得企业内部的数据集中存放,各部分可提取使用。公有云是通过搜索引擎的方式寻找数据,借助于各种网盘、迅雷进行离线下载以获取目标数据等,满足大众的要求。混合云能够结合私有云和公有云,既能满足企业内部的需要,又能满足普通大众使用云计算的需要。基于云计算在各个行业的广泛应用,使得软硬件的使用率大大提高,企业的运营维护成本和管理资源也相应降低[4-6]。

随着IT行业在全球范围内的快速发展,云计算软件平台也呈增长趋势,使得用户畅享云计算超快的运算能力(每秒10万亿次),比如目前在市场发挥重要作用的H3C CAS云计算管理平台、AbiCloud企业级开源云计算平台、AbiCloud企业级开源云计算平台、Eucalyptus 开源云计算平台、Nimbus云计算平台等。云计算软件平台由于其应用模式呈现多样化,并且根据用户的管理形式呈弹性变化,使得数据应用模式也呈不同的形态。在智能电网应用中,由于其底层采集数据的复杂性和多样性,业务系统之间互相交互,就需要采用不同的数据处理技术来满足不同的用户需求[7-8]。基于此,介绍一种基于云计算软件平台处理智能电网大数据的方法,不仅能够实现智能电网大数据的统一管理、智能存储、数据处理、数据分析、数据可视化等应用,还增加了数据的加密性,大大提高了用户数据的隐私效果。

1   大数据驱动体系构架

介绍智能电网大数据在云计算软件平台上的一种应用模式,通过该模式实现数据的分类和加密,便于用户管理和使用。在本系统构架中,在笔记本/计算机(下文简称PC机)上安装云计算软件,本文采用的云计算平台为云端智能电网大数据处理平台SP-DPP(smart power system big data processing platform in cloud environment)[1-3],在该云计算软件中设置数据计算单元实现进行数据处理,并在输出端连接区块链系统,区块链采用分布式数据存储模式,具有点对点传输、共识机制、加密算法等特点,实现计算机技术的新型应用模式,将其引入智能电网大处理应用,不仅能够实现数据的永久性存储,还将具有数据保密的特点,能够便捷地在用户之间共享数据。在本系统设计中,系统主要包括PC机,在PC机上集成有云计算软件平台,云计算软件平台包含有数据存储单元、数据管理单元、分类单元、数据计算单元、人机交互单元、数据分配单元等。如图1所示。

在本系统设计中,数据存储单元主要负责存储智能电网中的各种的数据信息,数据管理单元主要负责接收、分配、计算、处理、分发接收到的各种数据,数据管理单元可以包括分类单元、计算单元、数据分配单元等。在本设计中,分类单元为基于数据挖掘算法的分类单元,计算单元根据分类模型运行大数据,通过计算单元使得接收到的智能电网数据按照一定的规则和算法输出,计算出的最终数据通过设置在输出单元输出,最终处理的数据通过人机交互单元选择性地处理,处理数据还可以通过Internet网络与区块链系统通讯。在区块链系统中,通过区块链签发私钥,实现数据的永久性存储,在签发私钥时,通过授权电子数字证书并签名的CA服务器来实现。用户之间通过区块链共享数据,在不同服务站便可获取智能电网大数据在云计算软件平台上处理结果。

2   数据处理方案

2.1   基于数据挖掘算法的数据分类方法

在对大数据进行处理时,首先将数据按照一定的属性分类,基于数据挖掘算法实现智能大数据的分类。数据挖掘算法包含很多种算法,比如关联算法、回归分析、聚类算法、异常检测等,其中每种算法又包括多个算法,比如分类算法包括诸如决策树算法、贝叶斯算法、神经网络、支持向量机等算法,聚类分析算法包括诸如k-means  SOM神经网络、FCM聚类算法等的算法。在本设计中,选择使用决策树算法中的ID3算法构建决策树,实现对数据的分类。结合图2对决策树的构建做进一步说明。

(1)数据获取:从数据存储单元获取不同种类的智能电网大数据;

(2)数据训练:从所选的智能电网大数据组中计算数据集的经验熵,选择信息增益最大的特征作为当前分裂特征,选择信息增益最大的特征作为

当前分裂特征;其中数据组经验熵H(D)的计算公式为:

其中,i为数据的个数,|D|是数据集中所有样本个数,k是目标变量的类别数,|Ck |是该分类下的样本个数。在进行计算时,在所有的特征中,假设A,计算特征A对数据集D的经验条件熵H(D|A),其中计算特征A的信息增益公式为:

(S3)确定根节点:根据上述计算公式计算出的经验熵选择决策树的根节点;如公式(1)和(2)所示,在选择目前数据集的分割特征属性时,使用信息增益度来计算。如果在多个计算出的信息增益度值很大,则表示在这个属性特征上回损失的纯度也就越大,那么结算出的较大的信息增益度值的属性就应该处于决策树的上层,可考虑其作为根节点。

(S4)确定叶节点:根据计算出的经验熵选择决策树的叶节点;根据上述的方法将信息增益度值较小的属性选作为叶节点;

(S5)建立数据模型:根据上述方法确定的根节点和叶节点,建立数据模型;

(S6)构建决策树:根据数据模型,构建决策树;构建出的决策树是呈树形的结构,最后输出的是用户目标值;

(S7)根据构建的决策树运行智能电网大数据,输出运行结果。

2.2   区块链技术在智能电网大数据中的应用

采用区块链技术具有互信度高、数据不可篡改、数据可追溯性、互联互通、分布式存储、去中心化等优点[9-10],其结构形态如图3所示。用户分类后的数据通过区块链系统能够实现数据的共享,用户之间共享密钥即可实现。

區块链节点呈链条式连接,即区块链节点之间通过区块链网络彼此连接通讯,这些节点之间通过链式连接,可以实现不同节点之间的信息交互。区块链节点将PC机和云端数据系统、数据管理中心、移动式设备中的各相邻节点的数据信息发布到区块链网络中。在本上文设计中,区块链系统包含区块链网络并集成有加密单元、区域链节点、应答节点、存储单元以及信息释放单元,区域链节点与应答节点信息通信,存储单元与信息释放单元通信交互,并且存储单元和信息释放单元与所述存储单元通讯交互,如图4所示。其中加密单元采用加密算法对接收的数据进行加密和解密,采用的加密算法为DES、 3DES、 Blowfish加密算法、 Twofish加密算法、IDEA、RC6或 CAST5。信息释放单元是存储单元存储分配程序,其基于malloc函数调用来实现的,存储单元增加多少,信息释放单元的信息量就释放多少,在释放时,malloc在第一次被调用时,从系统中获取最小为一个单元的空闲空间(例如有最小单元为1024个最受限单元块,当x<=1024,获取1024个最受限单元块,否则获取x个最受限单元块,x不等于1024,其中x为信息释放单元信息释放量),再根据用户需求进行下一步的释放。释放出多少空间,就释放出多少信息量,因此,这种方式可以选择性地对数据信息进行加密。

采用区块链系统进行加密的方法包括以下步骤:

(1)选择待加密的信息:信息接收模块从区块链节点接收数据信息,采用信息释放单元对需要保密的内容释放,信息接收模块接收信息释放单元释放的信息,读取单元读取信息释放单元释放的信息,对释放的信息先用单向加密算法计算出数据的特征码,得到加密信息串;

(2)签名:共享数据的数据管理中心、其他客户端或移动式设备用自己的私钥加密这个特征码,并将结果附加在数据后面,对加密信息串进行签名,通过区块链网络接收加密信息串,并进行签名,如果签名成功,则获得加密信息串;

(3)互相通讯的各个节点获得加密信息;签名成功后,数据管理中心、其他客户端或移动式设备区块链网络节点生成一个临时对称密钥,并使用对称密钥加密整个数据;

(4)各个区块链节点获得加密信息;数据管理中心、其他客户端或移动式设备从区块链网络获取数据的公钥,并使用公钥加密这个临时的对称密钥,将结果附加在整个数据后发送到各个区块链节点;

采用区块链系统进行解密的方法包括以下步骤:

(1)有需求的通讯主体获得解决信息;数据管理中心、其他客户端或移动式设备中任意一者先用自己是私钥解密加密的对称密钥;

(2)有需求的通讯主体对所需数据解密;数据管理中心、其他客户端或移动式设备用户获得用对称密钥解密整个加密的数据;

(3)身份验证;数据管理中心、其他客户端或移动式设备用数据管理中心、其他客户端或移动式设备的区块链节点上公钥解密数据的特征码,验证了数据管理中心、其他客户端或移动式设备用户的身份;

(4)解密;数据管理中心、其他客户端或移动式设备用户再用同样的对称加密算法计算数据的特征码,并与解密出来的特征码进行比较,验证了数据管理中心、其他客户端或移动式设备区块链节点发送的数据的完整性,从而使用这种手段保证了保密性和完整性还同时完成了身份验证。

3   方案实验及分析

假设表1为给定的数据集为D,根据最大信息增益选择最优特征生成极小熵决策树,计算各特征A1、A2、A3、A4、A5对数据D的信息增益,如表1所示。表1中的D1和D2,D3分别表示在各个特征中取值为1、2和3的样本子集,根据上文涉及的公式计算统计在表1中的数据可得:

根据上面的计算结果,特征A5的信息增益最大,所以选择A5为根节点。根据A5的取值将样本分成3个结合,S1={2,3,6,8,12,13},S2={1,5,7, 14},S3={4,9,10,11,15},其中集合S2已全部属于同一个类,不需要再分,已成为叶子节点。采用类似的方法可确定其它根节点和叶子节点。

利用上述数据集构建决策树如图6所示。

在决策树建立之后,再建立测试集来评估决策树的分类成功率。如图7所示,建立测试集的方法为:从比如调度管理数据库、配电管理数据库、用电采集数据库、营销管理数据库、客服服务数据等(分别用A-J来表示)不同数据库中分别随机抽取1000个数据记录,然后计算按照上述方法评估其正确性,根据记录不同类别的数据,其正确率分布如下:

由分布图可知,决策树分类准确率平均在90%,正确率较高。

经过决策树分类后的数据通过Internet网络发布在区块链网络各个节点中,处于区块链网络各个节点中的其他设备(比如数据管理中心、移动式设备或者其他客户端)便可从区块链网络中通过签发密钥获取上述信息,从而实现数据的共享,由于区块链本身固有的技术特征(比如数据存储、不可篡改、点对点传输、永久性保存、共识机制、加密算法等),在此处不做详细说明。

4   结   论

通过建立大数据驱动体系构架实现智能电网大数据的驱动。通过数据挖掘算法建立分类模型,使得多个不同类型的智能电网数据库根据用户需求输出不同的目标数据,缩短用户利用数据的时间,提高了数据处理效率。分类后的数据通过区块链系统永久性保存,并使区块链网络支点内的用户通过生成的密钥实现数据共享,有效地提高了数据的隐秘性和安全性。本设计的方案新颖,将区塊链技术引入智能电网大数据应用和处理,为智能电网大数据的应用提供了一定的技术参考,为下一步智能电网大数据的处理提供了重要的技术支撑。

参考文献

[1]    李佳,徐胜超. 基于云计算的智能电网大数据处理平台[J]. 计算机工程与设计,2018,39(10):81-87.

[2]    郝然,艾芊,肖斐. 基于多元大数据平台的用电行为分析构架研究[J]. 电力自动化设备,2017,37(8):26-33.

[3]    王远,陶烨,蒋英明,等.  智能电网时序大数据实时处理系统[J]. 计算机应用,2015,(z2):93-97.

[4]    刘广一,朱文东,陈金祥,等.  智能电网大数据的特点、应用场景与分析平台[J]. 南方电网技术,2016,10(5):102-110.

[5]    贺红燕. 基于大数据的智能电网关键技术研究[J]. 电源技术,2016,40(8):1713-1714.

[6]    冉亮,李炜,孙向聚. 基于大数据技术的智能电网系统应用研究[J]. 自动化与仪器仪表,2017,(9):182-183.

[7]    孟祥萍,周来,王晖,等.  云计算技术在未来智能电网信息处理平台中的应用[J]. 计算机测量与控制,2015,23(10):265-268.

[8]    葛磊蛟,王守相,瞿海妮. 智能配用电大数据存储架构设计[J]. 电力自动化设备,2016,36(6):194-202.

[9]    琚春华,邹江波,傅小康. 融入区块链技术的大数据征信平台的设计与应用研究[J]. 计算机科学,2018,45(z2):522-526.

[10]  宋俊典,戴炳荣,蒋丽雯,等.  基于区块链的数据治理协同方法[J]. 计算机应用,2018,38(9):2500-2506.

猜你喜欢
区块链智能电网数据挖掘
数据挖掘综述
软件工程领域中的异常数据挖掘算法
区块链技术的应用价值分析
“区块链”的苟且、诗和远方
基于区块链技术的数字货币与传统货币辨析
智能电网中光纤通信系统的可靠性分析
智能电网现状与发展分析
基于R的医学大数据挖掘系统研究
用“区块链”助推中企走出去
一本面向中高级读者的数据挖掘好书