黄纯德 陈晓亮 朱珊珊 王晶华 郭光
摘要:随着智能电网的不断优化扩展及数据集的沉淀,海量大数据因为数据量太大、维数太高而陷入了“维数灾难”中,在工程实践中难以对其进行有效的研究。提出了运用拉普拉斯特征映射(Laplacian Eigenmaps)对电网大数据进行自适应学习并降维,运用降维后的数据在Hadoop平台上进行实验分析,证明其能有效地应用于智能电网大数据的降维运算。
关键词:智能电网大数据;机器学习;拉普拉斯特征映射;数据降维
中图分类号:TP30文献标志码:A文章编号:1008-1739(2018)18-69-3
Big Data Dimensionality Reduction Method for Grid Based on Machine Learning
HUANG Chunde1, CHEN Xiaoliang2, ZHU Shanshan2, WANG JingHua2, GUO Guang3(1. Shanxi Electric Power Research Institute, Electric Power Company of State Grid, TaiYuan Shanxi 030001, China; 2. Shanxi Electric Power Company of State Grid, TaiYuan Shanxi 030001, China; 3. Beijing Zhongke Chuangyi Technology Co., Ltd., BeiJing 100198, China)
0引言
智能电网在电力网络运行、用电信息收集、仪器仪表状态检测及计费营销记录系统等多个方面会产生大量的数据,有效地从这些数据中挖掘有价值的信息具有重要的意义。虽然这些海量大数据中包含了智能电网运行的重要信息,但是却因为数据量太大、维数太大而陷入了“维数灾难”中,在工程实践中难以对其进行有效的研究。周国亮等人[1-2]针对输变电设备状态监测大数据价值密度低的特点,利用分形理论对监测数据做降维处理,对提高设备的状态评估及故障诊断水平具有一定的辅助作用。赵庆周等人[3]根据网络关联矩阵以及区域差分规则,对各节点测控一体化终端采集的电流、功率数据进行预处理,生成高维时空状态监测矩阵来分析智能电网的运行状态。这些方法对智能电网大数据预处理有一定的效果,但是其前期需要做大量的准备和筛选工作,不利于工程实践的应用。因此,本文提出一种基于机器学习的智能电网大数据预处理方法,能有效地实现对智能电网的海量大数据进行降维处理。
1智能电网大数据
大数据处理是指运用各类数学分析理论和方法,对各类软硬件系统中的数据集合进行感知、获取、管理、处理和分析的过程。从电力企业的角度对从智能电网中采集到的海量大数据按照数据来源进行划分,可以分成企业内部数据和企业外部数据2类:①内部数据:大多来自于电网的技术及应用系统,主要包含电力生产及管理系统、电网数据获取及监控系统、配电输电控制系统及客户信息和服务系统等;②企业外部数据则比较分散,数据的形式及管理单位也不统一,其主要来自于地理信息系统、气象信息系统以及互联网等。智能电网大数据具有数据形式多样、数据来源广泛等特性,并且半结构化、非结构化的数据数量也在一直增加。
智能电网的大数据主要有以下4个特点[4],如图1所示。①来源多重性:数据源是多种多样的,且大小不一的系统并存;②空间分布性:数据源在空间中的分布各不相同,从家庭智能电表,到各级变压器及变电站等,无处不在;③时间多尺度性:数据时间跨度大,差别很大;④实时交互性:SCADA数据、智能电表数据及PMU数据等可以实时反应电网的运行状态。
2拉普拉斯特征映射数据降维
从智能电网中采集到的高维样本数据(维)实际上是在一个低维流形中(维,≤)并且该流形结构保留了原始数据的几何特征,而为样本数据的本征维数。作为有效的机器学习大数据降维方法,拉普拉斯特征映射是一种从局部的角度去构建数据间关系的非线性降维方法[5],其思想是计算和寻找出相互间有关系的点在降维后的低维空间中尽可能地靠近,并能保留高维数据中的有用信息,反映出数据内在的流形结构。
3实验分析
Laplacian Eigenmaps电网大数据降维算法将采用Java语言进行编码,在Hadoop平台中进行实验验证。Hadoop[6]是一个分布式系统基础架构,其采用Master/Slave模式,其中一个Master节点统一管理一个或多个Slaves节点,实验中采用Hadoop2.2.0版系统。
將采用2类数据对Laplacian Eigenmaps算法的性能进行分析,这2类数据来自西南某地区智能电网,其中,变压器故障检测数据Data1包括7个条件属性和1个决策属性,而智能变电站通信网络实时性和可靠性预测数据Data2包括9个条件属性和1个决策属性,其数据集容量均为15 GB。对这2类数据集的条件属性进行降维约简,来比较不同属性情况下Laplacian Eigenmaps算法的降维效率,然后针对加速比把该算法与常用并行降维算法进行性能比较分析。如表1所示,从时间复杂度、空间复杂度及算法准确性3个方面分析了Laplacian Eigenmaps算法与常用并行降维算法的性能优劣。为了进一步证明本文方法的有效性,又从约简效率和加速比这2个方面比较了本文方法与主流降维方法的性能,其结果如表2所示。
如图3所示,Data1为15 GB的变压器故障检测数据,Data2为15 GB的变电站通信网络实时性和可靠性预测数据,该图表示这2类数据运用Laplacian Eigenmaps算法的降维效率。从图中可以发现,数据Data2降维所用的时间略多于Data1,这是由于Data2包含了9个条件属性和1个决策属性,多于Data1的7个条件属性和1个决策属性。
算法的降维约简效率会随着其并行化程度的升高而增加,为了验证Laplacian Eigenmaps算法的约简效率,利用15 GB的变压器故障检测数据,对搭建的Hadoop平台分别选取节点数为5,10和15进行等规模数据集的时效对比实验,其实验结果如图4所示,可以看出,在数据规模不变的情况下,当节点数不断地增加,Laplacian Eigenmaps算法的约简效率也会相应地提升。
4结束语
提出了一种基于机器学习的智能电网大数据预处理方法,用Laplacian Eigenmaps来对电网大数据进行自适应学习并降维,然后运用降维后的数据来进行分析,在Hadoop平台上进行了实验分析,结果证明Laplacian Eigenmaps算法能有效地应用于智能电网大数据的降维运算,提高了数据挖掘水平,具有非常广阔的应用前景。
参考文献
[1]周国亮,宋亚奇,王桂兰,等.状态监测大数据存储及聚类划分研究[J].电工技术学报,2013,28(S2):337-344.
[2]李泽文,邓拓夫,曾祥君,等.智能电网能量流的时空多尺度大数据探讨[J].电力科学与技术学报,2015,30(1):22-27.
[3]赵慶周,李勇,田世明,等.基于智能配电网大数据分析的状态监测与故障处理方法[J].电网技术,2016,40(3):774-780.
[4]刘广一,朱文东,陈金祥,等.智能电网大数据的特点、应用场景与分析平台[J].南方电网技术,2016,10(5):102-110.
[5] Belkin M,Niyogi P.Laplacian Eigenmaps and Spectral Techniques for Embedding and Clustering[J]. Advances In Neural Information Processing Systems,2002,14(9):585-591.
[6]崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18.