王杨琛, 林佳能, 苏志勇
(国网信通亿力科技有限责任公司,福建,福州 350000)
随着泛在电力物联网和坚强电网的提出与发展,促进了电力大数据技术的发展,电力大数据具有数据量大,价值密度低的特点,需要挖掘其潜在价值,为系统的状态评估和故障诊断等业务提供高效可靠的服务[1-2]。电力大数据的质量影响着电力系统的智能化水平,所以对其建立评估模型,从而提高数据的集成和挖掘水平,意义重大[3]。
目前,针对电力数据质量评估的研究并不多见,文献[4]建立了电力大数据质量评估指标体系,采用MapReduce并行化K-means算法对数据进行预处理,然后采用熵权法求取属性权重,采用灰色算法判断数据质量等级。文献[5]为了提升电网调度系统数据质量,采用公共信息模型对不同系统的数据进行校验,并采用改进的多源数据提取优质数据,提高了数据的使用价值和数据质量,保证了调度系统安全可靠运行。文献[6]提出了一种基于Spark的并行K-means算法对电力系统的不良数据进行辨识,以提高状态估计的准确率。文献[7]通过对电网的异常数据进行识别,提高了调度数据中心的数据质量[7]。文献[8]提出了不确定感知数据的自动检测和修复方法,修正不良数据,提高电缆采集的数据质量和系统安全性。文献[9]提出了一种分布式数据质量管理方法,基于Hadoop框架,剔除缺陷数据,并储存在服务器上,提高数据利用价值。文献[10]建立了数据质量管理中心,从技术和管理两个方面入手,形成数据质量管理体系,保障了数据的准确性科学性。文献[11]为了提高电力企业的数据质量,建立了数据质量评价指标体系,采用熵权法和层次分析法建立数据质量评价模型,能够对电力数据进行准确可靠的评价。
虽然已经存在部分针对电力数据质量评估的研究,但是在泛在物联网背景下,如何针对大数据环境下的电力数据质量提升的研究还未发现。本文为了改善大数据环境下的电力数据质量,提出了采用灰色熵权法的大数据质量评估研究。
数据质量评估包括数据质量需求,评估业务规则,评估方法,对数据进行等级划分后,即可进行进一步的措施以提高数据质量。基于Hadoop平台下的数据质量评价架构如图1所示。
图1 大数据环境下数据质量评估架构
经典的K-means算法:样本表示为X={x1,x2,…,xn},当样本被分成k(k≤n)类的时候,记作si(i=1,2,…,k)[12]。在n个样本中去k个聚类中心z1,z2,…,zk。如式(1),
(1)
其中,Ni是si包含样本数量。
剩余的样本则根据样本与聚类中心的距离判断归属于哪一类,如式(2),
(2)
根据距离最小原则,将剩余的样本进行聚类划分,迭代循环该过程直到测量函数收敛。测量函数[13]表示为式(3),
(3)
其中,J是所有样本的均方差之和。
K-means算法在解决数据挖掘问题上具有收敛速度快,聚类精度高的优点,但是在处理电力大数据问题时,由于数据质量分布不均匀,会增加挖掘难度,而且海量数据的计算量会给计算带来巨大挑战,所以本文提出了基于MapReduce并行化K-means的求解方法[14]。
设样本集为D={d1,d2,…,dn},di表示第i个样本。当被分类为k的时候,聚类中心si(i=1,2,…,k)表示为式(4),
(4)
求取剩余样本的分类归属按照距离最小原则确定归属类别。循环迭代计算,直到量测函数收敛。如式(5),
(5)
MapReduce并行化K-means算法的过程可以表示为:① Map过程中求取样本与聚类中心的距离,按照距离最小的原则对其分类。② Reduce过程中求取各类样本的平均值作为新的聚类中心。③ 循环迭代,直到量测函数收敛。该过程提高了K-means算法的大数据处理能力。
针对电力大数据的特征,建立了评价指标体系,如表1所示。
表1 电力系统数据质量评价指标体系
通常认为,某个指标的信息熵越小,则该信息熵在综合评价中的作用越大,所占的权重也应越大[15]。设n类,m个指标形成n×m阶评价矩阵G=(gij)n×m,(i=1,2,…,n,j=1,2,…,m)。其中,gij指的是第i类第j个指标的评价结果。指标数据标准化处理后有H=(hij)n×m。第j个指标的熵按式(6)计算,
(6)
定义第j个指标的熵权如式(7),
(7)
根据模糊数据的方法,将数据质量分成优、良、合格、偏差、劣5个等级。数据质量评语集V={优,良,合格,偏差,劣}。p个评审人员对指标打分,打分范围为[0,10]。则灰色判断矩阵表示如式(8),
(8)
其中,xij是第j个评审人员对指标Bi的评分。
灰色评价的核心是评价等级和白化权函数。当采用5级评价类别的时候,灰类k的白化权函数fk(k∈{1,2,3,4,5})表示如式(9),
(9)
评价指标关于灰类k的评价系数如式(10),
(10)
则灰色权向量如式(11),
(11)
则向量矩阵Y记作式(12),
(12)
在采用MapReduce并行化K-means算法及灰色熵权法对电力系统数据质量进行评估的时候,评估流程如图2所示。
图2 评估方法流程图
如图2所示的评估流程如下。
(1)采用MapReduce并行化K-means算法进行数据预处理。将数据分成k类,从而实现大数据集分成若干个小数据集。小数据集里面的样本相似度较高。
(2)建立评价指标体系,构造评价矩阵。
(3)根据评审专家评分值,构造灰色判断矩阵X。
(4)采用熵权法确定指标权重W。
(5)求取灰色判断矩阵的权向量矩阵Y。
(6)根据W和Y,用式(13)求取综合评价向量Z。
Z=W·Y
(13)
(7)根据最大隶属度标准对数据质量进行等级划分,实现数据质量评价。
以天津电力公司采集的电力数据作为实验对比用数据。数据采集为15 min/次,每天24 h,共2年的电力信息。包括了用电负荷、用户信息、地理位置等。
Hadoop平台包括HDFS和MapReduce 2部分,6台PC机,1台用于NameNode,剩余的作为DataNode服务。
首先,采用MapReduce并行化K-means算法对居民用电数据进行聚类分析。3类所占百分比如图3所示。
图3 各类用户所占百分比
求取每类用户各个时刻的用电均值,如图4所示。图4中通过对各个时间段的用电量,可以判断3类用电人群分别为上班族、老年人和商业用户。
图4 用电负荷分析结果
表2 指标熵权值
选择10名专家对电力系统数据质量进行评价,评价结果如表3所示。
表3 电力系统数据质量评价结果
求取5个指标的灰类系数建立灰色权矩阵Y,如表4所示。
表4 指标灰色评价结果
综合主观评价和客观评价结果,求取综合评价值如式(14)—式(16)。
Z1=(0.285 2,0.333 8,0.274 3,0.079 9,0.026 8)
(14)
Z2=(0.304 5,0.338 7,0.266 6,0.069 1,0.021 2)
(15)
Z3=(0.293,0.339 3,0.273,0.071 8,0.022 8)
(16)
按照最大隶属度的方法,3类用户的最大隶属度为0.333 8,0.338 7,0.339 3。
通过以上分析可知,所采集的电力系统的数据处于良好水平。
在泛在电力物联网背景下,采集的数据信息越来越庞大,为了对电力系统采集的大数据进行质量评估,建立了MapReduce并行化K-means算法的分类方法,将电力大数据分解成小数据集分析,提出了电力大数据评价指标体系,采用熵权法确定指标权重,采用灰色评估方法得到最终评分。算例仿真,验证了所提方法可以准确评估电力系统数据的质量。