国网湖南省电力有限公司检修公司 王丽蓉 章建军 伍艺佳 易汝轩
随着电力系统规模扩大,量测技术提升,电力数据迅速增长,我国电力工业领域记录数据达到PB级。电力大数据成为大数据典型代表,需提取有价值数据快速分析。电力公司积累大量电力系统数据,涵盖生产管理等方面,由于数据分散性,从中挖掘价值难度大。电力大数据质量直接影响电力系统信息化水平,不断增长的数据规模要求电力企业进行技术变革,电力大数据质量问题已有一些研究,但高层次电力数据质量管理方面目前缺乏完整评估体系。
近年来基于元数据质量评价层出不穷,各类研究为了解数据质量带来启示。目前数据质量定义不统一,大数据时代确保向电力系统提供高质量数据是减少投入的有效途径[1]。通过数据质量评价有助于了解数据质量方面的能力,为后续采取相应处理方法提供科学依据。开展电力大数据质评研究,构建电力数据质评体系,为智能电网处理奠定基础。
图1 电力数据流走向
ISO/IEC 25012将数据质量特性从固有系统描述,依赖系统是系统在特定场景下赋予数据质量特性。数据质量评价指标包括准确性与完整性等,数据质量从内涵分为一般与统计数据质量。电力系统硬件设施由电源等环节构成[2],目前形成涵盖发输变配用调等环节负荷控制系统、检测控制系统、风光功率预测系统等在内的智能自动化系统。以电力调度中心为例阐述系统存在数据质量问题,电力调度数据中心包括电力运行数据、生产管理数据等,电网运行数据约占90%,电力运行产生总负荷电力输配电运行设备状态检测等数据。市场运营数据来自供电公司形成的电力市场网络,用户分为企业、工农业与家庭。供电公司是电力市场主体,遵循市场经济价值规律宏观调控。市场运营数据来自电力负荷客户端形成电力市场网络,根据数据质量要求归纳电力系统数据质量影响因素包括电力市场运行与生产管理等。
信息科技为大数据时代提供技术支撑,大数据提出分为三个阶段:自20世纪末到本世纪初为萌芽阶段,开始关注日益增大的数据量;本世纪前十年为大数据发展第二阶段,大数据形成计算与分布式系统核心技术;2010年后大数据大规模使用期,各种开源云架构平台向各行业开放,企业可使用特定商业化平台获得更多服务,平台商业化满足不同用户要求。
大数据具有典型数据量大、处理速度快等特征,大数据计算模式包括批处理计算、图计算等,针对性解决特定问题,基于开源代码衍生更易用的大数据产品。大数据平台有Hadoop、Storm、Spark等,Hadoop平台是由Apache软件基金会提出的开源大数据分布式平台,可部署在低廉价格计算机群中;分布式文件系统HDFS是Hadoop平台主要内容,Hadoop平台海量数据处理性能得到广泛认可,得到主流企业技术支持[3]。目前Hadoop平台已有两代产品,Hadoop项目结构不断发展,形成丰富的生态系统;Spark最初由加利福尼亚伯克利大学AMP实验室开发,基于聂村计算机大数据进行计算框架,2013年火花加入Apache孵化器项目迅速发展,Spark2014年打破Hadoop保持基准排序记录,用1/10的计算资源获得快3倍的速度,其具有运行速度快、通用性、运行模式多样等特点。
数据挖掘对象是大数据库中数据集,GB数量级数据库比较普遍,使得数据呈现大规模特性,模型搜索空间庞大,无异议模式搜索机率增大,数据挖掘人物是将有效用户感兴趣规则筛选,传统技术集中于统计学领域,未关注对大规模数据的效率,需对数据挖掘算法进行研究改进,保证算法执行效率。数据库技术不断发展,由于大量数据产生,待聚类数据巨大,在大容量硬盘中列出存储,聚类效率很低。具有高性能大数据聚类算法研究非常必要。
研究人员研发许多算法,具体措施包括利用统计学采样技术将硬盘大数据集以特定数据结构映射到内存中。基于划分聚类方法需确定聚类数,逐渐使目标函数误差值降低,划分聚类代表算法有K-medoids等。层次聚类算法通过计算不同类数据点相似度创建层次嵌套聚类树,代表算法有CRUE等。大规模原始数据集不能一次读入内存完成聚类,可以有效减少数据内存空间占用。BIRCH聚类算法中数据集存储在聚类特征树中,聚类方式不考虑原始数据集,BIRCH算法对数据集扫描可得到较好的聚类结果。基于密度聚类法不同于基于距离算法,基于密度聚类法对密度单元计算复杂度大、对数据维度伸缩性较差。
大数据较传统数据质评具有挑战性,在数据种类等方面发生变化。数据对质量评估处理要求具有实时性,大数据质评影响数据清洗,需通过内存分析清洗数据。数据质评包括数据质量需求,评估丰富,数据质评需求是对系统数据约束,如交互型系统对实时性要求高,系统对数据长度有要求,评估规则规定精确位数,明确数据质量需求后续确定数据质评方法,完善数据质量量化后对产生结果分析及采取必要措施提高数据质量等。大数据质评可采用Hadoop分布式文件系统,基于MapReduce分布式计算技术解决大数据处理扩展性问题。大数据质量评估框架思想是利用Hadoop文件系统作为存储架构实现PB级数据评估。
本文采用熵权法建立数据质量评价模型。以南网公司统计营销数据为例说明电力系统存在数据问题,如很多数据存在漏项等问题,数据问题集中于电价代码、计量资产等方面,包括系统运行时间长、信息变更不及时。本文结合电力系统存在数据质量问题建立电力数据系统数据质评指标体系,包括数据完整度、及时性等,将其分为目标层A、准则层B、指标层C。
为对数据集质量指标定量描述需采用指标评价算法,分类可使数据集形成参照,评价算法中出现参数以包含完整数据集为准,熵最早由Shannon引入信息论,某指标信息熵Ej小,指标信息熵Ej大在综合评价中起到作用小。信息熵用于描述信源不确定度,指标j信息熵Ej小,提供信息量多。设n个类别构成n×m阶评价矩阵G=(gij)nxm(i=1,2,3…,n;j=1,2,3…m),指标数据标准化处理后得到H=(hij)nxm,定义第j个指标熵权为wj=1-Ej/m-∑Ej,∑wj=1,wj∈[0,1]。按模糊数学理论,采用5级制对被评价事物准确描述,数据质量评语集V={优良,合格,偏差},得到评价对象灰色判断矩阵X=[x11 x12…xlp;x21 x22…x2p;xml xm2…xmp]。
灰色系统理论中发展灰色评价方法,核心环节是确定灰类等级数,给定灰类k白化权函数fk(k∈{1,2,3,4,5},定义评价指标关于灰类k灰色评价系数σi=∑fk(xij)、权向量矩阵Y=[y11,y12 …y1k;y21,y22…y2k;yi1,yi2…yik]。改进MadReduce计算模型可用于对大数据快速处理,白化权函数可得到待评价数据质量等级划分。以国网电力公司某城区采集数据为例仿真分析,采集区域2年内用电负荷对数据依据电力系统指标体系进行质评。利用MapReduce并行化K-means聚类算法实现大数据样本采集处理,提出灰色系统理论判断数据质量等级评估方法,兼顾指标体系完备性等要求,对大数据质评有助于构建电力数据质量管理体系,制定数据质量管理监控机制。
当前针对电力系统数据质量研究不充分,本文对基于混合petri网电力CPS协同建模深入研究,基于电力大数据特征分析对数据质量影响的指标,借鉴统计学质评模型建立电力数据质评模型,对评估模型进行算理分析。把电力系统数据作为研究对象,从电力大数据特点总结出电力系统数据质评指标,保证指标科学性,提出K-means分类评估方法对数据质评问题求解,以国网电力公司采集数据为例验证分类评估方法有效性,对数据质评研究具有参考意义。