左黎斌,何 傲,王 昕,何東莹,赵 楠
(1. 云南电网有限责任公司电力科学研究院,云南 昆明 650217;2. 南方电网电能计量重点实验室,云南 昆明 650217;3. 昆明理工大学信息工程与自动化学院,云南 昆明 650000)
电力企业的电量结算主要是通过电能计量装置来完成的。电能计量管理是电力企业生产经营管理及电网安全运行的重要环节,其技术和管理水平不仅事关电力企业的发展和企业形象,而且影响贸易结算的准确、公正,涉及广大电力客户的利益[1]。所以,有必要最大限度降低电能计量装置综合误差,保障电能计量的准确和可靠,做到公正合理计费。要保障电能计量的准确和可靠首先要保障电能计量标准装置的准确性和可靠性。电能计量标准装置主要分布在供电企业的各省各地州计量中心,目前,各个地州的计量装置检定业务人员,在实验室通过一台直接和电能计量标准装置相连接的计算机来对其进行操作和监控,由于电能计量标准装置无法实现远程监测,如果检定过程中发现异常和问题,检定员只能通知管理人员赶赴实验室才能进行维护和修复,这样就导致发现问题不及时,解决问题周期长,效率低下,成本较高,难以适应电能计量标准装置检定日趋增长的需求。例如,某供电局计量中心一台三相电能表标准装置,共有16个检定表位,从表面上判断分析,3表位、4表位、11表位压接损坏不能正常检定三相电能表,其余表位正常工作,检定数据也符合电能表检定规程的要求,其中有个特殊情况是 16表位的检定数据比其它正常工作的表位好,在维护人员进行标准装置维护时,用了三个工作日才检查出 16表位压接接头损坏比较严重导致数据也不正常。因检定工作量比较大,检定人员在检定过程中,大部分时间里只能关注到检定数据是否超差及电能表压接是否正常,对于此类问题要经过很长的周期才能发现,使电能计量的准确性造成长期影响。基于此,本文首先基于区域网络搭建电能计量准确性分析平台,然后运用FCM聚类算法对电能计量标准装置的实时在线监测数据进行分析,有效反映电能表标准装置的实时运行状态和故障差错,及时进行维护,保障计量检定数据的准确性和可靠性,提升电能计量服务水平。
本文采用 Hadoop分布式技术构建包含覆盖:省内各个供电局的海量数据存储和高性能并行计算集群来应对大规模数据并行处理,并采用Nigira负载均衡技术,选用Redis作为缓存组件,提升吞吐量和系统可用性,满足高并发请求的需求。由于需要处理实时采集的海量电网计量数据,系统采用基于Hadoop的分布式架构,应用HDFS分布式文件系统[2-6],从计量标准装置监测终端、实验室检定控制系统、计量自动化系统、营销系统、现场检定业务系统、半结构化或非结构化数据,然后存储于非关系型数据库HbaSe[5],部分数据通过 Hive数据仓库[6]实现离线清洗和分析[7]。电能计量准确性分析平台的总体构架如图1所示。
为同时满足数据采集的高并发、高可靠和系统可扩展性的实现要求,系统拟MVC模式进行建设。其中数据采集部分采用 Nginx+Tomcat集群实现高并发高可靠的 Web服务器,后端采用队列+进程池实现各协议和并发链接的多通道处理;系统采用基于J2EE的B/S架构进行建设。平台核心技术框架采用JAVA作为开发语言,基于主流开源J2EE框架,包括Struts, Spring, Hibernate, Jquery, JBOSS SOA,JBPM, Druid等框架等。能够支持多种异构数据库,兼容主流WEB容器。技术结构分为基础环境、DAO层、逻辑层、展现层四层结构,如图2下所示。
框架展现层通过集成ExtJS和Echarts,封装常用展现标签,并结合平台权限管理机制,研发基础通用展现界面,实现对JS、HTML、CSS、JSP等技术的规范化管理,建立平台的展现组件和框架。控制层设计采用服务总线模式来管理和简化平台核心功能、基础组件、及开发应用之间的集成拓扑结构,以开放的接口服务标准为基础来支持各核心应用之间在消息、事件和服务的级别上动态的互连互通。平台采用统一的持久化管理,主要包括两个方面的内容:第一,数据库配置管理。采用Hibernate的缓存机制,实现数据库实体表与JAVA对象的O/R映射和管理,并实现对数据库对象的展现和监控,实现对数据库表、视图、索引、触发器、约束、OR映射关系等对象的图形化展现。第二,连接池管理。连接池的管理需要具备较高的资源重用度,并能够提供更快的响应速度和效率,对数据库连接会话的分配管理高效,不出现连接资源的泄露和独占等异常问题。平台采用Druid作为数据库连接池管理的基础,提供一个高效、功能强大、可扩展性好的数据库连接池,并能实现对数据库访问性能的实时监控。
图1 电能计量准确性分析平台的总体构架Fig.1 Overall framework of accuracy analysis platform for electric energy metering
图2 技术平台架构Fig.2 Technology platform architecture
构建基于OLAP技术的电能计量云数据中心,通过可编程接口和 ETL(抽取 extract、转换transform、加载 load)工具抽取电力能量系统、交易系统、计量系统和营销系统数据,构建云数据中心,实现不同系统在数据级的共享和融合。实现电能计量装置的开机、试验过程、工作效率、标准表的工作状态进行在线监测等,对电能计量装置的检定信息进行全面掌握和追溯,建立电能计量网络实验室,为区域内的电能计量提供准确性的评价与管理,促进区域内计量管控水平。建立云南省电能计量网络地图,包括:购电、售电、供电、线损考核和企业自备电厂计量点等,结合营配集成的“站-线-变-户”电网拓扑关系,构成网络拓扑结构图,按分压(电压等级)、分类(购、售、供)和分级(省、市、县)等多维度描述电力企业的各类计量点及计量网络关系,建立起全省电能计量点的战略网络图,动态掌握、管控全省关口电能计量点布局、设备配备、运行工况、定位、档案管理等信息。
在电力内部网络上建立计量中心专用网络,安装进行加密通讯。VPN网关通过对数据包的加密和数据包目标地址的转换实现远程访问。通过服务器、硬件、软件等多种方式实现 VPN代理服务器。在VPN网关对数据包进行处理时,有两个参数对于VPN通讯十分重要:原始数据包的目标地址(VPN目标地址)和远程VPN网关地址。根据VPN目标地址,VPN网关能够判断对哪些数据包进行 VPN处理,对于不需要处理的数据包通常情况下可直接转发到上级路由;远程VPN网关地址则指定了处理后的VPN数据包发送的目标地址,即VPN隧道的另一端VPN网关地址。由于网络通讯是双向的,在进行VPN通讯时,隧道两端的VPN网关都必须知道VPN目标地址和与此对应的远端VPN网关地址。通过虚拟专用网络使得计量中心网络更加人性化、软件化和智能化,为满足电能计量数据通信对网络动态重组的需求,提供安全、可控和灵活的资源调度能力。解决网络安全与监控、MAC地址追踪、虚拟机管理程序安全弱点问题。系统硬件架构如图 3所示:
图3 系统硬件架构图Fig.3 System hardware architecture diagram
聚类的过程,可以看成是一个归类的过程。将一个数据对象集合划分成多个类的过程,在划分的时候,能够使每个类内部对象具有很高的相似性,与类外对象具有不同的性质,类与类的距离达到最大化[8]。
与分类不同,聚类是一种典型的无监督学习,在聚类之前,我们不告诉算法聚类的依据,算法根据规则自己学习,然后找到合理的聚类。聚类算法可以分为两种,一种是硬聚类,另外一种是软聚类。硬聚类是按照一定的原则,将集合中的对象严格的划分到某一类别中,这种聚类生硬且界限明确,一个样本只能够完全属于某个类或者完全不属于某个类。软聚类也可称为模糊聚类,该算法将模糊集理论中的相关内容与聚类算法结合,在聚类时对数据集进行隶属度计算,数据集中的某个对象在类别划分的时候有一个该类隶属度值,允许一个对象属于一个或者多个类,最后根据该值确定是否属于这个类别[9]。软聚类相比较硬聚类来说对数据集的聚类过程更加合理和完善。
FCM 算法就是其中的一个经典软聚类算法。FCM算法先对数据点构建隶属度矩阵,是一种以隶属度来确定每个数据点属于某个类别程度的算法。隶属度是指一个对象属于某个类别的程度。这种软聚类算法是传统硬聚类算法的一个子集。
有数据集 X ={x1, x2,...,xn},将其聚集成c类,U表示其模糊矩阵, Uij表示第i个样本属于第 j类的隶属度。FCM算法目的就是求出聚类目标函数最小化的划分矩阵U和聚类中心V,数学表达如式 1所示[10]:
其中,n为数据集样本个数,m为加权指数,ijd表示样本点与聚类中心的欧氏距离。
FCM算法描述如下:
Step1:确定数据集所要聚类个数,初始化聚类中心和相关模糊指标;
Step2:更新隶属度矩阵;
Step3:更新聚类中心矩阵;
Step4:计算目标函数,若两次目标函数差值小于最小误差跳转step5,否则跳转Step2;
Step5:依据隶属度矩阵将样本点分类。
合理的聚类数对聚类算法十分重要[11-12],如果一个聚类算法划分的粒度过大,则模型容易过于粗糙,不能将数据所有含义表达出来,此时模型陷入知识匮乏,如果将聚类数据划分粒度过小,此时聚类模型对数据敏感度很高,很多数据没有表达的意思也可能会被模型学习到。
常用的聚类数目选择方法有以下几种:
(1)经验法
(2)肘方法
当聚类数增加时,模型可以对数据有更细粒度的划分,此时每个类别内的数据点都是极为相似的,类内数据点的方差和也很低。但是如果类别划分过多,存在数据点方差和边缘效应下降的可能。
定义为:给定聚类数(0)k k>,计算类内数据方差和。绘制关于方差和曲线,曲线的第一个或者最显著的拐点为合理类别数。
(1)聚类有效性函数 F P( U, c)
该函数数学表达如式2所示[11]:
其中,U为隶属度矩阵,c为分类数目
F( U, c)称为划分系数,计算方式如式3所示:
P( U, c)称为可能性划分系数,计算式如式4所示:
存在(*,*)Uc,满足式5:
称(*,*)Uc为最优有效性聚类。
(2)聚类有效性函数
该函数数学表达如式6:
其中,n为样本个数; xi为样本, i=1 ,2,...,n;c为聚类个数; Vj为第 j个聚类中心, j=1 ,2,...,c;U为隶属度矩阵可能性划分系数;为样本距0V距离为样本中心。
当 P ′( U: c)取得最大值时,为最佳分类结果。
电能表标准装置运行状态在线监测模型构建步骤如图4:
监测模型流程说明如下:
步骤1:选取云南电网14家供电局计量中心80台单相电能表标准装置、62三相电能表标准装置通过电能表标准装置监测仪实时在线监测142个台体的检定数据。在电能计量准确性分析平台的数据库中导出电能表标准装置检定数据,并整理。实验数据为2018年1月-2018年3月共计三个月的142台电能表标准装置的实时在线检定数据。
步骤 2:电能表检定数据清洗与预处理。选用142个电能表标准装置台体的实时在线检定数据后,将这 142个电能表标准装置台体监测数据进行清洗,主要涉及重复数据删除、缺失数据填充、异常数据修复、无效数据剔除等,并将监测到的检定数据进行标准化处理,为监测模型速度优化奠定基础。
步骤3:利用FCM聚类算法找出电能表标准装置监测数据的合理分类数及类中心线。
步骤 4:完成步骤 3以后,我们根据电能表标准装置的检定数据将电能表标准装置监测仪监测数据具体的分类进行标记,以监测数据分类中心线作为该类别每个电能表标准装置的运行状态曲线。通过计算每个电能表标准装置的运行状态曲线和电能表标准装置检定规程中规定的误差限距离,通过距离判断电能表标准装置是否偏移正常运行时的误差限值,将是否偏移否偏移正常运行时的误差限值作为判断电能表标准装置是否存在检定异常的标准。本文实验判断电能表标准装置的运行状态曲线和电能表标准装置检定规程中规定的误差限距离使用欧式距离,公式为式7:
步骤 5:判断距离是否合理,如果距离超过阈值,则将该电能表标准装置纳入电能表标准装置运行异常库。阈值的选择根据实际电能表电能过程中中遇到的问题及规程规定的误差限来设定。
在得到电能表标准装置的监测数据后,先了解每个检定点的具体含义。选取单相电能表标准装置的20个检定点作为参数值,三相电能表标准装置的28个检定点作为参数值,取单相及三相电能表标准装置三个月的监测数据,将三个月的监测数据通过检定点相加取平均值作为最后该点的总体检定点。然后通过归一化公式将单相电能表标准装置的监测数据变换到[0,1]之间的取值,将三相电能表标准装置的监测数据变换到[0,1]之间的取值,统一量纲。表3-1、表3-2分别为单相台体和三相台体归一化后的数据表。
表1 单相台体归一化后输入数据表Tab.1 The single phase body is normalized and the data table is entered
表2 三相台体归一化后输入数据表Tab.2 The three-phase body is normalized and the data table is entered
根据电能计量准确性分析平台导出的电能表标准装置监测数据,选取142个电能表标准装置监测数据作为待分类样本,采用FCM聚类算法对电能表标准装置监测数据进行研究,根据前面聚类质量评估中确定的聚类有效性指标(;)P U c′,通过式(6)计算聚类结果得到从3类到7类过程中(;)P U c′的变化,当c=5时,(;)P U c′取得最大值,因此该样本的最佳分类数为5类。
分别选取不同地州供电局计量中心的5个单相电能表标准装置、5个三相电能表标准装置三个月的监测数据,根据上述方法得出单相、三相电能表标准装置运行状态聚类曲线如图5、图6所示:
图5 单相电能表标准装置运行状态聚类曲线Fig.5 Cluster curve of single phase electric energy meter standard device running state
图6 三相电能表标准装置运行状态聚类曲线Fig.6 Clustering curve of three phase electric energy meter standard device running state
电能表标准装置运行状态聚类曲线对分析电能电表标准装置每天或某段时间内电能表标准装置的运行状态具有实际的指导意义。如图5中单相电能表标准装置的单相台体5连续脱离其正常值的范围的距离,可以判断出这个台体可能存在运行故障,我们就可以立即联系供电局运维人员或生产厂家到实验室进行故障检查或故障处理,这样就可以提升电能表日常检定的效率,同时也提高了电能计量检定的质量。如图6三相电能表标准装置的三相台体4运行状态聚类距离长期出现忽远忽近的情况,经我们现场验证,发现此三相台体电流回路和电压回路存在搭接的情况,经厂家运维人员处理,三相台体运行正常。通过聚类分析,将云南电网14家供电局计量中心142个电能表标准装置台体根据其运行规律分成5类进行管理,提高了电能表标准装置故障处理能力,也提升了电能计量检定的质量。
针对电能计量标准装置检定日趋增长的需求,为进一步优化整合计量资源,提高检定效率,提高计量质量,提升计量服务水平,电能计量标准装置在线监测,对电能计量标准装置的准确性和运行状态实时掌控,提供实时、准确、有效的管控需求。本文提出一种基于 FCM 聚类算法的电能表标准装置监测数据分析方法,经试验对比,该方法可以及时发现存在运行异常的电能计量标准装置,有效缩短电能计量标准装置的运行维护和检修周期,提升电能计量的准确性。