汪世平,邹志杨,陈洪涛,蔡 慧
(1.国电南瑞科技股份有限公司,江苏 南京 211106;2.中国计量大学机电工程学院,浙江 杭州 310018)
智能电能表作为供电量与耗电量的计量记录装置,其运行状况不但直接影响电网公司的发展和经营效益,还影响用户用电的公平性与安全性[1−3]。目前在发电、输电、配电、用电等重要的环节中,智能电能表得到了大面积的应用。智能电能表作为智能电网中的关键部分,在电网公司进行实时计量、控制负荷、响应电力需求等方面起到重要作用[4]。
电网公司大力推广大数据技术在智能电网的全面建设,各种新兴技术在电力行业领域得到广泛应用,其中变电站数据、配电数据、用电数据、营销数据等数据库的建立也日趋完善,为大数据技术研发提供了良好的研究环境。
国家电网有限公司在2018 年1 月颁发了《国家电网公司关于营销大数据应用工作的指导意见》,要推动电力营销服务领域的业务创新,大数据技术研究是其中的重要战略步骤[5]。目前国家电网有限公司完成了相应数据管理平台的建设和投运,逐步发挥大数据技术在用电数据管理分析方面的作用[6]。但是,目前的数据分析技术还不能充分地利用智能电能表数据达到理想的分析效果,仍需要不断地进行研究实践。因此采用大数据技术对电能表数据进行分析是未来智能电网技术的发展趋势,而目前日益完善的大数据平台及相应技术使其在发展上具有很大的潜力。目前电力公司的主要研究方向之一就是如何利用大数据技术对智能电能表的用电数据进行分析,从而更好地对智能电能表状态进行评估。
文献[7]针对现行计量装置状态评估指标的不确定性和各评估方法结果的不一致性,将电能计量装置状态评估的各类数据、评估指标体系及评估方法组件化,动态搭建电能计量装置状态评估系统,状态指标描述较为全面,但未涉及电能计量装置各组成部分状态指标的细节差异;文献[8]中所述的基于灰色关联度的智能电能表供应商多目标综合评价方法,在保留多目标综合评价模型优点的同时解决了传统智能电表供应商综合评价中指标烦琐,主观性强的问题。但该方法只是从整体的电能表批次进行分析,忽略了电能表个体的状态评价。
结合变异系数赋值法和K⁃means 聚类算法提出了新的智能电能表状态评价方法,通过地区影响指数、全事件、计量异常、电能表过载和时钟电池欠压6个指标进行分析,得到智能电能表的评价结果,并根据结果分析方法的合理性。
首先根据前期统计分析研究得到与智能电能表状态评价影响较大的6 项指标,即电能表可靠度、地区因素、全事件、计量异常、电能表过载和时钟电池欠压[9],然后通过两种方法对这些指标进行分析,一种是通过变异系数法加权处理,通过不同指标对于电能表运行状态的影响情况,赋予各个指标相应的权重,最后以评分的形式反映每个电能表的运行状态;另一种是将这些指标作为电能表的特征,将电能表视为空间中的点,这些指标即为点的坐标,采用聚类方法将这些点分类,从而得到不同的电能表评价状态。将这两种方法的评价结果相结合,最后得到最终的电能表运行状态评价结果。流程如图1所示。
图1 状态评价方法设计流程
1)电能表可靠度。
电能表可靠度计算公式为
式中:Mr为电能表可靠度指标;f(i)为当前批次电能表中第i个月故障表数量;N为当前批次电能表的总数量;t为当前月份。
2)地区因素。
地区因素指标计算公式为
式中:Mt为地区因素指标;Hx为第x个市安装的电能表数量;H为安装电能表总数量;Jx为第x个市的故障电能表数量;J为故障电能表总数量。
3)全事件。
全事件指标计算公式为
式中:Mq为全事件指标;A2为电能表检定结果为故障;Ci(i=1,2,…,11)为电能表停走发生、电能表飞走发生、电能表超差发生、电能表反接、电能表时间超差发生、电能表停电次数变化发生、电能表断相次数发生、磁场异常发生、电能表互感器倍率更改、开盖记录和对时这11 种事件;P(A2|Ci)表示在Ci条件下A2发生的概率。
4)计量异常。
计量异常指标计算公式为
式中:Ma为计量异常指标;Bj(j=1,2,…,6)为电能表示值不平、电能表飞走、电能表倒走、电能表停走、反向电量异常和时钟异常;yk(k=1,2,…,5)为电压越限、电压失压、电流过流、电压断相和潮流反向事件与异常关联度;P(A2|Bj)表示在Bj条件下A2发生的概率。
5)电能表过载。
电能表过载指标计算公式为
式中:Ml为电能表过载指标;WN为电能表正常额定工作下24 h 计量的电量;KW为6 个月内日用电量超过其电能表标准计量电量的天数比例;WO为6 个月内日用电量超过电能表标准计量电量部分的平均日用电量。
6)时钟电池欠压。
时钟电池欠压指标计算公式为
式中:Mc为时钟电池欠压指标;z为6 个月内发生的时钟欠压次数。
变异系数赋值法是直接利用各项指标所包含的信息,通过计算得到指标的权重,是一种客观赋权的方法。根据指标数据变化对于电能表评价结果的影响,进一步分析该指标对于结果评价的重要程度。体现在数值上就是当该指标数据的变异程度越大,对该指标的赋值也越大[10−11]。
本文选择的变异系数为标准差,其主要的计算步骤如下:
1)假设有m个待评估对象,一共有n个评估指标,指标的评估矩阵X可表示为
式中:xab为第b(b=1,2…,m)个评估对 象的第a(a=1,2,…,n)个评估指标的特征数据。
2)计算第a个指标的平均值为
3)计算第a个指标的标准差σa为
4)计算第a个指标的变异系数va为
5)将求得的变异系数进行归一化处理,计算第a个指标的客观权重βa为
K⁃means 算法的核心思路是先随机选取数据集中的数据作为初始聚类中心,并计算其他数据到这几个数据点的距离,将这几个数据划分到距离它们最近的聚类中心,在遍历完所有数据后,以各个类数据的平均值作为新的聚类中心,并再次重复上述操作,直到满足某个阈值或达到预先设定的迭代次数后停止[12−15]。
K⁃means 算法的具体步骤主要分为如下几个步骤:
1)根据已知的数据集,以k个数据作为初始的聚类中心C,其中这k个数据使任意选取的;
2)计算得到除聚类中心以外的数据样本与聚类中心的欧式距离;
3)以欧式距离作为判断依据,将数据样本划分到与其距离最近的聚类中心所属的簇中;
4)计算得到每一个簇中数据样本的均值,并以此作为各个簇新的聚类中心,计算这个数据集的误差平方和;
5)判断整个数据集的总误差平方和是否保持不变或在一个很小的范围波动,若是,则结束聚类,输出最后聚类的结果;否则,返回步骤2)进行按步骤顺序进行循环,直到满足要求或者达到设定的迭代次数。
在实际计算中,将全事件、计量异常、电能表过载和时钟电池欠压以式(3)—式(6)转化为1~100 的指标数据,实现数量级的统一,然后进行聚类算法计算。欧式距离公式为
式中:z为数据样本;Ep为第p个聚类中心;Q为数据样本的维度;zq、Epq为z和Ep的第q个特征。
选取浙江省内全部拆回检定的电能表在评价时间之前6 个月的运行数据,将这些数据经过相应的分析处理得到智能电能表评价的指标数据,其中包括智能电能表可靠度、地区因素、全事件、计量异常、电能表过载和时钟电池欠压。可靠度指标和地区因素是根据全省电能表从安装到评价时间为止的数据分析得到的,而全事件、计量异常、电能表过载和时钟电池欠压是以批次电能表在全年每个月的平均指标数据,采用变异系数赋值法得到每个指标的权重。并根据评价时间之前6 个月的数据得到每个智能电能表当前状态的指标数据,最终结合可靠度指标和地区因素计算得到每个智能电能表当前的运行状态。
规定智能电能表状态评价表示为
式中:R为每个电能表的评价结果;w1—w4为其相应权重,由变异系数赋值法得到。
实验案例分析的是2018 年6 月份评价的11 个批次电能表的数据,每个批次包括拆回的电能表和仍在运行的电能表。其中指标权重以批次电能表在2017 年全年每个月的平均指标数据计算得到的,由于智能电能表拆回需要一定的流程和时间,因此以评价结果后3 个月内拆回表的情况对评价结果的好坏进行评估。其评价结果如表1 和图2、图3 所示。
表1 电能表状态评价表
表1 展示了各个分数段的具体数量情况,其中故障数量是根据当前评价时间点之后三个月内拆回检测得到的故障表数量,正常数量是根据当前评价时间点之后三个月内拆回检测得到的正常表数量。图2 和图3 是分别对表1 中的电能表状态评价所有表数量分布和故障表数量分布可视化。
图2 电能表状态评价分布
图3 故障电能表数量分布
从表1和图2中可以看出,根据该方法得到的电能表评分在80 分以下的电能表数量占电能表总数量的22.09%,评分在80 分以上的电能表占电能表总数量的77.91%,同时在表1 和图3 中可以看出评分80分以下电能表的故障数量占故障电能表总数量的73.25%。这说明该方法符合实际情况和客观规律。
该评价方法是将智能电能表视为空间中的点,以电能表可靠度、地区因素、全事件、计量异常、电能表过载和时钟电池欠压这些电能表状态评价的指标视为该空间中点的坐标,将这些点的坐标作为K⁃means算法的输入,根据点和点之间的距离可以将距离相近的点聚集在同一区域,从而实现分类效果。
选用上文的智能电能表批次的数据进行分析,参考变异系数法的分析结果,基于数据特征和便于结果比对分析的原则下,本方法确定K⁃means 聚类算法的类别为5 类。聚类的结果如表2 和图4—图6所示。
表2 电能表状态评价表
图4 电能表K⁃means聚类结果三维分布
图4 为K⁃means 聚类结果分布图,x,y坐标是智能电能表的指标数值,z坐标是智能电能表在变异系数法得到的状态分值,5 种颜色分别代表不同的类别。表2 展示了各个分数段的具体数量情况,其中故障数量是根据当前评价时间点之后3 个月内拆回检测得到的故障表数量,正常数量是根据当前评价时间点之后3 个月内拆回检测得到的正常表数量。图5和图6 是分别对表2 中的电能表状态分类中所有表数量分布和故障表数量分布可视化。
图5 所有电能表K⁃means聚类分布
图6 故障表的K⁃means聚类分布
从表2 和图5 中可以看出,Ⅰ类电表的数据最多,因为分析的是包括拆回检定的和仍在运行的智能电能表,所以正常电能表占大多数。显然Ⅰ类应该是正常的电能表类别,Ⅱ~Ⅴ类作为非正常电能表类别,此处的分类是为了和变异系数法做对比。根据K⁃means 聚类算法得到的结果中有77.25%的电能表均被划分为正常电能表,其中非正常电能表的类别中包含了71.81%的实际故障电能表,使用K⁃means算法的电能表状态评价中分析得到的非正常电能表中包含了大部分实际故障电能表,符合实际情况,说明该评价结果具有一定的科学性和合理性。
由于单一的评价方法可能会导致实验结果出现偏差,在分析了算法特性和电能表的特征数据分布特点后,输出变异系数法和K⁃means 算法均认为正常表或故障表的结果,以此构建新的智能电能表状态评价方法。统计变异系数法和K⁃means 算法以及两者结合的方法对于同一批电能表状态评价的输出结果,得到各个算法对于正常电能表和非正常电能表(即故障电能表)的判断情况。
表3—表5 的数据对象为同一批电能表,即上文提及的2018 年6 月份评价的11 个批次的电能表,这其中实际正常表和故障表数量是以评价时间点后3个月实际拆回检定结果统计的。以表3 为例,分别从正常表和故障表的角度分析变异系数法预测结果,该批电能表的故障表数量为2 026个,检验得到其中实际故障表2 026 个,实际正常表0 个;预测正常表数量为977 个,检验得到其中实际故障表759 个,实际正常表218个。
表3 变异系数法判断统计表
表4 K⁃means算法判断统计表
表5 K⁃means+变异系数法判断统计表
从上文看出,K⁃means和变异系数法结合的方法在保持故障表预测高准确率的情况下,大幅提高了对于正常表的预测准确率,说明这两种算法结合后的性能比其中任意一种单一的算法的性能更好。
对智能电能表进行状态评价的最终目的是通过对智能电能表的运行状态进行评估,找出具有较高可能性发生故障的电能表进行排查,通过对于变异系数评价方法、基于K⁃means 算法的评价方法以及变异系数法和K⁃means 结合的电能表评价方法的结果进行定量比较,进一步说明综合电能表评价方法的合理性。
采用二分类模型中的精确率、召回率和F1⁃score衡量评价模型的好坏。1)精确率。
式中:Pr为精确率;TP为预测为故障的电能表中实际为故障的电能表数量;FN为预测为故障的电能表实际为正常电能表的数量。
2)召回率。
式中:Re为召回率;FE为预测为正常电能表实际为故障电能表的数量。
(3)F1⁃score。
式中:Fs为F1⁃score,为精确率和召回率的调和平均数,精确率反映了模型对负样本的区分程度,召回率反映了模型对正样本的识别力,F1⁃score是两者的综合,F1⁃score值越大,说明分类模型越稳健。对于变异系数评价法、基于K⁃means 算法的评价方法以及变异系数法和K⁃means 方法结合的评价方法的二分类模型参数进行比较,如表6所示。
表6 各算法的结果比较
由表6 可以看出,K⁃means 和变异系数法结合的评价方法在召回率和F1⁃score上都有所提高,这是由于这两种方法结合后缩小了评价的范围,但同时进一步提高了评价的准确率和召回率,由于供电公司比较看重评价为故障表的电能表实际是否为故障表的比例,因此该评价方法的结果更符合供电公司要求。
介绍变异系数算法和K⁃means 算法的原理,并基于这两种算法对电能表的状态进行评价,在比较变异系数法和K⁃means 算法的评价结果后,结合电能表评价参数的特性,融合了变异系数法和K⁃means算法构建了新的状态评价方法,通过数据分析证明其科学行和可行性,为智能电表的状态评价提供新的思路。该方法在实际实验中得到了供电公司的认可。