一种相关性与聚类自适应融合技术窃电检测方法

2021-10-30 02:02赵云肖勇曾勇刚徐迪陆煜锌孔政敏
南方电网技术 2021年9期
关键词:台区用电聚类

赵云,肖勇,曾勇刚,徐迪,陆煜锌,孔政敏

(1.南方电网科学研究院,广州 510663; 2. 武汉大学电气自动化学院,武汉 430072)

0 引言

近年来窃电事件频发,及时准确地检测用户窃电行为对国家电网的安全与效益至关重要[1]。

目前现有反窃电检测方法主要分为基于用户历史数据的数据挖掘技术和基于高级测量体系(advanced measurement system, AMI)的远程实时检测技术两大类。近年来,许多学者在数据挖掘技术应用于窃电检测方面开展了大量研究。文献[2]通过数据驱动的方式,基于不同潮流对线损结果的差异影响,利用神经网络构建相关线损模型,实现了线损理论计算以及窃电位置判断。文献[3]优化了BP神经网络模型,提出10个指标综合判断用户行为,提高窃电因子判断准确率。文献[4]从利用大数据分析用户用电信息,总结了窃电方法及其特征,提出了以阈值判断为核心的窃电检测模型。文献[5]组合了支持向量机(SVM)和电压敏感度估计两种方法进行非技术线损(NTL)检测。文献[6]对卷积神经网络(CNN)模型进行改进,算法减少了迭代次数,提高了数据处理能力和检测准确率。

基于人工智能的算法利用机器学习的技术,如分类和聚类等方法,分析用户的用电数据以找出具有异常特征的窃电用户。分类方法需要有标签的数据集,而窃电数据集往往难以获得,使得这类方法在实际应用中受到限制。而聚类的方法虽然不需要标签,但无监督的方法在负荷曲线被篡改但仍保持正常的情况下,无法识别异常用户。目前可通过智能算法生成窃电数据集[7],但其前提仍需要收集实际的窃电数据集。而基于AMI的检测技术又需要完整的电力系统状态信息和电网拓扑,增加了测量设备成本[7 - 10]。

基于此,本文提出了一种自适应融合检测算法,适用于普通的用电场景。最大互信息系数( maximum information coefficient, MIC)能够利用最少的附加数据来检测被篡改的用电数据文件之间的关联,针对异常用户的负载曲线会更加具有随机性的特点,采用密度峰值的快速聚类算法(clustering by fast search and find of density peaks, CFSFDP)根据密度特征来检测异常用户。将2种算法得到的结果进行自适应融合排序,融合的结果综合了2种算法的优势,提高了算法检测的精度与检测窃电种类的多样性。本文提出了一种新的窃电检测算法框架,用组合的算法将窃电嫌疑用户排序;将更高效的相关性检测算法MIC应用于窃电检测中,并通过数值仿真验证了方法的有效性。

首先建立了台区用户的用电模型,对各种复杂的窃电行为抽象出6种不同的窃电模型,并给出了窃电检测的问题描述;接着介绍了2种基本技术,提出了MIC与CFSFDP的组合检测框架;最后利用数值仿真实验,证明了方法的有效性。

1 问题描述

不同窃电行为的共同特征是使电表测量数据与实际用电情况不符[11 - 12]。这些窃电方式对电表测量值的影响,可以抽象为对用电量测量数据的错误数据注入(false data injection,FDI)。将台区中的用户看作不同的计量单元,当这些计量单元可以被FDI影响时,即发生窃电现象。台区的总表为计量单元真实测量值之和,难以产生窃电行为,不被FDI影响。台区中每个用户的窃电行为都会对台区总表数据与分表数据的相关性产生影响,通过分析总表数据与分表数据的相关性,即可检测存在FDI的测量单元,即窃电用户。

1.1 应用场景

窃电检测方法的应用场景如图1所示。

图1 低压台区测量Fig.1 Measurements flow-voltagetransformer areas

每个台区都有一组用户群,用户群中存在着更改用户分表测量值的窃电用户,即存在部分用户分表显示的并不是用电量的真实值。而台区总表是不会被更改的,即显示总用电量的真实值。

1.2 窃电方式与窃电模型

常见的窃电方式包括:改变电流的窃电、改变电压的窃电、改变表计的结构和接线方式的窃电、强交流磁场窃电。它们的共同特点是将用电量的真实值更改,达到少计量或不计量的目的。因此窃电的行为将导致台区分表计量和总表计量之间存在误差。设由窃电行为导致的误差为et, 则et的计算公式如(1)所示。

(1)

(2)

式中:Γ为窃电用户的集合;xi,t为用户i用电量的真实值。

取用户1 d用电量的真实值,根据表1的规则,得到6种窃电类型的对应的数据,绘制窃电曲线,如图2所示。

表1 6种窃电类型Tab.1 Six electricity theft types

图2 窃电类型示例Fig.2 Example of the electricity theft types

1.3 窃电行为导致的误差与分表数据相关性

(3)

对于窃电类型1来说,2个电量相关性是确定的,且是线性的。而对于其他窃电类型来说,电量相关性不如第一种窃电类型明显的,特别是对于某些窃电类型来说,式(3)不成立(例如第6种窃电类型产生了一种完全随机的曲线);然而式(3)仍然适用于大多数窃电类型,即以式(3)为基础的窃电检测方法可以检测出大多数的窃电行为。那么,iCorr(·,·)的选取,即选取一个能表示两个电量非线性的模糊关系的相关方式,对于窃电检测方法的效果具有十分重要的意义。

2 MIC与CFSFDP组合检测方法

由于某些窃电类型导致的误差与分表数据不具有明显相关性,只通过相关性方法无法有效检测,本文提出一种新的相关性与聚类融合技术自适应融合技术检测方法,该方法中的MIC利用1.3节的相关性检测方法得到台区所有用户用电量与测量总误差的相关关系。相关性越强,则是窃电用户的可能性就越大。同时,利用CFSFDP聚类具有相似波形用电量数据,从而找出异常的用电曲线,找出窃电用户。根据上述2种算法,本文提出的综合判断方法,对用户窃电概率进行排序,从而找出窃电用户。

2.1 最大互信息系数

在统计学中,皮尔逊相关系数(Pearson correlation coefficient, PCC)是测量2个向量间相关性的有效度量手段。皮尔逊相关系数(PCC)的值在(-1,1)区间中。如果2个向量具有严格的线性相关关系,那么PCC的值为-1或1。如果2个向量不具有相关性,那么PCC的值为0。PCC的缺点在于,它只能表示2个向量是否具有线性相关的关系,不能检测更复杂的相关性,例如二次或三次函数关系、时变关系等。而2个向量的互信息(mutual information MI)由于其在衡量相关性方面应用范围更广,不仅仅局限于线性相关的范畴,被用来检测各种类型的相关性。MIC是基于MI的改进的算法,在很多情况比MI的应用效果更好[13]。

给定一个有序对的有限集合D,D中包含(x,y)有序对。将x划分为m个部分,将y划分为n个部分。则在xOy组成的二维平面中,得到了m×n的网格。假设这个网格为G,DG为网格中每个单元里集合D中元素的分布。G对于D⊂2,a,b∈*, 定义为:

(4)

(5)

对于确定的集合D, 其(x,y)对的数量为|D|,网格数量小于B(n), 则其MIC值由式(6)给定。

(6)

2.2 基于CFSFDP的无监督检测

基于相关性检测在检测某些窃电类型时有所不足(如窃电类型6),可使用聚类算法从用电曲线中找出异常曲线的用户。基于密度的聚类算法被广泛应用于异常检测。其中,CFSFDP[14 - 16]在大数据聚类和异常检测中有良好效果。

对于由用户u的不同自然日用电情况组成的一组用电曲线,记第i天的用电曲线为Cu,i。在CFSFDP中,有2个指标衡量用户用电曲线:ρi和δi。ρi为用户第i天的曲线在用户所有用电曲线聚类后的密度。δi为用户第i天用电曲线与该用户其他天数的用电曲线的距离:若该用户不是聚类密度最高的用户,则取与其他密度更高的用户曲线距离的最小值;若该用户为聚类密度最高的用户,则取其与其他所有用户之间距离的最大值。2个指标的计算方法都取决于数据点之间的距离di,j, 如(7)所示。

(7)

式中:dc为截断距离;χ(·)为核函数,如式(8)所示。

(8)

δi定义为:

(9)

对于密度最高的天数的用电曲线,找不到比它密度更高的用电曲线,则令其距离δi为:

(10)

由于窃电曲线的特征与正常曲线不同,经过聚类后,窃电曲线与正常曲线聚类成不同的类别。由于窃电用户数量远少于正常用户数量,则其聚类后的密度ρi低于正常用户,而距离δi大于正常用户,则可得出用户的用电曲线评价指标ξi, 如式(11)所示。

(11)

若ξi越大,则用户第i天用电情况存在异常可能性越大。将ξi排序后即可找出对应潜在窃电用户。

与k-means等聚类算法相比,CFSFDP可以考虑任意形状的聚类,而无需选择任何参数。而且,CFSFDP的算法简单,只需计算所有用电曲线的局部密度ρi, 即可获得δi和ξi, 无需进行迭代。

2.3 自适应组合检测方法

将2.1节和2.2节中的算法组合起来,形成组合的检测方法,两种算法相互独立彼此结合,克服了单一算法的不足。

对于一个地区,有i个用户,j天的用电数据。那么可由式(1)计算。接下来,将每一个用户用电量数据归一化,方法为将其除以时间序列中的最大用电量。则得到了i×j个归一化的向量组。运用MIC计算用户之间的相关性时,由于MIC的计算特性,输入的向量维数越高,其估计的准确性越高。因此将每个用户的j个归一化的向量,根据时间先后组合成为一个单用户总用电向量,记为ci, 然后利用MIC算法得到各个用户总用电向量ci与et的相关性,通过排序得到第一种窃电可能性排序Rrank1(排序越高的rank值越大)。对于每一个用户i的j组向量,可利用CFSFDP算法,得到用户i的j个用电曲线评价指标ξi,m(m=1,2,…,j)后,用k-means算法将其聚类为两类(k=2), 一类为正常用电天数,另一类为窃电天数,将窃电天数的用电曲线评价指标取算数平均值,作为该用户的窃电可能性。将由CFSFDP得到的所有用户窃电可能性排序,得到第二种窃电可能性排序Rrank2。 将2种方法得到的排序通过自适应变化的权重进行融合,得到综合的窃电可能性排序如式(12)所示。

(12)

式中α1、α2的选取始终满足二者和为1且分别随着Rrank1和Rrank2的变化而变化。

可以看出,若只是简单地取2种组合的算术平均值(即α1=α2=0.5), 可能出现窃电用户在Rrank1中排名较高,而在Rrank2中排名较低的情况,导致融合的结果并不理想。而本文提出的自适应加权算法,其核心思想是在Rrank序列中排名越高用户,其窃电的可能性就越大,那么综合排序中占有的权重就应越高。在组合算法中,βp由以下方法确定。

(13)

式中:βp为用户在排名rank中窃电可能性的分数;N为用户数量。α1、α2的值由式(14)确定。

(14)

最终式(12)综合排序较高的用户即为窃电可能性高的用户。

组合检测方法如图3所示。

图3 窃电检测组合方法框架Fig.3 Framework of the combined electricity theft detection method

3 实验

3.1 实验方案

本次实验使用爱尔兰能源监管委员会的智能电表项目中采集到的数据集[17]。该数据集含有4 000多个居民和485个中小型企业等用户超过500 d的用电数据。该数据经过审查,可看作用户的真实用电数据。选取485家中小型企业从2009年8月1日到8月30日的用电数据,则得到485×30组用电数据向量,由于用电数据30 min测量一次,所以每组向量包含48个元素。我们将485组用户分为12组,每组大约40个用户,假设他们在同一个台区。每组随机选取其中1~5个用户(窃电用户数量依次递增)作为窃电用户,用不同的窃电方式改变其真实数据,作为电表测量数据。利用组合算法检测窃电用户,与单一方法比较,验证组合方法的有效性。

3.2 评价指标

采用受试者工作特征(receiver operating characteristic, ROC)曲线下的面积(area under the curve, AUC)评价算法的性能。ROC是以真正率(true positive rate, TPR)为纵轴,假正率(false positive rate, FPR)为横轴作图得到的曲线。将所有用户分为2个集合:正常用户集合N和窃电用户集合Γ。 |N|和|Γ|分别表示集合中用户数量。将所有用户按照窃电可能大小升序排列。则AAUC可由式(15)计算得出。

(15)

3.3 实验结果

在随机分成12组的用户中,随机选取5个作为窃电用户。则窃电用户所占比例约为12.5%。由几种不同的检测方法检测窃电用户的结果,取100次实验取平均值,结果如表2所示。

表2 窃电检测指标平均值Tab.2 Average value of electricity theft detection indicators

由表2可知,MIC整体上优于PCC的检测。但MIC与PCC在窃电类型6上的检测能力不足。将其与CFSFDP结合后,能够大幅度增强在窃电类型6上的检测能力,而其他窃电类型的检测能力虽小幅下降,但可以接受。证明了组合检测方法的有效性。

对上述算法和窃电类型6的窃电情形,随着窃电用户数量由1~5变化,AUC的变化如图4所示。

图4 随用户数量变化的AUC曲线Fig.4 AUC curves varying with the number of users

从图4可以看出,在用户数量较少的时候,MIC算法优于其他算法,包括组合算法。但随着用户数量的增加,MIC的AUC曲线急剧下降,而组合算法由于CFSFDP在用户增多时受影响较少,所以组合算法的下降速度比其他算法的下降速度慢。说明本文提出的自适应组合检测算法更适合窃电用户数量较多的台区进行窃电检测。

4 结语

本文提出了一种适用于不同窃电类型的自适应组合窃电检测方法。首先分析了窃电的一般场景,建立了窃电模型。然后给出了基于相关性的窃电检测方法,分析了窃电用户与管理线损的关联。最后针对存在与管理线损无关窃电类型的情况,提出了相关性算法与CFSFDP的聚类算法结合的自适应融合检测算法框架,通过不同方法对窃电嫌疑用户进行窃电可能性排序,融合不同算法的优势改进了基于相关性的窃电检测方法的准确性与适应性。结果表明这种组合算法适用于多种窃电类型,效果很好。

猜你喜欢
台区用电聚类
低压台区三相不平衡治理的换相优化方法
计及分布式光伏的农村配电台区断零故障分析
基于大数据的台区线损管控系统的设计与实现
对输配电及用电工程的自动化运行的几点思考
用电安全要注意
面向WSN的聚类头选举与维护协议的研究综述
用电监察面临的问题及反窃电对策
改进K均值聚类算法
基于用电信息采集系统的台区线损管理研究
基于Spark平台的K-means聚类算法改进及并行化实现