基于离群点挖掘的用电侧窃电行为识别方法

2023-03-09 12:01甘肃同兴智能科技发展有限责任公司蔡玺张世元岳生融
电力设备管理 2023年1期
关键词:量度离群调和

甘肃同兴智能科技发展有限责任公司 蔡玺 张世元 岳生融

1 引言

用电侧窃电行为不仅为供电企业带来重大经济损失,也危及供电系统的运行安全。该行为不仅会造成供电设备的损坏,而且损害供电系统正常输送电的秩序。所以当下电网公司会在供电系统中设置反窃电的技术手段,用于打击用电侧窃电行为。对于窃电行为的检测与识别,我国众多学者开展了一系列的研究,韩建富等[1]研究发现通过GA-BP 神经网络有效实现了对电力系统窃漏电行为的识别与诊断。卿柏元等[2]研究设计一种CNN-LG检测模型提升了电网窃电行为检测准确度。随着窃电手段的日渐发展,急需加大窃电行为识别方法的研究力度,满足供电系统反窃电的现代化需求。

2 提取用电侧窃电行为特征数据

在反窃电侦查中,由于人工识别不仅效率较低,而且准确率较差。因此,引入离群点挖掘算法,深入挖掘用户用电数据与窃电特征数据之间的相似度,检测出用电异常数据,以此实现电力系统用电侧窃电行为识别。

首先需要对用电侧窃电行为的特征数据进行提取,假设用电侧的窃电行为存在Q1种类型,同时用户非窃电行为存在Q2种类型,用电侧的窃电行为样本集合为{(i1,Q1),(i2,Q1),⋅⋅⋅,(in,Q1)},非窃电行为样本集合为{(j1,Q2),(j2,Q2),⋅⋅⋅,(jn,Q2)},且用电侧的窃电行为与非窃电行为样本集合中均包括z∈{1,2,⋅⋅⋅,m}个特征数据,则与特征数据z相关的统计量ξ表达式为:

式中:jn+1为用电侧非窃电行为样本jn最近的相邻样本,且二者类型一致;j'n+1为用电侧非窃电行为样本jn最近的相邻样本,二者类型不一致。

由式(1)可知,如果用电侧窃电行为样本in与jn+1之间的距离越小,则in与j'n+1之间的距离则越大,导致特征数据z相关的统计量ξ值随之增大,这就意味着可以通过用电数据的特征属性区分用电侧的窃电数据与非窃电数据,根据统计量ξ的排序结果设定一个合理的阈值,同时将超过此阈值的用电数据特征样本进行剔除,获得电力系统用电侧窃电行为的特征数据。

3 预处理窃电行为特征数据

基于离群点挖掘的识别方法中使用的用电数据均来自用电信息采集系统,由于设备故障、人为错误等因素导致提取的用电侧窃电行为特征数据存在丢失等误差,所以在挖掘特征数据相似度之前,需要对窃电行进行预处理[4]。在窃电行为特征数据之中,会受噪声等影响的影响,导致部分数据缺失,如果缺失部分数据不进行处理,将会严重影响后续窃电行为识别步骤。

如果要将缺失部分数据进行删除,极有可能导致有效数据丢失,导致窃电行为识别结果不准确。所以将通过插补操作处理用电侧窃电行为特征数据中缺失值。在窃电行为特征数据的插补处理之前,需要进行数据清洗,剔除掉原始数据中的无效信息,如连续缺失的用户特征数据、数据值都一样的用户特征数据等。由于用电侧窃电行为特征数据之间存在一定变化规律,所以引入牛顿插值法来补全缺失数据,假设区间[m,n]中,存在函数c=f(x),则m≤a0

则F(a)则表示窃电行为特征数据的插值函数,且c0,c1,…,ck表示插值数据点。利用式(2)对窃电行为特征数据进行插值处理后,获得式(3):

由式(3)可知窃电行为特征数据的缺失值经过k次插值后,生成多项式Fk(a)。通过以上步骤补全窃电行为特征数据的缺失值后,需要对数据进行归一化处理,避免不同量纲下数据对窃电行为识别结果造成的影响。在用电侧窃电行为识别过程中,所用的窃电行为特征数据度量单位以及原始大小,都会影响最终的识别结果。

如果窃电行为特征数据之间计算单位不一致,则不同属性的特征数据之间会存在较大差异性,如果在这种数据基础上进行挖掘,会导致窃电行为特征数据的丢失,而且未归一化处理的数据不具备可比性,无法有效识别出窃电行为。因此,将通过下式(4) 对原始窃电行为特征数据进行归一化处理:

式中:a'i为归一化的窃电行为特征数据;ai为归一化前的窃电行为特征数据;amin、amax为窃电行为特征数据中的最小值与最大值。

通常情况下,窃电行为特征数据进行归一化之后会限制在[0,1]范围内,而且处理后的数据仍会拥有与原始数据一致的特征属性,不会影响窃电行为识别结果。

4 基于离群点挖掘识别窃电行为

离群点挖掘算法是从海量数据之中深入挖掘出所需的有效数据,其运算过程具有精准、快速等特点。因此,引入离群点挖掘算法来实现用电侧窃电行为识别[5]。在用电侧窃电行为识别过程中,离群点挖掘算法主要用于判断两个用电特征数据之间的相似度,如果这两个用电数据之间的欧氏距离较大,则表示其差异性较大;反之如果这两个用电数据之间的欧氏距离较小,则表示其相似性较大。假设实际采集用电侧的用电特征数据样本为T1(b),窃电行为特征数据样本为T2(a),则描述这两个特征数据之间的欧式距离计算表达式(5):

关于k个特征数据样本,通过构建相似度矩阵计算两两用电特征数据之间的欧式距离:

式中:dmn满足正定性,且可以表示实际采集用电特征数据样本m与窃电行为特征数据n之间的欧氏距离,也就是相似度。利用欧氏距离矩阵判断m与n之间的相似程度,当且仅当m=n时,dmn= 0;当dmn→0时,m与n之间的相似度越大;dmn数值越大,则表示m与n之间的差异性越大。通过以上步骤定义了离群点挖掘的目标后,利用离群点挖掘实现用电侧窃电行为识别,上述所提离群点目标就是识别窃电行为是否发生的有力判据。首先在提取用电侧窃电行为特征数据的基础上,选取精准的质心描述样本数据的整体水平:

式中:g1为原始窃电行为特征数据的平均值;δ为比例系数值;g2为去除全部d>δ×g1的特征数据样本之后的平均值。

利用式(7)确定质心可以排除异常值较高的窃电行为特征数据对识别方法的影响。再通过对比单个实际采集的用电特征数据和质心之间的相似度,利用循环寻优方式来筛选出离群点,找到窃电行为特征数据,进而挖掘出最优的用电侧窃电行为结果。

5 仿真试验

为了判断基于离群点挖掘的用电侧窃电行为识别方法是否可行,将其与基于GA-BO 神经网络的窃电行为识别方法、基于CNN-LG模型的窃电行为识别方法进行试验对比。本次试验中设置了5 个用电特征数据样本集,分别使用上述3 种方法对用电特征数据样本集进行识别,得到主要参数的取值范围,通过参数优化方法获得给定的参数量子信息,进而结合用电特征数据曲线面积所定义的邻域半径以及邻域阈值,从而求解出3 种识别方法优化后的参数值。3 种识别方法的参数优化对比图如图1所示。

图1 3种识别方法的参数优化对比图

由于准确率无法代表窃电行为识别的真正效果,真正率与假正率两个指标可以全面展示识别方法的性能,所以将两个指标作为判别指标。随着假正率的增加,识别方法的真正率一直远远大于两种传统方法,由此可以说明,基于离群点挖掘的识别方法所提方法具有更优越的识别效果。在获得主要参数的取值范围后,分别通过这三种识别方法的离群阈值分析结果,计算出各自的调和量度,三种识别方法的调和量度对比图如图2所示。

从图2可以看出,随着离群阈值的增加,三种识别方法的调和量度整体呈下降趋势,基于离群点挖掘的识别方法的调和量度明显高于两种传统识别方法,其中,两种传统识别方法的最大调和量度分别为0.88、0.82,而基于离群点挖掘的识别方法的最大调和量度为0.92,较传统方法高0.04、0.10,由此可以说明,基于离群点挖掘的识别方法具有良好的识别性能,可以满足用电侧窃电行为识别需求。

图2 三种识别方法的调和量度对比图

6 结语

基于传统电力系统反窃电手段,设计了一种用电侧窃电行为识别方法,并引入离群点挖掘算法,深入挖掘实际用电数据与窃电行为特征数据之间的相似程度,从而筛选出离群点,实现窃电行为特征数据的识别,通过与传统识别方法的对比试验,验证了基于离群点挖掘的识别方法不仅可以有效提升窃电行为识别的效率,而且可以加强窃电行为识别的准确率。

虽然基于离群点挖掘的识别方法已经取得一定的研究成果,但仍然存在一些缺陷,如果用电数据样本数量较大时,在离群点数据寻优过程中可能会出现非最优结果。需要充分考虑用电特征数据样本的密度,进一步完善用电侧窃电行为识别方法,为电力系统反窃电工作提供理论基础,进而保障电网运行的安全。

猜你喜欢
量度离群调和
一种基于邻域粒度熵的离群点检测算法
Orlicz空间中A-调和方程很弱解的LΦ估计
从“调结”到“调和”:打造“人和”调解品牌
在线汽油调和优化技术的应用
一种相似度剪枝的离群点检测算法
调和h-凸函数和调和平方s-凸函数的 Fejér和Hermite-Hadamard型不等式
离群数据挖掘在发现房产销售潜在客户中的应用
语体转化的量度与语体规范
机械能转化量度的认识误区
论中医阴阳虚实的含义及其量度