基于DNSCAN 算法的低压台区反窃电技术研究与应用

2021-11-28 19:31张新瑞张思宵杨红欣任志丹刘海峰
科技与创新 2021年10期
关键词:台区用电聚类

张新瑞,张思宵,杨红欣,任志丹,刘海峰

(1.国网冀北电力有限公司张家口供电公司,河北 张家口075000;2.烟台东方威思顿电气有限公司,山东 烟台264000)

近年来,随着经济的飞速发展,社会对电能的需求也随之增大。如何合理并有效地管理生产生活用电,减少电力企业蒙受的经济损失,是供电公司长期关注的课题。从中国电力纠纷事件来看,最典型的两类问题就是窃电和违约用电,且都呈现出增长的趋势。科技的发展也让窃电手法变化多样,给电力系统的稳定、安全运行造成了一定的影响。为了有效推动电力企业稳定发展,用电检查人员急需一种能够主动进行窃电监控分析的方法和工具,及时发现疑似窃电用户,保障供电公司的经济利益。

目前国内外的专家学者对反窃电技术进行了大量研究,文献[1]的专家学者给出了一种基于欧几里得距离的离群点检测算法,有效实现了对欠流、失压法窃电的检测。文献[2-3]提出了一种基于正态分布的离群点反窃电算法,对用电信息采集系统中的数据进行挖掘,由于是基于离群点算法的反窃电研判,所以存在求解误差大的缺点。文献[4]利用线损相关数据,对损耗较大的电力用户进行识别,实现了对窃电的有效识别。文献[5]提出一种基于无监督学习的电力用户用电行为异常检测模型,主要包括特征提取、主成分分析、局部离群因子计算等,模型的输出结果包括疑似窃电概率和电力用户的异常度。

在电力大数据时代,基于用电信息采集系统的海量数据的深入挖掘和智能诊断分析方面仍处于实践探索阶段,通过数据深入挖掘分析,可有效锁定窃电用户和识别窃电方式,对电力企业持续良好发展具有十分重要的战略意义。本文提出一种基于DBSCAN 聚类算法的反窃电分析模型,建立多维特征因子关联模型,通过在低压台区中的实际应用,验证了方法的有效性,可以有效定位窃电用户,提高工作效率,保障了供电公司的利益。

1 研究目标

利用用采和电力营销系统积累的海量用电客户历史数据,结合经过确认的各类典型窃电样本,统筹考虑多维窃电因素,抽象识别窃电行为的普遍因素,建立异常预测的数学分析模型,通过大数据技术分析手段,深挖电能量数据背后的价值,对窃电嫌疑用户进行概率推测和预警,精准识别重大窃电嫌疑户,通过建立预警、排查和处理反馈的闭环工作机制,完成模型的自我优化,从而提供一种强有力的反窃电监控预警手段。

2 数据挖掘理论分析

2.1 数据挖掘基本理论

随着大数据技术的飞速发展,数据挖掘在各个领域得到了广泛的应用和推广,数据挖掘的核心是从海量的、有噪声的、不完整的数据中挖掘有用知识的过程。可完成从低层次的数据简单分析、呈现提升到挖掘背后隐藏的有用信息,为实际应用提供决策支持,数据挖掘的基本流程如图1 所示。

问题描述:本过程需要明确具体的业务需求。就本文而言,需要从大量的电力用户历史用电数据中精准找出窃电嫌疑用户。

数据采集:待确定目标后,需要采集相关的数据,为窃电检测模型的构建提供支持。

数据预处理:数据预处理是整个数据挖掘过程中非常重要的阶段,直接关系到后期所构建模型的质量。一般要完成噪声数据消除、特征选择等过程。

数据挖掘执行:根据数据挖掘的具体任务,挑选最适合的算法进行知识的发现,比如分类、聚类等方法。

结果分析与评价:窃电模型要在实际场景中应用,需要保证结果的合理性和科学性。

2.2 DBSCAN 聚类算法

2.2.1 DBSCAN 算法基本描述

DBSCAN ( Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,与通常只适用于凸样本集的聚类算法(如K-Means)相比,DBSCAN 既可以适用于凸样本集,也可以适用于非凸样本集。

DBSCAN 聚类算法的优势主要表现在如下几点:①满足对任何形状的稠密样本集进行聚类分析,K-Means 之类的聚类算法通常用于凸样本集;②在进行聚类的同时可以寻找到异常数据点,对样本集中的异常点不敏感;③聚类结果不存在偏倚,无需预先确定聚类的类别,而初始值参数的选取对K-Means 聚类算法有较大的影响。

2.2.2 DBSCAN 聚类算法的步骤

输入:样本集合D={x1,x2,…,xm},邻域参数(ϵ,MinPts),样本距离度量步骤如下。

步骤一,初始化数据样本集合Ω=∅,初始化聚类的簇数k=0,初始化未访问数据样本集合Γ=D,簇划分C=∅。

步骤二,对于j=1,2,…,m根据如下步骤寻找出所有的核心对象:①通过距离度量方法,得到样本xj的ϵ-邻域子样本集Nε(xj);②如果子样本集当中的样本数目满足|Nε(xj)|≥MinPts,则需要将样本xj加入核心对象样本集合Ω=Ω∪{xj}。

步骤三,如果核心对象集合Ω=∅,那么算法结束,否则进入步骤四。

步骤四,在核心对象集合Ω中,随机挑选一个核心对象o,初始化当前簇核心对象队列Ωcur={o},初始化类别序号k=k+1 以及当前簇样本集合Ck={o},更新未访问样本集合Γ=Γ-{o}。

步骤五,如果当前簇核心对象队列Ωcur=∅ ,那么当前聚类簇Ck生成完成,更新簇划分C={C1,C1,…,Ck},更新核心对象集合Ω=Ω-Ck,进入步骤三。

步骤六,在当前簇核心对象队列中Ωcur随机拿出一个核心,对象o′,利用邻域距离阈值ϵ 找出所有的ϵ-邻域子样本集Nϵ(o′),令Δ=Nϵ(o′)∩Γ,更新当前簇样本集合Ck=Ck∪Δ ,更新未访问样本集合Γ=Γ-Δ ,更新Ωcur=Ωcur∪(Δ∩Ω)-o′,进入步骤五。

最终模型输出簇划分C={C1,C1,…,Ck}。

3 基于DBSCAN 算法的反窃电技术实践应用

3.1 技术可行性分析

目前张家口供电公司所管辖的低压台区基本实现了全采集、全覆盖。公司信息化、智能化水平较高,用电信息采集系统、营销系统都已经实际应用,可为低压台区反窃电应用提供大量的基础数据。

聚类算法非常适用于这种大量数值数据的处理,而离群点数据敏感的优点适用于从大量数据中挖掘出异常数据。对于挖掘出的异常数据,合理利用窃电甄别方法就能准确定位窃电嫌疑用户。

3.2 窃电用户案例分析

通过对张家口地区窃电案例进行分析,结合现场查处的违约窃电案例记录,发现窃电手段上大致可分为两大类:第一类是通过改变计量回路或计量装置,通过改变电流、电压、相位或接线等方式进行窃电;另一类是高科技窃电方式,通过大功率干扰或遥控等方式阻碍计量装置正常计费,此类窃电手法不破坏电能表硬件设备、操作时间短、隐蔽性强等特点使供电部门无法排查,造成巨大损失。

因此,本文重点从以上几种情况入手,深入挖掘和分析用电、营销、线损等多维度数据,提取窃电用户的用电特征,构建丰富专家样本库,进行模型选择、训练及验证,构建反窃电诊断模型。

3.3 窃电特征提取

通过对历史窃电用户用电量、电压、电流、报警事件等用电数据进行逆向分析,构建完整的特征向量,本文选取失压断相事件、用户电量趋势、电压和电流数据计算出有功功率与采集的有功功率值比、用户电量与台区线损率相关性系数、异常报警事件(电能表开盖、计量装置开箱、磁场干扰等类型的异常事项)五个特征维度构建特征向量进行建模。基于用采系统和营销系统中的电力用户历史数据,提取用电特征,构建基于DBSCAN 聚类算法的反窃电模型。

3.4 算法仿真测试

以张家口供电公司管辖范围内台区线损相对高、偷窃电行为严重的20 个台区的电力用户作为分析对象,构成测试样本。在用电信息采集系统中,抽取其数据,提取电力用户用电特征,应用DBSCAN 聚类算法,仿真结果表明算法具有较好的异常检测效果。

4 总结

本文通过对张家口供电公司低压台区电力用户用电数据的分析、处理、挖掘,构建了一种基于DBSCAN 聚类算法的反窃电检测模型。在低压台区反窃电实际应用中,验证了模型的有效性,可准确的识别出疑似窃电用户,为用电检查人员提供了强有力的反窃电监控预警分析方法,可显著提高反窃电的查处惩治力度,确保供用电秩序正常,及时挽回供电公司的经济损失。

猜你喜欢
台区用电聚类
一种傅里叶域海量数据高速谱聚类方法
基于知识图谱的k-modes文本聚类研究
低压台区三相不平衡治理的换相优化方法
计及分布式光伏的农村配电台区断零故障分析
一种改进K-means聚类的近邻传播最大最小距离算法
基于模糊聚类和支持向量回归的成绩预测
关于同期系统高(负)损台区治理的思考
多业务协同提升低压台区线损基础管理研究分析
第12讲 家庭电路与安全用电专题复习
学习用电小知识