付浩然
(广东电网有限责任公司惠州供电局,广东 惠州 516211)
窃电等现象在电力行业中屡禁不止,是比较常见的异常用电行为,在现实生活中电力用户通过改变智能电表结构、修改智能电表计量线路以及更换智能电表零部件等方式使智能电表无法正常计量实际用电量,以此达到窃电的目的,这种窃电方式不仅会减少电力企业收益,还会造成一定的安全隐患,私自修改电路或者改变电表结构非常容易引发电力事故,并且降低智能电表和电路的使用寿命,会造成严重的经济损失。相关统计数据显示,2020年全国范围内电力用户窃电量达到15 643万kW·h,造成的经济损失高达1.32亿元人民币,相比较2019年窃电量增加了近5%,虽然对窃电行为进行了惩罚和警示,但是每年依然会发生大量的窃电事件。为了及时发现窃电、欺诈等异常用电行为,降低异常行为造成的经济损失,需要采取有效的手段对电力用户智能用电异常进行检测。由于国内电力用户智能用电异常检测起步比较晚,相关的技术还不够成熟,现有的研究理论也比较少,虽然近几年电力用户智能用电异常检测问题受到广泛关注,开展了一系列研究,但是现有的检测方法存在一定的局限性,在实际应用中受数据量影响较大,当对海量数据分析时经常出现虚警现象,虚警率较高,为此提出基于无监督聚类的电力用户智能用电异常检测方法。
电力用户智能用电数据是用电异常检测分析的基础,因此用电数据获取是用电异常检测的首要步骤。根据实际需求,此次以无线传感器作为智能用电数据采集装置,选择型号为OIFY-4F4A的无线传感器,将无线传感器采用串联的方式安装在电力用户智能电表总线上,根据实际情况对无线传感器扫描周期、扫描频率等技术参数进行设定,利用读卡器实时读取无线传感器扫描到的电力用户智能用电数据,将其上传到计算机上,以此实现对用电数据的获取[1]。受到某种因素影响,获取的用电数据可能存在缺失和异常问题,对时间序列中出现25%以上为负值的电力数据进行删除处理。这一部分数据为异常数据,对于智能用电异常检测没有价值,因此对异常数据进行删除[2]。当电力用户智能电表检修或者更换时,无线传感器采集到的电力数据还有某时间段缺失,对于缺失量达到45%的电力数据进行删除,对于缺失量小于45%的电力数据采用均值填充法对数据进行补齐处理。其用公式表示为
式中:d表示均值填充后的电力数据;ax表示缺失时间段前端与后端电表数值;mumday表示缺失段时间长度,利用上述公式将所有用电数据中缺失段进行补齐处理,将补齐后的用电数据建立用电异常检测数据文件,用于后续用电异常特征提取和无监督聚类分析。
正常情况下电力用户智能用电数据在时间域上会呈现一定的特征,因此选取统计性特征、趋势特征以及频域特征坐标用电特征指标,通过对用电数据分析提取到该3个特征。统计性特征可以反映出时间序列上用户总体用电状况,其中包括用电均值、用电量极差等,计算公式为
式中:mean表示一段时间内电力用户平均用电量;xi表示电力用户在一段时间内第i天的用电量;n表示用电周期天数;range表示一段时间内电力用户用电量极差;xmax表示在一段时间内电力用户用电量最大值;xmin表示在一段时间内电力用户用电量最小值[3]。趋势特征可以反映出电力用户用电量时间序列的波动趋势,其中包括用电量上升趋势和下降趋势,用公式表示为
式中:tra表示在一段时间内电流用户用电量上升趋势;ki表示在一段时间内电力用户用电量的第i个点;u表示原始序列在平均序列之下时间段数量;trb表示在一段时间内电流用户用电量下降趋势;mi表示当前特征提取段的电力用户用电量的第i个点;v表示原始序列在平均序列之上时间段数量[4]。频域特征可以反映出电力用户用电时间序列的波动变化状态,其计算公式为
式中:F表示在一段时间内电力用户用电量幅值极差;Kmax表示电力负荷序列进行傅里叶变换后的最大值;Kmin表示电力负荷序列进行傅里叶变换后的最小值[5]。通过以上计算提取到电力用户智能用电特征,为后续用电异常检测提供基础。
在上述基础上,采用无监督聚类技术对用电特征进行聚类分析,检测到用电异常状态,考虑到提取到的用电特征值比较大,直接对其进行无监督聚类分析,会导致聚类难以收敛,因此无监督聚类分析前对提取的特征值进行归一化处理,其用公式表示为
式中:A表示归一化处理后的电力用户智能用电特征值;u表示电力用户智能用电特征编号。完成归一化处理后,确定无监督聚类簇,考虑到此次是对用电异常检测,用电特征主要分为正常用电和异常用电两大类,因此此次建立2个聚类中心,将聚类簇取值为2,2个聚类中心分别为正常用电聚类簇和异常用电聚类簇[6]。从电力用电智能用电数据库中选取一分部正常用电数据,将其列入到正常用电聚类簇中,将待检测数据列入到异常用电聚类簇中,根据欧式距离计算出2个聚类簇的相似性,其计算公式为
式中:p表示待测样本到正常用电聚类簇欧式距离,即2个聚类簇相似性;j表示用电特征数量;Aij表示第i个待测样本点的第j个用电特征值;Aij*表示正常用电聚类簇的第j个用电特征值[7]。利用上述公式计算出2个聚类簇相似性,在此设定一个阈值。如果式(6)计算结果大于阈值,则表示待测样本点用电特征与正常用电行为非常相似,当前电力用户智能用电正常;如果式(6)计算结果小于阈值。则表示待测样本点用电特征与正常用电行为存在较大区别,当前电力用户智能用电异常,以此检测出电力用户智能用电是否异常。
为了验证本次提出的电力用户智能用电异常检测思路的可行性与可靠性,选择某区域电力用户为实验对象,采用设计方法与传统方法,对该区域电力用户智能用电异常进行检测。实验准备了8台无线传感器,将其安装在电力用户智能电表总线上,根据该区域电力用户智能用电实际情况,将无线传感器的扫描周期设定为0.26 s,扫描频率设定为1.25 Hz,对区域内150个电力用户智能用电数据获取,共获取了800 GB电力数据,按照上述流程对数据清洗、异常特征提取、无监督聚类分析,检测到电力用户智能用电异常情况共1 246个。实验以电力样本数据量为变量,每完成对100 GB样本数据检测分析,记录检测虚警率,将虚警率作为2种检测方法精度评价指标。虚警率表示检测结果中虚假次数占总预警次数的比例,其计算公式为
式中:r表示电力用户智能用电异常检测虚警率;e表示检测结果中虚假数量;s表示检测结果中正确数量。利用上述公式计算2种方法虚警率,并使用电子表格对实验数据进行记录,具体数据如表1所示。
表1 2种方法虚警率对比
设计方法在电力用户智能用电异常检测中,虚警率较低,最高虚警率仅为0.24%,最小虚警率为0.03%,平均虚警率为0.11%,可以将虚警率控制在1%以内,并且虚警率不受样本数据量变化影响,在最大虚警率限值范围内。而传统方法在电力用户智能用电异常检测中虚警率较高,随着样本数据量的增加,虚警率逐渐增大,最高虚警率可以达到24.59%,最小虚警率为16.95%,平均虚警率为21.46%,远远高于设计方法。在检测精度方面,设计方法优于传统方法,检测结果基本与实际情况一致,相比较传统方法更适用于电力用户智能用电异常检测。
此次将无监督聚类技术应用到电力用户智能用电异常检测中,提出了一个新的用电异常检测思路,实现了对传统方法的创新和优化,有效降低虚警率。此次研究丰富了电力用户智能用电异常检测理论,推广无监督聚类技术在电力用户智能用电异常检测中的广泛应用,提高电力用户智能用电异常检测精度,具有良好的现实意义。但是由于此次研究时间有限,在研究内容方面存在一些不足之处,今后会对该课题展开深层次探究,为电力用户智能用电异常检测提供充足的理论支撑。