廖建锐
(广东电网有限责任公司佛山顺德供电局)
在智能电网快速建设与发展的背景下,异常用电行为逐渐增多,特别是低压配电段,此种行为严重影响了电网运行的质量与效率,降低了供电企业的经济效益[1]。针对这一问题,专家提出了低压配电段用户异常用电数据挖掘方法,以用电数据为基础,对用户用电行为习惯特征作出分析,检测用电数据是否存在异常[2]。现阶段,传统的异常用电数据挖掘方法在实际应用过程中,具有较强的不确定性与不平衡性,面对海量用电数据时,存在数据挖掘效率低下、挖掘准确率不佳的问题,无法在快速时间内高精度地提取异常用电数据特征[3]。特征挖掘通过探索性分析专业知识与海量用电数据,提取数据中所包含的信息及特征,能够为低压配电段用户异常用电数据挖掘提供有力的帮助[4]。基于此,本文在传统异常用电数据挖掘方法的基础上,引入特征挖掘理论,针对低压配电时段用户,提出了一种全新的异常用电数据挖掘方法。
本文设计的低压配电段用户异常用电数据挖掘方法需要从数据挖掘的角度出发,建立用户异常用电行为检测模型。通过模型的迭代训练,全过程检测分析用户的历史用电数据,对用户在低压配电段的用电行为及规律进行总结,为后续异常用电数据的深入挖掘奠定良好基础[5]。对用户异常用电识别问题进行转化,以判别用户是否为异常用电用户为目标,将异常用电识别问题转化为二分类问题[6]。本文建立的用户异常用电行为检测模型运行流程,如图1所示。
图1 用户异常用电行为检测模型运行流程
如图1所示,首先,分别采用选择性抽取与实时抽取原始用电数据集的方式,对用电数据进行探索分析。其次,对用电数据进行预处理,提取用户用电特征,构建训练集与测试集。在此基础上,通过模型训练与预测模型,调整异常用电行为检测参数,实时检测用户的用电状况,反馈模型的运行结果,输出低压配电段用户异常行为检测结果[7]。根据检测结果,将用户用电模式划分为多个不同的特征集,使每个特征集内包含各个用户的用电负荷序列,进一步提取用户用电模式的特征量。
完成上述低压配电段用户异常用电行为检测模型建立后,获取用户用电模式特征量,在此基础上,利用特征挖掘方法及原理,多维度挖掘用户异常用电数据。特征挖掘以目标预测与目标描述为核心,设计有针对性的实施计划,保证异常用电数据挖掘工作的顺利进行。特征挖掘步骤及具体说明下见表。
表 特征挖掘步骤及具体说明
如表所示,为特征挖掘方法的步骤及说明,获取数据集内部结构特征及用电数据特征。在此基础上,按照用户用电行为习惯,划分低压配电段用电数据的前后相似度。以年度为时间跨度,构建用户年用电量序列:
其中,y表示用电量年度编号;Y表示年度总天数。基于用户分类角度,对用户年用电量作出检测分析,完成异常用电数据挖掘。根据用电数据挖掘结果,将所有用电用户均认为是未知用户,将挖掘出异常用电行为的用户标记为1,其他未挖掘出异常用电行为的用户标记为0,清晰直观地展示低压配电段用户异常用电数据特征,实现异常用电数据挖掘的目标[8]。
为了对上述本文提出的基于特征挖掘的低压配电段用户异常用电数据挖掘方法的可行性作出检验,确保提出方法的应用效果,进行了如下文所示的实验分析。首先,搭建此次实验测试环境。选取内存大小为4GB的ADM A8-4555M APU with Rade on(tm)HD Graphics 1.60GHz型号处理器,Windowns 10(64位)操作系统。实验选用的数据集为某地区用户的实际用电数据,其中包含25624152条有效数据,用电用户总数共计40528个,时间跨度由2021年1月1日至2022年12月31日。在数据集内,设置数据标签,用来表示低压配电段用户是否存在异常用电情况。设定标签中1表示该用户为低压配电段异常用电用户,0则表示该用户低压配电段用电行为正常。实验选用数据集中用户用电异常与否均由专业的电网工作人员在现场核验后确定,可信度极高。在此基础上,按照上述本文设计的低压配电段用户异常用电数据挖掘方法流程,对选用数据集进行挖掘实验,检验提出方法的可行性。
将上述本文提出的基于特征挖掘的低压配电段用户异常用电数据挖掘方法设置为实验组,将文献[1]、文献[2]提出的用电数据挖掘方法分别设置为对照组A与对照组B,分别对三种方法的数据挖掘效果作出对比分析。选取低压配电段用户异常用电数据挖掘准确率作为此次实验分析的评价指标,其计算表达式为:
其中,TP表示测试样本集中实际为异常用电用户的个体被正确挖掘判定为异常用电用户的数量;TN表示测试样本集中实际为正常用电用户的个体被正确挖掘判定为正常用电用户的数量;FP表示测试样本集中实际为正常用电用户的个体被错误挖掘判定为异常用电用户的数量;FN表示测试样本集中实际为异常用电用户的个体被错误挖掘判定为正常用电用户的数量。通过计算表达式,获取数据挖掘的准确率。设定测试样本集的数据量分别为500、1000、1500、2000、2500、3000,利用上述三种方法,全方位挖掘低压配电段用户异常用电数据,测定数据挖掘准确率,并进行对比,结果如图2所示。
图2 实验评价指标对比结果
通过图2的评价指标对比结果可以看出,三种低压配电段用户异常用电数据挖掘方法均表现出了不同的性能特征。其中,应用本文提出的方法后,在测试样本集数据量逐渐增加的情况下,异常用电数据挖掘的准确率明显高于另外两种方法,准确率均达到了98%以上,挖掘性能优势显著,可行性较高。
综上所述,为了改善传统低压配电段异常用户数据挖掘方法在实际应用过程中挖掘精度较低的不足,本文引入特征挖掘方法原理,提出了一种全新的异常用电数据挖掘方法。通过本文的研究,充分地考虑了不同类型用户在用电行为上的差异,根据低压配电段用户数据在时序上的特点,从多个不同的维度提取了用户异常用电数据特征,有效地提高了异常用电数据分析与挖掘的精度,消除了异常用电数据特征变量之间的信息重叠,全方位提高了异常用电检测的质量与效率。