基于FP-growth 算法的多尺度用电异常行为检测方法

2023-12-09 02:55武亚光张才俊程飞飞
电子设计工程 2023年23期
关键词:置信度特征向量用电

武亚光,张才俊,程飞飞

(国家电网有限公司客户服务中心,天津 300309)

随着各种现代化技术不断渗透到人们的工作、学习和生活中,对电力能源的需求也随之不断增加,因此电力消耗量不断增加[1]。电力由电力公司提供,通过收取电费来维持公司运营。电费的收取一般以家庭、单位、团体或者组织等为单位进行收费,因此客户量十分庞大,这使得客户管理工作量十分庞大。在客户管理中,发现用电异常行为是最难的部分。用户在使用电力时,会通过电表记录下来,以此来作为收费标准,然而部分用户为了一时贪念,随意搭接线路、篡改电表等,进行电力窃取。这种异常用电行为属于犯罪行为,且随着高科技的更新,异常用电更难以发现[2]。

基于上述背景,关于用电异常行为检测研究有很多,如严勤等人[3]以采集到的用电量数据为基础,提取其时序特征,将特征输入到深度循环神经网络当中进行分类检测,寻找存在异常行为的用户。郑思达等人[4]在其研究中从智能电表中采集数据,然后提取四个特征指标,将提取到的特征构成数据集,基于聚类技术计算样本之间的相似性,以此区分异常和正常。冉哲等人[5]在其研究中采集用户用电数据,然后利用RFE 算法提取用电特征,得到五个代表性特征,利用CatBoost 模型进行分类识别,完成异常用电检测。

前人研究面对一些表现不明显的小用户窃电行为检测结果差强人意,因此提出基于FP-growth 算法的多尺度用电异常行为检测。通过该研究以期提高小用户异常用电行为排查准确性,保证用电可靠性。

1 多尺度用电异常行为检测方法研究

随着各种窃电技术的层出不穷,异常用电行为更加难以察觉和发现,尤其是单个居民用户窃电规模不大,且不是持续窃电,很难检查出用电数据异常[6]。针对上述问题,提出一种基于FP-growth 算法的多尺度用电异常行为检测方法,该方法利用FP-growth 算法挖掘异常用电行为与特征之间的关联规则,通过计算二者之间的支持度和置信度来判断窃电行为是否发生。

1.1 用户用电数据采集

对用户用电异常行为检测的实质是一个数据挖掘过程,而数据挖掘的前提是有大量的样本数据[7]。基于此,用电数据采集至关重要,具体过程如下:

步骤1:远程采集检测中心发布采集任务;

步骤2:HTTP 服务器对用电数据采集任务进行解析;

步骤3:将解析结果存入数据库;

步骤4:返回入库结构给HTTP 服务器,并转发给监控中心;

步骤5:遍历数据库,获取满足条件的采集任务;

步骤6:将任务进行分解,得到若干子任务,并将其存入数据库;

步骤7:轮询数据库,获取需要执行的子任务;

步骤8:通过消息总线转发给协议栈;

步骤9:解析消息并转发给协议模块;

步骤10:组成相应报文,并发送给集中器;

步骤11:集中器获取用电数据;

步骤12:转化集中器上报的数据报文为JSON 格式的执行结果;

步骤13:通过消息总线将结果发送给任务执行模块;

步骤14:在任务执行模块当中将结果转换为DB文件;

步骤15:将DB 文件反馈给检测中心。

上述步骤为采集器采集用电数据的具体流程,为后续异常检测提供可利用和可挖掘的基础数据[8]。

1.2 用户用电数据预处理

基于上述采集到的用电数据,进行预处理,以提高数据质量。

1)缺失数据填补

采集到的用电数据中难以避免地会出现部分缺失的情况,若是该数据是关键数据,一旦缺失将直接影响异常检测的准确性[9]。面对这一情况,通过下述插值公式进行填补:

式中,Xi代表缺失的用电数据;Xj代表样本中第j个数据;n代表样本中数据数量。

2)数据标准化

数据标准化的作用是方便不同量纲数据之间可以进行同一运算而进行的处理[10]。计算公式如下:

1.3 多尺度特征选取

最后的异常行为检测与识别是以用户用电数据特征作为输入的,因此选取的特征越具有代表性,检测结果越准确[11]。基于此,进行多尺度特征选取研究,具体过程如下:

步骤1:列举所有用电数据特征,包括用电量标准差、负荷、线损、用电模式、不平衡率等,具体如表1所示[12];

表1 用电数据特征表

步骤2:对指标进行向量化;

步骤3:计算每个特征向量的重要性指数,计算公式如下:

式中,Pi代表第i个特征向量的重要性指数;wi代表权重;Si代表第i个特征向量;m代表特征向量数量,在这里取值m=14;

步骤4:按照重要性指数从大到小的顺序进行特征向量排序;

步骤5:选取重要性指数排名前K的特征向量组成新的特征集合;

步骤6:按照下述公式计算特征集合中每个特征的贡献率,计算公式如下:

式中,Ri代表第i个特征向量的贡献率;Qi代表i个特征向量的排名;K代表特征集合中特征向量的数量。

步骤7:根据贡献率选取大于1.0 的特征向量作为最优特征指标[13]。

基于上述过程完成多尺度特征选取工作,为后续研究奠定基础。

1.4 基于FP-growth 算法的用电异常行为检测的实现

将上一节选出的特征参量作为基础,利用FP-growth 算法挖掘关联规则,实现用电异常行为检测[14]。

FP-growth 算法中涉及两个关键概念,即支持度和置信度。

1)支持度

支持度是指项集A和项集B同时出现的概率[15]。计算公式如下:

式中,Support(A⋂B)代表支持度;Num(A⋂B)代表A和B同时出现的次数;Num(Z)代表总事务集中事务数量。

2)置信度

置信度是指同时包含A和B的事务占包含A的事务的比例[16]。计算公式如下:

式中,Confidence(A|B)代表置信度;Num(A) 代表包含A的事务数量。

基于FP-growth 算法进行关联多尺度用电异常行为检测,具体过程如下:

步骤1:扫描事务数据库Z;

步骤2:设置最小支持度阈值,记为φ为最小置信度阈值;

步骤3:从Z中挖掘满足条件的频繁项集,具体过程如下:

1)按照式(5)计算Z中每个项的支持度Support(A⋂B);

2)判断Support(A⋂B)是否不小于φ?若是,将该项加入频繁项集;否则,删除该项;

步骤4:再次扫描事务数据库,生成项头表。

1)按照式(6)计算Z中每个项的置信度;

2)判断每个项的置信度是否不小于φ。若大于,将该项加入项头集;否则,删除该项;

3)按照置信度大小进行降序排列,生成项头表。步骤5:构造FP-tree 结构。

1)创建根节点;

2)遍历频繁项集中的每项事务;

3)把每项事务一一映射到FP-tree 结构中。

步骤6:构造条件FP-tree;

步骤7:基于条件递归挖掘,产生频繁项集;

步骤8:从频繁项集中产生关联规则,即挖掘特征与用电行为之间的关联规则。

基于以上分析可知,基于关联规则实现用电异常行为检测,即当特征与用电行为之间的支持度大于1 时,则认为存在用电异常。

2 方法应用效果测试

以基于深度循环神经网络的检测方法、基于模糊聚类的检测方法以及基于RFE+CatBoost 的检测方法为对比项,进行用电异常行为检测分析与测试。

2.1 测试样本

该测试中所使用的样本来自爱尔兰社会科学数据档案馆,该样本分布情况如图1 所示。

图1 样本分布图

2.2 检测效果评价指标

检测方法的评价指标为F1 指标,计算公式如下:

式中,P代表查准率;R代表查全率,其余指标来自混淆矩阵,如表2 所示。

表2 混淆矩阵

2.3 性能分析

相同测试条件下,利用所研究方法、基于深度循环神经网络的检测方法、基于模糊聚类的检测方法以及基于RFE+CatBoost 的检测方法进行用电异常行为检测,根据检测结果计算F1 值,结果如图2 所示。

图2 方法异常检测结果

从图2 可以看出,该文方法的F1 值大于基于深度循环神经网络的检测方法、基于模糊聚类的检测方法以及基于RFE+CatBoost 的检测方法检测结果的F1 值,说明该方法的检测更为准确。

3 结束语

该文研究了基于FP-growth 算法的多尺度用电异常行为检测方法,通过测试证明了该研究方法的检测准确性,即F1 值更大。后续工作中,在测试环节需要进一步将方法应用到实际当中,以测试方法的实际应用性。

猜你喜欢
置信度特征向量用电
用电安全
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
硼铝复合材料硼含量置信度临界安全分析研究
用煤用电用气保障工作的通知
安全用电知识多
用电安全要注意
正负关联规则两级置信度阈值设置方法
一类特殊矩阵特征向量的求法
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用