基于BRB和LSTM网络的电力大数据用电异常检测方法

2021-08-11 10:15:58万磊陈成黄文杰卢涛刘威
电力建设 2021年8期
关键词:毛刺用电量标定

万磊,陈成,黄文杰,卢涛,刘威

(1.国网湖北省电力有限公司,武汉市 430077;2. 武汉工程大学计算机科学与工程学院,武汉市 430205;3.湖北华中电力科技开发有限责任公司,武汉市 430077)

0 引 言

近年来,随着“智能电网”的兴起和普及,其运行中的输配电损失受到越来越多的关注,而输配电损失大致可分为技术性损失(technical loss, TL)和非技术性损失(non-technical loss, NTL)两大类[1]。其中,严重的NTL,即用户异常窃电行为,给电网行业带来了巨大的经济损失。因此,如何从大量的电力数据中高效、快速地检测出用户的异常用电行为,以供电网人员决策,对提高经济效益、促进电网的发展和进步有着重要的研究意义。

在电力大数据中,对于NTL的异常检测一直是该领域的热点及难点问题。目前针对电力大数据的NTL异常检测方法大多基于数据驱动的检测方法,其中包括基于聚类的方法、基于深度学习的方法等。文献[2]针对电力大数据流的异常检测问题,提出一种基于流式K-means的聚类算法,在优化离线阶段聚类算法的同时,提高算法对用户用电异常行为的有效识别。文献[3]在基于电量数据波动系数特征的基础上,提出一种基于样本优化选取的支持向量机窃电识别方法,该方法能够有效识别用户的窃电行为,具有一定的实用性。文献[4]提出了一种集合广度和深度的卷积神经网络(convolutional neural networks, CNN)来完成对电力大数据中用户窃电行为的有效检测。其中基于二维用电数据,深度的CNN分量可以准确识别窃电的非周期性和正常用电的周期性;而基于一维的用电数据,广度的CNN分量可以有效捕获该数据的全局特征。

上述算法虽然能够较好地完成对NTL的异常检测,但是这些方法都需要大量的用户用电量数据样本作为支撑,特别是对于基于深度学习的方法来说,对于正负样本集的标定是异常检测准确率的关键。尤其对于有监督学习来说,好的数据标定,即故障数据样本与正常数据样本的正确标定,可以约束网络更加有效地提取故障样本的特征,从而提高网络的检测准确率。然而,在实际的应用中,对于数据的标定通常采用人工标定的方法,不仅耗时且成本高昂。因此,为了提高数据标定的效率,本文首先将置信规则推理(belief rule-based,BRB)方法引入到对电力大数据的异常检测中,提出一种基于用户用电量波动特征和用电曲线异常特征的置信规则推理的方法来检测用户用电量是否异常,自动快速地获取可信度高、鲁棒性强的正负样本集。接着,以此样本集为基础,采用长短记忆网络模型(long short-term memory, LSTM)网络来有效提取NTL异常特征,最终完成对用户用电行为异常的检测。

1 异常特征选取

用户异常用电行为是一个时效性问题,通常会在某一时段内完成对电量的窃取。因此,本文所提到的异常特征,通常指的是一段时间内的有效特征,而特征的选取是NTL异常检测成功的关键。基于此,本文首先选取的特征为用户用电量波动信息指标。另外,考虑到用户可能在不改变用电总量的情况下,对用电曲线的峰值进行篡改,故本文选取的另一个特征为用户的曲线异常特征,通常称之为毛刺[5]。

1.1 用户用电量波动特征分析

对一定时间范围内的用户用电量进行分析,采用传统的平均值或方差等指标无法反映时间段内的电量波动情况,故无法表征当前数据异常信息。因此,为了更加有效地反映用电数据特征,本文选取电量波动系数CV来分析统计时间范围内的用电量数据异常波动,其定义[3]为:

(1)

1.2 用户用电量曲线异常特征分析

为了描述用电曲线被移峰的异常特征,本文引入毛刺特征。毛刺指的是将电表的读数绘制成曲线后出现的向上的尖峰[5],其中毛刺宽度是最直观的衡量异常数量的一个标量,在这里毛刺宽度指的是其周围边界值对应的时间的差值。用户异常用电曲线如图1所示,图中曲线为某用户一个月的用电量情况,其数据来源于文献[4]。从图中可以看到,该用户在1月19日到1月22日的用电量曲线出现了一个毛刺,且曲线的上下波动幅度较大,因此,有理由认为此时间段的用电量异常。然而,在智能电网的实际运行过程中,通常类似的异常数量较多,但是毛刺宽度较少。因此,单个毛刺宽度不足以表征数据的异常性,本文采用毛刺宽度总和M来表征用电曲线异常的特性,其定义为:

图1 用户异常用电曲线Fig.1 Abnormal power consumption curve

(2)

式中:di和dj分别代表周围边界值对应时间的下界节点和上界节点,其中n>m,i>j。

2 基于BRB的NTL异常数据标定方法

2.1 前提属性输入转换

对一个前提属性值进行输入转换,首先自定义转换规则,然后按照规则将该值转换成不同的置信度,最后将这些置信度再分配给各前提属性以作为决策时的参考值。一个前提属性Bi的输入值通过以下公式来进行转换[7]:

S(Bi,αi)={(lim,βim),m=1,…,mi},
i∈{1,…,N}

(3)

本文选取电量波动系数CV和毛刺宽度总和M作为BRB系统的前提属性,从国家电网公司获取历史用电量数据[4]来计算输入值CV和M,同时将这些输入值转换为相应的前提属性参考值的隶属度[6-7]。一般地,当0

因此,上述输入转换的过程为:

(4)

(5)

从上面的转换过程可以看出,为了完成前提属性的输入转换,之前还需要对其进行参考值的确定。假设两个前提属性参考值的分布为:CV= {(Big,0.8),(Normal,0.15), (Small,-0.5)};M= {(Large,15),(Normal,5), (Small,3)}。结合式(3)和(4),对于一个样本数据,CV=0.5,M=8,则该样本的CV隶属于{(Big,0.8),(Normal,0.15), (Small,-0.5)}的程度为(0.538 5,0.461 5,0),即MR=(0.8-0.5)/(0.8-0.15)=0.461 5,HR=1-0.461 5,LR=0;同理该样本的M隶属于{(Large,15),(Normal,5), (Small,3)}的程度为(0.300,0.700,0)。

2.2 激活权重计算

在得到上述置信分布后,需要激活所有规则下前置属性的权重,只有这样所得到的结果才具有可信度。通常,对于第k条规则下的激活权重ωk的计算可以用以下公式来获取[7]:

(6)

2.3 NTL异常性结果输出

本文采用ER[8]算法来集合所有置信规则下的前提属性输入值,以此获取针对用户用电量NTL结果属性中每一个参考值的信任程度。该算法所产生的输出结果如公式(7)所示:

O(X)=S(Bj)={(Cj,χj),j=1,…,N}

(7)

式中:χj代表参考值Cj的最终置信度,计算公式如(8)所示。

(8)

式中:χjk代表第k条规则中第j个等级的置信度。

本文中,选取的输出结果分布分别是NTL异常、电量正常,且将NTL异常的数据标定为0,电量正常的数据标定为1。综上所述,本文所提数据标定方法的总体流程如图2所示。

图2 总体流程Fig.2 Overall flow chart

3 基于LSTM网络的NTL异常检测方法

3.1 LSTM网络

传统神经网络在处理长时间序列时,容易产生梯度消失的问题,比如循环神经网络(recurrent neural networks,RNN)[9]。为了解决这个问题,提出了LSTM[10]。它主要是在RNN的隐藏层中加入了元件单元和三个控制门,即输入门、遗忘门和输出门,其结构如图3所示。其中,输入门的主要作用为更新元件单元中的信息,遗忘门的主要作用为过滤或保留元件单元中上一时刻的信息,输出门主要负责控制信息的流出,而元件主要负责存储网络先前时刻的信息。

图3中,Z代表神经元的加权和,其中t为当前网络的时刻,下标l、c、y和o分别代表输入门、元件

图3 LSTM结构Fig.3 Structure of LSTM

(9)

(10)

(11)

(12)

(13)

(14)

(15)

(16)

(17)

3.2 基于BRB和LSTM的NTL异常检测方法

正是因为在LSTM网络中,加入了三个控制门和元件单元,从而使得该网络对特征信息具有很好的记忆功能,解决梯度消失问题的同时提高了网络的稳定性。该网络不仅适用于处理长时间序列问题,而且在故障的检测和识别方面取得了不少成果。文献[11]提出了一种基于主成分分析(principal components analysis, PCA)和LSTM网络的海底观测网电力系统供电海缆的故障定位方法,该方法利用PCA强大的数据特征提取功能,结合LSTM来有效捕获多源数据的时间特征,从而建立电力系统故障特征与电气参数之间的对应关系,实现海缆故障的精确定位。文献[12]提出了一种基于LSTM网络的短期交通预测智能系统,与其他传统的预测模型不同,该文提出的LSTM网络通过一个由许多存储单元组成的二维网络来考虑交通系统中的时空相关性,从而提高预测的准确性。文献[13]提出了一种基于LSTM递归神经网络和常用测量信号的检测方法,来实现对铁路轨道电路故障的检测与识别。实验结果表明,与卷积网络相比,LSTM网络体系结构更适合于用来对时间序列的故障进行检测与识别。

然而上述方法虽然能够在一定程度上提高模型对故障的检测率,但是它们普遍存在的一个问题是没有对数据样本进行相应的自动标定处理,不能为模型提供稳定可靠的训练样本,从而导致模型训练不充分,降低了网络的普适性。因此,本文借助BRB系统强大的决策能力和LSTM网络对时间序列故障检测的优势,提出一种基于BRB和LSTM网络的NTL检测方法,该网络的训练建立在BRB标定数据的基础上,提供鲁棒性更好的训练样本的同时,提高网络的普适性和检测的准确性。其整体流程如图4所示。

如图4所示,本文所提检测方法的主要步骤为:

图4 基于BRB和LSTM网络的NTL异常用电检测总体流程Fig.4 Overall flow chart of NTL abnormal power consumption detection based on BRB and LSTM network

1)通过BRB模型对真实用电量数据进行数据标定,其标定的类别为NTL异常用电和正常用电,从而分组得到训练集和测试集;

2)建立两个LSTM子网络分别处理异常用电序列和正常用电序列,并根据LSTM的输入维度,将训练集和测试集以时间序列为单位进行分割,作为网络的输入,以获取故障特征;

3)为了得到最终的NTL异常用电检测结果,本文采用Softmax回归分类模型来对LSTM子网络的输出特征进行分类。

注意,图4中的LSTM单元代表的是LSTM的网络基本结构。特别地,在步骤2)中,之所以设计两个LSTM子网络,是为了增强模型对不同样本数据提取特征的能力,从而为Softmax分类器提供鲁棒性更强的类别信息,提高其对用电异常类别的检测准确率。其中,Softmax回归模型的损失函数为:

(18)

4 实验结果

4.1 实验数据及参数设定

本文采用国家电网公司发布的真实用电量数据[4],该数据集包含1 035天内(2014年1月1日至2016年10月31日)42 372个用电客户的用电量数据,并且国家电网公司公布了这个数据集中包含有3 615个偷电者,异常用户比例接近9%。本文选取其中1 000个用户在2014年1—12月的实际用电数据作为网络的训练数据集,如表1所示。同时,选取100个用户在2015—2016年间的无标签实际用电数据作为网络的测试集。另外,为了验证BRB模型的性能,本文选取2015年1—12月某一电表的数据为测试标定样本集,如表2所示。

表1 用电训练样本集Table 1 Training sample set of electric power consumption kW·h

表2 用电测试样本集Table 2 Test sample set of electric power consumption

对于图4中带有Softmax分类器的LSTM检测模型,本文选取的输入时间步长为20,输入步长为15,每批次样本数量为32,学习率设置为0.001,采用自适应矩估计(adaptive moment estimation,ADAM)[14]的优化方法。

4.2 数据预处理

在进行BRB训练之前,为了进一步减少数据样本的差异性,提高模型的诊断效率,首先需要对样本数据进行预处理。本文采用最大-最小尺度法来归一化样本数据,即:

(19)

式中:v(xi)表示归一化之后的样本数据;xi代表任意一个样本值;X为总体数据样本;min(X)代表样本集的最小值;max(X)代表样本集的最大值。当数据归一化后,接下来根据式(1)和式(2)对样本数据进行特征提取,分别为测试样本数据的电量波动系数CV和毛刺宽度总和M,如图5和图6所示。

图5 测试样本每月电量波动系数Fig.5 Monthly power fluctuation coefficient of test samples

图6 测试样本每月毛刺宽度系数 Fig.6 Monthly burr width coefficient of test sample

4.3 方法验证

4.3.1 异常用电数据标定

结合图5和图6可得,该电表的电量波动系数CV在3月份和9月份明显比其他月份大,同时其在当月的毛刺宽度总和系数M也相对较高,因此,可以初步判定该用户存在窃电行为。然而,该电表在4月、7月和8月的电量波动系数也相对较高,但是各自月份中的毛刺宽度总和系数又相对较小,这就无法判断该用户是否存在窃电行为。因此,仅采用本文所提的用电量异常特征,不足以判断用户是否存在窃电行为。为了验证本文所提方法的有效性,首先根据式(4)和式(5)将训练样本数据进行输入转换;接着,结合式(6)—(8),训练BRB系统;最后,将测试样本数据的用电量异常特征输入转换到系统中,得到的最终置信规则库如表3所示。

表3 训练后的置信规则库Table 3 Confidence-rule base after training

表3中的置信度结果反映了测试样本在图5和图6中的特征值与真实用电行为之间的因果关系,能够准确地标定出异常用电数据。比如,图5和图6中3月份的电量波动系数和毛刺宽度总和系数都很高,对应于表3中的规则1,其含义是:在当前时间范围内,电量波动系数较大(Big),毛刺宽度总和系数也较大(Large),其确定的NTL异常的置信度为98.32%,用电量正常的置信度为1.68%,且该条规则的可信度为1,即100%相信在此规则下所预测的异常结果。对于4月份用户的用电行为诊断同样可以采用这种方法来解释:该时间范围内,电量波动系数较大(Big),毛刺宽度总和系数正常(Normal),其确定的NTL异常的置信度为88.69%,用电量正常的置信度为11.31%,且90%相信在此规则下所预测的异常结果。因此,本文所提的用电量波动系数CV和毛刺宽度总和M,结合BRB方法来进行异常用电量数据的标定具有较高的可靠性,同时可以大大提高数据标定效率。

4.3.2 NTL异常用电检测结果对比

为了进一步验证本文所提方法的有效性,将本文方法与其他先进的基于数据驱动的网络检测方法进行比较,其中包括稀疏自动编码器(sparse auto encoder,SAE)[15]、RNN[16]、深度信念网络(deep belief network,DBN)[17]、反向传播神经网络(back propagation neural networks,BPNN)[18]等。另外,在对比实验中,本文也进行一些消融实验验证,比如不采用BRB模型,只采用LSTM+Softmax分类器等。另外,本文采用K层交叉检验(K-fold cross validation,K-CV)方法来评估各网络的性能,其中K在本文中设置为6。实验中,对每个模型进行15次的重复性实验,取平均准确率为各模型的NTL异常用电检测准确率。实验结果如表4所示。

表4 本文所提方法与其他方法的检测准确率对比Table 4 Accuracy of the proposed method compared with other methods

从表4中可以看到,本文所提方法(BRB+LSTM2)相较于其他的方法,具有最高的准确率(92.56%),紧随其后的是BRB+LSTM1(88.74%)、LSTM(86.62%)、DBN(85.16%)、RNN(82.48%)、SAE(76.39%)和BPNN(74.53%)。特别地,相较于LSTM,本文方法在加入BRB模型后,其准确率提高了5.94%;并且相较于只采用一个LSTM网络结构的检测率(88.74%),采用两个LSTM网络将准确率提高了3.82%。由此可见本文所提的基于BRB的数据标定方法能够提供更加鲁棒的正负样本训练集,从而较好地提升网络对于NTL异常用电的检测准确率。最后,本文以2016年上半年数据作为测试集,对本文所提方法进行实验验证,结果如表5所示,可以看到其准确率维持在90%以上,从而验证了本文所提的基于BRB和LSTM网络的用电异常检测模型在检测用户的NTL异常用电上是有效的。

表5 2016年上半年国家电网公司用户用电数据[4]异常检测实验结果Table 5 Experimental results of abnormality detection of power consumption data of state grid users in the first half of 2016[4]

5 结 论

针对智能输配电损失中的NTL异常检测困难,本文在原始用电量数据的基础上,提出一种以电量波动系数和毛刺宽度总和特征相结合的用户异常用电行为检测方法,同时首次在电力用电异常检测上采用BRB方法来量化上述特征,以此来自动标定正负样本集,为网络的训练提供真实可靠、鲁棒性高的有标签数据训练集。接着,以此为基础,本文又提出了采用LSTM+Softmax分类器的异常用电检测网络模型。实验结果表明,基于BRB和LSTM的网络检测模型具有很好的鲁棒性,能够较准确地诊断出NTL异常情况,且具有很好的泛化功能,为电力大数据中用户用电行为的分析与决策提供了一种新思路。

猜你喜欢
毛刺用电量标定
02 国家能源局:1~7月全社会用电量同比增长3.4%
01 国家能源局:3月份全社会用电量同比增长3.5%
一种铸铁钻孔新型去毛刺刀具的应用
使用朗仁H6 Pro标定北汽绅宝转向角传感器
一种筒类零件孔口去毛刺工具
1~10月全社会用电量累计56552亿千瓦时同比增长8.7%
可抑制毛刺的钻头结构
基于匀速率26位置法的iIMU-FSAS光纤陀螺仪标定
新型铜合金化学去毛刺剂的研制
电镀与环保(2017年2期)2017-05-17 03:42:21
船载高精度星敏感器安装角的标定