数据流驱动的电压三相不平衡异常检测研究

2023-05-24 08:15王大鹏闫永昶刘通宇张园园袁培森
南京理工大学学报 2023年2期
关键词:数据流三相电力企业

刘 波,王大鹏,闫永昶,刘通宇,张园园,袁培森

(1.国网蒙东电力供电服务监管与支持中心,内蒙古 通辽 028000;2.国网内蒙古东部电力有限公司,内蒙古 呼和浩特 010010;3.南京农业大学 人工智能学院,江苏 南京 210095)

目前,我国电力智能不断推进,受益于“智能电网”技术的深入研究,电力企业的数据管理和服务水平近年来有显著提高[1]。智能电网引入自动化技术等手段对电力机器进行实时监测,对有可能出现的问题进行控制,实现故障快速诊断[2]。在电能数据管理中,电力企业普遍建立一个统一的、可复用的大数据平台——数据中台,将电能数据整合成数据资源并服务于各种电力业务[3]。但是随着电力企业智能化的发展,电力数据中台需要对不同时间、不同地理上离散的电能量大数据进行统一和标准化管理[4]。当前配电网主要依靠传感器实现相关控制和监督功能,传感器收集的数据量庞大[5],亟需更高效的电能数据中心和人工智能平台[6]对大数据特征的电能量进行可靠的分析与挖掘,提高电力企业服务水平和经济效益。解决其问题的关键是如何提高电能量数据的分析水平和质量。

电压三相不平衡异常检测是电力企业对电能量数据进行分析处理的一个重要部分。三相不平衡是评价电能质量评价体系中的一个重要指标,不平衡的电压存在着正序、负序和零序3种电压分量[7]。三相不平衡是指电力系统中这三相电流(或电压)幅值不一致,且幅值差超过规定范围[8]。引起三相不平衡的原因有多种,例如断线故障,接地故障,因基频谐振或分频谐振引起供电电压波动或闪变,三相负荷分配不合理等[9]。三相不平衡的所带来常见危害包括:增加线路和配电变压器的电能损耗,配变出力减少及产生零序电流,电动机效率降低,危害用电设备安全运行等[10]。相关学者对电压三相不平衡异常检测进行了相关研究,文献[11]提出了一种基于距离的离群点算法定位疑似窃电用户,其中讨论了三相电流不平衡对于台区线损率的影响。文献[12]提出了一种基于多目标优化模型三相电压负荷不平衡的治理策略,对三相电压数据的异常检测和挖掘,有助于提高电力企业智能化服务水平,为电网维护和故障定位提供参考依据。文献[13]研究了一种基于保留非线性的三相配网状态估计算法,该算法计即三相不平衡,从方法上解决了三相模型的非线性状态估计,适用于由功率的实时量测和伪量测建立起的基本可观、并有部分电压量测的系统。

目前,由于智能电网和物联网的迅速发展,电能量数据产生的速度不断提高[14]。由于数据是实时产生的,对数据进行批处理耗费的成本过高,传统的基于数据集的异常检测已经难以满足行业需求。另一方面,电能量数据是一种时间序列数据,由于异常是与时间和前后数据相关的,对于时间序列的异常检测并不能孤立地考察每一个样本点[15]。因此需要寻求一种面向数据流的异常检测方法,去解决三相电压的异常检测问题。

根据对数据流的采样建模方法,目前基于数据流的异常检测方法主要可以分为基于神经网络的和基于随机森林的。前者以Numenta公司提出的使用分级瞬时记忆(Hierarchical temporal memory,HTM)人工神经网络模型[16]为代表,这是一种自适应的、无监督的数据流异常检测方法;后者以Amazon公司提出的鲁棒性的随机切割森林算法(Robust random cut forest,RRCF)[17]为代表,该方法基于随机森林,提出了一种鲁棒性的随机森林结构,描述数据流和计算样本异常评分。上述两类方法在传感器数据流和卫星遥测数据流的异常检测上,被证明具有可行性和有效性,具有良好的应用前景。

本文通过神经网络对数据流的特征进行建模,依据神经网络模型对数据流进行判别。长短期记忆(Long short-term memory,LSTM)神经网络是一种改进后的循环神经网络。基于LSTM可以进行长短期记忆的特性,常用于时间序列的预测,例如网络攻击数据预测[18]和用电数据异常检测[19]等。LSTM的预测体现了数据流的特征,这可以很好满足通过预测结果判断数据流的异常分析的需求。

在上述研究和相关理论的基础上,本文针对电力企业的电压三相不平衡异常检测这一实际问题,提出一种数据流驱动的异常检测方法。本文方法主要关注数据流的异常检测,基于时间序列数据的相关性,使用LSTM神经网络三相电压时间序列数据进行预测;设定滑动窗口,使用指数加权移动平均对误差进行平滑,基于滑动窗口计算异常区间以判断某一时间段是否出现异常。本文试验部分选用电力企业提供的真实三相电压时间序列数据,实现上述方法并进行试验,试验结果表明本方法相较于常用的异常检测方法,包括孤立森林算法和支持向量机,对于三相电压时间序列数据,召回率和综合评价指标F1表现较好,表明本方法具有可行性和有效性,为电力企业进行三相不平衡异常检测和分析提供了一种可行的方案。

1 电压三相不平衡异常检测框架

三相不平衡是评价电能质量的一个重要指标,三相不平衡超过了配电网可以承受的范围,会给整体电力系统的安全运行带来危害。三相不平衡问题属于基波负荷配置问题[10]。三相电压不平衡度的计算,如式(1)所示

(1)

式中:UA、UB、UC分别表示A、B、C三相电压有效值,单位是V,max{·}和min{·}分别表示取最大值和最小值。根据现行《国家标准GB/T 15543-2008》规定的三相电压不平衡度限值,接于公共连接点的每个用户引起该点负序电压不平衡度允许值一般低于1.3%[20]。

因此,鉴于三相不平衡对电力企业的重要性和数据价值,本文提出一种数据流驱动的电压三相不平衡异常检测方法,帮助电力企业对电能异常情况及时预警和定位,以此提升电力企业排障能力和电能数据处理分析水平,进而进一步提高服务质量和经济效益。

本文提出的数据流驱动的电压三相不平衡异常检测方法,处理框架如图1所示。主要包含以下步骤:

图1 数据流驱动的电压三相不平衡异常检测框架图

(1)对原始三相电压时间序列数据进行预处理,检查缺失值以及线性插值法对缺失值补充,提升数据质量;

(2)对原始电压数据进行标准化处理,计算为标准分数;

(3)利用LSTM神经网络对预处理和标准化后的三相电压时间序列数据进行预测,预测值与实际值计算误差;

(4)确定滑动窗口大小,使用指数加权移动平均法对误差进行平滑;

(5)基于时间窗口,利用平滑误差和描述统计方法计算给定异常区间,以此判断时间窗口是否存在异常样本点。

2 数据流驱动的异常检测

2.1 数据预处理和标准化

从数据库导出某台区某段时间的三相电压时间序列数据,主要数据项包括A、B、C三相电压实际值,每条记录包括时间戳。数据记录产生的速度为每15 min采集1次。

在进行异常检测前,需要对数据质量进行评估,原始数据通常会出现若干缺失值。对于时间序列数据,简单地删除包含缺失值的记录是不合适的,本文使用线性插值法(Linear interpolation,LI)对缺失值的记录进行插值补充。

为了体现原始电压时间序列数据的模式特征,增强下一步骤的LSTM神经网络的训练效果,需要对数据进行标准化处理[21]。分别将A、B、C三相电压值转化为服从标准正态部分的标准分数,计算方法如式(2)所示

(2)

式中:xt是标准化三相电压值,Xt是原始电压值,μ和σ分别是原始电压数据总体的均值和标准差。

经过上述预处理和标准化,得到标准化三相电压时间序列数据xt。

2.2 LSTM神经网络预测

一种基于循环神经网络(Recurrent neural network,RNN)改进后的LSTM神经网络可有效解决一般循环神经网络存在的长期依赖问题[22],RNN能够通过先前的事件推测后续的事件,使得信息的持久化保留和预测。RNN的隐藏层只有一个状态h,对短期的输入非常敏感,LSTM在此基础上增加了一个长期状态C,基于该特性,LSTM适合处理和预测时间序列。

如图2所示,将神经元按照时间维度进行展开,使用LSTM对时间序列数据进行预测。

图2 使用LSTM对时间序列预测示意图

在t时刻,LSTM神经网络的输入有3个,当前时刻网络的输入值xt,上一时刻LSTM的输出值ht-1,上一时刻的单元状态Ct-1。

对于每一个LSTM神经网络,其结构如图3所示。图3包含3个主要部分,分别是:①遗忘门,遗忘门保存了上一时刻的状态Ct-1有多少保留至当前时刻ct;②输入门,输入门当前时刻的输入xt有多少保留至单元状态Ct;③输出门,输出门用于控制当前单元状态Ct有多少输出至当前输出ht。系统最终输出由状态单元和输出门共同决定。LSTM神经网络通过3个控制开关来控制状态C。LSTM神经网络在t时刻的前向传播,如式(3)所示[22]

图3 LSTM神经网络结构示意图

ft=σ(Wf·[ht-1,xt]+bf)

it=σ(Wi·[ht-1,xt]+bi)

ot=σ(Wo·[ht-1,xt]+bo)

ht=ot∘tanh(Ct)

(3)

式中:Wf、Wi、Wc、Wo分别为遗忘门、输入门、细胞状态更新、输出门的权重矩阵,bf、bi、bc、bo分别为上述权重矩阵对应的偏置项,σ(·)代表sigmoid函数,tanh(·)代表双曲正切函数,[·,·]表示向量的连接,符号st=βst-1+(1-β)et表示向量对应分量相乘得到一个新的向量。

对于LSTM神经网络的训练,需要确定上述8个参数的取值。使用反向传播训练算法进行训练。其主要步骤[22]如下:

(1)首先,对每个神经元输出值,进行前向计算,即按照式(3)计算ft、it、Ct、ot、ht的值;

(2)对每个神经元的误差项δt,进行反向计算,沿2个方向传播LSTM误差项:①沿时间的反向传播,即从当前t时刻开始计算每个时刻的误差项;②向上一层传播;

(3)根据相应误差项δt,计算每个参数的梯度值,通过随机梯度下降(Stochastic gradient descent,SGD)法迭代更新所有的参数。

在上一步骤中,将预处理和标准化后的三相电压时间序列数据划分为训练集和测试集。利用反向传播算法对LSTM神经网络进行在训练集上进行模型训练,得到标准化电压三相数据特征的模型,使用训练出的模型,利用前向传播算法得到基于该模型的预测值。

2.3 指数加权移动平均

由于三相电压存在正常的波动性,直接使用上一步骤得到的LSTM神经网络预测值与实际值的误差et进行异常判断会导致将大量正常样本判定为异常样本,因此需要对误差et进行平滑。由于电压时序数据是一种流式数据,本方法是数据流驱动的,因此需要充分考虑时间序列数据的相关性。

本文利用指数加权移动平均(Exponential weighted moving average,EWMA)[23]方法对误差进行平滑,EWMA是一种针对时间序列数据的预测方法,也是一种常用的时间序列处理方式,在各种优化算法中有广泛的应用。

(4)

其平滑误差st定义如式(5)所示

(5)

式中:st-1是前一时刻(即时刻t-1)的平滑误差,参数β是权重,其取值由滑动窗口大小进行确定。指数加权移动平均方法中,时刻t的预测值由上一期的预测值和前t-1期的实际值共同确定,其中从最近的时刻t-1到时刻0权重,以等比形式递减。在优化算法中通常取β≥0.9,又由

(6)

当N足够大时,βN≈0,其对应项的系数也趋向于0,因此计算时刻t的预测值仅考虑其前N期的真实值,即相当于维护一个长度为N的滑动窗口,N的取值由式(7)确定

N=1/1-β

(7)

三相电压数据通常每15 min采集1次,在24 h内共计采集96次。考虑到电力企业实际应用需要,通常以1 d为周期进行分析,因此设定滑动窗口长度N=96,依据式(7)即可计算得到参数β的取值。

2.4 异常区间和异常样本的判定

经过指数加权移动平均的平滑误差st,与之对应的长度为N的滑动窗口的平滑误差st的绝对值|st|体现了这段时间内三相电压数据的异常程度,平滑误差越大,则说明样本点的异常程度越大。因此在滑动窗口的范围内,若存在超过某一范围的样本点,则说明该时间段存在异常,这一个范围称之为异常区间。对于电压三相不平衡的异常检测,本方法设定的异常区间如式(8)所示

(8)

3 试验分析

3.1 试验环境

本文基于Windows 10系统,8 GB内存,Intel(R)Core(TM)i5-7200U,2.5 GHz处理器进行试验。本方法全部基于Python 3.6实现,主要依赖包括sklearn 2.4、pandas和keras。

3.2 数据集及其划分

数据集采用电力公司提供的台区配变监测数据,时间范围从2020年6月1日至2021年4月8日,每15 min采集1次得到1条记录。对同一台区的记录,提取其中A、B、C三相电压原始数据UA、UB、UC以及时间戳Timestamp,共计29 790条记录。

获得的数据集是带有正常和异常标签的,每一条记录都带有是否为异常的标记。选取数据集中70%的数据作为训练集,30%的数据作为测试集。

3.3 评价指标

本文的异常值检测结果评价,通过精确率(Precision)、召回率(Recall)和综合评价指标F1(F1-measure)这3项指标进行评价,计算方式如式(9)~(11)所示

(9)

(10)

(11)

式中:TP、TN、FP、FN分别表示异常检测为异常、正常检测为正常、正常检测为异常、异常检测为正常的样本点个数。精确率反映了方法识别得到异常是真实的比例,召回率反映了算法识别得到的异常覆盖了真实异常的比例,综合评价指标F1是精确率和召回率的调和平均数。

对于电压三相不平衡异常检测问题,“漏报”比“误报”导致的后果要更加严重,召回率反映了对异常检测的覆盖程度,因此在评判异常检测效果时,应当首要考虑召回率,其次考虑精确率。

3.4 试验结果和分析

依据本文提出的数据流驱动的电压三相不平衡异常检测方法,首先,对数据集进行预处理和标准化。第二步,使用70%样本构成测试集,对LSTM神经网络进行训练,通过反向传播训练算法训练得到LSTM网络权重矩阵和偏置项的参数取值。测试集由30%样本构成,计算预测值和真实值的误差,再通过指数加权移动平均得到的平滑误差(滑动窗口大小N=96),计算异常区间判别是否产生异常(判断异常的滑动窗口与指数加权移动平均的滑动窗口一致)。图4给出了本方法所述的异常检测过程和结果,包括数据标准化,LSTM神经网络预测、计算误差、指数加权移动平均平滑误差、滑动窗口中异常区间的计算和检测。

图4 异常检测的过程和结果

图4(a)是原始的三相电压数据,为了更好地描述其特征,将其进行标准化处理,得到图4(b)的标准化三相电压电压数据。从图4(b)可以看出,LSTM神经网络能够很好地预测三相电压的变化趋势,对标准化后的三相电压时间序列数据的特征有较好的拟合,能避免电压正常的周期性波动。图4(c)展示了误差和经过指数加权移动平均得到的平滑误差,说明指数加权移动平均能够显著地在滑动窗口内平滑误差的波动。图4(d)展示了检测出的一次异常,阴影部分标记了异常对应的滑动窗口,上下水平线指出异常区间的范围,可以看到标记点由于落在了异常区间内,因此被判定为异常。

结合图4(d)的异常检测结果和图4(a)的原始三相电压值,可以看出在6月1日4时左右,电压存在异常突变,表明本方法对于三相电压数据流的异常检测具有正确性和可行性。

对共计8 937个的样本测试集,采用本方法进行异常检测,计算检测结果的召回率、精确率和综合评价指标F1,试验结果如表1所示。

表1 异常检测结果和评价指标

从表1可以看出,使用本方法进行异常检测,召回率表现较好,达到了98.01%,说明本方法对于真实异常的覆盖表现较好,证明了本方法的对于电力企业具有一定的应用价值。

为了对比不同方法对于三相电压数据集异常检测的效果,本文还选取2种目前常用的异常检测方法进行对比试验,分别是孤立森林(Isolation forests,IF)[24]和支持向量机(Support vector machine,SVM)[25]。使用相同的数据集进行对比试验,其中IF的主要参数设定为MaxSamples的数目设置为128,即抽取用于训练每个基本估计量的样本数量最大为128个,Trees的数目设置为100,即IF模型中包含的树棵树为100,Alpha参数设置为0.02,即学习速率为0.02;SVM的主要参数设定为C参数设置为1.0,即损失系数为0.1,Degree参数设置为3,即选择的多项式最高次数为3次多项式,tol参数设置为0.001,即残差收敛条件为0.000 1。数据集划分的比例与之前的试验保持一致,分别是训练集占70%,测试集占30%。试验结果如表2所示。

表2 3种异常检测方法的对比结果

由对比试验结果可以看出,本方法相较于IF和SVM,在召回率指标上提升显著,分别提高6.87%和2.96%,说明本方法相较于IF和SVM,在对于真实异常的识别上,覆盖程度较广;在精确率指标上,有一定程度的提高,分别提高4.75%和6.03%,说明本方法能一定程度上降低正常样本点被误判为异常(即第一类错误)发生的概率,但是仍有较大提升空间;在综合评价指标F1上,由于本方法在召回率上提升显著,因此综合评价指标F1相较于IF和SVM分别提高5.73%和4.62%。

综上测试结果,本方法对于三相电压数据流的异常检测问题,相较于常用的IF和SVM方法,有着较好的异常检测效果,在召回率指标和综合评价指标F1有良好的表现,这验证了数据流驱动的电压三相不平衡异常检测方法具有一定优越性和可行性。

4 结束语

本文针对电力企业的电压三相不平衡异常检测这一实际问题,提出一种数据流驱动的异常检测方法。主要利用LSTM神经网络预测和指数滑动移动平均针对数据流进行异常检测。接着使用真实三相电压时间序列数据进行试验,试验结果表明本方法相较于常用的异常检测方法,在召回率和综合评价指标F1上有提高。综上所述,数据流驱动的电压三相不平衡异常检测方法具有可行性和有效性,为电力企业进行三相不平衡异常检测和分析提供了一种可行的方案。

猜你喜欢
数据流三相电力企业
三相异步电动机保护电路在停车器控制系统中的应用
汽车维修数据流基础(下)
电力企业物资管理模式探讨
一种提高TCP与UDP数据流公平性的拥塞控制机制
中国电力企业的海外投资热潮
关于电力企业生产管理信息系统的设计与实现应用
基于数据流聚类的多目标跟踪算法
三相PWM整流器解耦与非解耦控制的对比
北医三院 数据流疏通就诊量
基于DSP和FFT的三相无功功率测量