夏 懿,丁 坤,马慧莲,王 鹏,张 铄
(1.国网甘肃省电力公司临夏供电公司,甘肃 临夏 731100;2.兰州理工大学电气工程与信息工程学院,甘肃 兰州 730050)
在国家制定的“双碳”目标引领下,节能降损成为国网供电公司的首要任务。配电网线损问题日渐突出,据统计,其线损量约占电力网损耗的40%[1]。为实现降本增效,提升线损精细化管理水平,同期线损管理系统得到了大力推广应用[2]。早期线损管理中理论线损计算实时性较差、精度低,究其原因主要是运行记录数据不完整、数据采集和处理能力较差,只能简化计算方法[3]。随着新型电网量测设备推广应用,线损管理系统的数据呈现多源(来源于营销、规划、采集、PMS、GIS及OMS/SCADA等不同系统)、多类型(电气、运行和信息)、多颗粒度(日、小时、分钟,户表、台区、线路和分区)等特性。线损管理系统融合了6大业务系统的海量数据,呈现出多源异构特征[4]。不仅数据来源难以考证,还存在各种噪声的干扰,出现传输错误、突变以及数据空缺或重复等异常现象[5-6],因此,对异常数据的辨识十分困难,需用人工智能与数据挖掘技术进行数据辨识、修正与融合。
有相关学者对此进行了大量研究。文献[7]和文献[8]提出通过线损理论值与实际值的差别进行辨识,但该方法需要依赖配电网结构参数建立模型进行线损计算,受限于模型精度、拓扑结构及数据基础,因而实用性较差。文献[9]采用小波分解法对故障分量去噪,并采用改进多分类支持向量机实现故障识别。文献[10]对异常数据的辨识采用基于自编码器的算法,并设置合适的重建概率阈值,实现海量数据的检测。文献[11]应用二维小波阈值去噪,依据多维特征构建相似性矩阵,用多层聚类方法识别异常数据,准确率得到了一定提高。但上述方法的异常数据辨识准确率不高,且相关研究对线损异常数据仅进行了辨识处理,而缺乏进一步的修正处理,直接影响线损率计算精度。
针对上述方法的不足和异常数据修正问题,本文提出了一种基于DBSCAN-新息序列的初级辨识和通过时间惯性二次辨识的异常数据多级辨识方法,以及改进LSTM的修正方法。
对于异常数据的辨识,本文提出的多级多方法联合检验原理如图1所示。基于DBSCAN聚类算法和新息序列检验的初级辨识,将2种辨识结果的交集数据作为异常数据,非交集数据作为可疑数据。对于初级辨识出的可疑数据通过时间惯性的检验方法进行二次辨识。若可疑数据与前后时刻呈现强相关性,则为正常数据;否则为异常数据。
图1 多级异常数据辨识原理
DBSCAN算法是一种密度聚类算法,能对不规则形状的聚类问题进行处理,同时对包含噪声的数据也有良好的处理效果,即该算法在识别数据集中不规则形状聚类的同时,还可以识别噪声[12]。
DBSCAN算法聚类结果的优劣取决于邻域距离阈值Eps和邻域密度阈值MinPts。MinPts是指邻域范围内包含数据点的临界值。为能更大程度地识别异常值,本文将2个连续的边界点也纳入可疑数据集中,后续再进行可疑数据的筛选。基于DBSCAN算法的异常数据聚类流程如图2所示。
图2 DBSCAN算法流程
具体实施步骤如下所述。
a.设置聚类参数Eps和MinPts。
b.选择未经处理的点,若以该点为中心,以Eps为半径,区域内数据点个数小于MinPts,则标记该点为可疑点;否则为核心点。
c.将所有核心点及与核心点相连通的边缘点归为簇A中。
d.重复步骤b,反复寻找未处理点,直至筛选出所有核心点及其连通点。
e.输出聚类结果,聚类结束。
取滑动数据窗窗口为T的新息序列[ek+2-T,ek+3-T,…,ek+1],采用平均新息值协方差作为判断数据异常的标准,其计算公式为
(1)
当ek+1突然增大发生突变时,会造成式(1)协方差大于量测总方差。即
Ee,k+1>Ezz,k+1
(2)
定义噪声尺度因子γk+1,利用γk+1实时调整量测量扰动方差Rk+1,使得式(2)取等,可得
(3)
求解式(3),可得γk+1,即
(4)
量测矩阵中的异常突变数据会导致其在γk+1矩阵中相对应的对角元素大于1。以此为突变量检验标准,将γk+1中对角元素大于1所对应的量测数据定义为可疑数据。
在电力系统正常运行过程中,当线损不发生较大突变时,由于线损数据时间惯性的存在,一般情况下本时刻的线损量会与前后时刻的线损量满足lit-T≈lit≈lit+T的关系,其中lit为线路i在t时刻的线损量,T为数据刷新间隔。因此,可以以采集设备自身的采集精度为标准,利用线损数据自身时间惯性的特性与相邻时刻的线损数据进行对比,检验本时刻线损数据的异常性。据上述方法,可进行如下判断:假设采集设备的精度为εs,当|(lit-lit-T)/lit|≤|2εs|与|(lit-lit+T)/lit|≤|2εs|至少有1个满足条件时,即可以认为此时的线损量lit不存在异常;当2个条件均不满足时,即可以认为此时的线损量lit为异常值。
当线损数据序列s在时刻t的数据发生异常时,可利用在时间t之前序列s的历史数据对t时刻进行预测修正,即可通过建立历史时间序列预测模型对异常值进行修正。因此,本文建立改进的LSTM神经网络预测模型,预测异常数据并加以修正。
LSTM可以很好的从时序数据中学习经验、对数据进行信息处理和预测[13]。通过引入不同的门结构来对单元状态进行控制。LSTM的单元结构及其改进如图3所示。xt、yt、ht和ct分别为神经元的输入、输出、短期状态和长期状态。在每个时间步,ct-1首先经过1个遗忘门消除一些储存信息,然后通过加法器添加一些新储存信息,得到ct;ct经过由Ot控制的输出门滤波产生短期状态ht和输出yt。
LSTM单元的计算公式为:
(5)
(6)
(7)
(8)
ct=ft⊗ct-1+it⊗gt
(9)
ht=Ot⊗tanh(ct)
(10)
yt=O⊗t(Wi,[tanh(ct),sigmoid(ct),ReLU(ct)]T
(11)
Wxi,Wxf,Wxo,Wxg为与输入xt连接的权重矩阵;Whi,Whf,Who,Whg为与先前短期状态ht-1连接的权重矩阵;Wi为权重矩阵;bi、bf、bo、bg为偏置项。
图3中,ft为t时刻的遗忘门;it为t时刻的输入门;Ot为t时刻的输出门;σ为激活函数。输入门it用来反映新的输入样本xt,决定当前的信息有多少可以记忆到单元状态ct。输入门由激活函数控制,如式(5)所示。遗忘门ft是用来消除前面储存的信息,决定前一时刻的状态信息ct-1可以继续记忆到当前时刻的状态ct,如式(6)所示。输出门可以计算出LSTM的输出值yt,如式(7)所示。2个控制门控制当前时刻LSTM单元的长期状态ct,如式(9)所示。
LSTM对于时序数据的处理是依靠激活函数,若去掉激活函数,无论有多少个单元状态和神经元,对数据的处理效果都会降低。为此,对激活函数进行改进,以提高算法的数据处理性能。原始LSTM输出门的激活函数是单一的tanh函数,改进后将tanh改为ReLU、sigmoid、tanh激活函数的加权,如图3b所示。改进后LSTM输出值yt如式(11)所示。
图3 LSTM及其改进单元结构
为验证所提线损异常数据辨识与修正算法的有效性,采用甘肃临夏某配电台区的运行数据,并在IEEE-69节点的配电网进行仿真验证。为模拟线损异常场景,仿真实验以概率方式改变线路的电阻或电感。并对正常和异常情况下的线损数据进行统计,数据总量为2 000个数据点。采用本文所提算法进行辨识,将辨识结果与真实结果进行比较,检验所提方法的实用性与准确性。
为能更深层次地挖掘可疑数据,将DBSCAN算法的边界节点也纳入可疑数据的范围。在算法操作过程中需通过对Eps和MinPts参数联合调参以获得最优结果,本文选取Eps和MinPts分别为3.6和3.0。
运用DBSCAN-新息序列辨识法对线损数据点进行初级辨识。将仿真总时段的2 000个数据点均匀分割成10个数据段,取其中某一数据段进行仿真测试,初级辨识结果如图4所示。
图4 DBSCAN-新息序列初级辨识
由图4可知,初级辨识分离出了正常数据、可疑数据和异常数据,且分离出的异常数据经与真实值对比基本吻合。将得出的可疑数据点集根据线损数据的时间惯性进行二次辨识,分离异常点与正常点,最终实现异常数据的辨识。
为衡量异常数据的辨识效果,常选取准确率和召回率作为测试指标。其中,召回率为判断异常数据点占全部异常数据的比例。准确率Ppre和召回率Rrec分别为:
(12)
(13)
NTP为真样本;NFP为假样本;NFN为假“负”样本。
为进一步的验证本文方法的优越性,分别仿真计算10个数据段段内的数据辨识准确率和召回率。并与文献[10]和文献[11]所提方法进行对比,仿真结果如图5所示。
由图5可知,本文方法的Rrec及Ppre均在90%以上,各时段的仿真效果均优于其他2种方法。这是因为本文不仅使用了多方法检验的初级辨识,还使用了基于数据本身时间惯性的二次检验降低了数据的误判率,从而保障较高的准确率,充分证明了本文所提多级辨识方法的有效性。
图5 不同辨识方法的准确率和召回率
为了准确评估所提方法在异常数据修正中的性能,本文引入绝对百分误差PAE、平均绝对百分误差PMAE和均方根误差SRME作为异常数据集的评价指标,其计算公式分别为:
(14)
(15)
(16)
依据提出的多级异常数据辨识方法检测出异常数据,再利用训练好的改进LSTM模型对线损异常数据进行预测修正。在此,为验证所提的改进LSTM修正算法的有效性,与SVR、BP和LSTM算法进行对比分析。利用PMAE和SRME评估4种模型修正异常数据的准确性,结果如表1所示。
表1 不同模型的修正结果
由表1可知,改进LSTM模型在这4种模型中表现出最好的修正性能。改进LSTM的PMAE和SRME最低,分别为1.026%和43.134,说明改进LSTM对线损异常数据预测修正的准确性和稳定度最高,验证了本文改进LSTM算法对线损异常数据修正的有效性。
为展现每个异常点的修正值与实际值的误差,计算4种模型每个异常点的PAE,如图6所示。
图6 不同模型每个异常点的PAE
由图6可知,在共计50个的异常数据点中,SVR和BP模型修正值的PAE在0.5%~17%之间波动,其中SVR和BP模型分别在第25和第23个时刻点的PAE值达到最大,分别为16.959%和16.848%。LSTM预测模型的PAE值在0.03%~14%之间波动,最大PAE值出现在第47个数据点,其值为13.958%。本文所提出的改进LSTM模型在该数据集上的表现最好,其波动范围在8%以内,最大PAE值出现在第16个时刻点,最大PAE值为7.539%。
综上对比分析:较之SVR、BP和LSTM算法,改进LSTM算法对异常值修正结果的PMAE和SRME的值均最小的;PAE也整体优于其他3种算法。这表明改进LSTM算法在对异常数据的修正上有更高的精度和更小的误差,也将有利于提高理论线损率的计算精度。
针对配电网海量的数据中存在异常数据问题,提出了一种用于异常数据辨识与修正的方法。深入研究异常数据辨识方法,提出了基于DBSCAN-新息序列算法的初级辨识和基于时间惯性二次辨识的多级辨识方法。通过实际的线损数据仿真实验,得出所提方法对异常数据辨识的准确率和召回率较高。为提高理论线损计算的准确性,建立了改进LSTM模型,对线损异常数据进行修正。通过仿真实验与SVR、BP、LSTM算法相比,所提的异常数据修正方法具有更高的精度。