基于变压器特性数据聚类的电力负荷分布式预测

2020-08-24 08:07吴琼段炼乡立黄锦增魏艳霞孙毅
广东电力 2020年8期
关键词:特征向量聚类变压器

吴琼,段炼,乡立,黄锦增,魏艳霞,孙毅

(1.广东电网有限责任公司广州供电局,广东 广州 510630;2.华北电力大学 电气与电子工程学院,北京 102206)

电力负荷预测是保证电力系统稳定且经济运行的重要基础,不同时间跨度的负荷预测有着不同的应用目的[1]。高精度的短期负荷预测在有效降低发电成本方面具有关键作用[2]。然而电力系统中负荷种类的增加及多电源并网,产生了大量的结构化、半结构化、非结构化的大数据,且变压器负荷数据的非线性及复杂性逐渐增强[3]。随着数据挖掘预测算法和统计学方法的进步,各种优化算法被大量引入负荷预测中。为了提高电力系统短期负荷预测的准确性,文献[4]提出了基于双层随机森林算法的电力系统短期负荷预测模型。Amjady和Keynia等将小波分析法[5]应用于预测中长期负荷,虽然可以适应负荷的二重特性,但其存在训练时出现局部最小值、预测时的收敛速度较慢等问题[6]。而最小二乘支持向量机(least squares support vector machines,LSSVM)具有拟合度高、适用性强等特点,可以较好地解决小样本、非线性、高维数、局部极小点等实际问题[7],但存在训练时间长、输入数据维度高等缺点。文献[8]则将灰色关联度与LSSVM组合用于负荷预测,可以减少数据输入维度,但存在无法区别特征负荷的重要缺陷。文献[9]采用K-means算法定义节假日变量,考虑日期与气象的交叉效应,提出融合日期类型与气象因素的多元线性回归短期负荷预测模型。长短期记忆(long short term memory,LSTM)神经网络是一种循环神经网络(recurrent neural network,RNN)的改进模型,解决了RNN的梯度消失和爆炸问题,使网络能够有效地处理长期时间序列数据,已应用于电力负荷预测[10-11],所得误差明显低于其他方法,极大地提升了电力负荷预测精度。然而,上述文献均未能很好地解决预测计算时间较长和复杂度较高的问题。

因此,为了降低计算的复杂度,减少计算时间,本文针对大量的变压器特性数据及负荷数据,提出一种基于变压器特性聚类的电力负荷分布式预测算法,为供应商预先控制电源出力及制订相应的负荷调控策略提供理论支撑,以减少对电网的冲击,提高清洁能源消纳[12-13]。

1 基于核主成分分析的变压器特性聚类

1.1 基于核主成分分析的变压器数据预处理

1.1.1 核主成分分析原理

核主成分分析(kernel principal component analysis,KPCA)首先采用非线性变换将输入空间映射到高维特征空间,然后在高维空间采用主成分分析(principal component analysis,PCA)方法提取主成分,实现非线性降维。

对于输入N维空间的M个样本xk(k=1,2,…,M),xk∈RN(RN为N维样本空间),协方差矩阵

(1)

式中xj为第j个样本矩阵。

对于PCA来说,通过求解式(1)的协方差矩阵来求得特征值和相应的特征向量,获得贡献率大的特征值及与之对应的特征向量α。

引入非线性映射函数Φ,将输入空间原始样本点xk(k=1,2,…,M)变换为特征空间中样本点Φ(xk),并假设

(2)

则特征空间中的协方差矩阵

(3)

因此,KPCA就是求解λv=C1v中的特征值λ和特征向量v,两边同乘Φ,可以得到:

λ(Φ(xk)v)=Φ(xk)C1v.

(4)

v可以线性表示为

(5)

则式(4)可以表示为

(6)

求解式(6),可得到要求的特征值和特征向量。对于测试样本来说,其在特征空间向量上的投影为

(7)

定义M×M矩阵K中元素为元素为特征向量,则式(6)可表达为

MλKα=K2α.

(8)

将式(7)进行内积替换则有

(9)

具体步骤如下:

a)得到原始输入样本,假设共M个样本,每个样本N维数据,则可以得到M行N列矩阵;

b)选择适当的核函数,本文选择径向基核函数;

c)计算特征值λ和特征向量v;

d)将特征值按照从大到小排列,并调整与之对应的特征向量;

e)采用Gram-Schmidt正交化方法将特征向量单位化,得到新的特征向量α;

f)计算特征值的贡献率以及累计贡献率,计算方法同PCA,根据事先设定的提取效率来提取主成分分量;

g)计算提取出的特征向量上的投影,即为经过KPCA降维后的数据。

1.1.2 变压器数据提取

从与变压器物理特性、地理特性及台区负荷相关的角度考虑,选取变压器特性数据见表1。

表1 变压器特性聚类数据选取Tab.1 Selection of transformer characteristic clustering data

本文采用的是南方某省的真实变压器数据,不可避免地存在数据缺失、错误等情况,而因为数据的缺失和错误导致的问题将直接影响算法模块最终结果的准确率以及算法模块的训练时间。因此,本节采用插值法以及归一化这2个步骤对数据进行预处理。

输入数据的质量及维度会影响K-means聚类算法的计算效果及神经网络的训练效果,高维数据的聚类效果较差,冗余信息较多。为防止信息的冗余聚类,本文使用KPCA对变压器特性数据进行过滤,保留主成分信息。

变压器数量较多且特性数据存在一定的冗余度,采用KPCA对数据提取主成分,然后聚类划分变压器。

1.2 基于K-means算法的变压器聚类

1.2.1K-means算法

K-means算法通常以距离为样本间相似性评价指标来进行簇中心初始化、簇划分、簇中心点更新与收敛判断[14]。K-means算法实现较容易,收敛速度快,分类时仅需要调节簇数K,加入模型后计算速度快,在输入数据较密集时可以较好地区别分类结果。算法步骤如下:

第1步:初始化类中心。变压器特性数据集D由n个特征向量组成,可以由D={D1,D2,…,Dn}表示,在D中随机选取K个特征向量标记为初始聚类中心E={E1,E2,…,EK}。

第2步:类划分。在K-means聚类算法中距离的计算方法主要分为有序属性距离度量、无序属性距离度量、混合属性距离度量。将变压器特性数据集中的所有特征向量以欧式距离最近划分至各个类中心,其中特征向量Di(i=1,2,…,n)到Es(s=1,2,…,K)的欧式距离

(10)

式中:a为变压器特性数据的向量维度;T为某地变压器总数。

第3步:更新类中心。在各类中计算各变压器特征向量到当前类其他数据向量的距离和,选取距离和最小的负荷数据向量作为新的类中心,如

(11)

式中:rDij为特征向量Di到Dj的距离;J为Di所在类的特征向量个数;rnum为Di到当前类所有向量距离之和。

重复上述步骤,一直到聚类的中心特征向量不发生改变,此时得到聚类的结果。计算各类特征向量与聚类中心向量的距离和,并将样本中超过设定阈值的负荷数据筛除。

第4步:评价指标及确定K值。K类中心的数值设定为前期人为输入,一般按照实际需求决定或者直接给定,后期采用聚类的有效性指标确定最佳聚类个数[15]。本文中采用簇内误方差(sum of squared errors,SSE)及轮廓系数共同确定多变压器特性的聚类个数。

1.2.2 基于特性数据的变压器聚类

基于多变压器特性数据的高维数据聚类结果,本文首先采用KPCA方法对原始特性数据进行主成分降维,降到二维的可视化数据(主成分A和主成分B),之后采用K-means算法对变压器特性数据进行聚类分析,基于负荷特性数据将变压器划分为K类,如图1所示。

在变压器特性聚类的基础上,提取聚类后的变压器信息,将各变压器有关负荷的特性数据输入灰色关联度模型,求出每一类中各变压器与中心变压器的相关度,如图2所示。

2 基于变压器聚类的负荷预测模型

2.1 LSTM网络模型

LSTM网络是一种改进的RNN,在RNN基础上增加了遗忘门[15]。改良后的LSTM网络解决了在模型训练中的梯度消失问题。时间序列LSTM网络基本单元如图3所示,其中f、i、g、o分别为遗忘门、输入门、输入节点、输出门,xt为时间步t的输入(下标“t”代表时间步t,下同),St为时间步t的单元状态,ht为时间步t的中间输出。

图1 多变压器特性数据聚类过程Fig.1 Clustering process of characteristic data of multiple transformer

图2 变压器关联度分析过程Fig.2 Analysis process of the correlation degree of transformer

图3 LSTM网络基本单元Fig.3 Basic unit of LSTM network

LSTM网络的基本单元中包含遗忘门、输入门和输出门。遗忘门中输入xt与状态记忆单元St-1、中间输出ht-1共同决定状态记忆单元遗忘部分。输入门中的xt分别经过sigmoid和tanh函数变化后共同决定状态记忆单元中保留向量。中间输出ht由更新后的St与输出ot共同决定,计算公式如下[16]:

ft=σ(Wfxxt+Wfhht-1+bf);

(12)

it=σ(Wixxt+Wihht-1+bi);

(13)

gt=φ(Wgxxt+Wghht-1+bg);

(14)

ot=σ(Woxxt+Wohht-1+bo);

(15)

St=gt⊗it+St-1⊗ft;

(16)

ht=φ(St)⊗ot.

(17)

式中:Wfx、Wfh、Wix、Wih、Wgx、Wgh、Wox和Woh分别为相应门与输入xt和中间输出ht-1相乘的权重矩阵;bf、bi、bg、bo分别为相应门的偏置矩阵;⊗表示向量中元素按位相乘;σ表示sigmoid函数运算;φ表示tanh函数运算。

2.2 基于变压器聚类的LSTM网络预测模型

基于变压器特性聚类的LSTM网络负荷预测对大量变压器特性数据降维,采用K-means聚类将变压器划分为K类,并选取每一类中心的变压器负荷数据,基于LSTM网络输出特性样本训练基,其过程如图4所示。

步骤1:定义电压等级、变压器类型、额定容量、售电量、供电量、并联低压用户数、月度最高负载率、经纬度等为特性变量。采用KPCA方法提取特性数据主成分,降低数据的冗余度与复杂程度,最终得到主成分A与主成分B。

步骤2:基于各类特性数据针对主成分A和主成分B进行K-means聚类,最终划分为K类变压器。

步骤3:对每一类中的变压器特性数据(如电压等级、变压器类型、额定容量等),采用灰色关联度算法进行相关性分析,得到相关性最低与最高的变压器,并提取其月负荷数据以及每一类聚类中心的一个变压器的月负荷数据。

步骤4:将聚类中心变压器负荷数据输入LSTM网络,得到各类特性样本训练基。将各类变压器负荷数据分别输入对应的特性样本训练基中,得到各变压器的短期负荷预测曲线

3 算例分析

本文算例在Inter(R)Core(TM)i7-8750H CPU@2.20 GHz,RAM 16 GB,操作系统Windows10的Spyder上实现。

本文的实验数据使用南方某省2019年11月100台10 kV变压器的特性数据及96点负荷数据作为数据集。变压器特性数据基本信息见表2。

图4 K-means-LSTM负荷预测模型Fig.4 K-means-LSTM load prediction model

表2 变压器特性聚类数据选取Tab.2 Selection of clustering data for transformer characteristics

3.1 评价指标

为了衡量本文所提方法的预测结果与负荷实际值的确定性误差,参照文献[17]选择概率密度曲线的峰值,计算众数和中位数与实际值的均方根误差ERMS、平均绝对百分比误差EMAP。

a)均方根误差ERMS。均方根误差亦称标准误差,其公式为

(20)

归一化后ERMS范围为[0,1),当预测值与真实值完全吻合时ERMS=0,即完美模型;误差越大,该值越大。

b)平均绝对百分比误差EMAP。平均绝对百分比误差其公式为

(21)

归一化后EMAP范围为[0,1),EMAP=0表示完美模型,EMAP>1则表示劣质模型。

表3为本文K-means-LSTM模型与基于自适应矩估计的LSTM(adaptive moment estimation-LSTM,ADAM-LSTM)模型[18]的负荷预测精度与计算时间对比,其中ERMS、EMAP为归一化后的值。

表3 变压器负荷预测精度与计算时间对比Tab.3 Comparison between load prediction accuracy and calculation time

由表3可以看出,K-means-LSTM模型与ADAM-LSTM模型的预测精度相差不大,其中在相关度较大的变压器负荷预测时ERMS差值为0.002、EMAP差值为0.003,在相关度较小的变压器预测时ERMS差值为0.01、EMAP差值为0.009。

为进一步验证所提模型的预测性能,在训练特性基及预测变压器负荷时,加入计时函数提取模型运行时间,并提取LSTM网络的特性参数,验证模型的计算时间及算法复杂度的优化程度。由表3可以看出,相较于ADAM-LSTM模型,K-means-LSTM模型在预测精度仅牺牲0.2%~1.5%的情况下,计算时间减少75%,显著提升了算法性能。

3.2 变压器聚类结果分析

通过聚类评价指标SSE与轮廓系数得到K=3时聚类效果最好。聚类结果如图5所示,聚类分析的各项指标见表4,特性样本训练基如图6所示。

由图5可以看出,9个变压器特性数据经KPCA降维后,采用K-means聚类方法可以将不同类型的变压器较为清晰地划分为3类,第1类的变压器数量较少,第2类变压器的数量最多。

图5 K-means聚类结果Fig.5 K-means clustering results

表4是对图5中部分具有代表性且可以验证后续实验中样本训练基预测准确性的变压器聚类数据的展现,如第1类变压器中选取编号为64号的中心变压器与相关度分别为85%、13%的73号、39号变压器。

从图6可以看出,第1类及第3类变压器负荷较高,第2类变压器负荷相对较低。K-means聚类方法可以根据不同变压器的特性数据,如低压用户数、经纬度、变压器类型等,将不同变压器负荷的趋势、周期与其他日期负荷区分开来。该省负荷构成中工业负荷占了很大比例,而工业生产的连续性决定了工业负荷受节假日的影响较小,变压器负荷的周期性较高。在日负荷特性中,晚高峰负荷水平显著高于早高峰,本文算例分析中采用约90%的负荷数据作为训练参量,即用2019年11月前27天的负荷数据预测后3天的负荷数据。由图6的结果可以看出:11月28、29日为星期四、星期五(工作日),3类训练基的负荷曲线变化趋势基本相似;11月30日为星期六(休息日),其负荷曲线与前2日相比变化较缓,负荷分布相对平均,峰值负荷相对较低。

表4 聚类分析的各项指标Tab.4 Indicators of cluster analysis

图6 特性样本训练基Fig.6 Characteristic sample training base

3.3 基于相关性变压器的负荷预测仿真

基于各变压器特性数据,利用灰色关联度算法区分变压器的相关性,并选取相关程度最低与最高的变压器11月负荷数据,输入变压器特性训练基中预测后3天的负荷数据。预测结果如图7、图8所示。

图7 低相关性变压器负荷预测Fig.7 Load prediction of low-correlation transformer

由图7、图8可以看出本文方法的预测曲线与实际曲线依然有较高的吻合度,表明K-means-LSTM模型的预测效果相对较好,这是因为通过特征提取使得样本的可学习性能增强,从而降低了数据维度的复杂性和抽样时的误差。此外,K-means-LSTM模型的学习能力更强,泛化性更高,对提升算法的工程实践意义具有积极作用。

图8 高相关性变压器负荷预测Fig.8 Load prediction of high-correlation transformer

4 结论

a)在数据处理阶段,KPCA可以有效避免不同的特性数据之间的信息冗余并通过降维来降低复杂度,提升聚类的效率。

b)相比于ADAM-LSTM模型,本文所提的K-means-LSTM模型可以在保证预测精度损失较小的前提下,减少LSTM模型的训练次数,缩短预测时间,降低计算复杂度,提升模型的整体性能。

c)在实际的工程应用方面,本文所提出的K-means-LSTM模型对设备条件的要求较低,计算时间短,实时响应性能较好,可以为后续的分布式电源调度及用户激励机制的制订提供实时性的数据基础。

d)本文算例对用电峰值时刻的负荷预测效果较差,而最高负载率是评价变压器的重要指标,对配用电的影响较大。在后续的研究中,将对变压器负荷峰值时刻及负荷值的预测展开进一步的研究。

猜你喜欢
特征向量聚类变压器
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
理想变压器的“三个不变”与“三个变”
基于K-means聚类的车-地无线通信场强研究
开关电源中高频变压器的设计
一类特殊矩阵特征向量的求法
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
基于高斯混合聚类的阵列干涉SAR三维成像
一种不停电更换变压器的带电作业法
基于Spark平台的K-means聚类算法改进及并行化实现