基于自适应滚动匹配预测修正模式的光伏区间预测

2022-02-21 09:34顾佳琪郑建勇
电力自动化设备 2022年2期
关键词:置信区间覆盖率出力

梅 飞,顾佳琪,裴 鑫,郑建勇

(1. 河海大学能源与电气学院,江苏 南京 211100;2. 东南大学电气工程学院,江苏 南京 210096)

0 引言

在碳中和和碳达峰的双碳背景下,光伏能源将大规模接入电网[1]。由于光伏功率受周围环境因素的影响,如光照强度、温度及湿度等[2],光伏出力具有随机性与波动性。光伏功率直接接入配电系统将会影响配电系统的安全与稳定性。因此,准确进行光伏功率预测是光伏大规模并网的重要环节[3]。

光伏预测可分为点预测[4]和区间预测[5]。相较于点预测,区间预测能通过不同置信区间对光伏输出功率的概率信息进行分析,量化不确定性因素对光伏预测的影响,更能反映光伏功率变化的趋势,为电网调度、光伏并网提供了有利的参考信息[6]。

国内外学者对光伏区间预测进行了广泛而深入的研究,主要可分为上下边界理论及概率区间预测2 个方面,其中上下边界理论是直接预测光伏功率的上下边界。文献[7]采用神经网络NN(Neural Network)进行点预测,并采用粒子群优化PSO(Particle Swarm Optimization)算法对隐藏层和输出层的权重进行优化调整,直接预测上下边界。文献[8]对预测模型进行改进,采用核极限学习机KELM(Kernel Extreme Learning Machine)替代神经网络模型。除了可利用PSO算法构建算法的上、下区间外,还可利用梯度下降的算法。文献[9]设立长短期记忆LSTM(Long Short Term Memory)神经网络的2 个目标损失函数,采用梯度下降训练方法求解上下区间。

概率区间预测分为统计规律的区间预测[10]、分位数回归[11]、bootstrap[12]等。文献[10]统计预测误差的分布情况,利用核密度估计的误差分布拟合误差模型,构建不同置信区间下的风电预测区间模型。文献[11]采用长短期记忆分位数回归LSTMQR(Long Short Term Memory Quantile Regression)模型直接预测风速区间。

为了提高光伏预测的精度,可从学习率、训练尺度、学习算法等方面进行提升[13],也可将数据划分为不同类别分别进行预测。文献[14]采用Adaboost改进的K近邻算法对历史数据进行分类,并分别对不同类别数据进行预测。文献[15]对历史光伏出力数据直接进行k-means聚类,并对不同的聚类分别建立预测模型进行误差分析。

对于一段未知的光伏曲线,出力时间、结束时间以及曲线类型均未知,无法直接预测非零光伏功率以及获取曲线类型。此外,传统的区间预测大多建立在点预测的基础上,预测模型相对复杂。综上,本文提出基于自适应滚动匹配预测修正模式的光伏区间预测方法,实现光伏曲线类型自适应匹配、预测和修正。首先,提出结合小波能量的谱聚类方法,对历史光伏数据进行聚类;其次,构建不同类别、不同置信区间下数据的输入和区间输出,采用宽度学习系统BLS(Broad Learning System)进行训练,并建立不同类别、不同置信区间、不同预测功率区间的stable误差分布,找出对应分位点数值;然后,根据目标函数找出每个预测功率区间最优修正分位点数值;最后,采用自适应滚动匹配预测修正模式预测光伏功率,即在滚动的过程中,采用动态时间规整DTW(Dynamic Time Warping)算法进行实时聚类相似度匹配,根据匹配结果预测上下区间的功率范围,并根据功率大小进行实时修正,直到完成最终的预测。

1 结合小波能量的谱聚类

1.1 小波分解

小波包对信号的每一层分解可以滤波出高频信号和低频信号。将给定的时域信号x(t)分解为j层:

式中:Ei为信号分解后第i段的信号能量。

波形的波动变化反映了能量的变化,波形波动越大,能量也就越大。附录A图A1和图A2分别为对晴天和阴天小波进行分解后的结果。由两图可知:晴天的光伏曲线较平稳,发电量也较高;阴天由于受云层遮挡等因素影响,光伏曲线波动较大。当光伏出力波动时,高频小波能量发生明显变化,波动越剧烈,产生的能量越大;而对于平稳类型的光伏出力,由于波动小,产生的能量也小。因此,可借助高频小波能量对平稳曲线和非平稳曲线进行划分。

由于光伏出力曲线多种多样,平稳和波动的出力很难进行界定,因此,本文借助人工经验进行判断。为了避免出力大小对能量系数的影响,本文在提取高频小波能量时进行归一化处理。不同光伏曲线的高频小波能量如附录A 图A3 所示。经过综合判断,本文将以小波能量0.01 作为光伏类型划分的界限。图A4 选取了小波能量最靠近0.01 的2 条光伏曲线,由图A4 可以看出,小波能量为0.010 5 的光伏曲线在前半段有些波形抖动,而小波能量为0.009 8 的光伏曲线整体比较平稳。当然,一定的波动对平稳性的预测以及聚类的精度影响不大。

1.2 结合小波能量的谱聚类

传统的聚类方法采用欧氏距离、余弦距离等进行聚类,很容易将光伏出力相当的波动和平稳类型的光伏出力划分在一起,因此,本文先利用小波能量将平稳类型的光伏出力从样本集中提取出来,再对非平稳的光伏出力进行谱聚类[16]。同时考虑到每个月的天气因素,如温度,变化不是很大,因此,对非平稳部分按月进行聚类,并计算每个月中每个聚类的平均出力和平均高频小波能量,将其作为最终的特征量,完成最终的聚类。该过程借助底层聚类的思想,并且将高维的光伏曲线降维到2 维数据更有助于提升聚类效果。为了选取聚类最合适的参数,本文利用CH(Calinski-Harabaz)指标选取最佳聚类数量和参数。平均高频小波能量和平均出力分别为:

结合小波能量的谱聚类具体步骤如下:

1)利用高频小波能量提取平稳的光伏曲线;

2)确定光伏聚类的数量范围以及参数范围;

3)采用CH 指标确定谱聚类的最佳聚类数量以及参数,并对每个月的非平稳光伏曲线进行聚类;

4)计算每个月中每个聚类的平均高频小波能量以及平均出力;

5)将平均高频小波能量以及平均出力作为特征,采用k-means进行最终的聚类划分。

2 基于最小绝对收缩和选择算子的BLS预测模型

BLS 与传统深层神经网络的不同在于,它是基于随机向量函数连接神经网络RVFLNN(Random Vector Functional-Link Neural Network)进行构建的,具有训练参数少、求解速度快等优点[17]。

BLS 由输入层、特征层、强化层以及输出层组成,如附录A图A5所示。特征层Z由N1个特征窗组成,每个特征窗包含N2个特征节点,用来进行特征提取。强化层H仅包含1 层,由N3个强节点组成。将原始输入数据X通过特征层进行数据提取得到一系列特征映射,第i组的特征映射如式(5)所示。

Zi=φ(XWe,i+βe,i)i=1,2,…,N1(5)

式中:Zi为第i组映射特征;We,i为第i组特征权重;φ(⋅)为特征函数,本文取线性函数作为特征函数;βe,i为第i组的偏置项。

数据的稀疏特性不但有利于减小新生成数据的线性相关度,而且有利于提高数据运算速度和效率以及更有效地表达数据特征。因此,本文基于最小绝对收缩和选择算子LASSO(Least Absolute Shrinkage and Selection Operator)对每组的权重进行稀疏重构。

将稀疏重构后的特征层所有特征节点组合成Z=[Z1,Z2,…,ZN1],经非线性函数映射到增强层:

3 自适应滚动匹配预测修正模型

自适应滚动匹配预测修正模型分为自适应滚动匹配模型以及预测修正模型。

3.1 自适应滚动匹配模型

对于一段未知的光伏曲线,由于无法知晓实际的光伏曲线类型,因此无法采用合适的模型进行预测。本文以DTW 算法[18]对未知光伏类型和已知光伏类型进行自适应滚动匹配。具体的匹配原则为:计算待匹配的光伏序列和已知簇的每条光伏曲线的DTW 距离,以平均值最小的原则来判断最为相似的聚类簇,如式(10)所示。

自适应滚动匹配模型可以表述为:时间序列y1、y2、…、yn为某日前n个功率实测数据,利用DTW算法将该时间序列和不同聚类类别进行相似性匹配,找出最相似的聚类类别,在预测下一时刻出力时,采用该相似簇的预测模型进行预测。到达n+1时刻后,将该时刻实测数据yn+1加入原始序列中,形成新序列y1、y2、…、yn、yn+1。采用DTW 对新序列重新进行相似度匹配,匹配出与该时间序列最相似的聚类类别,在n+2时刻采用该聚类类别进行预测。在n+2 时刻预测时需剔除最远的功率点,以保证数据等维输入,即采用序列y2、y3、…、yn+1进行预测。按这种滚动匹配预测模式,完成一整天的发电功率预测。

3.2 预测修正模型

区间预测修正模型是建立在区间预测和误差修正的基础上的。本文预测模型的输出区间数据直接根据置信区间α进行构造。光伏输入为预测数据前n个时刻功率数据,输出数据为n+1 时刻数据的(1-α,1+α),如式(11)所示。

本文以功率间隔划分预测功率区间,如功率间隔为0.1 MW,则将预测功率区间划分为[0,0.1)、[0.1,0.2)MW 等区间。为了精细化预测,分别对预测的上边界以及下边界进行预测功率区间划分,上、下边界的预测功率区间最终范围取决于上、下边界的预测最大值所在范围。建立不同类别、不同置信区间以及不同上、下边界预测功率区间的误差分布,确定其分位数功率点,根据修正优化目标函数确定每个预测区间的最优修正分位数点功率。在本文中,这些分位点分别为5%、10%、…、95%。

3.3 区间预测指标及修正优化目标函数

光伏功率的区间准则从可靠性和清晰度2 个方面确定。可靠性用实际观测值落入预测区间的概率表示,该值应尽量大;清晰度用预测区间宽度表示,该值应尽量小。本文用3个指标衡量预测的准确性。

1)预测区间覆盖率PICP(Prediction Interval Coverage Probability)指标。预测区间覆盖率用来评估预测区间的可靠性,该指标反映实际值落入区间的概率,如式(13)所示。预测区间覆盖率越大表示越多的实际值落入区间中,预测效果越好。

式中:ePICP为预测区间覆盖率;κi为二进制变量,若实际功率包含于所构建的预测区间内,则其值为1,否则为0。

2)预测区间平均带宽PINAW(Prediction Inter⁃val Normalized Average Width)指标。预测区间平均带宽反映了预测清晰度,如式(14)所示。区间宽度越窄,区间覆盖率越高,区间预测效果越好。

3.4 自适应滚动匹配预测修正模型具体流程

基于自适应滚动匹配修正模式的光伏区间预测方法的流程图如附录A图A6所示,具体流程如下。

1)采用所提聚类方法对历史光伏数据进行聚类。

2)挑选出每个聚类的80%数据作为训练数据,每个聚类的其余20%数据作为测试数据。

3)对每个聚类的不同置信区间的训练数据进行BLS训练,并确定BLS的最优训练参数。

4)建立不同聚类、不同置信区间以及不同上、下边界预测功率区间的stable误差分布,并通过修正优化目标函数确定每个预测功率区间最优误差修正数值。

5)采用自适应滚动修正模式对未知光伏功率进行滚动区间预测。用DTW 滚动匹配最佳的聚类类型,用BLS 滚动预测光伏区间,修正数值根据预测的数值进行上、下边界修正,直到完成一天的预测。

4 算例分析

为了验证本文所提方法的有效性,选取我国无锡某2.8 MW 的光伏电站所测得的全年光伏功率作为数据基础。对365 d 的光伏曲线剔除不良与缺失的光伏数据,共得到345 组数据。每15 min 取一个采样点,每天共96个点。

4.1 最优滚动步长的确定

不同的滚动步长对区间预测精度有所影响。为探寻最优滚动步长,本文计算不同步长下不同置信区间的3 个指标数值,并取它们的平均值进行比较,综合评断最优滚动步长,结果见附录A 图A7。由图可知,不同步长的预测区间平均带宽相差不大于0.01,但预测区间覆盖率约相差0.15,带宽平均偏差相差0.7 左右。相较于其他步长,步长3 的预测区间覆盖率平均值最高,带宽平均偏差平均值最低,预测区间平均带宽平均值与最优的预测区间平均带宽相差0.007 5,但整体差距不大。因此,步长为3 时指标总体最优,选取3 作为最优滚动步长。结合15 min的采样时间,本文以预测前15、30、45 min的实测数据作为输入,开始滚动时刻为00:15,采用00:15、00:30、00:45时刻的实测数据,开始预测时刻为01:00。

4.2 聚类方法的有效性

为验证所提聚类方法的有效性,将其与k-means聚类、未结合小波能量的谱聚类以及无需指定聚类数量的近邻传播聚类AP(Affinity Propagation)聚类进行比较。传统的k-means 聚类和谱聚类采用CH 指标获得最佳的聚类数量,并相应确定各聚类的BLS最优参数。k-means聚类聚成2类,谱聚类聚成2类,AP 聚类聚成9 类,结合小波能量的谱聚类连同平稳部分一共聚成4 类。采用BLS 进行滚动预测,效果见附录A表A1。由表可知:AP聚类即使是在带宽较大时,整体的预测区间覆盖率也较低;采用k-means聚类的预测区间覆盖率略低于所提方法,但预测区间平均带宽却大于所提方法,这说明k-means聚类牺牲了预测区间平均带宽来提高预测区间覆盖率;未结合小波能量的谱聚类预测区间平均带宽略大于所提方法,但预测区间覆盖率平均值较低。总体而言,结合小波能量的谱聚类的预测区间覆盖率明显高于传统方法,预测区间平均带宽也明显大于传统方法。

附录A 图A8 为50%的置信区间下不同聚类方法的光伏曲线预测图,图A9为在滚动预测过程中采用DTW 算法匹配得到的聚类类型。本文所提聚类方法将光伏曲线分成4 类,在刚开始光伏出力为0时,匹配类型默认为1,随着光伏开始出力,由于整体出力情况不清晰,匹配得到的类型也可能是近似的类型,有2 个时刻判断为类型2,同时在光伏出力较小时有4个出力判断为类型1,当光伏轮廓比较清晰时,整体的类型判断为最终的类型3。其他聚类方法未能合理化聚类,导致类型判断的过程中出现反复判断的现象:AP 聚类由于聚成的数量较多,判断的过程中更换的模型也较多,导致整体的预测效果较差;聚成2类的谱聚类在进行模型更替的2个时刻出现了预测的偏差;k-means预测效果和所提方法较相似,但聚成2类导致得到的整体区间宽度要大。

4.3 基于BLS的区间预测

为验证本文所采用的基于LASSO的BLS宽度学习算法的有效性,将其与传统的BP 神经网络、深度学习的LSTM 神经网络、无需进行梯度训练的KELM进行比较。训练参数如附录A 表A2所示,预测结果如表A3所示。由表A3可知,不管是哪种模型,置信区间的增大均使得预测区间平均带宽增大,使落入区间内的实际数值点增多;BP神经网络模型的预测区间平均带宽平均值最大,预测区间覆盖率平均值较低,带宽平均偏差平均值较高;BLS 模型的区间平均带宽平均值小于KELM 模型和LSTM 模型,但预测区间覆盖率平均值却高于LSTM 模型和KELM 模型0.1 左右。选取表A3 区间平均带宽较接近的10%~30%的置信区间的预测区间覆盖率情况进行比较,如表1所示。由表可知,BLS模型在低置信区间下的预测精度比其他模型要高出0.1~0.2。

表1 低置信区间下不同预测模型的预测区间覆盖率Table 1 PICP of different prediction models under low confidence interval

附录A 图A10 为不同方法下不同置信区间的光伏曲线。由图可知:当采用BLS 模型预测光伏出力时,各区间有很好的层次划分,所预测的曲线不仅很好地落入区间内,而且更偏于区间中间,即使在10%的置信区间内也有很好的落入效果;当采用BP神经网络模型和KELM 模型时,10%的置信区间偏离了预测曲线,在20%~30%的置信区间时曲线才能落入其中;虽然LSTM模型和BLS模型的置信区间层次划分效果大体一致,但在高置信区间时,有些预测点依旧不能落入区间内;当采用BP神经网络模型进行零点预测时,上边界的预测值偏大,整体的区间带宽较大,其他模型的零点预测效果均优于BP 神经网络模型。

4.4 误差修正

本文以修正误差方式在缩小带宽的同时进一步提高预测区间覆盖率。本文以0.1 MW 间隔进行划分。stable分布是高斯分布的一般化,其具有所有稳定分布的特性,因此本文选用stable分布进行误差拟合。以下边界预测功率为[0.4,0.5)MW时的预测误差为例,附录A 图A11 为其概率分布图。由图可以看出,stable分布进行误差拟合的效果明显优于其他方法,尤其是对于高功率时的误差以及误差为0时。

在不同类别、不同置信区间、不同功率预测区间的最优分位数点修正功率确定后,在进行滚动预测的过程中,根据所预测的上、下区间的功率大小进行合适的修正功率补偿。经误差修正后的预测区间覆盖率、预测区间平均带宽以及带宽平均偏差见表2。

由表2 可知,相较于修正前,虽然修正后的预测区间平均带宽平均值只降低了0.001,但是预测区间覆盖率平均值约提高了0.1,带宽平均偏差平均值也降低了0.409。修正后的整体效果有了明显提升。当置信区间低于50%(α<0.25)时,预测上边界和下边界的区间偏小,导致整体的区间落入率并不高,通过增大区间宽度可以提高区间的落入率,从而减小区间偏差。以修正20%(α=0.10)的置信区间为例,修正后的预测区间覆盖率为0.644,明显大于40%的置信区间,预测区间平均带宽增加,但低于40%的置信区间,未落入点的带宽平均偏差也低于40%的置信区间。图1 为20%的置信区间下修正前、后的光伏区间预测图。由图可知,修正后的区间带宽明显增大,因此,落入区间的点也随之增多,未落入区间的点更接近区间的上、下边界。

表2 修正前、后的预测精度Table 2 Prediction accuracy before and after correction

图1 20%的置信区间下修正前、后的光伏区间预测Fig.1 Photovoltaic interval prediction before and after correction under 20% confidence interval

当置信区间高于50%(α>0.25)时,由于上、下带宽较大,因此,落入区间的实际功率点较多,预测区间覆盖率较高,带宽平均偏差较小。通过对误差大小进行修正,减小高功率的区间宽度,增大低功率的区间宽度,提高预测精度。以置信区间为90%为例,修正后的预测区间覆盖率为0.931,比修正前的高,而修正后的区间带宽为0.165,比修正前的窄。附录A图A12 为90%的置信区间下修正前、后的预测图。由图可知:在出力较大的点减小上、下功率区间的出力,减小了整体的区间带宽;在出力较小的点增加出力,提高了小功率区间下的落入率。因此,修正后整体的区间带宽有了明显缩减,落入率有所提高。

4.5 区间预测方法比较

为了验证本文所提出的实时预测修正方法的有效性,将所提方法和传统的基于正态分布估计的概率区间预测和LSTMQR 进行对比,结果如附录A 表A4所示。由表可以看出:相较于另外2种方法,本文所提方法在更小的区间带宽下有更高的区间预测精度以及更低的区间偏离程度;相较于基于正态分布估计的概率区间预测和LSTMQR,本文所提方法的预测区间平均带宽平均值分别减小了0.031 和0.016,但预测区间覆盖率平均值却分别提高了0.128 和0.082;基于正态分布估计的概率区间预测效果最差,整体的区间预测精度最低。

图2 为3 种方法在90%的置信区间下的效果图。由图可知:基于正态分布估计的概率区间预测虽然在低功率下有很好的预测效果,但却牺牲了带宽,在高功率的带宽下预测效果较差;LSTMQR 虽然在高功率下有很好的预测效果,曲线基本落入区间内,但上、下带宽较大;本文方法能在减小功率区间带宽的同时,使更多的点落入预测的上、下带宽内。因此,本文方法比传统方法更具精确性与合理性。

图2 90%的置信区间下不同预测方法对比Fig.2 Comparison of different prediction methods under 90% confidence interval

5 结论

由于光伏出力的不确定性,光伏概率预测已经成为光伏功率预测的趋势。本文提出一种新颖的光伏区间预测方法,着眼于数据本身,直接构造不同置信区间下的数据集,集聚类、相似度匹配、预测、修正为一体实现对未知光伏曲线的预测,以预测区间覆盖率、预测区间平均带宽、带宽平均偏差3 个区间预测指标衡量所提方法的有效性。

1)本文将区间预测问题简单化,不再基于传统点预测,而是直接构建预测区间,对模型进行训练和测试。

2)本文采用自适应滚动算法,不仅进行光伏区间的自适应滚动预测和修正,而且提供非等长时间序列类型匹配方法。

3)本文对聚类方法、预测模型以及最终的效果进行了大量的对比实验。在聚类方面,将AP 聚类、k-means 聚类、谱聚类以及本文的聚类方法进行对比。在模型测试方面,将BLS 宽度神经网络与BP 神经网络、LSTM、KELM 进行比较。在最终预测效果方面,与概率预测以及LSTMQR 进行对比。结果表明,本文所提方法在3 个方面均在更小的预测区间下有更高的预测区间覆盖率以及更低的区间带宽平均偏差。本文所提方法能够用于对未知光伏曲线的测试,且有更高的预测精度。

附录见本刊网络版(http://www.epae.cn)。

猜你喜欢
置信区间覆盖率出力
基于贝塔分布的最优置信区间研究
民政部等16部门:到2025年村级综合服务设施覆盖率超80%
Maxwell分布参数的最短置信区间研究
我国全面实施种业振兴行动 农作物良种覆盖率超过96%
p-范分布中参数的置信区间
定数截尾场合Pareto分布形状参数的最优置信区间
电信800M与移动联通4G网络测试对比分析
“出力”就要做为人民“出彩”的事
基于实测数据的风电场出力特性研究
汽车内饰件用塑料挂钩安装力及脱出力研究