王清亮,代一凡,王旭东,郝 帅
(西安科技大学 电气与控制工程学院,陕西 西安 710054)
在大规模光伏并网的电力系统中,短期光伏发电功率的随机波动性是影响电力系统电源规划和安全调度的主要因素之一[1-4],通过对其进行概率预测可量化反映光伏功率的不确定性,能有效缓解弃光现象,减少由于备用容量不足而引发的电力系统安全事故。短期光伏发电功率概率预测按照采用模型的不同可分为物理建模法、统计分析法、人工智能法等[5]。物理建模法根据气象信息间接预测光伏发电功率,需要大量测量设备、建模复杂。统计分析法是从历史数据中挖掘光伏发电功率潜在变化规律,具有对测量设备要求不高的优点,但是其对数据质量要求较高,难以准确描述统计数据中蕴含的非线性关系,非晴空条件下光伏发电功率预测精度不高。人工智能法处理非线性映射问题的能力强,能够描述光伏功率与各变量间复杂的映射关系,可用于挖掘非晴空条件下数据的非线性特征,因此,以神经网络为代表的人工智能方法在光伏功率概率预测领域得到广泛应用[6-8],但由于神经网络的模型复杂易产生过拟合现象,导致模型泛化能力不强,在非晴空条件下的预测精度不稳定,基于贝叶斯神经网络(Bayes-ian Neural Network,BNN)的人工智能方法是解决该问题的有效途径。BNN与传统采用固定权值的神经网络不同,它将概率思想与人工智能法相结合,利用贝叶斯方法将神经网络权值改变为服从后验概率分布的随机数,在保证较强非线性映射能力的同时,通过正则化方法降低模型过拟合风险,提高模型的泛化能力,在风电功率、电力负荷预测领域取得较好的预测精度[9-10],同样被广泛应用于光伏发电功率预测领域[11]。但在气象条件短时间内变化较快的非晴空条件下尤其是雨天时,其光伏发电功率预测结果波动大,预测精度极不平稳,导致平均误差在7.3%~12.7%之间波动[12-13]。
上述研究表明BNN可用于短期光伏发电功率概率预测,但该模型是通过降低模型复杂度来减小预测误差,其实质是损失部分非线性映射能力来加强学习能力,气象特征的强波动性和无序性严重影响模型输入输出映射关系的建立,因而并没有从根本上解决非晴空条件下预测精度和稳定性不高的问题[14]。针对上述提及BNN存在的一系列问题,决定首先从改善预测数据质量的角度切入,提升模型综合性能。此外,光伏发电功率预测模型的输入数据包括天气数据和光伏功率的历史运行数据,这两类数据的特性差异较大。天气数据的特点主要表现为在同一时间断面上的快速波动和多模态变化,而光伏功率历史运行数据则具备极强的时序特性[15]。BNN虽有较强的非线性映射能力但对不同特性数据的敏感度差异较大,反映数据时序性的能力不强。鉴于上述提及的两类问题以及解决方案,首先采用改进自适应噪声完备集合经验(Improved Complete Ensemble EMD with Adaptive Noise,ICEEMDAN)分解法对非晴空的气象数据进行平稳化处理,从而降低BNN模型的复杂度,简化映射模型建立的过程,从输入数据入手提高BNN的泛化能力;其次,通过引入长短期记忆(Long-Short-Term Memory,LSTM)神经网络增强BNN模型对时间粒度的敏感性,加强预测模型对光伏功率时序特征的提取能力,更好地获取到光伏功率历史运行数据所蕴含的时序特性。
综上,提出一种基于ICEEMDAN-LSTM-BNN的短期光伏发电功率预测方法,能提高非晴空条件下短期光伏发电功率概率预测的精度和稳定性,点预测值平均误差仅为4.71%~8.59%;同时针对概率预测结果进行分析,以80%~90%置信水平为例,所提模型较之BNN算法,在多云和雨天情况下,其区间预测平均误差仅为5.66%~7 27%。仿真结果充分验证所提模型在非晴空条件下的良好性能和可靠性。
BNN是反向传播神经网络模型与概率模型的结合,它通过正则化算法自动调节网络权、阀值的大小及规模,把影响较小的输入量的权值降得很低,在降低模型过拟合的同时也保证模型具有一定的泛化能力,BNN的权值是一个随机变量,对于回归问题,通常假设其服从正态分布[16],由给定的光伏数据来调整权值的后验概率分布,使其达到概率最大化,并将求出的均值作为网络权值,其结构如图1所示。
图1 BNN结构Fig.1 BNN structure diagram
图1中,X=[x1,x2,…,xn]为输入向量;Y=[y1,y2,…,yn]为输出向量;S={s1,s2,…,sn}为隐藏层向量;ωi为输入层与隐藏层之间的层间权重;ωj为输出层与隐藏层之间的层间权重。
则BNN模型可视为条件分布模型P(Y|X,ω)。利用BNN进行光伏功率预测时首先设置权重参数ω为正态分布N(μ,σ2),通过历史光伏功率数据集对模型进行训练时,需要调整的值为ω的期望μ和方差σ2。
为了提高模型的泛化性能,BNN在常规神经网络误差函数的基础上,利用正则化系数增加网络权及阀值的均方差对误差的影响,即
式中 E为改进后的误差函数;α,β为正则化系数;Eav为网络所有权值平方和的平均值;Ed为常规神经网络的误差函数。
采用贝叶斯方法在网络训练过程中自适应地调节正则化参数的大小,并使其达到最优[17]。BNN虽然具有良好的非线性映射能力和一定的泛化性能,但挖掘预测数据的时序能力不强,还需要通过提高学习能力来实现。
为了增强BNN的时序学习性能,将LSTM神经网络引入到模型中,来捕捉非晴空条件下短期光伏发电功率的时序规律,以进一步提高BNN的预测效果。
传统的神经网络欠缺对光伏发电功率随时间变化这一特性的考量,仅仅关注当前时刻的信息处理。然而光伏发电功率在时间上存在一定的关系,因此传统的神经网络会弱化光伏发电功率预测效果。LSTM神经网络与传统神经网络结构有所不同,其拥有的特殊记忆单元可以将上一时刻的信息应用于当前时刻的信息处理,可以进一步挖掘光伏发电功率随时间变化的本质特征,适合处理和预测时间序列中间隔和延迟较长的问题,得到广泛应用[18-19]。
目前门控循环单元(Gated Recurrent Unit,GRU)与Transformer类算法也常用于处理时间序列问题。GRU较之LSTM 的改进初衷是减少参数,加快收敛过程,提高训练效率,虽然在一定程度上简化了模型结果,但是GRU不能像LSTM那样有效地控制数据流,序列过长时存在梯度消失和梯度爆炸问题[20]。同时在应对数据集较大的情况下,LSTM的性能还是优于GRU[21]。
Transformer类算法为避免过拟合需要大量数据来进行自身的训练,在中期和长期预测任务上都有不错的性能表现。但该类模型过度依赖寻找时序数据的周期特性,不适合对周期性较弱的数据集训练;亦不适合执行短期训练任务。
LSTM神经网络是将循环神经网络的隐含层神经元替换成记忆单元,通过门结构来选择记住或者遗忘信息,3种调节信息流的门结构分别为遗忘门、输入门和输出门[22],LSTM神经网络结构如图2所示。
图2 LSTM神经网络结构Fig.2 Structure of LSTM neural network
图2中,Ct为当前单元状态;ht为当前隐藏层状态;ht-1为上一隐藏层状态;Ct-1为上一单元状态;at为当前输入量;ft为遗忘门;it为输入门;ot为输出门;Lt为添加到当前单元状态的Ct候选值;δ为sigmoid函数;g为tanh激励函数为逐点相乘为逐点相加。
遗忘门决定对前一个阶段状态信息的遗忘程度。
输入门的作用是往当前的状态中添加新信息。
式中 Wia,Wfa,Wca为连接输入信息at的权值矩阵;Wic,Wfc为连接神经元激活函数输出值Ct和门函数的对角矩阵;Wih,Wfh,Wch为连接隐含层输出信号ht的权值矩阵;bi,bf,bc为输入门、遗忘门、候选值Lt对应的偏置。Ct-1ft为确定有多少信息将从Ct-1中遗忘;Ltit为确定有多少信息添加到新单元状态Ct。
通过输出门sigmoid层的信息与通过tanh层的记忆细胞中的信息相乘得到模型最后的输出。
将模态分解思想引入BNN,通过对气象数据进行模态分解,从而降低预测对模型复杂度的高需求,以解决非晴空条件下气象数据的多尺度多模态短期变化对预测模型的影响。
ICEEMDAN模态分解法[23]作为一种自适应性时频分析法,通过在分解过程中添加高斯白噪声,较之传统的经验模态分解法和集成经验模态分解法能够更有效地解决模态混叠问题[24-25]。文中采用的气象数据包括太阳总辐射强度、组件温度、环境温度、气压、相对湿度。其中太阳总辐射强度定义为太阳的辐射经过地球大气层的反射、吸收、散射等光学作用后,最终到达地球表面上单位面积时间内的太阳辐射能量;组件温度定义为光伏电池板周围的地表温度;环境温度指光伏电站所处的外界环境温度;气压指大气压强;相对湿度是用来描述空气湿润程度的物理量。
气象数据经ICEEMDAN分解后可突出气象序列在不同时间尺度下的局部特性,反映出原始气象序列的波动性、周期性和趋势变化,算法分解步骤如下。
1)构造M个含可控噪声的信号。
式中 z为原始信号;v(m)为第m个0均值单位方差的高斯白噪声;q1为第1次分解时信号的期望信噪比,其值为q1=ε1(z)/(Q1(v(m)));Q1(·)为计算信号的第1个IMF的算子;ε1为设定的白噪声幅值;(·)为计算数学期望的算子。
式中 〈·〉为计算M个信号平均的算子。
3)对于k≥2时,构造第k组M个含可控噪声的信号。
式中 qk为第k次分解时信号的期望信噪比,其值为qk=εk(rk-1);Qk(·)为生成第k个IMF的算子。
5)令k=k+1,返回步骤(3)计算下一k值,直至残差满足迭代终止条件。
基于上述对BNN泛化和学习能力的增强思路,形成基于ICEEMDAN-LSTM-BNN的短期光伏发电功率概率预测方法。采用ICEEMDAN对气象数据进行自适应抗噪声模态分解,LSTM神经网络对光伏功率数据的时序规律进行挖掘,以达到提升BNN模型对非晴空条件下短期光伏发电功率的概率预测效果,ICEEMDAN-LSTM-BNN结构如图3所示。
图3 ICEEMDAN-LSTM-BNN算法的结构Fig.3 Structure of ICEEMDAN-LSTM-BNN algorithm
图3中,输入特征量分别为气象数据和光伏功率数据。气象数据由ICEEMDAN模态分解法进行平稳化处理,光伏功率数据经LSTM神经网络处理后时序特性更加显著,然后将两类特征量作为BNN模型的输入。所提模型输入与输出的具体表示可参见表1;此外,模型的各层结构见表2。
表1 ICEEMDAN-LSTM-BNN输入量与输出量Table 1 Improved BNN input and output improved BNN input and output
表2 ICEEMDAN-LSTM-BNN网络各层规模Table 2 Scales of all layers of the BNN network
表2中n为训练集天数;li为第i个输入特征的分解分量个数,BNN输入层1的输入是分解后的各气象特征分量,BNN输入层2的输入是LSTM神经网络的输出结果。
文中将天气类型划分为晴天、多云、雨天,其中多云和雨天属于非晴空天气。利用ICEEMDAN-LSTM-BNN进行短期光伏发电功率概率预测时,首先对光伏发电原始数据进行归一化处理,然后采用k-means聚类方法对历史功率样本进行不同类型天气的相似日筛选[26]。
文中以一定置信水平下光伏发电功率的波动区间做为BNN的输出。训练好的BNN模型其权值具有最优的期望μi和方差根据可以计算短期光伏发电功率预测区间。
在给定的置信水平(1-β)下,BNN的光伏发电功率的预测区间可以表示为
式中 Ta为预测区间上界;Tb为预测区间下界;zβ/2为正态分布的双侧分位点。
为了验证文中方法的预测效果,采用总装机容量为100 MW 的宁夏太阳山光伏电站2020年实际运行数据进行实验,原始数据包括历史光伏发电功率数据及气象数据:太阳总辐射强度、组件温度、环境温度、气压、相对湿度,数据时间分辨率为15 min,每天总计96个样本点。将5×96维的气象数据作为输入变量,输出变量为1×96维的光伏发电功率数据。
采用聚类方法作为定量评价相似气象日期的依据,以太阳总辐照强度、环境温度和组件温度这3个与光伏发电功率呈强相关性的特征作为聚类方法输入,进而根据k-means聚类方法对历史功率样本进行划分,对比不同类型实际曲线的差异,以此来判断每一类天气的情况归属从而进行相似日的筛选。将原始92天数据划分为晴天、多云、雨天3个子样本集,再将每个子样本集划分为训练集和测试集2个部分:相似日的历史气象及光伏发电功率数据作为训练集,待测日气象及光伏发电功率数据作为测试集,对待测日00:00~24:00时段进行提前24 h光伏功率概率预测。
光伏发电功率概率预测是在点预测的基础上进行,为方便定量分析和评价文中方法的预测效果,引入均方根误差(Root Mean Square Error,RMSE)、R2(R-squared)、预测区间平均宽度(Pre-diction Interval Normalized Average Width,PINAW)、预测区间覆盖率(Prediction Interval Coverage Prob-ability,PICP)以及区间综合评价指标WC共5个评价指标对实验结果进行量化分析。
采用RMSE、R2对短期光伏发电功率点预测结果进行分析,其中RMSE表征预测值同实际值之间的偏差,能反映预测的精度,R2表征预测值和实际值的拟合程度,能反映预测的稳定性。
采用PINAW、PICP及WC对短期光伏发电功率概率预测结果进行分析,其中PINAW反映预测区间上下界之差,用于评价预测的精度,PICP反映光伏发电功率真实值落入预测区间内的概率,用以评估预测的稳定性,WC反映短期光伏发电功率的综合预测效果,WC取值越小,预测效果越好。
式中 i为布尔量,若光伏功率真实值落在预测区间范围内,则i=1,否则i=0;R为光伏功率真实值中最大值与最小值之差。
以夏季宁夏太阳山光伏电站输出功率预测为例,将6,7月份数据作为训练集,8月份数据作为测试集。首先对晴天、多云、雨天3类天气进行相似日选取,然后在不同天气类型相似日中随机选择4天作为测试样本,其余作为训练样本。以下分别从点预测与概率预测效果进行分析。为了验证文中方法 ICEEMDAN-LSTM-BNN 的先进性,以及ICEEMDAN和LSTM对BNN的改进效果,以下分析时将该方法的光伏功率点预测结果分别与传统BNN、ICEEMDAN-BNN、LSTM-BNN的预测结果以及实测数据进行对比,预测结果如图4所示。
图4 不同天气类型下的功率点预测结果Fig.4 Prediction results of power points under different climatic conditions
从图4可以看出,晴天的光伏发电功率波动较小,雨天的光伏发电功率波动幅度较大,随机性最强烈,多云则介于两者之间,因而现有方法在雨天时的预测结果极不稳定。文中方法在晴天、多云条件下能较好跟踪光伏功率输出,在雨天时其他方法的预测值偏离实际值较为明显,而该方法偏离程度最小,为了量化预测效果,对短期光伏发电功率点预测进行误差计算,结果为5次实验后的均值结果,见表3。
表3 短期光伏发电功率点预测误差分析Table 3 Error analysis of short-term PV power points prediction
由表3可知,BNN模型在非晴空条件下的RMSE值均最大,预测精度最低;相比于BNN模型,只在其基础上进行模态分解的ICEEMDAN-BNN模型和只引入LSTM神经网络的LSTM-BNN模型在各天气条件下的功率预测误差均明显降低,这说明ICEEMDAN-LSTM-BNN模型的泛化和学习能力效果较好;因此,文中方法相比于传统BNN模型在多云和雨天天气类型下,误差分别下降了36 18%、31.33%,预测精度明显提高。
BNN模型在各种天气条件下进行功率预测时,其R2值均最小,预测稳定性最低;相比于BNN模型,ICEEMDAN-BNN模型和LSTM-BNN模型在多云和雨天条件下R2值均得到提高,而采用ICEEMDAN和LSTM的文中方法与BNN模型在多云和雨天天气类型下R2值分别提高了7.78%、25 76%,稳定性明显提升。
以上数据表明文中方法在各种非晴空天气条件下的短期光伏发电功率点预测精度及稳定性均较好,尤其是雨天时功率预测值的稳定性提升效果最明显。
短期光伏发电功率的点预测结果分析已表明文中方法相较其他方法具有更高的预测精度,在此基础上进行光伏发电功率的概率预测也具有较高的可信度,因此,以下实验只展示文中方法与传统BNN的预测效果,分别对短期光伏发电功率进行80%、85%、90%置信水平下的概率预测,如图5至图7所示。
图5 晴天概率预测结果Fig.5 Probabilistic prediction results of sunny day
图6 多云概率预测结果Fig.6 Probabilistic prediction results of cloudy day
图7 雨天概率预测结果Fig.7 Probabilistic prediction results of rainy day
从图5至图7可以看出,ICEEMDAN-LSTM-BNN模型的预测区间宽度更窄,而其在功率平稳的时间段预测区间窄,在有功率显著波动的时间段预测区间宽,这种概率预测结果非常有利于调度部门在极端天气时提前做好调度方案,降低停电风险。短期光伏发电功率概率预测误差分析见表4,为便于表述,表中Iw、Ip、Ic分别代表PINAW、PICP、WC这3个指标。
表4 短期光伏发电功率概率预测误差分析Table 4 Error analysis of short-term PV power probability prediction
由表4可知,相比于传统BNN模型,ICEEM-DAN-LSTM-BNN模型在多云、雨天下PINAW值分别降低了7.99%、13.60%,精度明显提升,并且ICEEMDAN-LSTM-BNN模型功率预测的WC值也分别减小了8%、17%,雨天时的预测精度及稳定性明显高于BNN模型。在90%置信水平下,三类天气的平均误差为7.27%;在85%置信水平下,三类天气的平均误差为6.37%;在80%置信水平下,三类天气的平均误差为5.66%。
借助于LSTM神经网络时序特征提取能力以及ICEEMDAN优越的非平稳数据处理能力,使得BNN相较于其他模型具有更加出色的跟踪光伏功率波动的能力,在各类非晴空天气条件下误差均最小,并保持良好的稳定性。
1)通过ICEEMDAN模态分解法,将非线性非平稳的光伏气象数据序列平稳化,并在BNN的基础上引入LSTM神经网络,进一步加强模型的时序反映能力;形成ICEEMDAN-LSTM-BNN短期光伏发电功率概率预测方法。同时兼顾BNN适合于捕捉非晴空条件下短期光伏发电功率的多尺度波动规律,并进一步降低光伏发电功率的模型复杂度。2)通过加强BNN的泛化和学习能力,使得短期光伏发电功率概率预测在功率波动强烈时段具有较宽的预测区间,功率平稳时段具有较窄的预测区间,达到提升短期光伏发电功率预测精度和稳定性的目的。