杨 茂,董 昊
(现代电力系统仿真控制与绿色电能新技术教育部重点实验室(东北电力大学),吉林省吉林市132012)
风电功率区间预测是指在既定的置信度下,对待预测时刻风电出力的上下边界进行预测,是提高电力系统经济运行效率,降低电网安全风险系数的重要方法[1-2]。根据是否考虑气象环境等因素,可以将风电功率区间预测大体分为统计模型和物理模型[3-4]。
统计模型利用历史预测结果,对所得误差进行分类和拟合,结合待预测时刻的点预测结果进而得到功率的上、下边界[5]。文献[6]利用混合Gaussian分布近似得到目标随机变量的条件分布,可以对模型的不确定性定量地描述。文献[7]利用混合偏态分布模型估计短期风电预测误差分布,并通过概率密度曲线非线性拟合进行参数估计。以上文献所提方法均为参数型,即假设误差满足某一种特定的分布形式,具体还包括Beta分布[8]、Logistic分布[9]、翘曲高斯分布[10]等。但由于风电出力具有强波动性和高随机性的特征,实际的预测误差可能并不符合某一具体的分布,并且同一模型对于不同数据拟合效果的差异性较大。文献[11]利用Bootstrap重采样得到多个风电功率误差训练样本,并结合待预测时刻功率数据得到区间预测结果。文献[12]建立基于径向基神经网络的分位数回归模型,实现了气象信息和功率数据的非线性映射,得到了分位数形式的短期功率上下边界值。以上文献所提方法均为非参数型,即事先不对误差概率分布进行假设,更有利于提高误差概率分布的拟合精度,常用方法还有核密度估计[13]、相关向量机[14]等。
物理模型一般结合地势、天气等空气动力学因素建立物理预测模型,通过数值天气预报(numerical weather prediction,NWP)信息来计算风电机组轮毂高度处的风速变化区间,然后通过寻找风速与功率的非线性关系得到功率概率预测区间。这类方法能够快速地捕捉风速的变化,因涉及气象等信息,数据量十分庞大,所以计算速度慢、效率低[15-16]。
综上所述,众多学者已经在区间预测领域做了大量深入的研究,但所建立的预测模型大多只选用单一的统计方法或者物理方法,导致了所建立的预测模型无法全面反映历史数据和NWP气象信息对待预测时刻功率的影响。由此,本文提出了一种基于NWP风速分类和蒙特卡洛法的短期风电功率区间预测模型。首先,按照NWP风速大小对历史时段的点预测误差进行分类,并对不同风况下的误差通过经验分布模型进行概率分布拟合。其次,对待预测时刻的NWP风速所对应的累计经验分布概率值进行蒙特卡洛抽样。最后,在给定的置信水平下求取各待预测时点的功率波动区间。将统计方法得到的信息与NWP气象所提供的物理信息综合起来,经过对比分析,验证了所提方法的可靠性有所提升。
层次聚类(hierarchical clustering)是数据特征提取的一种常用聚类算法,通过分析不同类别样本间的差异,得到一棵具有分层结构的嵌套聚类树[17]。
层次聚类算法可以分为自下向上的凝聚型和自上向下的分裂型,这2种方法没有孰优孰劣之分,只是在实际应用时要根据数据特点来考虑分解顺序。层次聚类算法的优势在于能够直接得到一棵完整的聚类树,无须重新计算各类别间距就可以增加或减少分类数目。
本文采用层次聚类法对样本数据进行聚类,具体步骤如下。
步骤1:以NWP信息中100 m层高风速和风向为特征构造样本特征矩阵Q。
步骤2:计算各类初始样本之间的马氏距离DM,得到距离矩阵D,计算公式如下。
式中:x和y为2个不同的数据类别;Σ为多维随机变量的协方差矩阵,如果协方差矩阵是单位向量,即各维度独立同分布,马氏距离就变成了欧氏距离。
步骤3:计算各类间距,将DM最小的2类凝聚为一个新的类别。
步骤4:重复步骤1至步骤3,直至得到完整的聚类树,即类别个数为1。
风电功率区间预测建模主要分为3个阶段:点预测建模、预测误差概率密度分布建模和区间预测建模。
极限学习机(extreme learning machine,ELM)属于单隐含层前馈神经网络(SLFN)算法。同传统的智能算法相比,该算法的特点表现为隐含层的节点参数均为随机给定,整个学习过程只需求解输出权值,是一种学习速度较快的智能算法[18],ELM的结构示意图如图1所示,图中o={oj}。
单隐含层神经网络可以表示为:
式中:g(⋅)为激活函数;Wi=[ωi1,ωi2,⋅⋅⋅,ωiN]T为输入权重;Xj为第j个输入特征序列,总数为N;βi为输出权重;bi为第i个隐含层单元的偏置;oj为第j个输出序列;Wi∘Xj表示Wi和Xj的内积。
图1 ELM模型结构示意图Fig.1 Schematic diagram of ELM model structure
单隐含层神经网络学习的目标是使得输出序列oj尽可能接近目标序列tj,即
那么存在βi,Wi和bi使得:
式中:L为隐含层神经元数目。
式(4)可以用矩阵表示为:
式中:H为隐含层节点的输出;β为输出权重;T为期望输出。
式中:H+为隐含层输出矩阵H的Moore-Penrose广义逆。可以通过正交投影法或奇异值分解(SVD)等方法解析获取。
传统风电功率区间预测一般只考虑预测误差在不同功率水平下的分布情况,忽略了气象因素对预测误差的影响。结合不同风况下风电功率预测误差的分布特点,改善模型的预测性能,采用经验分布估计方法建立各类别在不同NWP风速条件下风速-风电功率预测误差联合概率密度分布模型。
经验分布函数是对样本中生成点的累积分布函数的估计。根据Glivenko-Cantelli定理,它以概率1收敛到该基础分布,同时也存在一些结果来量化经验分布函数与潜在的累积分布函数的收敛速度。
假设总体变量X存在一组容量为m的样本观测值x1,x2,…,xp…,xm,将其按照从小到大的顺序重新排列后得到次序统计量x1m,x2m,…,xpm,…,xmm,对于任意实数x,其经验分布表达式为:
图2为对NWP风速进行分类所得到的风速-功率预测误差联合概率密度分布。联合概率密度分布图在待预测时刻NWP风速下的横截面即为该风速下误差的概率分布,从而为下一步的区间预测提供理论依据。
图2 风速-功率预测误差联合概率密度分布Fig.2 Joint probability density distribution of wind speed-power prediction error
2.3.1 蒙特卡洛法的原理
蒙特卡洛法是一种对一系列数据进行随机抽样的统计试验法。若要计算某一随机事件发生的概率,可进行大量试验,通过计算其发生的频率来估计该事件的概率分布[19]。对于蒙特卡洛法来说,最重要、最基本的试验是对一个概率分布在(0,1)上的分布进行抽样统计,而通过误差统计分析得到的累计概率密度分布恰好为一个(0,1)上的分布,从而印证了采用蒙特卡洛法的可行性。
蒙特卡洛法作为广泛使用的一种随机抽样方法,其优势在于灵活性高、普适性强。但是在实验中需要对样本进行重复采样,因此对计算机的性能提出了更高的要求。
2.3.2 基于蒙特卡洛法的短期风电功率区间预测
由于经验分布拟合得到的是非连续的概率密度分布函数,因此难以采用传统的基于连续分布函数的分位数回归方法,但是对于累计密度函数在(0,1)上的均匀分布,则可以采用蒙特卡洛法进行采样,之后根据给定的置信水平求取功率不确定波动区间,具体步骤如下。
1)根据历史的确定性预测误差建立基于NWP风速信息的风速-功率联合概率密度分布模型。
2)对待预测时刻功率进行点预测,根据待预测时刻的NWP风速信息匹配该风况下的误差累计概率密度分布函数。
3)采用蒙特卡洛法对累计概率密度进行1 000次的抽样,之后根据抽样累计概率密度得到所对应的误差序列,最后按照采样累计概率密度的大小对采样误差序列进行重新排序。
4)给定置信区间,例如90%,根据所得误差序列分布得到第50个和第950个采样误差结果,从而结合点预测结果得到该时刻的功率预测区间。
基于蒙特卡洛法的风电功率短期区间预测流程如图3所示。
图3 基于蒙特卡洛法的风电功率短期区间预测流程Fig.3 Flow chart of short-term interval prediction of wind power based on Monte Carlo method
本文选取区间覆盖率、区间平均带宽[20]和可靠性指数[21]3个指标对短期风电功率区间预测结果进行分析评估。
1)预测区间覆盖率
预测区间覆盖率(PICP)指标反映了实际功率落在预测波动区间内的概率,可以评估预测模型的可靠性,其表达式为:
式中:RPICP为PICP值;W为待预测点的数目,本文取96;kwa为布尔量,kwa=1时说明在给定的置信度a下待测点w的实际功率值落入预测区间内,kwa=0时说明实际功率值落入预测区间外。
在实际中,预测所得的区间覆盖率应尽可能地超过给定的置信度。若PICP小于置信度a,说明预测无效;反之,预测有效。PICP越大说明实际功率落入预测上下限之间的概率越大,预测效果越好。
2)预测区间平均带宽
预测区间平均带宽(PINAW)指标可以评估预测模型的清晰度。用来反映预测上下限间宽度的平均值,可表示为:
式中:RPINAW为PINAW值;Z为预测功率的变化区间,作为归一化的基准值;U(⋅)和L(⋅)分别为功率预测的上、下限。当预测结果的PICP相同时,较小的PINAW对应更好的预测效果。
3)可靠性指标
可靠性指标ra是指区间覆盖率与预设的置信水平之间的差值,如式(10)所示。若实际风电功率曲线落于预测区间内,表示预测结果有效,可靠性高。
通过可靠性指标的正负来判断模型的可靠水平,当可靠性指标ra大于零时,说明模型产生有利偏差,可靠性高于给定置信水平;当可靠性指标ra小于零时,说明模型产生有害偏差,可靠性低于给定置信水平。
以中国吉林省某风电场功率变化特点进行聚类分析。将NWP中100 m层高风速和风向信息作为聚类特征参量,用来分析聚集类别的特征。将风电场历史的功率预测误差作为聚类时的功率特征数据,用来计算类别间的距离。聚类树见附录A图A1,聚类后的各样本特征见表A1。
神经网络输入变量的选取对于预测精度的提高至关重要,计算NWP中各类别信息与误差之间的相关系数。将关联度最大的历史NWP中100 m层高风速和历史实测功率作为ELM模型测试集的外部输入;将待预测日NWP中100 m层高风速作为测试集的输入;将实际功率作为网络期望输出。模型的原始训练集数据范围为吉林省某风电场2017年和2018年各季度前2个月的数据,测试集分别为各训练集范围之后的一天。为了观察较长时间范围内的预测效果,对2017年和2018年各季度数据进行了为期1个月的短期滚动预测,预测时间窗为24 h,即提前一天预测未来24 h的点。按照文献[22]所提误差公式对预测结果进行评估,预测效果见附录A表A2。对比分析表A2的预测结果可以看到,在较长时间范围内,ELM模型所得确定性预测结果相对稳定。对于不同季节下各类的风况,确定性预测准确率均达到了85%,预测效果准确可靠。应用上述模型,得到2018年各个季度最后1个月的风电功率预测值,为后续提供建模数据。
以2017年春季2月份为例,对通过ELM模型预测得到的确定性误差进行概率密度统计分析。0~4 m层高风速段误差概率分布直方图见附录A图A2。分别通过Gaussian分布、Logistic分布、t-Location分布和经验分布对统计误差进行概率分布拟合。对比不同方法的拟合效果,可以发现该风速段的误差分布呈现明显的非对称性,因此适用于对称分布的Gaussian分布、Logistic分布、t-Location分布的拟合效果要差一些。而经验分布得到的是一条近似于各类误差对应概率的包络线,其拟合效果最佳。
为了更加准确地比较不同分布模型的优劣,采用文献[23]中的拟合平均绝对误差eMAE、均方根误差eRMSE和相关系数R这3个指标来定量地刻画模型的拟合效果。结果见附录A表A3。通过对表A3中各种分布方法拟合效果的对比分析可以发现:经验分布具有最小的纵向误差(eMAE和eRMSE),说明该模型拟合误差均值最小、分散程度最低;从横向误差(R)来看,经验分布和实际分布之间的相关系数很大,达到了0.997 3。说明经验分布对于0~4 m层高风速段误差的概率分布拟合效果最好。
选择中国吉林省整场装机容量为400.5 MW的某风电场数据进行算例分析,2017年各个季度最后1个月的预测误差数据用于误差的概率密度统计,2018年各个季度最后1个月的数据用于风电功率短期区间预测。
图4为2018年春季最后1个月某2天的预测效果图,图中以每15 min为1个时段。附录A图A3为2018年夏、秋、冬季最后1个月某2天的预测效果图。可以看出,在同一置信水平下,基于NWP风速和蒙特卡洛法的区间预测模型,能够紧密地跟随风电功率序列的变化趋势,并得到更窄的平均带宽和更高的区间覆盖率,能够为决策者提供更加精准的预报信息。
图4 2018年春季某2天的预测效果Fig.4 Prediction effect of two days in spring,2018
为了进一步研究本文模型的性能,分别计算蒙特卡洛法、分位数回归法、Bootstrap重采样法和核密度估计法的预测评估指标,结果如表1和附录A表A4所示。
表1 风速分段下各方法预测结果对比Table 1 C omparison of prediction results of different methods with wind speed segmentation
由附录A表A4可以看出,相比于只考虑历史功率水平来对误差进行分类的分析方法,考虑NWP风速信息来对误差进行分类的分析方法的预测效果更好,区间覆盖率平均提高了1.93%,平均带宽缩小了2.45%,说明考虑NWP风速的物理动态过程能够有效地提高区间预测的预测精度。同时,本文所提出的基于NWP风速分类和蒙特卡洛法的短期区间预测方法效果最佳,在不同的置信水平下,均能得到大于预设置信水平的区间覆盖率。通过和其他非参数方法相比,区间覆盖率平均提高了1.62%,平均带宽缩小了2.76%。
为了进一步对比分析不同预测方法的预测效果,通过可靠性指数对不同预测方法的可靠性进行分析。由附录A图A4可以看出,仅考虑历史功率水平来对误差进行分类分析的非参数方法进行预测的方法预测效果普遍较差、可靠性水平较低,其中分位数回归法和核密度估计法在各个置信水平下均产生有害偏差。而根据NWP风速信息对误差进行分类分析并结合蒙特卡洛法的区间预测方法不仅在各个置信水平均产生有利偏差,还有较高的可靠性。
风电的保证出力对于机组发电计划至关重要,其预报的准确性直接影响电力系统运行的安全性。因此,通过超下限比例这一指标对不确定性预测的下限进行定量评估。附录A图A5为不同方法超上限比例直方图,对比分析可得,本文所提的考虑NWP风速信息的蒙特卡洛区间预测方法能够有效地预测风电功率的保证出力,从而为电力系统的运行调度提供更可靠的指导。图A6为不同方法超下限比例直方图,通过和图A5对比可以看出:各置信度下,超下限比例的均值明显低于超上限比例的均值,说明下限预测的可靠性更高。这样更有利于实现电力系统的优化调度。
本文建立了一种基于历史误差数据和NWP风速分类的误差联合概率密度经验分布模型,并据此提出了基于NWP风速和蒙特卡洛法的短期风电功率区间预测方法,结论如下。
1)与基于功率水平进行误差分析和建模的传统方法相比,基于NWP的风速信息对误差进行统计分析能够更好地反映模型在不同风况下的适应性,并有效提高了区间预测的预测精度。
2)相对于Gaussian分布、Logistic分布、t-Location分布,经验分布对于预测误差的分布具有更好的拟合效果。
3)与分位数回归法、核密度估计法等其他不确定性预测方法相比,蒙特卡洛法在不同置信度下均有较高的可靠性,区间覆盖率平均提高了1.62%。
本文在预测模型构建时充分考虑了气象因素和误差的统计特性,但是地形地貌等环境因素也会通过改变风况来间接地改变风电的出力大小,这是本文没有涉及的方面。后续研究工作中,风电功率预测不确定性分析将聚焦于综合考虑预测误差的统计特性、物理天气过程的动态变化和地形地貌等环境特征。