杨 宏,李文栋,赵振兵
(华北电力大学 电气与电子工程学院,河北 保定071003)
由于风力发电的随机性和波动性,并网风电给电力系统规划、调度和运行带来了一系列安全隐患[1]。准确地估计风功率预测误差的概率分布,有助于电力系统进行更有效的风险价值分析,提高经济运行水平[2]。
目前,关于风功率预测误差的建模方法已经有了很多研究成果,这些成果可以分为参数建模方法和非参数建模方法。参数建模方法首先对误差模型做先验假设,然后根据样本数据估计模型参数。已有的、常用的参数模型有正态分布、柯西分布和TLS分布等[3]~[5]。
尽管参数建模方法有了很多研究成果,但该类方法在实际应用中存在以下不足:①现有模型不能涵盖所有的误差分布特征,有一部分预测误差不能使用这些模型;②模型的选择依赖工程人员的主观判断,一旦模型假设错误,则建模结果不能依样本数据量的增加而收敛;③在众多可选模型中,实时地选择并检验这些模型也是一个比较复杂且容易出错的过程。
基于上述原因,风电功率预测误差的核密度估计方法(一类非参数建模方法)逐渐受到关注。该类方法在面对任何分布形态时,无须进行模型假设,只根据样本数据就可以计算误差的概率密度函数。其中典型的成果是文献[6],[7]采用的无偏交叉验证(UCV)和经验法则(ROT)。
然而,现有的UCV和ROT方法没有考虑风功率预测误差的尖峰厚尾特征,以及局部的小样本特征,直接使用会存在较大的泛化误差。为了进一步提高建模精度,本文提出了基于光滑自助法的改进方法。该方法利用光滑自助法在分位数推断上的优势,通过修改平均积分平方误差指标函数,实现了对UCV和ROT方法的校正。
假设在值域空间x中有一个样本集合X={x1,x2,...,xn},它包含独立同分布f的n个样本点,那么,在样本X上用带宽h计算的核密度函数f估计结果为
式中:f(x)为真实函数;E为概率论中的数学期望,它是衡量估计结果fh(x)与真实函数f(x)的误差平方的数学期望。
用不同的方式处理这两个指标函数,可以推导出很多不同的核密度估计方法,UCV和ROT就是其中两个典型的方法。
光滑自助法可以提供更精确的分位数统计结果,它与密度估计方法的目标一致[8]。根据这个特性,本文提出了基于光滑自助法的核密度估计方法。在核密度估计理论中,MISE(h)是ISE(h)的数学期望,用该指标计算的密度函数具有更小的泛化误差,本文方法依据MISE(h)指标推导得出。
在式(3)中引入估计函数fh(x)的数学期望E[fh(x)],展开整理可得:
通过上式可以看出,MISE(h)指标可以分解成方差和偏差两个部分,将两部分相加,可以获得一个综合方差和偏差的带宽,避免了估计结果的欠拟合和过拟合现象。与其他现有方法不同,本文处理未知分布f(x)的基本思想是先用一个基本的密度函数fb代替真实分布,再利用光滑自助法在分位数推断上的优势,对基本的密度函数fb进行校正。指标函数是在原MISE(h)的基础上做了改进。
用基本的核密度方法估计一个密度函数fb(x|X),代替原有的真实函数f(x),同时,用光滑自助法的均值函数fh(x|X*)代替抽象的数学期望E[fh(x)],得到新的计算偏差公式。
为了适应不同特点的分布函数,在MISE(h)函数的方差项前增加一个权重系数w,在偏差项前增加一个权重系数(1-w),重新构造MISE*(h)指标函数。
式(9)为本文提出的基于光滑自助法的核密度估计方法的指标函数。该指标函数是一个可计算的优化模型,它有两个变量,w和h。其中,w为配置变量,可以根据实际方差和误差的比重,用手动方式设定或调整;另外一个变量h是优化变量,可以通过优化算法搜索完成。如果对基本估计方法比较信任,那么应该设定一个较小的w,这样计算的结果对基本估计方法有一个较小的修正;相反,如果对基本估计方法不信任,那么应该设定一个较大的w,这样就对基本估计方法有一个较大的修正。本文通过大量仿真发现,当w的取值为[0.1,0.4]时,总会有较好的效果。要进一步降低误差,提高精度,则须要通过反复仿真确定。
在获得最优带宽h*后,代入式(1)得到最终的密度函数。指标函数具体的计算过程如图1所示。
图1 光滑自助法指标函数算法流程Fig.1 Algorithm flow of smooth bootstrap index function
建模精度是本次仿真检验的一个主要指标,由于受风电场容量、地形等因素的影响,风功率预测误差的分布特征存在很大差异,个别风电场的仿真结果不应直接当作其他风电场的一般性结论。基于上述原因,为了能够准确地、全面地考察本文方法在精度方面的改进效果,仿真采用了TLS模拟数据。
TLS模拟参数取值的范围见表1。
表1 TLS仿真参数的取值范围Table 1 TLSsimulation parameter value range
仿真按照如下步骤进行。
第一步:在表1中选择一组具体的模型参数值。
第二步:根据模型参数,生成100个模拟样本。其目的是为了避免1次模拟的随机性对仿真结论的影响,模拟样本的数量可以变化。
第三步:在每个生成样本上采用本文方法估计密度函数。
用式(10)计算估计密度函数与真实密度函数之间的偏差,作为衡量精度的指标,偏差越小,精度越高。
式中:f为100次模拟样本估计的密度函数均值。
仿真检验本文方法与UCV结合成的SBUCV(Smooth Bootstrap UCV)方法的建模偏差和方差,并与UCV和BUCV(Bootstrap UCV)方法的结果进行对比。图2为根据部分特征参数,做出的SBUCV建模偏差的趋势图。由图2可知,(3,100)代表高峰度的小样本,它的偏差最大,但是随着样本数量的增加和峰度的减少,建模偏差会逐步降低。
图2 SBUCV偏差数值的改变趋势Fig.2 Trend of SBUCV bias
表2 为4种特征鲜明的样本的偏差结果。4种样本是:(3,100)为高峰度的小样本;(3,2 000)为高峰度的大样本;(12,100)为低峰度的小样本;(12,2 000)为低峰度的大样本。
当BUCV和SBUCV偏差与UCV偏差的相对值小于0时,表示偏差降低,精度提高;当BUCV和SBUCV偏差与UCV偏差的相对值大于0时,表示偏差增高,精度降低。从仿真结果看:SBUCV在任何特征样本下均能够提高UCV的精度,尤其在高峰度的大样本情况下提升幅度明显;BUCV在小样本下可以提高精度,在大样本下降低了精度,且提高和降低的幅度均较小。
图3为根据同样的特征参数,做出了SBUCV建模方差的趋势图,其趋势与图2相似。表3为4种特征样本的方差结果。
图3 SBUCV方差数值的改变趋势Fig.3 Trend of SBUCV variance
表3 4种特征样本的仿真方差Table 3 Simulation variance of four feature samples
由表3可知,光滑自助法在多数特征样本上均能够降低UCV方差,并且降低幅度要大于经典自助法。
但是,表3中有一个方差增加的特例发生在特征样本(3,2 000)上,这说明在高峰度大样本条件下,光滑自助法的多样性增加了UCV方差。为了解决这个问题,可以降低式(9)方差项的权重系数(例如:w=0.4),将方差降低到令人满意的范围内。
综合表2,3可以得出这样的结论:无论怎样的特征样本,在估计函数的偏差和方差两个方面,光滑自助法对基本的UCV方法具有明显的改善效果,且幅度大于经典自助法。
在完成了端点参数的特征样本的仿真后,下面针对常见参数的特征样本进行仿真。在风功率预测误差中,常见的峰度值在6附近波动,根据这个分布特征,本文选择数据量从500到2 000的特征样本,考察上述方法的偏差和方差。图4为偏差的仿真结果。
由图4可知:在常见尖峰厚尾系数样本中,UCV的偏差随着样本量的增加而减小,即样本量的增加,对建模精度有提高作用;在相同数据量的样本上,BUCV对原样本进行可放回重采样,因此,估计的偏差与原样本偏差相差不大;SBUCV是考虑了原样本分位数的精确估计基础上的重采样,因此,估计的偏差比UCV和BUCV有较大降低。
图4 峰度6的特征样本仿真偏差Fig.4 Bias of feature samples with kurtosis of six
图5为方差的仿真结果。由图5可知:UCV的方差随着样本量的增加而减小;由于BUCV和SBUCV均是通过重采样的多样性降低估计的方差,因此在方差降低效果上,两个方法结果相近,且与原样本对比,均有较大的降低。
图5 峰度6的特征样本仿真方差Fig.5 Variance of feature samples with kurtosis of six
总之,SBUCV在偏差和方差两个部分对估计结果均有较大的改进,而BUCV只在方差部分有改进。
这组仿真检验结合方法SBROT的建模偏差和方差,并与ROT和BROT的结果进行对比。
同前面的仿真过程一样,本文首先对端点参数的特征样本进行仿真,其偏差结果如表4所示,方差结果如表5所示。
由表4,5可知:在高峰度的特征样本(3,100)和(3,2 000)上,SBROT方法比ROT方法的偏差有明显的减小,即从0.19和0.07减小到0.17和0.05;同时方差也有明显的增大,即从0.15和0.04增大到0.16和0.05。将减小和增大的幅度相加可知,在高峰度样本上,SBROT的总误差小于ROT的总误差,即SBROT方法比ROT方法更有效。
表4 4种特征样本的仿真偏差结果Table 4 Simulation bias results of four feature samples
表5 4种特征样本的仿真方差结果Table 5 Simulation variance results of four feature samples
在完成端点参数的特征样本的仿真后,本文还针对常见参数的特征样本进行了仿真,其结果同上面高峰度的仿真结果近似,即偏差有一定程度的减小,方差有一定程度的增大。经过减小Z分布的方差和降低权重系数w等调整,可以达到在小样本的数据集上,SBROT总误差小于ROT总误差的效果。
综合可知:SBROT在高峰度、小样本的风功率预测误差建模上,具有比ROT更好的性能;但在低峰度、大样本的误差集合上,SBROT的效果不如ROT;SBROT方法的参数调整比较频繁,须要根据样本的具体特征进行仔细调整,才能达到预期的效果。
实际风电功率数据来源于中国东北的一个风电场,该风电场的装机容量为49.3 MW。在2016年夏季一个月的时间段内采集了间隔为15 min的平均输出功率(图6)。以该数据为基础,采用文献[9]给出的基于ARMA误差修正的LM-BP模型方法进行了模拟预测,并获得预测的误差集合,其分布如图7所示。本次仿真的内容就是根据这个误差集合检验本文方法的实用性。
图6 风功率测量曲线Fig.6 Curve of measurement wind power
图7 预测误差直方图和概率密度曲线Fig.7 Histogram of forecast error and curve of probability density
由图7可知,SBUCV的建模效果比常用的正态分布和柯西分布要精确很多。
图7显示的误差集合直方图保存了有效的预测误差,共1 767个数据,该集合的常用统计特征值见表6。
表6 风功率预测误差的统计特征Table 6 Statistical characteristics of wind power forecast errors
根据表6中的标准差和峰度的数值可以判断,该误差的尖峰厚尾程度较高,而且样本数据量较少,适合检验SBUCV方法的实用性。
由于风电功率预测误差的真实分布未知,常规的检验过程不能给出正确的结论,为此,本文设计了一个多重二分检验法验证SBUCV方法的实用性。
将上述样本按照每个数据以1/n的概率方式抽样,抽取为数据量相等的两组子样本,其中1组样本用于建模,另一组样本用于检验。检验的衡量指标是Kolmogorov-Smirnov统计量(KS统计量)。根据Glivenko-Cantelli定理,当KS统计量足够小时,两组数据可以认为来自于同一分布。KS统计量的计算方法如下:
式中:F(h)为一组子样本在h下的密度估计函数;Fn(x)为另一组子样本的经验分布函数;Dh为该带宽下的KS统计量,该值越小,说明建模效果越好。
为了避免一次分组检验的随机性,针对上述过程应该进行多次随机抽样,取KS统计量均值衡量建模方法的精度。
针对给出的实际误差集合,本文进行了多次二分交叉验证,对其中1个子样本分别用UCV方法和SBUCV方法建模,然后用另一组子样本的经验分布计算两种方法的KS统计量,并进行比较。图8为50次随机模拟的KS统计量结果。
图8 50次随机模拟中的KS值Fig.8 Statistics of KS value in 50 random simulations
由图8可知,在50次的随机模拟中,大多数的SBUCV的KS值均要小于UCV的KS值。表7为50次KS值模拟结果的均值和标准差。由表7可知,无论是均值,还是标准差,SBUCV方法的统计结果均要小于UCV方法。说明了SBUCV方法在建模精度和稳健性上均要优于UCV方法。
表7 50次KS检验的统计结果Table 7 Statistical results of KS test in 50 random simulations
为了解决常用核密度估计方法UCV和ROT在风功率预测应用中存在较大误差的问题,本文提出了基于光滑自助法的核密度估计方法。该方法可以与任何基本的核密度方法组合使用,具有使用范围广的特点。通过仿真对比了基本UCV和组合SBUCV、基本ROT和组合SBROT的精度和稳定性,得出如下结论。
①对于SBUCV方法,无论在4种典型的特征样本上,还是常见的特征样本上,该方法的精度和稳定性均优于UCV方法和BUCV方法,且提高的幅度较大。
②对于SBROT方法:在高峰度的小样本误差集合上,该方法的精度比ROT方法有较大提高,在稳定性上有较大下降;比较两者相加的总误差,SBROT方法要优于ROT方法;在低峰度的大样本上,该方法在精度和稳定性两个方面均不如ROT方法。