遗传算法对RVM短期风速预测模型的多参数同步优化

2018-08-16 14:16董利江钱白云沈中信马勤勇孔筱叶
中国测试 2018年7期
关键词:维数风电场风速

董利江, 李 伟, 王 瑜, 钱白云, 沈中信,马勤勇, 孔筱叶

(1. 新疆电力建设调试所,新疆 乌鲁木齐 830011; 2. 国网新疆电力公司电力科学研究院,新疆 乌鲁木齐 830000;3. 华北电力大学电子工程系,河北 保定 071003; 4. 四川中测辐射科技有限公司,四川 成都 610000)

0 引 言

风速预测是风力发电研究的基础环节。对于风力发电机来说,输出功率与风能关系密切,而风能正比于风速的三次方,风速预测误差对风机功率预测有很大的影响,故电力系统对风速模型预测误差有着很高要求[1-2]。因此,建立一个有效的短期风速预测模型具有一定的意义。风速预测的方法主要有两大类:一类是基于流场分析的预测模型,例如考虑尾流效应、地形效应等,但该类方法严重依赖于流场分析的准确度;另一类是基于风速时间序列的预测方法,即对风速历史数据建立预测模型,该类方法中模型参数的选取是当前研究的重点。本文基于第二类方法建立短期风速预测模型,并对预测模型参数的优化选取进行研究。

相关向量机[3](relevance vector machine,RVM)作为一种基于贝叶斯框架的稀疏概率模型,在短期风速及功率预测过程中不仅误差较低,而且计算时间短、鲁棒性较强[4-5]。故本文选用RVM方法建立短期风速回归模型对风速进行预测。在使用RVM模型进行预测分析时,训练样本质量决定了模型的学习能力。根据Takens[6]的嵌入定理,重构空间与原时间序列的动力学特征相同,故本文选用相空间重构法提取蕴含在风速时间序列中的特征构建样本。相空间重构中嵌入维数E和时间延迟τ往往通过混沌理论[7-8]计算得到,但得到的值未必是针对模型的最优解。本文通过实验验证了这两个参数确实对风速预测模型最终的误差有着不可忽视的影响。为进一步降低模型预测回归误差,应综合考虑影响模型预测结果的各个参数。基于此,本文首次提出一种多参数同步优化方法,搜索(E,τ,σ)的最优组合。随着待优化参数个数的增加,计算复杂度急剧增加,模型优化的时间成本越来越高。故文中基于遗传算法(genetic algorithm,GA)搜寻风速预测模型超参数的全局最优解。实验结果验证了本文方法对提高模型预测效率的有效性。

1 基于RVM的风速预测模型

1.1 RVM预测模型训练

对于给定的风速时间序列V={v1,v2,···,vN},在建立预测回归模型之前,需事先得到模型的训练学习样本,即特征向量x与目标值t。本文采用时间延迟τ和嵌入维数E对V进行空间重构,得到n个训练样本:si={xi,ti}={[vi,vi+1×τ,···,vi+(E−1)×τ],vi+E×τ},i=1,2,···,n,n≤N-E×τ。

假定样本目标值ti独立分布,样本集中伴有均值为0、方差为σ2的高斯噪声εi。RVM回归模型可定义为

式中:n——样本集总数;

wi——权值;

K(x,xi)——径向基核函数[9];

xi——第i个样本的特征向量。

ti服从独立分布,其似然估计为

由SVR的结构风险最小化原则可知[10],如若直接将式(2)最大化而不考虑权值w的约束,将导致十分严重的过拟合现象。因此为避免过拟合现象,需要限定各个权值wi满足高斯先验概率分布:

其中α=[α0,α1,···,αn]T为先验分布的超参数。

权值的后验概率分布由Bayes准则计算:

权值的后验分布均值和协方差表达式为

其中A=diag(α0,α1,···,αn)。

因此由权值后验分布的均值μ得出权值的估计。后验协方差矩阵Σ表示模型预测的不确定性。若α服从gamma分布,超参数的似然分布为

其中C=σ2I+ΦA−1ΦT。

使用MacKay[11]的方法最大化超参数似然分布:

其中λii为Σ中第i+1个对角元素。

反复计算式(7),再利用得到的结果不断更新式(5),当迭代满足收敛条件时,即求出模型训练结束。

1.2 预测模型风速预测

风电场所在地的气候基本稳定,风速波动具有内在的规律性。因此在1.1节训练过程中,本文通过对历史风速时间序列进行空间重构来提取出蕴含在其中的特征,进而构造训练样本的特征。

RVM预测过程是利用已经完成训练的模型对输入待预测时刻的特征向量x*进行计算的,得到预测值。若要预测第j时刻的风速值vj*,按式(1)构造相应的特征向量:

将其代入RVM模型,预测结果表示为

τ和E的选择对时间序列的重构影响很大,目前,这两个参数一般利用混沌理论求解得到。

2 基于GA的参数联合寻优

2.1 E和τ对模型的影响

相空间重构方法中的重要参数E与τ,与机器学习样本质量有着极大的关联。由于样本质量直接决定了机器学习的效果,因此E和τ对RVM模型的回归能力应该有着较大影响。本文通过实验分析验证了这一结论。

以时间延迟τ为例,运用单一变量法的思想,控制核函数宽度γ和嵌入维数E不变,改变τ的取值。以3.1节实验为例,选取不同的τ值(σ=143,E=8),建立预测模型,并得到其误差的变化,见表1。

表1 不同τ值的预测模型误差

从表中可以明显看出,模型的预测误差随τ的取值变化而变动,且没有规律性。因此,E与τ在满足时间序列动力特性的基础上,还需要对其进行优化进而匹配RVM预测模型。

2.2 多参数同步优化的实现

通过以上分析,认为应当对样本特征参数E、τ和核函数参数σ进行并行优化,并将(E,τ,σ)组合的优化结果作为风速预测模型的最终参数。考虑到这3个参数的取值范围都比较大,若采用传统的遍历算法,耗时过长。因此,应选择合适的优化算法搜寻全局最优解。GA算法由于其具备很强的全局搜索能力,同时精度可调,故本文基于遗传算法对风速预测模型中的3个参数进行多参数同步优化。

GA算法是模拟自然界优化选择和遗传的一类现代智能算法[12]。其核心思想是通过“适者生存”的法则筛出一批父代染色体,对其进行交叉、变异和选择复制,产生适应能力更强的子代样本,不断逼近参数组合的最优解。本文利用GA寻求3个参数的最优组合,并以其作为RVM风速预测模型超参数降低预测误差。针对短期风速时间序列s,具体步骤为:

1)规定遗传算法的初始参数:交叉概率、最大迭代次数以及初始种群规模等。

2)编码待优化参数和确定寻优区间:本文需要编码的参数为σ、E、τ,其中τ与E在优化过程中必须是整数。

3)选择适应度函数:由于适应度函数值越大的染色体被选为父代的几率越多,因此适应度函数直接决定了待优化参数的进化方向。文中先计算预测值与真实值间的平均相对误差,通过一些形式变化确定适应度函数,其表达式为

式中:t——测试样本对应的实测值;

ti′——测试样本的预测值;

n——测试样本的个数;

C——随着代数增加递减的函数。

4)产生子代:计算父代染色体适应度值,通过选择、交叉、变异操作得到子代。

5)重复4),直到满足最大迭代次数。选出最后一代中适应值最大的个体,解码后得到3个参数的最优组合(σs,τs,Es)。利用τs和Es重构风速时间序列,构建训练样本集(xi,ti),i=1,2,···,n。

6)预测模型核函数参数设定为σs,(xi,ti)作为训练样本,通过对(xi,ti)的学习训练使得预测模型获得回归能力。用相同的方式获取待预测数据的特征xi,并将其输入到预测模型中,计算出模型的预测目标值ti′。

3 实验应用及分析

3.1 基于本文方法的风速预测模型

以A、B两个风力发电场历史风速实测数据为例,每20 min提取一个采样点,记录连续8 d内的风速值,共计576个数据。风速曲线分别见图1、图2。

图1 风电场A的8 d风速值

图2 风电场B的8 d风速值

利用2.2节方法预测A、B两个风电场第8d的风速值,具体步骤如下:

1)设定GA算法初始参数及待优化参数的寻优区间:σ∈[50,107 3],τ∈[1,16],E∈[5,20]。

2)将前6 d的数据作为学习样本(N=432),运用第2节中给出的参数寻优方法对第7 d的风速值进行预测。

3)在寻优范围内搜出参数的最优组合(σs,τs,Es),优化结果见表2。

表2 3个参数的优化结果

4)代入τs、Es值对前7 d的风速时间序列进行相空间重构,得到第8 d风速的特征值。基于RVM预测模型对两个风场第8 d的风速进行预测(σs为RVM中核函数参数)。

3.2 参照组模型

参照组中时间延迟τ和嵌入维数E分别采用互信息法[13]和Cao[14]方法求解。A、B风场风速时间序列对应的E的求解见图3、图4。

图3 风速时间序列对应嵌入维数(风电场A)

E1和E2为定义的两个参量,若二者大于E0时不再变化或趋于稳定,则嵌入维数为E0+1。由图3、图4可以看出,两个参数分别在13和10的位置趋于稳定,那么可以确定嵌入位数为14和11。确定嵌入维数与时间延迟之后,再次用每组中的前6 d数据对第7 d的值进行预测。另一方面,GA算法只对σ进行寻优。优化结果见表3。

得到σc、Ec、τc后,仿照3.1节中的第4)步,对A、B两个风电场第8d的风速值进行预测。

图4 风速时间序列对应嵌入维数(风电场B)

表3 E与τ的计算结果及σ的优化结果

3.3 预测模型的对比研究

本文方法与对照方法建立的RVM风速预测模型预测结果的图形比对见图5、图6。从图中可以看出,本文方法的预测值与真实值间误差较小,而对比方法的预测值在趋势上反映了真实值的变化,但误差相对较大。

为了较好地衡量本文风速预测模型的拟合效果,本文利用纵向误差、横向误差、模型效率和模型预测时间对拟合结果进行综合评价。其中纵向误差包括平均相对误差,均方根误差,主要体现预测结果在竖直方向与真实值的差别,数值越小,表示预测值与真实值越接近;横向误差从时间轴上描述预测值与真实值的相关程度,用皮尔逊相关系数表示,数值越大,相关程度越高。两种模型预测结果的纵向、横向误差见表4。

图5 风电场A风速数据预测

图6 风电场B风速数据预测

表4 纵向、横向误差

从纵向误差来看,本文模型与对比模型相比,数值误差更小;从横向误差来看,本文模型预测结果与真实值高度相关,能更大程度上刻画风电场风速波动的规律。

对于短期风速预测,除了预测误差外,模型效率(预测数据峰峰值之间有效点占总点数的百分比)和预测时间也是重要参考指标。本文同时统计了两种模型的预测时间和模型效率,见表5、表6。

表5 模型预测时间

表6 模型效率

从表中可以看出,基于GA多参数优化的RVM预测模型预测时间更短、效率更高。因此本文模型可有利于电网及时调整调度计划。

4 结束语

为了降低风速预测误差,本文提出一种基于GA的RVM风速预测模型多参数同步优化方法。得到以下结论:

1)基于相空间重构方法构建机器学习样本时,嵌入维数和时间延迟都对风速预测误差具有较大影响。为了得到模型的最优解,需要对参数E、τ、σ进行同步优化。

2)基于GA算法对E、τ、σ进行同步优化,可以降低模型的预测误差。GA算法可以较为高效地搜索参数组合的全局最优值,同时降低时间成本,具有良好的工程实用价值。

3)对于其他预测方法,如组合预测方法[15-16],为降低其预测误差,同样可以利用本文方法对其模型参数进行同步优化选取,因此将该方法应用到组合预测中,将是本文后续的重要研究内容。

猜你喜欢
维数风电场风速
修正的中间测度和维数
β-变换中一致丢番图逼近问题的维数理论
邯郸市近46年风向风速特征分析
数字化风电场后评估指标体系研究
基于最优TS评分和频率匹配的江苏近海风速订正
基于时间相关性的风速威布尔分布优化方法
《海上风电场设施施工检验指南》(GD01—2020)发布
基于PSS/E的风电场建模与动态分析
巴基斯坦风电场环网柜设计
快速评估风电场50年一遇最大风速的算法