范程岸 刘博文
摘 要:光伏发电具有波动性、间歇性的特点。为了提高光伏发电功率预测的精度,文章将GBDT和神经网络进行组合,建立了一种光伏发电组合预测模型。先对原始数据进行数据清洗,之后训练3个GBDT和2个神经网络算法模型,得到互有差异的5个预测值向量,用K-means对预测值向量进行聚类,从每一类中筛选一个预测值向量输入到第3个神经网络进行训练,从而得到最后的组合预测模型。实验证明,基于GBDT和神经网络的光伏发电组合预测,其精度比神经网络、SVM要高。
关键词:梯度提升决策树;K-means;神经网络;光伏发电预测;组合模型
并网太阳能光伏发電站不稳定的输出功率会对电力系统的稳定性造成影响。提高光伏发电功率的预测精度有助于电力部门进行调度计划的制定,从而有利于电力系统的稳定运行。在过去,已经有许多方法被应用于光伏发电量的点预测,比如,物理法(根据预报气象、系统参数、角度、转换效率等进行物理建模)、神经网络模型、支持向量机模型等[1]。
本文建立一种基于梯度提升决策树(Gradient Boosting Decision Tree,GBDT)与神经网络(Neural Networks,NN)的组合预测模型[2]。通过实验,证明其预测精度比神经网络模型、SVM模型更高。
1 GBDT算法简介
GBDT算法的流程:初始化预测值开始,然后每次添加1棵回归树,叶子里得到预测值以及预测值与真实标签的残差,下一次生成的回归树针对前面所有回归树的残差进行学习,循环迭代,直到由T棵回归树组合的预测值与真实标签的残差尽可能小。
2 神经网络算法简介
如图1所示,神经网络由输入层、隐含层、输出层组成。每一层由神经元构成,神经元里包含激活函数,其常用类型包括:Sigmoid,tanh,relu。激活函数的作用是为神经网络增加非线性因素,提高神经网络拟合非线性函数的能力。每一层神经元用权重W进行连接。为了减少输出值残差,利用反向传播算法不断更新权重W,由于神经网络的隐含层数、神经元个数、激活函数的各种灵活组合,所以其可以进行非线性函数的逼近。
3 实验
3.1 光伏数据
光伏数据的特征包含光照、温度、湿度、风向、光伏板转换效率、电气性能等因素。数据集一共9 000条记录,其中4 000条训练集数据用来训练模型,5 000条数据用来测试模型的性能。
3.2 训练模型
光伏发电预测精度用均方根误差(rmse)来衡量,rmse的计算公式为:
)rmse越小,预测精度越高,预测模型生成过程如图2所示。利用集成学习的思想,把数据分别输入到3个GBDT和两个神经网络,每个GBDT和神经网络的训练参数各不相同,从而得到有所差异的5个预测值向量。根据奥卡姆剃刀原理进行模型简化,利用K-means[3]算法对预测值向量进行聚类区别,一共分成3类,分别打上0,1,2的类别标签。从每一类中各抽出一个预测值向量,将其当作数据集的新特征输入到第3个神经网络中训练,得到最后的预测模型。预测过程中,把测试集数据分别输入到由K-means算法筛选出来的GBDT1,NN1,NN2,分别得到3个预测值向量,然后把这3个预测值向量输入到NN3,得到最终的预测结果。
3.3 实验结果
实验结果如表1和图3—4所示。根据表1可知,GBDT+NN+K-means组合预测的rmse比NN1小0.010 3,比NN2小0.051 6,比SVM小0.051 1,比GBDT1小0.007,说明基于GBDT和神经网络的组合模型预测,其精度高于其他单模型。另外,根据图3—4可知,GBDT+NN+K-means模型避免了尖峰的拟合,即不易出现过拟合现象。从图3—4中抛物线的右下侧可以明显看出,SVM,NN1预测值与真实值之间存在的间隔,而GBDT+NN+K-means模型几乎与真实数据重合。
4 结语
本文建立的一种基于GBDT和NN的光伏发电功率组合预测模型。先利用训练数据生成多个GBDT和NN单模型,然后利用K-means方法进行分类、修剪,减小模型的冗余,最后进行组合模型预测,与传统的SVM,NN相比,具有更高的精确度。本文的缺点是并没有对光伏发电数据进行深入的特征挖掘与聚类分析,仅侧重于模型的组合方法。光伏发电受天气等因素影响,如何在复杂多变的天气里利用算法尽可能提取有用的光伏特征信息值得深入研究。
[参考文献]
[1]赖昌伟,黎静华,陈博,等.光伏发电出力预测技术研究综述[J].电工技术学报,2019(6):87-103.
[2]FRIEDMAN J.Greedy function approximation:a gradient boosting machine[J].The Annals of Statistics,2001(5):1189-1232.
[3]MACQUEEN J.Some methods for classification and analysis of multivariate observations[C].California:Proc of Berkeley Symposium on Mathematical Statistics&Probability,1965.
Abstract:Photovoltaic power generation has the characteristics of volatility and intermittentness. In order to improve the accuracy of photovoltaic power generation prediction, this paper combines GBDT and neural network to establish a photovoltaic power generation combined prediction model. First, the original data is cleaned, and then three GBDT and two neural network algorithm models are trained to obtain five predictive value vectors with different differences. The predicted value vectors are clustered by K-means, and each class is selected, a predictive value vector is input to the third neural network for training, thereby obtaining the final combined prediction model. Experiments show that the accuracy of photovoltaic power generation based on GBDT and neural network is higher than that of neural network and SVM.
Key words:gradient boosting decision tree; K-means; neural networks; forecast of photovoltaic power generation; combined model