一种基于集成学习和高斯过程的光伏发电量预测混合算法

2024-07-03 12:01:50杨盛祥

无线互联科技 2024年10期

杨盛祥

摘要：集成算法被广泛应用于光伏发电量预测等工业场景。当没有足够的数据和工业知识储备时，该算法只能提供点预测，不能提供区间预测，降低了模型预测精度。为了解决该问题，文章提出了一种基于集成学习和高斯过程的光伏发电量预测算法。该算法利用集成学习进行光伏发电量的点预测，由多种算法组合而成，具有高精度特性。同时，文章所提的高斯过程算法将集成学习算法预测值作为输入、光伏发电量作为目标值，进行模型训练和迭代，高斯过程算法对模型进行区间预测，提高了模型的预测精度。实际的光伏场站案例验证了文章所提方法的有效性。

关键词：集成学习；高斯过程；光伏发电量预测

中图分类号：TK8文献标志码：A

0 引言

近年来，我国的可再生能源（如太阳能、风能、水能、生物质能）得到了迅猛的发展。在“双碳”背景下，光伏行业的装机容量增长极为迅速。2019年，光伏的装机容量超过了580 GW，而到了2022年全球光伏装机容量达到了871 GW。光伏发电的源头来自太阳辐射，其拥有不确定性和难以预测性。同时，在“源-网-荷-储”一体化的新型电力系统下，精准的光伏发电预测可以有效地减少新能源对电网的冲击。Sivaneasan等^[1]在2017年使用神经网络和模糊前处理工具包来进行太阳能辐射值的预测。Alzahrani等^[2]提出一种深度学习模型进行光伏发电量的预测，同时，将此类方法同支撑向量回归和前馈神经网络进行了比较。Yagli等^[3]在2019年使用了68种机器学习模式在5个温度区中的7个测量点进行了为期2年的小时级光伏预测。Gao等^[4]、Zang等^[5]使用卷积-时间长短记忆模型，在不同区域进行了全球范围的太阳辐照度预测。但上述研究均未考虑预测模型的不确定度，尤其是在不同时间段下预测不确定度的变化情况；同时，也仅涉及单一模型的应用，并未集成多种模型结果以提升预测精度。

鉴于此，本文提出了一种基于集成学习和高斯过程的光伏发电量预测模型。该模型分为2步：使用集成学习方法，集成多种单一人工智能模型，提高光伏发电量预测精度；使用高斯过程对已训练的模型进行进一步训练，在提高模型精度的同时，训练出预测值的不确定度。基于光伏场站的实际数据进行验证，将验证结果与多种主流机器学习模型进行比较，结果表明，本文所提模型具有一定的优越性。

1 一种基于集成学习和高斯过程的光伏发电量预测模型

1.1 数据收集与处理

数据收集与处理包含数据收集、数据分类和数据清洗。本文数据来源于中国浙江省某光伏场站，其中容量配置为彩色组件1218块，每块功率为400 W，总容量为487.2 kW；普通组件为5761块，每块功率为545 W，总容量为3139.745 kW。数据采集系统为10 min数据采集与监视控制系统（Supervisory Control and Data Acquisition，SCADA），数据采样周期为2023年5月到2023年6月，本光伏场站配备微型气象数据站，该气象数据站数据亦能通过SCADA进行采集。在数据清洗过程中，本文进行了包含NA值和缺失值的过滤。为了保证数据的真实性，本文并没有对缺失值进行回填，结合光伏场站采集点位，微型气象数据站采集点位和行业机理，本数据最终数据采集值为时间、温度、湿度、气压、辐照度和发电量。

本文数据总量为3377个观测值，数据集分为训练集（1000个观测值）和测试集（2377个观测值），提前对整个数据集进行标准化处理，将不同特征值的数据范围控制在同一数量级上，以此来平衡不同特征值的影响权重，如式（1）所示。

θ=（x₁，x₂，x₃，x₄）（1）

其中，θ为发电量，x₁～x₄分别为温度、湿度、气压和辐照度。同时，为了进一步提高结果效果，将数据集进行时间序列化处理，时间步长为τ。t时刻下的数据集Ω_t如式（2）所示。

1.2 集成学习模型

集成学习模型被用来进行光伏场站发电量的预测。该模型被设计为2层结构：第一层结构为支持向量机（Support Vector Machine，SVM）算法、随机森林（Random Forest，RF）算法和K近邻（K-Nearest Neighbor，KNN）算法组成；第二层结构为梯度提升决策树（Gradient Boosting Decision Tree，GBDT）算法。为了得到更好的泛化性，本文对训练数据部分进行了5次交叉验证（5th-fold）。集成学习模型的第一层结构的输入为时间序列数据集Ω_t，输出为SVM算法、RF算法和KNN算法的预测值；集成学习模型的第二层结构的输入为第一层算法的3种预测值输入，输出为t+1时刻发电量θ_t+1的预测值θ_t，其公式如下：

1.3 高斯过程模型

上述的集成学习算法仅能对光伏发电量进行预测，并不能对其预测的不确定度进行展示。基于上述问题，本文对其进行了如下的修正，给定的数据集为D={θ， θ}，f（·）为服从于联合高斯分布的变换函数，其统计值可以通过均值M（θ）与协方差K< θ， θ^，>来确定， θ^，为与 θ相同的样本集输入矩阵，高斯过程概率函数GP可以表示为：

在实际工业场景中，噪声是不可避免的。因此，本文将上述高斯过程与噪声进行结合，如式（5）所示。

其中，σ为高斯白噪声，I为集合单位矩阵。因此，本文所提出的一种基于集成学习和高斯过程的光伏发电量预测流程如图1所示。

本文使用平均绝对误差（Mean Absolute Deviation，MAD）作为评价指标MAD=1Nθ_i- θ_i，使用多种算法进行比较，其中包含SVM算法、RF算法、KNN算法、GBDT算法和高斯回归拟合算法。为保证多种算法在相同的条件下进行比较，本文使用Python软件环境，单机i5-6200U CPU和8 GB RAM硬件环境进行建模，其算法建模主要使用sklearn包进行SVM算法、RF算法以及KNN算法的建模；使用lightgbm包进行GBDT算法以及使用gpytorch包进行高斯过程建模。基于上述算法包及对应的参数定义，本文所使用的模型参数如表1所示。

2 实际案例

图2为对应数据集发电量的概率密度函数（去除发电量为0的数据）。可以看出：在本数据集中，最大发电量为2616.29 kW，最小发电量为0，发电量中位数为31.445 kW，发电量标准差为691.6。

同时，表2为不同预测尺度（1 h、6 h、9 h）下，本文所提出的算法与传统算法在测试集所进行的MAD值比较。其数值表明：在不同尺度下，统计指标均表现优异，这证明该算法具有一定的工业应用性和推广性。

3 结语

本文利用一种基于集成学习和高斯过程的算法对光伏发电量进行短时预测。该算法模型分为2个阶段：阶段1使用集成学习算法对光伏发电量进行建模和预测；阶段2使用高斯过程算法对阶段1的输出进行进一步的算法精度提升和预测不确定度的量化。根据和其他方法进行比较，该方案可以对光伏发电量进行有效预测，在不同尺度下均表现出优异的效果。若光伏场站的运行维护人员根据预测结果及时对光伏板状态进行校正处理，则可显著提高光伏场站的发电量。未来，研究团队将继续探讨该模型在不同光伏场站数据下的迁移性，以此来提升所提模型的泛化性，为模型在工业中的应用进行验证和推广。

参考文献

[1]SIVANEASAN B，YU C Y，GOH K P. Solar forecasting using ANN with fuzzy logic pre-processing[J]. Energy Procedia，2017（143）：727-732.

[2]ALZAHRANI A，SHAMSI P，DAGLI C，et al. Solar irradiance forecasting using deep neural networks[J]. Procedia Computer Science，2017（114）：304-313.

[3]YAGLI G M，YANG D Z，SRINIVASAN D. Automatic hourly solar forecasting using machine learning models[J]. Renewable and Sustainable Energy Reviews，2019（105）：487-498.

[4]GAO B X，HUANG X Q，SHI J S，et al. Hourly forecasting of solar irradiance based on CEEMDAN and multi-strategy CNN-LSTM neural networks[J]. Renewable Energy，2020（162）：1665-1683.

[5]ZANG H X，LIU L，SUN L，et al. Short-term global horizontal irradiance forecasting based on a hybrid CNN-LSTM model with spatiotemporal correlations[J]. Renewable Energy，2020（160）：26-41.

（编辑王永超编辑）

PV output prediction based on hybrid method of ensemble learning and Gaussian process

Yang Shengxiang

（Ningbo Beilun Third Container Terminal Co.， Ltd.， Ningbo 315800， China）

Abstract： Ensemble learning is widely used to time-series industrial application， such as photovoltaic （PV） output forecasting， but it suffers from low fitting accuracy and point prediction only without enough training dataset and industry knowledge. To solve this problem， a hybrid method based on ensemble learning and Gaussian process to predict PV output is proposed in this paper. Regarding with the point prediction of ensemble learning of several algorithms， the Gaussian process algorithm is utilized to provide confidence intervals， which has better generalization in prediction. By actual case from PV platform， it illustrates the application of the proposed method.

Key words： ensemble learning; Gaussian process; PV output prediction