刘昳娟,陈云龙,刘继彦,张雪梅,吴潇雨,孔维政
(1. 国网山东省电力公司,山东 济南 250002;2. 国网能源研究院有限公司,北京 102209)
随着全球对环境保护的要求逐步提高,能源结构亟待优化。尤其是2020年以来,为缓解新冠肺炎疫情的冲击,各国政府逐渐将可再生能源、氢能等清洁能源技术作为经济复苏计划的核心[1]。其中,光伏作为清洁、高效的可再生能源,已得到广泛应用。截至2022年3月,中国光伏发电装机容量达3.2亿kW,同比增长22.7%[2]。光伏发电业已成为中国能源结构转型的主要手段之一,然而,由于光伏出力受所处小范围气象影响严重,随机性强,其消纳问题成为阻碍光伏发电发展的主要原因。准确可靠的光伏发电功率预测可以有效降低光伏发电装置对配电网运行的冲击,保障供电可靠性[3]。光伏功率预测的研究从作用上分为日前预测模型和日内预测模型,前者是制定日前发电计划的重要数据支撑,后者用于指导电网的实时调度[4]。
目前,光伏预测的主要方法有持久性模型、自回归移动平移(autoregressive moving average,ARMA)模型、指数平滑法、物理方法、人工神经网络(artificial neural network,ANN)、支持向量机(support vector machine,SVM)和混合模型等[5]。利用时间序列对短期光伏发电功率进行预测是一种常见的预测思路,但面对时间尺度和输出维数的增加,难以保障预测结果的精度。卫星图像和天空图像可以应用于基于云的跟踪和预测的超短期太阳能辐照度预测[6-7],但受气象卫星数据地理分辨率低和地基天线覆盖面积小的限制,该方法的预测精度和实用性有待进一步提高。太阳能辐照度由于可以与光伏出力形成正比例映射,也被应用于光伏出力预测[8-9],但目前国内气象部门提供的太阳能辐照度信息存在诸多限制,限制了该类方法的应用。
机器学习方法的非线性处理能力有利于拟合光伏功率的变化规律,在光伏预测中得到了广泛应用[10-12]。随着电网对光伏电站预测精度的要求不断提高,单层的神经网络预测模型往往难以满足预测需求,长短期记忆网络(long short-term memory network,LSTM)[13]、卷积神经网络(convolutional neural network,CNN)[14]等深度学习网络逐渐被应用于光伏预测中。但是,深度学习方法在构建模型的过程中往往需要大量运行数据支撑,并且由于网络层数的增加其收敛时间也大幅增加。针对这一问题,越来越多的研究着眼于混合预测方法。文献[15]利用灰色关联度获取相似日气象特征向量,并将其作为免疫遗传神经网络的输入,以提高光伏预测精度。文献[16]通过改进狼群算法优化最小二乘支持向量机的参数,用于预测光伏出力。这些研究有效提高了光伏预测精度,但均为单点预测方法。日前预测模型是在前一预测目标日的发电功率曲线,属于多点预测,相较于单点预测难度更高。尤其是为了满足电网调度需求,往往需要光伏电站提供更短步长的预测结果,光伏日前预测面临进一步挑战。
针对这一问题,本文提出了一种基于集成学习的光伏出力日前预测方法。综合考虑光伏出力本身的周期性和规律性,通过特征提取技术和改进的K均值(k-means++)聚类获取相似日数据集,以降低训练集复杂度;针对传统人工智能建模方法的不足之处,利用集成学习技术,极限学习机(extreme learning machine,ELM)嵌入Boosting框架,以弥补单个机器学习方法的不足,保障模型的泛化能力和收敛速度,提高预测精度。
光伏发电功率变化主要受气象因子的变化影响,例如太阳辐照度、气温、湿度、气压等。为在众多气象因子中筛选出影响光伏出力的主要特征,减少关联性小的因素对结果的负面影响,需要先对气象因子进行相关性分析[14]。
皮尔逊相关系数(Pearson correlation)在欧几里得距离上做了改进,提供了对于变量取值范围不同情况下的处理方法,是一种有效的判断向量相似度的方式。本文选取皮尔逊相关系数对气象特征进行分析,以提取关键信息因子。
2个序列X和Y的皮尔逊相关性系数P计算公式为
式中:n为序列长度;xi和yi分别为序列X和Y的第i个变量;和分别为序列X和Y的平均值。
P的取值范围为[-1,1]。相关程度与P的取值范围对应如表1所示。
表1 P取值范围与向量相关度对应关系Table 1 Correspondence between the range ofPvalues and vector correlation
本文选择澳大利亚某光伏电站的光伏出力历史数据及其对应的气象数据以验证所提出模型的预测性能。该实验数据集包含历史光伏出力数据和7个气象数据(总水平辐照度(W/m2)取值范围[0~1 500]、直接辐射(W/m2)取值范围[0~1 500]、风速(m/s)取值范围[0~10]、风向(°)、室外温度(℃)取值范围[-10~45]、湿度(%)取值范围[0~100]、降雨量(mm)取值范围[0~40]),利用上述7个气象数据进行相关性分析。为保证数据集的完整性和结果的适应性,选择2020-01-01—2021-12-31的历史数据,以确保涵盖晴天、阴天、雨天、多云等多种气象条件。其光伏出力与气象特征之间的皮尔逊系数和相关性如表2所示。
表2 气象因素与光伏出力的相关性Table 2 Correlation between meteorological factors and PV output
由表2可知,总水平辐照度和直接辐射与光伏出力极度相关,风速和室外温度呈现中等相关、风向和湿度呈弱相关,而降雨量几乎不相关。因此,为保证气象信息的完整性同时减少冗余信息对预测模型产生的负面影响,本文选取总水平辐照度、直接辐射、风速和室外温度作为气象特征。
k-means是简单常用的聚类方法之一,其主要原理是通过两目标间欧式距离的大小判断其相关度。但是,k-means也存在可能会选取到不合适的初始值的问题,容易陷入局部最优。k-means++就是k-means针对该问题的优化算法。其算法思路为:在选取第n+1个中心点时,计算多个随机选取的点与前n个点的距离,从而选择距离最远的点作为第n+1个聚类中心。
根据表2可知,总水平辐照度与光伏出力相关性趋近于1,呈现出极度相关性。选取某天的光伏出力(photovoltaic power,PV)与总水平辐照度(global horizontal irradiance,GHI)进行归一化处理,如图1所示。
图1 光伏出力与总水平辐照度日曲线Fig. 1 Daily curve of photovoltaic output and total horizontal irradiance
由图1可以看出,光伏出力与总水平辐照度的波动趋势几乎一致,因此,选取总水平辐照度作为主影响因素对其进行聚类。选取光伏电站整年数据进行聚类,以确保涵盖春夏秋冬各类气象条件下的光伏电站运行情况。
采用肘部法则来确定最佳K值[17],其原理是通过计算每个簇的误差平方和(sum of squared errors,SSE)来判断聚合程度,随着K值的增大,样本划分更加精细,SSE就会更小,但当K值增大到一定程度,增加K值所获得的聚合程度回报变化减小,SSE的变化趋于平缓,由此,在K值变化过程中会产生拐点,该拐点对应的便是最佳K值。利用肘部法则确定K值如图2所示。
图2 肘部法则确定最佳K值Fig. 2 The optimalKvalue determined by the elbow method
由图2可以看出,当K=4时,SSE曲线出现明显拐点,因此选择最优K值为4。利用kmeans++实现聚类,绘制每个簇中对应日期的光伏出力日曲线如图3所示,其中图3中的有色曲线为对应簇的中心值,灰色曲线为被分入该簇的实际光伏出力曲线。
图3 光伏出力日曲线聚类结果Fig. 3 Clustering result of photovoltaic output daily curve
由于每个簇的波动和变化趋势和幅值相近,将每个簇中的曲线作为相似日样本,构建相似日数据集,从而降低预测模型建立的复杂度。
ELM作为一种单隐层前馈神经网络(single hidden layer feedforward neural,SLFN),具有良好的泛化能力[18],善于挖掘非线性系统中已知信息的内部关系,可以通过已知信息挖掘光伏出力的内部特征。同时,ELM在训练过程中随机选择隐藏阈值,对输出权值进行分析,不需要迭代计算,与传统神经网络相比,显著提高了训练速度。因此,本文选取ELM作为基础预测算法,其网络结构如图4所示。
图4 ELM网络结构Fig. 4 ELM network structure
对于一个N维矩阵(xi,ti),xi=[xi1,xi2,…,xin]T∈Rn,ti=[ti1,ti2,…,tim]T∈Rm,ELM 可以被映射为
式中:xj为第j个数据示例;L是隐藏层神经元个数;βi是隐藏神经元与输出神经元之间的输出权重;g(x)是激励函数;Wi=[ωi1,ωi2,···,ωin]T是输入节点与隐藏神经元之间的输入权重;bi为隐藏层阈值;oj为输出值。
在机器学习模型训练过程中,单个模型往往只能在某些方面有较好的表现。而集成学习就是通过组合这些单个模型以期得到一个更好更全面的强模型,其潜在的指导思想是:当某个模型输出错误结果时,其他模型可以校正预测结果。
Boosting框架是一种序列集成方法,其主要思想是:在概率近似正确的学习框架下,顺序生成被训练的单个模型。利用这些模型之间的依赖关系,对前面训练过程中出现错误的样本赋予较高权重,从而改善整个集成框架的预测效果。本文提出的基于Boosting框架的光伏出力日前预测模型(B-ELMs)结构如图5所示。
图5 光伏出力日前预测模型Fig. 5 Photovoltaic generation day-ahead output prediction model
结合图5对光伏出力日前预测模型结构进行详细描述。
(1)Boosting框架对多个ELM模型进行线性组合,在训练开始时分配给每一个训练样例相同的权重。
(2)在接收到输入矩阵I的数值后,由ELM0先给出预测结果,如果预测误差较大,则该点在下一个ELM模型中具备更高权重。
(3)迭代步骤(2),让每一个ELM模型在每次学习后都更注意错误样本,从而得到n个ELM模型。
(4)通过拟合残差的方式减小残差,分配给误差较小的单体模型更高的权重,从而得到最终预测结果。
本文选择澳大利亚某光伏电站的光伏出力历史数据及其对应的气象数据以验证所提出模型的预测性能。光伏系统设备配置信息汇总如表3所示。
表3 光伏电站配置Table 3 Photovoltaic power station configuration
根据1.2节的聚类结果划分相似日数据集,对应簇的标号分别命名为SDD1、SDD2、SDD3、SDD4。针对各个相似日数据集分别构建对应的BELMs预测模型。同时,选择常见的ANN、LSTM和ELM构建预测模型,对所提出模型性能进行验证。
利用均方根误差(RMSE)、平均绝对误差(MAE)和决定系数(R²)来评估模型效果,定义分别为
式中:y(t)、Y(t)和Ȳ(t)分别为预测值、真实值和真实平均值;n为测试集长度。
RMSE与MAE的评估方式相似,数值越小说明预测误差越小。R²是一种评估预测曲线与真实值曲线的相似程度的参数,其取值范围为(0,1),当R²越趋近于1,其相似度越高,即预测精度越高。选择数据集的前70%作为训练集,中间10%作为交叉验证集,最后20%作为测试集,验证B-ELMs的性能,试验结果如图6和表4所示。由表4可知,除了少数评估参数,本文提出的B-ELMs模型性能优于其他模型。同时,在不同相似日数据集下,各模型的表现不同。在SDD1和SDD2作为模型数据集时,由于这2个数据集中的光伏出力日曲线较为平滑,规律性更强,各模型精度差距不大。由此可见,对于规律性和周期性较强的平滑曲线,传统的机器学习例如ANN也可以有较好的学习效果。当数据集变为SDD3时,由于光伏出力日曲线波动性增加,规律性减弱,各模型的表现差距开始展现,ANN和ELM作为单层神经网络,难以应对波动性强的数据的弊端开始展现,而由于LSTM是深度学习网络,其对于非线性的归纳能力强于前两个模型。各模型的功能差距全然展现在SDD4数据集下,由于该数据集内多为复杂天气状况,光伏出力日曲线的规律性进一步减小,波动性进一步加大,ANN、ELM和LSTM都难以再维持良好表现,而由于B-ELMs将多个基础模型规范在Boosting框架下,稳定性更强,仍然保持着较高的预测精度。由此可知,B-ELMs模型不仅在正常天气情况下有良好的预测性能,而且在面对复杂天气情况时仍能保持稳定的预测能力,保障光伏日前预测的精度。
图6 各模型在不同相似日数据集下的预测结果Fig. 6 Prediction results of each model under different similar day datasets
表4 不同相似日数据集下的各模型精度Table 4 Accuracy of each model under different similar day datasets
另外,除精度外,收敛速度也是评价预测模型性能的一大标准。本文计算了不同模型在各相似日数据集下训练的收敛速度,结果如图7所示。由图7可知:ANN和ELM都是单层神经网络,收敛速度最快;LSTM由于是深度学习网络,收敛速度最慢;B-ELMs选用了多个基础模型,其收敛速度虽然相较于单一的ELM有所上升,但依然远低于LSTM。因此,本文提出的BELMs模型可以在保障收敛速度的同时,有效提高预测精度。
图7 各模型在不同相似日数据集下的收敛速度Fig. 7 Convergence rate of each model under different similar day datasets
针对光伏出力受天气影响大、随着步长变短导致精准的光伏日前预测愈发困难的问题,本文提出了基于集成学习框架的光伏日前预测方法。实验结果表明,本文提出的B-ELMs模型其性能不仅优于传统的单层神经网络和深度学习网络,在数据波动大、规律性弱时,在保证收敛速度的同时,仍然能保持较好的预测性能,保障预测结果的准确性。