基于XGBoost的分布式光伏发电功率预测

2022-05-30 10:48吴明朗
消费电子 2022年11期
关键词:分布式发电功率

吴明朗

【关键字】分布式光伏;特征工程;光伏发电功率预测;XGBoost

引言

为应对全球气候变化,解决资源环境约束突出问题,我国提出 “力争2030年前实现碳达峰、2060年前实现碳中和”的“双碳”目标。随着“双碳”行动方案的实施和“整县开发试点”工作的推进,低压分布式光伏装机容量的不断增加,同时低压分布式光伏发电的波动性、间歇性使电网系统面临调峰压力大、提升光伏发电消纳困难等问题[1],为电网安全、经济运行带来了严峻挑战。《“十四五”能源领域科技创新规划》指出要大力发展包括多时空尺度光伏发电功率预测技术,要利用大数据、机器学习等先进技术手段提高低压分布式光伏等新能源发电功率预测准确度,提升可再生能源负荷预测水平。因此,分布式光伏发电功率预测具有重要意义。

随着近年来人工智能技术的发展,光伏发电技术也从传统的方式向机器学习[2]和深度学习方向转变。孔红梅、张家安、时珉等人对分布式光伏空间相关性进行了深入分析,提出了一种基于空间相关性的区域分布式光伏出力预测方法[3-5] 。阚博文等人基于图机器学习提出了一种面向分布式光伏电站的深度时空特征提取预测模型[6]。董雷等人提出一种条件概率预测方法,应用动态贝叶斯网络理论,建立光伏发电预测的DBN模型[7]。李光明等人对硅太阳电池单一组件发电功率进行了理论计算,建立了一种以辐射量及组件温度为变量的多元线性回归光伏发电功率及發电量预测模型[8]。栗然,William VanDeventer,Abdel-Nasser等人在建立光伏并网发电系统模型基础上,采用支持向量机回归算法建立光伏发电系统的功率预测模型[9-11]。

因此,为解决分布式光伏发电功率预测问题,本文采用XGBoost实现分布式光伏的发电功率预测。本文对光伏发电的影响因子对各个变量分别进行了复杂的特征工程,扩展了原始的特征空间,并选出有效的特征变量用于XGBoost模型输入。采用了超参数调节的方法,对算法进行优化,并选取某区域的分布式光伏用户进行了实验。实验表明:本文提出的特征工程方法对分布式光伏发电功率预测技术有效,基于XGBoost的分布式光伏发电功率预测模型有很好的预测精度,各个误差指标小,泛化性能好,符合分布式光伏发电功率预测的要求。

一、相关性分析

(一)影响因素分析

根据低压分布式光伏发电的机理,分布式光伏发电功率受到气候、地理环境、气象等多种因素影响,不同环境下不同的气象对其影响程度也不同。分布式光伏发电特性和太阳辐射强度、太阳辐射能量、温度、湿度、云量、风速、风向、降雨等气象因子密切相关。因此,发电功率受多种条件综合影响,而这些影响因子随时间动态变化,表现出间歇性、周期性和不稳定性等特征。本文选取了多个影响因子用于模型输入,如下表1所示。

表 1 分布式光伏发电影响因子输入

(二)特征工程在

(一)中的部分变量不能直接输入到模型,如天气条件、日出时间和日落时间。另外,需要对特征进行泛化、转换生成新的特征,得到更多隐藏的特征变量,实现特征空间的扩展。为低压分布式光伏发电预测算法提供更丰富的特征输入,提升模型预测的精度。本文中使用了编码、差分、统计、交叉和趋势计算特征等方法构建特征。

(1)时间特征构造

基于某一时间点的日期和时间,对各个部分进行拆分,构造出新的特征,主要拆分出月,周,日,小时特征,衍生出4个新的特征。

基于以上3个指标对模型的性能进行评价,MSE和MAE在测试样本上的值越小越好,R2在测试样本上的值越接近1越好。

(三)基于xgboost的预测模型构建

1、试验数据

本文以某区域的分布式光伏用户的发电功率为对象,以分布式光伏用户历史发电功率数据和该区域的历史气象数据作为基础,其数据项为包括了表1中所示。数据时间范围为2021年4月20日至2022年4月20日,数据均为1小时一个点,每天24点的数据。本文以该数据进行建模分析。

为构建基于XGBoost的预测模型,将数据按照“特征工程”和“特征筛选”章节所述进行了特征构造和特征筛选,并将数据拆为2部分:2021年4月20日至2022年3月31日作为训练集;2022年4月1日至2022年4月20日作为测试集。

2、模型参数

在XGBoost模型中参数很多,本文使用网络搜索(Grid Search)实现XGBoost的超参数调节,最后得到如下表2所示的最优参数取值。

表 2 XGBoost超参数取值

(四)模型预测结果及分析

为对XGBoost模型进行评估,对2022年4月1日至2022年4月20日的测试集进行了预测,如下图1所示。

图 1 在测试集上的预测结果

从图2中可以看出橙色的线为预测值,蓝色的线为真实值,发电功率的真实曲线和预测曲线基本重合,说明XGBoost能较好地对分布式发电功率进行预测。下面分别对24小时和72小时的发电功率曲线进行预测和可视化,如下图3所示,可以看出不同时间尺度上的预测效果较好。

图 2 日预测效果(左)和72小时预测效果(右)

从模型性能指标角度进行分析,分别计算整个测试集预测曲线、24小时预测曲线和72小时预测曲线的评价指标,得到如下表3所示。

表 3 模型评价指标

從MSE、MAE和R2三个评价指标看,XGBoost在整个测试集上都有较好的预测效果,MSE可以达到0.02以下,MAE可在0.08以下,R2更是在0.96以上;而24小时的预测结果和72小时的预测结果,从指标上72小时的预测结果效果模型性能更好,也说明XGBoost在分布式光伏发电功率预测上的泛化性好,XGBoost模型的整体性能很好。

XGBoost模型可以对特征变量的重要性进行量化分析,因此对特征变量的重要性进行可视化,如下图3所示。

图 3 基于XGBoost的特征重要性

从特征重要性排序中可以看出太阳辐射强度,紫外线指数,前2天和3天的发电功率的查分特征,交叉特征都比较重要。但是太阳辐射能量重要性较低,可能是因为该特征和太阳辐射强度特征相关性较高导致。总之,通过特征重要性可以看出本文中的特征工程是非常有效的。

结论

本文通过对历史气象数据和发电功率曲线数据进行特征工程的计算、特征筛选,并基于XGBoost建立分布式光伏发电功率预测模型。基于某区域的分布式光伏发电功率数据进行了验证,得出结论如下:

1)本文中的特征工程对分布式光伏发电功率预测是有效的,构造的特征变量在模型中具有较高的重要性,构造后的特征空间能帮助模型提高模型性能。

2)XGBoost模型在分布式光伏发电功率预测中具有很好的性能,在独立测试集上进行发电功率预测,XGBoost模型表现出模型精度高,泛化能力强。

在不同时间尺度下的预测,XGBoost模型的性能表现较好,分别在24小时和72小时的时间尺度下进行测试,XGBoost模型性能指标表现都很好,甚至72小时的模型性能可以超过24小时。

猜你喜欢
分布式发电功率
“发电”
柠檬亦能发电?
摇晃发电小圆球
摩擦发电
基于DDS的分布式三维协同仿真研究
西门子 分布式I/O Simatic ET 200AL