方鹏,高亚栋,潘国兵,马登昌,孙鸿飞
(1.浙江华云电力工程设计咨询有限公司,浙江杭州 310023;2.浙江工业大学机械学院机电所,浙江杭州 310023)
随着近年来太阳能、风能、生物质能等新能源发电技术的飞速发展,准确预测光伏电站各个时期的发电量变得非常重要。成功预测光伏电站发电量有助于分布式光伏电站的优化经济运行和电网的安全可靠运行。目前我国分布式光伏电站建设存在缺乏系统全面的前期规划,项目运营成本超过预期等问题。因此,建立可靠的模型预测分布式光伏电站的发电量,越来越成为可再生能源发电领域的研究热点之一[1]。
现有的光伏发电输出预测方法从预测的时间尺度来看,超短期和短期预测模型有助于电力系统调配与运营[2]。而中长期发电预测则采用统计学分析方法,通过对目标电站所在区域的中长期气象数据、辐照度等监测数据拟合分析,并结合分布式光伏电站自身系统效率变化,预测以后一个月或甚至更久的电力输出,可以应用于光伏电站的选址及效益评估等方面[3]。
目前,国内暂时没有中长期时间尺度的研究,国外有少数学者在此方面研究,但相关文献较少。Kanna[4]建立了一种基于自适应小波神经网络的长期光伏发电预测模型。Yu[5]采用局部高斯过程回归高斯混合用于长期光伏发电预测的Copula函数。李芬[6]基于历史光伏发电时间序列数据和GA-BPNN算法联合建模实现光伏短期出力预测。谭建斌[7]基于思维进化算法和BP神经网络算法,建立了光伏发电功率的短期预测模型。模型以温度、辐照度、风速和历史出力序列为输入因子,根据季节划分为4个预测单元,对其分别进行训练和输出预测。通过仿真验证了算法的有效性和准确性。Garcia-Martos[8]提出了基于动态因素的光伏发电中期预测模型。不同于超短期、短期预测模型,中长期预测模型需要考虑光伏电站长时间周期工作下的损耗因素,即系统效率(PR),但目前大多数有关系统效率的研究都是基于复杂的物理模型,基于数据驱动的系统效率模型尚未建立。
现有的光伏发电预测相关的工作主要集中在短期和超短期。出于电网运营商和规划者的需要,中长期发电预测已开始受到越来越多的关注[9]。而中长期的光伏发电预测需要提供更多的气象和运营数据。鉴于现有光伏发电预测方法存在的问题,本文提出一种基于FCM-RF(Fuzzyc-meansalgorithm-Random forest)和LSTM(Long Short-Term Memory)神经网络的分布式光伏电站发电量预测方法。针对特性划分和特征提取中出现的问题,采用FCM聚类将分布式光伏电站数据聚类,然后按聚类结果在不同类数据上构建CART树,并对各类CART树剪枝处理,提取主要影响分布式光伏电站发电的特征,实现特征降维,提高模型运算速度。最后,经过基于剪枝后的CART树模型预测分布式光伏发电验证,所提出的方法在预测精度和降低模型的训练时长方面均优于其他方法。针对分布式光伏电站的发电量受辐照度的影响较大的问题,现对辐照度进行预测,但是进行长期预测存在“长时间周期依赖”问题,所以引入LSTM神经网络的设计,解决了这一问题。在分布式光伏电站中长期发电量预测任务中,使用间接预测方法,通过历史气象数据预测未来中长期时间尺度的辐照度,结合分布式光伏电站系统效率值(PR),最终预测系统发电量。
基于FCM-RF的预测模型首先要计算聚类中心,使用FCM算法对数据进行处理,具体步骤:指定聚类类别数C,2≤C≤n,n为数据个数,m为一个加权指数,本节设迭代停止阈值等于ε,初始化聚类中心为Vb,设置迭代计数器b=0。然后求解划分矩阵U;再更新聚类中心V(b+1);如果||Vb-V(b+1)||<ε,则终止迭代,否则b=b+1,返回继续求解划分矩阵U。
然后须要构建CART决策树,并进行剪枝处理。首先在训练集所在的特征空间中构建二叉决策树,通过递归的形式把每个特征空间划分为两个子特征空间并决定每个子特征空间上的输出值。
最后构建随机森林模型,其算法步骤如下。
②在节点分裂的过程中,从已知样本数据的M维特征中随机地抽取m个特征作为该叶节点分裂所用的特征集合,根据样本量的大小设定m的值,一般情况下,如果不对决策树算法进行其他改进,在整个随机森林形成过程中m值永远保持不变。
③对每个CART决策树进行剪枝处理,使其达到最大程度的叶节点数。
在给定自变量X=x的情况下,通过对因变量Yi(i=1,2,…,n)预测值进行加权平均,最终得到单棵决策树的预测值。
分布式光伏电站的发电量受辐照度的影响较大,在分布式光伏电站中长期发电量预测任务中,通常使用间接预测方法,通过历史气象数据预测未来中长期时间尺度的辐照度,结合分布式光伏电站系统效率值(PR),最终预测系统发电量。
长时间记忆神经网络通常被称为“LSTM”,它是一种特殊的递归神经网络RNNs(Recurrent Neural Networks),能够胜任像“长时间周期依赖”这类问题的预测任务[10]。LSTM神经网络具有长期记忆功能,能够深入挖掘有限数据样本的长期依赖关系和趋势。它还可以解决递归神经网络(RNNs)在训练过程中,梯度消失导致对距离的感知能力丧失的问题[11]。相较于标准RNNs神经网络只拥有一个神经网络层,LSTM网络拥有4层,并以一种非常特殊的方式相互作用。
中长期辐照度预测模型基于LSTM神经网络建立,该模型在RNNs神经网络中增加了4个门层,即遗忘门层、输入门层、更新门层和输出门层,以解决在中长期辐照度预测中长时间尺度、数据样本有限的问题,并有选择地记住反馈的校正参数,模型的最优误差参数通过梯度下降法求解。遗忘门层用于计算需要遗忘的信息,在中长期辐照度预测任务中,当前辐照度预测需要借助同一时间序列上前一时间周期的节点数据。该门层可以读取上一层的输出ht-1和当前输入的xt,然后输出一个0~1的值ft,该值是通过sigmoid函数处理得到,并将其分配给当前的单元状态Ct-1。ft为1表示“保留所有”状态,0表示“全部遗忘”状态。
式中:方括号内表示将两个向量联系在一起,Wf为遗忘门层的权重矩阵,σ为sigmoid函数;bf为遗忘门层的偏置项。
输入门层由两部分组成。第一部分用来决定到sigmoid函数的输入值;第二部分创建一个新的候选向量添加到单元状态Ct的tanh函数的输入值,即:
式中:it为到sigmoid函数的输入值;Wi,Wc分别为第一部分和第二部分的权重矩阵;bi为第一部分决定到sigmoid函数的输入门层的偏置项;bc为第二部分创建一个新的候选向量的输入门层的偏置项;C˜t为添加到单元状态Ct的候选向量。
更新门层用于更新旧的单元状态,当前时刻的单元状态值等于遗忘门的输出值的乘积与输入门层的前一时间状态值和两部分输出值的乘积之和,即:
式中:Ot为由sigmoid函数输出的参数信息;Wo为输出门层的权重矩阵;bo为输出门层的偏置项;ht为当前单元输出结果。
分布式光伏电站中长期发电量预测模型采用间接预测法,基于分布式光伏PR预测模型与中长期辐照度预测模型的结果,其表达式为
式中:Ep为系统发电量,kW·h;HA为太阳能总辐照量,W/m2(由中长期辐照度预测模型得出);PAZ为装机容量,kW;E s为标准条件下的辐照度,常数=1 000 W/m2;PR为系统综合效率损耗系数,由分布式光伏电站PR预测模型得出。
在分布式光伏电站发电预测任务中,电气参数特征多为静态特征,即其特征值取若干个离散数值或文本种类。本文选用的电气设备特征为厂家提供的设备参数表中影响该设备电气特性的参数集数据,主要包括光伏组件参数、逆变器参数、汇流箱参数、变压器参数、交直流电缆损耗参数。
PR预测实验数据来源于澳大利亚中部的爱丽丝·斯普林斯区域内分布式光伏电站数据。为了验证基于FCM-RF的分布式光伏电站PR预测方法,收集了来源于澳大利亚中部的爱丽丝·斯普林斯区域内76个分布式光伏电站数据,其中分布式光伏电站监测数据包括:组件温度、PR、功率、发电量等,记录的时间间隔分为5,15 min和1 h 3种;气象数据取自当地气象站2015-2018年的观测数据,时间尺度为每月,气象因子包括:辐照度、风速、风向、环境温度、湿度、组件温度、气压;电气参数取自58个分布式光伏电站各个设备的技术参数表,包括光伏组件、逆变器、变压器、汇流箱、交直流线缆型号。
在中长期辐照度预测实验中,辐照度数据和相关气象数据包括2010-2017年整个领域的实测辐照度值和当地气象实测数据,采样频率为15 min。通过计算将数据转换为月平均辐照度数据和月平均气象数据。在分布式光伏电站中长期发电量预测任务中,通过历史气象数据预测未来中长期时间尺度的辐照度,结合分布式光伏电站系统效率值(PR),最终预测系统发电量。
PR预测实验数据中包含76个分布式光伏电站,为了衡量模型的效果,选取其中4个电站数据用于测试,其电站序号分别为19,35,57和63。训练集数据的时间序列为2015-2017年,采样周期为每月,基于RF预测电站在2018年每月的PR值预测结果绝对误差百分比(The Mean Absolute Percentage Error,MAPE)与均方根误差(The Root Mean Squared Error,RMSE)如表1所示。
表1 基于RF预测结果误差表Table 1 Based on RF prediction result error table
为提高预测精度并降低模型的训练时长,在传统RF进行剪枝之前引入FCM算法,根据训练数据差异性将训练数据分为若干个相似类。基于FCM-RF的PR预测MAPE与均方根误差RMSE如表2所示。
表2 基于FCM-RF预测结果误差表Table 2 Based on FCM-RF prediction result error table
由表2可以看出,PR预测值与实际值的误差值在2.3%上下浮动,在训练时间上有很大程度的减少。可见,相较于RF算法,FCM-RF算法在具有在多种数据结构差异的情况下准确预测的优点,适应能力强且计算速度快。
中长期辐照度预测实验中,采用2010-2017年整个领域的实测辐照度值和当地气象实测数据,采样频率为15 min,通过计算将数据转换为月平均辐照度数据和月平均气象数据,分别以辐照度、晴空指数、日照时间以及云量比作模型的输入。
图1为LSTM神经网络模型与其他模型对2018年澳大利亚中部的爱丽丝·斯普林斯区域的太阳辐照度预测效果与实际对比图,其中预测值经过log反变换为真实辐照度值域范围。
图1 LSTM神经网络与各模型预测结果对比图Fig.1 Comparison diagram of prediction results between LSTM neural network and each
表3为LSTM神经网络模型与各模型的预测误差对照表。
表3 等温吸附曲线拟合参数Table 3 Fitting parameters of isothermal adsorption curve
从最终的预测结果中可以发现,在中长期辐照度预测任务中,LSTM神经网络不论在训练集上的拟合效果,还是在最终的预测结果中都呈现较好的效果。对于预测误差,由于最终的辐照度值在实际的值域范围,数量级较大,适合MAPE作为误差衡量标准,对于中长期预测任务,预测结果的MAPE在5%以内都是可接受的范围。因此,在训练样本数据有限,预测目标在时间序列上有规律的变化趋势,且具备“长时间周期依赖”条件的中长期辐照度预测任务中,使用LSTM神经网络具有较好的预测效果。
结合分布式光伏电站PR预测模型在预测了19,35,57和63号分布式光伏电站每月PR值后,继续对各电站2018年发电量预测,如图2所示。
图2 电站2018年发电量预测结果Fig.2 Power generation forecast for power station in 2018
图中,19号电站的MAPE为3.85%,35号电站的MAPE为3.41%,57号电站的MAPE为4.01%,63号电站的MAPE为3.14%。将19,35,57和63号电站月预测发电量累加,与实际2018年总发电量对比,4个电站的年MAPE分别为0.88%,1.12%,1.03%和1.23%。由此可见基于FCM-RF的分布式光伏电站PR预测模型与基于LSTM的中长期辐照度预测模型组合而成的分布式光伏电站中长期发电量模型的每月预测值与实际值的MAPE在3.5%上下波动,各电站年预测值在1.1%上下波动,预测效果较好。
分布式光伏电站中长期发电量预测的时间尺度较大,天气预报精度较低,历史发电数据样本有限,中长期发电预测与短期发电预测存在较大差异,因此短期发电预测技术不能直接复制。出于电网运营商和规划者的需要,中长期发电预测已开始受到越来越多的关注。本文为了解决中长期预测问题,采用数据预处理技术为模型提供高质量的输入数据,并对传统RF算法改进,建立了基于FCM-RF的分布式光伏电站PR预测模型;接着研究了中长期辐照度预测方法,通过与基准模型比较,提出了基于LSTM网络的中长期辐照度预测模型;最后利用间接预测法建立分布式光伏电站中长期发电量预测模型。
通过实例验证,在实际的预测结果,基于FCM-RF的分布式光伏电站PR预测模型相比传统RF算法,MAPE稳定在2.2%,RMSE稳定在2,具有较好的预测效果。LSTM神经网络相比其他模型,MAPE减少到4%,R-square提高到0.93,具有较强的预测效果。预测了2018年实际电站的月发电量以及年发电量,与实际电站的真实发电量对比,月发电量预测MAPE在3.5%附近波动,年预测MAPE为1.1%附近波动,预测效果较好。