严华江,章坚民,胡瑛俊,张力行,焦田利,,闻 安
(1.国网浙江省电力有限公司电力科学研究院,杭州 310014;2.杭州电子科技大学 自动化学院,杭州 310018;3.国网浙江宁波市鄞州区供电有限公司,浙江 宁波 315100;4.浙江华云信息科技有限公司,杭州 310012)
大力推进分布式光伏应用,已成为新能源重点发展方向之一[1]。分布式光伏电站大规模并网,使配电网面临电能质量、谐波、经济运行等一系列问题[2-3],因此科学地进行分布式光伏出力分析和预测十分必要。
目前,国内外学者对光伏发电出力预测问题已做了很多研究。分布式光伏功率预测不同于集中式光伏电站[4]:一是位置分布分散且装机容量较小;二是无法获取就地日照和温度等气象数据。因此分布式光伏出力难以实现基于气象数据的预测,只能采取基于历史数据来预测。
目前光伏出力预测方法主要分为直接预测法和间接预测法:
(1)间接预测法,是基于相关气象数据的光伏预测方法。由于日照幅度与光伏出力具有最强的相关性[5],文献[6-8]对云团采取分析建模并预测其演变过程,达到间接预测光伏所在地日照幅度的目的,为后续的功率预测提供参数支持。文献[9-10]基于历史气象数据和天气预报数据,分别采用神经网络算法和多元线性回归法对辐照度进行建模分析,进而预测输出功率。
(2)直接预测法,是主要依靠光伏实际出力数据实现出力预测的一种方法,如通过“相似日”出力数据时序关联预测未来出力[11-16],其中关联关系采取多元线性回归法[11-12]、灰色理论预测法[13];文献[14-16]对相似日数据的选择采用了不同方法,文献[14]筛选出气象与出力间呈弱或强相关的相似日数据,文献[15]提出基于粒子群和BP 神经网络的相似日训练方法,文献[16]提出基于Kmeans 聚类的相似日分类方法。
气象作为影响光伏出力的主要因素,在其局部区域存在相关性,使该区域的分布式光伏出力存在空间相关性[17]。近年来有一系列关于不同光伏电站相关性的判定方法研究,如基于不同光伏电站实测出力时间序列以及辐照度数值的相关性系数[18],出力时间序列间的欧氏距离在阈值范围内[19],分布式光伏站点间辐照度的空间相关KL散度距离[20]。空间相关性研究方法主要分为两类:一类为无气象数据电站建立的与具有气象数据支持电站空间数据相关的“相似电站”,进而通过“相似电站”来进行无气象数据电站的出力预测[21];另一类是形成具有相似性的电站群,如文献[22]取距离待预测目标电站最近的N 个电站作为相关性从站加入AR 预测模型中,结合自身和周围具有相关性电站的出力数据,从而提高预测精度。
本文作者在文献[23]提出了一种基于空间相关性的大规模分布式光伏群的划分方法。首先将气象对光伏出力的影响程度划分为大气候和小气候2 类:前者为日照或5 类天气类型影响,其中天气类型依据光伏实际出力占额定出力的比例来划分,相应地将历史数据时段划分为5 类天气类型样本群;后者为光伏安装高程、温度、湿度以及周围地理环境等广义小气候影响,基于历史5类天气类型样本群,对光伏空间位置进行聚类分析,从而划分分布式光伏区域。综合考虑区域不合群的光伏点数量和区块的气象一致性来选择最优地域分块方案,已达到最少部署气象站点的目的或为大规模分布式光伏空间-时间相关的功率预测提供依据。文献以具有丰富气候带地貌特征的某县级市遍布全境的2 887 个分布式用户光伏群为案例,很好地验证所提的方法。
基于文献[23],本文提出基于空间相关性和ARIMA 模型的分布式光伏功率预测方法,首先利用已提出的大规模区域分布式光伏分群方法筛选分群电站中与待预测电站的出力具有空间相关性的光伏电站,建立不同天气类型下的ARIMA模型,并与日天气预报信息匹配,利用相应模型实现光伏功率预测。
广义天气类型的分类方法很多,文献[24]提出了划分天气类型的原则,即典型性和代表性。而日照幅度作为光伏出力的影响要素之一且其影响最大[25],譬如晴天的日照幅度最大,相应的光伏出力曲线变化平滑且能取到最大值;雨天因云层的遮挡作用,光伏整体出力和波动较小;而多云和阴天时的光伏出力介于两者之间,光伏出力变化较大且不稳定。图1 反映了不同天气类型下的光伏出力水平,研究了不同天气类型下光伏的出力特征,本文将广义天气类型分为4 类,分别为晴天、多云、阴天和雨天。
光伏日平均出力是指光伏在可发电时间内发电的平均值。由实际光伏出力的统计数据可得,在理想条件下光伏出力曲线具有对称的特点,因而光伏日平均出力可反映全天光伏出力水平[26],用公式表示为:
图1 不同天气类型的光伏日出力特征曲线
式中:n 为可发电时间的长度;Pi为第i 时刻光伏的出力值,对广域分布式光伏用户,为去除不同装机容量等量纲对光伏出力造成的差异,应首先对Pi标幺化处理。光伏日平均出力的大小直接反映了光伏的发电效率和天气状况的关系,若光伏的发电效率高,代表其日出力平均值较高,日照幅度较高,天气晴朗;反之,发电效率低代表日出力水平较低,则表明日照幅度较低,天气状况较差。
ARIMA(自回归移动平均)模型是一类常用的拟合平稳时间序列的模型,体现了系统对历史自身状态和进入系统的噪声的记忆,即序列在t时刻的取值是关于前p 个历史观测值和前q 个随机干扰的多元线性函数,记为ARIMA(p,q):
式中:误差项εt为均值为零的白噪声序列代表t时刻的随机干扰。而ARIMA(p,d,q)模型是d 阶差分和ARIMA(p,q)的组合。在数据预处理时,需对序列首先进行平稳性检测,非平稳时间序列可通过有限次的差分形成平稳时间序列再进行建模。文献[27]通过观察自相关系数和偏自相关系数的性质进行模型定阶,但这种人为识别的方法具有不确定性,本文使用AIC(赤池信息量准则)来进行定阶,选取AIC 值最小时的p,q 作为模型阶数,AIC 计算公式如下:
模型参数可通过最小二乘估计或最大似然估计、矩估计确定,对于足够长时间序列的训练样本,3 种方法所得参数渐进相等,因此本文选用最小二乘估计法,即对目标函数:
之后检验残差序列{εt}的白噪声,若残差序列为白噪声序列,即表明模型参数提取正确,为有效参数模型;若非白噪声序列,则表明序列中还残余待提取的有用信息,需重新拟合模型。ARIMA模型建模流程如图2 所示。
图2 ARIMA 建模步骤
光伏单站的实际出力时间序列按天气分类后,分别对不同天气类型的数据样本进行ARIMA模型建模,作为预测参考模型对比本文提出的引入空间相关性后的光伏出力预测模型。
广域分布式光伏电站因其具有较多且长时间出力序列数据,欧式距离的计算量较大,因此本文中使用Spearman 秩相关系数来计算2 个电站之间的相关性,公式如下:
提取同一区域中所有电站同维度的历史出力数据,基于不同天气分类的数据样本,分别计算其与待预测电站历史出力数据的Spearman 秩相关性系数,筛选相关系数大于某一设定阈值的电站或值最高的N 个光伏电站作为待预测电站的相关性从站。本文以其中一个光伏用户为例,筛选相关值大于0.8 的光伏电站作为此用户的相关性从站,其地理位置(经纬度)及Spearman 秩相关系数分布如图3 所示,其中R 代表待预测光伏电站,其余为相关性从站,可得相关性较高的电站均分布在与待预测电站地理相近的位置,距离越近相关性越高,这也验证了局部气象的一致性。
图3 相关性电站的经纬度分布
本文改进了单一时间序列的ARIMA 模型,引入多个相关性光伏电站实际出力数据建立待预测电站的ARIMA 模型,进而提高了模型的预测精度。
假设待预测电站X 有N 个相关性光伏电站,p,q 为ARIMA 模型的阶数,其出力预测模型为:
式中:εt是当前时刻的随机干扰;系数γ=[α0,α(l,x),β(l,x),α(l,i),β(l,i)],1≤i≤N,0≤l≤Ls;可由最小二乘估计法计算出:
为避免X 矩阵维度过高而导致模型计算复杂,在匹配相关性电站时可调整设定相关性系数的阈值,从而控制相关性从站数量,以达到简化模型计算的目的。
数据样本选自某省份地级市具有丰富天气类型的6—9 月共92 天的分布式光伏实际出力数据,截取8:00—18:00 为光伏出力的有效时间,采用文献[23]基于空间相关性的大规模分布式用户光伏分群方法得到的具有气象一致性区域划分,如图4 所示;在此基础上,以其中1 个区域的232 个光伏用户为例验证模型的有效性。
图4 按空间相关性光伏分群方法得到的具有气象一致性区域划分
首先对每一个用户的实际出力数据进行标幺化,根据日出力平均水平划分天气类型,基于不同天气类型的光伏出力数据,计算待预测电站与其他电站历史出力数据的秩相关系数,选取且相关性最好的5 个电站为相关性从站引入基于空间相关性的ARIMA 模型中,建立不同天气类型的预测模型,与气象部门给出的日预报天气类型对照,选择相应天气类型的预测模型进行出力预测。若未匹配到相关性电站,则利用待预测电站自身出力数据划分天气类型进行ARIMA 建模。其预测流程如图5 所示。
以某区域某一光伏用户为例,其历史最大功率为3.175 9 kW,出力数据经标幺化后,根据日出力平均水平对其出力数据按天气分类并分别建立只利用本站出力历史数据而建立的ARIMA 模型(参考模型),其不同天气类型的分类指标和模型参数如表1 所示。
表1 天气类型和对应模型参数
含本站以及空间相关电站功率历史数据建立的本站ARIMA 功率预测模型,称为基于空间相关性的预测模型,并将其与参考模型进行对比:图6(a)给出了某一典型光伏某月31 天实测和预测功率曲线,图6(b)显示了其中某天的实测功率和2 条预测功率,可得引入空间相关性后,光伏出力预测精度有了明显提高。
图5 基于空间相关性的ARIMA 模型预测框架
图6 某典型电站预测与实测功率曲线
从图6 可得出,某些时刻的相关性预测出力仍存在一定的偏差;而日发电量是光伏电站发电有效时间出力的累计值,它表征光伏一天的运行状态和工作效率,因此本文在此基础上统计了光伏用户的日发电量的预测结果,对比曲线如图7所示,可得在日电量预测上模型的精度很高,可满足工程应用的需求。
图7 日发电量对比曲线
本文研究统计了区域中所有光伏电站为期一个月的出力预测误差,并使用预测模型中常用的误差指标来评估模型对于区域整体的预测效果,其计算公式如下。
均方根误差为:
平均绝对误差为:
引用误差为:
式中:PE为光伏电站的额定功率。
预测曲线与实际曲线的相关性系数为:
图8 描述了该区域232 个电站连续滚动预测曲线与实际曲线的多误差指标按照电站额定功率的对比情况,表2 给出了误差指标均值和离散度,表3 计算了RMSE 和MAE 2 项指标与电站额定功率的关联关系,结合图8、表2 和表3,可得:
(1)RMSE 和MAE 具有很大的关联性。
(2)在为期31 天的预测里,阴天和多云天气占比较多,且2 种天气下光伏的出力波动较大,从而导致RMSE 和MAE 波动较大。
(3)RMSE 和MAE 随额定功率增加逐渐增大,且呈现出正相关,因此RMSE 和MAE 作为预测评价指标较为片面。
(4)引用误差作为分布式光伏预测新的评价方法,很好地规避了在出力较小时刻的误差影响,体现了高功率输出的预测精度,因而更为合适。
图8 区域内所有电站的月预测误差统计
表2 误差指标均值和离散度
表3 误差指标相关度
通过分析,光伏日出力曲线高功率部分的预测精度更为关键,因此本文提出采取引用误差作为预测模型的评价计算方法,且通过与均方根误差、平均绝对误差、相关性系数进行对比,验证了引用误差的优势。
在分布式光伏预测方面,本文首先基于作者提出的空间相关性大规模分布式用户光伏分群方法划分气象一致性区域;之后基于不同天气类型下光伏实际出力数据,选取同一区域中具有空间相关性的光伏电站,改进了ARIMA 模型,并结合算例分析验证了模型对广域分布式光伏用户预测出力的实用性和准确性。