唐冬来,钟声 ,李擎宇,陈泽宇,龚奕宇,聂潇
(1.四川思极科技有限公司, 四川 成都 610047;(2.国网四川省电力公司, 四川 成都 610041)
随着全球化石能源的枯竭和“双碳”目标的提出,能源体系转型已成为世界各国关注的重点[1-2]。中国大力发展可再生能源,是推动“双碳”目标实现的主力军[3]。其中,屋顶光伏以太阳能蕴藏量丰富、清洁无污染、发电装置安装便捷等优点,成为中国能源体系转型的重点[4]。屋顶光伏数量庞大,发电功率具有随机性、波动性的特点,并网时将对电网消纳和运行安全造成影响,因此,对超短期屋顶光伏功率进行预测,对促进电网大规模屋顶光伏消纳具有积极的作用。
国内外许多学者对超短期光伏功率预测做了大量研究。文献[5]中,通过空气雾霾浓度与发电损失指数进行关联分析,从而进行超短期屋顶功率预测。文献[6]中,采用改进密度算法,对屋顶系数、历史光照辐射度等因素进行综合分析,从而进行超短期光伏功率预测。文献[7]中,通过非劣解集的均匀分布分析,从而预测超短期光伏功率。文献[8]中,通过四季变化、晴天、雨天等因素与光伏发电关系的聚合,从而预测超短期光伏功率。文献[9]中,通过挖掘气象变化规律和光伏功率协同关系,从而进行光伏发电功率预测。文献[10]中,通过贝叶斯算法计算气象变化及辐射度过程,从而修正光伏预测功率。由此可见,光伏预测功率方法多样,且取得了一定的成绩。但上述方法主要针对相对集中的光伏电站功率预测。屋顶光伏较分散,环境因素影响更为复杂,上述方法在屋顶光伏中预测准确率不高。
为解决超短期屋顶光伏功率预测精度低的问题,本文提出了一种基于多分类器的超短期屋顶光伏功率预测方法。该方法是一种多模型的集成预测方法。可根据输入的屋顶光伏数据自动的匹配相对应的算法,从而解决了单个屋顶光伏算法模型对不同区域的超短期屋顶光伏功率预测率不高的问题。
文中所提基于多分类器的超短期屋顶光伏功率预测方法框架分成屋顶光伏历史功率数据质量评估与清洗、屋顶光伏出力影响因素分析、屋顶光伏区块分类、屋顶光伏功率预测四部分,如图1所示。
图1 屋顶光伏功率预测框架图Fig.1 Frame diagram of roof photovoltaic power prediction
在屋顶光伏历史功率数据质量评估与清洗环节,首先,基于规则库对屋顶光伏历史功率数据的完整性和有效性进行质量评估;然后,根据跨区域屋顶光伏多源异构数据间的信息进行语义提取,进而实现多源异构屋顶光伏数据的交叉验证;最后,采用线性回归法实现屋顶光伏历史数据的清洗与补正。在屋顶光伏出力影响因素分析环节,首先,分析太阳辐照度、空气温度、相对湿度、光伏组件温度和大气压力等因素和屋顶光伏功率的关联度,分析强相关的因素;其次,基于气象数据,对影响屋顶光伏发电功率的指标权重进行分析。在屋顶光伏区块分类聚类环节,首先,对屋顶光伏发电区域的区块进行划分;然后,对屋顶光伏进行区块聚类,获得发电区块的典型特征;最后,分析每个区块中影响屋顶光伏发电功率的权重。在屋顶光伏功率预测环节,首先,根据屋顶光伏区块特征,选择对应的预测模型;其次,分区块进行超短期屋顶光伏功率预测;最后,将各区块的屋顶光伏功率进行叠加,形成超短期屋顶光伏功率预测结果。
2.1.1 屋顶光伏历史功率数据质量评估
在屋顶光伏功率数据采集的过程中,受传输信道、量测设备运行状态等因素影响,会造成空值、缺失等异常数据。该类异常数据将影响超短期屋顶光伏预测精度[11-13]。因此,在进行超短期屋顶光伏功率预测前,先对屋顶光伏历史功率数据进行质量评估。
针对屋顶光伏历史功率数据的质量评估目标,配置不同的数据质量评估规则,将屋顶光伏功率数据质量评估规则中涉及评估特征定义成一个屋顶光伏功率数据评估特征因子值。根据屋顶光伏功率数据评估规则和屋顶光伏功率特征因子进行数据评估。评估的约束规则如表1所示。
2.1.2 屋顶光伏历史功率数据清洗
屋顶光伏发电设备数量多,在发电生产过程中,依赖量测系统产生了大量的发电功率数据。在海量屋顶光伏发电功率数据产生过程中,受到量测装置故障、数据传输问题、量测装置时钟不同步等因素,导致会产生无效和错误的屋顶光伏功率数据[14-15]。在进行屋顶光伏功率预测数据挖掘时,由于数据的错误和缺失,会造成预测精度降低。因此,首先需对屋顶光伏历史功率数据的错误和缺失值进行清洗,提供满足屋顶光伏功率预测要求的补正数据。
屋顶光伏历史功率数据清洗是指从质量评估中检测出的缺失与错误数据,并进行屋顶光伏历史功率数据补正的过程。线性插值方法是一种屋顶光伏历史功率数据插值函数一次多项式的方法,该方法在插值节点上的误差小,具有插值过程简单、运算速度快的特点[16]。因此,文中采用线性插值法进行数据补正。屋顶光伏发电的历史功率缺失补正数据Ja为:
(1)
式中:Jb和Jc分别为缺失或异常屋顶光伏历史功率点前后已知的功率值数据;Kb和Kc分别为缺失或异常屋顶光伏历史功率点前后已知的屋顶光伏历史发电功率时间点数据;Ka为Kb和Kc之间的任一时间点的数据。通过两个已知的屋顶光伏数据,即可求的缺失顶光伏历史发电功率数据的近似值。
屋顶光伏出力影响因素分析是为了评估分析太阳辐照度、大气压力等因素与光伏出力的关联度,寻求具有强相关性的因素[17]。依据中国光伏协会的光伏评估指标,屋顶光伏出力影响因素选择如表2所示。
表2 屋顶光伏出力影响因素表Tab.2 Influencing factors of roof photovoltaic output
主成分分析(principalcomponentanalysis,PCA)是一种降维分析统计方法。该方法中,通过正交变换将具有一定相关性的指标进行降维,重新组合成一组维度数量少且相关性低的变量来替代原有指标。该方法具有多变量数据优化效果好、信息损失小等特点[18-19]。因此,文中采用PCA方法进行屋顶光伏出力影响因素降维。
屋顶光伏出力影响因素标准化处理值Sab为:
(2)
式中:Sbc为第b个屋顶光伏出力影响因素评价对象的第c个指标取值;Sc为第c个屋顶光伏出力影响因素指标的样本均值;Cc为第c个屋顶光伏出力影响因素指标的标准差。
然后,计算屋顶光伏出力影响因素相关性Ba。
(3)
式中:ma为屋顶光伏出力影响因素相关性个数,在文中即为表2屋顶光伏出力影响因素表的内容;Sbi为不同的屋顶光伏出力影响因素评价对象的相关性;Sci为不同的样本均值与评价对象的相关性。
在此基础上,计算评估屋顶光伏出力影响因素的综合得分Fa:
(4)
式中:na为屋顶光伏出力影响因素中主成分的个数;hj为第j个屋顶光伏出力影响因素主成分的贡献率;gj为第j个屋顶光伏出力影响因素主成分的累计贡献率。最后,根据屋顶光伏出力影响因素相关性分析结果建立屋顶光伏出力影响关系映射。
屋顶光伏分布在城市、乡镇、农村不同的建筑物类型上。在不同的建筑物或不同的地形地貌中,屋顶光伏发电功率的典型特征差异较大[20-21]。因此,在进行超短期屋顶光伏功率预测前,先进行屋顶光伏功率的区块分类。
数值天气预报(numericalweatherprediction,NWP)是根据气象的实际情况,在确定的边界范围内,采用气象相关算法进行天气演变过程预测的一种方法,在全球的NWP中,欧洲的天气预报区块划分较细,预测结果较其他国家的产品准确[22-23]。因此,文中选用欧洲NWP进行区块划分,划分的网格大小为3*3公里。NWP的区块划分La为:
(5)
式中:nb为NWP区块的数量;li为不同的NWP区块。
然后,将屋顶光伏按地理区块与NWP区域进行拟合。拟合区块Ca为:
(6)
式中:nc为屋顶光伏地理区块的数量;ri为不同的屋顶光伏地理区块;Lai为不同的NWP区块。
模糊C均值聚类(fuzzyC-meansalgorithm,FCM)是基于划分的聚类算法,该算法通过优化每个聚类样本到聚类中心的隶属程度,从而进行分类。该算法具有目标函数计算准确率高、分类速度快的特点[24-26],因此,文中采用FCM聚类方法进行屋顶光伏区块聚类,以获得不同区块的屋顶光伏典型特征。屋顶光伏区块FCM聚类的目标函数Ga为:
(7)
式中:nc为屋顶光伏区块的簇数量;ui为不同的屋顶光伏隶属于簇中心的隶属度;mc为FCM聚类中的模糊加权指数;vi为不同的屋顶光伏区块样本到FCM聚类中心的距离。
通过FCM聚类获得发电区块的典型特征,然后,再根据式4,计算屋顶光伏每个区块的屋顶光伏发电功率影响权重。
屋顶光伏功率预测中,根据屋顶光伏区块特征,选择对应的预测模型;然后,对分区块进行超短期屋顶光伏功率预测;最后,将各区块的屋顶光伏功率进行叠加,形成超短期屋顶光伏功率预测结果。
基于长短期记忆网络(longshort-termmemory,LSTM)的多模型集成预测方法,通过LSTM网络中空间的连续函数进行拟合[27-28]。该方法是一种多模型集成的预测方法,每个模型的训练程度、网络结构均有不同,与普通的预测方法不同,该方法部署在屋顶光伏区块数据输入和超短期屋顶光伏功率预测输出直接的求解一个精确的函数对应关系,而是采用屋顶光伏预测模块匹配算法,寻找一组与输入的屋顶光伏输入数据对应的预测输出数据,该数据并非精确的函数,而是较接近的数值。在每次进行多分类器选择的时候,随着输入的屋顶光伏影响因素数据的变化,模型选择也会随着变化,从而达到了屋顶光伏功率动态预测的目的。屋顶光伏功率预测功能结构如图2所示。
图2 屋顶光伏功率预测功能架构Fig.2 Function architecture of roof photovoltaic power prediction
由图2可见,屋顶光伏功率预测步骤如下。
(1)根据屋顶光伏的区块类型及数量,构建多个基于LSTM网络的屋顶光伏基准分类器,以便对每个区块进行最合适的预测;
(2)基于基准分类器,采用LSTM网络模型对屋顶光伏区块类别进行单独训练,确保每个LSTM网络适合该类的超短期屋顶光伏功率预测;
(3)确定超短期屋顶光伏预测基准LSTM模型与FCM聚类簇的适应度,判别基准LSTM模型的归属类型;
(4)确定各超短期屋顶光伏预测基准LSTM模型的权重,以便个屋顶光伏区块进行适应性权重调整;
(5)确定输入的超短期屋顶光伏预测相关输入数据能够正确选择不同的屋顶光伏超短期功率子预测基准模型;
(6)采用多个超短期屋顶光伏预测LSTM模型,分别对不同的屋顶光伏区块进行超短期功率预测;
(7)将多个超短期屋顶光伏预测LSTM模型的预测结果进行叠加,并形成最终的屋顶光伏功率预测结果数据。
约束条件:屋顶光伏功率大小Pa约束为:
(8)
式中:nd为屋顶光伏发电机组的数量;pi为不同的屋顶光伏发电机组最大输出功率;yai为不同的屋顶光伏发电机组的组件组合损失;ybi为不同的屋顶光伏发电机组的光伏面污秽损失;yci为不同的屋顶光伏发电机组的温度损失;ydi为不同的屋顶光伏发电机组的湿度损失;yei为不同的屋顶光伏发电机组的大气压力损失;yfi为不同的屋顶光伏发电机组的太阳能组件倾斜角度损失。
屋顶光伏发电机组功率pb与太阳辐射度、太阳能组件转换率的约束为:
(9)
式中:ne为屋顶光伏发电机组的总体数量;zi为不同的屋顶光伏板接收到的太阳辐射量;λi为不同的太阳能组件转换率。
采用文中所提基于多分类器的超短期屋顶光伏功率预测方法在某整县屋顶光伏运营商进行模拟运行。该县的面积为1620平方公里,按照数值天气预报的3×3公里区块划分为186个区块。该整县光伏运营商拥有屋顶光伏发电用户数量为28179个,装机容量47.9MW,在各区块中均有屋顶光伏发电用户分布。屋顶光伏发电用户通过0.4kV配电线路接入上网,并采用单独的表计装置对屋顶光伏发电进行计量和回传运营商屋顶光伏调控系统。
文中算例运行在联想ThinkServer服务器上,该服务器的操作系统为WindowsServer2019,服务器的处理器为2颗英特尔至强Scalable系列处理器,运行频率为1.9GHz。服务器的内存为128GB,服务器硬盘为16TB。
文中的超短期屋顶光伏功率预测是指4小时的屋顶光伏功率预测。文中的训练集数据为2021年1至12月的屋顶光伏功率相关数据。文中用于比对的方法是文献[29]中的XGBoost双层协同超短期功率预测模型。该预测方法在屋顶光伏预测领域广泛应用,具有行业通用性。
3.2.1 屋顶光伏功率影响因素分析
屋顶光伏功率影响因素分析是评估太阳辐射度、大气压力等因素对屋顶光伏发电影响程度的指标,该指标选择表2屋顶光伏出力影响因素表的指标对整县屋顶光伏发电数据进行分析。在表2中,由于太阳能组件转换率、太阳能组件倾斜角度、组件组合损失在屋顶光伏发电设备安装时均已固定,为简化计算,在统计时,以上三个指标不纳入计算。屋顶光伏功率影响因素的计算方式为将模型评估的影响因素占比与人工依据中国光伏协会典型影响占比计算方法进行对比,两者一致即为准确,其比值为准确率。
选择表2中的7个影响因素,采用文中所提基于多分类器的超短期屋顶光伏功率预测方法中的PCA方法与XGBoost方法比较屋顶光伏功率影响因数准确性,其结果如表3所示。
表3 屋顶光伏功率影响因素对比表Tab.3 Comparison of influencing factors of roof photovoltaic power
由表3可见,文中所提PCA方法的平均屋顶光伏功率影响因素分析准确率为97.6%,高于XGBoost分析方法的69.3%,因此,文中所提方法的屋顶光伏功率影响因素分析更优。
3.2.2 数据清洗准确性分析
数据清洗准确性分析是为了评估修复屋顶光伏功率缺失、错误数据的质量。该指标是模型计算的基础。其计算方式为,将历史功率数据依据式1进行清洗补正后,人工依据中国光伏协会的行业标准判断屋顶光伏功率数据是否修复准确,若在行业标准允许的范围内,则为准确,若在范围外,则为不准确。屋顶光伏功率数据修复准确的数量与修复总数的比值为屋顶光伏功率数据清洗准确率。
分别选择待修复的屋顶光伏功率数据为1000、2000、3000、4000、5000、6000、8000、10000条,采用文中所提方法与XGBoost比较屋顶光伏功率数据清洗准确率,比较结果如表4所示。
表4 屋顶光伏数据清洗准确性分析表Tab.4 Comparison of influencing factors of roof photovoltaic power
续表4
由图4可见,在不同样本数量的验证集下,文中所提方法屋顶光伏数据清洗准确性均优于XGBoost分析方法。
3.2.3 超短期屋顶光伏功率预测准确性
超短期屋顶光伏预测准确性分析的目的是为了评估屋顶光伏功率预测是否准确。超短期是指4个小时内的屋顶光伏功率预测时间范围。其计算方式为预测的屋顶光伏功率与实际的屋顶光伏功率之间绝对值的比值。该指标的取值范围为0%~100%,其超短期屋顶光伏预测准确性取值越高,则说明该指标越好。
选择2022年3月某天,采用文中所提基于多分类器的超短期屋顶光伏功率预测方法与XGBoost分析方法对比超短期屋顶光伏预测准确性,预测时段为该天的96点数据,预测的超短期屋顶光伏功率曲线和实际功率曲线对比情况如图3所示。
图3 屋顶光伏功率预测图Fig.3 Prediction diagram of roof photovoltaic power
由图3可见,文中所提基于多分类器的超短期屋顶光伏功率预测方法曲线与实际功率曲线更为接近,经数据统计分析,其预测准确性约为91.2%,高于XGBoost分析方法的83.5%,由此可见,文中所提基于多分类器的超短期屋顶光伏功率预测更准确[30-32]。
基于多分类器的超短期屋顶光伏功率预测方法框架分成屋顶光伏历史功率数据质量评估与清洗、屋顶光伏出力影响因素分析、屋顶光伏区块分类、屋顶光伏功率预测四部分组成。该方法通过对屋顶光伏进行区块划分,提高了分析的细粒度。同时,该方法根据输入的屋顶光伏数据自动的匹配相对应的算法,从而提高预测的准确性。最后,该方法在某县域屋顶光伏进行了应用,其结果验证了该方法的有效性。
下一步,将结合数值天气预报,对超短期风力发电功率预测做进一步研究。