宋晓华,汪 鹏,牛东晓
(1. 华北电力大学经济与管理学院,北京 102206;2. 新能源电力与低碳发展研究北京市重点实验室(华北电力大学),北京 102206)
短期电力负荷预测是指导电力交易、安排发电计划的基础,高精度的负荷预测对提升电网安全稳定经济运行水平具有重要的作用,并且其负荷曲线变化对机组合理检修以及设备采购生产也具有指导作用[1]。短期电力负荷预测精度受到气象条件、节假日类型等多种因素的影响,其中气象因素对其影响巨大,已被大量的研究和实践验证,因此,充分挖掘气象因素所蕴含的信息价值,对提高预测精度具有重要作用。
目前,传统预测方法和智能预测方法是学者针对短期电力负荷预测研究的两类主要方法。传统预测方法主要有趋势外推[1]、时间序列[2]、回归模型[3]等方法。智能预测方法主要有神经网络[4-6]、支持向量机[7,8]、极限学习机[9]等。传统预测方法模型较为简单、模型参数固定,但难以对复杂的随机和非线性影响因素进行建模。以神经网络为代表的智能预测方法能够实现线性、非线性的复杂映射,目前应用较为广泛,取得了较好的预测结果。以上方法考虑的气象因素主要包括气温、降雨、湿度、风速等因素10-12],数据类型为结构化数据[12]。随着气象大数据技术的快速发展,卫星云图、地基云图等非结构化云图气象数据越来越多地被应用到国民经济的各个领域。云图不仅能反映当前的天气状况,还能预示未来一段时间内的天气变化。针对常规天气变化,云图可以补充结构化天气因素所缺少的天气演变信息,能够超前反映当前天气的变化趋势。针对转正性天气变化,云图可以及时修正结构化气象数据与实际天气状态产生较大的偏差,能够表达突变天气的气象特征。因此,通过对结构化、非结构化气象数据的融合,可以将滞后的反映天气状态的非结构化气象数据进行修正,获得可以表征当前时刻真实天气状态的精确参数。利用融合得到的综合气象信息,预测模型可以更客观地建立气象数据与短期电力负荷之间复杂因果关系,极大提升短期电力负荷预测精度。
目前,大多数学者所研究的短期电力负荷预测方法集中于建立结构化气象数据与负荷之间的因果关系,但仅通过结构化气象数据进行建模丢失了非结构化气象数据中蕴含的气象演变信息,所构建模型无法体现出非结构化气象数据对负荷变量的解释能力。如何集成、挖掘多源异构数据来提升短期电力负荷预测精度是本文研究的重点。
卫星和地基云图是两种常见的非结构化云图数据,从卫星可以获得大尺度的云信息,但是这些数据是低分辨的,云图分布范围较大,难以反映小区域的云图变化动态[13],无法满足区域负荷预测对云图空间尺度的要求。地基观测设备获取的云图资料由于能反映云纹理、边缘等微观结构信息,适用于区域短期负荷预测对云图的空间尺度要求。由此,本文选取地基云图来表征云图的进行研究,通过提取云图关键特征信息,融合结构化气象数据,形成影响短期负荷的综合气象数据。
卷积神经网络[4]、Gabor过滤器[14]、对抗神经网络[15]已经在图像特征中得以应用。其中,Gabor过滤器有良好的局域性和方向性,能够提取图像多尺度多方向的局部结构特征[16],可以实现气象云图关键纹理特征的有效提取。
随着人工智能相关技术的迅猛发展,以深度神经网络为代表的深度学习方法逐渐在短期电力负荷预测中得以应用。循环神经网络(Recurrent neural network,RNN)[17]是一种典型的深度神经网络算法,RNN将神经元上一时刻的状态输入到当前时刻神经元中,实现对时间序列的有效处理,但是算法存在梯度爆炸或者梯度消失问题,无法有效处理长时间序列。长短期记忆(Long short-term memory,LSTM)神经网络是RNN的改进算法,可以较好解决长序列输入数据在训练过程中的梯度消失和梯度爆炸问题。
从发展趋势来看,短期电力负荷预测所面临的数据已不再是纯粹的气温、降雨、湿度、风速、日类型、历史负荷等结构化数据,气象云图、天气状况等大量的非结构化数据亟需应用于到短期负荷预测模型中来。随着非结构化数据信息越来越多,数据的收集和查找需要耗费大量的时间和精力[18],传统的关系型数据库管理技术无法更好地满足数据管理的需要,亟需提出新的数据集成技术。
综上所述,本文提出基于数据空间集成多源异构数据的短期电力负荷预测方法。首先,设计包含数据集成组件、数据空间组件、数据演化组件、数据输出组件的短期电力负荷预测数据空间框架。其次,设计一种融合多源异构数据的短期电力负荷两阶段预测方法。第一阶段:利用Gabor模型提取多方向、多尺度的云图纹理特征。第二阶段,建立融合多源异构数据的LSTM-XGBoost预测模型,将第一阶段得到的云图特征数据、结构化气象数据、历史负荷数据、日类型数据进行拼接作为LSTM的输入,并引入极限梯度提升算法(eXtreme gradient boosting,XGBoost)增加正则化防止模型过拟合,进一步提升预测模型的鲁棒性。
短期负荷预测数据管理面临的新挑战促使了新数据管理技术的出现——数据空间。图1是本文提出的短期电力负荷预测数据空间框架,解决短期电力负荷预测多源异构数据集成与管理问题。数据空间主要包括四个部分:数据集成组件、数据空间组件、数据演化组件、数据输出组件。
图1 短期电力负荷预测数据空间框架
1)数据集成组件:主要负责数据源管理,对来自SCADA、网页、XMl、文本的多源异构数据进行集成和管理。通过建立适配器数据接口,接纳不同类型的数据源,并对数据对象的数据格式进行规范,完成数据抽取工作。例如,当需要集成地基气象云图时,相应的适配器会自动将地基云图的时间、采集器编号、云图高度、云图图片等信息抽取出来,用这些信息标识该数据对象。
2)数据空间组件:该组件是数据空间的核心,主要负责结构化、非结构化数据的多源存储、关系索引、事务查询、安全访问等,是短期电力负荷预测数据空间设计和开发的核心部分。
3)数据演化组件:包括数据模式的提取、数据逻辑关系的发现、数据重要性及相关性等级的自适应计算、时间戳管理等,其目的是提高数据空间数据收集和查询操作的效率。
4)数据输出组件:数据输出组件是对外实现高质、高品、高效的数据服务。主要包括数据共享、分级、推送和提醒等。通过数据共享技术、数据查询算法和智能排序算法提高数据输出组件的服务能力。
本文设计一种融合多源异构数据的短期电力负荷两阶段预测方法。
第一阶段:设计基于Gabor的云图特征提取及编码模型。云图由天空和云层构成,二者具有不同的不同的大小和尺寸,分布于不同的空间位置。因此,从多个尺度、多个层次进行云图特征提取,有助于增强云图关键特征的完备性和鉴别能力。另外,云的纹理具有平整与起伏、粗糙与平滑、规则与杂乱等多种情况,云图纹理特征展现出不同的方向性。由于Gabor具有强大的尺度和方向信息获取能力,能够有效提取云图天空背景和云层对象的复杂纹理变化特征。
第二阶段:建立融合多源异构数据的LSTM-XGBoost预测模型。将第一阶段得到的云图特征数据、结构化气象数据、历史负荷数据、日类型数据进行拼接,将拼接得到的数据集作为LSTM的输入。同时,引入XGBoost增加正则化,保证模型训练不过拟合。
2.1.1 第一阶段:基于Gabor云图特征提取及编码模型
Gabor滤波器可以在空间尺度实现局部纹理特征的有效提取,其实质是以高斯函数为窗函数进行短时的傅立叶变换。在空域中,二维Gabor滤波器通过由高斯包络调制的正弦平面波,对二维平面信息进行频率局部、定向的计算分析,从而实现图像纹理信息的提取。
通过对云图特点分析,本文将具有多方向、多尺度特征提取能力的Gabor滤波器作为云图特征提取算法。具体设计为:①方向参数调整。通过设定不同的方向参数,提取获得云层不同方向的纹理走向特征和边缘信息。②尺度参数调整。通过设定不同的尺度参数,提取获得云层不同尺度的关键局部特征。二维Gabor滤波器核函数的复数形式为
(1)
(2)
假设云图图像为I(x,y),将Gabor滤波器形成的8个方向、5个尺度的滤波器组记为Gμ,v(x,y),则I(x,y)和Gabor函数Gμ,v进行卷积为
Oμ,v(z)=I(z)*Gμ,v(x,y)
(3)
式中:Oμ,v(z)为卷积结果,*为卷积算子,z=(x,y)。
幅值信息反映了云图图像能量谱,采用卷积图像幅值响应作为输出特征
(4)
式中,real(Oμ,v(z))和imag(Oμ,v(z))分别为Gabor和云图卷积运算结果的实部和虚部。
目前单幅经过Gabor滤波器5个尺度、8个方向的特征提取,云图扩增到40幅特征图,扩增图存在冗余信息,直接融合结构化气象数据,会产生巨大的计算工作量与复杂度,考虑Gabor特征的二次提取。
对云图中每个像素点的Gabor特征值进行编码运算,获得每个像素点5个尺度和8个方向幅值。每个像素点的矩阵形式为
(5)
式中,cij表示第i个尺度,第j个方向的幅值。为进一步增强Gabor方向纹理特征的显著性,对Mpixel的幅值在8个不同方向执行标准化处理操作,并沿在同一方向不同尺度进行最大值抑制运算
(6)
通过式(6)的操作,可以获得不同尺度下Gabor幅值反馈的最大值,从而确定不同尺度下单个像素点的关键最优特征。
设每幅云图包含N个像素点,对所有像素点都进行非极大值抑制运算,得到N个幅值矩阵,然后对所有幅值矩阵计算平均值,得矩阵
(7)
假设云图图像总共包含D1×D2个像素点,经过Gabor过滤器5个尺度、8个方向的卷积操作变换,可以获取到40幅D1×D2分辨率的Gabor特征图,此时的特征维数为D1×D2×5×8。单幅云图经特征编码后,最终输出编码特征的维数降为5×8。经过上述的计算操作,云图特征得到大幅压缩。
(8)
2.1.2 融合多源异构数据的LSTM-XGBoost预测模型
1)模型数据输入
本文考虑的短期负荷预测的主要数据输入包括气象因素、日期类型和历史负荷。气象数据对于短期电力负荷的影响主要体现在预测时刻的气象状况以及演变趋势。日期类型也是影响短期电力负荷的重要因素,负荷曲线在不同的日期类型具有不同的形态。例如,工业企业的用电负荷曲线在周内(工作日)、周末和节假日(非工作日)会有较大的差异。此外,大量的研究表明,历史负荷变化也对当前负荷具有重要影响。综上,本文将气象因素、日期因素、历史负荷因素作为模型的数据输入;具体而言:将结构化气象数据、第一阶段处理后的非结构化气象数据、历史负荷、日期类型数据等进行样本拼接,形成预测模型的输入,具体描述如表1所示。
表1 预测模型影响因素输入
2)LSTM模型原理
LSTM在RNN基础上增加控制门,主要的类型为三类:Forget Gate (遗忘门)、Input Gate(输入门)、Output Gate (输出门),LSTM的结构如图2所示。
图2 LSTM模型结构
遗忘门以一定的概率忘记部分信息,并将当前序列和上一序列的隐藏状态作为输入,并利用激活函数进行映射,得到对应的输出,如式(9)所示。
ft=σ(Wfht-1+Ufxt+bf)
(9)
其中,σ为激活函数,Wf为隐藏层到门的权重,Uf为输入层到门的权重,bf为偏执向量。
输入门的主要功能是处理神经网络的输入信息,通常可以采用Sigmoid和tanh两种激活函数。如式(10)、(11)所示。
it=σ(Wihi-1+Uixt+bi)
(10)
at=tanh(Waht-1+Uaxt+ba)
(11)
更新神经元信息由两步组成:第一步,将Ct-1与遗忘门函数进行乘积运算;第二步是Sigmoid激活函数的输出it和tanh激活函数的输出at进行乘积运算,表达式为
Ct=Ct-1ft+itat
(12)
输出门控制得到得神经网络得输出
ht=ottanh(Ct)
(13)
3)XGBoost模型原理
本文设定XGBoost算法的目标函数为
(14)
其中,Ω(fk)如式(15)所示。
(15)
(16)
式中,gi、hi、Ω(ft)可以表达为
(17)
(18)
(19)
得到叶子节点权重公式为
(20)
Gj、Hj分别表示一阶导数和二阶导数在叶子节点i的值。将上式代入式(15),可以得到目标函数的最优解:
(21)
4)模型预测误差
本文采用平均绝对百分比误差yMAPE和根均方误差yRMSE两种误差评价指标对预测模型的优劣进行评估。上述两者的计算值越小,就表示负荷预测结果越准确。
(22)
(23)
n为预测结果的总个数;yreal(i)、yfore(i)为第i个时刻的负荷的实际值和预测值。
选择我国西部某地区电网2020年1月-12月的气象、负荷作为算例分析的基础数据,并且基于所设计的数据空间框架对多源异构数据集成管理。仿真硬件环境为:Intel(R) Core(TM) i7 CPU,4 GB RAM,500 G 硬盘。软件环境为:Windows 7操作系统,Spyder(Python 3.8)。
1)Gabor云图特征提取及编码
本文选择在上述时段内采用面阵列扫描测云仪器(WSIRCMS)昼夜连续拍摄高分辨率云图。单张云图的分辨率大小为256×256。设定提取尺度为5、方向为8,经过计算得到40个滤波器的实部、虚部过滤器分别如图3、4所示。
图3 5个尺度8个方向的Gabor滤波器实部
图4 5个尺度8个方向的Gabor滤波器虚部
选取2020年8月11日15点云图进行Gabor特征提取,经过黑白处理的地基云图如图5所示,Gabor提取得到的云图纹理特征图如图6所示。
图5 黑白处理后的地基云图
图6 Gabor滤波器提取的云图纹理特征图
由图6,白色高亮部分为天空区域,黑色高亮部分为云层区域,Gabor滤波器组强化了蓝色天空与云图的边缘纹理信息,较好地提取出了该云图的纹理特征信息,实现了云图特征级数据增强。
根据本文提出的特征融合方法,对多个Gabor过滤器提取的云图进行特征编码,得到1×40的特征编码矩阵为
V=[0,0.71,0.98,…,0.18]
2)融合多源异构数据的LSTM-XGBoost预测
为了验证本文所提出的基于Gabor-LSTM-XGboost两阶段模型(M1)的预测效果,将不考虑非结构化气象云图数据的基于LSTM-XGboost方法(M2)和不考虑正则化的基于Gabor-LSTM方法(M3)的预测结果与M1进行对比分析,并通过上文所提到的MAPE和RMSE两个指标来评价模型的预测精度。
图7为2020年8月8日-10日当天三个模型的预测值与实际值的对比曲线,其中M为实际负荷变化曲线,M1为融合异构气象数据基于Gabor-LSTM-XGboost两阶段模型的负荷预测曲线,M2为不考虑非结构化气象云图数据的基于LSTM-XGboost负荷预测模型的预测曲线,M3为不考虑正则化基于Gabor-LSTM负荷预测模型的预测曲线。
图7 模型预测结果
从图7可知,本文提出的M1模型预测对实际曲线的拟合结果较M2、M3更好,结果表明,融合异构气象数据和采用XGBoot正则化能够更好地实现对偏差结果的修正。
为了更加清晰直观地对比M1、M2、M3模型的预测效果,分别计算三个模型的MAPE和RMSE,结果如表2所示。
表2 不同预测模型的结果比较
由表2,M1预测结果的MAPE在0.0072-0.009之间,RMSE在61.33-66.39之间,且M1的MAPE、RMSE均小于M2和M3。本文提出方法的结果相较于其它两种方法预测误差较低。
为了验证M1模型对突变天气的负荷预测精度,本文选择8月11日进行预测分析,结果如图8所示。
图8 8月11日模型预测结果
图8(b)为图8(a)在15:00-22:00的放大图。由图8(a)可以看出,M1和M3的预测结果相较于M2更接近实际值,M2模型预测结果在峰荷、谷荷部分与实际值存在着一定的偏差。本文所提出的方法整体具有良好的预测效果。由图8(b)可以看出,局部范围内,实际负荷在17点达到峰值,一直持续到19时,负荷骤降的主要原因:该地区16点40分左右出现大面积卷积云,17时形成典型局地强对流天气,短时内出现大风和降雨,引起电力负荷骤降。图8(b)中M1、M3模型与实际负荷变化趋势吻合,M2模型的预测负荷在19时稍微增加,与实际下降趋势相反,产生较大的预测误差。三个模型预测结果差异的主要原因:M1、M2较好地学习了局地强对流天气产生前的积雨云特征,及时对修正了滞后的非结构化气象数据,确保了预测模型所需的综合气象因素数据的有效性。M3仅考虑通过天气预报数据获取到的温度、风速等非结构气象数据,面对突变天气状况,非结构化的气象数据难以得到及时修正,负荷预测结果仍基于滞后的非结构气象数据,预测结果会出现较大偏差。M1预测模型能较为准确地拟合突变天气下负荷变化趋势,进一步验证了本文所提方法的有效性。
本文设计了短期电力负荷预测数据空间框架,提出了一种融合异构气象数据的Gabor-LSTM-XGboost两阶段预测模型,并以我国西部某地区电网的气象、日类型、负荷作为基础数据,进行算例分析,得出如下结论:
1)设计了包含数据集成引擎、数据空间引擎、数据演化引擎、数据输出引擎、负荷预测模型引擎的短期电力负荷预测数据空间框架,解决了多源异构数据收集和查找的难题。
2)将融合异构气象数据作为预测模型的输入,充分发挥了Gabor过滤器对云图关键特征提取优势,能够从多源异构气象信息中挖掘出更多有效信息。
3)与单一模型相比,本文提出的融合多源异构数据的Gabor-LSTM-XGboost两阶段预测模型综合了三种模型的优点,模型计算过程不复杂,且负荷预测精度能够得到有效提升。此外,预测模型能够有效学习突变天气特征,提高突变天气下的电力负荷预测精度。