基于深度学习分位数回归的电力负荷区间预测方法

2022-10-25 01:40余登武刘敏蒲凡诺秦序胜秦先鑫谢若昕
广东电力 2022年9期
关键词:位数卷积误差

余登武,刘敏,蒲凡诺,秦序胜,秦先鑫,谢若昕

(1.国网重庆市电力公司万州供电分公司,重庆 404000;2.贵州大学 电气工程学院,贵州 贵阳 550025)

短期负荷预测对电力系统的安全经济运行具有重要意义。常规的电力负荷预测能得到的是确定的负荷预测序列,难以满足电力市场中市场成员全面分析市场风险的需要。如果能够得到预测结果的区间分布,就可以帮助企业做出更好的管理决策,发电公司也可以更好地在市场中占据主动地位[1-4]。

按照预测结果的形式,负荷预测可以划分为确定性负荷预测、概率性负荷预测、负荷区间预测。确定性负荷预测的预测结果是任意时刻的确定性具体值,简单直观,是调度系统中常用的一种预测模式[5-7]。概率性负荷预测的预测结果是负荷取不同值的分布概率,现有的大多数概率预测方法都是假设预测结果服从一定的概率分布,利用模型预测数据,得到预测数据的概率分布函数参数,从而完成概率负荷预测。这种方法的前提是假定其分布服从某种特性,具有主观性,而且计算分布参数时需要大量预测模型,训练成本比较高[8-13]。负荷区间预测区别于前面2种预测方法,给出同一时刻的预测结果可能出现的区间,在预测结果准确性和可靠性上高于确定性负荷预测,在分析复杂性上低于概率性负荷预测。随着分布式电源、多元复合和储能的快速发展,电力平衡能力不确定性变大,市场成员对负荷预测精度的要求也在不断提高,确定性负荷预测已不能满足市场交易分析和计量的需要,尤其是对风光发电的预测。综合考虑使用的便捷性和准确性,是研究负荷区间预测的重要方向[14]。

目前,许多专家从理论上对负荷区间预测做了大量的工作。文献[15]提出一种利用高斯核密度估计将点负荷预测转化为负荷区间预测的方法。文献[16]首先使用核密度估计方法将单个分位数预测转化为概率密度曲线,然后建立优化问题以获得不同概率密度预测的加权组合,提出基于多分位数预测的日负荷区间密度预测方法。文献[17]提出了大规模用户场景下用电量模式的层次聚类方法和用户聚类识别模型,基于用户集群识别结果,提出一种条件残差模拟负荷概率预测模型,对用户进行负荷分层概率预测,实现对用户的精细功耗管理。文献[18]利用卷积神经网络和门控循环神经网络提取母线负荷的高阶特征,然后建立了分位数回归概率区间预测模型。文献[19]利用历史负荷数据建立候选特征集,然后通过k均值特征提取方法对候选特征集进行分类,提出基于k均值特征提取和改进高斯过程回归的短期负荷概率区间预测方法。

负荷区间预测是先确定区间预测的中心结果,在此结果上设置一定的区间宽度,从而获得区间预测。如何设置区间宽度是负荷区间预测的难点:区间设置得越窄,对调度运行方式的计划安排越具有指导性;而区间宽度越宽,负荷预测值落在区间内的概率性越高。为了解决上述问题,研究并提出一种基于深度学习分位数回归的电力负荷区间预测方法,可以并行生成预测负荷的多个分位数预测结果,给出预测结果的上下限,具有较好的可行性和有效性。

1 负荷特性分析

某地每日0时负荷的年负荷曲线如图1所示(图中P为负荷),从图中可以看出:夏季负荷比较高,峰值出现在8月左右迎峰度夏期间,是电网每年的大考;在春节期间和国庆期间出现明显低谷。

图1 某地年负荷(每日0时负荷)曲线

电力负荷是一种时间序列数据。原始负荷等于负荷趋势(以下简称“趋势”)加周期性负荷变化(以下简称“周期性变化”)加噪声负荷(以下简称“噪声”)。利用相邻数据差分方法可以得到周期性变化、趋势和噪声,具体做法如下:如果在1星期的水平上存在周期性成分,那么周期性变化等于当前时刻负荷减去上星期同日同时负荷值,趋势加噪声等于原始负荷减去周期性变化。以某地区7月份2个星期的负荷为例,通过移动相邻差分得到负荷P的周期性变化、趋势和噪声,如图2所示,其中负荷P采样点的采样频率为每15 min 1次。从图2中可以发现该地区1星期内有6日负荷数值都差不多,另外1日的负荷值明显低于其他日,在短时间内周期性数据不会发生明显变化。

图2 负荷曲线分解

天气因素是影响短期负荷预测的主要因素,在一定条件下,电力负荷会急剧增加[20-21]。计算某地负荷与天气数据的皮尔逊相关系数,得到最高温度、最低温度、平均温度、相对湿度、降雨量与电力负荷的皮尔逊相关系数分别为0.425、0.456、0.456、0.083、0.052,可以看出温度的影响最为显著。当天气变得非常寒冷或炎热时,大量的取暖负荷和制冷负荷投入运行。温度对负荷也有累积效应,对于某日负荷,连续3日高温与突发高温之间可能存在显著差异。天气影响因素具有“隐式”:一部分隐藏于历史负荷数据当中,当天气没有剧烈变化情况下,仅用负荷数据就能取得良好的预测效果;另一部分是无法从历史负荷数据表现出来的,需考虑天气因素的影响。

综上所述,负荷与季节、节假日(春节、国庆)、工作日、气温有着明显联系,在进行短期负荷预测时,应考虑上述因素的影响。

2 负荷区间预测思路

常规区间预测方法是计算各个确定性负荷预测模型的预测值的概率分布函数,计算分布函数的标准差,然后在确定性负荷上加减标准差即为区间预测的上下限,但这种方法具有一定主观性,一开始就已经设定其分布满足某种分布函数;因此,为了能更客观地反映出历史数据的分布规律,本研究采用统计的方法对历史负荷预测误差进行归类统计,从侧面反映随机事件的规律性。

通过比较历史负荷预测值和相应的实际值,可得出负荷预测误差。通过对负荷值的长期统计分析,可发现预测误差具有规律性,且其规律性会随着地区和时间段的变化而变化。

a)以工业负荷为主的地区:白天为正常工作时间,负荷曲线有明显的规律可循,预测误差相对较小;在非正常工作时间,由于赶工期等其他原因需要加班,这种紧急情况使得预测负荷更加困难,误差可能较大。

b)以居民负荷为主的地区:夜间高峰时段的误差可能较大,难以准确预测;早晨的低谷时间是休息时间,较容易预测,一般误差变化相对较小。

c)天气的突变往往会导致负荷预测的困难(尤其是在白天),预测误差会相应增加。负荷预测误差规律从另一个侧面反映了该地区相应季节性负荷波动的剧烈情况,对实际工作具有很好的指导意义。

d)通过对实际预测误差的大数据分析,发现预测误差分布具有明显的峰值特征。预测误差的峰值状态意味着:在大多数情况下,短期负荷预测的误差总是相对较小的;一些极端事件(如极端天气、重大经济事件等)的发生,会对预测的准确性产生重大影响,并大大提升预测误差。实际情况也是如此。具有峰值特征的分布函数能更好地描述预测误差的分布特征。

负荷区间预测是常规确定性负荷预测的延伸。在验证预测误差的概率分布具有实用价值后,可以利用误差统计规律分析负荷整体确定性预测值中各负荷值的可能分布,从而给出未来负荷可能值的区间结果。它反映了预测工作中隐含的风险因素,为今后研究企业运营中遇到的风险问题和可靠性提供了前提和基础。

为实现负荷区间预测,需估算负荷变化范围,并了解该范围的可靠性,包括负荷值的真实值。采用区间估计代替点估计可以更好地反映负荷可能波动的区域。

对于给定值a(0

Pr(Pc,min

(1)

式中随机空间(Pc,min,Pc,max)为P的置信水平为1-a的置信区间,Pc,min、Pc,max分别为该置信区间的预测负荷的下限、上限。由于统计规律是离散概率分布,所以在寻找预测下限和预测上限时采用插值的方法。

给定a值,遍历24个节点负荷可以得到24个置信空间,将其首尾相连即可得到预测值的包络线。

3 负荷区间预测模型

3.1 分位数回归

一般回归模型的误差损失函数是最小化平方和,即

min∑(yi-yc,i)2.

(2)

式中yi、yc,i分别为第i个样本真实值、预测值。分位数的目标是加权的误差绝对值和最小化,即

(3)

式中τ为给定的分位数。

第i个样本的回归方程为

yc,i=xiβ.

(4)

式中:xi为第i个有多个特征的输入样本(向量);β为权重系数向量,亦为k维回归方程的决策变量,β∈Rk。则分位数回归目标函数转化为

(5)

在实际求解中,将上述方程转化为线性规划问题,引入2个虚拟变量U+、U-,令U+中元素ui+为yi-xiβ的非负值(即yi≥xiβ时ui+≥0),U-中元素ui-为yi-xiβ的负值(即yi

(6)

假设τ=0.8,则得到的预测曲线有大约20%的真实值在预测曲线上方或曲线上,大约80%的真实值在预测曲线下方。

3.2 常规负荷区间预测模型

常规负荷区间预测流程如图3所示。首先,假设每个模型的预测值遵循某种特定分布(例如正态分布);然后,将输入数据传递到不同的预测模型中,得到每个模型的预测值,根据每个模型的预测值计算分布函数的参数;最后,将该参数对应的概率密度函数作为历史负荷数据的概率密度分布函数。

图3 常规负荷区间预测流程

常规的负荷区间预测存在以下2个问题:一是该方法的前提是模型的预测值服从一定的分布,具有主观性;二是为了获得分布函数的参数,需要多个模型,通常不少于3个,而且训练成本高。

3.3 深度学习分位数负荷区间预测模型

本研究所提预测流程如图4所示。卷积神经网络可以避免常规全连接神经网络层间的参数冗余问题。首先,通过卷积核学习局部低层特征(如边缘特征);接着,随着层次的加深,逐渐实现边缘特征向局部特征的转化;最后,实现整体特征的提取。卷积层采用2个不同的并行分支,然后将这些分支的输出组合成1个张量。相比于常规的串联型卷积层,它可以在不增加过多计算量的情况下提高网络的表达能力,同时可以给模型不同的感受野(1个分支1个感受野)。

图4 所提预测流程

卷积神经网络学习的是输入特征的前后空间关系,循环神经网络学习的是输入特征之间的时间关系。一维卷积等效于循环神经网络,负荷特征具有前后相关特性,所以负荷特征部分采用一维卷积模型。

反向传播(back propagation,BP)神经网络这种全连接模型由于没有卷积核,对各个输入特征前后之间关系的学习能力相对较弱。天气因素的前后关系已经隐含于负荷数据中,另一部分无法通过负荷数据表现出来的关系和没有先后关系的时间特征,适用于BP神经网络。

如果输入数据不一分为二,将特征全部传入卷积模型,由于负荷特征与天气、时间特征的关系是因果关系,在数值上并没有前后关系,数值差异较大,卷积核中的该部分卷积计算得到的是错误联系。将数据分为2个部分可防止模型学习负荷和时间天气之间错误的前后联系,然后将卷积神经网络和BP神经网络输出的中间层变量输出、拼接、传入全连接层完成后续训练。

基于分位数回归的负荷区间预测流程如图5所示。图4中预测模型的损失函数是分位数回归对应的损失函数公式,传入3个不同的分位数(τ=b、τ=0.5、τ=c),得到3个预测模型。分位数为0.5的模型输出作为实际预测输出,其他2个模型的输出的包络线作为实际预测输出的上下限。

图5 分位数回归负荷区间预测流程

相比常规的负荷区间预测流程需要多个不同的预测模型,分位数回归负荷区间预测流程只需要3个相同模型即可。同时常规负荷区间预测流程需要先假定输出服从某种分布函数,具有主观性;而分位数回归负荷区间预测从统计学角度,避开了设定输出服从某种分布函数的先决条件。

4 算例仿真

4.1 数据降噪与特征工程

本研究中的数据集来自中国西南部某地,数据采样频率为每15 min 1次,记录有10万条。

负荷数据是时间序列数据,具有明显的周期性,包括:①不同日之间24时整体变化规律的相似性;②不同星期、同一星期几的相似性;③工作日/周末各自的相似性;④不同年度的节假日负荷曲线的相似性。因此可以通过在相关最近几日的、相同时间的、负荷预测值的平滑结果,来获得要测量的某日特定时间的负荷预测值。除了上述周期性外,短期负荷的另一个特点是,它明显受到各种环境因素的影响,如气象因素突变、电气设备维修和事故、季节变化、重大体育文化活动等,这使得负荷时间序列的变化呈现非平稳随机过程。

为了提高负荷预测精度,将数据划分训练集与测试集,其比为7∶3。所提模型的“负荷特征输入”模块输入特征为:当前时刻前7日同时刻负荷(即相似负荷,相似负荷中包含了工作日负荷和非工作日负荷)、当前时刻前96个时段的负荷(相近负荷),共103个负荷特征。

一般的降噪方法得到的噪声有可以预测的部分,并不是完全的噪声。对负荷数据进行小波降噪,结果如图6所示,从图6可以看出,小波降噪得到的噪声基本为残差,包含的可预测部分较少。

图6 负荷小波分解

模型的“时间、天气特征输入”模块输入特征为:星期几、年、月、日、周末、是否国庆节假日、最高温度(℃)、最低温度(℃)、平均温度(℃)、相对湿度(平均)、降雨量(mm),共11个特征。

4.2 结果分析与对比

本研究的预测模型如图4所示,其输入特征被划分(一分为二),另将输入特征未划分的模型作为特征对比模型,如图7所示。同时将文献[3]的约束并行模型和文献[13]的高斯回归作为算法对比模型。同样是输入特征被划分的模型,对于输入负荷部分,不考虑相似日负荷(只考虑相近负荷)作为特征对比模型。采用平均绝对百分误差作为评价函数,其对比结果见表1。

图7 对比模型(输入特征未划分)

表1 模型预测误差对比

本研究建立了评价负荷区间预测质量的3个指标,即区间预测的覆盖率、平均宽度和最大宽度。

区间覆盖率

(7)

式中:ξb,c为分位数为b和c时,实际值落在预测上下限之间的个数;N为预测样本总个数。为了尽可能让更多点落在区间内,要求kCP越大越好。

区间平均宽度

(8)

式中:Lmax(xi)、Lmin(xi)为第i个样本的预测上限、下限;Lmeas(xi)为第i个样本的实际值。WP,av衡量区间包含不确定性信息的能力,要求其越小越好。

区间最大宽度

(9)

WP,max表示在负荷处于峰谷时,区间包含不确定性信息的能力。

设置不同的分位数组合(b,c),分别为(0.1,0.9)、(0.25,0.75)、(0.3,0.7),其对比结果见表2。从表2可以看出,区间覆盖率的上限为96%左右,当预测上下限的分位数越靠近0.5时,覆盖率越差。一般来说,在深度回归模型中分别使用将分位数0.25和分位数0.75作为上下限分位数的损失函数,得到的上下限分位数回归结果具有95%左右的置信度。

表2 不同分位数组合下区间预测评价对比表

从表1可知,将输入特征一分为二、考虑相似日能显著降低预测误差;从表2可知,取不同的分位数组合,得到的预测区间也不同。预测区间包络线和常规的预测区间包络线是不同的:常规的预测区间包络线是在确定负荷预测的基础上,上下浮动相同的比例得到的;而本研究的预测区间包络线是根据预测误差的概率统计分布得到的。预测区间上下限与确定性负荷之间是不等间隔的。

分位数组合(0.25,0.75)时的负荷预测曲线如图8所示。

图8 负荷预测曲线

从图8可以看出:①当负荷处于波峰和波谷时,负荷包含的不确定性信息较多,预测难度较大,上下限较宽。这是因为波峰和波谷一般发生在午间和凌晨时刻,有大量的可中断和温控负荷投退,造成预测难度增大。②区间预测能反映各个时段的负荷变化情况,上下限区间越大,表示负荷变化越激烈,这是确定性负荷预测所不能表示的。③区间预测的包络线反映负荷真实值出现的范围,能反映负荷变化的可能性,同时预测区间是某一置信水平下的预测区间,出现某些值在预测区间外也是可以接受的。

5 结束语

在确定性负荷预测的基础上,采用深度学习模型加分位数回归方法得到多个分位数的预测结果,进而得到负荷预测区间。算例结果表明,本研究提取输入特征的相似日和相近日特征以及提出的“输入特征一分为二”思路可以显著提高预测精度,负荷区间预测方法可以提供预测曲线的变化范围,为电力调度和稳定性评价提供指导。

猜你喜欢
位数卷积误差
基于全卷积神经网络的猪背膘厚快速准确测定
基于图像处理与卷积神经网络的零件识别
基于深度卷积网络与空洞卷积融合的人群计数
暑假训练营·两位数乘两位数和小数的初步认识
《两位数除以一位数笔算除法》教学设计
隧道横向贯通误差估算与应用
隧道横向贯通误差估算与应用
精确与误差
比大小有窍门
压力表非线性误差分析与调整