基于特征迁移学习的综合能源系统小样本日前电力负荷预测

2021-02-04 05:26孙晓燕李家钊巩敦卫廉智勇
控制理论与应用 2021年1期
关键词:源域聚类负荷

孙晓燕,李家钊,曾 博,巩敦卫,廉智勇

(1.中国矿业大学信息与控制工程学院,江苏徐州 221116;2.新能源电力系统国家重点实验室(华北电力大学),北京 102206;3.太原煤气化龙泉能源发展有限公司,山西太原 030303)

1 引言

日前电力负荷精准预测在电力系统调度与能量管理中至关重要,当前已有丰硕的研究成果[1].近年来,融合冷热电等多种能源的综合能源系统成为电力系统研究的重点内容之一[2-3],其中,基于精准的日前负荷预测设计高效的综合能源管理是系统有效运行的关键.综合能源系统一般以电力能源和负荷为核心,因此,对综合能源电力负荷的预测是基础.与传统电网相比,综合能源系统用能用户规模相对较小,单用户用能行为的变化会对系统整体电力负荷产生更加明显的影响;此外,系统中电热水冷气等多能协同互补,冷热电负荷相互耦合和影响,进一步使得电力负荷具有更大的波动性和随机性,导致综合能源系统电力负荷日前精准预测难度进一步增加[4].针对综合能源系统电力负荷上述特性,在进行日前负荷预测时,已有研究常利用统计分析等方法对造成负荷波动的关键特征进行剖析,结合天气、环境、节假日等信息,采用与传统电网负荷预测相似算法,通过寻找历史相似日数据,使用经典预测方法或智能预测方法,实现对综合能源系统电力负荷的预测[5].显然,有效提取影响负荷波动的特征,并基于该特征实现对综合能源电力负荷的精准预测是上述研究思路的核心.

针对综合能源系统电力负荷的强波动性和随机性,利用深度学习提取负荷波动特征的负荷预测方法由于自身的强学习能力和非线性映射能力,引起了诸多关注.Jatin Bedi等[6]根据历史数据,提出了基于长短期记忆(long short-term memory,LSTM)网络的算法框架,将数据聚类应用于原始数据以获得关于季节的分段数据,实现基于移动窗口的自适应预测;Wang Yi等[7]提出一种基于弹球损失的LSTM回归概率负荷预测模型,通过结合LSTM与分位数回归的优势,增强了负荷动态行为特性的捕获能力;陆继翔等[8]提出使用卷积神经网络(convolutional neural networks,CNN)提取历史负荷数据、气象数据、日期信息以及峰谷电价等数据的特征,采用LSTM网络进行短期负荷预测,有效提高了预测精度;而Junhong Kim等[9]以GoogLe-Net提出了一种提升LSTM网络隐层状态向量可信度和预测精度的递归初始卷积神经网络,并通过实验验证了特征提取的有效性;Mengmeng Cai等[10]对Binkowski等[11]提出的双通道门控CNN预测模型进行多组改进,并在与季节性自回归算法和门控RNN模型的对比中确定了性能最优的GCNN24 模型;Aleksandra Dedinec等[12]考虑电价激励措施因素的影响,建立了基于深度信念网络(deep belief network,DBN)短期负荷预测模型;Fu[13]将经验模态分解和DBN结合,对负荷序列进行分解与分层训练操作,削弱了不确定性对预测精度的影响;而岳有军等[14]针对模态混叠的优化问题进行研究,提出了集成自适应噪声的完全集合经验模态分解、样本熵和DBN的短期负荷预测框架,进一步提升了预测精度.基于深度学习提取综合能源电力负荷波动特征的预测方法虽然可以提高综合能源系统电力负荷预测精度,但是,已有研究通常建立在大规模历史数据基础上[15-17],对于新接入系统的用户端,在历史样本规模极小时(仅有一个月历史负荷数据甚至更少)难以适用,目前相关研究较少.

虽然针对新用户接入综合能源系统电力负荷日前预测的相关研究较少,但是,考虑特定情况下用户历史数据欠缺的负荷预测,已有部分利用迁移学习实现相关预测的工作[18].张乔榆等[19]提出一种面向节假日的样本迁移策略,通过迁移与节假日相似的休息日数据构建相关因素矢量,有效提高了假日预测精度.王毅星[20]提出利用迁移学习和最大均值差异从源域中迁移与典型负荷曲线相似的用户数据,提高了预测模型的泛化性.Mauro Ribeiro等[21]针对目标建筑物数据量不足的情况,建立了基于季节和趋势调整的时间序列多特征回归预测模型;Fanyue Qian等[22]将负荷模拟与迁移学习相结合改进了全年建筑物冷、热负荷的预测;Cheng Fan等[23]为了验证迁移学习在短期建筑能源预测中的价值,在不同的学习场景下多次实验来调查不同实施策略下迁移学习的潜力;Wen Huang等[24]将灰色关联和模糊聚类应用于相似日负荷集合的构建,并采用层次分析法完成预测模型的整合,提高模型的整体精度;Yulan Shen等[25]考虑模型的时效性,通过寻找相似日的方式实现数据约简,建立了一种基于粒子群优化和深度信念网络(PSODBN)的短期负荷预测方法;Liao Xiaoqun等[26]则以相关系数特征图为基础,进行相似日负荷样本的采集,并采用XGBoost模型提升了预测框架的有效性.已有基于迁移学习弥补数据不足的研究均直接通过衡量数据相似性进行迁移,忽略了电力负荷波动隐含的关键特征因素,往往导致迁移数据的噪声含量大,带来负面迁移,反而会降低预测模型的准确性;此外,已有研究没有针对新接入用户,不再简单适用.

综上所述,考虑深度学习在综合能源系统电力负荷日前预测时,可更好地处理其更强的波动性和随机性,但对于新接入用户由于历史数据不足难以适用,而已有基于数据的迁移学习忽略了电力负荷波动性和随机性特征且未针对新接入用户的问题,本文提出基于特征提取和迁移的日前负荷精准预测算法.算法采用门控循环单元(gated recurrent unit,GRU)提取负荷数据波动的隐含特征并进行融合,利用该融合特征集进行源域的样本迁移,以克服现有基于数据迁移学习导致的负迁移问题;然后在获得可信度高的训练样本后,构建基于极限学习机(extreme learning machine,ELM)的负荷预测模型,实现新用户小样本下综合能源系统日前电力负荷的精准预测.为此,研究基于源域和目标域的负荷数据隐特征获取机制、基于特征的迁移学习,以及高效的负荷预测模型构建.为了获得负荷数据的隐含特征,首先将聚类和分类相结合,构建面向负荷时序数据分类的GRU模型,以提取其隐含特征;对于待预测目标域数据,利用上述模型进行分类和特征提取后,对同类数据的隐含特征进行融合,给出基于融合特征的特征迁移策略;基于迁移特征对应负荷数据,采用ELM进行时序数据的快速拟合,实现对新用户小样本情况下日前电力负荷的精准预测.

2 算法框架

随着专家学者们对电力负荷预测问题的深入研究,如今已有诸多如回归预测、趋势外推、神经网络等一系列非常成熟的算法框架[1,6],其核心思想是:根据待预测日的天气、季节、节假日类型等人为选择的参考特征,从历史负荷中选择与这些特征变化相近的相似日负荷样本,利用这些数据构建相应预测方法的模型.对于电力负荷小样本问题,基于相似日数据迁移的迁移学习是主要解决方法,其核心仍是基于人为选择的参考特征,确定相似数据,迁移该数据至小样本集合中,利用含有大量迁移样本的集成数据集构建预测模型.

本文针对新接入用户历史数据极少的情况,考虑综合能源电力负荷更强的波动性和随机性特征,从利用深度学习模型提取丰富的隐含特征以进行相似特征数据迁移的角度给出本文算法架构,包括3个主要模块,如图1 所示,分别是基于K-means聚类的GRU隐特征提取,基于遗忘因子的特征融合迁移机制和基于特征迁移的ELM预测模型.其中:第1部分实现对负荷时序数据内在特征的提取,第2部分给出基于特征融合的特征迁移学习,最后完成基于特征迁移的日前负荷精准预测.各模块具体内容将在下一节给出.

3 特征迁移学习的小样本日前电力负荷预测算法

3.1 基于K-means聚类的GRU隐特征提取

用户负荷曲线为时序数据,其变化反映了用户的用能偏好以及前后相邻时间内的关联性,传统基于经验的人为特征筛选难以挖掘出隐藏在不同时段内负荷数据变化的所有特征,而这些特征是负荷预测的关键因素.此外,当负荷数据严重不足时,选择具有相似隐含特征的时序数据对其进行扩充,将可有效避免传统迁移学习中的负样本问题,从而提高预测精度.为此,本文针对日负荷数据,提出一种基于K-means聚类和GRU时序数据分类模型的用户耗能行为隐特征提取策略.

为了有效避免由于特征差异过大带来的负迁移,这里首先选择与目标域用户规模相近且用能相似的具有大量历史数据的用户作为源域,基于源域数据提取用能隐特征.借鉴深度学习进行特征提取然后再进行分类器构建的思路,当分类精度满足一定要求时,则分类器的输入即为提取的有效特征.电力负荷数据没有明显的类别标签,若采用分类策略提取其特征,则需首先添加类别标签.不难理解,对源域用户所有日负荷数据进行聚类,可获得具有明显类别差异的用能规律,然后为属于同一类变化特性的负荷数据添加相同标签,如记为类别1,2,3,···,那么,电力负荷数据可转化为分类数据,进而可采用深度学习策略,设计基于该类别标签信息的GRU分类器,在分类器精度较高时,GRU隐层单元的输出即为对应输入数据的特征.

记源域共有n天,每天m个数据采样点的日负荷曲线数据集为XS={xij|i=1,2,···,n,j=1,2,···,m},这里采用式(1)所示基于轮廓系数的K-means聚类策略,使用轮廓均值式(2)确定最优K值.

其中:din(xi.)为第i天负荷数据xi.到同类其他所有对象的平均距离;dic(xi.)为xi.到其他类所有对象的平均距离的最小值;Sm ∈[−1,1],该值越大,表明类内距越小,类间距越大,聚类效果越好.最优聚类的类数选自Sm最大时对应的K值.

3.2 基于遗忘因子的特征融合迁移机制

设目标域用户当前的小样本负荷数据集为

图1 基于特征迁移学习的算法框架Fig.1 Framework of the proposed algorithm

进行负荷预测时,XT所有数据均具有重要价值,但规模过小,为了提高模型训练精度,这里基于源域和目标域提取出的用户用电数据隐特征,给出一种基于目标域特征集成的迁移策略.XT所有数据为时序数据,对于负荷预测,一般认为与当前待预测日期越近的数据价值越大.鉴于此,对于第k类特征集,该类最近日期的特征向量为=1,2,···,h},依据该特征向量,对用户各类特征融合,进而每类采用一个特征向量来表示,然后,从源域中迁移出与融合得到的各类特征向量相似的特征及其对应负荷数据.

余弦相似度越大,说明此负荷曲线特征与该类最近特征越相似,则其对特征融合贡献度越大.因此,基于上述余弦相似度,可得融合特征向量为

进一步的,考虑该类别中数据的时序关系,这里利用前7天数据,再次对其进行含时间遗忘因子的特征融合,如式(5)所示:

3.3 基于特征迁移的ELM预测模型

记由第2.2节获得的学习样本为XTr=XT∪XTs,其相应特征集合为FTr=FT∪FTs,采用ELM网络构建负荷预测模型,具体过程如下:

1) 确定输入输出及网络结构:输入为特征集向量,输出为负荷集向量,则ELM网络输入节点数为h(隐特征维度),输出节点数为m(日负荷曲线采样点个数).

2) 训练ELM网络:从学习样本集中随机选择p个样本作为训练集,其余为测试集;训练ELM网络,直至满足精度要求.

3) 负荷预测:根据新用户的小样本数据的聚类情况分析待预测日的电力消耗模式,将对应模式的融合特征输入ELM模型,得到待预测天预测负荷值,完成预测.

为了验证所提模型的可行性,本文选取平均绝对百分误差(mean absolute percentage error,MAPE)和均方根误差(root mean square error,RMSE)衡量模型性能,两值越小越好.

4 算例分析

为了充分说明算法性能,将其应用于英国卡迪夫某区域综合能源系统的负荷预测中,考虑两类具有明显不同用能特征的负荷类型―高中和住宅.中学用能具有明显的节假日、季节等特性,且其用能高峰出现时段与住宅也明显不同.该实例提供了两所高中和两栋住宅楼的电力负荷数据,根据迁移学习源域和目标域应具有较高相似性,因此选择高中+高中,住宅楼+住宅楼的源域目标域方式.算例1中,高中A获得自2012年4月2日至2018年12月31日的历史电力日负荷数据,高中B为待预测小样本;算例2中,住宅楼A获得自2014年7月3日至2018年12月31日的历史电力日负荷数据,住宅楼B为待预测小样本.日负荷采样点间隔均为半小时,因此每天有48个采样点数据,即m=48.

4.1 算例1--高中小样本预测

4.1.1 基于轮廓均值的K-means聚类结果

首先,设定K值变化范围为3到10,计算聚类的轮廓均值,以确定最优聚类数,结果如图2所示.由图2可知,K=4时,轮廓均值最大,即聚类性能最优,相应的聚类结果如图3所示,类中心如图中黑实线所示.将各类类中心单独取出,结果如图4所示.

图2 基于轮廓均值确定最优聚类数Fig.2 Optimal clustering number based on silhouette-coefficient mean

图3 日负荷曲线聚类结果Fig.3 Clustering results of daily load curve

图4 日负荷曲线聚类中心Fig.4 Cluster centers of daily load curve

从图4可以看出,所分析源域高中的负荷数据具有如下特点:1)算例1集中于白天用电,日负荷峰值段分布在正午,且负荷曲线由中心向两侧按时间顺序呈递减趋势;2)类别1有两峰一谷,峰值时间分别对应10点半与12点,谷值时间为11点半,整体负荷量较其他类别偏高;3)类别2相较于另外3类波动幅度很小甚至无波动,而类别3,4 的峰谷时间相同,且均较类别1提前一个小时,但是类别3比类别4耗能水平高;4)进一步结合各类别负荷数据所属的年份、月份和工作日与否以及卡迪夫当地气候变化规律等信息,发现类别1多出现于较寒冷季节工作日,类别2则是节假日及周末的用电方式,类别3,4同属较温暖季节工作日.由上述分析可知,负荷具有不同的变化形式,进一步说明,依据简单的环境等特征迁移数据可能造成负迁移.

4.1.2 基于GRU的隐特征提取

首先对源域高中A 2012−2018年日负荷数据进行归一化处理,然后从聚类后的数据集中分别选择80%的数据作为训练样本、训练单层LSTM、双层LSTM和GRU网络,以说明本文选择GRU网络的合理性.网络结构参数设置如下:输入层节点数为日负荷曲线的采样点个数48,隐含层节点数设为15,输出层节点数由最终选定的聚类数K确定,这里为4,学习率设定为0.001,迭代500次.3类网络训练时间、损失函数(Loss)值,以及分类精度如表1所示.

表1 3种模型性能对比Table 1 Performance comparison of three models

由表1可知,3类网络分类精度和损失函数(Loss)值相近,但是GRU网络训练速度最快,可有效提高负荷预测的效率,因此,选择GRU网络进行特征提取更合理.

4.1.3 多场景预测结果分析

为了充分说明本文所提算法的有效性,结合第4.1.1节实验结果,从高中B随机选择了2018年11月4日至12月4日(I)、2015年6月13日至7月13日(II)、2013年5 月18日至6 月18日(III),以及2016 年7月29 日至2016年8月29日(IV)各一个月的数据,分别针对这些数据预测其后续一日的电力负荷.

首先,分析这些数据K-means聚类和GRU分类结果的一致性,以说明本文提取的目标域特征的可靠性;然后,给出各场景下特征迁移后的样本规模;最后,比较本文算法分别利用式(5)和式(4)两种特征融合的迁移学习(方法1,方法2)、传统基于相似月份数据迁移的GRU(方法3)和ELM(方法4)算法,以及无数据迁移的GRU(方法5)和ELM(方法6)的预测结果,通过MAPE和RMSE 值,说明本文算法预测的精准性.

1) 上述4个月数据进行K-means聚类和基于GRU分类的实验结果如表2所示,其中,“待预测前日聚类/分类”指待预测日前一日数据的特性,该数据特征将对待预测日产生较大影响,因此,这里特别给出其特性.“分类准确率”为基于聚类结果的对比,分类和聚类数据完全一致的比例.

表2 目标域聚类/分类效果Table 2 Clustering/Classification comparison

由表2可知:①对于随机选择的4个月份的数据,在K=4时,其聚类轮廓均值皆较大,表明聚类效果优良;②待预测前日的聚类和分类结果一致,且分类与聚类数据的对比即分类准确率较高,说明基于源域构建的聚类和分类模型,对于目标域具有良好的适用性;③分类准确率较高,保证了基于分类的特征提取的可靠性,因此,基于GRU模型提取目标域特征是可行的.

2) 上述4个数据集,采用式(5)所示策略进行特征融合、迁移,余弦相似度阈值设定为0.99,则4 个数据集相应的迁移样本规模分别为1344,805,421和943.

3) 在此基础上,比较6种算法的预测结果.方法3至方法6均采用滑动窗口模式进行预测,这里设定时窗窗口长度为7,即利用前7天的历史日负荷数据预测第8天,迭代循环;本文所提方法1和基于式(4)的方法2,在进行预测时,以融合特征作为输入,网络输出为预测结果.算法预测日所得数据曲线如图5所示,其具体MAPE和RMSE结果如表3所示.

图5 4种场景下负荷预测结果对比Fig.5 Comparisons of load forecasting in four scenarios

表3 6种预测算法精度比较Table 3 Forecasting accuracy of six methods

由图5和表3可知:

1)除场景IV外,本文所提算法与待预测日真实数据拟合度最高;

2)场景IV较其他场景属于低耗能状态,且节假日负荷峰值有更大的不确定性,因此,本文所提方法在场景IV拟合度有偏差且集中在峰值段,但是,结合表3最后两行数据可知,本文方法仍明显优于其他方法;

3)对于4种场景下的预测,本文所提算法的MAPE均未超过5%,即本文所提算法精度不低于95%,特别是对于场景III,本文算法精度为96.62%,比其他有数据迁移的GRU(方法3)和ELM(方法4)高出4.90%和4.97%;

4)比较本文方法和方法2,即基于式(5)和式(4)两种特征融合的特征迁移和预测,发现方法2适用于对预测精度要求稍低的情况,同时考虑特征相似性和时间遗忘因子融合策略的算法预测精度更高;

5)比较基于传统相似日数据迁移策略,其用于GRU和ELM网络的拟合精度均相对较低,进一步说明传统数据迁移极有可能引入负迁移,从而影响负荷预测的精度.

4.2 算例2--住宅楼小样本预测

4.2.1 基于轮廓均值的K-means聚类结果

首先,对住宅楼A的日负荷曲线进行聚类,聚类的轮廓均值如图6所示,当K=2时均值最大,聚类效果如图7,类中心曲线如图8所示.

图6 基于轮廓均值确定最优聚类数Fig.6 Optimal clustering number based on silhouette-coefficient mean

图7 日负荷曲线聚类结果Fig.7 Clustering results of daily load curve

图8 日负荷曲线聚类中心Fig.8 Cluster centers of daily load curve

从图8可以看出,所分析源域的负荷数据具有如下特点:1)类别2不仅日平均负荷明显高于类别1,且负荷波动较大;2)与算例1不同,算例2主要有两类用能数据组成,日负荷峰值段分布在傍晚.

4.2.2 多场景预测结果分析

从住宅楼B随机选择了2个月的数据,分别是:2017年7月13日至8月13日(I)、2016 年4月17日至5月17日(II)各一个月的数据,分别针对这些数据预测其后续一日的电力负荷.

1) 上述2个月数据进行K-means聚类和基于GRU分类的实验结果如表4所示.

表4 目标域聚类/分类效果Table 4 Clustering/Classification comparison

由表4发现:对于随机选择的2个月份的数据,在K=2时,其聚类轮廓均值均无法求得,由式(1)的定义可知所选择月份负荷数据的聚类结果为单类别,也意味着目标域用户在长时间内耗能模式保持不变.

2) 上述两个数据集,采用式(5)所示策略进行特征融合、迁移,余弦相似度阈值同样设定为0.99,则两个数据集相应的迁移样本规模分别为401和307.

3) 与第4.1.3节相同,比较6种算法的预测结果,算法预测日所得数据曲线如图9所示,其具体MAPE和RMSE结果如表5所示.

图9 两种场景下负荷预测结果对比Fig.9 Comparisons of load forecasting in two scenarios

表5 6种预测算法精度比较Table 5 Forecasting accuracy of six methods

由图9和表5可知:

1) 对于住宅楼2种场景下的预测,本文所提算法与待预测日真实数据拟合度都为最高,且MAPE值均未超过4%;

2) 从场景II的对比中可知,在方法2预测精度表现不佳时,本文所提算法仍能保持高精度,证实了含时间遗忘因子的二次特征融合算法的稳定性;

3) 如图9所示,目标域两种场景下的用户耗能模式明显属于不同类别,表4则显示两种场景属同一类,即目标域样本全部且仅属于源域样本中的某一类,结合实验结果分析可推得,目标域与源域年平均负荷有较大差距但用电行为相似,表明综合能源系统中功能相似的用能个体间相似性与差异性并存,而实验结果表明所提算法可以很好的避开具有相似功能属性的个体间的差异性给预测结果带来的影响.

综合算例1 和算例2 结论可得:采用基于聚类的GRU特征提取机制可有效提取用户在不同时段的负荷变化特征;对目标域用户小样本数据进行分类后的特征融合,并基于该融合特征选择迁移数据的策略,有利于减少负迁移的影响,从图4与图8、图5与图9的对比中不难看出,选择具有相似功能属性用能个体进行特征迁移是合理的,若将住宅数据迁移到高中,则意味着将具有明显2类用能特性的数据迁移到4类用户中,根据迁移学习的研究结果,则极有可能带来负迁移;基于本文所提含时间遗忘因子的特征融合的负荷预测,可有效提高预测精度,说明了本文算法可有效解决小样本综合能源系统负荷日前预测问题.

5 结论

针对综合能源系统新增用户仅拥有短周期历史负荷数据,难以进行精准负荷预测的问题,本文提出一种基于特征迁移学习的小样本日前电力负荷预测方法.基于聚类方法,将源域用户负荷数据进行聚类,并为各类添加类别标签;进一步利用源域含标签分类数据,训练GRU神经网络,提取源域用户在各不同用电时段的特征,并将该模型应用于目标域小样本中,确定其类别和特征;对各类特征采用含时间遗忘因子的二次融合,然后,基于该融合特征实现特征迁移,并完成预测模型的构建.算法在卡迪夫某综合区域能源系统多所建筑的用电负荷日前预测中的应用证明了其有效性.如何解决综合区域中多源域以及综合用能的冷热电小样本负荷预测将是下一步要考虑的问题.

猜你喜欢
源域聚类负荷
一种傅里叶域海量数据高速谱聚类方法
人造革合成革拉伸负荷测量不确定度评定
3项标准中维持热负荷要求对比分析
Opening flexible resources by integrating energy systems: A review of flexibility for the modern power system
基于参数字典的多源域自适应学习算法
面向WSN的聚类头选举与维护协议的研究综述
改进K均值聚类算法
从映射理论视角分析《麦田里的守望者》的成长主题
基于Spark平台的K-means聚类算法改进及并行化实现
SGT5-4000F(4)燃气轮机夏季最大负荷研究及应用