考虑集群辨识的海量用户负荷分层概率预测

2021-03-18 02:36郑睿程金之俭
电力系统自动化 2021年5期
关键词:残差集群用电

顾 洁,孟 璐,郑睿程,金之俭

(上海交通大学电子信息与电气工程学院,上海市200240)

0 引言

智能电网高级计量体系(advanced metering infrastructure,AMI)的广泛应用[1],为用户行为特性分析等提供了海量、精细化的负荷数据,有助于供电企业和综合能源服务商等制定个性化的售电服务策略[2]。人工智能技术的蓬勃发展以及电力行业海量数据的累积,促进了用电数据分析与预测中数据驱动技术的研究,产生了丰富的理论研究与实际应用成果[3]。

目前,国内外学者对用户用电模式的相关研究工作主要围绕聚类特征提取及聚类算法的改进开展。按输入特征不同,聚类算法可分为直接聚类法和间接聚类法。文献[4-5]直接以时间序列作为聚类算法的输入特征,使用k-means聚类算法对用户用电模式进行直接聚类,具有收敛速度快等优势;文献[6]使用主成分分析法、文献[7]使用自编码器对用电时间序列进行降维处理,以实现间接聚类,改善聚类效果。在聚类算法改进方面,文献[8]针对智能用电行为最佳聚类数的选择问题,提出聚类数优选策略;文献[9]对k-means聚类算法进行了改进,遍历所有可能聚类数,可以有效提取出用户用电模式,但计算效率低。上述聚类方法因缺少分布式与并行化的改良,应用于海量用户分析时存在计算效率较低和适应性不高的问题。

单一用户或小规模区域用户的负荷变化具有较强的不确定性,为量化负荷预测结果的不确定性、降低预测风险,近年来,负荷预测概率建模的方法成为研究热点[10],预测结果一般以概率密度、分位点和置信区间等形式呈现[11-12]。文献[13]使用极值预测法预测日最高负荷与日最低负荷,从而实现区间预测,但所反映的信息较为单薄;文献[14]基于小时的电力负荷数据建立线性回归模型,并结合历史温度数据与未来生产总值规划数据,对美国某地区的系统负荷进行分位数概率预测。针对用户侧负荷预测,基于长短期记忆(long short-term memory,LSTM)具有对历史行为的记忆特性,文献[15-16]使用LSTM进行居民用户负荷的超短期预测,但文献[16]未考虑海量用户的计算开销问题。目前,针对用户侧短期负荷概率预测的研究主要是从用户集合总体进行概率建模,根据用户个体用电特性的分析进行分层预测研究成果较少,较为粗放式的预测策略在海量用户场景下可能会导致预测精度降低。

目前,针对用户侧的负荷预测的研究主要集中在居民负荷预测,而工商业用户一直是中国电力消费的主力军,且需求响应潜力较大[17]。随着中国电力市场改革的不断推进,无论是售电企业还是电网调度运营机构等都需要对工商业负荷进行高效且准确的预测[18]。对于工商业负荷,一方面,由于用户数据保密等原因,单个工商业用户历史负荷数据可能存在较多缺失,影响了完全基于历史数据外推的预测模式的有效性;另一方面,不同种类工商业负荷变化存在相似性,发展规律可以参考借鉴[19]。因此,尝试对工商业用户进行集群识别,同一集群统一建模,在相似用户之间进行数据互补,从而提高工商业用户的负荷预测精度。

针对上述研究现状,本文对基本聚类模型进行改进,使用用电模式分层聚类算法,并基于用电模式与画像特征对海量用户进行了用户集群辨识,进一步将用电模式分析与集群辨识融合建立了条件残差模拟概率预测模型,对海量用户进行分层概率预测,并采用中国南方某地区的工商业用户实际用电数据[20]进行算例分析。

1 海量用户场景的用电模式分层聚类与用户集群辨识算法

用电模式分析时可使用的用户相关信息包括智能电表量测数据和对用户的问卷调查结果,其中智能电表量测数据详实地记录了用户每个固定时间间隔内的用电情况,而用户问卷调查结果则是对用户特征信息的有力补充。考虑到实际应用场景中对所有用户都开展用户调查问卷难以实施,因此,本文算例部分将以基于智能电表量测数据进行用户模式分析为例进行验证讨论。

1.1 用电模式分层聚类算法

对海量用户进行用电模式提取时,将所有用户的数据统一进行全局聚类易产生巨大的计算时间开销。基于分层聚类的用电模式分析能综合全局聚类和局部聚类的优势[21],具有动态改变聚类数目、收敛速度较快和大幅度降低计算时间开销等优点,达到聚类质量和计算复杂度的平衡。用电模式分层聚类算法流程图如附录A图A1所示。

本文采用以下步骤实现海量用户用电模式的分层聚类分析。

步骤1:为保障聚类的特征具有典型性,首先对所有用户用电数据的总数据集进行k-means聚类,将用户分为L组,将各组的用户用电数据作为局部数据集,并分别使用局部聚类模型对子数据集进行局部聚类。当聚类中心不再改变时,输出局部聚类结果。

步骤2:将L个局部聚类子模块得到的局部聚类中心集合后使用全局聚类模型进行全局的二次聚类。当聚类中心不再改变时,输出全局聚类结果。

步骤3:根据全局聚类得到的聚类标签隶属关系,更新局部数据模块的局部聚类标签,即为用户的用电模式标签。

1.2 基于用电模式与画像特征的用户集群辨识

构建单用户负荷与聚合负荷之间的层次结构,即辨识用户集群需要综合用户典型用电模式和用户用电模式行为信息熵这2类指标,构成用户特征向量,对用户进行综合特征建模。其中,典型用电模式可以提取到具有代表性的用户用电模式;用户用电模式信息熵可以刻画用户用电的不确定性。

1)用户典型用电模式

假设一段时间内用户共有d个历史用电模式,其序列为mi,i=1,2,…,d,定义典型用电模式mcls为历史用电模式序列中最大比例的用电模式标签,用户典型用电模式是用户特征向量的一部分。

2)用户用电模式行为信息熵

基于每个用户一段时间内的历史用电模式序列mi,以该序列的信息熵来表示用户用电行为的不确定性。定义第n个用户用电模式行为信息熵En为:

式中:S为用户数;pi,n为行为状态i在第n个用户中出现的概率,其表达式为

式中:I(x)为指示函数,满足条件x时,值为1,否则为0;sj,n为第n个用户的第j个用电模式。

行为信息熵能够描述用户用电行为的不确定性:若用户的行为标签出现概率都等于1/d,用户的用电行为多变,En最大;反之,当某种行为标签一直出现时,此时pi,n=1,剩余的行为标签出现概率为0,表示用户用电行为最稳定,En=0。

将用户典型用电模式和用户用电模式行为信息熵这2类指标拼接形成用户特征向量后,基于用户特征向量对用户进行集群辨识,以确定其所属的用户集群,为分层预测设计提供依据。用户聚类与可视化模型的过程如图1所示。

图1 用户集群辨识模型过程Fig.1 Process of identification model for user cluster

2 基于用户集群辨识的分层概率预测

由于不同用户的用电习惯和负荷特性存在差别,直接对聚合负荷进行预测无法捕捉负荷的具体特征,而对每个用户进行逐一建模则会导致计算量过大,海量用户的负荷预测需要实现预测准确度与复杂度的平衡。

2.1 条件残差模拟负荷概率预测

传统的输出侧残差模拟负荷概率预测模型一般基于历史残差构建经验分布,并依据经验分布生成残差的模拟结果。由于残差并不一定满足特定的分布形式,导致这种预测方法存在较强的主观性,影响预测结果有效性。因此,可以考虑将模型侧概率建模与输出侧概率建模进行结合,建立条件残差模拟负荷概率预测模型,提升模型对残差的表达能力。

2.1.1 条件残差模拟负荷概率预测的基本思路

用户行为特性变化复杂,不确定性高,残差与多种不同特征相关且形式复杂,条件残差模拟预测模型计及天气、日期和历史负荷的影响,使用表达能力更强的机器学习模型对残差进行模拟,具有更强的预测能力。同时,为了计及残差模拟的不确定性,引入模型侧概率预测中的分位数回归模型。

2.1.2 条件残差模拟负荷概率预测流程

条件残差模拟负荷概率预测步骤如附录A图A2所示,包括训练阶段和测试阶段。训练阶段又分为点预测训练和条件残差概率预测训练,为避免“过拟合”,在按经典的8∶2原则划分训练集与测试集的基础上,再将训练集数据平分,分别用于点预测与概率预测阶段的模型训练,故总数据集按照4∶4∶2的比例被分割为训练数据集T1、训练数据集T2和测试数据集T3这3个部分。在点预测模型训练阶段,考虑到工商业用户用电与天气、日期等因素密切相关[22],输入特征包括气温等天气情况、日历变量和历史负荷变量等,将数据集T1输入到点预测函数f(⋅)进行训练。点预测模型训练完毕后,计算出T2的点预测结果为:

式中:W和Xt分别为点预测函数的参数和时刻t的输入特征;y′t为时刻t的点预测值。

时刻t的点预测残差εt为:

式中:yt为时刻t的点实际值。

在条件残差模拟概率预测训练阶段,输入特征包括点预测结果、天气变量、日历变量和历史负荷变量等,将数据集T2输入分位数回归函数gq(⋅)进行训练。待训练完毕后,可得在时刻t残差的q分位数εq,t为:

式中:Wq为分位数回归模型函数的参数。

点预测模型与残差概率预测模型训练完成后,在测试阶段基于测试数据集T3求得点预测结果与残差预测结果,并将点预测结果减去残差预测结果得到最终的概率预测结果。

2.2 基于用户集群辨识的分层负荷概率预测模型

实际系统中,负荷预测对象包括全部用户形成的聚合负荷和单个用户的负荷。由于用户的用电习惯和负荷特性存在差别,若直接对所有用户使用同样的模型进行训练与预测,即直接对聚合负荷总体进行预测,将会导致无法捕捉负荷的具体特征,从而降低预测精度;反之,若对每个用户都进行单独的模型训练与预测,则会导致计算量过大且模型泛化能力差,还可能因单个用户的数据量过少而难以确保模型得到充分训练。

用户集群辨识能够将特性相似的用户聚类生成用户子集,建立基于用户集群划分的用户侧分层预测模型。对各子集内用户采用统一模型进行预测,实现子集间差异化和子集内统一的预测模型,达到预测准确性与预测复杂性的协调。

用户负荷的层次结构如图2所示。第1层为聚合负荷,即全部用户的负荷之和;第2层的子聚合负荷为基于用户集群划分的结果,假设共有V个子聚合负荷,每个子聚合负荷代表该集群所对应的用户的负荷之和;第3层为各个单一用户的负荷。

图2 聚合负荷的结构Fig.2 Structure of aggregated load

为了避免上述直接对聚合负荷进行预测和对单用户负荷逐一进行预测的弊端,对第2层即子聚合负荷进行模型训练,即对每个用户集群由该集群下的用户的数据训练得到负荷预测模型。对单用户负荷使用其所属的用户集群的模型进行预测。

基于用户集群Ak数据训练得到条件残差模拟概率预测函数hk(⋅)。假设用户u属于用户集群Ak,则用户u负荷lu,k的预测结果为:

式中:Fu为用户u的输入特征。

聚合负荷ltotal的预测结果为:

这种分层预测方式,将具有相似特征的用户聚合后进行统一建模,既避免了对所有用户采用统一模型导致的欠拟合问题,又避免了对每个用户进行精细化建模时由于数据量较小导致的过拟合问题。

基于用户集群辨识的分层负荷概率预测步骤如下。

步骤1:对天气、日历等输入特征以及负荷的原始数据进行预处理。其中,天气变量为温度;日历变量包括小时、日期类型、月份和节假日。同时,考虑到工商业用户自身生产习惯引起的用电行为较为规律,因此,输入变量也包括用户自身的历史负荷数据。

步骤2:通过用电模式分层聚类算法提取用户的用电模式标签,将用户典型用电模式和用户用电模式行为信息熵组成用户特征向量,对用户进行集群识别。

步骤3:分别基于各集群负荷数据、天气和日历等数据进行离线训练,建立该集群基于条件残差模拟的概率预测模型。

步骤4:基于实时数据和已训练好的模型对聚合用户或者单个用户的负荷进行预测。

基于用户集群辨识的分层负荷概率预测流程图如附录A图A3所示。

3 算例分析

基于中国南方某地区的工商业用户实测数据,对所提出的用户用电分析模型、用户集群辨识和概率预测模型进行计算分析,与对比预测模型进行比较,验证本文模型的有效性。

3.1 数据来源

该数据集是中国南方某地区共计约30 000个工商业用户的实测数据,属于私有数据集。数据集时间范围为2010年1月到2011年7月共计577 d,工商业用户负荷数据的采样周期为15 min,工商业用户涵盖了科研机构、商业、轻工业及重工业等行业,没有用户的问卷调查数据。

3.2 误差评价指标

本文使用平均绝对百分比误差(mean absolute percentage error,MAPE)对点预测精度进行评价,具体表达式为:

式中:εMAPE为MAPE的值;N为样本数。

综合评价概率预测的精度,需同时考虑概率预测的分辨率、锐度和可靠性,采用2014年全球能源预 测 竞 赛(2014 Global Energy Forecasting Competition,GEFCom2014)[23]和GEFCom2017[24]提出的概率预测评估方法:分位数得分(quantile score,QS)作为衡量概率预测精度高低的指标。QS的计算基于Pinball损失函数fpinball(⋅)实现,具体为:

式中:q为分位点;y′t,q为在时刻t分位点q的分位数回归值。

QS的计算公式为:

式中:εQS为QS的值;M为分位点数。

3.3 用电模式提取与用户集群辨识结果

利用前述中国南方某地区工商业用户为期一年的训练集数据,应用用电模式分层聚类算法,提取出典型用电模式共20种,如附录A图A4所示。

由工商业用户日用电模式聚类结果可看出,提取出的用电模式特征和不同用电模式间差异均较为明显,具体如下。

1)大多数负荷曲线呈现单高峰的形态。其中一部分(例如用电模式2)高峰时间主要分布在工作时间(09:00—21:00),对应一般商业、科研机构和一部分工业用户;另一部分负荷曲线(例如用电模式1)高峰时间分布在夜间,主要对应金属冶炼等重工业用户,考虑到较大的用电成本,这些用户往往选择错峰用电。

2)部分负荷曲线(例如用电模式13)整体呈现出较好的连续性,负载率不高,白天的整体负荷高于夜间,对应用电量不大的轻工业用户。其中,在04:00和18:00,该类负荷曲线出现较大程度下降,可能是由于工人换班造成。

3)部分负荷曲线(例如用电模式17)呈现出很强的波动性,且没有在特定时间出现峰值,对应工艺流程复杂、各设备用电差异较大的工业用户,此类用户进行不同工序时,负荷需求变化较大。

对用户构造基于用电模式与画像特征的用户特征向量,采用T分布随机邻域嵌入(T-stochastic neighbor embedding,T-SNE)算法[25]进行用户集群辨识结果可视化,结果如图3所示。

由图3可知,本文所建立的用户集群辨识算法能较好地将用电模式相似的用户聚集。

基于用户集群辨识结果,工商业用户各集群的用户数量与部分特征平均值的标幺值如表1所示。

由表1可知,用户集群3的行为信息熵更小,这些用户的负荷波动性更弱,主要为科研机构用户。用户集群2的典型用电模式均值最大,这些用户的负荷需求平均水平较高,主要为重工业/建筑行业。用户集群1、4和5具有较大的行为信息熵,同时,负荷的需求水平一般,主要为商业用户,由于温度、季节等因素对商业用户用电行为影响显著,其负荷会呈现出较强的波动性。

图3 工商业用户集群辨识可视化结果Fig.3 Visualized identification results of industrial and commercial user cluster

表1 工商业用户各集群的用户数量与部分特征均值Table 1 N umber of users in each industrial and commercial user cluster and average values of some features

3.4 分层负荷概率预测

3.4.1 条件残差模拟负荷概率预测

以对聚合负荷的预测为例,对比本文提出的概率预测模型与其他概率预测生成方法的结果,对比模型如下。

1)对比模型1:单纯使用本文提出的条件残差模拟概率预测模型,不使用组合预测与变量选择等进行优化。

2)对比模型2:不使用本文概率预测模型,使用基础的基于分位数回归的模型侧负荷概率预测生成方法。

3)对比模型3:不使用本文概率预测模型,使用基础的基于残差模拟的输出侧负荷概率预测生成方法。

4)对比模型4:随机森林分位数回归模型。

5)对比模型5:梯度提升树分位数回归模型。

6)对比模型6:神经网络分位数回归模型。

将数据集的顺序随机打乱后,取前80%的数据作为训练集,后20%的数据作为测试集。本文所提方法则将训练集分为同样数据量的2个部分:一部分用于训练负荷预测模型;另一部分用于训练残差预测模型。

本文模型与6个对比模型的预测精度与预测负荷曲线图如表2、图4和附录A图A5所示,主要结论如下。

1)本文模型的点预测精度与概率预测精度均为最优。

2)对比模型1由于不使用组合预测或变量选择等方法对点预测模型进行优化,使得点预测精度有所降低,但是由于概率预测时使用了本文提出的条件残差模拟模型,概率预测精度相对于其他对比模型仍有一定优势。

3)对比模型2的点预测精度较本文模型有所降低,与对比模型1的点预测精度相近,但对比模型2使用分位数回归模型造成概率预测精度不甚理想,从负荷曲线图可看出,模型侧概率预测模型的概率预测结果范围较宽,可靠性较高但锐度不足。

4)对比模型3的点预测模型与对比模型1一样,有着相同的点预测精度,但对比模型3的输出侧残差分布概率预测生成方法的概率预测精度十分不理想。根据负荷曲线图可看出,残差分布趋向于负向,这是由于训练集与测试集的真实残差分布不一致导致的。

5)对比模型4和5的点预测及概率预测精度都劣于本文模型。附录A图A5表明,对比模型5在不同分位点的预测结果较为均匀地分布在真实值两侧,与对比模型3中不同分位点预测结果主要分布在真实值下方相比,对比模型5在概率预测方面有一定优势。

6)对比模型6在点预测方面优势显著,预测精度明显高于其他对比模型,接近本文模型的预测精度。但基于神经网络的预测模型结果受参数影响非常大,模型训练需要不断尝试,找到层数和神经元数的最优参数,整个建模过程比较复杂。对比模型6的概率预测效果较差,虽然锐度较高,但可靠性不足,不能提供足够的预测信息。

总体上,本文模型在点预测和概率预测方面均取得了更好的预测效果,通过组合预测、变量选择和分层预测有效提升了精度。从概率预测评价指标QS来看,本文模型通过分位数回归有效提升了对残差的表达能力,改进了概率预测结果。

3.4.2 不同用户分层策略的单用户负荷预测结果分析

使用某地区实际负荷数据对比本文提出的基于用户集群的用户侧分层概率预测模型与其他用户分层策略对单用户负荷预测的效果,对比模型如下。

1)对比模型A:统一使用一个模型对全部用户进行预测,“一视同仁”地进行单用户负荷预测。

表2 不同概率预测模型的预测精度Table 2 F orecasting accuracy with different probability forecasting models

图4 本文模型的概率预测负荷曲线Fig.4 Probability forecasting load curve of proposed model

2)对比模型B:对每个用户训练不同的模型进行预测,“千人千面”进行单用户负荷预测。

随机抽取集群5中的3个用户(用户176、用户397和用户811)进行预测,并分析本文所提模型与2个对比模型对这3个用户的点预测精度与概率预测精度,如表3所示。

表3 不同用户分层策略的单用户负荷预测精度Table 3 F orecasting accuracy of single user load with different user stratification strategies

由结果可以看出,本文所提方法的点预测精度和概率预测精度均为最高,而对比模型A与对比模型B的预测精度较低,其原因如下。

使用同一个模型对全部用户进行预测存在如下问题:①当用户数量较多时,训练样本数量过大,导致训练时间过长;②各个用户的用电模式与特性各有不同,使用同一个模型训练将导致对单用户的预测精度降低。对每个用户训练不同的模型进行预测存在训练样本量过小和泛化能力不足等问题。本文所提方法将相同用户集群的用户数据进行统一训练,这种分层策略能够取得泛化能力与相关性的平衡。

此外,从点预测精度和概率预测精度的关系可看出,点预测精度和概率预测精度存在一定的正相关关系。这是由于概率预测的建模是基于点预测结果进行的,其精度与点预测结果的准确性密切相关。

4 结语

海量用户场景下的用户用电特性分析与分层概率预测对用户侧用电精细化分析有重要意义,本文提出了一套针对海量用户场景的用电数据分析与短期负荷预测的方案。

1)由用户典型用电模式、用户用电模式行为信息熵等组成的用户特征向量充分考虑用户负荷的用电特征,并通过可视化直观清晰地传达用户特征信息。

2)基于集群辨识的用户负荷分层概率预测方法,在模型方面,使用分位数回归模型对残差进行模拟,建立的输出侧与模型侧结合的概率预测模型有效提升了对残差的表达能力;在预测结构方面,本文提出的用户侧分层预测结构达到预测准确性与预测复杂性的协调,提高了模型的泛化能力。

3)算例实验中,无论是聚合负荷还是单用户负荷,考虑集群识别的海量用户分层概率模型相对于其他方法在点预测和概率预测方面均有更高的预测精度。同时,对于单用户负荷预测,本文模型的将相同集群的用户数据进行统一训练的分层策略实现了泛化能力与计算效率的平衡。

4)与负荷预测领域常用的随机森林、梯度提升决策树和神经网络等模型相比,基于集群辨识的用户负荷分层概率预测模型参数更易确定,建模过程简单,通过分层策略兼顾了预测准确度与复杂性,具有更高的实用价值。

海量用户的用电数据分析与预测仍处于起步阶段,未来仍可从以下2个方面进行深入研究。

1)未来可应用分布式并行计算、大数据存储与运算等技术,不断加快运算效率,建立用户侧的电力大数据存储与运算平台。

2)在有一定量级的数据量支撑的情况下,可以引入深度学习、迁移学习等人工智能技术。

猜你喜欢
残差集群用电
基于双向GRU与残差拟合的车辆跟驰建模
用煤用电用气保障工作的通知
安全用电知识多
基于残差学习的自适应无人机目标跟踪算法
海上小型无人机集群的反制装备需求与应对之策研究
基于递归残差网络的图像超分辨率重建
为生活用电加“保险”
用电安全要注意
一种无人机集群发射回收装置的控制系统设计
Python与Spark集群在收费数据分析中的应用