基于主成分分析的用电模式稳定性分析

2017-11-13 05:44:49牟婷婷王兰君辛洁晴

电力系统自动化 2017年19期

关键词：时间跨度用电量相似性

牟婷婷, 陆微, 王兰君, 辛洁晴

(1. 电力传输与功率变换控制教育部重点实验室(上海交通大学), 上海市 200240; 2. 国网上海市电力公司市北供电公司, 上海市 200072)

基于主成分分析的用电模式稳定性分析

牟婷婷1, 陆微2, 王兰君2, 辛洁晴1

(1. 电力传输与功率变换控制教育部重点实验室(上海交通大学), 上海市 200240; 2. 国网上海市电力公司市北供电公司, 上海市 200072)

用电模式稳定性分析是实施用户用电量预测的前提,其本质是考察不同历史时间段用电模式的相似性。过长的基础数据时间跨度会降低用电模式稳定性分析的可行性和准确性,而在短期内基于日用电量数据评估的用电特征指标又受随机因素干扰,难以准确反映用电模式。为此,提出一种以过往几周日用电系数和日用电波动率为原始特征指标提取用电模式主成分,进而用两个历史时间段内用电模式主成分因子载荷的欧氏距离衡量用电模式稳定性的方法。针对某小区的算例结果表明,用所提方法判定为用电模式稳定、不稳定的用户组的用电量预测精度存在明显差异,且相似性距离与预测误差存在正相关性。算例分析表明,合适的历史数据时间跨度对提升方法的适用性和准确性至关重要,所提方法采用16周历史数据较为合理。

用电模式稳定性; 主成分分析; 相似性判定; 负荷预测

0 引言

长期以来负荷预测主要关注于预测方法的准确性,对预测的适用性鲜有分析。近年来,随着集中抄表系统和智能家居的发展,针对单个用户的负荷(或用电量)预测日益受到关注。在集抄领域,估计用户月用电量合理范围可为集抄数据异常分析提供更科学的判据;而在智能家居领域,用户用电量预测是优化家居运行方式、制定需求响应措施的基础[1-2]。各种预测方法本质都是根据历史用电规律推测未来用电趋势,仅对用电模式稳定的用户适用。因此,用电模式稳定性分析构成上述工作的基础。

用电模式的变化可能因转租、生活作息变化、更换大型用电设备等原因引起,不能单从是否更户来加以判定,而需借助一定的数据分析方法。从数学上讲,用电模式稳定性分析本质上是对两个时间跨度的用电模式的相似性判定,其核心问题是用电模式,即序列特征的表示,相似性则可用一定的距离测度判定。

序列特征提取方法目前主要有分段聚合近似[3]、符号化算法[4]、分段线性表示[5]、奇异值分解[6]等。这些方法的目标都是将复杂长序列进行降维,以降低相似性判定的难度。而在用电模式稳定性分析中,由于房地产发展等因素,历史数据时间跨度很长(如将用户过去两年月用电量或月份系数进行对比[7]),不仅会降低判定方法的适用性,也可能使近期用电模式稳定的用户被错判为不稳定,因此序列特征降维不是关键性问题。

事实上,采用集抄之后,供电企业可掌握低压用户每日用电量数据,可运用日用电量信息提取用电模式,以缩短稳定性判定问题对历史数据时间跨度的依赖。不过,日用电量受随机因素干扰大,且由于气温或用户特殊用电行为的延续性,相邻日用电量的相关性高。如何剔除随机因素和日间用电量相关性的干扰,构建反映用户内在用电习惯的用电模式是核心问题。

显然,剔除随机因素干扰、正确提取用电模式宜采用统计学方法,而主成分分析不仅是一种统计学方法,由于主成分提取时的正交性,在剔除样本数据各维度相关性干扰方面也具有很强的优势[8-9]。鉴于此,本文对低压用户提出一种基于主成分分析(principal-component-analysis-based,PCAB)提取用电模式,进而判定用电模式稳定性的方法。该方法本质上以主成分表征用电模式,但鉴于主成分本身缺乏可观测性,用表征主成分因子与各原始特征指标相关性的因子载荷(factor loading)来描述主成分因子,用两个时期因子载荷的一致性判定主成分的一致性,进而判定用电模式的相似性(稳定性)。

值得指出的是,目前有较多文献基于主成分构建预测模型,起到降维、简化预测模型的目的[10-12]。本文思想有所不同,实施主成分分析的目的是获取主成分的因子载荷,进而实施用电模式稳定性分析,并不是构建负荷预测模型。本文算例部分涉及负荷预测,但负荷预测采用了其他方法,目的是检验用电模式稳定性分析结果的合理性。

1 用电模式稳定性定义及判定流程

1.1 用电模式稳定性的定义

用电模式稳定性分析是为了判断能否依据历史用电规律对当前月的用电量进行预测。若某用户不存在如下情况,则称该用户是用电模式稳定的。

1)因实际住户变更、作息变化等原因导致的用电习惯的变化。

2)因购入或更换节能水平不同的大功率用电设备而导致用电量的显著变化。

3)因实际用电性质变更、设备构成变化而导致的用电特性变化。

值得留意的是,用电模式不稳定不包括气象条件变化、用户偶发性活动等因素导致的用电行为变化。此类偶发性波动视作随机扰动。

1.2 用电模式稳定性的判定流程

用户用电模式稳定性判定流程包括以下4步。

1)数据预处理:对低压用户集抄所得的是每日零点的冻结电量数据。由于信道不佳、采集终端软件故障等问题,个别日的集抄数据可能存在缺失或异常(突降/增),需采用插值法对此类缺陷进行修正;其次,通过相邻两日冻结电量相减得到日用电量序列;最后,鉴于节日与非节日用电往往有很大区别,对节日用电进行非节日等值处理,方法是用节日前、后周的用电量均值和日用电系数均值(即日用电量与当周日均用电量的比值)对节日期间每日用电量做出估计。经上述处理后,所考虑的历史时间跨度内的每周日用电量具有可比性。

2)用电模式提取:选择用电特征指标,将历史时间跨度划分为两个时期,对每一时期的用电特征指标实施主成分分析,并根据累计方差贡献率选取主成分。用主成分的因子载荷描述各时期的用电模式,以剔除随机因素和日间用电相关性对用电模式的干扰。

3)用电模式稳定性判定:每一主成分与原用电特征指标的相关系数(即因子载荷)的相似性可表征主成分一致性。因此,通过量度两个时期主成分因子载荷的欧氏距离考察两个时期用电模式的稳定性。

4)模式判定结果的检验:对所有用户采用多种负荷预测方法实施月用电量预测,评估用电模式稳定、不稳定用户组月用电量预测结果的平均绝对百分误差(mean absolute percentage error,MAPE)δMAPE,考察MAPE与相似性距离之间的关系来检验用电模式稳定性评估结果的合理性。其中,MAPE定义为:

(1)

2 PCAB的用电模式提取

为缩短用电模式提取对历史数据时间跨度的依赖,考虑基础数据时间跨度为前nw周(为偶数)并将其等分为两期(用上标k取Ⅰ和k取Ⅱ表征),基于日用电数据,而非月用电数据,评估两期的用电特征指标。鉴于日用电量受偶发性事件的影响较大且用电量日间关联性高,以用电特征指标的主成分,而非用电特征指标本身来描述两期用电模式。具体步骤如下。

1)用电特征指标的选取和指标矩阵的定义

对每一用户,根据其前第w周(w=1,2,…,nw)的日用电量数据,评估每日用电系数和一周的日用电量波动率作为8个用电特征指标。其表达式为:

(2)

(3)

本文未选用日用电量或气温灵敏度是因为当基础数据跨越不同季节时,即便同一用户的此类指标差异也很大,这种差异并不意味着对该用户利用历史数据预测用电量没有意义。与此相比,选用的日用电系数和用电量波动率反映的是用户一周内日间用电量的相对变化关系,受气温影响小,故可在不同季节间比对,以判定用电模式的稳定性和用电量预测的意义。

这样,对于每一时期k(k取Ⅰ,Ⅱ),可由所包含的各周的用电特征指标组成如下指标矩阵:

(4)

式中:下标8表示式(2)和式(3)定义的用电特征指标的个数;n=nw/2为每一时期内包含的周数。

2)标准化处理

用电特征指标若量度单位不同或取值范围差异非常大,会使数据较大的指标起到明显的支配作用。为避免该现象,将数据进行标准化处理,具体公式为:

(5)

(6)

(7)

由此,对每一时期k(k取Ⅰ,Ⅱ)得到用电特征指标的标准化阵,即

(8)

3)对标准化阵Zk求相关系数阵

对每一时期k,利用用电特征指标标准化阵的数据,求每两个用电特征指标之间的相关系数。第k时期第i和第j个用电特征指标的相关系数计算为:

(9)

进而构成相关系数矩阵:

(10)

4)选取主成分

(11)

(12)

定义前p个主成分的累计方差贡献率为:

(13)

主成分分析中,通常保留累计方差贡献率达到85%以上的前p个主成分,舍去其余主成分,由此可在不显著丢失信息量的条件下达到降维和剔除随机因素的效果[9]。这前p个主成分可以式(11)中的特征向量为系数,表示为原用电特征指标标幺值的如下线性组合。

(14)

在对第Ⅰ和第Ⅱ期数据求取主成分时,以同时满足两期主成分的累计方差贡献率均达到85%以上为标准确定主成分个数p。

5)计算主成分因子载荷

(15)

6)得到用电模式矩阵

每一时期的主成分表征了用户在该时期的用电模式,但主成分本身难以观测,故用表达主成分与各原始用电特征指标之间相关性的因子载荷描述各主成分。用户在第k个时期的p个主成分的因子载荷构成如下p×8阶用电模式矩阵:

(16)

3 用电模式相似性判定

与k取Ⅰ,Ⅱ对应的因子载荷矩阵的相似性,反映了这两段时间用电模式的相似性。为此,先求两段时间内每个主成分的因子载荷的欧氏距离:

(17)

式中:i=1,2,…,p。

进而,以两段时期所有主成分因子载荷欧氏距离的均值(如式(18)所示)定义该用户两段时间内用电模式的相似性距离。D越大,则该用户在两段时间内的用电模式越不相似,即用电模式越不稳定。

(18)

4 算例分析

以上海某小区728户低压用户为例,开展用电模式稳定性分析。搜集的集抄数据的时间跨度为2013年1月至2015年7月。

4.1 用户用电模式判定结果

以2015年7月1日前的16周为基础数据时间跨度(即nw=16),运用所提方法对728户进行用电模式稳定性分析。该16周跨越了气象条件迥异的3～6月,是提取用电模式难度较大的时期。进而,采用有源自回归(auto-regressive with extra inputs,ARX)模型[14](代表趋势分析类方法)、反向传播神经网络(back-propagation neural network,BPNN)[15](代表非趋势分析类)两种方法,对用户实施2015年7月用电量预测,考察预测误差与D之间的关联性,以检验用电模式稳定性分析方法所得结果的合理性。

附录A中列举了对一个用户按第2节和第3节方法实施用电模式稳定性分析的过程。对所有用户实施该分析过程,所得D散点图如图1所示。若以D=2.15为阈值(对应90%用户为用电模式稳定的情况),判定为用电模式稳定的用户有655家,这些用户2015年7月用电量预测结果的MAPE为2.94%;而判定为用电模式不稳定的73家用户的同月MAPE为6.92%,明显高于用电模式稳定组。附录B列举了两个用户在16周所包含的两个时期中的日用电量曲线。可见,被判定为模式不稳定(D=2.353)的用户在两个时期的日用电量曲线差异显著,而模式稳定用户(D=1.789)在两个时期的日用电量波动规律具有一定的相似性。上述结果一定程度上表明了用电模式稳定性判定结果的合理性。在实际应用时,判定用电模式稳定性的D阈值与一个地区用户的生活内容和作息习惯有关,可根据历史数据进行多月的用电模式相似性判定、月用电量预测和相应的预测精度检验,根据预测效果确定合适的阈值,以保证判定为稳定的用户组具有足够高的预测精度。

图1 PCAB法下所有用户的D散点图Fig.1 Scatter diagram of D with PCAB method for all customers

进一步,考虑逐步增大不稳定组用户的比例(unstable user proportion,UUP)TUUP,此时有更多的用户从稳定组转移到不稳定组(转移顺序按D由大到小,D大的先转移),重新统计稳定组、不稳定组2015年7月用电量预测结果的δMAPE,由此得到δMAPE-TUUP关系图。PCAB方法下用ARX与BPNN预测时用电模式稳定、不稳定用户组月用电量预测δMAPE与TUUP的关系如图2所示。

图2 PCAB方法下两组用户月电量δMAPE与TUUP的关系Fig.2 Relationship between δMAPE and TUUP of monthly consumption for two customer groups judged by PCAB method

由图2可以得出以下结论。

1)在所采用的两种预测方法中,由于ARX模型中带有白噪声序列,考虑了随机因素对日用电量序列的干扰,所以预测精度比BNPP法高。

2) 无论ARX预测方法还是BNPP预测方法,δMAPE-TUUP的变化规律相似——当TUUP增大时,稳定组的δMAPE变化不大,而不稳定用户组的δMAPE呈下降趋势,这说明稳定用户组里绝大多数用户的D相近且很小,同时这部分用户的δMAPE较低;当TUUP增大时,稳定组中D较大的用户会优先转移到不稳定组,且先转移的用户的预测误差比后转移用户的大,即D与预测误差之间存在正向关联性。该现象进一步验证了本文所提用电模式稳定性分析方法的合理性。

4.2 最佳历史数据时间跨度分析

本节在nw=8～88周的范围内调节历史数据时间跨度(每次增加2个月),考察时间跨度对用电模式稳定性分析结果的影响。值得注意的是,增大nw时,历史月集抄数据齐全,而可以实施分析的用户数逐渐减少(例如:nw=88周时可分析用户仅为372户),下文中的结果是对可分析的用户实施分析的结果。

各种时间跨度时PCAB方法下稳定、不稳定用户组2015年7月用电量预测的δMAPE与TUUP的三维关系如图3所示(两种预测方法下趋势规律相仿,故只选用精度较高的ARX法预测的δMAPE值)。

图3 不同时间跨度时两组用户月电量δMAPE与TUUP关系Fig.3 Relationship between δMAPE and TUUP of monthly consumption for two customer groups with different time spans

附录C将该三维图旋转到TUUP轴垂直于纸面的位置,以更直接地观察两组用户的δMAPE与时间跨度之间的关系。从这些图可得出以下结论。

1)无论哪个历史数据时间跨度下,随着TUUP的增大,稳定组用户的δMAPE变化不大,而不稳定组用户的δMAPE均呈下降趋势。这说明D与预测误差间的正向关联性不依赖于历史数据时间跨度。

2)在一定的TUUP下,随着nw的加大,不稳定组与稳定组的δMAPE差值整体呈先增大、后缩小的趋势。在过小的nw下稳定组、不稳定组δMAPE差距较小,这可能是因为历史数据时间跨度过短且日用电量受随机因素干扰大,主成分分析结果没有准确反映用电模式。而当nw>24周时,两组用户的δMAPE又难以区分,这是因为当历史数据跨越两个不同性质的气温灵敏季节(一冬、一夏)时,即便是同一用户在两个时期的日用电系数和日用电波动率也有较大差异,这就使得基于上述指标评估所得的D丧失了反映用电模式稳定性的意义。

3)随着阈值增大和TUUP的相应增大,两组用户预测精度差异在缩小,但与nw取其他周数相比,nw=16周时稳定、不稳定用户组δMAPE的差值最大,意味着此时所提方法可最好地区分两组用户。附录D对负荷预测目标月取2015年6月、5月、4月等多种情况做了类似的分析,所得δMAPE-nw-TUUP三维图均表明,nw=16周时两组用户δMAPE值区分最明显。可见,对于本文所提用电模式稳定性分析方法而言,16周是历史数据时间跨度的最佳选择。

4.3 与其他方法的对比

4.3.1 与直接用用电特征指标进行相似性判定的对比

为揭示提取用电模式主成分的必要性,本节尝试直接用用电特征指标进行相似性距离分析。具体做法是:仍取2015年7月为预测目标月,将该月前16周分为两期,将每期8周的日用电系数和日用电波动率8个指标分别求取均值,得到两个特征指标向量;按90%用户为稳定组设定距离阈值,据两个特征指标向量的欧氏距离判定出用电模式稳定、不稳定组。

图4为基于日用电特征指标直接做相似性分析所判定的用电模式稳定、不稳定用户组的月用电量预测δMAPE值与TUUP的关系图。从中可见,两种预测方法下,随着TUUP的增大,不稳定用户组的δMAPE均呈先升后降的态势,甚至出现稳定用户组的δMAPE高于不稳定用户组,说明日用电特征指标的相似性未能很好地反映用电模式稳定性。这是因为日用电特征指标源于日用电量数据,而后者受偶发因素的干扰大,直接对日用电特征指标取均值并不能很好地刻画用户实际的用电特征。

图4 基于日用电指标两组用户月电量δMAPE与TUUP关系Fig.4 Relationship between δMAPE and TUUP of monthly consumption for two customer groups based on daily consumption factor

4.3.2 与现有用电模式稳定性判定方法的对比

相关文献很少,文献[7]中提出了一种基于月份系数判定用户用电模式稳定性的方法,即以每年12个月的月份系数(月用电量占全年用电量的比重)表示用电模式,计算过去两年月份系数的欧氏距离,以此判定用电模式的稳定性。

将上述方法应用于本例时,具有两年集抄数据的用户仅81户。判定为稳定、不稳定用户组2015年7月用电量预测结果的δMAPE值(采用精度较高的ARX法)与TUUP之间的关系如图5所示。从中可见:TUUP较小时不稳定用户的δMAPE反而比稳定用户小,TUUP较大时两组用户的δMAPE也很相近。这说明相似性距离与负荷预测适用性之间失去了正关联性。导致该现象的本质原因是由于拉大时间跨度会弱化近期用电模式的变化对整个时间跨度内用电模式相似性判定结果的影响,从而将一些近期用电模式发生变化的用户错判为稳定。

图5 基于月份系数法两组用户月电量δMAPE与TUUP关系Fig.5 Relationship between δMAPE and TUUP of monthly consumption for two customer groups based on monthly coefficient method

5 结论

用电模式稳定性分析是对用户实施负荷(用电量)预测的前提,其本质是对不同历史时间段内用户用电模式相似性的判定。基于短期(几周)历史数据的分析可提高方法的适用性,但日用电量受随机因素干扰,准确提取用电模式较为困难。针对上述问题,本文提出一种以日用电系数、日用电波动率为原始用电特征指标提取用电模式主成分的方法,以不同历史时间段内用电模式主成分的因子载荷的欧氏距离D来判定用电模式的稳定性。针对实际小区的算例分析,可以得出以下结论。

1)所提方法可显著区分用电模式稳定、不稳定的用户组,两组用户的月用电量预测误差有明显偏差,且D与用电量预测误差呈正向关联性。

2)选取适当的历史数据时间跨度对用电模式稳定性分析至关重要。过大的时间跨度会限制稳定性分析的适用范围并降低分析结果的准确性;而过小的时间跨度也会降低用电模式提取的准确性。本文所提方法采用16周的历史数据时间跨度较为适宜。

值得一提的是,目前对负荷预测问题多关注预测算法和预测精度,而本文的研究结果如下:当负荷预测针对单个用户时,用电模式稳定性分析是负荷预测有无价值的前提;另一方面,目前对主成分分析在负荷预测中的应用主要局限于降维的目的,而本文的研究表明,主成分分析也具有剔除随机因素干扰、提取用电模式的应用价值。不过,本文主要提出了用电模式稳定性分析的思想和方法,对判定用电模式稳定的D阈值的设定方法还有待后续研究。

附录见本刊网络版(http://www.aeps-info.com/aeps/ch/index.aspx)。

[1] BARBATO A, CAPONE A, RODOLFI M, et al. Forecasting the usage of household appliances through power meter sensors for demand management in the smart grid[C]// Proceedings of the 2011 IEEE International Conference on Smart Grid Communications (SmartGridComm), October 17-20, 2011, Brussels, Belgium: 404-409.

[2] LOGENTHIRAN T, SRINIVASAN D, PHYU E. Particle swarm optimization for demand side management in smart grid[C]// Proceedings of the 2015 IEEE Innovative Smart Grid Technologies-Asia, November 3-6, 2015, Bangkok, Thailand: 1-6.

[3] 李海林,郭崇慧.基于云模型的时间序列分段聚合近似方法[J].控制与决策,2011,26(10):1525-1529.

LI Hailin, GUO Chonghui. Piecewise aggregate approximation method based on cloud model for time series[J]. Control and Decision, 2011, 26(10): 1525-1529.

[4] STYLIOS C D, KREINOVICH V. Symbolic aggregate approximation (SAX) under interval uncertainty[C]// Proceedings of the Annual Conference of the North American Fuzzy Information Processing Society, August 17-19, 2015, Redmond, WA, USA: 1-7.

[5] 李海林.时间序列数据挖掘中的特征表示与相似性度量方法研究[D].辽宁:大连理工大学,2012.

[6] 唐昆明,蔡明,罗建,等.基于奇异值分解的非线性负荷谐波源定位方法[J].电力系统自动化,2012,36(1):96-100.

TANG Kunming, CAI Ming, LUO Jian, et al. Harmonic source location based on singular value decomposition method[J]. Automation of Electric Power Systems, 2012, 36(1): 96-100.

[7] 王卫公,牟婷婷,王兰君,等.基于灰色分析的集抄数据异常判定[J].电网与清洁能源,2016,32(4):6-11.

WANG Weigong, MOU Tingting, WANG Lanjun, et al. Data anomaly determination for centralized metering systems based on the grey analysis methods[J]. Power System and Clean Energy, 2016, 32(4): 6-11.

[8] 李磊,严正,冯冬涵,等.结合主成分分析及生产函数的电网智能技术评价探讨[J].电力系统自动化,2014,38(11):56-61.DOI:10.7500/AEPS20130327014.

LI Lei, YAN Zheng, FENG Donghan, et al. Discussion on intelligent technology evaluation of electrical power grid based on principal component analysis and production function[J]. Automation of Electric Power Systems, 2014, 38(11): 56-61. DOI: 10.7500/AEPS20130327014.

[9] 何晓群,多元统计分析[M].北京:中国人民大学出版社,2015:113-141.

[10] 周松林,茆美琴,苏建徽.基于主成分分析与人工神经网络的风电功率预测[J].电网技术,2011,35(9):128-132.

ZHOU Songlin, MAO Meiqin, SU Jianhui. Prediction of wind power based on principal component analysis and artificial neural network[J]. Power System Technology, 2011, 35(9): 128-132.

[11] HE Dong, LIU Ruiye. Ultra-short-term wind power prediction using ANN ensemble based on PCA[C]// Proceedings of the 7th International Power Electronics and Motion Control Conference, June 2-5, 2012, Harbin, China: 2108-2112.

[12] LIU Baoying, YANG Rengang. A novel method based on PCA and LS-SVM for power load forecasting[C]// Proceedings of the Third International Conference on Electric Utility Deregulation and Restructuring and Power Technologies, April 6-9, 2008, Nanjing, China: 759-763.

[13] 李庆扬,王能超,易大义.数值分析[M].北京:清华大学出版社,2013:138-142.

[14] BAI Feifei, BHATT N, ROSSO A D, et al. Input signals selection for measurement-based power system ARX dynamic model response estimation[C]// Proceedings of the 2014 IEEE PES T&D Conference and Exposition, April 14-17, 2014, Chicago, IL, USA: 1-7.

[15] 张大海,毕研秋,毕研霞,等.基于串联灰色神经网络的电力负荷预测方法[J].系统工程理论与实践,2004,12:128-132.

ZHANG Dahai, BI Yanqiu, BI Yanxia, et al. Power load forecasting method base on serial grey neural nework[J]. System Engineering Theory and Practice, 2004, 12:128-132.

Stability Analysis of Consumption Mode Based on Principal Component Analysis

MOUTingting1,LUWei2,WANGLanjun2,XINJieqing1

(1. Key Laboratory of Control of Power Transmission and Conversion (Shanghai Jiao Tong University), Ministry of Education, Shanghai 200240, China; 2. Shibei Electricity Supply Company, State Grid Shanghai Municipal Electric Power Company, Shanghai 200072, China)

Consumption mode stability analysis (CMSA) is the precondition of load forecasting, the essence of which is to judge the similarity of a customer’s consumption features in different historical time periods. Extracting consumption features from data of a long time period reduces the feasibility and accuracy of CMSA, using the short-time data might also be of low accuracy because daily consumption data are influenced by random factors. A method is therefore proposed to extract the customers’ consumption modes by principal component analysis and taking daily consumption coefficients and daily consumption volatility as original consumption features. The stability of consumption mode is further judged by the Euclidean distance between the factor loading vectors of the principal components in two historical periods. A numerical example is provided by a residential community. Results show that the monthly consumption forecast accuracy is apparently different from the consumers in stable and unstable consumption modes judged by the proposed method and there is significant positive correlation between the similarity distance and the forecast error. It's also concluded that proper data period is of utmost importance to the feasibility and accuracy of CMSA. It seems 16 weeks will be appropriate for the CMSA problem.

This work is supported by National Natural Science Foundation of China (No. 51337005) and State Grid Corporation of China (No. 5209141500QW).

stability of consumption mode; principal component analysis; similarity judgment; load forecasting

2016-12-22;

2017-03-30。

上网日期: 2017-06-14。

国家自然科学基金资助项目(51337005);国家电网公司科技项目(5209141500QW)。

牟婷婷(1992—),女,硕士研究生,主要研究方向:数据挖掘技术在集抄数据分析中的应用。E-mail： fallen_mtt@sjtu.edu.cn

陆微(1982—),男,经济师,主要研究方向:电力营销和电量电费。E-mail: 13917109982@139.com

王兰君(1983—),女,经济师,主要研究方向:电力营销和营业管理。E-mail: lanlanwang_@163.com

辛洁晴(1973—),女,通信作者,副教授,主要研究方向:电力营销与电力市场。E-mail: jqxin@sjtu.edu.cn

(编辑孔丽蓓)