智能电网环境下基于大数据挖掘的居民负荷设备识别与负荷建模

2017-01-09 09:02杨甲甲赵俊华文福拴董朝阳薛禹胜
电力建设 2016年12期
关键词:电器设备功率负荷

杨甲甲,赵俊华,文福拴,董朝阳,薛禹胜

(1.悉尼大学电气与信息工程学院, 澳大利亚悉尼市 2006;2. 香港中文大学(深圳),广东省深圳市 518100;3. 浙江大学电气工程学院,杭州市 310027;4. 文莱科技大学电机与电子工程系,文莱斯里巴加湾 BE1410;5. 南方电网科学研究院,广州市 510080;6. 南瑞集团公司(国网电力科学研究院),南京市 211106)

智能电网环境下基于大数据挖掘的居民负荷设备识别与负荷建模

杨甲甲1,赵俊华2,文福拴3,4,董朝阳5,薛禹胜6

(1.悉尼大学电气与信息工程学院, 澳大利亚悉尼市 2006;2. 香港中文大学(深圳),广东省深圳市 518100;3. 浙江大学电气工程学院,杭州市 310027;4. 文莱科技大学电机与电子工程系,文莱斯里巴加湾 BE1410;5. 南方电网科学研究院,广州市 510080;6. 南瑞集团公司(国网电力科学研究院),南京市 211106)

利用数据挖掘技术对用户负荷大数据进行处理,既可以通过识别用电负荷设备来分析用户的用电行为习惯,又可以辅助进行负荷精确建模,实现精确而有目标性的需求侧管理或制定具有针对性的零售商售电策略。在此背景下,基于动态时间弯曲(dynamic time warping,DTW)的时间序列匹配方法,提出了一种低频负荷数据下的居民电器设备识别方法。首先,将负荷数据分割成单负荷设备运行和多负荷设备同时运行2种情况下的负荷子序列;然后,依据待识别子序列的时间长度,参照实测的电器设备耗电功率数据,生成与其时间长度一致的电器设备耗电功率参考序列,其中包含了从电器设备启动前一时刻至设备关闭后一时刻的功率变化情形;最后,以DTW距离作为相似性度量指标确定识别结果。对于由多负荷设备运行产生的负荷序列,提出了一种剔除已识别设备后将序列再次分割,如此交替进行的识别策略。在获得识别结果后,构建了居民负荷统计模型。借助于高效数据分析软件R语言平台,实现了所提出的算法,并使用500组负荷数据进行了数据实验。结果表明,在对负荷数据每 min采样1次的情况下,所提出的负荷设备识别方法对单设备负荷序列识别的准确率超过93%,对多设备负荷序列识别的准确率接近83%。

智能电网;数据挖掘;R语言;动态时间弯曲(DTW);负荷识别;负荷模型

0 引 言

在智能电网环境下,智能量测设备会逐步得到广泛应用,从而能够得到用户负荷准确的、海量的数据。利用数据挖掘方法对用户负荷大数据进行处理,能够从中提取出有用信息,从而能够对电力负荷有更系统和深入的理解进而改善负荷管理水平及系统运行的安全性与经济性。负荷识别进而负荷准确建模是大数据挖掘在电力系统中应用的重要领域。

按照最终识别结果,负荷识别可以分为负荷设备识别和负荷类型识别。负荷设备识别需要识别出具体的用电设备,因此对负荷采样数据的要求更高[1]。负荷类型识别则是首先将负荷划分为几个类型,如电阻性负荷、单相恒转矩感应电机负荷、三相恒转矩感应电机负荷等[2],之后确定负荷组成。本文讨论负荷设备识别问题。

在现有研究中,常用的负荷设备识别方法包括两大类[2],即侵入式负荷监测[1]和非侵入式负荷监测[3-5]。

侵入式监测方法需要在用电设备和插座之间安装中间监控装置来记录设备操作情况。该方法通常依靠中间监控装置采集的负荷设备操作记录、设备能耗数据、用户账单数据等,如果用户安装了智能电表则也可利用智能电表所获取的数据,进行负荷设备识别。非侵入式监测方法则不需要中间装置,主要依靠高分辨率的负荷波形测量数据,如电流波形、负荷对电压阶跃的动态响应波形、负荷有功功率变化时的波形等[6],通过分析这些负荷特征量来进行负荷识别。

国外现有的负荷设备识别研究,主要针对居民负荷的各种电器设备,总体上可以分成2类:(1)负荷设备电气特征信息提取[5-6];(2)负荷设备识别方法研究[1, 7-11]。

现有的负荷设备识别方法主要是依据负荷设备的电气特征信息,通过匹配方法进行设备识别,这些特征信息总体上包括电器设备的暂态和稳态信息,例如:电流波形、设备的有功/无功功率、谐波、瞬时导纳波形、瞬时功率波形、特征值(主要针对动态负荷,例如空调的电流波形在不同的工作循环内是不同的,通过建立电流值的时间序列矩阵,并提取矩阵的特征值进行设备识别)以及设备开关操作的暂态波形。

负荷设备识别方法可以归纳为如下2类[6]:

(1)数学优化方法。在给定的设备集合中,求解使得设备组合的总功率和目标负荷值之间的偏差最小的组合结果,该组合中所包含的电器设备就是识别结果。

(2)数据挖掘算法。如决策树[1]、支持向量机[7]以及基于人工神经元网络的算法[8-9]。后者通过训练人工神经元网络,使其具备辨别不同电器设备的电气特征的能力,然后进行负荷识别。

由于一些数学优化方法的计算复杂度会随着待识别设备数量增加而呈现指数增长,因此现有研究多集中在基于数据挖掘的负荷设备识别方法。

在依据负荷数据识别出用户的负荷设备后,通过对识别结果进行统计分析,可建立更加精确的居民用户负荷模型。这种明确了各个时刻负荷成分的精确负荷模型,既可以用来进行精确而有目标性的需求侧管理,也可以结合用户的用电行为习惯,用来研究用户负荷,辅助零售商制定合适的售电策略。

已经有一些这方面的研究工作报道。例如,文献[12]研究了居民用户的负荷特征和房屋大小、房屋类型(公寓或者别墅等)以及居住者的社会经济特征 (包括屋主年龄、收入、所处的社会阶层等) 之间的关系,用线性回归方法分析了居民负荷的15种家用电器设备和用户的总耗电量、用户的最大负荷功率、用户的负荷系数以及用户大负荷的发生时间之间的关系。文献[13]中采用将用户行为模型和负荷设备电气模型相结合的方法对家庭负荷建模; 基于历史数据,首先采用统计分析方法构建了考虑居民有效用电人数、电器日使用概率、电器平均使用时长等特征的居民负荷行为学模型, 同时基于实测的负荷数据得到了负荷静态模型。文献[13]中的家用电器设备使用状态是根据用电行为的历史数据统计分析得到的,没有涉及负荷识别问题。文献[14]针对统计综合法和总体测辨法等负荷建模方法存在数据需求量大,难以反映负荷时变性或辨识速度慢、精度低等缺点,提出了变电站综合负荷的一种集中式建模方法。到目前为止,笔者还没有见到通过识别负荷设备建立精确负荷模型的系统的研究报道。

国内在负荷设备识别方面已经有些研究报道。文献[15]研究了家用电器运行时的特征量如瞬时功率波形、电流曲线波形、谐波特性、电器开关时的脉冲电流和暂态过渡时间,并讨论了利用这些特征量进行负荷识别的可行性。文献[16]和[17]以电器设备开、关过程中的暂态功率波形作为特征量,分别采用相似性匹配和聚类方法 对家用电器负荷进行识别。虽然与文献[16]和[17]相同,也利用了电器设备开启时的瞬时功率波形,文献[18]和[19]则是通过求解电器设备的优化组合问题进行家电负荷识别。利用暂态特征进行负荷识别时需要获取电器设备投切时刻的暂态信息,文献[20]提出一种针对暂态事件的监测算法,能够实现对负荷投切时的暂态过程进行自动检测和准确记录。文献[21]和[22]则都利用了电器设备运行的暂态特征量和稳态特征量进行负荷识别。此外,文献[23]针对近几年有关非侵入式负荷识别算法进行了综述,分析了比较常用的几种负荷识别方法的优缺点,并讨论了负荷识别技术在实际应用中面临的问题。

上述国内研究都是基于高频采样数据(文献[15-18]中的采样频率分别为2,2,5,20 Hz)进行的负荷识别。在这些高频采样频率下,当智能电网中的用户规模增大时,随之产生的采样数据量也将急剧增加。因此,这些将会对系统硬件设备的数据采集和存储功能,以及负荷识别方法的数据处理能力提出更高的要求。而且,这些方法还仅是针对单个家庭用户的负荷识别,没有考虑通过对配电网中的大量用户进行负荷识别,然后建立系统负荷模型的问题。

在上述背景下,本文首先提出基于低频负荷采样数据的负荷设备识别方法。具体地,以动态时间弯曲(dynamic time warping,DTW) 距离作为待识别负荷时间序列和设备参考时间序列之间相似性的度量指标,通过将低频采样的负荷时间序列进行波形分割,对每个子序列进行负荷设备识别。接着,利用数据实验分析所提出的负荷设备识别方法的准确性和有效性。之后,在负荷识别的基础上,提出能够明确负荷成分的负荷统计模型。

1 动态时间弯曲距离

DTW距离是一种时间序列相似性度量指标[24]。采用这种相似性度量指标时,在计算被比较的时间序列之间的距离之前,允许被度量的时间序列沿时间轴进行局部的延伸或收缩,对被匹配序列的振幅差异、噪声和线性漂移具有更好的鲁棒性。适用于度量变化趋势相似,但时间长度可能不相等的时间序列,比其他相似性度量指标 (如Minkowski 距离、Euclidean 距离、Manhattan 距离,等) 具有更多的优点,因而在数据挖掘领域得到了广泛应用。

给定长度分别为n和m的2个时间序列Q和C:

Q=q1,q2,…,qi,…,qn

(1)

C=c1,c2,…,cj,…,cm

(2)

为了用DTW来比较Q和C的相似性,需要构造一个n行m列的距离矩阵D,其中的元素di,j表示点qi和点cj之间的欧式距离或者欧式距离的平方[24]。为便于讨论,这里取di,j为(qi,cj)之间欧式距离的平方。

di,j=(qi-cj)2

(3)

式(3)表示当进行相似比较时,序列Q的元素qi和序列C的元素cj之间建立起对应关系之后,两序列之间相似距离的计算方法。其中,i=1,2,…,n,j=1,2,…,m。

弯曲路径W是由di,j构成的集合,W中的全体元素表示一个以(q1,c1)为起点,以(qn,cm)为终点的Q和C之间的映射关系:

W=w1,w2,…,wk,…,wK,

max(m,n)≤K≤m+n-1

(4)

wk=(di,j)k

(5)

式中:K表示弯曲路径W的长度,且K的取值是通过求解最优弯曲路径W而确定;wk表示Q和C之间的第k组中2个具有映射关系的点之间的欧式距离的平方值。

在Q和C之间满足以(q1,c1)为起点、以(qn,cm)为终点的映射关系有很多种。通常要求构成弯曲路径的映射必须要满足以下3个约束条件[25]。

(1)边界约束。w1=d1,1,wK=dn,m;边界约束条件用于保证弯曲路径的始点和终点分别在距离矩阵的对角位置。

(2)连续性约束。假定wk=di,j,wk-1=di′,j′;那么需要满足i-i′≤1,j-j′≤1;连续性约束条件用于保证弯曲路径是由距离矩阵中是相邻的元素构成的。

(3)单调性约束。同样地,假定wk=di,j,wk-1=di′,j′;那么需要满足i-i′≥0,j-j′≥0;单调性约束条件用于保证弯曲路径中的点在时间顺序上是单调的。

在满足约束条件的弯曲路径中,W的全体元素累加和最小的路径被称为动态时间弯曲路径,这里用DDTW表示。时间序列Q和C之间的DTW距离可表示为

(6)

对满足约束条件的动态弯曲路径进行搜索,是求解动态弯曲距离过程中的关键环节,决定了序列之间相似匹配时映射关系。求解动态时间弯曲路径和相应弯曲距离的问题可描述为多阶段决策问题。令到第k步的累计距离为r(i,j),第k步的决策变量为d(i,j),则

(7)

采用动态规划法求解式(7),可求得时间序列Q和C之间的动态时间弯曲路径和相应的弯曲距离。

式(7)仅给出了当对Q和C之间的映射不加以约束时的情况。实际上,为了防止病态映射 (例如Q的一小部分序列值映射到了C的很大一块区域中) 的发生,同时提高求解DTW距离的速度,通常还会给动态时间弯曲路径的搜索范围添加全局或局部约束条件,以限定求解的搜索范围[25]。

最常见的全局约束有2种,分别为Sakoe-Chiba带状约束和Itakura平行四边形形状约束。全局约束限制了当沿距离矩阵D的对角线搜索最优动态路径时,搜索范围的总体将是沿对角线的一个带状区域,亦或是一个平行四边形区域。而局部约束则有很多种形式,除式(7)所示的情形外,另外还有式(8)、式(9)所示的约束情形。不仅如此,一些学者还在不断地研究新的约束情形。局部约束限制了当搜索动态弯曲路径时,相邻2步决策间的搜索范围。有关全局和局部约束条件的更多详细内容可参考文献[25]。

r(i,j)k=d(i,j)k+min{r(i-1,j-1),

r(i-1,j-2),r(i-2,j-1)}k-1

(8)

r(i,j)k=d(i,j)k+min{r(i-1,j-1),

r(i-3,j-4),r(i-4,j-3)}k-1

(9)

本文中通过选用不同的全局和局部约束条件进行多次计算,来选择对算法执行效果最好的约束条件。

2 基于DTW的负荷设备识别方法

现有负荷设备识别方法通常都是基于频率为1 Hz[1]、几十Hz (如17 Hz[7]和60 Hz[11]),甚至更高频率[6]的负荷采样数据进行的。在获得了高频负荷数据后,这些方法假定在足够短的时间内(例如1 s),只可能有1台设备会被开启或者关闭,通过比较负荷数据和前文提到的负荷设备的电气特征信息,来进行负荷设备识别。

显然,负荷采样频率越高,对数据采集系统硬件设备的要求也越高,同时在数据挖掘时需要存储和处理的数据量也就越大。有鉴于此,在低频数据下进行负荷识别就是一个值得研究的问题。文献[9]和[10]分别研究了当采用频率为每1 min 1次和每2 min 1次时的负荷识别问题。需要指出,现有的负荷设备识别方法多数是以人工神经元网络算法为基础的[6, 9-10]。

这里提出一种针对负荷数据采样频率低的情况下的负荷设备识别新方法。所提出的方法主要用来识别在min级别或更长的时间尺度内连续运行的家用电器设备,正是这些设备的耗电构成了居民负荷的主要部分。而对于那些运行时间在1 min以内的短时负荷,其耗电对系统负荷的影响很小,这些电器设备对系统负荷建模的影响也可忽略不计。

在所提出的方法中,首先将用户负荷时间序列按照给定的原则进行分割,然后以DTW距离为相似性度量指标,分别将分割后的用户负荷子序列与负荷设备数据库中的参考时间序列进行时间序列匹配,选择匹配效果最好的参考序列所对应的设备作为该子序列的识别结果。对于由多台设备同时运行构成的复杂负荷子序列,提出了如下方法:首先,在每次识别出1个负荷设备后,就从该子序列中将已识别出的该设备所对应的功率序列剔除;然后,对子序列再次进行分割,并对分割得到的复杂度降低的子序列继续进行负荷识别,如此反复进行,直到满足结束条件。为便于理解,图1给出了所提出的负荷设备识别方法的原理图。

下面对图1中的时间序列分割和负荷设备识别方法的具体内容做比较详细的阐述。

2.1 负荷时间序列分割

在给定负荷数据后,首先将其分割为由单个设备运行或者多个设备同时运行组成的一系列负荷子序列。需要处理的完整负荷数据通常是时间长度为24 h的数据,在对其进行分割后,得到的各个子序列的时间长度缩短至min级别,各个子序列的功率变化特征更加明显,能更准确地和数据库中存储的单台设备的时间序列进行相似性匹配。

图1 识别负荷设备的基本流程

在对负荷数据进行分割时,根据负荷功率的跃升值确定子序列的起始点。为排除设备正常工作时的功率波动或其他干扰导致的负荷功率变化,需要事先设定一个功率跃变阈值ΔPset,只有当负荷功率变化的绝对值大于ΔPset时,才认为有设备被启动或者关闭。同时,根据负荷功率的跌落值,以及功率跌落发生后的Ts个时段内的负荷功率变化状态确定子序列的结束点。这是由于功率的跌落不只是发生在设备的关闭时刻,也可能发生在设备工作模式的转换期间,因此如果功率跌落大于阈值,还需要判断跌落后的负荷功率值P(t+1)以及在t之后的Ts个时段内负荷功率是否进入平稳状态。

在Matlab环境下实现了负荷数据分割算法。表1给出了负荷时间序列分割算法的伪代码。

表1 负荷数据分割算法伪代码

Table 1 Pseudocodes for proposed load profile segmentation algorithm

注:输入为用户负荷时间序列;输出为负荷数据分割结果;ΔP(t)=P(t+1)-P(t)。

上述算法中相关参数的设置对算法执行效果有重要影响。在针对具体负荷数据进行设备识别时,算法参数与负荷数据的特点密切相关,如何针对不同负荷情形确定最优参数设置是一个值得研究的重要问题。在本文中,采用了一种启发式方法,即通过在数据实验中测试不同的参数设置对结果的影响来选择最合适的参数。

2.2 基于DTW相似度量的负荷设备识别方法

在获得了负荷数据的分割结果后,将每个子序列和已知的设备参考序列进行DTW匹配,记录每次匹配计算所得到的DTW距离值和序列匹配的映射关系。选择DTW距离值最小的匹配结果作为负荷设备识别结果,同时判断DTW距离值是否大于阈值。如果小于阈值则设备识别结束;如果大于阈值,则表明此序列中同时还有其他设备,需要从含多台设备的负荷序列中剔除已识别设备。每次将负荷子序列和设备耗电功率参考序列进行DTW匹配时,会把变化趋势最相似的点自动匹配,并将变化最显著的设备识别出来。因此,只需依据DTW匹配时已经记录的序列匹配的映射关系,将已识别出的设备耗电功率参考序列从负荷序列中减去,然后对负荷序列继续进行分割,进而识别分割后的负荷序列直到每个子序列进行匹配后的DTW距离值小于阈值,则识别结束。图2为一组DTW匹配时的序列映射关系示意图。

负荷序列表示从某个未知时刻开始的时间长度为24 min的负荷耗电功率曲线。该段负荷由3台设备构成:在第1~6 min为空调负荷,第9~22 min为洗碗机负荷,第11~24 min为洗衣机负荷。从图2所示的映射关系可知,此时该负荷序列的最优DTW匹配是洗碗机的参考功率序列,且只有第9~22 min的序列值匹配到了洗碗机的参考序列上。因此洗碗机设备将首先被识别出来,然后洗碗机的耗电功率参考序列将被从负荷序列中减去,继续进行其他电器设备的识别。

图2 两时间序列DTW匹配结果映射关系示意图

R语言是一套具备数据处理、数学计算和统计制图的完整软件系统。由于其出色的数据分析功能,近年来在数据挖掘领域得到了广泛的应用。借助于其丰富的计算包[26],R语言可以灵活地实现针对不同领域的不同问题的数据分析。本文中,利用R语言中高效的DTW计算包来辅助实现所提出的负荷设备识别算法。表2 给出了利用R语言实现负荷设备识别算法时的伪代码。

表2 负荷设备识别算法伪代码

Table 2 Pseudocodes for proposed appliance identification algorithm

注:输入为负荷时间序列的分割结果;输出为设备识别结果列表;N为分割结果中子序列的总数;M为电器设备总个数。

3 居民负荷模型构建

采用前文介绍的负荷设备识别算法,可确定构成各个时刻用户负荷的用电设备,并识别用户在这些时段使用不同电器设备的行为习惯。这样,就可利用负荷设备识别结果建立能够明确各个时段内系统负荷成分的用户负荷模型,即明确各个时段内构成负荷的设备组合,并识别用户在这些时段使用不同电器设备的行为习惯。

(10)

式中β0,t为服从特定分布的随机变量,表示系统总负荷中未被识别的电器设备所构成的负荷。由于设备识别存在误差,该常数项也包括了识别结果和系统实际负荷之间存在的误差。

式(10)给出了能够明确各种负荷成分的系统负荷模型,根据各个电器设备的负荷特性,可利用该负荷模型进行精确而有目标性的需求侧管理,也可以分析用户的用电行为特性,辅助零售商制定合适的售电策略。不过,这些内容已经超出了本文的研究范围,不再赘述。

在式(10)中,β0,t和βi,t均是根据电器设备识别结果统计得到的随机变量。因此,需要对这些参数的分布形态进行推断。在实际中,用户使用某些设备的行为可能存在关联,但研究这种行为的关联性本身就是一个复杂的问题,本文不对此展开研究。为简化处理,假定用户对各个设备的使用行为之间相互独立,这样就可以分别对式(10)中的各个系数进行分布检验。由于无法事先对β0,t和βi,t的分布形态作简单假定,故只能根据设备识别结果中的样本数据对这些参数的分布形态进行推断。上述问题属于非参数检验的研究范畴,因此这里采用著名的统计分析软件SPSS[27],并应用单样本非参数检验方法对这些随机变量的分布形态进行分析。

SPSS软件中包括4种单样本非参数检验方法,即总体分布的卡方(Chi-square)检验、二项分布(Binomial) 检验、单样本K-S(Kolmogorov-Smirnov)检验、单样本变量值随机性检验(Runs Test)。其中,总体分布的卡方检验适用于配合度检验,其根据样本数据的实际频数推断总体分布与期望分布或理论分布是否具有显著差异,常用于分析多个变量之间的关联性; 或基于样本数据分析多个变量之间是否满足特定的比例关系。二项分布检验主要针对只有两类取值的问题,通过分析样本数据,检验总体是否服从参数为P值的二项分布。单样本K-S检验则利用样本数据推断总体是否与某一理论分布 (如正态分布、均匀分布、泊松分布、指数分布等) 有显著差异,属于拟合优度的非参数检验方法,适用于分析连续型随机变量的分布。单样本变量随机性检验也被称为游程检验,用于检验某变量的取值是否为随机过程。

本文首先使用游程检验排除设备数量的取值为随机过程,然后采用单样本K-S检验方法对给定时段内各类电器设备数量的分布形态进行检验。

此外,如何适当确定负荷模型中每个时段的长度,也是一个需要考虑的问题。在实际应用中,如果时段t的长度太短,就会导致随机变量的样本数据量减少,导致参数估计不准确,这样时段长度的取值不能过小,可以针对具体应用情形适当确定。

4 仿真结果分析

4.1 负荷设备识别

尽管目前已有一些关于用户负荷设备识别的文献,但其中的数据多是非开源的。文献[1]在实验室环境内以s为采样单位测得并公开了31种家庭常用电器设备的有功功率数据。基于文献[1]的电器设备耗电功率数据,文献[28]发展了智能电网环境下的负荷数据生成器,其根据事先给定的用户用电行为参数(如工作时间、休息时间等)、家用电器列表以及各个电器的功率数据最终生成家庭用户负荷数据。本文利用该生成器所产生的负荷数据进行数据实验。

4.1.1 待识别电器设备的选取

文献[28]利用由12种电器设备组成的备选库来生成负荷数据。这些电器设备分别为:空调、冰箱、热水器、洗衣机、洗碗机、微波炉、电炉灶、电视机、电熨斗、烘干机、冷藏柜、真空吸尘器。在这些电器设备中,有些具有典型特点,如:(1)常开电器,包括冰箱、冷藏柜等;(2)短时使用设备,如微波炉、电熨斗、真空吸尘器等;(3)小功率设备,如电视机等。需要指出,对上述电器设备特点的划分主要依据其在负荷数据生成器中的能耗特性。

上述这些具有典型特点的设备都有一个共同特征:其能耗不构成用户负荷的主要组成部分。因此,这里选取剩余的6种电器设备进行负荷识别,即空调、热水器、洗衣机、洗碗机、电炉灶和烘干机。在附图A1中给出了一组采样频率为每30 s 1次时这6种电器设备的耗电功率参考曲线。

4.1.2 参数设置和结果统计分析

以500组采样频率为每min 1次的负荷数据作实验样本,对所提出的负荷识别算法进行测试。由于上述生成器产生的数据是以s为时间单位的,需要对负荷数据样本进行适当处理。首先,通过取时段内负荷的平均值,将以s为时间单位的负荷数据转化成以min为单位的。考虑到取时段内负荷的平均值和实际中以min为单位采集所得的负荷数据有一定差别,算例中对取平均值和整分钟取值2种情形进行了对比,结果见表3。然后,对负荷数据进行分割。附图A2给出了对部分负荷数据进行分割的结果。

参数的合理设置对负荷设备的精确识别至关重要。表3给出了在不同参数设置情形下设备识别结果的统计数据。其中:Nsigl表示只包含单个电器设备的子序列数量;Nmult表示同时含有多台电器设备的子序列数量;ηsigl和ηmult分别表示所提算法对单设备子序列和多设备子序列的准确识别率;ηavg为ηsigl和ηmult的算术平均值。

由于实验数据是利用文献[28]中的居民负荷数据生成器所产生的数据,因此通过将识别结果和原始数据中的电器状态进行校验来统计准确率。具体为:对于识别结果中的每个时刻的每个电器设备,当其被识别出的状态与原始数据中的电器状态相同时,则表示准确识别1次,否则为错误识别1次,将总的准确识别次数累加,其占总识别次数的百分比就是本文中的准确率。将单设备和多设备子序列的识别结果分别进行统计即可得ηsigl和ηmult,由于居民负荷序列只包含单设备和多设备子序列,因此将ηsigl和ηmult进行算术平均,就可得总体识别准确率。

4.1.3 与其他负荷识别算法的性能比较

由于目前还不存在被普遍认可和接受的测试算例,因此很难对不同的负荷识别算法直接进行性能比较。此外,尽管计算效率是负荷识别算法很重要的一个方面,但已有研究通常很少展示所提算法的计算效率而只着重在算法的识别准确率。鉴于上述因素,如果要对不同的负荷识别算法进行比较,就需要重新编码实现这些算法。

在文献[29]中作者对其所提出的负荷识别算法的计算效率进行了分析,并给出了进行数据实验时的算法执行时间。本文在Matlab中重新编码实现了文献[29]中所提出的 PALDi (particle filter-based load disaggregation)负荷识别算法,在确保PALDi算法的执行效果与文献[28]中相一致的前提下,将其与本文所提出的DTWAI (dynamic time warping based appliance identification)负荷识别算法进行了对比,计算结果见表4。在对比算例中,有6种电器设备参与识别,PALDi算法中的粒子数取为100,表4中的结果为多次运行结果的平均值。从表4中的结果可以看出,识别相同的负荷数据时,本文所提出的算法在运算效率和识别准确率方面都更优。

表3 数字实验中的参数设置和识别结果

Table 3 Parameter setting and identification results in numerical experiments

表4 所提出的负荷识别算法与 PALDi 算法的性能对比

相比于高频率采样时,在低采样频率下电器设备的功率波形特征会被削弱,将影响负荷识别的准确率。但由于此时需要处理的数据量减小,负荷识别的运算速度将会大幅提高。可辅助以电器设备的其他电气特征,如电器的使用时间、无功功率、电流和电压波形等来提高识别的准确率。在可接受的准确率水平下,更高效的负荷识别算法将更有利于在智能电网的大数据环境下对负荷信息进行挖掘。

针对不同采样频率下的负荷数据,采用上述方法进行了负荷识别,图3中给出了识别准确率统计结果。从图3可以看出,随着数据采样频率的降低,识别难度逐渐增加,识别准确率随之降低。当采样频率为每3 min 1次时,多设备负荷序列识别准确率下降到72.84%。

图3 不同采样频率下负荷识别准确率

4.2 负荷模型系数检验

前已述及,在建立负荷统计模型时,时段长度不能太短,在本算例中,选取时段长度为0.5 h。在4.1小节中已经获得了500组负荷数据在每个时刻的电器设备识别结果;以此为基础,利用式(10)所描述的负荷模型,可以方便地求得每个时刻对应的系数值,见附表A1。由于希望得到的是式(10)所示的统计系数模型,因此可利用SPSS非参数检验对各个时刻的模型系数结果进行统计分析,最终即可获得负荷模型统计系数的分布形态,表5给出了相应的统计分析结果。

表5 负荷统计模型系数的单样本K-S检验结果

Table 5 One-sample K-S test results for all coefficients in load statistical model

表5中给出了对于第2个时段 (31~60 min) 的数据,利用SPSS非参数检验进行分析所得到的结果。由于所选取的时段长度为0.5 h,因此在每个时段内总共有30个样本数据。又由于数据试验中所使用的500组负荷数据是对500个居民用户进行仿真所生成的数据,而负荷模型是针对1个居民用户的,因此没有同时使用500组负荷数据做统计分析。在显著性水平为0.05的条件下,β0、β1和β2的单样本非参数检验结果中的显著性水平,即表5中的P值,分别为0.229、0.369和0.462,均大于0.05,也即接受其服从均匀分布的原假设。β3、β5和β6的单样本非参数检验结果中的显著性水平分别为0.600、0.235和 0.146,都大于0.05,也接受其原假设,即均服从泊松分布。对于β4,由于在所分析的时段内,该设备对应的识别结果保持不变,即为常数,因此没有必要对此系数进行统计分析。

需要特别指出,在某些电器设备如电炉灶的使用过程中,由于工作模式的调整其耗电功率会发生变化。因此,本文在对此类设备求解负荷模型系数时,均采用设备的平均耗电功率。但在负荷识别时,则是以此类设备的典型波动负荷曲线作为参考序列的。

4.3 结果分析

从表3列出的数据实验结果中可以看出,对于仅含单台设备的负荷子序列,能够获得相当满意的识别结果。然而,对于含有多台设备的子序列,其识别结果的准确性则尚有较大的提升空间。这是因为:(1)多台设备的同时运行会使各个设备的功率曲线特征在总功率曲线中被弱化(例如,2个功率不同的设备同时运行时,功率之和可能接近另外某一个设备的耗电功率;也有可能2台耗电功率波动的设备同时运行,功率叠加的结果更近似于另一台平稳功率运行的设备)。(2)在由多台设备组成的子序列中,其中所包含的不同设备的运行时间一般有差异,因此在生成电器设备的参考序列时,其时间长度难以适当确定,也会导致识别的准确率降低。

除了上述因素外,负荷设备识别算法的准确性还受功率阈值ΔPset、时间阈值Ts、电器设备耗电功率参考序列等的影响。功率阈值和时间阈值直接影响负荷时间序列的分割结果,分割结果中各个子序列的复杂度相应地决定了基于DTW设备识别方法的匹配难度。例如,在分割过程中,如果能将使用时间上邻近的2个设备分为2个子序列,与将2个子序列分割在一起作为一个多设备负荷序列相比,在DTW匹配处理时后者增加了识别算法的复杂程度。再者,由于电器设备实际运行情况复杂多变,在有些情况下其耗电功率的典型特点表现的并不明显,这也会增加其识别的难度,导致识别的准确性降低。因此,需要建立包含更多耗电功率情形的电器设备功率参考序列集合。

表5中给出了系统负荷模型的相关结果,可以看出在基于设备识别结果所建立的负荷统计模型中,系数呈现出特定的分布规律。采用统计模型既能够在一定程度上减小设备识别误差的影响,又能够借助这些参数的分布规律挖掘用户用电行为特点。更为重要的是,所建立的负荷统计模型明确了系统负荷在各个时段内的具体构成,可以方便地用于需求侧管理。

5 结 论

在智能电网环境下,利用智能计量设备能够收集越来越多的用户负荷数据。采用大数据挖掘方法对用户负荷进行处理,既能够分析用户用电行为习惯又可以辅助进行负荷精确建模,进而实现精确而有目标性的需求侧管理,或制定具有针对性的零售商售电策略。负荷设备识别是负荷数据挖掘的基础。基于这样的考虑,本文首先采用以动态时间弯曲距离为基础的时间序列匹配思想,提出了一种针对负荷低频采样的居民电器设备识别方法。在此基础上,构建了居民负荷统计模型,以便将负荷设备识别结果应用于需求侧管理和构造电力零售策略。数据实验结果表明,在每min采样1次负荷数据时,所提出的负荷设备识别方法对单设备负荷序列识别的准确率超过93%,而对较难识别的多设备负荷序列准确率则接近83%。

如何提升对多设备负荷序列识别的准确率进而对用户用电行为进行系统而深入的分析是下一步研究的主要内容。

[1]REINHARDT A,BAUMANN P,BURGSTAHLER D,et al. On the accuracy of appliance identification based on distributed load metering data [C] // Proceedings of the Sustainable Internet and ICT for Sustainability. Pisa,Italy: IEEE,2012:1-9.

[2]XU Y,MILANOVIC J V. Artificial-intelligence-based methodology for load disaggregation at bulk supply point [J]. IEEE Transactions on Power Systems,2015,30(2):795-803.

[3]余贻鑫,刘博,栾文鹏. 非侵入式居民电力负荷监测与分解技术 [J]. 南方电网技术,2013,7(4):1-5.

YU Yixin,LIU Bo,LUAN Wenpeng. Noninstrusive residential load monitoring and decomposition technology [J]. Southern Power System Technology,2013,7(4):1-5.

[4]FIGUEIREDO M,DE-ALMEIDA A,RIBEIRO B. Home electrical signal disaggregation for non-intrusive load monitoring (NILM) systems [J]. Neurocomputing,2012(96):66-73.

[5]DONG M,MEIRA P C M,XU W,et al. Non-intrusive signature extraction for major residential loads [J]. IEEE Transactions on Smart Grid,2013,4(3):1421-1430.

[6]LIANG J,NG S K K,KENDALL G,et al. Load signature study—Part I:basic concept,structure,and methodology [J]. IEEE Transactions on Power Delivery,2010,25(2):551-560.

[7]MITTELSDORF M,HUWEL A,KLINGENBERG T,et al. Submeter based training of multi-class support vector machines for appliance recognition in home electricity consumption data [C] // Proceedings of the 2nd International Conference on Smart Grids and Green IT Systems,Aachen,Germany,2013:151-158.

[8]PARADISO F,PAGANELLI F,LUCHETTA A,et al. ANN-based appliance recognition from low-frequency energy monitoring data [C]//Proceedings of the 2013 IEEE 14th International Symposium and Workshops on a World of Wireless,Mobile and Multimedia Networks (WoWMoM). Madrid,Spain:IEEE,2013:1-6.

[9]RUZZELLI A G,NICOLAS C,SCHOOFS A,et al. Real-time recognition and profiling of appliances through a single electricity sensor [C] // Proceedings of the 2010 7th Annual IEEE Communications Society Conference on Sensor Mesh and Ad Hoc Communications and Networks (SECON). Boston,MA:IEEE,2010:1-9.

[10]PAGANELLI F,PARADISO F,TURCHI S,et al. Appliance recognition in an OSGi-based home energy management gateway [J/OL]. International Journal of Distributed Sensor Networks,2015:1-12. [2016-11-20].http://www.hindawi.com/journals/ijdsn/2015/937356.

[11]BELLEY C,GABOURY S,BOUCHARD B,et al. An efficient and inexpensive method for activity recognition within a smart home based on load signatures of appliances [J]. Pervasive and Mobile Computing,2014,12(3):58-78.

[12]MCLOUGHLIN F,DUFFY A,CONLON M. Characterising domestic electricity consumption patterns by dwelling and occupant socio-economic variables:an irish case study [J]. Energy and Buildings,2012,48(19):240-248.

[13]林顺富, 黄娜娜, 赵伦加, 等. 基于用户行为的家庭日负荷曲线模型[J]. 电力建设, 2016, 37(10): 114-121.

LIN Shunfu,HUANG Nana, ZHAO Lunjia, et al. Domestic daily load curve modeling based on user behavior [J]. Electric Power Construction, 2016, 37(10): 114-121.

[14]黎静华, 叶柳. 基于出线的变电站综合负荷建模方法 [J]. 电力建设, 2014, 35(9): 7-12.

LI Jinghua,YE Liu. Outlet-based substation comprehensive load modeling method [J]. Electric Power Construction, 2014, 35(9): 7-12.

[15]郑小霞,刘庆强,林顺富,等. 面向非干预式负荷监测的居民负荷微观特性研究[J]. 电力系统保护与控制,2014,42(10):62-71.

ZHENG Xiaoxia,LIU Qingqiang,LIN Shunfu,et al. Research of the microscopic signatures of residential loads for NILM [J]. Power System Protection and Control,2014,42(10):62-71.

[16]高云,杨洪耕. 基于暂态特征贴近度匹配的家用负荷识别 [J]. 电力系统自动化,2013,37(9):54-58.

GAO Yun,YANG Honggeng. Household load identification based on closeness matching of transient characteristics [J]. Automation of Electric Power Systems,2013,37(9):54-58.

[17]张红梅,孙洁,许仪勋,等. 基于暂态特征聚类的家用负荷识别[J]. 电子技术与软件工程,2015(6):185-186.

[18]曲朝阳,于华涛,郭晓利. 基于开启瞬时负荷特征的家电负荷识别 [J]. 电工技术学报,2015,30(1):358-364.

QU Zhaoyang,YU Huatao,GUO Xiaoli. The recognition of appliances instantaneous load [J]. Transactions of China Electrotechnical Society,2015,30(1):358-364.

[19]林顺富,赵伦加,刘庆强,等. 基于0-1 二次规划的非干预式负荷识别算法研究 [J]. 电力系统保护与控制,2016,44(8):85-91.

LIN Shunfu,ZHAO Lunjia,LIU Qingqiang,et al. A nonintrusive load identification method based on quadratic 0-1 programming [J]. Power System Protection and Control,2016,44(8):85-91.

[20]牛卢璐,贾宏杰. 一种适用于非侵入式负荷监测的暂态事件检测算法[J]. 电力系统自动化,2011,35(9):30-35.

NIU Lulu,JIA Hongjie. Transient event detection algorithm for non-intrusive load monitoring [J]. Automation of Electric Power Systems,2011,35(9):30-35.

[21]赵云,钱斌,王科,等. 基于特征相似度的非侵入式用电负荷识别模型研究 [J]. 电气应用,2015(S):199-203.

[22]王庆玉,张青青,张高峰,等. 谱聚类算法在家用负荷识别中的应用[J]. 电测与仪表,2015,52(1):119-123.

WANG Qingyu,ZHANG Qingqing,ZHANG Gaofeng,et al. Application of the spectral clustering algorithm to household load identification [J]. Electrical Measurement & Instrumentation,2015,52(1):119-123.

[23]李坦,杨洪耕,高云. 智能电表家用负荷识别技术综述 [J]. 供用电,2011,28(6):39-42.

LI Tan,YANG Honggeng,GAO Yun. Overview of exploration on household load identification of intelligent metering [J]. Distribution & Utilization,2011,28(6):39-42.

[24]BERNDT D,CLIFFORD J. Using dynamic time warping to find patterns in time series [R]//AAAI-94 Workshop on Knowledge Discovery in Databases. New York: AAAI, 1994.

[25]KEOGH E,RATANAMAHATANA C A. Exact indexing of dynamic time warping [J]. Knowledge and Information Systems,2005,7(3):358-386.

[26]GIORGINO T. Computing and visualizing dynamic time warping alignments in R:the DTW package [J]. Journal of Statistical Software,2009,31(7):1-24.

[27]CORDER G W,FOREMAN D I. Nonparametric statistics for non-statisticians:a step-by-step approach [M]. USA:John Wiley & Sons,2009.

[28]KONG W,DONG Z Y,CHEN G,et al. A rule based domestic load profile generator for future smart grid [C] // Proceedings of the 2014 IEEE Australasian Universities Power Engineering Conference (AUPEC). Perth,WA:IEEE,2014:1-5.

[29]EGARTER D,BHUVANA V P,ELMENREICH W. PALDi:online load disaggregation via particle filtering[J]. IEEE Transactions on Instrumentation and Measurement,2014,64(2):467-477.

(编辑 张媛媛)

附录A

图A1 电气设备耗电功率参考序列

注:图A1中横坐标表示采样时间间隔 (为0.5 min);纵坐标表示电气设备的耗电功率 ,W;Aircon / Cooking Stove/Dishwasher / Laundry Dryer / Washing Machine/Water Heater 分别表示空调/电炉灶/洗碗机/烘干机/洗衣机/热水器。

Residential Appliance Identification and Load Modeling Based on Big Data Mining in Smart Grid Environment

YANG Jiajia1, ZHAO Junhua2, WEN Fushuan3,4, DONG Zhaoyang5, XUE Yusheng6

(1. School of Electrical and Information Engineering,University of Sydney, Sydney 2006, Australia; 2. The Chinese University of Hong Kong, Shenzhen 518100,Guangdong Province, China; 3. College of Electrical Engineering, Zhejiang University, Hangzhou 310027, China; 4. Department of Electrical and Electronic Engineering, Universiti Teknologi Brunei, Bandar Seri Begawan BE1410, Brunei; 5. Electric Power Research Institute,China Southern Power Grid, Guangzhou 510080, China; 6. NARI Group Corporation/State Grid Electric Power Research Institute, Nanjing 211106, China)

Through big data mining of residential load data, it can not only analyze the electricity consumption behaviour of residents by the identification of electrical load equipment, but also establish the load precise modeling, which can realize targeted demand-side management as well as develop customized electricity retailing strategies. Given this background, based on the dynamic time warping (DTW) time series matching method, this paper proposes a novel appliance identification algorithm for low frequency sampling load data. Firstly, the residential load sequence is segmented into subsequences composed of the single appliance load profile and multi-appliance load profile. Then, according to the time length of subsequences to be identified and measured electrical equipment power consumption data, reference load sequences of all given appliances are generated which have the same length of each query subsequence, including power change from the moment before equipment start to that after equipment shutdown. Finally, the DTW distance is taken as the similarity metric to determine recognition results. For a subsequence composed of multiple appliances, the best matched reference sequence is reduced after each DTW is matched, and then segmentation and DTW matching are carried on until all appliances are extracted. Given the status of all identified appliances, a statistical residential load model is developed. The proposed algorithm is coded in the R programming language and tested through a load dataset containing 500 households profiles. The simulation results show that the proposed algorithm could identify the single appliance load subsuquence at an accuracy above 93%, under the condition that the load data is sampled once every minute; while for the more difficult multi-appliance subsequence identification, the achieved accuracy is around 83%.

smart grid; data mining; R programming language; dynamic time warping (DTW); appliance identification; load modeling

图A2 用户负荷时间序列分割结果

国家自然科学基金项目 (51477151);南方电网公司科技项目 (WYKJ00000027)

TM 73

A

1000-7229(2016)12-0011-13

10.3969/j.issn.1000-7229.2016.12.002

2016-09-08

杨甲甲(1989),男,博士研究生,主要从事电力经济与电力市场、智能电网、可再生能源接入等方面的研究工作;

赵俊华(1980),男,“青年千人计划”入选者,副教授,本文通信作者,主要从事电力系统分析与计算、智能电网、计算智能方法在电力系统中的应用、电力经济与电力市场等方面的研究工作;

文福拴(1965),男,教授,博士生导师,主要从事电力系统故障诊断与系统恢复、电力经济与电力市场、智能电网与电动汽车等方面的研究工作;

董朝阳(1971),男,“千人计划”特聘专家,讲座教授,主要从事电力系统安全性、电力系统规划与管理、电力市场仿真与风险管理、数据挖掘等方面的研究工作;

薛禹胜(1941),男,中国工程院院士,博士生导师,名誉院长,主要从事电力系统自动化方面的研究工作。

Project supported by National Natural Science Foundation of China (51477151)

猜你喜欢
电器设备功率负荷
『功率』知识巩固
功与功率辨
追本溯源识功率
Opening flexible resources by integrating energy systems: A review of flexibility for the modern power system
做功有快慢功率来表现
上海电器设备检测所
防止过负荷时距离保护误动新判据
主动降负荷才是正经事
气相防锈技术在电器设备防腐中的应用
SGT5-4000F(4)燃气轮机夏季最大负荷研究及应用