基于大数据的台区行业聚合分类方法及分类特征分析

2020-05-23 07:56:28林韶生杜佩仁
电力大数据 2020年3期
关键词:台区类别用电

李 健,林韶生,陈 芳,杜佩仁

(1.深圳供电局有限公司,广东 深圳 518001;2.杭州鸿晟电力设计咨询有限公司,浙江 杭州 310012;3.浙江大学,浙江 杭州 310027)

不同类型用户的负荷发展规律[1]大不相同,在构建点负荷预测模型之前,我们需要基于大数据分析的特点[2],以数据可获取为基本原则,对影响点负荷用电特征的关键因素进行选择[3],首先采用聚类分析的方法对点负荷进行机器分类,然后,在此点负荷分类结果的基础上进一步分析各类点负荷的负荷增长规律,使预测效率更高,预测结果更加可信。

聚类分析(cluster analysis),简称聚类(clustering),是一个把数据对象(或观测)划分成子集的过程。每个子集是一个簇(cluster),使得簇中的对象彼此相似,但与其他簇中的对象不相似。由聚类分析产生的簇的集合称作一个聚类。在这种语境下,在相同的数据集上,不同的聚类方法可能产生不同的聚类。划分不是通过人,而是通过聚类算法进行。聚类是有用的,因为它可能导致数据内事先未知的群组的发现[4-5]。

1 分类方法介绍

本次研究采用两级分类方法。一级分类根据台区的用电类别进行分类[6];二级分类采用k-均值聚类法对台区的典型周期性负荷曲线进行分类。

1.1 一级分类

在负荷预测应用中,对负荷进行分类的主要目的是为了获得各种类型负荷相应的用电周期及负荷增长规律。电力用户的常规分类定义包括行业分类及用电类别两个属性,行业分类虽然较用电类别分类更精细,但在实际应用中,存在属性定义不完整、不精确、更新维护不及时等数据质量问题;用电类别分类虽然粗犷,但从初步反映用户的用电周期及负荷增长规律角度观察,用电类别分类定义已能满足应用要求,且由于用电类别与电费标准相关,数据质量非常高,因此,取用电类别作为台区的分类属性,是合理的选择。用电类别定义如表1所示。

1.2 二级分类

聚类分析最简单、最基本的版本是划分,它把对象组织成多个互斥的组或簇。我们可以根据配变负荷预测实际需要给定簇的个数,这个参数是划分方法的起点。

形式地,给定n个数据对象的数据集D,以及要生成的簇数k,划分算法把数据对象组织成k(k≤n)个分区,其中每个分区代表一个簇。这些簇的形成旨在优化一个客观划分准则,如基于距离的相异性函数,使得根据数据集的属性,在同一个簇中的对象是“相似的”,而不同簇中的对象是“相异的”[7-10]。

K-均值算法是最著名、最常用的划分算法,其功能强大,从截面数据到序列数据,适用于连续性数据而变形则可以处理离散型数据,非常适合于分析配变负荷的数据。

由于我们分析的配变负荷数据属于时间序列类型,具有一定特殊性,在我们采用K-均值算法进行聚类分析之前,先要具体讨论一下配变负荷数据的距离计算。

1.2.1 相似性度量

相似性度量是聚类分析的基础,而进行相似性度量的依据是各式各样的距离度量算法。[11-13]常见的距离度量算法有欧氏距离法、闵可夫斯基距离法,文本相似度中常用的海明距离法、雅卡尔距离法,以及在语音分析常用的基于时间序列分析的DTW距离度量算法。

时间序列的相似性度量有其特殊性。首先,做相似性度量的时间序列应该有较高的信噪比,我们不希望存在大量的噪声,这会引入较大的误差,因此之前需要做去噪,最简单就是平滑处理,这个需要自己根据实际情况把握,以免过度丢失信息。其次,相比较的时间序列之间很多时候存在错位匹配的情况,这个需要相似性度量算法来解决,实际中也要根据场景,额外做些处理。

为了方便量化时间序列的相似性,我们把相似性视为距离的倒数,这样相似性的计算就转为距离的计算,然后从最简单的情况入手,列出时间序列距离计算的三个条件:

(1)两个时间序列的距离是非负的,当且仅当两个时间序列是完全相同的时候,距离才为0。

(3)三角不等式,也即d(〗a,c)〗≤d(〗a,b)〗+d(〗b,c)〗。(如果是定义一个复杂的算子,这一点的证明比较困难,不过只要是基于欧式空间的定义,然后保证距离的有序性,基本上都不会背离这一点,所以实际定义时不用过多关心这个点。)

基于以上的假设,我们直接把时间序列的数值作为时间序列的表示,用对应时间点之间的欧式距离之和作为距离(假设两个时间序列的长度一致),那么我们就得到了最简单的计算方式。

但在存在离群点、不平稳的时间序列数据中,简单易用的欧氏距离法容易受到干扰而暴露出很多问题。

1.2.2 应对时间序列数据中的异常

欧氏距离法的优点在于:①直观而计算简便,有良好的数学背景和意义;②由于序列的一些常用变换(如傅里叶变换等)的系数有欧氏距离保持不变的性质,所以经常用于数据库的高效索引。缺点在于:①需要计算的两序列具有相同的长度;②对于时间序列点的突变比较敏感;③欧氏距离对序列按照时间轴进行点对点依次计算,对时间序列的错位、移位比较敏感。

我们希望我们的距离度量算法能够具有普适性,以适应不同时间序列特性的区分,比如闵可夫斯基距离法。

(1)

闵可夫斯基距离法可以视为一组距离的定义,可以通过参数p调整距离对时间序列特性的适应,特别的,当p=2的时候就是欧式距离。如果我们希望突出两个时间点之间存在差异,而非差异度,我们可以让p值调小;反之,我们希望突出两个时间点之间的差异度,那我们可以让p值调大。当p趋于无穷大时,闵可夫斯基距离法就是切比雪夫距离。因此,我们要剔除离群点的影响,可以把p值调小,要剔除噪声的影响可以把p值调大。

当然,我们也有其他的方法来解决这一问题。比如还是针对离群点和噪声,我们可以采用离散化的思路来解决,把一定范围内的距离差视为一类,把大于一定阈值的距离差视为一类,这样就弱化了它们带来的影响。其实这就是一种符号匹配的思想,将时间序列语义化映射到符号或者字符串上,不仅仅是离散化,也可以直接来表示时间点之间的差值或者变化率等信息。基于这样的表达方式,我们就不能采用数值型的距离度量来进行相似度的计算了,但是我们可以引入文本相似度的计算逻辑,比如说Hamming距离或者Jaccard距离。

1.2.3 解决时间序列不对齐

上述的定义都是假设在时间序列对齐的情况下,也即我们假设时间序列长度是相等的,而且我们期望不同的时间序列上每个相同时间点的物理含义是一致的,表示的是同一个目标(值)。但是实际上这种情况过于理想,在实际实践中,相比较的时间序列之间可能存在着移位和错位的情况。

这时候我们需要调整我们的距离度量函数来解决这一问题,最常见的就是DTW算法。DTW算法的实质就是基于动态规划,借助局部最佳化的思想来寻找一条路径,使得两个时间序列之间的累计距离最小。DTW不完全是点对点之间的计算,而是在局部范围内可以跳过匹配序列中的若干点,从而使两序列能够以较为“合拍”的方式匹配。DTW算法通过贪心的方式去寻找一条两条时间序列之间距离最短的匹配路径,由于算法是贪心的,所以肯定不是最优解,同时也不能保证之前提到的距离的对称性,所以在使用的时候如果需要对称性,需要进一步处理。

1.2.4 DTW算法原理

对于时间序列X={x1,x2,…,xm}和Y={y1,y2,…,yn},DTW距离可以递归定义为:

(2)

其中,Rest(X)={x1,x2,…,xm},Rest(Y)={y1,y2,…,yn}

它通过寻找时间序列间距离的最小路径来计算两时间序列间的距离。

2 分类模型构建

2.1 一级分类分析

以台区用电类别属性为基准,综合分析台区的公专变属性、行业分类、下辖用户等其他信息,确定台区一级分类规则[14]。由于公变台区和专变台区的用电类别属性有较大差异,所以需要分别分析。

公变台区以混合用电类别为主,“居民生活”、“一般工商业及其他”、“其他用电”和“大工业用电”四种类型混合的台区占比高达94%,这些台区均包含城中村、居民小区台区,所以建议将公变台区作为一个整体进行聚类分析。

专变台区以单一用电类型为主,其中“大工业用电”、“一般工商业用电”、“商业”、“居民生活”四类的台区占比高达90%,混合的用电类别占比较少,所以,专变台区根据其主导用电类别进行分类。

根据以上公专变台区的用电类别分析结果,综合台区行业类别和用户信息,确定将台区按其主要用电类别分为“工业”、“一般工商业”、“商业”、“居民生活”四类,具体分类规则如表2所示。

表2 用电类别分类关系表

2.2 数据类型选择

本次研究初定选择日、周、年负荷曲线作为聚类分析基础数据[15-18],其中:

日典型负荷周期曲线能表征负荷周期的主要特征包括日作息时间(高峰时段);

周典型负荷周期曲线能表征负荷周期的主要特征包括休息日时间(双休或单休日);

年负荷周期曲线能表征负荷周期的主要特征包括年用电周期(高峰季节)、年基础负荷(年基础负荷占比)及节假日。

经过对三种负荷曲线进行分析,发现同一行业内休息日也不一定统一,所以最终选定典型日和年负荷曲线作为本次研究聚类的基础数据。

2.3 异常数据处理

由于电力信息采集系统不可避免的会存在一些不良数据,包括数据失真和数据缺失,导致台区负荷数据质量存在一定问题,这些问题将导致聚类结果不准确,所以需要对不良数据做相应的处理。

异常数据处理主要需要处理两种数据:明显过大的负荷值和缺失负荷值。

由于后续需要对曲线进行标准化处理,曲线中存在过大的异常值会对曲线形状造成很大的影响;个别的缺失值也会导致聚类结果出现偏差[19]。

对于明显过大的负荷异常值(超过容量2倍)和个别的缺失值,程序发现后,采用改时刻前后的负荷值的平均值替换该值。对于连续的缺失值或负荷0值,可能是实际的运行状态,则不对其进行处理。

2.4 数据标准化

由于不同台区容量不同,其负荷的分布区间也各不相同,如果直接对其进行聚类,会导致台区以负荷值的大小进行分类,而不能反映其负荷曲线的特征,需要先对曲线进行标准化[20-22]。

标准化公式如下:

Si=Pi/max(P)

(3)

式中:Si为标准化结果值;Pi为负荷原始值;max(P)为当前负荷曲线最大值。

2.5 k值确定

本次聚类采用的是k-means法对台区负荷曲线进行聚类,其中k值的确定是算法的重点。但由于不同类型的台区内部负荷曲线规律数量不同,且存在一些未被筛选出的异常数据导致曲线规律更为复杂,k值的确定成为难题。

我们等间距取多个k值进行聚类,并对每次聚类结果的平均误差进行计算,当k值的增加对平均误差影响不大时(增长率<2%),则认定当前k值是适当的。

3 实例分析

3.1 数据来源

深圳大数据平台台区表共有在运台区89 420个(截至2019年10月16日),成功匹配到用电类别和负荷数据的台区共61 352个,其中公变台区13 713个,专变台区47 649个。

下面使用两级分类方法对这些台区进行分类。

3.2 一级分类结果

使用2.1中的台区分类规则,对深圳大数据平台中的台区进行分类,结果如下。

工业用电:包括以“大工业用电”和“普通工业”为主导的专变台区,共20 717个;

居民生活用电:包括公变台区和以“居民生活”为主导的专变台区,共17 591个;

一般工商业用电:包括以“一般工商业及其他”和“农业生产”为主导的专变台区,共11 443个;

商业用电:包括以“商业”和“非工业”为主导的专变台区,共11 610个。

由于台区用电类别属性与其行业分类并非严格对应关系,所以上述分类规则无法保证100%将各行业类别的台区分到一起,将不同行业类别的台区分开,会有少数台区分到不属于自己的行业类别中去。后续还需要根据周期性负荷特征对台区的行业类别进行进一步的识别。

3.3 二级分类

一级分类后,居民生活台区有17 591个,排除部分数据量过少无法形成日年负荷曲线的台区,剩余居民生活类台区15 980个,对其进行日年最大负荷聚类,当k=100时,平均误差已经趋于稳定,作为示例研究,为便于分析,本论文选用100作为k值取值,结果如下。

表3 居民生活台区典型日年(最大)负荷行业聚类特征(汇总)

居民生活类台区主要包括城中村、住宅小区和学校三类用户,其中住宅小区用电性质比较单一;学校分为走读和住宿两类,走读的学校特征比较明显,住宿类学校由于混合了宿舍的负荷,用电性质与居住类台区接近,有可能与居住类台区分到一起;城中村台区虽然以居住负荷为主,但也混合了很多其他类型的负荷,负荷特性比较复杂。

3.4 居住类台区聚类结果

居住类台区的聚类结果如图4所示,其负荷特征为:

(1)日作息时间:晚上高、夜间5点最低。

(2)日基础负荷占比:有相当的水平,在25~60%之间。

(3)年季节周期:居住类的典型季节特征是夏季高,春节最低,特征明显。

(4)年基础负荷占比:差异很大,在10~60%之间。

(5)节假日:国庆、春节两个长假特征非常明显。

3.5 学校类台区聚类结果

学校类台区的聚类结果如图5所示,其负荷特征为:

(1)日作息时间:白天高、夜间3点最低。

(2)日基础负荷占比:水平相对低一些,在20~45%之间。

(3)年季节周期:学校类的典型季节特征是夏季高,春节最低,特征明显。

(4)年基础负荷占比:差异很大,在10~60%之间。

(5)节假日:国庆、春节两个长假特征非常明显,大部分学校暑假特征也很明显。

在一级分类的前提下进行聚类分析,学校台区能够凭借暑假负荷特征从居民生活台区中独立出来,形成单独的类别,说明本台区二级分类方法是可行的。

3.6 行业负荷特征(学校)

随机选取的349所学校台区在100个行业聚类中占有了37个(37%),分布较为广泛,其中,形成了8类以学校为主导类型的分类,但也有40%多的学校台区分布在了居住类中。其中,学校主导型199个(57%),居住主导型144个(41.3%),公共服务主导型5个(1.4%),商住综合型3个(0.9%)。

以下选取包含学校数据较多的其中37类中的各一个学校实例,并以学校是否住宿制特征为焦点进行具体分析。

3.7 走读学校

(1)分类:67-65:学校主导居住为辅 学校数量:23个。

(2)实例名称:深圳市龙岗区龙鹏小学;

3.8 住宿学校

(1)分类:35-58:学校主导居住为辅 学校数量:27个。

(2)实例名称:深圳市笋岗中学;

单独对居民生活用电台区进行聚类后,“学校主导”类台区能够形成独立分类,且行业负荷特征明显(住宿特征),证明在对台区进行日年最大负荷聚类前,根据台区的用电类别进行“一级分类”是必要的选择。

4 结语

基于聚类分析方法,对于投运超过1年的台区,依据日年最大负荷合并曲线进行聚合分类,所获得的台区行业特征分类可达到必要的精细程度。通过实例验证,以台区为对象,通过一级(对象分类)、二级(用电周期性规律)两级分类及适当的K值取值,所获得的台区行业特征分类结果已可以达到足够的细分程度,可以满足大数据环境下对台区用户进行自动分类的应用需求。

猜你喜欢
台区类别用电
用电安全
经营者(2023年10期)2023-11-02 13:24:48
用煤用电用气保障工作的通知
安全用电知识多
用电安全要注意
降低台区实时线损整治工作方法
电子制作(2017年2期)2017-05-17 03:55:22
服务类别
新校长(2016年8期)2016-01-10 06:43:59
论类别股东会
商事法论集(2014年1期)2014-06-27 01:20:42
三合一集中器作为台区线损考核表计的探讨
多功能低压台区识别设备的研制
提升台区线损正确可算率的措施与实践