孙 源,臧婷婷,姜 峰
(1.湖北大学a.数学与统计学学院;b.应用数学湖北省重点实验室,武汉430062;2.中国科学院武汉文献情报中心,武汉430071)
新一轮的电改使得电力系统从垄断走向竞争已成为必然,多家发电企业表现出了拟直接向周边大客户供电并开展售电业务的强烈意愿。国网冀北公司因此面临着优质客户减少,市场份额下降的严峻形势,售电市场空间缩小、竞争激烈,相关管理者不得不及时作出调整;最近几年环境污染甚是严重,加之冀北地区邻近首都北京,因此自然成了治污减污的重要目标。这对于以重工业为主要发展对象的冀北地区来说,限产甚至停产的要求将会严重影响电力市场的波动。
本文在这种大环境下,以保证电力系统正常运行、提高冀北公司的市场竞争力、降低公司的运行成本为目标,调研了冀北地区各行业电力客户分布及用电情况,选取冀北五地市重点行业电力大客户日负荷和电量数据,通过研究数据预处理方法,进行负荷聚类分析。
电力用户负荷聚类就是根据不同用户的不同用电曲线,将用电特征相似的用户聚到一起,对不同用电特征的用户分别进行用电特征分析。随着负荷曲线的不断复杂化,传统聚类算法肯定或多或少有些不适用的地方,相关研究者对负荷聚类方法不断地进行更新、探讨,以便根据不同环境找到合适的各种聚类模型。由于数据量较大,本文经过多种算法的对比和实际验算,最终选用计算速度较快的K-means聚类算法进行聚类,聚类结果经验证后也比较合理。
K-Means聚类又称快速聚类,是由Mac Queen于1766年提出并命名的一种方法。其思想是:对于给定的N个样本,任意挑选出K个对象,作为K个族类的初始聚类中心;接着分别计算所有其他样本到这K个中心的欧式距离,与谁越接近,就属于那个类。新的K个类形成后再重新计算每个类的聚类中心,接着重复上面的过程,计算所有样本到每个新的聚类中心的距离,与谁越接近,就属于那个类。不停地重复上述过程直到聚类中心不再改变为止,以上便是K-Means聚类算法的全过程。
本文选取冀北五地市四百多个行业中的黑色金属冶炼及压延工艺、黑色金属矿采、非金属矿物和金属制品四个重点行业的每天96个点的日负荷数据进行重点分析,负荷数据来自冀北电网公司数据库。其中黑色金属冶炼及压延工艺的数据量为284053条,黑色金属矿采数据量为1950430条,非金属矿物数据量为2620129条,金属制品数据量为3359569条。
选取的每天96个点的负荷数据中有缺失的部分,需要进行填补修正。对于缺失值的处理已有众多学者进行了研究,本次缺失值的填补针对不同的情况采用不同的方法:
(1)删除表中无效记录
因为本次所选的负荷值是正向有功负荷,所以表中数据应该是大于等于零的。首先删除表中含有负值的记录;其次为了使得聚类结果有代表性,再删除表中全为0的记录;最后删除表中出现极大值、极小值等异常值的记录,删除完数据后得到的数据即为需要进行聚类分析的目标用户。
(2)删除连续缺失太多的数据
每天的负荷值有96个点,经过多次尝试认为每天连续缺失超过30个负荷值即算缺失过多。删掉含有空缺值较多的一些记录,是因为表中有用字段对应的数据缺失值过多时,填补等方法将不能起到相应作用,且无法保证填补数据的有效性,此时将其删掉,以减小后续计算时的误差。
(3)末段缺失值处理
由于缺失值的处理是对历史数据进行补齐,且每个用户的用电行为是呈现一定的规律性的,所以可根据某一负荷点数据前后的日相同负荷点数据,用线性插值法来补齐数据。
(4)单个数据缺失
此种情况下比较好处理,用前后负荷的均值来代替即可。
(5)多个数据缺失
在出现多个负荷值缺失时,尤其是连续多个值缺失,以上填补方法会受到限制,此时本文将采用均值填补法,将96点数据中有缺失值的地方,根据缺失数据的前条记录和后条记录相应位置的值进行均值计算后得到填补数据。又因为负荷数据受到外界天气、重大事件等影响因素较大,在填补较多的负荷数据时,为了减小误差,还应结合人为经验,对负荷值进行修正。
(6)数据归一化
因为不同用户的负荷大小相差甚远,所以为了更好地将用电行为相似的用户聚到一起,需要对原始数据进行无量纲化处理,再进行分析。为了确保本数据训练的有效性,需对电力负荷数据进行归一化处理。处理方法如下:
该方法可实现对原始数据的等比例伸缩,其中X′为归一化后的值,X为原始数据,分别为原始数据集的最大值和最小值。
数据经过上述的缺失值处理和归一化后即可进行聚类分析。因聚类结果有大量统计图表,为了展示方便,本文只选取黑色金属矿采行业的典型聚类图。黑色金属矿采行业主要包括铁矿采选和其它黑色金属矿采,目前冀北黑色金属矿采业用户共7861户。在冀北五地市中,唐山的用户最多,共计5003个,合同容量占比约0.434;承德的用户其次,共计1430个,合同容量占比约0.386;张家口的用户第三,共842个,合同容量占比约0.065;秦皇岛的用户第四,共计584个,合同容量占比约0.113;廊坊的用户第五,共计2个,合同容量占比不足0.01。图1便是黑色金属矿采行业的用户日负荷特性聚类结果,聚类数为10,展示的是每类的聚类中心曲线(其中横坐标是每天96点的负荷取值时间)。
图1(a)曲线很显然为连续生产类型,负荷率都在80%以上,其年最高负荷率为83%,生产时间为连续24小时,日平均负荷水平约为83%。
图1(b)曲线为白天生产类型,其年最高负荷率为60%,生产时间从8:00至18:00,日平均负荷水平约为35%。
图1(c)曲线为夜间生产类型,即避峰生产。其年最高负荷率为60%,生产时间从23:00至次日8:00,日平均负荷水平约为32%。
图1(d)曲线与图1(b)曲线2有相似的地方,都为白天生产类型,生产时间都从8:00至18:00,但也有区别,其年最高负荷率32%,日平均负荷水平约为19%,均低于第二类。
图1(e)曲线为不生产类型,其年最高负荷率仅为9%,日平均负荷水平约为8%,并没有达到生产所需负荷水平。
图1(f)曲线与图1(a)曲线都为连续生产类型,其年最高负荷率为59%,生产时间为连续24小时,日平均负荷水平约为54%,负荷率均低于第一类,说明此类用户比第一类用户小。
图1(g)曲线为半夜生产类型,其年最高负荷率为73%,生产时间从23:00至次日20:00,日平均负荷水平约为42%。
图1(h)曲线为典型的避峰生产类型,在高峰期呈现较低负荷率,低峰期有较高负荷率。其年最高负荷率为62%,生产时间从20:00至次日8:00,日平均负荷水平约为36%。
图1 聚类中心曲线
图1(i)曲线也是一种连续生产类型用户,与其他连续生产用户不同的依然是负荷率大小的区别。其年最高负荷率为51%,生产时间为连续24小时,日平均负荷水平约为48%。
图1(j)曲线的夜间负荷率明显降低,所以为白天生产类型,其年最高负荷率为70%,生产时间从8:00至24:00,日平均负荷水平约为40%。
以上介绍的是几种用户的聚类中心图,概括起来大体分为连续生产型、白天生产型和避峰生产型,接下来展示这三种典型用户的聚类图,如图2至图4所示。
图2 连续生产类型
图3 避峰生产类型
图4 白天生产类型
以上便是黑色金属矿采行业的聚类结果展示,为了验证结果的有效性,本文利用SSE、CHI、DBI等指标做了检验,确定最佳聚类数为10。
根据本文聚类的结果可以在电价营销中针对相同类型的电力用户进行削峰填谷的操作。通过对于工业用户的负荷曲线进行分析,可以获取到对于地区及行业有明显峰谷生产行为的用户进行电价优惠,促进用户保持这种稳定的避峰生产行为。如在黑色冶金及压延工艺中的铁合金冶炼行业,其用户多为避峰生产及夜间生产类型。聚类结果可以很明确地显示各种用户的用电行为,因此有助于电网公司合理供配电及管理者制定合理的调控电价政策。聚类结果还可以用在基于用户经济效益的电费预警中,通过对冀北地区黑色金属矿采行业整体用电情况,从行业整体负荷情况入手,参考存在用电异常用户的整体情况分析来看,经济效益差的用户大多与行业整体负荷趋势不同,且用户还通常伴随多种生产模式,再一个就是经济效益较差的用户其负荷率一般较低。依照这几种分析结果,可以有效地判定哪些用户是欠费高风险用户,可以出台相应的电价政策以减少损失。
参考文献:
[1]Feyyad U M.Data Mining and Knowledge Discovery:Making Sense Out of Data[J].IEEE Expert Intelligent Systems&Their Applications,1996,11(5).
[2]Li P Q,Li X R,Chen H H,et al.Characteristics Classification and Synthesis of Power Load Based on Fuzzy Clustering[J].Proceedings of the Csee,2005.
[3]冯晓蒲,张铁峰.四种聚类方法之比较[J].微型机与应用,2010,29(16).
[4]王春雷,梁小放,章坚民等.基于用电采集系统的负荷特性曲线聚类分析[J].浙江电力,2014,(7).
[5]李培强,李欣然,陈辉华等.基于模糊聚类的电力负荷特性的分类与综合[J].中国电机工程学报,2005,25(24).
[6]赵文清,龚亚强.基于Kernel K-means的负荷曲线聚类[J].电力自动化设备,2016,36(6).
[7]王晨力.基于蚁群优化算法的电力负荷聚类和输电线故障识别研究[D].天津:天津大学硕士论文,2005.
[8]彭小圣,邓迪元,程时杰等.面向智能电网应用的电力大数据关键技术[J].中国电机工程学报,2015,35(3).
[9]刘建华,王进,孟颖等.基于模拟退火的粗糙集K均值电力负荷聚类分析[J].现代电力,2012,29(1).
[10]冯晓蒲.基于实际负荷曲线的电力用户分类技术研究[D].北京:华北电力大学硕士论文,2011.