魏 伟, 李永胜, 程 逍, 孙立时, 朵向阳, 吴卓青
(1. 郑州大学 能源环境经济研究中心, 郑州 450001; 2. 青海省电力公司 海东供电公司, 青海 海东 810600; 3. 国家电网有限公司 国家电力调度控制中心, 北京 100031; 4. 大连理工大学 系统工程研究所, 辽宁 大连 116024)
近年来,随着能源革命的深入推进,多行业在能源消费理念和消费方式方面发生了深刻变化,使得用能和新兴负荷逐年增加[1].电网需要响应市场需求提供多样化、个性化和互动化服务,与此同时还面临频率快速下跌、电能难以存储和备用容量严重不足的问题[2].然而传统电源调度提升空间越来越小,新兴能源特性决定其无法为系统提供稳定的备用容量,但用户侧存在大量柔性负荷可供调度[3].
当前对于负荷特性的研究主要从两方面展开,分别是用户负荷特性的基本特点研究和电力用户分类研究.在用户负荷特性的基本特点研究方面,主要从时间、季节、政策等角度分析电力负荷特性,但尚未形成针对各类电力用户负荷特性开展的系统性分析方法[4-5].而在电力用户分类研究方面,主要包括三大类:基于距离的聚类算法、基于密度的聚类方法以及基于互连性的聚类算法.Li等[6]提出一种可以对智能电表端大数据进行精确处理的多分辨率聚类算法;陈建枫等[7]提出改进聚类算法,通过对需求侧负荷曲线分析获得数个典型用电特性曲线,确定负荷分类用以代替一般用户电力特性分析;袁兆祥等[8]提出一种基于DBSCAN聚类算法的电力工程完整性分析方法,对于提高电力工程数据的完整性及分析用户的用电情况均具有较好的参考价值;苏适等[9]提出了一种基于密度空间聚类和引力搜索算法的用户用电模式分类模型;胡昌斌等[10]提出了使用模糊C均值聚类将电网用户的用电数据聚类为不同的用电模式.
目前已有研究采用多聚类融合的方法识别用电负荷模式,如林锦波[11]提出了基于聚类融合的负荷曲线聚类方法;Wang等[12]提出一种基于特征指标降维和改进熵权法的电力负荷模式识别解决方案,在运行效率和分类准确率上具有一定优势.然而聚类融合方法是在已知采样数据基础上进行的多视角模型融合研究,忽略了采样数据本身各个视角中的内部度量信息,难以克服不同特征的量纲差异及分布不一致问题.
本文基于采样数据不同视角,从数据层融合角度提出了基于多视角网络融合学习的典型用电负荷模式挖掘方法,并通过两类不同行业的实际用电负荷数据论证了该方法的稳定性,识别了最具代表性用电负荷模式.
本研究中,典型用电负荷模式挖掘研究流程共包含5个关键过程,如图1所示.
1) 根据电网用户基本信息及用户用电量数据,按照每周7天进行多视角数据获取和预处理;
2) 根据3个层次数据,选择合适的度量方法计算出配对的相似度矩阵;
3) 根据3个相似度矩阵的最近邻信息,使用多视角相似度网络融合方法计算相似度矩阵;
4) 基于多视角融合相似度矩阵分别进行每周7天的谱聚类分析;
5) 根据用户每周7天的聚类结果,生成用户间的共现矩阵,识别用户典型负荷模式.
当前用电负荷采集点采样频率为每日96次,数据粒度较为细致,单次采样数值变化不大,导致聚类得到的各个簇的轮廓不明显.若每日仅采集4次,数据粒度过大,导致聚类得到的各个簇存在较大差异.本文兼顾多粒度视角,根据96次采样数据合并出每日24次采样数据及每日4次采样数据.
本文分别采集教育行业与房地产行业从2017年1月1日至2017年1月31日连续一个月的用电数据.以每日96次采样数据为例,采样数据周期按照周一到周日的顺序,其天数分别表示为:n1,n2,…,n7.按照周一到周日,将用户采样时间周期内的数据划分为7个数据集data961,data962,…,data967.
合并后的全月用电采样数据表示为
Dp={data961,data962,…,data967}
同理将每类24次采样数据和每类4次采样数据合并后,分别表示为Dh与Ds.
本文采用欧式距离度量用户i采样数据xi和用户j采样数据xj之间的距离,即
(1)
然后采用归一化指数相似度方法计算用户i和用户j之间的相似度,即
(2)
式中:μ为一个经验值为(0.3,0.8)的超参数,通常选取0.5;εi,j为缩放比例参数.最终输出3个采样视角的相似度矩阵,分别为Wp,Wh和Ws.
在对多个相似度矩阵进行融合时,可以使用线性权重加权法或者非线性融合方法.然而前者对于权重的选择依赖专家经验和大量实验,而非线性融合方法在集成不同视角相似度网络上具备优势,对噪声和数据异质性具有更好的鲁棒性[13-15],故本文采用多视角相似度网络融合方法将3个层次的相似度网络融合成一个网络.
将n个用户之间的相似网络定义为一个图G=(V,E),其中顶点V表示用户,边E表示用户之间的相似关系.相似度网络融合方法的步骤为:
(3)
2) 计算k个最相似用户的相似度.使用Ni表示用户i在图G中的邻居个数,采用K近邻方法计算用户i与其k个最近邻用户间的相似度,并且保证非相邻点之间的相似度为0.用户i与用户j的用电行为融合相似度S(i,j)为
(4)
(5)
谱聚类是将全部样本点看成网络中的结点,这些点可以用边进行连接,通过对所有结点组成的图进行切图,使得不同子图间的边权之和较低,子图内的边权之和较高,从而达到聚类目的.谱聚类是基于图的聚类,故本文使用谱聚类算法来挖掘用电负荷模式.
聚类方法的评价指标包括外部评价和内部评价.外部评价是指将聚类结果与带有真实类别标签的数据进行比较;内部评价则是在真实类别标签数据未知情况下的一种评估指标,常见的评价指标为内平方和、外平方和与轮廓评分.本文使用综合指标和轮廓评分对聚类结果进行评价,综合指标计算公式为
(6)
式中:WSS为相同聚类内部样本之间的不相似度,该值越小越好;BSS为不同聚类间样本的不相似度,该值越大越好.综合指标Φ越接近于1,表示聚类效果越好.轮廓评分s(i)用以衡量聚类的一致性,数值在[-1,1]之间,越接近于1越好,其计算公式为
(7)
式中:a(i)为样本i的簇内不相似度;b(i)为样本i的簇间不相似度.
按照周一到周日7类分别计算用户的融合相似度矩阵,然后使用谱聚类得到所有用户7类的聚类结果,即第1类(周一)的聚类结果为C11,C12,…,C1K1,第2类(周二)的聚类结果为C11,C12,…,C1K2,其中K1和K2分别为周一和周二聚类后簇的数目.用户i和j在一周内聚类结果相同的次数可以采用共现度进行度量,形式化定义为
(8)
(9)
式中,K′为周一到周日的聚类后簇数目.
本文假定两个用户在一周中如果有4 d以上时间同属于一个簇,则认为其具有相似的典型用电负荷模式,即CoP(i,j)≥4/7,然后对所有的用户进一步划分,并将每一类模式中入度最高的用户作为代表进行典型用电负荷模式分析.
本文采集了江苏省59家教育机构和41家房地产机构2017年1月份的用电负荷数据,以每日96次进行数据采样.其中用户基本信息包括:用户ID、用户名称、供电机构、电压等级、用户行业类别、用户用电目的、用户用电量、专变数量、专变总供电量以及经纬度等数据.
教育机构容量指标中,最大值为235 880 kVA,最小值为5 260 kVA,平均值为29 853 kVA;专变数量指标中,最大值为63,最小值为2,平均值为13.7;专变总供电量指标中,最大值为71 260 kVA,最小值为2 630 kVA,平均值为14 593 kVA.
房地产机构用户容量指标中,最大值为54 600 kVA,最小值为10 000 kVA,平均值为18 349 kVA;专变数量指标中,最大值为20,最小值为2,平均值为6.7;专变总供电量指标中,最大值为26 517 kVA,最小值为2 060 kVA,平均值为9 307.4 kVA.
对单视角96次、24次、4次采样以及融合多视角相似度网络得到相似度矩阵使用谱聚类算法进行簇的划分.本文获得了基于Wp,Wh,Ws和Pall与谱聚类算法相结合的聚类结果,以综合指标和轮廓评分作为评价指标,其结果如表1所示.由表1可知:实验中多视角融合聚类效果优于单视角聚类,因为使用多视角相似度网络融合的方法能够集成多视角互补信息,提升用电用户的聚类效果;轮廓系数数值均大于0.7,表明多视角融合聚类的鲁棒性优于单视角聚类.
表1 单视角与多视角融合的谱聚类评价结果Tab.1 Spectral clustering evaluation results based on fusion of single-view and multi-view
根据多视角相似度网络融合的相似度矩阵谱聚类结果,计算各个采样点在一周内被划分为同一个簇的共现矩阵.本文定义:若一周中2个采样点有4天及以上同时被划分到同一个簇内,则2个采样点具有较强的关联性.以59个教育机构为结点,若2个教育机构之间具有较强关联性则使用边相连,以教育机构间的共现值作为边权,使用Gephi软件绘制基于共现矩阵的关联关系图.考虑到数据中同一教育机构具有不同的用电类别,其类别分别为教学教育用电和非居民照明,因此图形的结点以“教育机构_用电类型”表示.
划分后教育机构拥有5类不同的用电负荷模式,房地产机构则拥有3类不同的用电模式.入度越大的点表示该点与其他点的联系越紧密,故选择各个用电负荷模式中入度最高的结点作为代表点.教育机构的代表点为:江苏省省级机关房屋建设中心、南京大学、东南大学、南京医科大学和中国人民解放军陆军工程大学.房地产机构的代表点为:江苏长江物业管理公司、南京天悦置业投资顾问公司和江苏运通房地产开发有限公司.各个代表点的用电负荷曲线如图2所示.
图2 教育机构与房地产机构典型用电负荷曲线Fig.2 Typical power load curves of education and real estate institutions
利用图2中教育机构5个代表点的用电负荷曲线探究用电负荷趋势特征,图2a~e展示了以每日采样24次的5家代表性教育机构周一到周日的用电负荷曲线.5家代表性教育机构的用电负荷曲线趋势基本一致,在12点和18点时间段附近出现两次用电高峰,验证了本研究识别的教育机构典型用电负荷模式具有较强的稳定性,与教育机构的作息时间大致相同.差异性分析:5家机构中除南京大学用电负荷均在周三达到峰值.而东南大学和南京大学的用电峰值和谷值差异明显,较容易区分.南京医科大学自12点后到第二天凌晨的用电量较为均衡,波动较小,可能与其医科类院校性质有关.中国人民解放军大学自晚上17点后用电量下降较快,可能与其晚上加训、用电设备较少有关.江苏省省级机关房屋建设中心的用电规律与行政事业单位较为类似.
图2f~h展示了以每日采样24次的3家代表性房地产机构周一到周日的用电负荷曲线.从周一到周日,3家代表性房地产机构的用电负荷曲线趋势基本一致,且工作日用电量均高于休息日用电量,且周二到周四的用电量为一周中最高,注册资本多,规模较大的公司用电峰值更高.
研究结果表明,对于教育机构,供电机构可以根据院校性质采取错峰供电策略以缓解系统备用容量不足问题。针对985类高校可以根据其峰值和谷值的差异性进行供电,针对军事院校晚上可以给予较少的供电,针对医疗性质院校需要持续稳定供电,针对行政事业机关则按照行政事业机关的办公规律供电即可.对于房地产机构,可以根据公司的注册资本和规模大小对其进行分级,进行差异化供电.
本文以多视角用电负荷采样数据作为研究对象,提出了一种基于多视角相似度网络融合的典型用电负荷模式挖掘方法.针对江苏省59家教育机构和41家房地产机构的用电负荷数据进行实验,结果表明:以簇内误差平方和为聚类效果的评价指标,多视角融合的聚类结果优于各单视角的聚类结果.通过对各个典型机构的基本信息和用电负荷模式趋势曲线分析,找出了各典型机构用电负荷的影响因素。对两大行业进行稳定性与差异性分析后,为电网公司采用错峰供电、削峰填谷及采取各种节能技术和措施来缓解系统备用容量不足问题提出决策依据.在此基础上仍可以继续研究,例如扩大收集的用电负荷数据时间跨度,探究该结论是否会随着季节改变而发生变化,为电网公司在不同季节针对不同行业机构供电采取动态措施提供参考.