祁梦雪,梅林珏昊,李知艺,辛焕海
(浙江大学电气工程学院,浙江省 杭州市 310027)
精细化的负荷划分结果将为精准负荷调控奠定基础,而负荷曲线聚类是主流的负荷划分思路[1-3]。按照工、商、民、农等行业性质对配电网末梢负荷进行的传统类别划分,往往忽略电力用户负荷波动态势的复杂性,缺乏对电力用户用电行为的个性化分析,难以满足负荷调控的多样化、灵活性需求[4-6]。事实上,负荷特性受到气候、经济、节假日等多个维度的因素影响,呈现出短期波动性大的特点。即使是同一个用户,其电力消费模式也可能在连续几日内发生很大变化。因此,增加负荷分析对象的时间尺度,可避免负荷波动规律分析的偶然性。
主流的聚类研究大致可以分为基于距离的方法[7-12]、自组织映射方法[13]以及概率生成模型[14]三类,但这些方法在实现上均存在参数调节问题。少量文献也考虑了负荷波动的影响。文献[15]提出基于移动形状的鲁棒模糊K 模态(MS-RFKM)聚类方法,但难以平衡选取的符号化区间长度与聚类效果的关系;文献[16]采用动态时间规整方法识别电力曲线的变化趋势,文献[17]提出两阶段负荷聚类方法,降低了聚类算法的特征空间维度,但聚类效果都受到数据维度的限制。以上问题出现的根本原因在于,在高维数据情况下,数据点间的距离倾向于彼此接近,造成数据点之间的距离关系弱化[18]。因此,负荷曲线聚类研究经常局限于单日负荷曲线的分析,导致聚类结果的准确度和鲁棒性不足,难以准确把握用户的周期性电力消费特征。
网络科学为非线性时间序列的分析提供了全新的视角[19]。通过一定的映射方法[20],将初始时间序列转换为一个或多个网络,借助网络理论描述时间序列的动态行为,有益于深化对系统状态的理解[21]。可视图(visibility graph,VG)[22-23]及水平可视图(horizontal visibility graph,HVG)[24]方法是将非线性时间序列转换为网络的重要手段之一,在描述金融市场的长期价格动态特性、不确定性、复杂性等方面有着广泛的应用,所分析的对象也不受限于时间序列的维度。这种映射方法也为从网络科学的角度研究多日负荷曲线架设了桥梁。文献[25]引入网络中的“模体”工具实现不同行业负荷曲线特性的挖掘,是网络方法在分析电力负荷曲线中应用的一次尝试。在面对多个分析对象时,文献[26]构建了多层网络,并从量子理论的角度,对多层网络结构进行约简。由上述分析可知,网络分析方法克服了传统时间序列分析方法难以应对的高维数据分析问题,可实现时间序列的动态行为分析,这对分析电力用户的用电行为具有很好的借鉴意义。
针对当前聚类方法存在的参数调节、难以分析高维度数据、可解释性不强等问题,本文提出一种基于网络结构约简理念的多日负荷曲线聚类新思路。通过将配电网末梢负荷曲线从时间域映射到网络域,实现了多日曲线聚类向多层网络冗余结构约简的等价转化。相关分析过程既能避免繁多的参数调节问题,又能增强聚类结果的可解释性,为后续负荷高效调控研究提供了理论与方法支撑。
HVG 方法[27]根据特定的几何标准将时间序列映射到图形中,以便利用网络理论来挖掘时间序列的隐含信息。已有研究表明,通过HVG 方法转换成的网络,仍能保持时间序列的固有特征,且可以捕获 生 成 序 列 过 程 的 动 态 特 征[28]。HVG 是 对VG 方法的几何简化,它将时间序列中的每个点看作网络中的一个节点,节点间是否存在连边则是由时间序列中对应的采样点能否在幅值水平上无阻碍地互相看见决定。图1 展示了负荷时间序列通过HVG 方法从时间域转换到网络域的过程。具体的映射方法过程参见附录A。所形成的网络可以表示为G=(V,E,A),其中V为网络中的节点,E为连边,A为网络的邻接矩阵。另外,负荷曲线是由有限个负荷数据采样点构成的,故本文中的负荷曲线与负荷时间序列是同一种概念。典型周负荷曲线如附录A图A1 所示,可以发现连续多日内负荷存在着波动幅度、波动频次、波峰出现位置以及波动周期上的明显差异,而周间负荷波动则在整体上差异较小。因此,本文以周作为负荷分析的时间尺度。在多日负荷曲线聚类分析中,为了不使HVG 方法在应用的过程中放大局部的微小波动,本文在时间序列向网络映射时忽略跨过采样间隔不足整体采样数据量1%(本文为4)的连边。附录A 图A2 展示了典型周居民负荷曲线(每天48 个采样点,共336 个采样点)转化为网络的示意图。在这个过程中,不会出现传统HVG 下相邻采样点天然有连边的结果,所形成的网络也可能是非连通图。
图1 HVG 方法示意图Fig.1 Schematic diagram of HVG method
多层网络[29]在反映网络层间节点关系的同时也能反映网络层内节点的关系。由于负荷曲线分析对象的数据采样时间段和采样频率一致,本文将时间作为网络之间的关联点,建立网络相邻层之间的联系。在应用HVG 方法将M个电力用户一周的负荷时间序列转换成网络后,对时刻点相同的层间节点进行连接,形成M维多层负荷网络模型Λ={A(1),A(2),…,A(M)}。
在负荷曲线聚类问题中,若时间序列过短,就会因电力消费行为在宏观消费周期内的随机性而降低聚类结果的鲁棒性与可解释性;若时间序列长度变大,将面临高维时间序列带来的聚类效率问题,依赖参数调节的聚类方法难以确保结果的准确性。
目前已出现大量将负荷时间序列转换为伴生网络的研究[27-30],在拓宽网络理论适用范围的同时,也为负荷时间序列分析提供了全新的视角和工具。负荷曲线聚类问题实质上是一种多维信息的去冗余过程,即在最大程度上保留系统原有信息的基础上,最小化聚类内部差异性,最大化聚类外部的区别度。与这个过程相对应的是多层网络结构约简的过程。具体来说,在负荷时间序列转换为网络后,根据不同电力用户之间的时间关联性,可建立与之相关的多层伴生网络。因某些用户的用电行为存在相似性,反映在网络中即为结构冗余。将结构相似的网络层进行聚合,简化多层伴生网络的各层网络结构和网络层数,即得到紧凑的聚合层内部结构以及各个极具区分度的聚合后的网络层。由于多层伴生网络中的各层网络代表的是各个用户的周负荷时间序列的波动情况,简化后的多层伴生网络中的聚合层表征了有着相似负荷波动特性的用户集合,聚合层个数则表征负荷曲线聚类的类别数。由此,得到负荷曲线聚类结果。多层伴生网络约简与负荷曲线聚类对应过程演示图见附录A 图A3。针对聚类结果,从负荷波动相对大小、波动频次、波动周期等方面实现多日负荷曲线的波动态势分析,进而实现不同电力用户的调度潜力挖掘。
图2 为基于网络结构约简理念的多日负荷曲线聚类分析框架,旨在从多层伴生网络结构的角度出发,挖掘连续多日负荷波动态势,并在此基础上实现电力用户的集群划分。具体来说,该分析框架主要包括3 个部分:
图2 基于网络结构约简的多日负荷曲线聚类分析框架Fig.2 Analysis framework for multi-day load curve clustering based on structural reducibility of networks
1)生成负荷时间序列多层伴生网络:采用HVG方法,建立多个用户的负荷时间序列多层伴生网络;
2)多层网络结构约简:应用信息熵理论,量化多层伴生网络中网络层间的差异,对相似的网络进行聚合直到多层网络聚合为一层,并评估历次聚合后的多层伴生网络的结构冗余度;
3)多日负荷曲线聚类结果解读:选择最优层聚合结果作为最终的负荷分类结果,对聚类结果进行波动态势以及社会属性分析。
将多日负荷曲线作为对象,采用多层伴生网络结构约简的方法进行电力用户负荷波动态势研究。一方面,可以在依据行业性质的宏观分类下,进一步细化,针对性分析具体用户的负荷波动情况,将其波动特性与社会属性结合起来,实现更为全面的分析;另一方面,多日负荷曲线聚类分析的结果可以为电网的需求侧响应、电网规划和电力市场商业报价等方面提供参考。
冯诺依曼熵[26]是香农熵在量子力学领域的扩展,也可用于表征图,作为描述负荷时间序列对应的伴生网络的状态参数。单层伴生网络的状态具体表现为网络中边的数量,而多层伴生网络的状态则体现为网络的层数。一般而言,冯诺依曼熵值越大,状态就越复杂。
对给定的单层负荷时间序列的伴生网络G=(V,E,A),其中,节点个数N=|V|,连边数K=|E|,邻接矩阵A=(aij),G的冯诺依曼熵定义如下:
式中:Tr(·)表示矩阵的迹;LG=c×(D-A)为与图关联的组合拉普拉斯矩阵,其中c=为节点度的对角矩阵。形式上,LG具有密度矩阵的所有性质,根据LG的特征值集合{λ1,λ2,…,λN},hA可以写成如下形式:
负荷时间序列的多层伴生网络冯诺依曼熵H(Λ)定义为其M层网络的冯诺依曼熵之和,即
式中:上标(α)表示α层对应的变量。
多层伴生网络Λ={A(1),A(2),…,A(M)}的冯诺依曼熵值由网络层数M和每层的具体结构决定。而在多层伴生网络结构约简的过程中,存在网络聚合这一过程,必然会导致冯诺依曼熵值的变化。为了衡量层间聚合后的多层伴生网络的结构冗余度,应用相对熵的概念进行网络聚合效果的量化分析。
若M层网络Λ的所有层聚合为一层,将此时的全层聚合网络记为A,则其邻接矩阵为A=A(1)+A(2)+…+A(M),记hA为A的冯诺依曼熵。更一般地,对多层伴生网络Λ的某些层聚合后,得到一个层数约简后的X层网络Φ:
式中:邻接矩阵C(α)(α=1,2,…,X)为多层伴生网络Λ的一个邻接矩阵或者是多个邻接矩阵之和,简化后多层网络Φ的层均熵如式(5)所示。
q(Φ)越大,简化后的多层网络Φ与全聚合网络A的差异越大。一个极端的例子就是当Φ的所有层都相同时,q(Φ)=0,这意味着简化后的网络Φ与A是完全等效的。此时,需要放弃具有多层结构的简化网络Φ而考虑结构更为精简的全聚合网络A。
有了相对熵对负荷时间序列的多层伴生网络结构冗余度的量化,多层伴生网络约简问题就转换为寻找最佳相对熵值,这是一个典型的多项式复杂程度的非确定性(NP)难题。为解决这个问题,采用詹森-香农(Jensen-Shannon,J-S)距离来量化多层伴生网络所有层对之间的相似性,选择距离最小的两层作为该次迭代时的最佳聚合层对。
J-S 距离[31]是为解决K-L 距离的非负、非对称性且不满足三角不等式等问题而被提出的,是K-L 距离的对称和平滑版本。给定两个密度矩阵ρ和σ,K-L 距离定义如下:
将μ=1/2(ρ+σ)作为这两个密度矩阵的结合物,则密度矩阵ρ和σ之间的J-S 距离DJS(ρ||σ)可以表示为:
式中:h(·)表示求冯诺依曼熵。
附录A 图A4 展示了负荷时间序列多层伴生网络结构约简的主要过程。M维负荷时间序列通过HVG 方法映射得到多层伴生网络Λ={A(1),A(2),…,A(M)}后,基于分层聚类的思想,利用图的冯诺依曼熵的概念,使用J-S 距离来量化多层伴生网络所有层对之间的相似性,形成多层伴生网络层对间的J-S 距离矩阵。将距离最小的层对进行聚合,得到一个新的多层网络Φ,计算并记录多层网络Φ的相对熵。如果此时多层网络Φ的层数不为1,即多层网络Λ还未聚合成一层网络,则重复上述操作,直到多层网络Λ聚合成一个网络。一般选择各次迭代中相对熵值为全局最大的情况作为最佳层网络聚合结果。
需要说明的是,在层间具有特定度相关性的情况下,多层伴生网络的各层会有等谱特性,使得各次迭代得到的相对熵的最大值出现在多层网络尚未进行层聚合的初始状态时。这意味着,如果将网络层进行聚合会损失部分信息。但通常情况是,在聚合一定数量的层网络之前,相对熵的大小非常接近初始状态时相对熵的大小,即聚合这些层网络损失的信息量不大。在进一步网络层聚合时,才会出现相对熵值的大幅度降低。因此,在考虑损失较少信息的同时,获得历次相对熵值斜率绝对值最大的聚合情况,能在可接受的误差范围内获得最合理的网络聚合结果。
为了更好地量化和比较本文方法与其他方法的聚类效果,这里提出了簇内波动相似性指数和簇间波动差异性指数分别用以衡量聚类后负荷曲线簇内波动相似度以及簇间波动差异度。
对于一个具有M条用户负荷曲线且每条负荷曲 线 有N个 数 据 采 样 点 的 样 本l={xi}i=1,2,…,N,在负荷曲线聚类后得到ξ组负荷曲线簇,{αs}s=1,2,…,ξ为簇s中所含的 负 荷曲线集 合,{βs}s=1,2,…,ξ为簇s中所含的负荷曲线数量。 负荷曲线m记作lm={}i=1,2,…,N,其 波 动 序 列Γm定 义 为 每 两 个 数 据 采样 点 间 的 波 动 趋 势,记 作Γm={}i=1,2,…,N-1,其中的表达式如式(9)所示。簇s的簇内负荷曲线平均波动序列为{}i=1,2,…,N-1,其中的表达式如式(10)所示。
负荷曲线簇内平均波动序列中元素的绝对值越大,反映该时刻下簇内曲线趋势的相似性越大。为了综合衡量各个负荷曲线簇内部的曲线相似程度,以簇内负荷曲线数量占样本数量的比例作为权重,以平均波动绝对值大于0.5 时刻数量衡量簇内曲线的相似程度,将这两项相乘,对每个簇的此项结果进行加和,得到簇内波动相似性指数αSI为:
式中:
αSI越大,簇内波动相似性越高。簇间波动差异性指数通过与簇内波动相似指数相类似的思路得到。首先,根据聚类后得到的ξ组负荷曲线簇构建ξ×ξ簇间差异度矩阵B:
式中:
簇间差异度矩阵B中的元素反映了不同簇间的波动性差异。簇间波动差异性指数αDI可定义为不同簇间差异度的平均值,即
αDI越大,表明不同负荷曲线簇之间的差异性越大,负荷聚类效果越好。
在开始真实数据集的算例分析前,为了说明本文方法所用到的距离量度方式与其他方法在多日负荷曲线量度效果上的差异,本节设计了4 种波动类型的测试曲线。每种波动类型中随机生成10 条加入高斯噪声的曲线样本,其中,高斯噪声分布均满足期望为0,方差为1,噪声大小为各采样点数据幅值的30%与噪声幅度的乘积,共得到40 条测试曲线样本,曲线样本编号i∈[0,39]。为了与3.2 节真实算例中的数据采样频率和数据长度相对应,这里每条曲线的采样点数量均为336,48 个采样点为一天的负荷数据采集量。4 种类型的测试曲线、曲线所对应的编号及特征如附录A 表A1 所示。
针对本文方法所用到的J-S 距离、MS-RFKM聚类算法所用到的汉明距离、K-means 算法及近邻传播(AP)聚类算法所用到的欧氏距离,分别计算这3 种距离度量方式下40 条测试曲线之间的距离,得到归一化距离分布热力图如图3 所示。
图3 3 种距离量度方式下测试曲线的归一化距离分布热力图Fig.3 Normalized distance distribution heat map of test curves under three distance measurement methods
由测试曲线的归一化距离分布热力图可以看出,沿着对角线的方向,本文方法所用到的J-S 距离将测试曲线分成了明显的4 类,对应的恰好分别是4 种类别下测试曲线所属的曲线编号,同类别测试曲线内部之间的J-S 距离很小,体现了同类别内的曲线之间的相似性;第1、2、3 类测试曲线之间的J-S距离稍大些,而第4 类测试曲线则与其他3 类测试曲线之间的距离最大,这与测试曲线特征中的“谷-峰-谷”波动模式频次是相对应的,而尖峰间的相隔距离与尖峰数则造成了测试曲线类别之间的差异。MSRFKM 聚类算法所用到的汉明距离虽然同样反映了第4 类测试曲线与第1、2、3 类测试曲线之间的差异,但是却忽略了第1、2、3 类曲线之间的差异性,不能反映尖峰数目以及尖峰间距离的差异性。K-means 算法及AP 聚类算法所用到的欧氏距离则完全不能对测试曲线进行正确分类。
本节在爱尔兰电力和天然气行业的监管机构——能源监管委员会(CER)数据集中随机选择100 个家庭住宅用户的8 月第1 周的负荷曲线数据,日采样频率为半小时,一周共计336 个采样点。将100 个家庭住宅的周负荷时间序列通过HVG 方法映射成层数为100 的多层伴生网络。在此基础上,计算各层对间的J-S 距离矩阵(部分迭代过程中的JS 距离热力图如图4(a)所示)。对J-S 距离最小的层对进行聚合,更新层间聚合所形成的新网络层的邻接矩阵,记录层聚合后的相对熵(历次迭代相对熵值如图4(b)所示),并重复上述过程直到整个多层网络完全聚合为一层。
图4 家庭住宅用户的J-S 距离热力图及相对熵折线图Fig.4 J-S distance heat maps and relative entropy line chart of residential users
第97 次迭代的相对熵值(黑色标记位置)未达到全局最大值,即多层伴生网络层间存在较强的度相关性而存在等光谱特性。而在第89 次层对聚合时折线的斜率绝对值达到最大(红色标记位置),故选择第89 次迭代结果作为最优层聚合方案。该种层聚合方式将100 个家庭住宅的周负荷曲线分成8 类,具体的归一化负荷波动图见附录A 图A5。此外,采用2.5 节的方法将本文方法、MS-RFKM 聚类算法、K-means 算法、AP 聚类算法对同一数据集的聚类结果进行分析和比较,结果见附录A 图A6。可以看出,本文方法对家庭住宅用户的负荷曲线聚类结果无论是在簇内波动相似性方面还是在簇间波动差异性方面的表现都优于其他方法。
从负荷波动态势上来看,第0 组和第4 组用户的工作日负荷波动较为规律,用电低谷时段均较长,但第4 组用户在工作日内的负荷波动伴有明显的双峰波动特性,周末负荷波动频次较高,相较于工作日差别较大,而第0 组用户的工作日和周末用电相似度较高,且有固定的波峰时段。第1 组和第3 组用户均表现为周末用电杂乱、工作日负荷波动规律且伴有规律的波峰时段,用电低谷时段较长,但第3 组用户用电时段的负荷波动频次更高。第2 组和第5 组用户的日内负荷波动伴有较为明显的双峰波动特征,用电低谷时段较短,但第2 组的双峰出现的时段较为随机,负荷波动的规律性较差,而第5 组工作日的负荷规律性较强,工作日和周末的负荷波动存在一定的差别。第6 组和第7 组用户的用电低谷时段长,第6 组用户虽整体用电规律性较差,但偶尔会出现规律的双峰时段,用电低谷时段长,第7 组用电整体规律性很差,负荷波动频次不高,且出现的用电时段较为随机。
从社会调查信息上看,采用本文方法的聚类结果呈现了承担主要收入来源的家庭成员的职业分布差异化。其中,80%的雇员的电力消费情况大多分布在第1、2、3、4、5 组用户中,而雇主在同样的分布中的比例仅为40%左右;在采取节电措施的意愿调查中,第3 组用户中约有79%的用户表达出较强的节电意识,并在不同程度上已经采取了相应的节电措施,从该类别的归一化用户负荷折线图中也可以发现,在较长周期内,该类别的大多数用户用电规律,用电低谷时间相对较长,用电期间的用电量水平也较为平均。第7 组用户则仅有25%的用户表达出较强的节电意识,而在该类别的归一化用户负荷折线图中可以看到,在较长周期内,该用户类别的用电低谷表现较为杂乱,聚类结果与调查情况总体表现一致。
根据负荷波动态势和社会属性的分析,第0 组和第5 组负荷曲线出现波峰的时段都有一定的规律性,出现的时段相较于常规的波峰时段或超前或滞后,可以将其视作错峰调节的辅助资源。第1 组用户一周用电的规律性都较为统一,用电时间上的调控空间有限,但存在电价引导降低用电量的可能。第2 组用户用电曲线双峰出现的时间较为随机,可通过价格引导实现错峰调节资源。第3 组的多数用户的节电意识较强,其用电波动频繁可能是由于重复的开断电器,可引导其在用电低谷时段的用电增加。第4 组在工作日用电规律性较强,可通过价格对其周末用电进行调节。第6 组用电规律性较差,一般不可调节。第7 组多数用户节电意识弱,可调节空间有限。
本节同样在CER 数据集中随机选择了100 个中小企业用户的8 月第1 周的负荷曲线数据作为分析对象,图5(a)为迭代过程中的部分J-S 距离矩阵热力图。图5(b)相对熵折线图中红色标记所示的第94 次聚合相对熵值为全局最大值,因此将该次聚合情况作为最优结果。本文方法将100 个中小企业用户一周负荷曲线聚类分为4 个类别,其归一化负荷波动图见附录A 图A7。4 种方法下中小企业用户的负荷波动聚类效果图如附录A 图A8 所示。
图5 中小企业用户的J-S 距离热力图及相对熵折线图Fig.5 J-S distance heat maps and relative entropy line chart of small- and medium-size enterprises
由于中小企业用户的负荷曲线自身用电规律性很强,波动也比较频繁,在保证一定的簇内相似性情况下,簇间波动差异性指数越大,更易说明聚类效果的优劣。除此之外,本文方法更加侧重于对负荷波动特性的刻画,可解释性强的同时,在实现过程中无需调参,其他聚类方法不具备此种特征。因此,本文方法相较于其他聚类方法依然具有较强的优势。
从负荷波动态势上来看,第0、1、2、3 组用户的波动周期性都比较明显,第1 组用户的用电低谷时段较短,用电波动频次大;第0 组和第3 组用户的波动频次较大,且用电峰谷差大,但是第3 组用户的用电时间更长;第2 组的用电峰谷差最大,但是整体波动频次不高。
从社会调查信息来看,第0 组用户中有82%的用户具有强烈的节电意识且均有自备的发电装置,企业性质大多为技术服务开发和咨询公司;第1 组用户中89%均来自服务行业,其中,企业运营时间低于5 年的均为零售商或者无雇员的自营店,而在用电相关的意愿调查部分,该类别中有92%的用户有较强的意愿想要了解企业在不同时段的电费情况;第2 组用户的电费在整个企业的预算中具有较高水平,大都超过10%,企业性质主要为工业、电力交通行业等,用电需求量较大;第3 组用户营业额均为中等及以下,对企业自身的电力消费情况的关注度不高,均来自服务业。
根据负荷波动态势和社会属性的分析,第0 组可通过签订用户用电时段协议等措施将其视为一种可中断负荷。第1 组用户的日用电规律性较强,但是鉴于其中的多数用户对电费的关注度较高,可通过电价引导其有序用电。第2 组用户用电规律性强且大多为高耗能企业,可调度性不强。第3 组用户用电高峰时段较为超前,可作为一种错峰调节资源。
本文通过分析配电网末梢负荷曲线聚类与网络结构冗余问题在科学内涵上的一致性,借鉴网络结构约简理念,提出了一种多日负荷曲线高效、精准聚类的新思路。同时,在依据行业性质的宏观分类基础上,考虑配电网末梢负荷日间波动的差异性,对多日负荷曲线进行聚类,实现负荷波动相似性的挖掘。算例结果表明,本文所采用的HVG 方法能根据负荷曲线本身的波动特性自动建立网络中节点间的联系,进而保留时间序列的固有波动特征;基于网络信息熵的结构冗余度评估,能自适应实现多层网络结构约简过程且避免复杂的参数设置;所得到的多日负荷曲线聚类结果能有效反映用户电力消费特征与社会标签,具有可解释性。在未来的研究中,将考虑分层分区聚类以进一步提升聚类效率,同时扩展负荷时序特征的分析维度以进一步剖析负荷波动态势与需求侧响应潜力的关联机理。
附录见本刊网络版(http://www.aeps-info.com/aeps/ch/index.aspx),扫英文摘要后二维码可以阅读网络全文。