基于GRA-K-means++算法的配电网供电可靠性水平评价

2023-09-21 09:18:46程军照徐敏冯磊刘虹吟李晨郭祚刚

南方电网技术 2023年8期

程军照，徐敏，冯磊，刘虹吟，李晨，郭祚刚

（1. 云南电网有限责任公司电网规划建设研究中心，昆明 650011；2. 南方电网科学研究院，广州 510663）

0 引言

供电可靠性指标是供电企业供电能力和服务质量的直接反映，是配电网规划运维水平的重要考察指标之一。提高配电网供电可靠性不仅是电力行业发展的大势所趋，更是发展新型电力系统的强烈需要［1-3］。可靠性水平的合理设置和评价，决定了能否实现电网合理投资和有效激励。如果可靠性评价过于严苛，会导致目标难以实现，资源投入浪费；可靠性评价过于宽松，则不利于电网运行水平的提高。因此，挖掘影响供电可靠性的关键因素，对不同地区的可靠性水平进行准确的评价，对于电网建设及管理具有重要指导意义。

在制定地区配电网可靠性发展目标时，应综合考虑可靠性影响因素，对不同地区制定不同评价标准。配电网规划导则中，针对不同负荷密度地区提出了不同的供电可靠性要求，文献［4］进一步指出，不同地区配电网发展水平、发展阶段各有差异，应选择合适的供电可靠性改善措施和方案实现配电网的经济投资。文献［5-6］主要通过经济、负荷等方面的多项指标，对区域进行网格划分，实现差异化管理和规划。然而，随着新型电力系统的发展，影响供电可靠性的因素愈发复杂多样化，需要进行更为全面的综合考虑。

目前鲜见统筹各类因素进行区域可靠性水平评价的研究，对影响因素中经济等外部因素，目前也缺乏有效的数学建模方法［7-9］。近年来随着IT技术、信息采集存储技术成熟发展，灰色关联算法（grey relation analysis， GRA）和K-means 聚类算法广泛应用于电气领域中。文献［10-12］从规划和运维层面，选取多个常见的供电可靠性影响因素，采用GRA 算法量化这些因素的影响程度。但上述研究仅探讨因素的影响程度，既缺乏对外部因素的考虑，也未涉及可靠性水平的目标设定与评价。文献［13-14］研究了基于K-means 的负荷分类方法，提炼用户日负荷曲线之间的共性特征与差异特征，对用电习惯相似的用户进行划分，文献［15］基于Kmeans 进行负荷分类，并根据聚类结果划分用户群体，对不同的群体提出了差异化电价方案，文献［16］提出了基于K-means 聚类算法的电能表评价方法，根据分类指标对不同厂商的电能表进行聚类，针对性对各类厂商的电能表质量进行评价。上述研究均能较好实现对象的聚类，进而进行差异化目标制定和评价。然而原始K-means 算法可能会由于初始聚类中心过近而导致算法收敛到次优解，文献［17］在此基础上提出了K-means++算法，该算法采用一种特殊的概率分布选取聚类中心以确保聚类集群的分散性，从而改善了原算法的不足。

因此，本文提出了一种基于GRA-K-means++算法的可靠性水平评价方法。通过构建供电可靠性综合影响因素集，并采用GRA 量化外部因素、电网规划运维因素对地区可靠性水平的影响程度，应用K-means++算法模型对影响可靠性的外部因素进行加权聚类，实现外部条件相近地区的聚合和分类，提出偏移距离指标以差异化地评价地区可靠性水平；最后，评价地区的电网规划运维因素水平，针对性地提出地区供电可靠性的提升方向。

1 供电可靠性综合影响因素集构建

地区电网规划部门进行规划时，通常采用供电可靠性指标RS-3 衡量供电可靠程度，即在统计期间内，不计系统电源不足限电时，对用户有效供电时间总小时数与统计期间小时数之比。RS-3主要受两方面的因素影响：1）电网所处地区的外部因素。即无法通过自身管理和技术的干预进行调控的因素，其决定了规划运维的难度，据此可对地区可靠性水平进行合理评价。2）电网因素。即配电网在规划和运行过程中，从不同角度制定表征配电网特性的技术指标。这些指标体现地区电网在外部客观条件下的运行水平，电网公司可通过规划或运维措施完善，从而提高供电可靠性。

1.1 供电可靠性外部因素

供电可靠性的外部因素构成了电网规划运维的基础条件，充分挖掘这部分因素与供电可靠性的联系，有利于确定地区可靠性建设条件，从而差异化评价地区可靠性水平。对供电可靠性影响较大的外部客观因素主要有地区经济特征、地区用户特征和新型电力系统要素3个方面。

地区经济特征反映了地区自身的发展水平。一方面，地区经济特征可通过地区的产业结构表现，具体包括第一产业、第二产业、第三产业生产总值比例等指标，不同产业对供电可靠性的要求不同。另一方面，地区经济特征也体现为该地区的科技发展水平，科技水平的提高使得该地区电网部门在对电网建设、管理投入同等资金时能够取得更高的收益，具体可由单位电量经济效益和人均GDP 等指标进行衡量。

地区用户特征可以采用负荷密度来表征，根据《中低压配电网改造技术导则》［18］规定，地区电网供电分区可按负荷重要程度和负荷密度从高到低可依次划分为A+类、A 类、B 类、C 类、D 类、E 类，各分区划分方法如表1所示。

表1 供电分区划分原则Tab.1 Principle of division of power supply areas

新型电力系统中的柔性负荷为电网的调度提供了更多的可能性，使其有机会更好地应对电网中的各种风险［19-21］。

综上所述，外部因素可提炼为表征地区经济特征的产业结构与科技发展水平因素指标、表征地区用户特征的供电分区因素指标以及表征新型电力系统要素特点的柔性负荷比例。

1.2 供电可靠性电网因素

供电可靠性的电网因素指标受电网公司调控，表征配电网的规划、运行水平，可分为电网规划水平和电网运维水平两个方面。

地区规划水平主要包括网架结构水平、设备水平等方面因素。比如对线路进行多分段，可在发生故障时避免大范围失电，减少停电影响的用户数，进而提升供电可靠性。合理地设置线路联络，提高线路的线路联络率和可转供电率，能避免故障点下游用户陷入长时间停电。而选择典型接线方式可以有效提高配电网的管理效率。提高网架的配电自动化覆盖率，可以快速有效隔离故障区间，避免大面积停电。同时，采用绝缘导线或电缆线路，能够一定程度避免部分外部因素导致的停电，降低线路的故障率。新型电力系统通过接入智能软开关、能量路由器、固态变压器、新型换流器等柔性可控智能装备，能提高电能的输送和分配效率，并有助于电力系统对电网事件的准确识别和迅速响应，从而有效提高供电可靠性。

地区的运维水平主要指运维效率，即平均预安排停电时间与平均故障修复时间。平均预安排时间体现了地区电网运维班组对电网进行日常检修的效率，平均故障修复时间体现了地区电网运维班组对电网进行故障修复的效率，运维班组工作效率越高，其维护区域的用户的停电时间越短，在故障发生时能够有效减少停电时间，从而提高供电可靠性。新型电力系统中接入的新能源增加了电网的不确定性，同时增加了电网运维的难度。

综上所述，电网因素方面主要从网架结构水平、设备水平、运维效率等多个方面选取不同因素指标。综合考虑外部因素与电网运维规划因素，从供电分区比例、国民经济水平、网架结构水平、设备水平、运维效率、线路负载水平等方面，选取共计25 个影响因素作为供电可靠性综合影响因素集，如表2所示，以此作为灰色关联算法的输入。

表2 供电可靠性综合影响因素集Tab.2 The set of comprehensive influencing factors of power supply reliability

2 基于GRA-K-means++算法的供电可靠性水平评价模型

为了分析供电分区面积比例、地区产业结构和地区科技发展水平对电网规划管理的影响，建立外部因素指标体系后，引入GRA-K-means++算法，通过量化权重和聚类分析，研究各因素与可靠性指标之间的关联性，对外部条件相近的地区进行划分并评价其可靠性水平。对于可靠性水平评价偏低地区，为明确可靠性提升方向，精准制定电网公司改善可靠性的措施，还需要结合电网因素指标关联度进一步进行量化分析。

基于GRA-K-means++算法的配电网供电可靠性水平评价方法主要流程步骤如图1所示。

图1 基于GRA-K-means++算法的可靠性水平评价模型Fig.1 Model of reliability level evaluation based on GRA-Kmeans++ algorithm

2.1 GRA算法建模

灰色关联分析模型可根据大量数据样本中指标数据变化情况，获取指标间的关联程度，无需进行繁琐复杂的建模和仿真过程，即可实现对不同指标间关联程度的量化［22-25］。为了综合量化因素集中各因素与可靠性指标之间关联性的强弱，本文建立灰色关联分析模型，研究各指标间的关联度，具体计算过程如下。

1）序列数据无量纲化处理

以各地区可靠性指标组成参考序列，其他指标作为若干比较序列。为了消除各个指标量纲不同造成的影响，在进行量化分析时，对每个序列的数据进行MIN-MAX 归一化处理。归一化后的数据分布在0到1之间。

2）依据地区面积设立样本权重

灰色关联算法默认各样本的重要程度是等价的，事实上，面积较大地区相比于面积较小地区更具有统计学意义，因此需参考地区的供电面积确定地区样本的权重。设共有m个地区，样本权重计算如下：

式中：ωi为第i个地区样本的样本权重；Si为第i个地区的面积。

3）计算各指标样本的关联系数

设每个地区有n个待分析的可靠性影响因素指标，则关联系数为：

式中：ξi(k)为第i个地区的第k个指标的关联系数；Ri为第i个地区归一化后的可靠性RS-3 指标值；xi(k)为第i个地区的第k个指标归一化后的值；ρ为分辨系数，用来减弱最大值过大导致关联系数失真的影响，以提高关联系数之间的分辨力，ρ取值区间为（0，1），本文取值为0.5。

4）计算关联度

关联度的计算公式为：

式中r(k)为第k个指标的关联度。

关联度r(k)反映了第i个比较序列与参考序列在整体上的接近程度。指标的关联度r(k)越大，表明该指标与可靠性指标关联程度越大。对外部指标因素、电网指标因素分别进行灰色关联分析，即可得到指标各自的关联度，以此作为精准定位电网运维规划薄弱点的依据。

2.2 K-means++算法建模

K-means 是机器学习中最为常用的聚类算法之一，能够实现样本空间中相近样本的无监督聚类，具有直观、算法时间复杂度低等优点［26-28］。Kmeans++算法在K-means 聚类的基础上，提出了新的聚类中心选取方法，改进了K-means 聚类可能存在次优解收敛的缺点。其聚类步骤如下。

1）设置指标权重

设外部因素指标有n1个，xi=[xi(1)，xi(2)，xi(3)，…，xi(n1)]为第i个地区归一化后的外部指标向量。K-means++聚类算法默认任何指标信息同等重要，事实上，由于指标与地区可靠性的关联程度不同，其信息参考价值也不同，即指标本身的信息熵不同，因此有必要为各指标设置合适的组合权重。

（1）依据GRA指标关联度求取指标权重

不同外部因素对供电可靠性影响程度不同，指标与供电可靠性关联越密切，其影响程度越大，在综合评价中比重也应越大。故以指标灰色关联度作为其中一个权重W1(k)。

（2）依据熵权法求取指标权重

香农在信息论中指出，若某指标的信息熵越小，表明指标数值的变异程度越大，所提供信息量也越大，该指标在综合评价中起的作用也应该越大，需要为该指标赋予越大的权重。所以在进行Kmeans++聚类分析分析之前，根据指标数据所含信息熵确立另一指标权重W2(k)，计算方法如下。

式中：xi(k)为归一化后第i个地区第k个指标的指标数据；Pi(k)为第i个地区下第k个指标所占比重；e(k)为第k个指标的熵值；g(k)为第k个指标的差异系数；W2(k)第k个指标的熵权法权重；n1为外部指标个数。

（3）计算综合权重。结合熵权法权重和灰色关联度权重，计算第k个指标的综合权重系数W(k)。

2）对样本指标加权，即求取权重向量与归一化后的指标向量的Hadamard乘积。

式中xi′=[xi′(1)，xi′(2)，xi′(3)，…，xi′(n1)] 为带权重的地区样本第i个指标向量；xi=[xi(1)，xi(2)，xi(3)，…，xi(n1)]为未带权重的地区样本第i个指标向量；W=[W(1)，W(2)，W(3)，…，W(n1)]为权重向量。

3）假设将m个地区划分为L个类群，首先选择初始聚类中心，具体方法如下。

（1）从数据集中随机地选择一个中心点c1。

（3）重复上述步骤，直到L个中心点被选择。

4）针对数据集中每个样本xi′，计算其到L个聚类中心的距离，并将该样本分到距离最小的聚类中心所对应的类别中。

5）针对每个类别，重新计算属于该类的所有样本的质心，即新的聚类中心。

式中：cp为Kp的聚类中心；Kp为第p个聚类集；kp为Kp集中样本的数量。

6）重复步骤4、5，直至两次迭代间簇内误差平方和（within-cluster sum of squared errors，SSE）下降量小于0.0001。

簇内误差平方和SSE 是指每个样本与其最近之聚类中心之间的均方根距离，即：

7）设置不同的聚类族群数L会得到不同的聚类结果，为了确定最接近真实分类情况的聚类族群数，可绘制SSE-L值图。SSE 会随着L的增大单调递减，然而，当L小于真实聚类数时，增大L会使SSE 值急速下降；当L大于真实聚类数时，增大L时SSE 值的下降幅度会明显减少。当SSE-L值函数曲线出现明显拐点时，表明当前L值接近于最优的真实值。进一步地，通过图像拐点附近的轮廓系数S(xi′)确定最优L值，即：

式中：a(xi′)为簇内距离；b(xi′)为簇间距离；Kq为Kp以外使得簇间距离最小的聚类集。

可见，轮廓系数取值范围为［-1，1］，其越趋近于1 代表聚类结果的内聚度和分离度越优，即分类效果越好。故绘制拐点附近L值的平均轮廓系数-L值图以及轮廓图，选取平均轮廓系数最高的L值作为本模型的聚类族群数。

2.3 供电可靠性水平评价

对于同类地区，其可靠性建设难度相近，指标聚类中心即同类样本的中心点，代表了外部条件相近地区该指标的平均水平。考察特定地区指标值与同类其他地区的指标中心距离，即可精准衡量地区在电网的建设管理上的水平和差距。当xi′∈Kp时，设Ri为xi′对应地区的可靠性指标值，定义可靠性的指标偏移距离为地区可靠性指标与同类其他地区可靠性指标中心的距离，即：

式中di(R)为地区i的可靠性指标偏移距离，其值为正则代表该地区可靠性水平优于同等条件的其他地区；其值为负则代表该地区可靠性水平不如同等条件的其他地区。借助di(R)即可对地区的可靠性作出差异化的合理评价。

此外，还可通过电网指标因素进一步考察其电网建设管理薄弱点，提出相应的改善措施。考虑到不同电网指标因素对供电可靠性重要程度不同，以GRA 模型所得的关联度为权重，依次计算指标的偏移距离，设n2为电网指标个数，yi=[yi(1)，yi(2)，yi(3)，…，yi(n2)]为第i个地区归一化后的电网指标向量，则电网指标偏移距离计算公式如下。

式中：di(k)为地区i的第k个电网指标的偏移距离；权重系数r(k)为基于GRA 算法得到的相应指标关联度。最后根据偏移距离di(k)的排序，筛选偏移距离绝对值较大的指标，指标偏移距离绝对值越大代表该地区相应因素的建设管理水平与其他地区差距越大，可考虑采取一定措施提升或降低相应指标以实现该地区可靠性的提升。

3 算例分析

选取某地区下属14 个县级电网数据进行配电网供电可靠性水平研究，以该地区供电可靠性数据作为参考序列｛x0(k)|k=1，2，…，14｝。选取表2的24 个影响因素，生成25 个比较序列｛xi(k)|k=1，2，…，14；i=1，2，…，25｝，构建供电可靠性影响因素集。

将以上参考序列与比较序列进行MIN-MAX 归一化。计算面积权重系数如表3所示。

表3 地区面积权重设置（部分）Tab.3 Regional area weight setting（partly）

结合面积权重，根据样本分别计算外部因素指标与电网因素指标的灰色关联度如表4—5所示。

表4 可靠性影响外部因素关联度Tab. 4 Relevance of reliability influencing external factors

表5 电网因素关联度Tab. 5 Power grid factor correlation

由表4—5 可知，通过考虑权重的灰色关联度分析，外部因素中与可靠性关联程度较高的因素有柔性负荷占比、第二产业比例、第三产业比例等。电网因素中与可靠性关联程度较高的因素有可转供电率、绝缘化率、新能源接入容量占比等。该结论与直观经验相符，说明关联度分析结果基本准确。

综合指标的信息熵和灰色关联度，求取Kmeans++聚类的综合权重，结果如表6所示。

表6 K-means聚类指标权重系数Tab.6 K-means clustering index weight coefficient

根据权重的指标数据进行K-means++聚类，生成不同聚类数的簇内误差平方和，绘制SSE-L 曲线，如图2所示。

图2 SSE-L值变化图Fig.2 SSE response of L

可见，SSE 曲线在L=3 时出现了明显的拐点，绘制拐点附近的轮廓图以及平均轮廓系数-L值图，如图3、图4所示。

图3 L=2，3，4，5时的轮廓图Fig.3 Silhouette diagram at L=2,3,4,5

图4 平均轮廓系数-L值变化图Fig.4 Average silhouette score response of L

图3 的轮廓图中，各形状的宽度表示分类簇中包含的实例数，形状的长度表示簇中地区的已排序轮廓系数，虚线表示整体平均轮廓系数。图4 表示平均轮廓系数与L值的变化规律，可以看到，当L值为3 时，整体轮廓系数最高，故最终选取L值为3。基于K-means++算法对地区进行三分类，每个类别中的各地区即为外部条件相近的地区。对于每个类别，分别计算每类地区中可靠性的偏移距离，结果如表7所示。

表7 各地区可靠性指标偏移距离Tab. 7 Offset distance of reliability index in each region

从表7 中可以看到，地区5、地区4、地区9 的可靠性偏移距离较大，说明以上地区可靠性水平在同等条件地区中较高；而地区8、地区12、地区2、地区7 的可靠性指标偏移距离为负且绝对值较大，说明以上地区可靠性水平在同等条件地区中处在较低水平。

对于可靠性水平评价偏低的地区，可进一步挖掘其原因和改造措施。其中，类别3 中的地区7 的偏移距离为负且绝对值较大，为-0.858 6，以灰色关联分析结果为权重，依次计算地区7 的指标偏移距离，如表8所示。

表8 地区7的指标偏移距离Tab.8 Indicator offset distance for region 7

可见，地区7 的配电自动化覆盖率、典型接线比率、线路平均分段数、平均预安排停电时间偏低，新能源接入容量占比偏高。其中，新能源接入容量占比偏移距离为0.372 2，说明该地区相比同类型地区接入了较多新能源。此外，典型接线比率指标与配电自动化覆盖率的负偏移距离较大，分别为-0.292 2 和-0.283 6，说明该地区与同类型地区的典型接线率和自动化覆盖率的差距较大。由此可见，为了有效提升该地区的供电可靠性水平，在配电网规划改造过程中，应着重完善中压网架结构，采用典型接线方式，并通过配网自动化改造，加强对新能源的监控，加强配电网的控制与保护。

4 结论

针对现有配电网供电可靠性水平评价不深入、对相关因素考虑不全面且部分相关因素难以通过传统方法建模分析的情况，本文提出了一种基于GRA-K-means++算法的配电网供电可靠性水平评价方法。主要工作和结论如下。

1）综合分析地区外部因素、电网规划与运维因素等多个影响因素，构建了全面、有效的供电可靠性影响因素集，所选指标既能反映地区的经济特征和用户特征，又能充分表征电网规划建设、运维管理水平，为差异化地评价供电可靠性水平以及提出提升配电网供电可靠性方法提供了理论依据。

2）计及地区供电范围，挖掘供电可靠性影响要素与供电可靠性关联程度。通过含权重的灰色关联分析，揭示各因素对供电可靠性的影响程度，分析表明，对供电可靠性影响程度较高的外部因素有柔性负荷占比、第二产业比例、第三产业比例等。对供电可靠性影响程度较高的电网因素有可转供电率、绝缘化率、新能源接入容量占比等。

3）根据外部因素指标的差异为其设置组合权重，采用K-means++算法对地区电网进行带权重聚类，随后根据同类地区中电网可靠性指标的差异对地区可靠性水平作出合理评价。

根据影响因素关联度分析，精准挖掘电网建设、管理中导致地区电网可靠性偏低的主要原因，可有效指导该地区可靠性提升方向。

4）通过实际地区电网的算例，证明所提方法的有效性和可行性。