基于量测数据质量的低压台区拓扑识别结果可信度评价

2021-09-13 01:40张勇军李桂昌黄国权

电力系统自动化 2021年17期

李坤，周来，张勇军，刘轩，李桂昌，黄国权

（1.智慧能源工程技术研究中心，华南理工大学电力学院，广东省广州市 510640；2.广州市奔流电力科技有限公司，广东省广州市 510000）

0 引言

大数据技术的发展为低压配电网（low-voltage distribution network，LVDN）的智能化建设打开了广阔的发展空间［1］。在LVDN智能化和数字化的过程中，基于数据的LVDN拓扑关系智能识别具有十分重要的地位，影响着电压治理和供电可靠性提升等环节［2］。

当前LVDN拓扑关系识别方法主要分为3类：注入信号法［3］、数据标签法［4］与数据分析法［5-7］。注入信号法是在网架中加装了信号设备，通过信号的注入和读取来判断拓扑关系；数据标签法是在配电网各级设备加装编码通信器，建立数据标签，以实现网络中设备的自识别。两者识别准确率较高，但识别均需要增加辅助设备，存在成本高、运维难等问题［8］。数据分析法则基于高级量测体系（advanced metering infrastructure，AMI）采集的电压、电流等电气量数据，挖掘用户间潜在的关联关系，进而实现拓扑关系识别［9］。目前，智能电表的全覆盖为数据分析法提供了数据基础［10-11］。因此，相比前2种方法，数据分析法更顺应环境、改造量和投入产出比更小，成为当前LVDN拓扑关系识别技术研究的主要方向［12-13］。

在工程实际中，由于通信质量、数据差异等因素，数据质量参差不齐，导致识别准确率也不尽相同［14-15］。在没有先验拓扑连接关系的情况下，数据分析法的拓扑结果无法对比，结果准确性无法保证，进而直接影响配电网的运维与用户的体验。文献［16］提出数据质量管理与电网可靠性和可信度十分相关。因此，探寻数据质量对拓扑关系识别结果准确率可信度的影响十分必要。

针对目前智能配电网量测数据多、数据质量低的现状，文献［17］综合考虑了数据的重要性、差异性、实时性等多种影响因素，构建了智能配电网多维数据质量评价体系。文献［18］针对仿真准确度评估方法的不足，结合界标法的优点，采用数值相似度和形状相似度评估电力系统仿真准确度，可作为参数优化的依据。文献［19］为验证AMI异步量测的可信度，建立精细化的AMI异步量测可信度模型，以一个合理的区间而非确定的曲线描述状态估计结果。

上述文献主要是研究数据对仿真准确率和可信度的影响，而在拓扑识别准确率评估上，文献［20］基于匹配循环功率进行拓扑识别并评估，但针对的是拓扑的匹配性而不是识别的准确性。文献［21］提出一种基于数据的拓扑误差识别，但需要先验拓扑结构进行比较。关于数据分析法识别结果准确率可信度评估的相关研究鲜有涉及。另外，基于二次规划的数据分析法是根据电气量存在守恒定律而建立的规划模型，是数据分析方法中的重要分支［2，7，13，22］。该方法具有数据分析法的通性，即识别准确率高但受数据质量影响大。

因此，本文充分考虑数据分析法的识别结果准确率与数据质量成正相关的特性，探寻影响数据和影响程度。首先，基于数据分析法的原理，构建了一个与识别准确率关联的数据质量评价模型，以量化数据质量，其中运用熵权法-层次分析法结合的方法确定指标权重分布。然后，通过样本训练，拟合数据质量评分和识别准确率的对应关系，搭建了可由AMI数据质量评价出二次规划法识别准确率范围的可信度模型。最后，以3个典型低压台区的数据构建测试集并开展了算例验证。

1 二次规划数据分析法的影响因素分析

为分析数据源对二次规划数据分析法的影响，本章首先对其原理进行介绍，然后根据数据源对识别过程的影响，分成数据完整性、数据差异性和数据时间尺度3个方面进行影响机理分析。

1.1 基于二次规划的数据分析法

数据分析法可分为纯分析聚类法和二次规划法，前者是完全通过电气量的相似性进行聚合分类，但其分类特征会根据所用数据的不同而出现差异，因此不利于进行数据质量分析；而后者是根据电气量守恒定律搭建方程求解或寻优，方便分析。采用二次规划的方式是为了使求解过程更快更优。

根据原理的不同，二次规划的数据分析法分为基尔霍夫电流定律的方法［7］和功率守恒的方法［13］。这2种方法使用的数据不同，但模型类似，本文参考基尔霍夫电流定律方法作为例子分析。另外，根据是否进行电表聚类预处理，数据分析法也分为2种方式，其中电表预聚类是通过量化电压时序曲线的相似性，进而对相关系数大的电表进行归类，以达到化简计算方程的目的［12］。

对于可预聚类的电表，将其有功电流进行求和，作为该类别的有功电流值；对于不可预聚类的电表，量测的有功电流值为：

式中：Ii，agg为第i个类别的有功电流值；Iu为电表u的有功电流值；N为聚类后的等效电表总数；rG为聚类集合。

根据基尔霍夫电流定律，对于配电变压器低压侧一级分支线（简称出线）有：在任意时刻，流出的有功电流之和等于各电表量测的有功电流总和。为求解拓扑关系，参考文献［22］，引入0-1变量xi，φ表征各个电表与相线的连接关系：若电表i属于待识别的φ出线，则xi，φ=1，反之则xi，φ=0。另外考虑到单相用户的电表只能存在于一相的约束，得到下列二次规划模型：

式中：T为采集数据时间段长度；L为低压侧各相出线集合，若LVDN共有e回出线，每回出线有A、B、C共3个相线，则L={A1，A2，…，Ae，B1，B2，…，Be，C1，C2，…，Ce}；Iφ（t）为t时刻出线φ首端流出的有功电流值；M为电表总个数。

1.2 数据质量影响机理

由1.1节可知，基于二次规划的数据分析法是列举方程寻优的方法，其准确率直接受数据质量的影响。综合来看，二次规划法主要受电压和电流2个数据的影响。其中拓扑识别环节受电表数据量测是否完整、是否明显和量测时长影响。而电表预聚类环节受上述因素和电压时序的相似性与相异性的影响。

结合文献［6］所述的低压台区拓扑关系和最优化计算知识，现将式（2）的目标函数转化成矩阵形式，即

式中：Iagg为聚类后的电表量测有功电流矩阵，为3kT×3M型矩阵；X为3M×1型矩阵；Iφ为出线有功电流矩阵，为3kT×1型矩阵。

进而从数据完整性、数据差异性和数据时间尺度3个方面进行数据影响机理的定性分析。为方便分析，先假定3kT=3M，由电网络性质可知，Iagg为一个非奇异方阵，因此X有唯一解：

从数据差异性角度看，当存在空房的情况时，空房用户电表记录的有功电流为一个微小值，即Iagg的某一列为一个微小值。当空房率大时，Iagg中置为微小值的列数变多，导致矩阵奇异，规划求解时出现误解，影响准确性。另外，相线上任意一个节点电压时序变化主要受该相线的母线电压和综合负荷特性影响。当配电变压器三相母线电压不平衡度高时，不同相线的用户电压时序曲线差异较大，这有利于预聚类，从而提高规划模型求解的准确性。

从数据时间尺度角度看，当出线数固定时，量测数据的时间长度T会改变数据的维度，即3kT≠3M。当3kT＞3M时，方程数大于未知量数，方程有唯一解；当3kT＜3M时，方程数小于未知量数，有无数解，即影响了规划模型求解和预聚类的效果。

2 评价指标与模型建立

参考文献［23-24］中的评价指标，根据前述数据质量影响机理，构建了一个AMI量测数据质量评价模型，由5个评价指标组成，以定量地评价AMI量测数据质量［17-18］。随后，通过归一化，将指标的特性放大，能够更灵敏地表征数据质量。最后，搭建一个可根据量测数据质量评价数据分析法识别准确率范围的可信度模型。

2.1 评价模型与指标

考虑1.2节所述AMI量测数据质量影响的机理，并参考文献［17］中考虑的多种因素，本节进一步提出量测数据时序完整度、有效电表数目完整度、三相电压不平衡度、用户用电比和时表比5个定量指标以将AMI量测数据质量量化。其与第1章的定性分析对应关系如图1所示。

图1 AMI量测数据质量评价模型Fig.1 Evaluation model of data quality measured by AMI

1)量测数据时序完整度

受通信等因素影响，电表量测结果存在数据缺失的情况。设立量测数据时序完整度指标λ1，表征LVDN内所有电表在采集时间段里量测有功电流数据的完整性，其表达式为：

2）有效电表数目完整度

受通信和电表质量等因素影响，部分电表存在全时段数据缺失情况，称为无效电表。设立有效电表数目完整度指标λ2，表征有效电表数目的完整性，其表达式为：

式中：n2为无效电表的个数。

3）三相电压不平衡度

设立三相电压不平衡度指标λ3，表征在采集数据时间段内出线首端三相电压不平衡度的平均值，为确保三相电压差异度对识别准确率影响规律的普适性，本文引入基准电压UB进行指标定义，即

4）用电用户比

针对用户不用电的空房情况，设立用电用户比指标λ4，表征采集时间段里用电特征明显的用户数量情况，其表达式为：

5）时表比

由式（3）可知，T越大时，方程解的个数减少，意味着识别结果越准确。因此，设定时表比指标λ5，表征除去无效电表后，剩余电表的量测数据都不缺失的时刻数（下称完整数据时刻数）和有效电表个数的比值：

式中：Treal为完整数据时刻数。

另外设立识别结果准确率指标δ，表征算法识别结果的准确效果，其计算公式如下：

式中：Mr为算法识别结果中正确的电表数量。

大量仿真实验后发现，在各个指标分数都相同的情况下，会出现不同的准确率。经过实际情况分析，其主要原因是缺表的位置和空房的位置存在多种情况，换言之，式（3）中Iagg元素出现多种情况，导致优化求解出现不同解，进而出现不同的准确率。因此，在评价指标分数都相同的情况下设立最高准确率指标δmax和最低准确率指标δmin，其计算公式如下：

式中：Mr，max和Mr，min分别为指标分数相同时识别结果中正确电表数的最大值和最小值。

2.2 指标归一化

根据2.1节的公式可知，数据完整度、有效电表数目完整度和用电用户比3项指标的取值范围为0～100%之间。但对于三相电压不平衡度而言，在电网常规运行下，其实际值不允许超过2%。由式（3）和式（4）可知，当时表比超过3/k时，其对识别准确率的影响已经微乎其微。为了放大指标和识别准确率之间的相关性，忽略影响微小的部分，将三相电压不平衡度和时表比2项指标进行归一化处理，转换至0～100%之间。设定三相电压不平衡度的基准值为λ3，base，时表比的阈值为λ5，base，将两者的实际值进行归一化，即

2.3 评价模型的建立

搭建一个三层级的数据质量评价模型，设立AMI量测数据质量综合评价分数K，以加权和的方式，综合5个评价指标以量化数据质量，具体如下：

式中：ωi（i=1，2，3，4，5）为各项指标的权重值，由客观的熵权法［26］和主观的层次分析法［27］分别计算权重后，再取两者平均值得到。熵权法依据每个指标的信息熵采用式（18）计算权重Wi；而层次分析法则是对三层级指标打分构建专家评分矩阵，再计算权重。

式中：Ei为熵权法中各个指标的信息熵。

由于每个场景存在影响因素多种分布导致准确率不同的情况，所以先对算例的每种场景进行多次识别计算，保留相同AMI量测数据质量综合评价分数下的识别结果准确率上、下限值；再基于数值分析中的方程组知识对数据质量和识别准确率进行统计分析归纳，采用基于最小二乘法的多项式拟合法，搭建一个识别结果可信度评价模型，即式（19）。该模型是一个对应关系模型，能根据当次数据质量分数评价出当次拓扑识别计算结果的可信度，即准确率范围。

式中：f（K）和g（K）分别为识别结果准确率上限和下限的多项式函数。

由于非线性关系的函数可以用泰勒展开式展开成多项式的形式，每个数据质量指标的多项式通过加权法相加后所得的数据质量综合得分与数据法拓扑识别的准确率也存在多项式的关系，因此采用基于最小二乘法的多项式拟合法。此外，对于网架相似、负荷类似且出线同样的台区，其求解方程必然类似，数据的影响程度会一致，所以方法具有普适性。为确保模型的准确性，拟合曲线的次数越高越好，由于5次多项式的拟合效果已经满足要求，所以采用5次函数拟合。因为整体求解的准确率处于上下限附近，所以考虑多项式拟合法存在散点性的同时，为满足模型普适性，设定一个裕度值ρ以涵盖场景内的所有准确率，即

式中：δ′max和δ′min分别为增加裕度后的最高准确率和最低准确率。综合多次仿真结果可知，ρ的范围为3%～5%。

此模型的作用为：依据AMI量测数据质量综合评价分数评价出当次识别的准确率范围。

3 算例仿真

3.1 指标合理性验证

本节基于中国广东省真实低压台区网架数据，搭建三相四线LVDN模型，经过多次潮流计算，得到电表数据，以验证2.2节所提的指标影响机理，其拓扑关系和线路数据参数如附录A图A1所示。该台区有3条出线，即k=3，共包含254个节点，110个单相负荷，其中A相负荷37个，B相负荷42个，C相负荷31个，三相负荷10个，共计120个负荷。所需负荷数据为稳态仿真数据，以15 min为1个点，一天采集96个点，一共3天。并设定各指标的标准值依次为λ1=100%、λ2=100%、λ3=1%、λ4=100%、λ5=1/k=1/3≈35%。

首先，在负荷样本库中抽取一定规模的负荷曲线序列；然后，采用控制变量法，筛选出符合一定梯度的数据样本，筛选流程图如附录A图A2所示；随后，进行多次拓扑识别计算，形成仿真样本。在识别计算中，对缺表位置、缺时刻位置和空房位置进行随机分布，生成相应的样本。最后，在其他指标不变的情况下，以研究的指标为变量，以该方法识别准确率为因变量作图并分析，如附录A图A3所示。合理性分析如下。

1）由附录A图A3（a）可知，当数据完整度大于等于40%时，识别准确率维持在较高水平，只有微小的上升，这是因为有约束条件，方程求解仍可以被限制，则对识别准确率的影响较小；而当数据完整度小于40%时，拓扑识别准确率急剧下降，一是因为电表预聚类出错，二是因为电流时序维度减少，电流规划求解误差增大。

2）由附录A图A3（b）可知，随着有效电表数目完整度逐渐增大，识别准确率呈现逐渐升高的规律。这是因为随着电表缺失数量增多，台区首末端电流偏差逐渐增大，导致识别算法中的电流规划求解准确率下降。

3）附录A图A3（c）中只有一条曲线，这是因为其他指标均控制为标准值，即不存在缺表、缺数据和空表的情况，由上述3种因素位置不同而导致出现多个准确率的现象也就不会出现。由图可知，随着三相电压不平衡度逐渐增大，识别准确率先增大后趋于稳定。这是因为当三相电压不平衡度在逐渐增大时，用户电压时序变化差异增加，提高了电表聚类的效果；而当三相电压差异度上升至一定水平后，电表聚类结果不再改变，识别准确率趋于稳定。

4）由附录A图A3（d）可知，随着用电用户比的增大，识别准确率缓慢升高并均处于一个高水平的状态。这是因为空房数量超过一定量时，电表聚类并不能将所有的空房聚类，而导致电流规划出现误解，识别准确率会稍有下降。

5）由附录A图A3（e）可知，随着时表比逐渐增大，拓扑识别准确率逐渐升高，当其大于等于35%时，趋于稳定。因为当3kT＞3M时，方程数大于未知量数，方程有唯一解，识别准确率稳定。

综上所述，本文讨论的识别方法的识别准确率与所提5项数据质量评价指标具有较强的相关性。

3.2 评价区间模型生成

为验证所提方法的有效性，本文以3.1节的台区作为研究对象，用于构建低压台区拓扑识别结果可信区间评价模型。

首先，获取样本数据，通过对不同负载率的电表缺失数、数据时间点缺失数、空房率和时间长度进行75%～100%内的随机取值，进而获取120个场景并计算每个场景的指标分数。对每个场景的缺失电表位置、缺失数据时刻和空房位置进行25次随机定位，并进行拓扑识别准确率的计算。取出每个场景中的最高和最低准确率，共240个数据。

然后，采用熵权法-层次分析法相结合的方法计算各个指标的权重，先对上节所获数据采用熵权法计算各个指标的权重。对于有上下限的指标，对准确率取均值后再进行计算。各指标的信息熵依次为0.980 8、0.978 0、0.998 3、0.999 7、0.988 3。采用式（18）计算出各指标的权重分别为0.350 0、0.399 6、0.031 3、0.005 8、0.213 2。

再采用层次分析法计算各指标的权重。根据上一节的合理性分析，综合各指标的影响程度和专家分析打分，可以得到各层级的专家评分矩阵如下：

其中，A1为第2层级的专家评分矩阵，A2、A3、A4为第3层级的专家评分矩阵。求取各矩阵最大特征向量，进行标准化后得到每个层级下的指标权重如表1所示。

表1 各个层级下的指标权重Table 1 Index weights at each level

由表1可知，层次分析法计算的第3层指标权重依次为0.234 9、0.470 0、0.063 1、0.021 0、0.210 9。

最后，分别作出与AMI量测数据质量综合评价分数对应的最低准确率和最高准确率的图像，再运用最小二乘法拟合最低准确率和最高准确率的5次函数曲线作为识别结果可信度评价模型，如图2所示。

图2 识别结果可信度区间评价模型Fig.2 Evaluation model of confidence interval for identification results

图中，实线拟合的公式如下：

为了达到更好的拟合效果，对公式的自变量进行转化，其中z为中间变量。

图2中实线为拟合的曲线，虚线则是取裕度ρ为5%的曲线，可以看到，虚线可以涵盖该台区极限的情况，因此，该模型能够有效合理地依据数据质量反映识别结果的准确率可信范围。

3.3 有效性和实用性检验

为检验该模型的有效性，现对5项指标在75%～100%范围内随机取值，获取250个随机场景。进一步，针对每个指标取值场景下，随机选择3种缺失电表位置、缺失数据时间时刻和空房位置分布，共计得到750个场景情况。然后，进行拓扑识别计算和相应的拓扑识别准确率计算。结果中准确率的分布如图3所示。

图3 原台区识别结果准确率Fig.3 Accuracy rate of identification results in original distribution network

由图3可知，在原台区的随机场景中，与AMI量测数据质量综合评价分数对应的各组识别结果准确率均处于所构建识别结果可信度评估模型的合理范围内，因此，说明该模型对原台区是有效的。

进而，为检验该模型的通用性，将另一个中国广东省真实LVDN台区网架数据作为检验对象，搭建三相四线LVDN模型，多次潮流计算后得到电表数据，其拓扑关系和线路数据参数如附录A图A4所示。该台区有3条出线，即k=3，包含169个节点，68个单相负荷，其中A相负荷27个，B相负荷25个，C相负荷15个，三相负荷5个，共计73个负荷。该台区与原台区结构相似且出线一样。所需负荷数据采集情况与之前一样。同理获取250个随机场景，均对5项指标进行计算并算出AMI量测数据质量综合评价分数。从每一种场景中随机选择3种缺失电表位置、缺失数据时间时刻和空房位置分布，共计得到750个情况，然后对这750个情况进行拓扑识别的计算和相应的拓扑识别准确率计算。加入评估区间模型后，结果如图4所示。

图4 新台区识别结果准确率Fig.4 Accuracy rate of identification results in new distribution network

由图4可见，与数据质量综合评价分数对应的识别结果准确率均处于构建的识别准确率可信区间内，证明此识别结果可信度评价模型对结构相似且出线一样的低压台区具有一般通用性。

为进一步检验评价模型的实用性，基于中国广东省一个实际台区计量数据进行算例验证，其拓扑关系如附录A图A5所示。该台区有2条出线，即k=2，包含165个单相负荷，其中A相负荷52个，B相负荷51个，C相负荷62个，三相负荷3个，共计168个负荷。所用负荷数据为真实量测数据，以15 min为1个点，一天采集96个点，一共60天。随后，以2天作为一次检验场景进行计算，一共30个检验场景。具体准确率分布如图5所示。

图5 真实场景台区识别结果准确率Fig.5 Accuracy rate of identification results in actual distribution network

在此验证计算中，真实数据的质量综合评分普遍较高，因此对应的准确率可信区间也较高，且大于90%。由图5可见，所搭建的识别结果可信度评价模型也能满足个别网架相似、出线不一样的场景，证明此识别结果可信度评估模型具有一定的实用性。

4 结语

针对二次规划的数据分析法在没有先验拓扑连接关系的情况下无法确认准确率的问题，本文挖掘数据源质量对二次规划法的影响，量化了数据质量并提出一个针对二次规划法拓扑识别结果的可信度评价方法，研究结论如下。

1）二次规划的数据分析法受量测电压和电流2个数据的影响，针对该影响建立了5项反映所用量测数据质量的指标，量化了数据质量，其中应用主客观混合权重计算方法确定权重分布，为提高拓扑识别准确率提供了科学指导。

2）运用熵权法-层次分析法将反映量测数据质量的指标合成一个数据质量评价综合分数，合理地表征了二次规划法所需数据的好坏程度。

3）采用多项式拟合法将数据质量综合分数和识别准确率的正相关关系表现了出来，并提出了一个以区间形式表现的拓扑识别结果可信度模型。该可信度模型能根据计算所得的数据质量分数评价出当次数据分析法拓扑识别结果的准确率范围。

4）本文所提出的方法对结构相似、出线一样的LVDN存在着通用性，在整体趋势范围上满足一般普适性，即随着数据质量分数下降，准确率下降且其区间扩大。

在后续的研究中，会加入考虑智能算法的评价方法，进而使量测数据评价综合分数可以更好地评价拓扑识别结果的可信度。

附录见本刊网络版（http：//www.aeps-info.com/aeps/ch/index.aspx），扫英文摘要后二维码可以阅读网络全文。