基于树增强朴素贝叶斯分类的台区关口表挂接关系在线校验方法*

2021-03-11 03:09万迪明孙海玉张小斐耿俊成袁少光
电子器件 2021年6期
关键词:关口台区朴素

万迪明 ,孙海玉,张小斐,刘 昊,耿俊成,袁少光

(1.国网河南省电力公司电力科学研究院,河南 郑州 450052;2.国网河南省电力公司商丘供电公司,河南 商丘 476000)

关口表作为台区重要计量装置,不仅用来计量台区供电量大小,还可以实时监测台区运行状态,支撑通电通知、配电网抢修等多项工作。营销业务系统关口表与台区挂接关系数据存在错误,严重影响线损统计分析、供电服务提升。当前,关口表与台区挂接关系核查方法主要是当台区线损异常波动时,特别是台区日线损率出现正负交替时安排专人现场核查;或者是在台区出现停电告警事件时,大部分低压用户却正常供电时安排专人现场核查[1-2]。

传统的台区与关口表挂接关系核查要在台区线损出现异常波动或者线损异常情况下安排专人现场核查,条件苛刻,无法大批量高效地开展核查工作。为解决上述问题,本文基于用户电能表电压曲线、台区变压器电能表电压曲线二者之间相似性,采用树增强朴素贝叶斯分类算法准确识别关口表挂接关系错误的台区,对电网公司夯实营配基础数据准确性,提升台区管理精细化水平具有极大应用价值。

1 基本原理

通常情况下,低压配电网电气距离越近的用电负荷电压序列曲线波动越相似。同理,与其他台区变压器电压序列曲线相比,用户与其台区变压器电压序列曲线波动更相似。可以通过比较用户之间、用户与供电变压器三相电压曲线相似性大小识别用户与供电变压器隶属关系。如果某用户与相应的供电变压器三相电压曲线相似性都很差,则用户与其供电变压器的隶属关系错误。相应的,如果一个台区不同用户之间电压曲线波动比较相似,同时与其供电变压器三相电压曲线相似性比较差,则台区关口表挂接关系错误概率较大[3-8]。

图1 是2019 年6 月份某天某台区用户与供电变压器三相电压曲线。不同用户电压曲线相似性较大,台区变压器A、B、C 三相电压曲线相似性较大,但是用户与变压器电压曲线相似性较小。营销人员现场核查,发现该台区关口表挂接关系数据错误。

图1 某台区用户与供电变压器三相电压曲线

皮尔逊相关系数常用来衡量两个时间序列数据之间波动趋势相似性,给定两个时间序列a和b,相关系数r定义如下[9-10]:

图1 台区用户与供电变压器三相电压序列曲线之间的相关系数矩阵如表1 所示,可以看出变压器三相电压序列曲线之间相关系数都较大,不同用户电压序列曲线之间相关系数也都较大,但用户与变压器三相电压序列曲线之间相关系数较小,这与图1 电压曲线波动相似性相吻合。因此相关系数可以有效度量用户、变压器电压序列曲线之间的相似性。

表1 某台区用户与供电变压器三相电压曲线相关系数

在基于电压曲线相似性判断台区关口表挂接关系是否正确时,需要设置两个阈值:

(1)两条电压曲线之间相关系数阈值,判断不同用户、变压器电压曲线是否相似,大于该阈值判定两条电压曲线相似,反之判断上述两条电压曲线不相似;

(2)与变压器电压曲线不相似台区用户比例阈值,判断台区关口表挂接关系是否正确,大于该阈值判定该台区与关口表挂接关系错误,反之判定上述台区与关口表挂接关系正确。

若上述两个阈值设置严格,则台区关口表挂接关系校验模型的查全率较低,同样若阈值设置宽松,则模型查准率较低[11]。

以台区用户相关系数在不同区间的分布数量为输入属性特征,以台区关口表挂接关系是否正确为输出属性,采用机器学习方法构建台区关口表挂接关系在线校验模型,进而判断台区关口表挂接关系是否正确,可以避免上述人工设置阈值出现的问题。

2 基于树增强朴素贝叶斯分类的校验方法

2.1 朴素贝叶斯

贝叶斯分类应用贝叶斯定理,通过概率统计方式对样本进行分类的机器学习方法,可用于台区关口表挂接关系数据在线校验。假设某训练样本集有N种可能的类别标记Y={c1,c2,…,cN},每一个样本X有d个属性,即X={x1,x2,…,xd}。由贝叶斯定理可知,给定样本X属于类别ci的后验概率是P(ci|X),计算方法如下:

式中:P(X)是事件X发生的概率,概率值大小与具体类别无关。

应用贝叶斯定理,给定样本X,最大后验概率对应的类别判断为样本X的类别。设c(X)为样本实例X的最终判定的类别,则:

P(X|ci)是样本所有属性的联合概率,难以从有限的训练样本集合估计。

朴素贝叶斯分类器假设各个属性相互独立,且同时对分类结果产生影响,则:

可以看出,贝叶斯分类器的训练过程就是基于训练集D来计算类ci先验概率P(ci),同时计算每个属性的条件概率P(xj|ci)。

假设训练集D中ci类样本组成的集合为,则ci类先验概率:

对于离散属性,假设表示Dci在第j个属性取值为xj的样本组成的集合为Dci,xj,则条件概率为:

对于连续属性,假设数据属性的概率值服从高斯分布,则条件概率可估计为:

式中:μci,j和是第ci类样本在第j个属性的均值和方差[12-14]。

2.2 树增强朴素贝叶斯

朴素贝叶斯分类器结构简单、高效,对异常数据的抵抗性也较好,但是条件独立性假设使得分类器无法有效利用属性变量之间的依赖信息,分类精准度较低,朴素贝叶斯分类器结构如图2 所示。直接采用朴素贝叶斯分类器开展台区关口表挂接关系数据在线校验,准确性不高。但属性之间的依赖信息太复杂时,比如完全网络的贝叶斯分类器,计算效率非常低,在实际应用中难以实现。因此,需要适当扩展朴素贝叶斯的依赖关系。

图2 朴素贝叶斯

树增强朴素贝叶斯(Tree Augmented Naive Bayes,TAN)分类器,是一种树形结构的贝叶斯网络分类器,具体结构如图3 所示。在朴素贝叶斯的基础上,TAN 在依赖关系较强的属性之间添加有向连接弧,但又限制各属性之间的连接关系数量,使得属性之间依赖关系呈现为树状结构。整体而言,与朴素贝叶斯相比,TAN 既充分地利用属性之间的依赖关系,同时又避免了复杂的依赖关系带来的指数级计算难题。某树增强朴素贝叶斯分类器结构如图3所示,所有属性节点均指向类节点,同时属性节点2依赖属性节点1,属性节点4 依赖属性节点3。

图3 树增强朴素贝叶斯

TAN 学习过程如下:

(1)计算任意两个属性之间的条件互信息:

式中:Xi和Xj表示属性变量;xi和xj表示属性变量取值;C表示类变量;c表示类变量取值。

(2)以属性为节点构建完全图,任意两个节点Xi和Xj之间的权重设为I(Xi,Xj|C)。遵循不产生回路原则,按照边权重顺序选取n-1 条边构建最大权生成树,其中n为属性数量。

(3)挑选一个节点作为根节点,所有边的方向设置为由根节点向外。

(4)增加一个类别节点,然后增加从类节点到每个属性节点的有向边。

容易看出,条件互信息I(xi,xj|y)刻画了属性Xi和Xj在已知类别情况下的相关性,因此通过最大生成树算法,TAN 实际上仅保留了强相关属性之间的依赖性。

在TAN 分类器中,对于未知类别样本X=(X1,…,Xn),有贝叶斯公式计算其后验概率p(c|x1,…,xn),选择使其后验概率最大的类变量取值c作为类变量预测值:

式中:c作为类变量C预测值;(X1,…,Xn)为属性变量;c(x1,…,xn)表示属性变量(X1,…,Xn)取值为(x1,…,xn)时类变量C的取值;GT表示在类变量C的约束下(X1,…,Xn)的最大权重跨度树;π(xi)是在最大权重跨度树中Xi的属性父节点的取值[15-16]。

基于树增强朴素贝叶斯分类的台区关口表挂接关系在线校验,与直接采用朴素贝叶斯分类相比准确性有较大的提升,同时计算复杂度又相对较低。

3 应用实例

提出的基于树增强朴素贝叶斯分类的台区关口表挂接关系在线校验方法,在某地市供电公司的营配数据质量提升工作进行了验证和推广应用。

首先,从营销业务系统提取最新用户-台区隶属关系数据,并获取每个台区所有用户列表;接着,对于每个用户,从用电信息采集系统提取其最近一段时间的电压序列数据,个别时间点电压值为空时根据线性插值法将电压数据填补。某台区变压器及其用户2019 年6 月某天电压曲线如图4 所示。

图4 某台区变压器及其用户电压曲线

接着,以天为单位根据式(1)计算每个用户与变压器三相电压曲线之间的相关系数r,上述电压曲线相关系数矩阵如表2 所示。

表2 电压曲线相关系数矩阵

表3 为统计台区用户皮尔逊相关系数在不同区间的分布。通常情况下,两个时间序列之间相关系数r在[0.8,1)表明二者极强相关,在[0.6,0.8)表明强相关,在[0.2,0.6)表明弱相关,在[-1,0.2)表明负相关或极弱相关。相应的,用户与变压器A 相相关系数r在[-1,0.2)出现频率设置为属性F1,在[0.2,0.6)出现频率设置为属性F2,在[0.6,0.8)出现频率设置为属性F3,在[0.8,1)出现频率设置为属性F4,依此类推。以上述台区为例,该台区有108个用户,统计与A 相电压曲线相关系数在[-1,0.2)有多少用户,作为F1属性值;统计与A 相电压曲线相关系数在[-2,0.6)有多少用户,作为F2属性值,依此类推;最后,以台区用户皮尔逊相关系数在不同区间的分布数量为输入属性特征,以台区关口表挂接关系是否正确为输出属性,采用机器学习方法构建台区关口表挂接关系在线校验模型,进而判断台区关口表挂接关系是否正确。

表3 台区用户与变压器各相电压曲线相关系数值分布

在模型构建和验证阶段,选择有代表性居民小区逐个核查台区关口表挂接关系,并将挂接关系数据正确的台区作为正例样本,挂接关系数据错误的台区作为负例样本。分别采用基于朴素贝叶斯、树增强朴素贝叶斯构建台区与关口表挂接在线校验关系模型,判断台区与关口表挂接关系是否正确。台区与关口表挂接关系是否错误的混淆矩阵如表4 所示。

表4 台区与关口表挂接关系是否错误的混淆矩阵

分别采用准确率、召回率、F2值三项指标评估基于朴素贝叶斯的台区与关口表挂接关系校验模型、基于树增强朴素贝叶斯的台区与关口表挂接关系校验模型,评估结果如表5 所示。可以看出,无论是准确率、召回率还是F2值,基于树增强朴素贝叶斯的台区与关口表挂接关系校验模型均优于基于朴素贝叶斯的台区与关口表挂接关系校验模型。

表5 两种挂接关系校验模型评估结果

根据所提出的校验方法,利用2019 年4 月份数据对某公司10 500 个台区与关口表的挂接关系进行校验,同时该公司营销人员对判断挂接关系数据错误的98 个台区进行了现场核查,发现挂接关系数据错误用户93 个。结果证明,该方法可及时发现关口表挂接关系数据错误的台区,与仅仅依靠人力耗时耗力的无目标现场巡查相比,该方法是切实有效的。

4 结束语

针对台区关口表挂接关系人工现场核查耗时耗力的问题,提出一种基于树增强朴素贝叶斯分类的在线校验方法。对于一个台区,首先从用电信息采集系统提取台区用户和变压器(关口表)的电压曲线;接着,计算一段时间内的每个用户与变压器三相电压曲线之间的相关系数;然后,统计所有用户相关系数在不同区间的分布数量;最后,以台区用户相关系数在不同区间的分布数量为输入属性特征,以台区关口表挂接关系是否正确为输出属性,采用树增强朴素贝叶斯模型构建台区关口表挂接关系在线校验模型。该方法在某地市电网公司试运行,可及时发现关口表挂接关系数据错误的台区,有效提升了台区关口表挂接关系数据与现场的一致性。

猜你喜欢
关口台区朴素
隔离朴素
关口前移赢主动
朴素的安慰(组诗)
他是那样“笨拙”和朴素——30多年后,我们为什么还需要读路遥?
最神奇最朴素的两本书
《妙笔蓝水晶奇案》第十回 轻松闯关口
降低台区实时线损整治工作方法
关口前移 源头治理 典型推动
三合一集中器作为台区线损考核表计的探讨
多功能低压台区识别设备的研制