面向低压配电网络拓扑的知识图谱构建与检索分析方法

2021-08-04 10:47徐成现
电力科学与工程 2021年7期
关键词:子图低压配电图谱

郭 成,徐成现,蒋 维,王 波

(1. 云南电网有限责任公司 电力科学研究院,云南 昆明 650217;2. 昆明理工大学 机电工程学院,云南 昆明 650500;3. 成都国龙信息工程有限责任公司,四川 成都 610031)

0 引言

随着人工智能技术的不断发展,以知识图谱为基础的智能检索分析方法逐渐运用于搜索引擎、电商、医疗、智能电网等领域[1]。通过抽取技术从各个领域的数据中抽取实体、属性、关系等语义信息,并通过知识融合、知识加工等技术构建知识库。通过实体间的匹配分析实现用户所需的检索分析服务。另外,知识图谱以数据结构为基础,采用本体术语和语义表达的格式[2],有规范且标准的概念模型。能很好地解决电网系统积累的大量多源异构的运行数据,包括数字、文字、图像等;而且,知识图谱通过语义链接功能增强数据之间的关联关系,可使数据表达更加规范,结构化更强,能很好地适应智能问答、智能检索、辅助决策等技术的运用场景[3],同时对电网知识的检索分析也适用。

近年来,国内外学者主要将知识图谱运用于电网调度、电力设备检修等方面。文献[4]在调度故障处理领域提出了基于知识图谱的电网故障处理辅助决策方法,分析了各个环节的关键技术,最后实现了基于知识图谱的故障信息解析判别、智能辅助决策及多维度的人机交互。文献[5]在电网调度领域提出基于知识图谱的智能辅助决策技术,给出了电网调控知识图谱的构建步骤,并以故障处置预案知识图谱为例给出了智能辅助决策运行机制。针对电力设备检修,文献[6]在电气信息采集系统的基础上建立了故障运维知识图谱,利用知识图谱高效的语义处理能力和快速分析能力,实现物联网新形势下电气信息采集的高效运营。文献[7]提出了输变电设备运维检修框架,梳理了输变电设备的数据现状,构建了基于电力设备运维检修领域的知识图谱检修策略智能推荐系统。

上述研究为本文知识图谱构建和检索分析方法提供了重要的参考和依据。然而,目前的研究尚未形成电网故障处理检索分析领域知识图谱的构建方法和实现方案。本文基于电网告警故障检索分析的需求,设计了面向低压配电网络拓扑领域的知识图谱,并通过子图匹配的方法实现电网知识的检索分析。

1 知识图谱

1.1 知识图谱的定义与现状

知识图谱是将实体和实体或实体和属性通过相互关系链接的一个知识网络,可以对世间万物之间的关系进行一种形式化描述,其本质上是一个知识库。知识图谱的通用表示形式是三元组:(实体–关系–属性)或(实体–关系–实体),如(示范医院–应用类别为–专变),(某供电所–包含– 62个用户)等。三元组是知识图谱中的最基本的单元,实体和属性在知识图谱中以节点的形式存在,两者的关系以节点之间的连线存在。不同的实体或属性之间存在不同的关系,通过结合可形成网状的知识图谱。

图谱分为通用图谱和行业图谱,对于通用图谱而言,其知识覆盖面很广且可应用于任何领域,强调融合实体越多越好,主要用在智能搜索领域。通用知识图谱专业性不强,干扰大且会有一词多义和多词一义的现象存在,关系较多而无法列举。行业知识图谱则具有一定的行业意义,以一定的行业资料进行构建,可用于特定的行业。行业知识图谱有很强的专业性,干扰小且实体大多是特定的专业用语,一般不会存在一词多义或者多词一义现象,数据模式与实体属性比较丰富,应用程度广且针对性强。

1.2 基于知识图谱的检索框架

本文所提的基于知识图谱的电压合格率检索方法主要为低压电网知识图谱的构建、基于子图匹配的检索方法,以及基于评价模型的检索结果评价,其基本框架如图1所示。

图1 基于知识图谱的低压配电网电压合格率检索框架Fig. 1 Retrieval framework of voltage qualification rate of low-voltage distribution network based on knowledge graph

2 低压配电网知识图谱的构建

2.1 低压配电网知识类型分析及拓扑结构

构建低压配电网电压合格率检索知识图谱。在电力企业中低压配电网缺陷记录业务中的知识类型主要以非结构化数据或半结构化数据存在。本文知识图谱是利用图数据库NEO4J进行构建,图数据库的模型数据能够直观地表示电网系统的拓扑属性,如图2所示。该拓扑结构含有3个厂站,每个场站由发电机(G)、断路器(开关)、母线(BusBar)、负荷(LD)、刀闸(隔离开关)等设备组成,各个场站间用交流线路(LN)进行链接。

图2 低压配电网拓扑结构Fig. 2 Low-voltage distribution network topology

2.2 实体/属性抽取

实体/属性抽取是指从低压配电网缺陷记录原始语料中自动识别出实体或属性。实体抽取的常用方法有神经网络方法和基于规则与词典的方法。前者可以自动地从记录语料中对有效特征进行捕获和表示,从而完成实体的识别;而规则与词典是用预先定义好的规则库,然后从语料中抽取出电力设备实体名称,设备所属机构名,电压变化范围及变化时间。典型的实体/属性抽取方法有条件随机场[8],隐马尔可夫模型[9]和BILSTM模型[10]等。在电压合格率检索中,大部分实体和属性可在电网公司积累的缺陷记录语料中抽取获得。

本次实体抽取的主要内容是针对10 kV花桥线及其台区–电压合格率记录语料来抽取实体和属性,首先标注要抽取的词性。由于电力行业的实体和属性有限,结合电力工程专业词典对其进行相似度计算和匹配抽取[11],步骤如下:

步骤1:分词。先对10 kV花桥线及其台区–电压合格率语料进行分词处理。用隐马尔可夫模型以及常用词典进行分词,为了提高分词的准确率,导入了辅助工具[12]—电力专业词典。

步骤 2:词抽取。将分词后文本中的实体/属性与专业词典中的实体进行对比检索,通过计算实体/属性的相似度匹配到相对应的那一项,若匹配成功,则抽取出来的实体或属性就可以用来构建知识图谱。

步骤3:注释词性。用电力工程词典和常规语料中的词性对文本中的各种词进行词性注释[13],可把对10 kV花桥线及其台区–电压合格率语料中的词分成5类:(1)形如电网公司和设备的名词,“Ent”作为其词性,代表实体;(2)形如10 kV花桥线及其台区电压值的量词,“Pq”作为其词性,代表属性;(3)形如电网故障程度的副词,“Pad”作为其词性,代表属性;(4)形如低压配电网电压合格率的动词,“Pv”作为其词性,代表属性;(5)在以上没有注释的词被抽取出来,可按原来的词性进行再注释,因其并不表示属性或实体。

2.3 关系抽取

文本语料在进行实体/属性抽取后,形成离散的实体/属性,若得到具体的语义信息,需要从电网公司记录文本语料中抽取出关系,包括实体与实体之间的关系和实体与属性之间的关系,用关系将实体/属性联系,形成网状的知识库。低压配电网电压合格率检索的知识图谱还可以用抽取出的实体或属性的词性来约束关系,如表1所示。

表1 关系的类型Tab. 1 Types of relationships

抽取关系的问题可以转化为实体和属性的分类,由于监督学习方法的分类结果不理想,所以采用半监督协同训练的方法进行分类。在分类前,先形成两两结合的待分类词对,接着匹配出和表1中某行组成的词类型,最后对组成的每一组词对进行关系分类。

2.4 构建知识图谱

构建知识图谱主要分为数据获取、信息抽取、知识融合和知识加工[14]4步。构建图谱的数据的来源可分为两种:一种在网站上可以获取,这些在网页上存在的数据,属于非结构化数据;一种是行业内部的数据,这些数据大多属于结构化数据。

信息抽取是在所需电力行业的文本语料中抽取实体和属性以及关系并以三元组的形式进行储存。信息抽取后的实体、属性和关系之间的关系是扁平化的,缺乏逻辑性,所以需要进行知识融合。知识融合是将多个知识库的信息进行融合,形成知识库的过程,该过程用到的主要技术有实体消歧义、共指消解和实体链接等技术。

许多数据在经过抽取和融合以后得到一些基本事实,但这并不是想要的知识,要获得网络化、结构化的知识体系,还需经质量评估后,把合格的知识归入知识体系中保证知识库的质量,这是知识加工过程。该过程是一个动态过程,在不断应用知识图谱的过程中,评价其应用效果和数据质量,并根据知识的不断更新与发展,还要对知识图谱进行更正和实时更新。构建知识图谱的流程如图3所示。

图3 知识图谱构建技术流程图Fig. 3 Technical flow chart of knowledge graph construction

低压配电网知识图谱的构建可以把电网设备和台区这些实体作为节点,并且把台区和设备及设备的一些属性信息在构建知识图谱中以拓扑关系链接。比如设备的ID、用户编号、用户类别、设备故障信息、各相电压合格率或不合格率、各相的最值以及平均值等(如图4)作为节点,把节点与节点之间的关系,如“上/下级”、“电压值为”、“信息有”、“属性是”等关系作为连接节点与节点之间的边。基于知识图谱的储存方式,能够构建全面并且易用的低压配电网故障处理措施检索知识库。

图4 低压配电网知识图谱的构建设计Fig. 4 Construction and design of knowledge graph of low-voltage distribution network

3 基于子图匹配的电网故障处理措施检索方法

提出一种基于子图匹配的电网故障处置措施检索算法。首先,针对电网知识定义了子图匹配的相关概念,提出了检索子图构建—拆分子检索—并行子检索—连接子检索结果4个步骤的检索算法。

算法包括:

步骤1:由检索条件生成检索图。

步骤2:将原始查询图划分为多个子检索。

步骤 3:在图数据库中执行步骤 2中的子检索,获得所有子检索的结果。

步骤4:连接子检索的结果,生成最终检索结果。其次,提出一种基于物理距离与邻近影响的检索结果评价体系,能够对检索结果进行重要性评价,让检索结果给予查询人员更多参考价值。最后,通过算例分析验证了本方法的可行性。

3.1 子图匹配定义

(1)检索图

检索图Q=(EQ,RQ)。包含点集合EQ和边集合RQ。每一个检索点都对应一个具体的实体描述,边表示连接任意两个点之间的关系。

(2)匹配子图

给定图谱G=(EG,RG,EG)和检索子图Q=(EQ,RQ),匹配的目的是在图谱G中找到检索子图Q的匹配子图φ(Q)。即将图谱G中满足映射函数M的子图定义为匹配子图φ(Q)。φ将Q中的点EQ映射到G中的点φ(EG),将Q中的边RQ映射到G中的边φ(RG)。

3.2 子检索划分

当检索图的顶点和边的数目过多,无论采用深度优先检索还是广度优先检索,都会导致检索的约束条件过多,从而增加检索难度甚至使检索无法完成。将检索图划分为多个子检索图,使单一的子检索图具有顶点数目少、边特征单一的特点,进而达到降低检索难度的目的。因此,将子图检索划分为两层树结构,每个检索图包含一个根节点、一层子节点和边。

如图5所示,采用上述规则将检索子图Q划分为子检索图Q1、Q2、Q3,Q3,包含节点c、e、f、h和边(c,e)、边(c,f)和边(c,h)。

图5 检索划分示例Fig. 5 Example of search partition

通过节点、边的匹配就能得到检索Q3的检索结果。得到Q2、Q3检索结果就能得到Q1检索结果,进而得到Q的检索结果。

3.3 子检索执行

首先,把子检索图分解成最小生成树,在对边进行匹配时应优先匹配最小生成树的边;然后选择根节点作为优先匹配过滤能力强的顶点;接着在传统VF2[15]算法的基础上,结合图的标签特征进行子检索执行。其具体步骤如下:

步骤1:输入数据图与划分后的子检索图,初始化子检索结果集Ci与匹配点对集合T为空。

步骤2:由根节点可生成备选匹配点对集合CT。

步骤3:备选匹配点对的匹配,如果CT中包含子检索图Qi的所有节点,接着计算图的边是否符合标准,符合标准判断的结果存入子检索结果集Ci;如果CT中包含子检索图Qi的部分顶点,则判断图是否数据信息错误,并将信息错误反馈给数据图。

步骤4:判断是否完成所有候选匹配点对的匹配,若没有完成匹配返回上一步,否则直接进行下一步骤。

步骤5:返回结果集Ci。

3.4 子检索结果的连接

子检索结果的连接是该算法的最后一步,其目标是把所有子检索的结果链接到一起,生成匹配子图。包括连接子检索结果和检索结果评价两个部分。以检索电压是否合格为例,首先按照子检索划分方法将检索Q划分为Q1(a,b,c)、Q2(b,e,f,g)和Q3(c,e,f,h),再分别执行Q2(b,e,f,g)和Q3(c,e,f,h)子检索;此后连接所有二级子检索结果,得到Q2、Q3两个一级子检索的结果;最后来执行Q1(a,b,c)的子检索,得到Q的检索结果。如图6所示,检索某个Q(a,b,c,d,e,f,g,h)的评分结果为14.2,则表示该节点需要重点关注。

图6 子检索结果的连接Fig. 6 Connection of subretrieval results

由图6可知,子检索结果的连接有两个部分,分别是检索结果评价和子检索结果。检索结果连接是图谱检索的基础操作,常用的哈希连接可用于本文的数据库中,当且仅当Qi和Qj两个子检索有共同的顶点时才能够实现Qi和Qj的检索结果连接。子检索结果连接的基本过程如下。

步骤1:将子检索结果集C初始化,对子检索划分的检索集Qi∈(Q1,Q2,…,Qn)按照子检索执行方法执行所有的Qi,得到所有子检索的结果。

步骤2:对n各子检索的检索结果进行哈希连接,保存匹配度满足阈值γ的结果到C中,并将结果按匹配度排序处理。

步骤3:对检索结果的电压特性进行合格率评估,得出电压合格率H。

步骤4:对存储在C中的检索结果运用评价模型进行评价,得出检索结果重要度f。

步骤5:返回检索结果集C,完成检索。

4 算例分析

4.1 算例基本情况

为了验证基于知识图谱的低压配电网故障处理措施检索方法的有效性,本文以某电网 35 kV变电站实际数据进行试验,算例基本情况如下:

该变电站包含10 kV花桥线,长41.07 km,共有配变62台,其中公变29台,专变33台,容量共计6 051 kVA,低压无功补偿电容器情况不明确,柱上开关10台,图7是台区分布网络结构局部图。

黄宏斌等 (2018)认为企业的现金流可以真实反映企业处于不同生命周期时的经营状况,基于此,按照企业的现金流特征,可将企业划分为初创期、成长期、成熟期和衰退期。处于不同生命周期下的企业现金流情况见表2。

图7 台区分布网络结构局部图Fig. 7 Partial diagram of distribution network structure in zone area

实验选取某电力企业20 000条电网故障记录作为基础数据,构建低压配电网处置措施知识图谱如图8所示,涵盖了16类超过300台设备的基本信息与日常运行数据信息,知识图谱数据库中节点个数超过10万个,能精确地检索到某台区某装备的故障。

图8 低压配电网知识图谱Fig. 8 Knowledge map of low voltage distribution network

4.2 电网故障处理措施检索结果与分析

根据前述基于子图匹配的电压合格率检索方法完成电网故障处理措施检索与分析。以线路跳闸为例,将其作为电网故障关键词进行检索,利用知识图谱技术和子图匹配算法,通过对关键信息进行分析,可以得出发生该故障的原因以及维修建议等,能减少排查故障的时间,提高故障维修效率,对快速抢修电网故障有十分重要的意义。

由知识图谱的语义特性可知,通过语义特征描述,检索时对图谱之间的语义信息进行语义相似度计算,可以得到更准确的查询结果。查询图谱与结果子图之间的相似度计算包括基于图结构和语义信息的相似度计算两部分。

(1)基于图结构的相似度计算

为实现图结构的相似度度量,需要对查询图谱与结果子图的结构进行定量化分析。根据图谱相似度度量的基本理论可知,若存在两个图谱G1中节点a和图谱G2中节点b,若两图谱中邻居结点相似,则节点a与节点b相似;同理,边的相似度度量为:如果图谱G1中边c与图谱G2中边d的起点和终点相似,则边c与边d相似。本文提到的查询图谱与结果子图的结构相似度主要通过两图节点相似度和边相似度构成的矩阵来度量,任意节点或任意边之间相似度的取值总在[0,1]区间内,若相似度值越接近1,则表示任意节点或任意边之间的相似度越高,其子图匹配的程度越高。

若图谱G1中有e个节点,图谱G2有f个节点,则节点相似度的矩阵规模e×f,用xab表示图谱G1中点a与图谱G2中点b的相似度,ycd表示图谱G1与图谱G2中边c与d的相似度。其节点与边的得分求解公式如下:

式中:SSimX表示图谱G1与图谱G2节点相似度得分矩阵;x1(k),x2(k),…表示经过K次迭代后两图谱中各点的相似度;SSimY表示图谱G1与图谱G2边相似度得分矩阵;y1(k),y2(k),…表示经过K次迭代后两图谱中各边的相似度。

式中:AveSSim表示查询图谱与结果子图的结构相似度得分;n1表示图谱G1中节点数;n2表示图谱G2中节点数;m1表示图谱G1中边的个数;m2表示图谱G2中边的个数。

(2)基于统计语义信息的相似度计算

给出查询图谱G1=(e1,e2,…,en),其中ei为查询图谱中的词,结果子图G2=(f1,f2,…,fm),其中fj为三元组,本文利用统计语义模型将查询图谱与结果子图的语义信息相似度用似然估计概率p(G1|G2)表示,并根据概率值的大小判断语义相似程度,并对结果子图进行排序。其中似然估计概率p(G1|G2)计算公式如下:

式中:p(ei|G2)是表示图谱G1的统计语言模型能产生词ei的概率,用ei在多个三元组模型产生概率p(ei|fj)的平均值表示。

查询图谱与结果子图的相似度靠单一的图结构或语义相似度不能准确地度量,因此本文综合考虑图结构和语义相似度的计算,将结构相似度得分ScoreSSim与语义相似度得分Scorep(G|1G2)进行线性联合,公式如下:

式中:α是一个可变参数,取值为[0,1],主要用来调节两个相似度得分在结果得分中所占比重。通过综合得分Score的计算,得到各个结果子图的得分,并对结果子图进行排序,得到最优的查询结果,从而完成基于子图匹配的电网故障检索。

采用基于物理距离与邻近关系的检索结果评价模型对子检索结果进行分析评价。评价模型以台变为单位进行实验。为直观地展示检索结果的重要程度,结合物理距离与邻近关系构建检索结果评价模型。

式中:f[φi(Q)]表示节点电网故障率的重要程度;G1[φi(Q)]和G2[φi(Q)]表示节点故障在u和l两种情况下的物理距离影响函数;u表示电网故障是由某一现象导致;l表示电网故障是由另一现象导致;T[φi(Q)]表示该节点的邻近关系函数。式(2)(3)中,L[φi(Q)]表示该节点的物理距离影响因数,取值范围为[0, 1];H[φi(Q)]表示该节点的电网的非故障率。

根据台区物理距离构建距离影响因数L,其取值范围为[0, 1],部分台区距离影响因数如表2所示。

表2 部分台区距离影响因数Tab. 2 Influence factors of some zone area distance

根据相邻台变电网故障检索结果构建邻近函数,部分台区邻近函数值如表3所示。

表3 部分台区邻近函数值Tab. 3 Values of neighbor functions in some zones

构建物理距离影响函数与邻近函数构建电网故障处理措施检索结果重要程度评价模型,部分台区电网故障处理措施检索结果重要程度评价结果如表4所示。

表4 部分台区评价模型数值Tab. 4 Evaluation model values of some zones

通过重要程度分析,知识图谱可以精确地识别输入的关键词,通过计算相似度进行电网故障查询匹配,但又不局限于关键字符的相似度,并很好地结合了电网领域的信息,具有较好的针对性,用传统的语义解析方法较难实现。例如,在检索电压合格率时,导致合格率低的原因在很大程度上是其内部原因,根据检索结果可以从供电半径过大、负载过大、线径过细等原因来排查;在对示范医院和武定荣丰石材厂的电网故障处理措施检索时其正确率分别达到85.342%和87.938%,但是其重要程度评价值偏高,导致电压不合格原因在很大程度上是其外部原因,由检索结果可以从三相不平衡、无功不足、功率因数过低等因素来排查。

5 结论

基于低压配电网的故障记录语料,结合了知识图谱的理念,提出了面向低压配电网络拓扑的知识图谱的构建方法和基于知识图谱的低压配电网络知识检索分析方法。详细阐述了低压配电网知识类型分析及拓扑结构、知识图谱的基本步骤实体/属性、关系抽取过程和最终构建过程。在构建了知识图谱的基础上,采用子图匹配的方法完成了基于知识图谱的低压配电网故障处理措施检索分析。最后通过电网公司实际运行数据验证了图谱构建方法的可行性及在电网知识检索分析的优越性。

如果在本文构建的知识图谱中增加更多电网的运行数据,如故障数据、调度控制数据等,则能进一步增加知识图谱的运用领域,如智能调控,负荷预测等,这也是电网知识图谱的后续研究重点方向。

猜你喜欢
子图低压配电图谱
高层建筑电气设计中低压配电系统的安全性浅析
绘一张成长图谱
低压配电网接地方式及与剩余电流保护的配置探究
临界完全图Ramsey数
不含3K1和K1+C4为导出子图的图色数上界∗
关于l-路和图的超欧拉性
补肾强身片UPLC指纹图谱
基于频繁子图挖掘的数据服务Mashup推荐
主动对接你思维的知识图谱
工厂供电系统低压配电保护电器的选择研究