基于GCN 的配电网知识图谱构建及应用

2022-04-20 07:24宋玮琼羡慧竹姚盛楠
电子设计工程 2022年7期
关键词:顶点图谱实体

宋玮琼,韩 柳,羡慧竹,姚盛楠,郭 帅

(1.国网北京市电力公司电力科学研究院,北京 100161;2.华中科技大学,湖北武汉 430070)

近年来,我国电网规模的不断提升以及线路复杂度的迅速增加,给电网带来了巨大的挑战,强迫电网升级,提高电网的信息化、智能化成为了重要任务[1-3]。业扩计量规则库是包括各类电力规范文件的数据库,是计量配置方案确定的基础[4]。传统的关系型数据库或者人工查找文档的方式,虽有优势,但仍有较多局限。同时,方案出错时会造成计量误差、装置故障、电量追回等影响和损失[5-6]。

知识图谱技术是认知智能领域中的主要技术,其强大的语义处理和互联组织能力,已被广泛应用于智能搜索、智能问答、个性化推荐等领域[7]。但对非结构化数据构建知识图谱时仍面临着较大挑战,例如文档嵌套实体、实体名称过长、多元关系、表格关系处理等问题。

文中主要从两个部分重点讲解知识图谱的构建过程:实体抽取和关系抽取。文中采用人工构建嵌套规则进行实体抽取,使用Multi-Self Attention 与图卷积网络结合的方法进行关系抽取。

1 知识图谱及其关键技术

知识图谱按使用范围分为通用知识图谱和领域知识图谱,通用知识图谱强调广度,数据多来自于互联网,常见的通用知识图谱有CYC、WordNet、FreeBase等[8]。而领域知识图谱应用于垂直领域,以领域或企业内部的数据为主要来源,知识结构复杂,通过对企业内部的结构化、非结构化数据进行联合抽取并依靠人工进行审核校验来保证质量。知识图谱构建主要包括命名实体识别和关系抽取任务。

命名实体识别的主要任务是识别出文本中出现的专有名称和有意义的数量短语并加以归类。实体识别主要有以下几种方法:1)基于规则。如NTU 系统、FACILE 系统、OKI 系统;2)基于统计。如n 元模型、隐马尔科夫模型(HMM)、条件马尔科夫模型等;3)混合方法。借助规则知识及早剪枝,再用统计模型是比较好的方法[9-12]。

关系抽取(Relation Extraction)是信息抽取的关键内容,旨在发现现实世界实体(Entity)间的语义关系。该项技术被广泛应用在自然语言处理任务中,包括知识图谱(Knowledge Graph,KG)的构建及补全、问答系统等任务[13-14]。传统的关系抽取研究通常采用监督学习,可取得一定的分类效果,但是需要代价高昂的人工标注数据。为了解决该问题,研究人员基于假设提出远程监督(Distant Supervision)-自动生成标注数据方法,远程监督解决了标注数据不足的问题,但其假设并不总是正确,导致生成的标注数据中存在大量的错误标注数据,对关系抽取模型造成不利影响[15]。后续又有专家提出了使用图卷积神经网络的方法解决关系抽取问题并取得了不错的效果[16]。

文中的知识图谱构造被分为两大步骤,分别是实体识别和关系抽取,并重点介绍关系抽取的方法。为获得更加准确的实体,文中采用由专家制定实体规则模板匹配的方法,共计7 类实体。同时文中采用由attention 引导的图卷积神经网络进行关系抽取,把关系的类别定义成6 类,包括安装位置、安装方式、采用、限定、接线方式、其他。

2 配电网计量知识图谱构建

2.1 计量知识图谱构建及应用框架

文中提出的基于GCN 的配电网计量知识图谱构建的算法模块如图1 所示。

图1 算法模块

首先接收技术规则原始文档,对其进行格式处理,包括格式对齐、数据清洗等。第二步采用人工制定模板匹配的方法完成实体识别;第三步采用基于GCN 和注意力机制结合的方法完成关系抽取任务;最终对抽取出的<实体-关系-实体>三元组构建配电网计量知识图谱。文中将重点介绍关系抽取的具体方法与实验。

2.2 计量本体抽取

文中考虑到使用以往的方法可能导致较多无关实体的出现,因此文中采用人工制定规则进行匹配的方法进行实体抽取。首先由专家指定出电力文档中的实体规则,然后按照字符串匹配的方式来匹配计量文档的各类实体,共计7 类实体。

2.3 计量关系抽取

文中主要通过以下步骤讲解关系抽取的具体步骤。

第一步:数据预处理与模型输入,将数据的信息依存树提取出来,构建邻接矩阵作为句子的结构特征。同时利用GloVe 模型获得句子的词向量表达w1,并且实体之间的相对位置信息也具有很重要的作用,因此在词向量中加入位置信息p1,表示两个实体的相对距离,将词向量和位置信息结合起来,作为句子的特征向量的嵌入表达:

第二步:LSTM 是一种长短期记忆网络,能够捕捉句子中长距离的依赖关系,而有时仅通过单向的LSTM 模型不能获取足够的依赖信息,模型需要获得前文和后文的信息,来进行更优的预测。因此为了获得句子的上下文信息,文中选择双向LSTM 网络进行训练,得到带有上下文信息的隐藏层表达X。

第三步:图卷积网络(GCN)是一种在图结构上进行计算的多层神经网络,这里的图可以是知识图谱之类的有向图,也可以是一些无向图结构。GCN 可以对输入图中的节点或边进行编码,并且同时包含其关联节点的信息。在这里,将邻居矩阵A和初始的句子的嵌入表达X 作为图卷积网络的输入。通过图卷积网络,中心节点可以融合到邻居节点的特征信息,相当于将句子的结构信息与特征信息融合。具体公式如下:

其中,Aij为邻居矩阵,wk为参数矩阵,为上层GCN 的结果,初始时为,bk为偏置。

第四步:在GCN 的训练过程中,不同节点的边应具有不同的重要程度,例如越近的节点之间的边相较于距离更远的边应该赋有更高的权重。为了解决不同节点之间权重初始化相同的问题,同时为了更好地得到节点之间的关联特征信息,文中使用多头注意力机制来学习获取节点之间的重要程度并将其作为权重矩阵,送入第二层图卷积中进行训练。公式如下:

第五步:将句子的隐藏层表达送入池化层,同时由于句子中的实体也有非常重要的作用,因此将用同样的池化方法得到实体的隐向量。f:Rd×n→Rd×1是一个最大池化函数,可将n个输出向量映射到一个句子向量。

同样,模型可以获得实体表示。对于第i个实体,其计算可表示为:

将其进行拼接,送入前馈神经网络,得到最终的隐藏层结果,即:

第六步:关系分类,将获得的隐藏层表达(句子,实体1,实体2)送入softmax 分类器得到最终的分类结果:

并使用交叉熵作为损失函数:

2.4 计量规则生成

图数据库使用的数据模型包括简单图、属性图、超图及嵌套图,文中依据属性图为基础进行数据存储。图由顶点和边组成,顶点与顶点之间由边连接。属性图的顶点有标签、顶点的属性及属性值;属性图的边有类型、方向、属性及属性值。每个顶点都包含标签和属性,其中标签代表顶点的分类,属性用来描述顶点的特征,用一组键值对来存储。例如一个名称为发电企业的用户,在图数据库中用一个顶点表示,顶点的标签是“用户”,属性(name:发电企业)则代表用户的特征。边包含类型和方向,其中类型代表关系的名字,方向则表示顶点之间边的方向。例如名称为用户的节点包含发电企业节点时,用户与发电企业之间存在一条边,边的方向是从用户到发电企业。边也可以包含属性,采用键值对存储。例如给边增加权重、特性等信息时,即可以给边增加属性。如图2 是一个简单的图数据库例子。若用户希望获得“发电企业的贸易结算电能计量点的安装位置”,针对这类查询,结合图2 中所示的数据,可将查询表示为路径:(发电企业)→[限定]→(发电企业的贸易结算电能计量点)→[位置]→(位置信息xxx),其中()表示顶点,第一个顶点信息由查询条件给定;[]表示关系;→表示方向。该查询中涉及未知个数的顶点以及两层关系,最后对最终的结果进行排序。

图2 知识图谱规则查询简单示例

3 实验分析

3.1 评价指标

文中的关系抽取实验采用精确率、召回率以及F1 值作为关系抽取的实验指标,其中,精确率是针对预测结果而言的,表示预测为正的样本中有多少是真正的正样本,公式为:

召回率表示样本中的正例有多少被预测正确,公式为:

为了能够评价不同算法的优劣,在精确率和召回率的基础上使用F1 值的概念,对精确率和召回率进行整体评价。F1 的定义如下:

3.2 实验数据集

文中的关系抽取数据集主要来自电力计量规则文档,文中首先进行了格式处理、数据清洗等工作。其中数据样例为“适用于发电企业的贸易结算电能计量点的安装位置为并网线路侧”。其中“发电企业的贸易结算电能计量点”为实体1,“并网线路侧”为实体2。文中的数据总量为7 800 条,其中7 000 条为训练集,800 条为测试集。关系类别共有6 种,分别为安装位置、安装方式、采用、限定、接线方式、其他。其他代表实体之间除上述5 类之外的关系。

3.3 结果与分析

3.3.1 实验设置

文中为验证构建的基于注意力机制的GCN 模型对于关系抽取的有效性,以精确率、召回率、F1 值3 个指标来观测实验效果。同时文中在不改变其他超参数的设置下,对是否使用注意力机制和是否加入上下文信息进行了测试和实验,并对比二元实体关系与三元实体关系的抽取结果。

文中采用的硬件条件是单块Tesla P4 的GPU,CentOS 7.8.2003 的操作系统。其中,所有模型均使用了随机梯度下降的方法进行训练。

3.3.2 电力数据集的注意力机制实验

从表1 可以看出,在增加了注意力机制后,精确率、召回率和F1 值均优于无注意力机制的模型效果,同时三元实体的关系抽取效果比二元实体的关系抽取效果好,因此可以看出注意力机制对图卷积模型特征提取的有效性。

表1 电力数据集的注意力机制实验精确率、召回率和F1值

3.3.3 电力数据集的上下文信息实验

在模型中通过加入LSTM 模块可以得到文本的上下文信息,如表2 所示,当模型中缺失了上下文信息,模型效果会有明显的下降。因此可以看出文本的上下文信息对关系抽取模型的有不小的影响。

表2 电力数据集的上下文信息实验精确率、召回率和F1值

3.3.4 知识图谱建立与规则测试效果

当完成了关系抽取任务后,就获得了<实体-关系-实体>三元组,在经过专家核验后,并以此构建电力业扩计量知识图谱。通过规则测试,精确率可以达到79.4%,查询效果如图3 所示。

图3 查询效果展示图

4 结束语

目前知识图谱已广泛应用在各种通用领域,然而各行业数据结构复杂、不规范,导致在知识图谱的构建过程中遇到了不少困难与挑战。文中对于电力文档构建知识图谱提出了可行的办法,通过图神经网络模型抽取文档中的关系,结合抽取出的实体,构建实体关系三元组,并用此构建电力业扩计量知识图谱,同时提出了基于知识图谱遍历的配电网计量装置选型规则生成方法,其生成的规则更加精确,为电力装置的选型奠定基础。

猜你喜欢
顶点图谱实体
高清大脑皮层发育新图谱绘成
过非等腰锐角三角形顶点和垂心的圆的性质及应用(下)
过非等腰锐角三角形顶点和垂心的圆的性质及应用(上)
中医药知识图谱应用现状分析及痴呆痰瘀互结证知识图谱构建探索
绘一张成长图谱
前海自贸区:金融服务实体
实体书店步入复兴期?
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
主动对接你思维的知识图谱