基于动态图注意力与标签传播的实体对齐

2024-04-23 10:03莫少聪陈庆锋谢泽刘春雨邱俊铼
计算机工程 2024年4期
关键词:三元组图谱实体

莫少聪,陈庆锋,谢泽,刘春雨,邱俊铼

(广西大学计算机与电子信息学院,广西 南宁 530004)

0 引言

知识图谱是一系列显示知识组成结构关系的实体集合,可高效利用可视化技术描述知识资源,是人工智能、自然语言处理、语义网等领域的重要知识载体。知识图谱构建一个机器与人都能理解的关系网络,随着深度学习、表示学习模型的迅速发展,知识图谱在知识推理[1]、推荐系统[2]、知识问答[3]等领域得到广泛应用。但是,随着各种知识图谱数据集数量的持续扩大,知识图谱数据愈发呈现跨领域、知识逐渐细分的特性,进一步提高了融合多源知识图谱的难度。知识图谱数据的不同语言与不同规则之间的构造方式不同,使得人们难以整合数据库中的丰富信息。

最早的实体对齐模型专注于符号表示的对齐规则[4],但需要大量的人工对齐成本并制定大量面向专业领域的对齐规则。近年来,基于表示学习的模型逐渐成为实体对齐任务中的主流范式并取得了优异的效果。现有表示学习模型主要关注对知识图谱中的(实体,关系,实体)三元组进行特征学习。此外,也有一些模型尝试结合知识图谱中的结构表示与实体自身的属性特征表示进行实体对齐,其中属性特征包括属性值的字符信息以及属性三元组(实体,属性名,属性值)。以往的实体对齐模型在利用属性特征信息时,多采用神经网络学习属性值内部的字符序列信息,但大都只针对单个属性内部信息的字符序列进行学习,忽略了不同属性对实体对齐任务的重要性差异。

本文认为不同的属性应当对实体表示有不同的作用,应当降低不重要属性的影响,因此,本文提出基于动态图注意力与标签传播的实体对齐模型。本文的主要工作为:

1)提出一种由3个模块组成的实体对齐模型:首先通过动态图注意力属性结构表示模块学习节点的属性三元组特征;然后利用多维标签模块进一步把属性特征作为初始化标签,在实体间进行迭代传播从而完成属性结构与关系结构的最终实体表示学习;最后引入线性规划算法对实体相似度矩阵进行迭代,得到更精准的实体对齐结果。

2)在不同训练集上进行实验,将本文模型与基准模型的实体对齐结果进行对比,验证本文模型的鲁棒性。

3)在跨语言英法数据集EN-FR-15K、中英数据集EN-ZH-15K和中文医学领域的实体对齐数据基准MED-BBK-9K上进行消融实验,验证本文模型的效果。

1 研究现状

1.1 知识图谱表示学习

知识表示是人工智能领域至关重要的一个环节,指将现实世界中的知识转化为计算机可处理形式的过程。知识表示的发展经历了从早期的规则、框架等模型到现在的知识图谱的演化。知识图谱为了描述自然界中实体的多个文本语义,建立基于实体与关系的知识数据库。每个语义可以用三元组(头实体,关系,尾实体)表示,这种表达方式具有强大的灵活性,已被广泛应用于相关领域。

计算机领域中的知识表示模型最早可以追溯到1956年。RICHENS在剑桥语言研究中心创造了计算机领域中第一个语义网络系统[5]。随后,BORSBOOM等[6]进一步提出了知识图谱网络分析的新思想。PARIS[7]实体对齐模型是目前使用最广泛的模型之一,该模型首先基于概率模型对关系、实体和类之间的概率进行建模,以无须手动定义任何参数的优点完成实体对齐任务。然而,该对齐模型在面对知识图谱等数据库特征有较大差异的情况时,很难实现高精度的对齐结果,同时该模型还依赖于相似性计算规则的手动定义。

TransE[8]是一种最早采用知识图谱表示学习的嵌入式学习模型,然而,TransE不能捕捉实体对的一对多语义关系。为了改进这一点,出现了TransH[9]、TransR[10]等平移距离模型,但这类模型对实体和关系之间的一对多知识图谱的表示能力不足,因为它们只能对关系进行建模,这意味着它们不能有效地捕捉涉及多个实体的复杂关系,而这些关系往往存在于现实世界的知识图谱中,因此不适用于对复杂关系进行建模。

近几年,深度学习被更多地用来作为知识图谱表示的学习模型,包括ProjE[11]、ConvE[12]、R-GCN[13]等。ProjE利用多层感知机进行建模;ConvE利用卷积和全连接层对实体和关系的联系进行建模;R-GCN利用图卷积网络(GCN)[14]进行建模;ConvKB[15]将实体和关系建模为相同大小的嵌入向量,将每个三元组的嵌入连接到一个输入矩阵;ConvR[16]用不同位数的一维向量表示实体嵌入和关系特征,通过点积结合神经网络输出得到三元组;CaPsEM[17]采用胶囊网络进行实体和关系建模;RSN[18]使用随机游走方式选择实体并学习三元组的关系路径。

1.2 标签传播算法

标签传播算法[19]是一种经典的半监督学习方法,其基本思路是根据节点之间的相似度在图中进行标签分布,利用样本之间的关系建立完全图模型,并将节点分为已标注和未标注两类。通过学习图中的邻接关系,已标注的节点将标签数据传播到未标注节点。节点之间的相似度越高,标签在2个节点之间越容易传播。该算法的最大优点是具有较低的复杂度且分类效果良好,被广泛应用于社区挖掘和节点分类领域。设R为社区图上的邻接矩阵,E为图的度矩阵,B(m)为每个节点随机初始化的特征矩阵,m为标签传播的迭代轮数,标签传播过程可以表示如下:

B(m+1)=R(-1)EB(m)

(1)

标签传播算法只需要少量的已知节点进行训练,就可以按照制定的传播规则对未知节点赋予标签。根据该假设,在标签传播时,应该尽可能选择稀疏数据而不是密集的样本数据点,以预测和传播未标记数据的标签。只要同一类数据在空间分布上是相近的,那么不管数据分布是什么形状,都可以通过标签传播将它们分到同一个类中。因此,标签传播算法可以高效处理图像、知识图谱以及视频节点分类等问题。

1.3 实体对齐

1.3.1 基于翻译模型的实体对齐模型

MTransE[20]模型最先将实体和关系编码成向量,并通过翻译模型捕捉它们之间的映射关系,以便在异构知识图谱中对齐目标实体。JAPE[21]算法假设相似实体具有相似的相关属性,该算法包含了上文提到的结构嵌入和属性嵌入,然后利用2种向量的嵌入结合学习得到知识图谱中实体的嵌入再进行实体对齐推测学习。

BootEA[22]采用基于翻译的模型进行嵌入,并通过预对齐结果反复训练分类器。在每次迭代中新的可能的映射被分类器标记,将那些预对齐的实体对齐结果添加到下一次迭代中进行训练。

为了利用多视图进行学习,可以在知识图谱表示学习步骤中融入实体名称、实体属性和关系结构进行实体对齐,MultiKE[23]使用多个视图来实现实体的多个信息融合,通过对真实关系事实进行评分、实体标识推理来提高对齐效果。

1.3.2 基于图神经网络的实体对齐模型

GCN-Align[24]假设对齐的实体往往具有更类似的属性字符嵌入以及更相似的邻居实体,其首次利用对偶图卷积网络模型学习节点向量和图结构特征。文献[25]提出一种将图元用于实体对齐的模型,把一对一的分类问题当成实体对齐问题,生成候选实体对的标签。上述模型都是基于GNN[26]模型的进一步拓展。

RDGCN[27]利用关系感知对偶图卷积网络学习源知识图谱的关系结构表示。为了进一步编码异构关系知识图谱中普遍存在的邻居实体差异,RDGCN通过注意力机制建立原始图和对偶关系图之间的联系,并将关系信息与相邻的结构信息进行合并从而利用图的三角结构实现特征学习。该模型仅使用了较少的训练数据就在基准数据集上实现了优越的对齐性能。

RSN4EA[28]使用随机游走来采样训练集中预对齐实体之间的路径,并提出循环跳过网络的序列模型学习嵌入,然后使用该模型学习不同知识图谱之间的关联信息。RNM[29]通过图卷积网络学习实体和关系的嵌入,在得到对齐关系对的相似度矩阵后,利用已对齐的关系语义信息和属性结构信息,再用半监督的方式进行实体对齐和关系对齐的迭代。

NMN[30]为了解决实体对齐中普遍存在的实体邻居不一致问题,通过基于抽样的模型筛选知识图谱中语义最丰富的邻居,在实体对齐时同时考虑节点的拓扑结构与邻居实体的相似度。DGMC[31]进一步深化节点的邻域特征学习,采用局部特征匹配建模,通过进一步检测在预对齐结果中明显错误的部分并以迭代的方式消除匹配错误的实体。目前,研究人员普遍使用图卷积学习知识图谱的特征,使得错误传播的问题得到了一定程度的缓解,但是以上模型对于单跳和多跳实体的传播信息学习仍存在许多不足[32]。

2 本文模型设计与实现

知识图谱实体对齐任务可以描述为给定2个需要对齐的知识图谱,即源知识图谱G1=(E1,R1,A1,V1,Tr1,Ta1)和待对齐的目标知识图谱G2=(E2,R2,A2,V2,Tr2,Ta2),其中,E、R、A、V、Tr、Ta分表代表知识图谱中的实体、关系、属性、属性值、实体三元组、属性三元组的集合。给定预先在2个图中的对齐种子集M={(e1,e2)∈E1×E2|e1≡e2},其中,≡连接现实中实质等同的对齐实体。实体对齐任务的目标就是基于G1、G2、M找到2个知识图谱中所有的相同实体。

如图1所示,实体“椎动脉型颈椎病”在另一个知识图谱中会由其医保号“a67095”所指代,都有名为“消炎药物”的属性,但其他较多的实体也有“消炎药物”这一常见属性,这2个实体的邻居节点都与“颈痛”和“视力减退”有关,不难发现在特征表示时,更常见的属性在区分实体时重要性更低,而不常见的属性明显对区分实体的特征更有利,如何利用属性的重要性区分实体成为实体对齐任务的一大难题。

图1 实体对齐示例Fig.1 Example of entity alignment

本文所提出的实体对齐模型如图2所示。给定G1、G2、实体对齐种子M,动态图注意力对属性三元组初步编码得到实体表示,再通过多维标签传播融合关系三元组邻域信息后对实体表示进行传播以学习实体间的结构特征,在得到相似度矩阵后,通过Sinkhorn线性规划迭代得到最终的实体对齐相似度矩阵结果。

图2 本文模型框架Fig.2 Framework of the model in this paper

2.1 动态图注意力属性结构表示模块

图注意力网络[33]常用于计算节点的表示学习加权平均值,并利用打分函数为每个邻居的边计算权重,以确定邻居节点对中心节点嵌入表示的影响程度。但是,这种图注意力所学习到的注意力权重对普遍性的注意类型学习能力较差。例如“克罗恩病”与“克隆病”是对齐实体,且都有“消瘦”和“肠梗阻”2种属性,在传统图注意力上,“消瘦”这一属性在多个疾病中多次出现,而“肠梗阻”则出现得较少,因此,学习到的邻接关系特征应该突出 “肠梗阻”这一注意力权重。

为了更好地学习不同属性对实体表示的重要性,本文利用预训练模型来生成实体的属性信息嵌入,进而得到它的属性特征序列和属性值的字符特征序列。本文将属性三元组视作边,将属性值视作节点,构建一个包含实体、属性和属性值的实体属性子图。为了有效地汇聚属性与属性值信息以更新实体表示,本文从图节点预测领域得到启发,引入动态图注意力机制[34],在图注意力网络中,注意力系数分别将节点特征使用权重矩阵映射到新的空间,将新的向量进行拼接,再利用单层前馈神经网络进行内积操作并通过LeakyReLU激活函数进行激活,随后使用Softmax将目标节点与所有邻居节点计算出来的相关度进行归一化。本文模型先将实体属性子图的节点特征向量进行拼接,然后应用线性变换进行注意力系数非归一化计算,如式(2)所示:

(2)

(3)

(4)

最终训练目标是对2个空间的实体表示进行统一,使得训练集中对齐种子的嵌入尽可能保持相似,确保其他潜在实体的表示尽可能相似。本文模型采用以下基于边缘排名的损失函数训练L:

(5)

β-G(e′i,e′j)}

(6)

其中:β是超参数;是正样本集,是负样本集,在对齐实体对中使用k近邻算法,选取某个实体的邻近实体作为负样本集,以获得一组正负样本集合。采用AdaGrad优化算法来优化该损失函数,对各邻居实体根据式(3)、式(4)计算权重并加权组合,从而引入属性名称和结构消息聚合同时减少无关属性所带来的噪声影响,得到融合了属性结构特征的实体表示。

2.2 多维标签传播模块

在获得知识图谱的属性结构表示后,本文利用多维标签传播模块进一步探索知识图谱的关系三元组结构信息。此前,大多数关系结构信息学习模型主要基于图神经网络,该类模型在处理关系结构特征时,采用对每种关系类型训练单独的参数矩阵的方式进行特征学习,忽略了图关系三元组结构的特征判别,且无法解决由于不同知识图谱的模式定义而导致的异构性问题。

LightEA[35]最先把实体对齐问题视为人脸识别中的身份标签对匹配问题,基于文献[36]提出的理论:任意一对随机采样的高维向量都近似于正交向量,例如,当实体向量维度为1 024时,2个向量的内积相似度大于0.1的概率小于4.96×10-3。LightEA利用随机初始化赋予预对齐实体相同的向量特征,并将未对齐的实体和关系初始化为全零向量,再利用特定的传播规则将标签进行传播以学习实体间的关系结构特征。这种模型可以有效解决异构关系结构的实体对齐问题,为实体对齐提供一个多方面的信息视角。

(7)

(8)

(9)

2.3 基于线性规划的对齐实体推测模块

(10)

其中:E∈|ε|×|ε|指实体的相似度矩阵,ε是实体数量,矩阵中的每一个代表实体对的相似度;P是一个方形二进制矩阵,在每行和每列中只有一个1而其他元素为0,P代表了实体对齐的推测结果矩阵,其每一行及每一列只有一个1以表示G1和G2之间的实体对齐结果;〈〉F代表弗罗贝尼乌斯内积运算;指置换矩阵所有可能出现的集合。

文献[38]进一步证明了利用最优传输算法Sinkhorn可将式(10)转化为式(11),在只利用相似度矩阵E作为输入的情况下,获得最后的实体对齐结果P:

(11)

本模块利用最优传输算法Sinkhorn对2个知识图谱G1及G2的对齐实体结果进行进一步处理,能够充分利用双方实体的相似度信息,在提高对齐准确度的前提下也能提高推测效率。Sinkhorn是一种迭代算法,时间复杂度为O(kn2),k为迭代的次数,该算法利用非常小的迭代次数就可以生成精准的实体对齐结果,算法1描述了本文算法流程。

算法1基于动态图注意力与标签传播的实体对齐算法

输入知识图谱G1=(E1,R1,A1,V1,Tr1,Ta1),G2=(E2,R2,A2,V2,Tr2,Ta2),预对齐种子集M

输出所有的对齐实体对

1.初始化实体特征维度ns←1 024,β←0.8,随机初始化学习矩阵参数W和uT

2.通过式(1)~式(3)获得属性结构关于实体的注意力权重系数qk

3.通过式(5)得到实体的属性结构嵌入he

4.按三元组实体嵌入生成三维邻接张量L

5.对三维邻接张量L的3个轴进行压缩,得到Lside、Lfront和Ltop

6.设置标签传播轮数k = 0

7.While(k <2)

8.for each 实体e∈G do:

9.根据式(7)以及初始关系标签更新实体标签He

10.根据式(8)更新关系标签Hr

11.k←k+1

12.end

13.根据式(9)把每一层的标签拼接生成最终的节点嵌入hout

14.根据得到的节点嵌入生成G1和G2的相似度矩阵E

15.利用式(11)对相似度矩阵E进行Sinkhorn迭代,得到最后的实体对齐结果P

3 实验与分析

3.1 实体对齐数据集

为了证明本文所提模型的有效性,在以下数据集上进行实验(数据集的统计信息如表1所示):

表1 数据集信息Table 1 Datasets information

1)最常见的实体对齐基准数据集DBP15K[39],取其中的EN-FR-15K及EN-ZH-15K语言数据集,其中EN-FR代表英语-法语跨语言实体对齐数据,EN-ZH代表英语-中文数据。该数据库提取出的数据集确保2种语言的构造规范以及实体的指称都不相同,随机删除源图谱中低连接度实体,使平均属性度数增加1倍,然后执行IDS算法来生成新的知识图谱,每个子集包含15 000个预先对齐的实体对。

2)MED-BBK-9K[40]数据集是由实际使用的2个异构知识图谱医疗业务数据集经过专业医生手动标注的实体对齐数据集。MED-BBK-9K预设种子映射,与常规的基准数据集相比,其有着更大的节点度差距、名称差异和属性结构差异,为每个知识图谱提取实体并附加一个本体节点作为实体的属性,包括类结构(子类关系)和成员关系,确保数据集更贴近真实医疗场景中的实体对齐应用,每个子集包含9 162个预先对齐的实体对。

3.2 参数设置及评价指标

在模型的动态图注意力层中设置属性嵌入维度为1 024,通过BERT模型对数据进行词嵌入。为确保属性特征都有等长的表示,在经过池化操作后得到固定长度的特征表示。选择0.005作为学习率,损失函数阈值β为0.8,批次大小为4 000。利用正例实体随机生成10个负实例形成训练负例,并利用早停机制避免在过拟合后仍然持续训练。标签传播的轮数k设为2,保留实体相似度最高的前400个实体作为训练集中和预测样本特征最近的样本,迭代Sinkhorn轮数设为10,参数U为0.05。

实验采用平均倒数排名(MMR)、Hits@1、Hits@10作为实体对齐结果的评价指标,三者数值越高代表实体对齐结果越好。

3.3 实验结果

3.3.1 基于基准的实验结果分析

本文将现有主流实体对齐模型作为对比,包括基于翻译模型的实体对齐模型(BootEA、MultiKE)和基于图神经网络的实体对齐模型(RDGCN、RSN4EA、RNM、NMN、DGMC)。这些评估和基准研究都在理想的监督学习环境下利用不同的知识图谱信息并取得了最优性能,被广泛使用并作为不同技术的代表性模型。不同模型的实体对齐结果如表2所示,最优结果加粗标注。

表2 不同模型的实体对齐结果Table 2 Entity alignment results of different models

从表2可以看出,本文模型在3个数据集上都取得了最优的效果。MultiKE模型根据实体名称、关系和属性的视图嵌入获得实体特征,忽略了邻域关系结构信息的挖掘,并且MultiKE过度依赖实体名称的属性表示,而实体名称在跨语言知识图谱中有较大差异,如EN数据库中的实体“Nintendo_DS”在FR知识图谱中的实体名则是完全不同的 “Bomberman_(jeu_vidéo,_2005)”,可以看到这种情况下利用实体名称反而会阻碍实体的对齐效果。与MultiKE模型相比,本文模型在EN-FR-15K数据集中的Hits@1、Hits@10、MRR分别提升了0.19、0.12、0.17,在EN-ZH-15K数据集中的Hits@1、Hits@10、MRR分别提升了0.09、0.06、0.07。

在EN-FR、EN-ZH、MED-BBK数据集中,与最优的基准模型DGMC相比,本文模型的Hits@1分别提升了0.019、0.018和0.026。NMN与DGMC模型使用由图神经网络计算的局部节点嵌入,证明了图卷积网络能够有效融合图之间局部邻域的匹配特征,在3种数据集上都明显优于其他基准模型,可以看出关系邻域特征对于实体对齐任务有着明显的积极作用,然而这2种模型都忽略了属性关系的特征归纳。本文模型相较于最优基准模型的性能提升,验证了基于动态图注意力与多维标签传播的实体对齐框架的有效性。

3.3.2 超参数设置对实验结果的影响

本节通过实验验证模型中各种超参数对模型性能的影响。

对实体维度与对齐结果的关系进行分析,结果如图3所示。从图3可以看出,当维度在128~1 024之间时对齐的Hits@1结果都在稳定上升,而到了1 024维之后Hits@1的提高显著降低,原因正如前文所提的2个随机生成的高维向量相似的概率会随着维数的增加而呈指数下降,因此,当维度大于1 024时增加维度对Hits@1的影响显著减少,此时再提高维度对实体对齐结果作用很小,有着明显的边际效应。

图3 不同向量维度下的实验结果Fig.3 Experimental results under different vector dimensions

标签传播任务与常规的监督及半监督模型相同,图4展示了不同标签传播轮数对传播效果的影响。从图4可以看到,不同传播轮数时模型性能具有差异,当轮数k= 2时,模型在所有数据集中都达到了最佳的实体对齐结果,但随着轮数继续提高,实验结果开始明显下降,在第4轮传播时,在EN-FR-15K、EN-ZH-15K、MED-BBK-9K数据集中模型性能分别下降41%、39%与52%。

图4 不同传播迭代轮数下的实验结果Fig.4 Experimental results under different propagation iteration rounds

与图神经网络的信息融合层数类似,虽然通过传播压缩后的邻居矩阵特征,实体能够学习多跳邻居的关系结构特征,但更多的传播轮数也会导致过平滑问题,聚合远距离邻居节点使得对齐结果受更多噪声影响,引入过远的邻居标签会加强实体表征的近似度,造成实体对齐结果出现更多误差。

与传统的实体对齐算法在2个知识图谱间进行贪婪搜索以计算所有实体的相似度不同,本文模型将实体对齐结果的发现看成是基于线性规划的最优化过程,先从相似度矩阵中保留n个潜在的对齐节点(top-n),将n作为最近邻范围数,再利用Sinkhorn迭代算法得到最后的实体对齐结果,对齐实体发现几乎不会影响对齐性能。从图5可以看出,当n为500时,取得了较高的对齐结果精度。

图5 不同最近邻数下的实验结果Fig.5 Experimental results under different nearest neighbor numbers

在表3的消融实验中:移除动态图注意力属性结构代表模块(-属性注意力),即不利用属性名信息,仅通过随机初始化获得节点的特征进行标签传播,结合线性规划完成实体对齐任务,为公平起见,对其他使用到文本信息的模型也只进行随机初始化实体表示;移除多维标签传播算法(-标签传播)只使用基准标签传播模型进行结构特征传播;删除Sinkhorn线性规划实体推测模块(-Sinkhorn)只使用贪心算法选择最近的实体作为对齐结果。

表3 消融实验结果Table 3 Results of ablation experiment

从表3可以看出,删除其中任何一个模块都会导致显著的性能下降。与去掉所有模块之后的模型相比,本文模型在各个数据集上都取得了更优的效果,证明通过属性图注意力权重和多维标签传播,可以有效丰富知识图谱嵌入的语义。

3.3.3 不同种子集比例设置对实验结果的影响

在目前的实体数据集构造中,对大规模知识图谱手动标注对齐的实体对非常耗费精力。现有的模型都严重依赖预对齐的标注种子实体才能在实体对齐任务中发挥出优越性能。为了验证本文提出的实体对齐模型能够在较少的预对齐实体种子集中也能保持良好的性能,在相同的参数配置环境下进行实验,图6展示了本文模型在不同预对齐种子比例下的实验结果。在MED-BBK-9K数据集中,本文模型的Hits@1可以达到0.389,且在3种数据集上均明显优于基准模型,可知结合动态图注意力对实体属性信息进行建模可以更均匀地学习丰富的实体关系结构信息和属性语义信息。当测试集的知识不完整时,基准模型在知识图谱嵌入阶段对所获取的实体或关系表达能力不足,生成的嵌入表示区分度不够,增加了该模型在语义匹配时出现误判的几率,进而导致模型在不完整训练集与完整训练集上的对齐预测准确率有较大差距。实验结果证明,多维标签压缩方法可以更好地获得实体与关系间的整体信息,并且多轮次的标签传播可以更高效地利用预训练实体的语料信息。

图6 不同种子集比例下的实验结果Fig.6 Experimental results under different seed set ratios

4 结束语

本文提出一种基于动态图注意力与标签传播的实体对齐模型。将属性作为节点加入图结构中构建一个新的属性-实体-关系图,利用动态图注意力机制为属性分配不同的注意力权重,以降低无关属性的影响,为噪声属性提供更好的鲁棒性。为了缓解知识图谱中的实体异构问题,利用多维标签传播算法对实体和关系的邻接表示进行压缩,在压缩后的邻接矩阵上传播实体特征以学习关系三元组结构特征。最后,将实体向量对齐过程转化为带约束的线性规划问题,通过实体的双向匹配信息来解决传统实体对齐推断模型中存在的问题,并找出知识图谱中的等价实体,从而有效提高模型的实体对齐效果。实验结果验证了本文模型的有效性。

本文模型在对属性文本字符进行表示学习阶段过于依赖预训练模型的语义质量,这在实际的专业领域实体对齐中可能会由于语料不足而降低对齐的准确性。因此,下一步将利用属性以及其他知识图谱信息(如本体类别),进一步提高实体对齐模型的准确性。

猜你喜欢
三元组图谱实体
基于带噪声数据集的强鲁棒性隐含三元组质检算法*
特征标三元组的本原诱导子
绘一张成长图谱
前海自贸区:金融服务实体
关于余挠三元组的periodic-模
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
补肾强身片UPLC指纹图谱
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
主动对接你思维的知识图谱