舒世泰,李 松,郝晓红,张丽平
哈尔滨理工大学 计算机科学与技术学院,哈尔滨150080
知识图谱(knowledge graph,KG)[1]是一种用图模型来描述知识和建模世界万物之间关系的技术方法,属于语义层面的知识库(knowledge base,KB)[2],通常以网络的形式出现。在网络中,节点表示实体,节点之间的边表示关系,并使用三元组(h,r,t)对知识进行表示。KG 最早应用于提升搜索引擎的能力。随后,KG 在辅助智能问答、自然语言处理、大数据分析、推荐计算、可解释性人工智能等方面展现出较大的应用价值[3-5]。其中,知识表示是这些应用的基础。然而,由于知识的不断积累,KB 的规模扩展非常快,知识形式也变得越来越多样化[6-8]。以传统的形式对知识进行表示的弊端越来越明显,如实体间语义关系的推理变困难、数据稀疏性问题严重、计算的复杂性高、难以运用到大型KG 上等。
近年来,以知识表示为代表的知识图谱嵌入(knowledge graph embedding,KGE)[9]技术取得了新的研究进展,提出了将稀疏的三元组(h,r,t)语义信息映射到低维稠密的向量空间,将实体与关系的推理转变为对象间距离的计算,计算的距离越小,实体间的相似性越高[10]。同时,KGE 通过对实体和关系进行表示,能够解决传统表示方法面临的数据稀疏、知识推理困难等问题,并且促进了知识获取、实体消岐性能的不断提升[11-13]。
根据KGE的典型特性,学者们提出了众多KGE模型,主要分为两类:平移距离模型[14]、语义匹配模型[15]。对于平移距离模型,比较经典的有TransE(translating embedding)[16]、TransA(translating adaptive)[17]、TransR(translating in relation space)[18]、TransH(translating on hyperplanes)[19]、TransM(translating with relational mapping)[20]、KG2E(knowledge graphs with Gaussian embedding)[21]以及SE(structured embedding)[22]模 型等,这些模型的共同点是评分函数采用距离进行衡量。对于语义匹配模型,比较有代表性的是RESCAL模型[23]、SME(semantic matching energy)模型[24]、NTN(neural tensor network)模型[25]等,这些模型的共同点是评分函数采用相似度进行衡量。然而,KGE模型仍然面临知识图谱补全(knowledge graph completion,KGC)完成不足、图形结构特征未被充分利用、无法处理复杂的语义关系等问题。本文将对现有的KGE方法进行分析与研究,通过整理与归纳,总结目前研究面临的挑战,并对未来的研究趋势进行展望。本文的主要贡献如下:
(1)对KGE 方法进行了较为全面的分类,以解决问题类型作为分类依据,分为基于深度学习的方法、基于图形特征的方法、基于翻译模型的方法以及基于其他模型的方法。
(2)详细阐述每种模型的算法思想,归纳并分析KGE 方法中每种算法的优点和存在的局限性;最后从方法分类、文献发表年份、模型优缺点、所用数据集、评价指标和算法思想等角度对知识图谱嵌入方法做了横纵向比较。
(3)列出所述方法常用的实体关系数据集;对方法中常用评价指标进行说明;以WN18 和FB15K 数据集为例,对相关方法在该两种数据集上的链接预测结果进行对比和分析。
(4)讨论了当前研究的难点问题,并预测了未来的研究趋势。
KGE 旨在将KG 中包括实体和关系的内容映射到低维连续向量空间中,也称知识表示学习[26]。在词向量的启发下,考虑如何将知识图谱中的实体和关系映射到连续向量空间中,并包含一些语义层面的信息[27-29],使得在下游任务中更充分应用知识图谱,如智能问答、关系抽取等任务。连续向量的表达蕴含着更多的语义信息,更容易被计算机理解和操作[30-31]。
传统的知识表示方法,如早期专家系统时代的知识表示方法都是以符号逻辑为基础进行知识表示,其特点是易于刻画离散、显性的知识,具有较好的可解释性。但仍有许多不能用符号来刻画连续、隐形的知识,在表示过程中失去鲁棒性,从而在下游任务中难以达到预期效果。通过嵌入(embedding)技术将KG 中的实体和关系映射到低维连续向量空间中,提高了知识表示的能力。该方法主要有以下特点:
(1)使用向量的表示方式可以提高应用时的计算效率。将KG 的实体和关系映射到向量空间中,实现语义相似度计算等复杂操作[32-33],计算效率显著提高,有效解决数据稀疏等问题。
(2)增加了下游应用设计的多样性。用向量表示后,KG 更适用于当前流行的机器学习算法,例如神经网络等方法[34-35]。因为下游应用输入的并不再是符号,所以可以考虑的方法也不仅限于图算法。
(3)将KGE 作为下游应用的预训练向量输入,使得输入的信息不再是孤立的不包含语义信息的符号,而是已经经过一次训练,并且包含一定信息的向量[36-37],还可用来监督神经网络的训练过程。
目前,学者们的研究主要集中在基于深度学习的方法、基于图形特征的方法、基于翻译模型的方法三方面,少数学者的研究集中在基于其他模型的方法。这四方面虽然已经提出了一些成果,但是,很少有学者能够在链接预测、三元组分类以及实体对齐任务上取得实质性的突破,提升的性能也并不是很明显。因此,这四方面在今后很长一段时间内仍然是研究的热点。
KGC问题是指在知识图谱中某些链路往往是不完整的,即图中缺少链接。例如,在Freebase 和DBpedia中,超过66%的人条目缺少出生地。先前有关KGC的工作主要集中在浅、快速的模型上,这些模型可以缩放到大型KG 上。但是,与深度多层模型相比,这些模型学习的表达功能较少,可能会限制其性能[38]。针对此问题,研究者提出若干模型,比较有代表性的是ComplEx模型[39]、ConvE模型[40]、LCPE(local combination projection embedding)模型[41]。
ComplEx 模型的核心是利用潜在因子分解和复数的嵌入。算法思想是利用复数空间嵌入的组合来处理多种二元关系,包括对称和反对称关系,解决链接预测问题。该方法首先证明了在实体之间只有单一关系的方阵情况下使用复向量嵌入方法,然后推广到三阶张量中的一组堆叠方阵,以表示多个关系。该方法还认为只要使用正确的表示方法,标准的嵌入点积可以是一个非常有效的复合函数;当使用复向量时,由于它涉及两个向量之一的共轭转置,点积通常被称为Hermitian 点积,此时点积不再是对称的,而反对称关系可以根据所涉及实体的顺序得到不同的分数。因此复向量可以有效地捕获反对称关系,同时保留点积的计算优势,保证在空间和时间复杂度上都是最优的。由于只使用Hermitian 点积,与神经张量网络等模型相比,该方法更简单[42-44]。
嵌入的点积可很好地缩放,并且可以处理关系的对称性和自反性,使用适当的损失函数甚至可以实现传递性。同时,该方法可扩展到大规模数据集上。在基于FB15K 数据集的链接预测实验中,该模型性能比TransE[16]提高19.9%,具有较好的实验效果。然而,此模型也存在一些缺陷,如预测性能偏低,生成的负采样较少,训练时间偏长,不能同时对所有的关系模式和复杂关系进行建模和推理[45]。
ConvE 模型的核心是使用多层卷积神经网络。算法思想是使用2D 卷积来预测KG 中缺失的链接,通过卷积层和全连接层对输入实体和关系之间的相互联系进行建模。如图1 所示,具体过程如下:
(1)将实体和关系嵌入进行重塑和连接;
(2)将所得矩阵作为卷积层的输入;
(3)将所得的特征映射张量矢量化并投影到k维空间中;
(4)与所有候选对象嵌入匹配。
该模型的主要特点是得分函数由二维嵌入上的卷积定义。得分函数为:
式中,es和eo分别为头实体s和尾实体o的嵌入表示,rr∈Rk是依赖于r的一个关系参数,W为权值矩阵,和分别表示es和rr的2D 重塑。为了训练模型参数,该模型使用逻辑回归函数来表示得分情况,即:
Fig.1 Process diagram of ConvE图1 ConvE 流程图
并最小化交叉熵损失函数,即:
式中,N表示实体数量,t表示维度为R1×1或维度为R1×N的标签向量,判别关系是否存在,若不存在则为0。同时,该方法为更快训练文献[46]模型,使用修正线性单元作为非线性函数f,并在每一层之后进行批量归一化处理,以提高收敛速度。此外,在嵌入运算和卷积运算后的特征映射和全连接层上使用了Dropout 算法及Adam 优化器,对标签进行平滑处理,防止过拟合现象。
在WN18 和FB15K 数据集上,ConvE 性能优于ComplEx,具有较高的参数效率,在对具有高度关联性的节点建模时也非常有效。但是,它仍然存在一些局限性,例如嵌入之间的交互次数偏低,模型卷积深度偏浅。
LCPE 模型的核心是使用参数共享的神经网络。该模型思想是将ProjE 模型和实体相似度信息相结合,先判断两个实体是否有关系,后判断该关系的具体类型,由于相似的实体嵌入向量在向量空间中距离更近,可根据实体分布稠密的局部空间来判断实体之间的具体关系类型。如图2 所示,该模型是由判断两个实体之间是否存在关系和实体之间相似度的网络构成。
在图2 中,Wc是由候选实体向量组成的矩阵,WE是由实体向量组成的矩阵,WR是由关系向量组成的矩阵,Ei和Ej分别是从Wc和WE中提取出的一个实体向量,R是从WR中提取出的关系向量,De和Dr分别代表组合矩阵。
该模型将ProjE 模型和实体间的相似度结合,定义如下得分函数:
Fig.2 LCPE model structure图2 LCPE 模型结构
式中,h(e,r)i指代实体集中第i个实体的得分,f和g表示激活函数,Wc∈Rs×k表示候选实体矩阵,bp表示偏移量,e⊕r表示实体和关系的组合运算,表示实体向量e和候选实体集中第i个实体的嵌入向量的内积。用softmax 和tanh 作为激活函数替换后得到的得分函数为:
并利用listwise 方法进行训练。LCPE 模型的损失函数定义如下:
在公开数据集WN18 中,LCPE 正例三元组的MeanRank 比ProjE 提高了11.0,而正例三元组的Hit@10 比ProjE 提升了0.20%;在FB15K 中,Mean-Rank 提前了7.5,Hits@10 平均提升了3.05%。然而,此模型也存在一些局限性,例如共享变量神经网络层数偏浅。
无论是ComplEx,还是ConvE 与LCPE,这些都是非常新颖的嵌入模型,能够较好地用于KGC 工作,只是每个模型的侧重点不同,ComplEx 模型侧重于使用Hermitian 点积,ConvE 模型侧重于使用多层卷积网络,LCPE 模型侧重于将ProjE 模型和实体相似度信息相结合。除此之外,也可以考虑使用卷积神经网络改进最先进的模型,每个三元组都表示为一个三列矩阵,其中每个列向量代表一个元素,再将此三列矩阵输入到卷积层,在卷积层上对矩阵操作多个过滤器以生成不同的特征图;将这些特征图连接到一个表示输入三元组的单个特征向量中,通过点积将特征向量与权重向量相乘以返回分数,来预测三元组是否有效。同时,也可以考虑融合稀疏的关注机制,通过共享概念探索三元组中隐藏的关系。
知识图谱是由若干实体和关系组成的一个复杂的多关系图形网络结构。图形特征问题是指当前知识图谱嵌入方法不能很好地利用KG 中图形结构特征。传统的KGE 模型在学习时注重将KG 视为一组独立的三元组,这样会忽略图结构中的重要信息,包括实体特征信息、三元组上下文等。为解决此问题,研究者们提出若干模型,比较有代表性的包括TCE(triple-context-based knowledge embedding)模型[47]、DPTransE 模型[48]。
TCE 模型也称三重上下文的知识嵌入模型。算法思想是充分利用KG 中的图形结构特征,尤其围绕三元组的局部结构,即由邻居上下文和路径上下文组成的三元组上下文,在统一的框架中表示三元组及其上下文的结构信息(如图3),这样三元组上下文中的结构信息就可以结构化。
Fig.3 Description of triple context of triples in KG图3 KG 中三元组的三重上下文的说明
对于邻居上下文,给定一个实体e,实体e的邻居上下文是一个集合:
即以e为头实体的三元组中出现的所有关系-尾实体对。例如在图3 中,实体h的邻居上下文是:
对于路径上下文,是指KG 中的一个实体到另一个实体的一组路径。这种结构特征有利于对实体对之间的关系进行建模并捕捉到它们的信息交互。例如在图3 中,实体h和实体t的路径上下文是:
因此该模型可形式化表示为:
传统模型的得分函数只与实体和关系的嵌入有关,如TransE 的得分函数为:
而该模型的得分函数是在此基础上融合三重上下文得到的,形式化为:
式中,C(h,r,t)表示(h,r,t)的三重上下文。一个三元组得分越高,表明它在更大程度上具有不变性。但是,此模型的局限性是在基线上不如经典的翻译模型。
DPTransE 模型的核心是利用判别路径进行嵌入表示。算法思想是采用联合学习机制,将基于图像特征模型和基于潜在特征模型相结合。
对于潜在特征模型,在KG 中,多步关系和中间实体带来了更多的交互信息,因此在多步关系和直接关系之间建立强相关性是非常必要的。为此该方法提出语义关联假设,假设直接关系可以通过多步关系路径的线性组合来重构,这些判别路径可以提高多个关系之间的嵌入能力。但是,基于潜在特征模型的语义信息丢失是不可避免的,须根据上述假设,将内在损失与语义损失一起最小化,公式如下:
式中,rk=αkP(h,t)表示直接关系的语义可以通过给定相似实体对的多步关系线性组合来近似重构,P(h,t)={p1,p2,…,pn}表示多个关系路径的集合,为归一化因子,λ1用于平衡左右两部分,函数得分越小,说明三元组被翻译的效果越好。
对于图像特征模型,为衡量每条路径的可靠性,引入PRA-style方法,该方法不同于原始PRA,而是使用路径作为特征来预测实体对之间的关系。在关系聚类阶段,使用K-means 算法将相似的关系分成一组;在特征计算阶段,基于实体相似性假设计算每条路径特征值,相似性定义如下:
式中,z是给定实体对(hi,ti)的每条路径的中间实体,dz表示实体z的度。
基于图特征在发现语义相关性和为实体-关系提供更精确、更有判别性的语义嵌入方面起着关键作用。该模型可同时从潜在特征和图形特征中学习,建立这两个特征之间的相互联系。不足之处在于基于图形特征必须与三元组交互。
TCE 模型、DPTransE 模型都能够较好地处理图形特征问题。TCE 模型的核心是利用三元组上下文,虽然这种思想并不是第一次出现,但是,将其利用到评分函数中还是首次出现,改进的空间仍然很大,不足之处是在基线上不如经典的翻译模型。DPTransE 模型的核心是利用判别路径的嵌入,将不同的模型进行融合,互相取长补短已经成为当下研究的新常态,此模型今后的发展空间较广阔,不足之处是基于图的特征必须与三元组交互。
为了解决KG 中复杂关系问题,许多基于翻译的模型将KG 中的实体和关系嵌入到连续的向量空间中,并将关系编码为该空间中的翻译操作,从而获得更好的性能[49]。这些模型在表达KG 的自反性、1-N、N-1 和N-N等复杂关系时都有局限性。针对这个问题,比较有代表性的有NTransGH 模型[50]、STransH 模型[51]、TransG 模型[52]。
NTransGH 模型的核心是将神经网络与广义超平面的翻译机制相结合。算法思想是首先通过广义超平面转换机制,将关系建模为转换操作,使得实体在不同的关系中有不同的角色;然后设计一个神经网络以捕获复杂的关系模式,使用一组特殊矢量而不是TransH 中的一个法向量来确定广义超平面[53-54]。为了表达复杂的关系,引入了两层神经网络来定义得分函数:
式中,W1∈Rn×n、W2∈Rn为权重参数,m=Mrh⊥+r-Mrt⊥为投影后经过平移操作得到的三元组。
NtransGH 模型可视化如图4 所示。在模型训练时,通过替换语义相似实体来提高生成负例的质量。该模型的损失函数为:
其中,A1、A2表示如下:
式中,C是一个用于衡量软约束重要性的超参数,P是正例三元组的集合,N是负例三元组的集合;在式(17)、式(18)中,表示向量,ε是小标量,
Fig.4 Comparison of TransH and NTransGH models图4 TransH 和NTransGH 模型比较
与TransH[19]相比,该模型基于FB15K 的链接预测实验中,Hits@10 提高了17.1%。该模型缺陷是需要操作的参数偏多,训练难度大。
STransH 模型的核心是分别在实体空间和关系空间中建模。算法思想是将SE 模型与TransE 模型进行结合,借鉴TransH 模型的思想,引入投影到特定关系超平面的机制。具体方法:首先将三元组中的头实体h和尾实体t映射到给定关系的超平面wr上,分别用h⊥和t⊥表示,用关系向量r将超平面上的h⊥和t⊥联系起来。即:
由此得到该模型的得分函数,即:
式中,Wr,1、Wr,2用于三元组中头实体和尾实体的投影操作,g(x)为tanh 函数。实验表明使用L1 距离效果更好。
其次采用单层神经网络的非线性操作来刻画实体与关系之间的语义联系。该方法中,对负例三元组的抽样策略进行改进,以不同的概率替换头实体和尾实体,定义如下参数:
采用参数p的伯努利分布抽样策略,在式(21)中,tph指每个头实体对应的尾实体的平均数量,hpt指每个尾实体对应的头实体的平均数量。并选择最相近的实体进行替换,实体和关系之间的语义相似度通常使用向量之间的相似度表示。定义实体的相似度为:
式中,h和h′分别表示正例三元组和负例三元组中的头实体。
实验表明,该模型性能比TransH[19]提高3.4%。缺陷是没有将关系路径考虑在内,在今后研究中可将关系路径考虑在内,以达到更好的表示效果。
在知识图谱的一个三元组(h,r,t)中,一个关系可能与该三元组中多个实体存在潜在联系,即产生多重关系语义问题。为解决该问题,研究者提出一种模型即TransG 模型。该模型的核心算法是使用高斯混合模型来刻画三元组中头实体h和尾实体t的联系,并结合贝叶斯非参数无限混合嵌入模型。关系r代表的每种语义用高斯分布来描述,由此形成多个高斯分布,从而区分出正确和错误三元组。
下面从几何角度解释该思想:对于给定的三元组(h,r,t),TransE模型希望h+r≈t,即头向量加关系向量约等于尾向量,而TransG模型将该几何关系推广为:
相比基于TransE 的若干模型,TransG 可根据三元组的特定语义自动选择最佳的翻译向量,更专注于特定的语义嵌入,避免其他不相关的语义成分带来的干扰。缺陷是不适用于多特征关联挖掘。
在处理复杂关系问题上,NTransGH 模型、STransH模型、TransG 模型都表现出了很大的发展潜力。NTransGH 模型的核心是将神经网络与广义超平面的翻译操作相结合,当前,在KGE 方法中,将神经网络运用于链接预测和三元组分类任务中仍然属于比较热门的研究点;同样,将翻译机制运用到KGE 中也属于比较热门的研究点,这是第一次将两者结合在一起,具有很大的研究价值,不足之处是需要操作的参数偏多。STransH 模型的核心是分别在实体空间和关系空间建模,将两种简单、常见的模型融合在一起,通过特定的机制进而提升预测的性能,仍有很大的研究空间,不足之处是没有将关系路径考虑在内。对于TransG模型,它的核心是贝叶斯非参数无限混合嵌入,不足之处是不适用于多特征关联挖掘。
除上述三种方法外,少数学者正在拓展其他方面的研究,如关于实体的层次类型中的丰富信息、关于实体简洁的描述、关于三元组的相互联系与相互依赖、关于逻辑规则的背景信息等。这些方面的研究虽然取得突破性进展的不多,但极大丰富了KGE方法的研究,拥有广阔的研究前景。
基于翻译模型的知识表示方法在2013 年首次被提出,研究者们针对各种问题提出了许多解决方案。现有的大多数方法集中于对三元组结构化信息的表示,忽略了层次类型中丰富的语义信息。文献[55]利用层次实体类型的优势,提出TKRL(typeembodied knowledge representation learning)模 型。在遵循TransE 模型的假设下,TKRL 模型首先将头、尾实体投影到对应的类型空间,然后通过两种类型编码器对层次结构进行建模,最后根据得分函数优化TKRL。该模型能够很好地利用层次类型信息,与TransE[16]、TransR[18]相比,性能分别提高11.3%、6.2%。但缺陷是只将类型信息考虑到KG 的表示学习中。在未来的研究中可将图像和文本形式的语义信息融合到该模型中,同时融合多元知识库信息如维基百科,以引入更深层次的内容。
表示学习旨在将实体和关系投影到连续低维空间中,大多数方法专注于表示三元组中实体和关系之间的联系。实际上,在许多知识图谱中,通常都有对实体的简洁描述,而现有方法都无法很好地表示这些信息。因此,文献[56]根据实体描述的特点提出了DKRL(description-embodied knowledge representation learning)模型。算法思想是将词袋模型(continuous bag-of-words,CDOW)和卷积神经网络模型(convolutional neural networks,CNN)相结合来表示语义信息。DKRL 模型对相应的三元组和实体描述的信息进行建模,并将每个三元组中的关系视为从头实体到尾实体的转换;同时,CNN 考虑了文本中单词之间复杂的局部交互作用,即文本词序。特别的,有些实体并不存在,只有其描述信息,而DKRL 模型可以根据实体的描述自动构建实体的表示。与TransE[16]模型相比,性能提升了5.3%,具有良好的泛化能力和鲁棒性,可尝试应用于大规模知识图谱及Web 领域。此模型的局限性是仅考虑用于表示学习的实体描述,未考虑各种关系或实体类型的文本信息。
现有的大多数方法将KB 视为一组三元组,再分别学习它们的表示形式。但是,三元组是相互联系并相互依赖的。针对此问题,文献[57]提出一种图感知KGE 方法,即GAKE(graph aware knowledge embedding)模型。算法思想是首先将KB 表示为有向图,利用图的结构信息来学习任何顶点或边的表示形式;其次引入邻居上下文、路径上下文和边缘上下文三种类型的图上下文进行嵌入,每种类型都从不同的角度反映知识的属性;最后提出一种注意力机制,以学习不同实体和关系的表示能力。在链路预测和三元组分类实验中,GAKE 模型的性能优于TransE、TrnasH 等模型。缺陷是未使用实体描述或来源于其他文本信息来构建文本上下文。
逻辑规则包含丰富的背景信息,但往往并未得到很好的研究。针对此问题,文献[58]将知识图谱和逻辑规则相结合,即KALE(knowledge and logic embedding)模型,核心是将三元组和逻辑规则在统一的框架中表示和建模。算法思想是将三元组看作原子,根据TransE 模型假设对其建模;逻辑规则看作由原子与逻辑连接词组成的公式,采用t范数模糊逻辑进行建模。通过这种方式以获得更具预测性的实体和关系嵌入,有利于知识获取和知识推理。与TransE[16]相比,性能提升了1.4%。该方法可以获得更多的预测性实体嵌入,甚至可以在纯逻辑推理范围之外做出更好的预测。缺陷是未考虑合并其他类型的逻辑规则。
TKRL 模型、DKRL 模型、GAKE 模型及KALE 模型分别在处理实体的层级类型中的丰富信息、实体简洁的描述、三元组的相互联系与相互依赖、逻辑规则的问题时,都发挥了各自的优势,提高了预测的效果。但是,由于这些方面的研究属于KGE 领域的难点,研究结果并不是很理想。然而,这些模型对于实体识别、关系抽取等任务仍然具有较大的作用,因此,这些方面的探索仍具有一定的研究价值。
本章介绍了上述模型所使用的数据集,介绍了实验中常用的评价指标,对上述模型的算法思想、模型优缺点、所用数据集及评价指标进行了总结。最后以WN18 和FB15K 数据集为例,展示了上述模型在链接预测上的实验结果。
随着人工智能和大数据技术的飞速发展,研究者已构建出多个大规模知识库,如语言知识库WordNet[59]和世界知识库Freebase[60]等。以上模型所用数据集都基于这两种知识库,使用其中的部分子集开展实验。为了加强对上述KGE 方法性能的评估,本文收集了比较常用的实体关系数据集,总共达11 个,每个数据集的实际数据见表1。
Table 1 Often-used data sets of entity relationships表1 实体关系常用数据集
对于KGE 算法实验,主要的评价指标有Mean-Rank、Hits@n以及ACC。对于链接预测中的关系预测和实体预测,常用的评价指标为MeanRank、Hits@n;对于三元组分类效果的预测,常用的指标为ACC。
(1)MeanRank
MeanRank 表示正确实体的平均排序得分,MeanRank 值越小表示排名越靠前,实体向量化结果越好,是衡量链接预测的重要指标。
(2)Hits@n
Hits@n表示正确实体排在前n名的概率,该值越高表示效果越好。常见的有Hits@10、Hits@3和Hits@1。此外,在Hits@n中,将未经处理的实验设置称为“Raw”,将剔除了对实验有干扰的损坏三元组的实验设置称为“Filt”。
(3)ACC
ACC 是评价三元组分类任务准确率的重要指标,值越高,表明模型在三元组分类这一任务上的效果越好。公式如下:
式中,Tp表示预测正确的正例三元组的数量;Tn表示预测正确的负例三元组数量;Npos和Nneg分别表示训练集中的正例三元组和负例三元组的数量。
本文将KGE 算法分为四类,分别对比了每一种算法的分类、名称、发表年份、数据集、评价指标、算法思想、局限性,具体的比较结果见表2。
Table 2 KGE algorithm comparison表2 KGE 算法比较
表2 (续)
为了加深对基于深度学习的方法、基于图形特征的方法、基于翻译模型的方法及基于其他模型的方法算法的理解,对比了每种算法在FB15K 数据集上的链接预测实验,具体结果见表3。
Table 3 Experimental results of link prediction on FB15K表3 在FB15K 上链接预测实验结果
从表3 可以看出,在基于深度学习的方法中,LCPE模型MeanRank(Filt)比ComplEx 和ConvE 分别低14.5、11.0,区分度明显;ComplEx 的Hits@10 最高,为84.0%,但与后两种算法结果差距不大,总体上,LCPE 模型的实验效果相对较好。在基于图形特征的方法中,TCE模型MeanRank比DPTransE低99.0,而两者Hits@10 相差不大,综合来讲,TCE 模型略胜一筹。在基于翻译模型的方法中,NTransGH 模型的MeanRank 最低且Hits@10最高,故NTransGH模型的效果最好。
从表4 可得,以WN18 子集做链接预测时,在基于深度学习的方法中,LCPE 模型的MeanRank 最低,ComplEx 的Hits@10 最高,综合评定,LCPE 模型相对较好。在基于图形特征的方法中,TCE 的MeanRank最低,DPTransE 的Hits@10 最高,两者的实验效果平分秋色。在基于翻译模型的方法中,NTransGH 模型MeanRank 最低并且Hits@10 最高,因此,NTransGH的实验效果最好。在今后的研究中,可尝试将这几种模型进行融合,以得到更好的实际应用。
Table 4 Experimental results of link prediction on WN18表4 在WN18 上链接预测实验结果
本文对现阶段KGE 的研究现状进行了综述,对目前KGE 领域已有的研究成果总结归纳。本章讨论了目前研究的难点问题,并对知识图谱嵌入技术的未来发展进行了展望。
从知识表示概念首次被提出到现在,基于距离模型、能量模型、单层神经网络模型、双线性模型、张量神经网络模型、矩阵分解模型及翻译模型等几类模型的研究一直在持续,尤其2013 年Bordes 等人提出TransE 模型后,针对TransE 模型存在的局限性,学者们从不同角度改进该模型,但仍未得到广泛的应用。目前该领域仍存在以下研究难点:
(1)表示空间的选择。表示空间在编码实体的语义信息并获取相关属性等方面起着关键作用。目前研究人员在Point-wise 空间、复向量空间、高斯分布和流形空间都取得了研究进展。在建模时,如何设计一个合适的表示空间,以提高实体和关系的表示能力并降低计算的复杂性,仍是今后研究难点。
(2)少样本的不确定性。KG 遵循长尾分布,尤其在领域知识图谱中,许多实体只有少量的三元组描述。在链接预测实验中往往需要足够的样本进行训练,显然少量的三元组无法完成有效的模型训练,在下游任务中难以达到预期效果。此外这些小样本存在不确定性,实体和关系之间的语义非常模糊,导致无法准确学习到实体和关系之间的语义表示。如何解决少样本的不确定性问题亟待研究。
随着KGE 技术的不断发展,越来越多的研究者开始关注此领域,未来的发展趋势如下:
(1)基于图卷积神经网络的嵌入
随着对知识图谱研究的不断深入,KG 得到了广泛的应用,包括智能问答和信息检索。研究者对知识库和知识图谱的创建及维护上投入了大量的精力,但即使最大的知识库也存在知识缺失问题。针对该问题,文献[61]首次提出将图卷积神经网络(graph convolutional network,GCN)应用于建模知识图谱中多关系数据。过程如图5 所示。
Fig.5 Entity update graph based on GCN图5 基于GCN 的实体更新图
具体的,在对每个实体进行表示时,和当前实体有直接关联的所有关系分别用GCN 进行聚合,聚合后的每个结果通过激活函数生成新的实体。该方法引入了参数共享和加强稀疏约束机制,对于KG 中的其他实体,可通过共享参数实现新实体的形成。
实验表明,该方法在链接预测方面比同类型方法提高29.8%,证明了该方法的有效性,可用于大规模多关系知识图谱的建模。该方法可推广到其他关系因子分解模型,有效地应用于关系提取和知识推理等工作。在未来的研究中,可将图形自动编码器模型和其他因子分解模型相结合,用一种依赖数据的注意力机制来取代该模型在邻居节点和关系类型上的聚合操作。基于GCN 的表示学习研究方兴未艾,是一个重要的研究方向。
(2)基于复杂上下文的嵌入
通过图上下文进行知识嵌入时有以下挑战:①在KG 中,由于三元组都有独特的属性结构,会有许多不同类型的图上下文。如何设计一种框架来处理不同类型的图上下文是未来工作的一个挑战。②在同种类型的图上下文中,不同实体具有不同的表示能力。可考虑将实体描述信息和本地邻居上下文相结合形成“复合邻居”,利用一种新的图存储网络从复合邻居中提取潜在语义信息,设计一种更有效的邻居选择机制,避免选择过程中的遗漏;同时寻求其他类型的编码器,减少实验过程中的参数和内存开销,更好地解决KG的稀疏性问题,具有重要的意义。
(3)基于时间模型的嵌入
KGE 是一种预测KG 缺失环节的有效方法,旨在学习实体和关系的分布式表示形式。现有的知识图嵌入模型主要考虑头、尾实体所在的空间具有相同的属性。但头、尾实体可以是不同类型的对象,不应该位于具有相同属性的向量空间中。文献[62]提供了一种新的研究思路。算法思想是引入时域和频域两个概念,将头实体表示为时域空间的一个点,尾实体表示为频域空间的一个点,将实体之间的转换和实体投影到时域空间的对角投影矩阵定义为一个组合关系。
该模型性能比ComplEx 提高约1.4 个百分点,在链接预测任务上取得一定成效。此外,还可考虑不同关系模式下实体嵌入的多样性分布问题,对所有关系模式如对称/反对称、反演和合成的关系进行建模,也是一个具有研究价值的方向。在后续的研究中,一方面可利用时间捕捉实体之间的差异,另一方面可以充分利用KG 的多模态信息(如文本、图像等),将其与KG 的网络结构和时间这三部分融合,以获得更好的实验效果。
(4)基于空间投影和复杂关系路径的嵌入
传统的KGE 模型在进行知识表示时往往仅关注头、尾实体对之间直接的关系,而忽略掉了KG 中可能包含的关系路径。PTransE 模型提供了一种简单关系路径推理模式,如三元组(谷歌,是,人工智能公司)和三元组(人工智能公司,属于,高科技公司)具有潜在的关系路径,即(谷歌,是,高科技公司)。通过这种推理模式,提高了知识表示的有效性。
而在知识图谱中还有许多复杂的关系路径,如三元组(姚明,出生于,上海)和三元组(姚明,是,NBA 球星)之间存在着复杂的推理关系,解决这种复杂的关系路径,一种比较新颖的思路是对关系进行建模,并且在空间进行投影,考虑结合关系的语义信息,探索一阶逻辑的分布式表示进行知识的嵌入,也是一个重要的研究方向[63]。