张 欣,王振友
(广东工业大学 数学与统计学院,广东 广州 510520)
1960年,Quillian在进行自然语言理解的应用研究时提出了语义网络概念,侧重描述概念间语义关系,这是知识图谱的起源。语义网和链接数据是Tim Berners Lee分别在1998年和2006年提出的,是知识图谱发展的基础。随后,学者们构建了大量大规模知识库,包括常识知识库Cyc[1],词典知识库WordNet[2]和世界开源知识库FreeBase[3]等。2012年,知识图谱的概念由Google正式提出,主要侧重强调数据或事物之间的关联,随后亚马逊的Amazon Neptune、微软的多模数据库CosmosDB以及腾讯云的“星图”等陆续出现。
知识表示学习主要包括基于平均距离的模型、语义匹配模型以及融合多源信息的模型等[7]。受word2vec模型[8]的“词向量在语义空间中具有平移不变性”启发,Bordes等[9]提出了TransE模型。TransE简单高效,但是在处理复杂关系时性能不佳。针对TransE的局限性,研究者们相继提出了TransE的很多变体,其中包括TransR[10]和TransD模型[11]。TransD是在TransR基础上引入了投影向量的概念,这使模型参数量增加了一倍,且实体两种表示之间的关系不明晰,模型仍存在不可解释性等问题。
为此,本文针对TransD模型的缺陷,提出了一种概率分布下双目标交替优化的知识表示模型(以下简称PTransD)。首先,通过聚类算法构造k个实体类与实体投影一一对应,定义实体类中心为每一类实体语义向量的均值,采用“实体类中心与实体投影的欧氏距离最短则归属一类”的原则来判断实体投影所对应的实体类,这大大减少了模型参数的数目。然后本文采用概率代替欧氏距离来表示相似性,借鉴概率分布的原理,用K-L散度值来衡量该任务的损失。最后将三元组损失学习到的实体表示作为K-L散度损失的先验知识,双目标交替优化[12]训练得到实体和关系的向量表示。在模型训练时,基于伯努利采样方法,从类间距大的实体类中选择实体进行负采样,并在数据集上进行实验分析,验证模型的有效性。
平均距离模型是知识表示学习中的代表模型,采用基于距离的评分函数,用头实体通过关系进行翻译之后的实体和尾实体之间的距离来测量事实三元组的合理性,其中较有代表性的方法包括TransE、TransH[13]、TransR、TransD、TransF[14]以及TransGH[15]等。
词向量模型word2vec使每个词可以映射到一个向量,以表示词对词之间的关系。Bordes等[9]受到此现象启发,提出TransE模型。对于每个三元组(h,r,t),关系向量r是从头实体向量h到尾实体向量t的一个翻译操作。TransE提出h+r-t≈0的观点,要求正确的尾实体t分布在h+r附近,定义得分函数为f(h,r,t)=‖h+r-t‖L1/L2,L1为1范数,L2为2范数。TransE模型参数少,计算简单,缺点是在遇到自反、一对多、多对一以及多对多等复杂关系时,不同实体在同一关系中会有相同的向量表示。
TransH克服了TransE的上述缺点,将实体和关系嵌入到统一的向量空间,把实体投影到关系的超平面中进行翻译,即h⊥=h-wTr hwr,t⊥=t-wTr twr,wr为关系超平面的单位法向量;h⊥为h在实体空间翻译以后在关系空间里的向量表示;t⊥为t在实体空间翻译以后在关系空间里的向量表示。定义得分函数为f(h,r,t)=‖h⊥+r-t⊥‖。TransH使实体在不同关系中有不同的表示,且没有增加模型的复杂度和训练难度。
TransE和TransH都是在同一空间中考虑实体和关系,然而从本质上看实体和关系是不同的客观事物,在同一空间中表示是不合理的。TransR提出不同的关系关注实体的不同属性,应具有不同的语义空间,将不同关系下的实体投影到不同的语义空间中进行翻译,即h⊥=hMr,t⊥=tMr,Mr为只和关系r有关的投影矩阵。
表1列出了以上所有提及的知识表示模型的复杂度。PTransD在时间复杂度相等的情况下,空间复杂度远小于TransD,而相比于TransH,PTransD的复杂度相差不大,且实验结果和性能较好,验证详见第3节。
表1 各嵌入模型的复杂度Table 1 Complexity of several embedding models
基于TransD模型存在的问题,本文详细地介绍了在此基础上改进的知识表示模型PTransD。PTransD使用聚类算法和概率分布相似的原理来克服TransD的模型参数多和实体两种表示之间无联系的缺陷,并将得分函数的距离模型和概率分布相似模型集合成一个模型,从而增强模型的表示能力。
模型参数越多,模型的拟合能力越强,越容易出现过拟合,导致模型泛化能力差,因此本文减少了投影向量个数。假定实体投影向量个数为k,对实体语义向量e(包括h和t)聚成k类,使实体类和实体投影形成一一对应的关系。聚类标准为计算每个e到所有实体投影epj之间的欧氏距离,每个e都对应一个距离最近的epj,对应同一个epj的实体自成一类。
为便于数学表达,记epj和对应实体集组成一个邻域U(epj),epj为该邻域的邻域中心,对应实体集中的元素e被 称作邻域向量,记作e∈U(epj),两两邻域之间互不相交。k个实体投影分别为,在实体空间中对应k个邻域,所有实体就被自然地分为了至多k类。如图1所示,在第i个邻域U()中, 它们所对应的投影向量都为。
图1 实体空间实体分布示意图Fig.1 Schematic diagram of entity distribution in entity space
所有实体聚类完成后,头尾投影矩阵分别表示为
定义关系空间中被投影的头实体h⊥和尾实体t⊥的表示为
特别地,当m≥n时,式(3)、式(4)可以进一步表示为
对三元组(h,r,t)来说,实体h、t及关系r都有两种表示,用于构建投影矩阵的投影向量hpj、tpj、rpj解决了“投影矩阵只与关系有关”的问题,但三元组的两种表示之间的关联信息并没有在TransD的模型假设中出现。TransD的实验结果显示,同一类的实体具有相似的投影向量。因此,不妨提前对实体投影做出约束,在实体空间中,相距越近的实体e,越有可能属于同一类,对应的实体投影epj的距离也应该越近。本文提出猜想:若不同类之间的距离相近,对应的实体投影也应该越近。
测量类间距离有很多种方法,包括平均距离法、最短距离法、重心距离法等,但这些方法都涉及大量的两点距离计算,故本文提出实体类中心的概念,使用实体类中心代替整个实体类进行类间距离计算。在实体空间中,每一类实体语义向量可以确定一个实体类中心,采用算术平均值的方法计算k个实体类中心,第i类的实体类中心定义为
式中:N(U())为属于第i个邻域U()的实体总数。若第i类实体集为空,则实体类中心定义为该类的投影向量,以便后续计算。如图1中,第i类邻域的实体类中心为
实体类中心距离越近,对应的投影向量也越近。常规的做法是使用欧式距离来表示这种相似性,但是在高维空间中,每个坐标对欧式距离所做的贡献往往是不同的,本文把这种距离关系转换成一种概率来表示相似性。
2.3.1 双训练目标
所有知识表示模型都采用三元组损失函数作为目标函数进行训练,本文在三元组损失函数的基础上增添K-L散度损失函数作为辅助,完整的损失函数表示为
2.3.2 负采样策略
训练模型时,需要损坏知识图谱中的三元组来构建负例三元组。TransE提出的方法是均匀采样(随机替换头尾实体),但这种抽样方法在处理一对多、多对一以及多对多的复杂关系时,构建的三元组不是负例的概率较大。针对上述缺点,TransH提出基于伯努利分布的采样,以不同的概率来替换头尾实体,降低引入错误负例的概率。本文在伯努利分布采样的基础上,选择类间距大的类中的实体来替换头尾实体,以便提高模型对实体的区分度。
1) 以不同的概率替换
在生成负例时,根据关系的类型不同来设置不同的替换策略。对于一对多关系,以更高的概率来替换头实体;对于多对一关系,以更高的概率来替换尾实体;对于多对多关系,相当于多个多对一关系或者一对多关系,按前两种关系的替换策略来进行。
首先提出2个概念:在一个关系的所有三元组中, tph表示每个头实体对应的尾实体的平均数量,hpt表示每个尾实体对应的头实体的平均数量。当tph <1.5且hpt <1.5时,则认为关系r是一对一的;当tph >1.5且hpt >1.5时,则认为关系r是多对多的;当tph <1.5且hpt ≥1.5时,则认为关系r是多对一的;当tph ≥1.5 且hpt <1.5时,则认为关系r是一对多的。
不妨假设实体从实体空间翻译到关系空间,并没有改变它们之间的相对距离关系。选择类间距大的类的实体进行替换,确保翻译到关系空间的两个实体也相距较远。对于需替换头实体的三元组,计算头实体所对应的实体投影epj到所有实体投影的距离,并按距离将对应的类别降序排列,表示为{l1,l2,···,lk}。选取第l1类的实体来替换头实体,若第l1类中没有实体,则依次递推选择第l2类至第lk类中的实体。
2.3.3 实现交替优化算法
模型训练迭代包含2个阶段:三元组损失和KL散度损失。每次迭代中,首先训练三元组损失2次,得到的实体向量表示作为K-L散度损失的输入,再继续训练1次,这种交替学习的方法在更加关注三元组损失目标的同时,更好地协同优化模型。算法1给出了PTransD的学习算法。
算法1 Learning PTransD
本节介绍PTransD模型的的实验部分,通过在知识图谱上进行三元组分类和链接预测来评估模型的性能。首先介绍这2项工作的评价指标和实验结果,然后与其他模型方法的实验结果进行对比分析。
WordNet是世界著名的大型英语词典知识库,其名词、动词、形容词和副词被各自组成同义词网络,并通过关系连接,可用于语义消歧;FreeBase是一个完全结构化的大型知识库,其内容主要来自其社区成员的贡献和多种多样的数据库。本文在WordNet的子集(WN18和WN11)和Freebase的子集(FB15K和FB13)上进行实验。统计资料如表2所示,可以看出,WN18包含的实体较多,而FB15K包含的关系类别较多。
表2 数据集的统计Table 2 Statistics of datasets
在知识图谱中,链接预测的任务是进行实体关系学习,具体地,就是预测一个关系事实三元组(h,r,t)中所缺失的h和t。在该任务中,缺失位置的实体是从知识图谱中筛选出的一组候选实体,按得分进行排序,而不是只得到一个最好的实体。在训练过程中,对每个三元组(h,r,t),用知识图谱中的所有实体来替换头实体或尾实体,并计算得分,然后将替换后的三元组按得分进行降序排列,通过观察原三元组在该序列中的位置来评估模型的性能,位置越靠前说明模型性能越好。
知识图谱中存在一些一对多、多对一以及多对多的复杂关系,一些损坏三元组也存在于知识图谱中,但这些三元组是正确的,排名靠前是合理的。如果直接将这些损坏三元组认定为负例进行训练,会降低模型的表示能力。为了避免这种情况产生,将这种正确的损坏三元组从训练集、验证集和测试集中去除,该实验设置称为“Filt”,而没有经过去除处理的实验设置称为“Raw”。
3.2.1 评价指标
对所有训练的三元组按得分进行综合排列,用2个常用评价指标衡量模型优劣。一是平均排序(Mean Rank),表示正确实体在所有候选实体中的平均排名,排名值越低,正确实体在排列中的位置越靠前,模型性能越好;二是HIT@10,表示正确实体排在前十名的概率,概率越大,模型预测越准确。
3.2.2 实验设置
在这个任务中,使用WN18和FB15K作为数据集,并都采用Adadelta SGD算法[16]作为优化方法,设置超参数:ε=1×10-6,ρ=0.95。在训练PTransD时,在{0.25,0.5,1,2}中选择边际γ,在{20,50,80,100}中选择实体维度m和关系n,在{100,200,1 000,1 400}中选择batch的大小B,在{20,50,100,200}中选择聚类个数k。最佳的参数由验证集确定。
“unif ”表示均匀采样,“bern”表示基于伯努利分布的采样。在“unif”设置下:在WN18上,γ=1,m=50,n=50,B=200,k=50;在 FB15K上,γ=0.5,m=50,n=100,B=1 400,k=200。在“b e r n”设置下:在WN18上,γ=1,m=50,n=80,B=1 000,k=50;在FB15K上,γ=0.25,m=100,n=50,B=1 400,k=100。对于这2个数据集,本实验将所有训练三元组迭代500次。
3.2.3 实验结果
PTransD的链接预测实验结果如表3所示,表中加粗的数字表示在同一指标下最优模型的实验结果。结果标明:(1) 相对于原模型TransD,PTransD模型的2个指标值有部分提升,HIT@10指标值提升更明显;(2) 对比2个数据集上的指标值,PTransD在FB15K上的结果较好,证明该模型在关系复杂且信息稠密的知识图谱上性能更优;(3) PTransD相对于其他模型来说,HIT@10值较高,证明其学习的能力更好。
表3 链接预测实验结果Table 3 Results of link prediction
为了验证PTransD确实能够较好地处理各种复杂关系,进一步对不同关系类型的三元组进行实验。选择具有更多关系类型的FB15K数据集来进行验证。在1 345个关系中,1-1关系占24%,1-n关系占23%,n-1关系占29%,m-n关系占24%,各关系的比例十分均衡。实验结果如表4所示,表中加粗的数字表示在同一指标下最优模型的实验结果。结果表明:(1) 相比于TransD模型,PTransD模型在复杂关系上的HIT@10值明显提高;(2) 相比于其他模型,PTransD模型能较好地区分1-1关系以及m-n关系,在另外两种关系中性能表现也较好。
表4 FB15K各类关系的HIT@10值Table 4 HIT@10 of each type of relations in FB15K%
三元组分类的目标是判断一个给定的三元组(h,r,t)是否正确。训练过程中,知识图谱中的三元组被判断为“正确”,每个正例三元组进行负采样得到的三元组被判断为“错误”。在关系r下的所有三元组可通过计算最大分类精度值得到一个阈值 σr,用来判断一个三元组“正确”或“错误”。如果其得分函数不超过阈值σr,就预测为正确,反之为错误。
3.3.1 评价指标
三元组分类任务使用准确率A作为评价指标,公式为
3.3.3 实验结果
表5列出了不同模型的三元组分类精度,表中加粗的数字表示在同一指标下最优模型的实验结果。在3个数据集上,PTransD模型都比TransD模型分类能力更好,这说明PTransD模型更适用于大规模知识图谱。
表5 不同模型的三元组分类精度Table 5 Accuracy of triple classification of different models%
本文提出了一种概率分布下基于双目标交替优化的知识表示模型PTransD。针对翻译的模型TransD参数多的问题,PTransD限制实体投影个数,对实体进行聚类,将“实体语义向量和实体投影两种表示属于一一对应的关系”转变成“实体类和实体投影属于一一对应的关系”。针对实体两种表示之间的关系无约束的问题,PTransD在对实体进行聚类的基础上,通过求平均值计算每类的实体类中心,利用概率代替欧氏距离来衡量实体类中心和实体投影的概率分布相似性,加强对实体投影的约束。采用交替优化的方法获得三元组损失和概率分布下的K-L散度损失,并共同训练模型。为了验证方法的有效性,在WordNet和FreeBase的大规模真实数据集上对链接预测和三元组分类任务进行了综合测评。实验结果表明,PTransD模型有较好的性能,可以应用于知识图谱的完善和推理中。
在将来的研究中继续改进PTransD模型,针对关系空间中关系的两种表示之间的相关性,引入关系路径;还可将PTransD模型应用于涉及关系抽取、知识推理的任务中。