融合图谱重构的时序知识图谱推理

2024-05-11 03:33许智宏张天润王利琴董永峰
计算机工程与应用 2024年9期
关键词:邻域时序图谱

许智宏,张天润,王利琴,董永峰

1.河北工业大学人工智能与数据科学学院,天津 300401

2.河北省大数据计算重点实验室,天津 300401

3.河北省数据驱动工业智能工程研究中心,天津 300401

随着大数据时代的到来、智能设备的广泛普及以及5G 的迅速发展,社会进入了一个信息爆炸式增长的阶段,大数据中存在着巨大的价值与潜力,这吸引了许多研究人员对其进行深入挖掘和分析[1],知识图谱应运而生。然而,知识图谱构建面临的突出问题之一是知识图谱的不完整性,即知识图谱中存在缺失的知识。知识图谱的不完整性极大阻碍了知识图谱在人工智能、大数据分析和挖掘、信息推荐和人机交互等领域的应用性能。因此,如何基于现有知识图谱挖掘新知识,推理知识图谱中缺失的实体或关系,已经成为智能信息处理、文本挖掘和信息抽取领域的重要且紧迫的研究问题[2-3]。

目前,大部分研究工作集中于静态知识图谱推理,静态知识图谱通过三元组表示,每个三元组反映一个事实,但是,现实世界中的事实不是静止不变的,往往表现出复杂的时间动态性,例如,(美国,总统,特朗普)这一事实,在经过2020年美国总统选举后失效。由此,引入时序知识图谱,此类知识图谱不仅包含了事件之间的共指、因果和时序等关系,还描述了事件之间的规律和演化模式,其基本单元是在三元组的基础上加入时间信息后组成的四元组[4]。

本文任务是对时序知识图谱进行推理,即根据过去发生的事件推断未来将要发生的事件。事件的发生被表示为以过去事件为条件的概率分布。现有大部分时序知识图谱推理模型将时序知识图谱建模为静态知识图谱快照序列,在每个快照上仍采用静态推理方法[5],这种做法忽略了对知识图谱局部时序特征的提取,无法细粒度地捕获实体时序特征。同时,基于知识图谱快照的推理模型在单个快照中独立地处理事件,无法捕获不同时间实体邻域结构之间的交互。因此,基于静态知识图谱快照的方法不能有效挖掘实体邻域潜在的时间信息。

针对以上问题,提出了基于图谱重构的时序知识图谱推理模型(graph reconstruction for temporal knowledge reasoning,GRTKR)。为了捕获不同时间邻域结构关系之间的交互,GRTKR 使用时间感知邻域采样器有侧重地采样实体邻域节点。同时,为了克服基于知识图谱快照的推理模型难以细粒度提取时序特征的缺点,GRTKR使用时序编码器将四元组中的时间与实体一并映射为嵌入向量,邻域特征聚合器对局部邻居特征进行时间感知聚合。通过这样的方式可以学习到更精确的时序特征,提升时序知识图谱推理的性能。

1 相关工作

1.1 静态知识图谱推理

静态知识图谱推理是知识图谱领域中的重要任务,其研究重点在于确定实体与关系之间的相关性。

翻译模型将关系向量作为头实体到尾实体的翻译,早期Bordes 等人[6]根据三元组中头尾实体表示向量的距离来估计三元组的真实性,提出了第一个基于翻译的模型TransE,具有训练速度快、易于实现等优点,但是不能解决多对一和一对多关系的问题。针对TransE的局限性,此后陆续涌现了一批Trans系列模型。其中TransH[7]不再严格要求三元组满足三角闭包关系,只需满足头尾实体在关系平面上的投影在一条直线上即可,提高了推理的准确率。基于翻译思想的模型由于运算操作简单,参数量适中,学习效率高等优势,成为了图嵌入领域非常活跃的研究方向之一[8]。然而由于该类方法仅使实体和关系嵌入满足当前三元组的约束,难以捕获知识图谱深层次的语义信息和多跳实体间结构特征,对于结构复杂的知识图谱,推理准确率会受到影响。使得后续研究需要从表示空间、运算类型等方面对该类模型进行改进。

张量分解模型将知识图谱表示为一个高维张量,通过张量分解为更小的矩阵从而完成知识推理任务。Yang 等人[9]就借鉴张量分解理论提出DistMult 方法,将实体映射为低维向量后,再计算与每种关系的相似性。ComplEx[10]则通过复值嵌入扩展DistMult,有效地对非对称关系进行建模。此后,研究人员又提出了SimplE[11],其利用关系的逆在三元组得分函数中加上了一个对称项,为每个实体和关系分配两个向量分别进行学习,在实验中展现了良好的性能。相比基于翻译模型,基于张量分解模型的思路是从建模整张图谱的表示张量的角度来考虑,所以该类型的许多算法拥有充分表达知识图谱的能力,然而这类模型的设计往往需要较高的数学基础,因此相关研究工作少于基于翻译模型的研究[8]。

神经网络推理模型作为一种重要的机器学习算法,神经网络基本上模仿人脑进行感知和认知,通过非线性变换将数据的特征分布从初始空间映射到另一个特征空间中[12]。原始图神经网络模型只针对无向无权图,为了将其应用于知识图谱,Schlichtkrull等人[13]提出R-GCN模型,为关系赋予不同的权重,通过图卷积神经网络实现局部邻域信息聚合,采用DistMult作为解码器进行相似性评估,由此,取得了比GCN更好的静态知识图谱推理效果。基于神经网络的推理模型相较于其他推理模型复杂度更高,但是,具备更强的推理能力和泛化能力,对知识图谱中实体及关系信息利用率更高,往往可以达到更好的推理效果。

1.2 基于嵌入的时序知识图谱推理

基于嵌入的时序知识推理方法,在现有基于嵌入的静态知识图谱推理基础上,引入时间信息的嵌入表示来实现时序知识图谱推理,特点是将实体、关系及时间戳投影到向量空间得到对应的嵌入表示。Dasgupta等人[14]提出的HyTE 模型将知识图谱按时间划分为不同的超平面,将实体和关系映射到超平面上,再利用翻译模型思想进行推理,既整合了时间维度信息,又通过超平面解决了实体间多关系难以推理的问题。Goel 等人[15]提出DE系列模型在静态推理方法的基础上将实体嵌入融入时间信息,利用循环神经网络学习关系的时间感知表示,并使用DistMult 评分函数进行相似性评估,通过实验证明了DE-TransE、DE-DistMult 和De-SimplE 等模型相比于静态方法能够充分挖掘潜在的时序特征,对于后续时序知识图谱推理方法具有较重要的参考意义。TA-DistMult[16]将时间和关系合并成一个维度,合并后的文本序列通过LSTM计算得到含时间特征的关系,由此将四元组转化为带有时间特征的三元组,结合三元组评估函数进行推理。CyGNet[17]将复制机制首次应用在时序知识图谱推理中,通过研究时间步中实体重复出现的潜在现象,结合复制和生成两种推理模式,在学习推理未来事件时参考历史中已知的事实,并通过实验验证了该推理方法的有效性。基于嵌入的时序知识图谱推理模型通过扩展现有基于嵌入的静态知识图谱推理模型,利用时间嵌入表示来解决时序知识图谱推理问题,然而,这些方法难以利用最近时间戳中的多跳结构信息和时间事实来增强预测性能,并且存在实体分布的时间稀疏性和可变性问题。

1.3 基于图卷积神经网络的时序知识图谱推理

时序知识图谱也能够以图结构形式进行建模,因此较多研究工作采用基于图卷积神经网络的时序知识图谱推理框架。为了有效学习事件的时间信息以及图谱中潜在的关系特征,Jin等人[18]在基于神经网络的知识推理模型R-GCN 的基础上提出了循环事件网络RE-NET模型,一种用于对多关系知识图谱的时间序列进行建模的自回归体系结构,可以根据知识图谱历史的时间序列和全局的结构信息预测新发生的事件,进一步提高了时序知识图谱推理的精度。DySAT[19]方法同时关注图结构和时间演进过程。按时间划分的事件通过自注意力学习邻域信息,再通过联合注意力学习时间推演下的三元组相似性。EvolveGCN[20]通过GCN 得到知识图谱的结构特征,通过循环神经网络捕获知识图谱的演化信息。此外,针对现有时序知识图谱推理结果缺乏可靠性的问题,Han等人[21]提出了一种对未来事件进行链路预测的模型xERTE,该模型能够对时序知识图谱的相关子图进行查询,并对图结构和时间上下文信息进行联合建模,同时,该模型基于一种新的时间关联注意机制,保留了时间多关系数据的因果性。图卷积神经网络作为一种有效的结构特征学习方法,通过消息传递框架捕获相同时间戳下实体之间的结构依赖性,并通过图神经网络的堆叠捕获序列信息。但是,对实体在时序知识图谱中的时序信息捕获不够全面。

2 基于图谱重构的时序推理模型

时序知识图谱可以看作四元组(s,r,o,t)的集合G,定义时序知识图谱中实体集合E以及一组关系集合R,其中s∈E表示头实体,o∈E表示尾实体,r∈R表示关系,t表示时间。

使用静态知识图谱快照方式进行推理,模型只对相同时间戳下静态知识图谱快照进行学习并捕获结构特征,再通过循环神经网络捕获时序信息,这样无法充分利用时间上下文信息,难以捕获隐含在实体间的时间与结构特征。因此,GRTKR在每次推理过程中,将静态知识图谱快照序列通过邻域采样器重构成推理图,从而将结构和时间信息都集中到推理图中,后续通过图神经网络的消息传递框架同时捕获时序与结构特征。

图谱重构的关键在于对待推理实体的时间邻域进行采样,以此来形成推理图Ginf,其中,节点由四元组中“头实体-时间戳”构成,即v=(s,t),节点间的链接方向从具有较早时间戳的节点指向具有较晚时间戳的节点,这使得GRTKR能够沿着整个时间轴搜索待推理实体的时间邻域,以此利用整个时间上下文信息。

GRTKR模型分为四个部分:邻域采样器、时间编码器、邻域特征聚合器和多层感知机解码器,模型架构图如图1所示。对于给出的查询q=(sq,rq,?,tq),GRTKR首先根据其时间邻域构建一个推理图Ginf,然后使用时间编码器学习实体的时间感知表示,再通过邻域特征聚合器捕获实体邻域内的时序特征与结构特征,最后使用多层感知机解码器来计算每个候选实体成为预测答案的概率。本文只针对尾实体推理,由于为每个四元组都添加反关系,即添加(o,r-1,s,t)表示(s,r,o,t),这样就算只预测尾实体,也不会失去通用性。

图1 GRTKR架构图Fig.1 GRTKR overall architecture illustration

2.1 邻域采样器

不同时间范围的信息表明了不同的关系趋势,局部时间依赖表示短期的关系趋势,而全局时间依赖表示长期的关系趋势。不同范围的时间信息发挥着不同的作用,不应一视同仁。例如,当事件(美国,拒绝经济合作,中国,2018-07-07)发生时,“美国”和“中国”在不久的将来关系不太可能是积极的,“拒绝经济合作”关系对于预测2018 年7 月后美国和中国之间的关系更为重要。所以历史上事件发生时间越接近,它们之间的关系就越重要。

为了筛选历史事件中对于查询更重要的事件,增加时序特征对模型精度的影响,同时降低后续聚合操作的复杂性,受Han 等人[21]提出推理图的启发,引入邻域采样器,对(sq,tq)的时间邻域进行采样。

定义推理图中节点v=(s,t) 的时间邻域为Nv={(s′,t′)|t′<t},v的邻居定义为u∈Nv,如果u被采样到,则将u添加到Ginf中。采样可以是均匀的或者非均匀的,但由于事件的强时效性,在接近当前时间点采样更多的边更符合事实。故使用加权采样策略,具体如公式(1)所示:

其中,t′与t′均小于t,同时为了防止采样过多不太相关的邻居,参考Han 等人[21]对邻域采样数的设置,邻域采样器通过超参数来限制采样的最大数量,在3.4 节对该参数的灵敏度进行实验分析。

2.2 时间编码器

在时序知识图谱中,图的结构不再是静止不变的,实体之间的关系会随着时间的推移而变化,因此,实体特征会随之发生变化。时间编码器借鉴Goel等人提出的历时实体嵌入(diachronic entity embedding)方法,即学习每个实体的时间感知嵌入表示,实体si∈E在时间t的嵌入表示由静态低维向量和时序低维向量组成[15]。通过这种方式,能够区分推理图中来自相同实体s但时间不同的两个节点(s,t1)与(s,t2)。时间感知实体嵌入表示如公式(2)所示:

与现有大多数方法只对图中实体进行嵌入表示不同,GRTKR也对关系进行嵌入表示。对于推理图中,节点之间关系r∈R,本文沿用Goel 等人[15]的假设,即关系表示具有时间不变性,关系嵌入表示如公式(3)所示:

其中,W0为关系嵌入矩阵,r表示关系的独热向量。

2.3 邻域特征聚合器

邻域特征聚合器受GraphSAGE[22]的启发,通过对邻域内信息进行聚合,从而得到实体的局部时序特征。邻域特征聚合器的输入是经过时序编码器后的实体与关系的嵌入表示向量,然后,将关系特征融合到实体特征中,最后,通过GRU(gate recurrent unit)捕获实体间隐含的时序特征。

2.3.1 特征融合

为了将关系加入到邻域特征表示学习中,GRTKR将关系和节点嵌入向量组合起来进行联合学习。同时,加入反向关系类型和自循环关系类型,这样可以处理具有高度多关系数据特征的时序知识图谱,并且不会引入过多参数。实体关系融合如公式(4)、(5)所示:

2.3.2 节点特征更新

为了捕获隐式时序特征,GRTKR 将推理图中邻居节点按时间先后排序得到的特征序列作为GRU 的输入,由此得到实体的隐式时序特征,随后更新实体嵌入向量如公式(6)所示:

其中,W为可学习权重矩阵,hu,t表示推理图中节点v的邻域节点u在t时刻下的特征融合表示,σ采用ReLU作为激活函数。

2.4 多层感知机解码器

为了对查询(sq,rq,?,tq)进行推理预测,多层感知器(multilayer perceptron,MLP)解码器将来自邻域特征聚合器输出的特征向量作为输入,并通过softmax 函数做归一化处理得到所有候选实体的概率,如公式(7)、(8)所示:

其中,Wm为可训练权重参数,hv为经过聚合后的实体嵌入表示向量,er为关系嵌入向量,p(o|s,r,t)代表候选实体的概率,ot代表其中概率最大的实体,即最终的预测结果。

预测实体o可以视作一次多分类任务,每一类都对应一个实体。采用多分类的交叉熵损失函数,如公式(9)所示:

其中,G为训练集中的事件集合,p(ok|s)为在已知头实体、关系及时间的条件下实体ok作为尾实体的概率值。GRTKR的算法伪代码如算法1所示。

算法1GRTKR推理伪代码

输入:推理图Ginf,推理图中的节点集合V,邻域集合函数N(v),实体静态嵌入向量,关系嵌入向量er。

输出:时序知识图谱中的四元组缺失的尾实体。

3 实验设计与结果分析

3.1 数据集

为了评估GRTKR模型在时序知识图谱推理任务中的效果,主要使用了两种公开的时序知识图谱数据集:ICEWS[16]及YAGO11K[23]。ICEWS 是由BBN ACCENT事件编码器自动从新闻文章中提取数据并加入时间信息生成的,ICEWS14 数据集包含2014 年1 月至2014 年12月中所有发生的事件,ICEWS05-15数据集包含2005年1月至2015年12月中所有发生的事件。YAGO是由德国马普研究所研制的链接数据库,主要集成了Wikipedia、WordNet 和GeoNames 三个来源的数据。YAGO11K 是截取其中带有时间注释的数据形成的数据集。以上数据集均为时序知识图谱领域常用的公开数据集,具体的统计信息如表1 所示。其中训练集、验证集、测试集按照8∶1∶1的比例划分。

表1 数据集信息统计Table 1 Information statistics of datasets

3.2 评价标准

在时序知识图谱推理的过程中,推理模型会对候选实体评分并根据评分结果排序,目标实体在候选实体中的排名越靠前,则模型的推理效果越好。为了评估所提出模型的推理效果,使用MRR和Hits@1/3/10评价指标对模型进行评估。MRR(mean reciprocal rank)表示平均倒数排名,即对目标实体在候选实体中排名的倒数取平均,该指标可以体现模型的全局表现,因为对个别异常数据不敏感,所以目前研究工作更多采用MRR 评价模型的综合表现。Hits@k表示推理结果命中前k的比例,计算如公式(10)、(11)所示:

式中,Dtest表示测试集中四元组的集合,T表示时序知识图谱的时间戳总数,rank函数用于计算目标实体在候选实体中的排名。

3.3 对比实验

为了充分评估所提出模型的推理准确率及性能表现,将所提出的模型与主流基线模型进行对比分析。对比模型包括TransE、DistMult、HyTE、TTransE、TA-DistMult、CyGNet、xERTE 以及DE-SimplE,其中TransE、DistMult是静态知识图谱推理模型,其余均为时序知识图谱推理模型。

表2~表4给出了在三个数据集上的实验结果,对比模型实验结果来源于CyGNet[18]、xERTE[22]及DE-SimplE[16]。

表2 不同方法在ICEWS14数据集上实验结果对比Table 2 Comparison of experimental results of different inference methods on ICEWS14 dataset 单位:%

表3 不同方法在ICEWS05-15数据集上结果对比Table 3 Comparison of experimental results of different inference methods on ICEWS05-15 dataset单位:%

由表2、表3 可知,GRTKR 在ICEWS 两个数据集上均优于其他基线方法。在ICEWS14 数据集上MRR、Hits@1、Hits@3 和Hits@10 指标分别优于DE-SimplE约4、11、5、2个百分点。在ICEWS05-15数据集上MRR、Hits@1、Hits@3和Hits@10指标分别优于DE-SimplE约7、15、11、4个百分点。

由表4 可知,GRTKR 在YAGO 数据集上优于其他基线方法,MRR、Hits@3 和Hits@10 分别优于CyGNet约4、3、3个百分点。

综合三个数据集的实验结果可以看出,GRTKR 推理精度提升效果明显,这是因为GRTKR 模型通过加权采样来完成图谱重构,同时,对实体进行显式与隐式双重时序特征提取,可以更细粒度地捕获特征,从多个角度获取实体的时序特征,使得提取到的时序特征更加丰富。DE-SimplE在三元组推理模型的基础上,仅仅增加了一个历时的实体嵌入函数对时间维度进行建模,该函数提供实体在任何时间点的特征,但其忽略了实体的局部结构中隐含的时序特征。而xERTE通过在实体邻域内的迭代采样和注意力机制来完成推理,这虽然可以捕获邻域内隐含的时序特征,但缺少对时间的显式建模,导致捕获的时序特征不够丰富。通过观察实验结果,可以看出GRTKR 在ICEWS 的两个数据集上的提升高于YAGO11K。这是因为YAGO11K 数据集的时间粒度是年,数据集中的关系大多是长期存在且稳定的,时序特性不强,而ICEWS数据集中的事实元组时间粒度为天,数据集中的关系大多是重复发生的、不稳定的、短期存在的。GRTKR 可以在时序特性更强的ICEWS 数据集捕获更多的时序特征,以此来提高推理性能。

3.4 灵敏度实验

为评估邻域采样器最大采样数量对模型推理准确率的影响,本文在数据集ICEWS14 上将邻域采样器采样数分别设置为{5,10,15,20,25}。观察该参数对模型推理准确率的影响。实验结果如图2所示。

图2 MRR与运行时间随采样数量的变化曲线Fig.2 Curves of MRR and Runtime over number of samples

由图2 可知,当最大采样数取值为15 时,MRR 为56.8%,并且随着邻域采样数量的增加推理的准确率在不断提升。但是,采样数量设置为20 相较于15 没有明显的提升,运行时间反而增加了近34%。综合以上分析,在实验中设置采样数量为15。

3.5 消融实验

为了评估GRTKR 各个组成部分对性能的影响,将进行消融实验,具体地,首先去除时间编码器,直接使用实体的静态嵌入向量作为邻域特征聚合器的输入。接下来,去除邻域特征聚合器,直接将时间编码器生成的嵌入向量输入到解码器,结果如表5所示。

表5 在ICEWS14、ICEWS05-15和YAGO11K数据集上的消融实验Table 5 Ablation results on ICEWS14,ICEWS05-15 and YAGO11K datasets 单位:%

由表5 中数据可以看出,在去除时间编码器后,ICEWS14、ICEWS05-15 和YAGO11K 数据集上的各项评价指标中均有所下降,这可以说明在邻域特征聚合器之前增加时间编码器能够对推理图中实体相同但时间不同的两个节点加以区分,同时丰富节点特征,使后续邻域特征聚合器能够有效提取节点之间隐含的时序特征,有助于提升时序知识推理任务的准确率。接下来,在去除邻域特征聚合器后,在三个数据集中的各项评价指标同样有所下降,说明对邻域内信息进行聚合,从而捕获实体局部时序特征,在时序知识图谱推理任务中十分重要。

消融实验结果表明,GRTKR 的各个组成部分都对整体模型的性能起到了积极作用。模型对实体在时序知识图谱中的信息进行充分挖掘,有效地解决实体在时序知识图谱中的时间信息捕获不够全面的问题。本文提出的对现有方法的改进之处都能有效提升推理模型的性能。

4 结束语

本文提出了一种基于图谱重构的时序知识图谱推理模型,为表示同一实体在不同时间下包含不同的信息引入了基于历时实体嵌入的时间编码器,同时,观察到在不同时间的每个事件也存在着不同强度的因果联系,本文进一步设计了邻域特征聚合器来学习的局部结构与时序信息,深度挖掘了实体在时序知识图谱上的时序特征。实验结果表明,本文方法提高了时序知识图谱推理的性能。下一步的工作将致力于修剪GRTKR 模型,使其能够在大规模时序知识图谱中推理,除此之外,尝试引入注意力机制,提高模型的可解释性。

猜你喜欢
邻域时序图谱
基于时序Sentinel-2数据的马铃薯遥感识别研究
基于Sentinel-2时序NDVI的麦冬识别研究
绘一张成长图谱
稀疏图平方图的染色数上界
基于邻域竞赛的多目标优化算法
补肾强身片UPLC指纹图谱
一种毫米波放大器时序直流电源的设计
关于-型邻域空间
主动对接你思维的知识图谱
DPBUS时序及其设定方法