基于双仿射注意力的迭代式开放域信息抽取

2024-08-17 00:00:00李欣邵靖淇王昊何丽段建勇
计算机应用研究 2024年7期

摘 要:当前的开放域信息抽取(OpenIE)方法无法同时兼顾抽取结果的紧凑性和模型的性能,导致其抽取结果不能更好地被应用到下游任务中。为此,提出一个基于双仿射注意力进行表格填充及迭代抽取的模型。首先,该模型通过双仿射注意力学习单词之间的方向信息、捕获单词对之间的相互作用,随后对二维表格进行填充,使句子中的成分相互共享并识别紧凑成分;其次,使用多头注意力机制将谓词和参数的表示应用于上下文的嵌入中,使谓词和参数的提取相互依赖,更好地链接关系成分和参数成分;最后,对于含有多个关系成分的句子,使用迭代抽取的方式在无须重新编码的情况下捕获每次提取之间固有的依赖关系。在公开数据集CaRB和Wire57上的实验表明,该方法比基线方法实现了更高的精度和召回率,F1值提升了至少1.4%和3.2%,同时产生了更短、语义更丰富的提取。

关键词:开放域信息抽取; 双仿射注意力; 紧凑性; 多头注意力; 迭代抽取

中图分类号:TP391 文献标志码:A 文章编号:1001-3695(2024)07-018-2046-06

doi:10.19734/j.issn.1001-3695.2023.10.0543

Iterative open information extraction based on biaffine attention

Abstract:The current OpenIE methods cannot take into account the compactness of the extraction results and the performance of the model at the same time, which makes the extraction results unable to be better applied to downstream tasks. Therefore, this paper proposed a model that used biaffine attention for table filling and iterative extraction. Firstly, the model learned the directional information between words through biaffine attention, captured the interaction between word pairs, and then filled the two-dimensional table to make the components in the sentence share each other and identify compact components. Secondly, it used the multi-head attention mechanism to apply the representation of predicates and parameters to the context embedding, making the extraction of predicates and parameters dependent on each other and better linking the relationship components and parameter components. Finally, for sentences containing multiple relational components, it used iterative extraction to capture the inherent dependencies between each extraction without recoding. Experiments on the public datasets CaRB and Wire57 show that this method achieves higher precision and recall than baseline methods, improving F1 values by at least 1.4% and 3.2%, while producing shorter and semantically richer extractions.

Key words:open information extraction(OpenIE); biaffine attention; compactness; multi-head attention; iterative extraction

0 引言

OpenIE以一种无监督的、领域独立的方式,为自然语言文本生成结构化的、机器可读的信息表示[1]。这使得OpenIE的抽取结果被应用在一些下游任务中,例如问答[2]、事件模式归纳[3]、自动模式提取[4]等。

尽管OpenIE从基于学习和规则的模型到近几年基于神经网络的模型取得了很大的进步,但是近几年流行的OpenIE模型往往以牺牲提取的关系三元组的紧凑性为代价,只专注于如何从输入的句子中抽取覆盖更多的信息,导致模型产生了更多具有附加信息的特定三元组,这使得抽取结果很难应用在下游任务中。例如,对于句子“The rest of the group reach a small shop,where the crocodile breaks through a wall and devours Annabelle”,近年比较流行的基于神经网络的OpenIE模型IMoJIE[5]的抽取结果为“The rest of the group;reach;a small shop,where the crocodile breaks through a wall and devours Annabelle”和“the crocodile;devours;Annabelle a small shop”。它抽取的结果中包含特定的修饰语以及完整的从句,这种提取严重限制了OpenIE结果在识别相似事实和合并共享成分事实等下游任务中的实用性。除此之外,在关注抽取结果紧凑性的同时,忽略了抽取结果的精度和召回率,以降低精度和召回率来换取高的紧凑性是不符合OpenIE任务目标的。

因此,本文提出了一种新的流水线式方法,该方法可以在抽取紧凑三元组的同时提升模型的精度和召回率。具体来说,首先使用双仿射注意力对二维表格进行填充,以此来捕获成分之间的相互作用,最大限度地减少边界检测中的歧义并识别参数和谓词成分。随后,使用多头注意力机制串联多级特征,基于谓词链接其相关参数,使谓词和参数相互依赖。最后,对于含有多个谓词的句子,使用迭代抽取的方式捕获多个关系三元组之间的依赖关系。通过这种方式,提取了紧凑三元组并提升了模型的性能。总的来说贡献如下:

a)基于双仿射注意力进行表填充,这种模式可以识别组成边界及其角色,更好地编码单词对之间的信息,捕获成分之间的相互作用,并最大限度地减少边界检测中的歧义。

b)基于谓词链接其相关参数,使谓词和参数之间相互依赖,并通过多头注意力机制将谓词和参数的表示应用于上下文的词嵌入中。

c)使用迭代抽取的方式进行关系三元组的抽取,这种方式能在无须重新编码的情况下建模每次抽取之间固有的依赖关系,更好地处理含有多个谓词的句子。

1 相关工作

OpenIE已经被广泛研究了十几年,2007年文献[6]首次提出OpenIE任务,并提出了该任务的首个模型。随后,许多基于学习和规则的模型相继被提出,这些传统的OpenIE模型在不使用任何训练数据集的情况下从句子中提取出关系三元组,但是其严重依赖于句法或语义解析,因此不可避免地会受到浅层特征错误传播的影响。近年,随着神经网络应用的发展,提出了基于神经网络的OpenIE模型,这些基于神经网络的模型大致被分为基于序列标记和基于序列生成两大类,成为目前解决OpenIE的主要技术。

1.1 基于学习和规则的模型

传统的基于学习和规则的模型,例如TextRunner[6]、NestIE[7]、ClausIE[8]、MinIE[9]、Stanford-OIE[10]等,使用语法或语义解析器结合规则从句子中提取关系三元组。TextRunner是第一个自监督学习的OpenIE模型,可以处理非预设的关系,避免了特定领域的训练数据,具有良好的可扩展性,但是无法捕获长距离关系,召回率低。NestIE、ClausIE及MinIE专注于寻找紧凑三元组,并表明了紧凑三元组在一些语义任务中的有用性。NestIE使用的嵌套表示提升了元组的信息度并提升了生成元组的数量,但是其过度依赖依存解析且嵌套结构中会出现空参数。ClausIE降低了抽取的复杂度,并且可以并行地抽取,但是其未考虑子句之间的关系。MinIE虽然在提供有效且紧凑抽取的同时保证了高精度和高召回率,但是其数字的准确度较低且忽略了上下文信息。Stanford-OIE将句子拆分简化成搜索问题,并结合自然逻辑删减子句,其高质量的抽取有助于下游任务,但是其分类器错误影响了性能。这些基于学习和规则的传统模型虽然为OpenIE的发展作出了很大的贡献。但是,由于近几年神经网络模型的出现,基于学习和规则的传统模型已经被近几年提出的基于神经网络的模型所替代。

1.2 基于序列标记的模型

基于序列标记的模型,例如RnnOIE[11]、 SenseOIE[12]、SpanOIE[13]和CompactIE[14]等,将OpenIE视为序列标注任务,通常包含用于生成词向量的嵌入层,用于生成包含上下文特征的隐向量的编码器,以及通过词向量和标注方案来预测标签的解码器三个模块。RnnOIE是首个监督神经网络模型,通过首先识别关系词再使用序列标记获得它们的参数的方式来抽取关系三元组,可以为单个参数生成多个可能的元组并有效识别隐形谓词,但是其召回率较低,无法处理复杂文本。SenseOIE通过在序列标记设置中使用多个OpenIE模型的提取特征来改进RnnOIE。然而,它的训练需要手动标注黄金提取,这对于任务来说是不可扩展的,限制了SenseOIE只能在3 000个句子的数据集上进行训练。SpanOIE使用跨度选择模型,是序列标记范式的一种变体,使用谓词模块首先选择潜在的候选关系跨度,然后对句子中所有可能的关系跨度分类为主语或宾语。然而,SpanOIE不能提取名义关系。此外,它仅在单个OpenIE模型上引导其训练数据。CompactIE使用流水线的方式进行紧凑成分的识别和提取,取得了相对较好的进展,但是在很大程度上牺牲了抽取结果的精度和召回率。这是因为其将关系三元组的提取视为独立的而不是相互依赖的,忽略了同一个关系三元组中谓词和参数之间,以及不同关系三元组之间紧密交织的关系。

1.3 基于序列生成的模型

基于序列生成的模型使用seq2seq模型一次生成一个单词的输出提取[15~17],生成的序列包含字段标定符,并将生成的平面序列转换为元组。NeuralOIE[15]避免了误差传播并且可以改变单词的顺序,但是其未考虑复杂文本结构。Adversarial-OIE[17]引入生成对抗网络GAN来解决训练和推理时文本生成不一致而导致的暴露偏差问题,但是其模型训练相对困难,性能随迭代次数的增加会下降。IMoJIE[5]是生成式OpenIE的最新技术,它使用基于BERT的编码器和迭代解码器,对迄今为止生成的抽取结果进行重新编码。这种重新编码的方式虽然捕获了提取之间的依赖项,提高了整体的性能,但也使其速度比RnnOIE慢了50倍,并且存在自回归方法的误差累计。

2 模型

本文模型取名为IBiAttOIE,模型的整体架构如图1所示。IBiAttOIE由成分提取和多级特征融合及迭代抽取两部分组成。具体来说:a)首先使用双仿射注意力学习单词对的方向信息并进行表填充,通过这种模式来识别一句话中的参数和谓词成分,最终为其分配成分标签;b)随后,基于谓词链接其相关参数,使参数和谓词之间相互依赖,更好地链接关系成分和参数成分;c)最后,对于含有多个谓词的句子,将含有每次抽取信息的上下文嵌入特征与之前的特征串联进行迭代抽取,这种方式可以在无须重新编码的情况下建模每次提取之间固有的依赖关系。

2.1 成分提取

成分提取是本文模型的第一步,其目的是找到一组成分,使每个成分的跨度是单词的连续序列并且具有预定义类型。在成分提取过程中,首先通过双仿射注意力对标签进行预测,随后对二维表格进行填充。这种模式可以简化OpenIE任务并为多级特征融合及迭代抽取过程提供更多的信息。

2.1.1 使用双仿射注意力预测标签

对于一个输入句子S,为了获得每个单词的上下文表示hi,使用预训练语言模型BERT作为句子的编码器,编码器的输出为:{h1,h2,…,hi,ht1,ht2,ht3}=BERT({x1,x2,…,xi,xt1,xt2,xt3}),其中xi是每个单词的输入表示,xt1、xt2和xt3是附加的token,分别表示[is]、[of]和[from]。添加最后这三个标记是因为OpenIE有时需要预测输入句子中不存在的标记,比如“US president Donald Trump gave a speech on Wednesday”将会有一个关系三元组“Donald Trump;[is] president [of];US”。增加附加标记使得这种提取成为可能。

为了更好地学习单词之间的方向信息,使用深度双仿射注意力(deep biaffine attention)机制[18]学习单词对之间的相互作用。具体来说,使用两个多层感知机(MLP)来识别每个单词hi的头部和尾部:

hheadi=MLPhead(hi),htaili=MLPtail(hi)(1)

接下来,使用Biaffine评分函数计算每个单词对的评分向量:

在获得评分向量vi,j后,将其输入到softmax函数中来预测每个标签。一句话由参数argument和谓词predicate组成,其中参数argument∈{subject,object},subject表示关系三元组中的主体,object表示关系三元组中的客体。标签的空间定义为Y,Y为argument、predicate、object、subject的集合,计算每个标签yi,j在标签空间Y上的概率分布:

P(yi,j|S)=softmax(vi,j)(3)

其中:S用于表示输入的句子。

2.1.2 进行表填充

二维表格是根据每个标签yi,j在标签空间Y上的概率分布进行填充的。具体来说,一个句子S带有s个标记,每个句子S对应一个表格T|s|×|s|。表T中的每个单元格(i,j)被分配一个标签yi,j,每个单元格的标签都是根据单词对之间的关系来标记的,每个单元格用Arg(argument)、Sub(subject)、Obj(object)、Pre(predicate)或none标签标记,其中none表示单词对之间不存在关系。图2展示了二维表格填充的示例。

接下来训练这个二维表格以最小化下面这个训练目标:

其中:Yi,j为单元格(i,j)的glod标签。

最后,计算表中相邻行和列之间的距离,找到成分的跨度span,然后为每个跨度span分配一个标签,并在将输出结果传递给多级特征融合及迭代抽取模块之前,过滤掉属于none的所有成分。

2.2 多级特征融合及迭代抽取

OpenIE同一个关系三元组中的谓词和参数之间的提取以及不同关系三元组之间的提取是紧密交织的。因此,应将关系三元组的提取视为相互依赖的而不是独立的。多级特征融合及迭代抽取的过程就是基于谓词链接其参数,对含有多个谓词的句子,将此次抽取结果的上下文嵌入与其他特征进行串联,作为下一次抽取的输入进行迭代抽取。

2.2.1 多级特征融合

经过成分提取过程获得句子S中的成分标签后,链接关系成分和参数成分。本文将关系成分和参数成分链接的任务定义为依赖于谓词链接其相应参数的问题。在多级特征融合过程中,使用多头注意力机制将谓词和参数的表示应用于上下文的嵌入中,使谓词和参数相互依赖。

2.2.2 迭代抽取

对于含有多个谓词的句子,迭代抽取的目的在于在无须重新编码的情况下建模每次提取之间固有的依赖关系。具体来说,将串联的特征作为多头注意力模块的输入,多头注意力模块由N个多头注意力块组成,每个多头注意力块都由一个多头注意力层(multi-head attention layer)和一个位置前馈层(position-wise feed-forward layer)组成。注意力层与原始Transformer中encoder-decoder的注意力层相同[19]。首先将Xq、Xk、Xv分别变换为Q=XqWq、K=XkWk、V=XvWv,其中Wq、Wk、Wv是权重矩阵。变换后计算每个头部的注意力,然后将每个头部的注意力输出连接起来并进行线性转换:

每个头部以h为索引,dmh为多头注意力的维数;nh表示头的数量。位置前馈层由两个围绕ReLU激活函数的线性变换组成。根据Transformer之前的相关工作,在多头注意力层和位置前馈层应用了残余连接(residual connection)[20]和层归一化(layer normalization)[21]。随后,多头注意力模块的输出被输入到标签分类层,通过标签分类层获得对应该谓词的参数成分。

将维护到目前为止提取输出的信息,进而捕获多个关系三元组之间固有的依赖关系。

2.3 训练目标

将每一次的预测标签与真实标签之间的交叉熵损失相加,得到最终的损失函数,用Lce表示。为了提升模型的整体效果,在表填充过程中对二维表格施加结构性约束,具体为

a)二维表格为正方形,其关于对角线对称,约束损失为

b)除非表中存在关系的组成部分,否则不会出现关系,即对于每个单词,其成为标签Arg和Pre的概率不低于成为Sub和Obj的概率,约束损失为

c)一个关系三元组中必须存在subject,但是可以不存在object,对于predicate成分的每一列或行,出现在非对角线上的词属于subject成分的最大可能性不低于属于object成分的最大可能性,约束损失为

其中:t表示单词成分类型;ρ表示句子S中所有单词对的P(yi,j|S)的堆栈;Ysub、Yobj、Yarg、Ypre分别为标签空间Y中subject、object、argument、predicate的成分标签;ζ表示句子中predicate成分跨度的并集。最后,在训练期间,共同优化Lentry+Lce+Lsym+Limp+Ltriple。

3 实验

3.1 训练数据集

训练本文提取紧凑三元组的迭代抽取模型需要一个紧凑三元组的基准。目前被广泛采用的OpenIE基准是通过组合多个OpenIE模型的提取而创建的,但是它包括之前模型中过度特定的和不正确的抽取。CompactIE设计了一种数据处理算法,可以从零开始提取紧凑三元组。因此,采用CompactIE提出的基准作为训练集。它是在OpenIE2016[22]基准测试集中的每个多子句上获得的一个为提取紧凑三元组而定制的新的训练数据集。该数据集每个句子的提取量是OpenIE2016的1.25倍,且它的组成成分更紧凑。其中大约1%的句子进行验证,其余的句子用于训练。表1是该训练数据集的整体情况。

3.2 评估数据集和评价指标

实验主要在CaRB和Wire57两个数据集上进行评估,用于评价模型抽取效果的指标主要有精度(P)、召回率(R)和由这些评分函数计算的F1值。由于这些数据集不是以紧凑三元组为目标的,所以,为了进行公平比较,排除了至少在一个成分内含有一个从句的三元组。表2显示了处理后的数据集统计信息。

数据集句子三元组数据集句子三元组

Wire5756309CaRB5772101

Wire57数据集有着高细粒度的提取,会惩罚过度特定的提取,对紧凑三元组的提取更为严格,CaRB数据集的抽取具有更高的质量和覆盖率。但是,CaRB和Wire57数据集的评分函数都是基于系统提取与事实基准的token级匹配。除此之外,这些基准是不完整的,这意味着黄金提取结果并不包括相同事实的所有可接受的表面表示方式。而BenchIE[23]基准和评分范式相对比较完整,因此实验使用了BenchIE基准和评分范式进行以事实为中心的评估。

3.3 实验设置

实验在Python 3.6和PyTorch Lightning[24]环境下进行,在GPU上训练、验证及测试。由于表格填充模型的模式设计不支持成分内的连词,所以在将句子传递给本文模型之前,将它们预处理为更小的无连词的句子。

为了与之前的工作进行公平比较,使用BERT-based-uncased[25]作为本模型的文本编码器,将batch size设置为32,学习率设置为5×10-5,多头注意力块的数量为4,位置嵌入层的维度为64,并使用AdamW优化器优化所有模型。

3.4 实验结果及分析

3.4.1 基线模型

为了验证IBiAttOIE在OpenIE任务上的有效性,与以下基线模型进行了对比:

a)最先进的序列标记模型OpenIE6[26]和Multi2OIE[27]。OpenIE6模型基于新的迭代网格标签(iterative grid labels,IGL)架构,将具有重叠跨度的序列标注任务转换成网格标注问题以学习抽取之间的依存关系,在保证准确率的同时,通过加入全局覆盖约束来进一步提高召回率。Multi2OIE模型根据BERT嵌入层的隐藏状态标注所有谓词,然后抽取与每个已识别的谓词相关联的参数,并利用多语言BERT进行编码,消除对其他语言的数据需求。

b)最先进的序列生成系统IMoJIE[5]。IMoJIE模型使用基于BERT的编码器和基于LSTM的迭代解码器,对至今生成的所有抽取进行重复编码,可以捕获抽取之间的依存关系,减少了输出集的总体冗余。此外,还可以根据输入文本的长度或复杂性调整输出。

c)用于提取紧凑三元组的传统非神经网络式系统NestIE[7]和MinIE[9],及基于神经网络的系统CompactIE[14]。NestIE模型使用bootstrapping方法来学习n元元组和嵌套元组的抽取模式,以对依存解析的结构相匹配。此外,设计了一组规则将生成的元组进行链接以捕捉上下文信息。MinIE模型为每个元组提供语义标注,如极性、情态、归属和数量,从同位语和属有词中产生由非介词动词构成的隐性抽取,通过设计多种模式删除冗余的单词来最小化参数,以权衡准确度和召回率。CompactIE模型是分步抽取模型,使用端到端流水线方法从单个句子中抽取关系三元组。首先提取谓词和参数,随后使用分类器确定它们之间的关系,该模型能够重用相同的组成部分来生成多个元组。

3.4.2 主实验

为了验证IBiAttOIE抽取结果的紧凑性和模型的性能,将经过30个epoch训练得到的模型在测试集上进行实验,并与上述基线模型进行了对比。为了验证IBiAttOIE抽取结果的紧凑性,还采用了之前工作[14]提出的评价指标对模型抽取结果的紧凑性进行评估:a)ACL,它表示所生成的三元组中成分的平均长度,这是在语法上对紧凑性的度量,ACL分数越低表示三元组的紧凑性越高;b)NCC,它表示每个成分可以作为独立三元组提取的子句的平均数量,NCC分数越低,三元组的紧凑性越高;c)RPA,它表示每个参数的重复次数,RPA分数越高,每个句子产生的总成分的共享比例越高。表3和4总结了IBiAttOIE与这些基线模型在CaRB数据集和Wire57数据集上的性能。

不难发现,IBiAttOIE与其他基线模型相比实现了更高的精度和召回率,这是由于将谓词成分和参数成分链接的过程视为相互依赖的,不是独立进行的,并对含有多个谓词的句子进行迭代抽取和特征融合,以此捕获了多个关系三元组之间固有的依赖关系。IBiAttOIE在ACL评分上明显低于其他基于神经网络的OpenIE系统,并与MinIE的ACL评分接近。NestIE的ACL评分最低是因为它将句子分成带有动词、名词、介词和形容词中介关系的小三元组,但是它的细粒度策略为了提取三元组的紧凑性极大地牺牲了F1值。IBiAttOIE的NCC评分达到了最低分数,这表明IBiAttOIE抽取的三元组中的成分包含最少的动词从句。因此,这些三元组比其他三元组更适合下游任务的应用。IBiAttOIE的高RPA评分证明了提出方法的有效性,因为它使系统能够重用相同的成分来生成多个三元组。MinIE模型有更高的RPA评分,这是因为它提取多个三元组来表示相同的事实,导致唯一成分的重复率更高。综上所述,IBiAttOIE能够产生更短、语义更丰富、在下游任务实用性更强的提取。

3.4.3 多头注意力对模型性能的影响

在多级特征融合中使用了多头注意力机制,并基于谓词成分链接其参数,为了确定多头注意力机制对模型性能的影响,将使用多头注意力机制的实验结果与使用BiLSTM的实验结果进行了对比,对比结果如表5所示。

通过表5不难发现,使用多头注意力机制比使用BiLSTM更能使模型取得好的效果、高的性能。这是因为多头注意力机制具有融合句子和谓词特征的优点,多头注意力机制可以在谓词和参数提取之间创建协同作用,能够依赖于谓词链接其对应参数,使谓词和参数相互依赖。因此,在利用谓词信息方面,使用多头注意力机制优于使用BiLSTM简单连接。

3.4.4 迭代抽取对模型性能的影响

对于含有多个谓词的句子,采用迭代抽取的方式在无须重新编码的情况下建模每次提取之间固有的依赖关系。为了验证本文迭代抽取方式对模型性能的影响,将使用迭代方式进行抽取的模型性能与进行简单重复抽取的模型性能进行了对比,对比结果如表6所示。

通过数据不难发现,对于含有多个关系三元组的句子使用迭代抽取的方式能使模型取得更好的性能。这是因为,将每次抽取的信息作为新的特征与之前的特征串联在了一起,使得在每次抽取时都能获得在此次抽取之前的相关信息。这将维护到目前为止提取输出的信息,捕获多个关系三元组之间固有的依赖关系,因此更有助于模型整体性能的提升。

4 案例分析

为了更好地说明本文IBiAttOIE模型,现采取数据集中的句子进行案例分析,将未进行紧凑三元组抽取的系统IMoJIE的抽取结果以及仅关注紧凑性的系统CompactIE的抽取结果与本模型的抽取结果进行了对比,对比结果如图3所示。

IMoJIE的提取中“where the crocodile breaks through a wall and devours Annabelle”包含了特定的修饰语,甚至是完整的从句,这种提取过于具体和冗长,并且没有提取出“crocodile;breaks;through a wall”这个关系三元组知识。CompactIE的提取中,将句子中“was not actually born on”这一信息识别提取成了“was born actually on”,这违背了句子的本意,并且没有识别出“superman,is,hero”这个关系三元组,这是因为CompactIE没有正确地识别单词的组成边界以及没有捕获单词之间的依赖关系。同时由于没有对输入句子进行附加标记,所以没有预测出输入句子中不存在的标记。这种抽取结果会严重限制OpenIE在一些下游任务中的应用,而本文模型的抽取结果更紧凑并且覆盖了更全面的关系三元组信息,能更好地兼容模型性能和抽取结果的紧凑性。相比之下,本文模型的抽取结果在识别相似事实和合并共享成分的事实等下游任务中更加灵活。

5 结束语

为了使OpenIE任务抽取的关系三元组更紧凑,实现关系三元组之间的成分共享,提高模型的精度和召回率,使其更适合应用于下游应用程序,在成分提取模块使用双仿射注意力进行表填充来识别组成边界及其角色,以找到一句话中的参数和谓词成分,最终为其分配成分标签,以此来识别嵌套成分,提高关系三元组的紧凑性。在多级特征融合及迭代抽取模块使用multi-head attention机制代替传统BiLSTM简单连接的方式,将谓词的表示应用于上下文的词嵌入中,并使用迭代抽取的方式在无须重新编码的情况下建模每次抽取之间固有的依赖关系,提升模型的精度和召回率。实验结果表明,本文模型取得了优异的性能。

参考文献:

[1]胡杭乐, 程春雷, 叶青, 等. 开放信息抽取研究综述[J]. 计算机工程与应用, 2023,59(16): 31-49. (Hu Hangle, Cheng Chunlei, Ye Qing, et al. Survey of open information extraction research[J]. Computer Engineering and Applications, 2023,59(16): 31-49.)

[2]Yan Zhao, Tang Duyu, Duan Nan, et al. Assertion-based QA with question-aware open information extraction[C]//Proc of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 6021-6028.

[3]Balasubramanian N, Soderland S, Etzioni O. Generating coherent event schemas at scale[C]//Proc of Conference on Empirical Me-thods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2013: 1721-1731.

[4]Nimishakavi M, Saini U S, Talukdar P. Relation schema induction using tensor factorization with side information[EB/OL]. (2016-11-16). https://arxiv.org/abs/1605.04227.

[5]Kolluru K, Aggarwal S, Rathore V, et al. IMoJIE: iterative memory-based joint open information extraction[EB/OL]. (2020-05-17). https://arxiv.org/abs/2005.08178.

[6]Etzioni O, Banko M, Soderland S, et al. Open information extraction from the Web[J]. Communications of the ACM, 2008, 51(12): 68-74.

[7]Bhutani N, Jagadish H V, Radev D. Nested propositions in open information extraction[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2016: 55-64.

[8]Del Corro L, Gemulla R. ClausIE: clause-based open information extraction[C]//Proc of the 22nd International Conference on World Wide Web. New York: ACM Press, 2013: 355-366.

[9]Gashteovski K, Gemulla R, Corro L. MinIE: minimizing facts in open information extraction[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2017: 2620-2630.

[10]Angeli G, Premkumar M J J, Manning C D. Leveraging linguistic structure for open domain information extraction[C]//Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015: 344-354.

[11]Stanovsky G, Michael J, Zettlemo240a9546b1b8ec20e756af30ef3f2bd03c5e31ea8a7a7d429ddaaba152af8c32yer L, et al. Supervised open information extraction[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2018: 885-895.

[12]Roy A, Park Y, Lee T, et al. Supervising unsupervised open information extraction models[C]//Proc of Conference on Empirical Me-thods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2019: 728-737.

[13]Zhan Junlang, Zhao Hai. Span model for open information extraction on accurate corpus[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 9523-9530.

[14]Bayat F F, Bhutani N, Jagadish H V. CompactIE: compact facts in open information extraction [EB/OL]. (2022-06-09). https://arxiv.org/abs/2205.02880.

[15]Cui Lei, Wei Furu, Zhou Ming. Neural open information extraction[EB/OL]. (2018-05-11). https://arxiv.org/abs/1805.04270.

[16]Sun Mingming, Li Xu, Wang Xin, et al. Logician: a unified end-to-end neural approach for open-domain information extraction[C]//Proc of the 11th ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2018: 556-564.

[17]韩家宝, 王宏志. 基于生成式对抗网络的开放式信息抽取[J]. 智能计算机与应用, 2021,11(10): 155-159. (Han Jiabao, Wang Hongzhi. Generative adversarial network based open information extraction[J]. Intelligent Computers and Applications, 2021,11(10): 155-159.)

[18]Dozat T, Manning C D. Deep biaffine attention for neural dependency parsing [EB/OL]. (2017-03-10). https://arxiv.org/abs/1611.01734.

[19]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [C]//Proc of the 31st Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.

[20]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 770-778.

[21]Ba J L, Kiros J R, Hinton G E. Layer normalization[EB/OL]. (2016-07-21). https://arxiv.org/abs/1607.06450.

[22]Mausam M. Open information extraction systems and downstream applications[C]//Proc of the 25th International Joint Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2016: 4074-4077.

[23]Gashteovski K, Yu Mingying, Kotnis B, et al. BenchIE: open information extraction evaluation based on facts, not tokens[EB/OL]. (2022-04-13). https://arxiv.org/abs/2109.06850.

[24]Léchelle W, Gotti F, Langlais P. Wire57 : a fine-grained benchmark for open information extraction[EB/OL]. (2019-08-01). https://arxiv.org/abs/1809.08962.

[25]Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language understanding [EB/OL]. (2019-05-24). https://arxiv.org/abs/1810.04805.

[26]Kolluru K, Adlakha V, Aggarwal S, et al. OpenIE6: iterative grid labeling and coordination analysis for open information extraction[EB/OL]. (2020-10-07). https://arxiv.org/abs/2010.03147.

[27]Ro Y, Lee Y, Kang P. Multi2OIE: multilingual open information extraction based on multi-head attention with BERT[C]//Proc of Fin-dings of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 1107-1117.