基于远程监督的关系抽取技术

2020-12-07 05:57王嘉宁何怡朱仁煜刘婷婷高明
关键词:自然语言处理知识图谱

王嘉宁 何怡 朱仁煜 刘婷婷 高明

摘要:关系抽取作为一种经典的自然语言处理任务,广泛应用于知识图谱的构建与补全、知识库问答和文本摘要等领域,旨在抽取目标实体对之间的语义关系。为了能够高效地构建大规模监督语料,基于远程监督的关系抽取方法被提出,通过将文本与现有知识库进行对齐来实现自动标注。然而由于过强的假设使得其面临诸多挑战,从而吸引了研究者们的关注。本文首先介绍远程监督关系抽取的概念和形式化描述,其次从噪声、信息匮乏以及非均衡3个方面对比分析相关方法及其优缺点,接着对评估数据集以及评测指标进行了解释和对比分析,最后探讨了远程监督关系抽取面对的新的挑战以及未来发展趋势,并在最后做出总结。

关键词:关系抽取:远程监督;自然语言处理;知识图谱;噪声处理

中图分类号:TP311 文献标志码:A DOI:10.3969/j.issn。1000-5641.202091006

0引言

随着计算机技术的发展和Web数据的日益激增,如何从这些海量数据中获取有效的信息成为当前的研究热点。信息抽取作为一种经典的自然语言处理任务,其主要目标是从半结构化或非结构化的数据中提取结构化的语义信息,是构建丰富的结构化知识库的核心部分。关系抽取是信息抽取的一个关键步骤,其建立在给定的已知实体对和文本描述基础上,挖掘实体对之间的语义关系,形成由实体、关系、实体组成的三元组,因此关系抽取通常应用在知识图谱构建与补全(Knowledge GraphConstruction and Completion)、知識库问答(Knowledge Base Question Answering)和文本摘要(TextSummarization)等领域。

关系抽取主要分为两大类,一种是以无监督为主的自动抽取(Auto Extraction),另一种是以有监督或半监督为主的关系分类(Relation Classification)。前者通常在没有确定关系标签的条件下,根据语料的句法或语义结构自动地从文本中提取可以描述对应关系的词汇或短语。例如,我们可以从句子“南京是江苏省的省会城市”中根据句法结构自动提取出实体“南京”和“江苏省”的关系是“省会城市”。Hasegawa和Oren等人提出了一些在无监督条件下自动从文本中抽取语义关系的方法。后者通常将关系抽取视为一种分类任务,即事先预定义有限个关系标签,并对语料进行人工标注。有监督的关系分类主要方法是对实体和文本通过特征工程或表征学习来提取句法或语义信息,并通过分类器完成对关系的分类。由于有监督关系分类依赖于标注语料的质量和数量,而人工标注语料的成本高、效率低,半监督或弱监督的关系抽取成为研究的热点。如Kumlien提出了一种弱监督学习方法来从文本中提取结构化的语义关系。

基于远程监督的关系抽取方法(Distant Supervision Relation Extraction,DSRE)是由Mintz提出的一种弱监督学习方法,其主要思想是通过将大量的无标注语料与现有的知识库进行对齐,从而快速地构建大规模监督语料。图1给出一个知识库对齐的示例如知识库中存在两个实体SteveJobs和Apple时,如果语料中存在这两个实体,则这些语料是与这两个实体对齐的。远程监督方法因其构建语料效率高、成本低的原因吸引了国内外研究者们的关注。例如,杨等人利用远程监督方法自动构建初等数学语料并实现知识点的关系提取;Riedel通过获取纽约时报(New York Times,NYT)新闻语料并与知识库Freebase对齐形成NYT数据集;Jar等通过与谷歌Web数据库对齐制作了GDS(Google-IISc Distant Supervision)语料;Han等通过远程监督方法构建了用于验证少样本学习的FewRel数据集。

虽然远程监督可以解决语料的数量问题,但并不能保证语料的质量,因为远程监督方法基于一个假设:如果两个实体在知识库中具有某种关系,任意一个包含这两个实体的文本都描述了这种关系。而这一假设往往是不成立的,从而导致产生的语料中存在大量的错误标签。因此,为了避免这一假设对关系抽取性能的影响,如今有诸多工作尝试解决如何在含有大量噪声的语料中去学习真实的实体对关系然而在实际训练过程中,除了噪声对模型会产生影响外,研究者们还发现由于知识库不充分,部分实体对得不到充分的训练,且每个标签对应的样本严重不均衡,这些客观存在的问题无不影响远程监督关系抽取模型的性能,使得如今模型的测试效果非常低。因此结合近年来的研究工作,本文认为远程监督关系抽取面临的3个最大挑战是:

(1)噪声。主要体现在被标注的样本标签与实际文本语义关系不匹配,导致产生大量的错误正样本(False Positive)。

(2)信息匮乏。由于知识库是不完善的,远程监督语料缺乏充分的语义信息来有效提升关系抽取的效果。与此同时还导致大量的样本被标注为无关(False Negative)。

(3)非均衡。非均衡是指关系标签对应的样本数量不均衡问题,主要体现在少部分的标签对应的样本数量多,而绝大多数的标签对应的样本数量很少,因此也称作二八定律、马太效应或长尾问题。

不同于现有一些调研工作仅从方法角度进行分析,本文将以上述提到的3个研究挑战为出发点,重点讨论当前基于远程监督的关系抽取方法是如何应对这些挑战的。

本文第1节将介绍远程监督关系抽取的相关定义和问题描述;第2节将从应对噪声问题、缓解信息匮乏问题和解决非均衡问题3个方向介绍相关研究工作,并引出规则统计、多示例学习、对抗与强化学习、辅助信息增强、联合学习和少样本学习等技术;第3节将介绍远程监督关系抽取的评估数据集和评测指标;第4节将介绍一些新的研究挑战和未来发展趋势;第5节进行总结。

1基本概念与任务描述

1.1概念定义

关系抽取是非常重要的自然语言处理任务之一,与命名实体识别、实体属性抽取、知识推理等构成知识图谱构建的核心步骤。关系抽取旨在从包含两个目标实体的非结构化文本中预测它们之间的语义关系因此关系抽取任务可以建模成多分类问题。为避免标注训练数据,远程监督基于给定的知识库实现目标实体对与非结构化文本的对齐,从而构建多分类模型的训练数据集。其中一些基本概念的定义如下:

(1)目标实体对(Target Entity Pair)实体是对抽象世界的描述,它是描述客观事物的名词或短语,对应于知识库中则是相互独立的节点。目标实体对则是由两个不同的实体组成的元组,通常这两个实体是有顺序的,第一个实体被称为头实体(Head Entity),第二个实体被称为尾实体(Tail Entity),分别可用h,t表示。

(2)关系(Relation)关系是头实体与尾实体间语义联系的描述,在知识库中通常以边的形式存在,可以用r表示。关系可以分为有向关系和无向关系。有向关系是描述头实体到尾实体的方位关系,如上下位、IsA、PlaceOfl3irth等;如果是无向关系,则头尾实体通常是等价的,如Equal、Friend。

通常关系抽取被视为句子级别分类任务,然而因为远程监督方法是以实体对为基础与文本进行对齐的,因此也有人认为远程监督关系抽取应为一种多示例学习任务。本文以多示例学习为例给出如下基于远程监督的关系抽取的形式化描述。

2远程监督关系抽取研究问题与相关方法

现阶段基于远程监督的关系抽取工作从问题解决角度可分为3类:①应对错误标注所产生的噪声问题;②缓解因知识库不全和数据缺乏导致的信息匮乏问题;③解决语料不均衡带来的长尾问题。其中第1类是自远程监督方法提出以来一直被关注的问题,形成了基于规则统计方法、多示例学习、对抗与强化学习等技术。后两类是最近被关注的新问题,主要对应于辅助信息增强、联合学习和少样本学习等技术。本节分别介绍这3个方面的研究技术现状。表1整理了针对3类挑战的相关研究方法。

2.1应对噪声问题

在机器学习与自然语言处理领域中,噪声是指真实标签与被标注标签不一致的样本。在基于远程监督的关系抽取任务中,因为过强的假设使得许多包含在训练数据中的句子并不能真实描述目标实体对间的关系,导致产生大量的假正例(False Positive)和假负例(False Negative)。例如,知识库中存在一个三元组(Obama,PlaceOFBirth,US。),那么与文本对齐后的结果如表2所示,可知只有第一个句子能够表达PlaceOj留irth的关系,而另外4个句子都属于噪声。由于对齐的语料没有标注是否为噪声,因此如何在关系抽取的过程中识别出噪声成为一个研究难题。如今降噪的技术主要有基于规则统计、基于多示例学习和基于对抗与强化学习等几大类。

2.1.1规则统计方法

規则统计方法旨在通过挖掘实体对与关系之间的规则联系,代表方法有核方法与依存关系、概率图模型、矩阵补全等。

Zelenko提出一种基于核方法和依存关系的关系抽取。其通过使用依存关系方法将文本解析为语法树,并定义了一种基于语法树的节点相似匹配核函数,使用支持向量机(support Vector Machine,SVM)算法进行多类分类。该方法在提出时达到了最优效果,但并未考虑如何解决噪声问题。

Riedel提出一种基于概率图的方法,为每个句子分配一个隐变量表示该句子是否是噪声,其将关系抽取视为一种对隐变量的赋值任务。Takamatsu在此基础上进行了改进,提出一种概率生成模型来模拟远程监督方法的启发式标记过程。该模型也通过隐变量来预测标签是否正确。

Fan等人则提出一种基于矩阵补全的方法,通过将训练集的特征、标签和测试集的特征按照特征组合成分块矩阵,剩余的一块则是测试集未知的标签矩阵,因此其提出一种基于矩阵的秩最小化和核范数最小化的矩阵补全方法来预测未知标签。Zhang则对Fan提出的方法做出了改进,使用基于无参贝叶斯进行训练,避免了大量调参。虽然矩阵补全可以有效地在含有噪声的语料中预测关系,但不适用于大规模数据,且当新来数据时必须重构矩阵。

基于规则统计的方法可以挖掘出实体间显式的结构信息,同时对关系的提取具有可解释性。又因为该类大部分方法通常不需要训练的过程,所以对时间和空间复杂度要求低。但其过度依赖于大量的特征工程使得分类效果差,泛化能力低。

2.1.2多示例学习

多示例学习(Multi-Instance Learning,MIL)方法是目前远程监督关系抽取的主流方法之一,其基本思想是将相同的实体对对齐的文本组成一个包(或称为句袋),并以包为单位进行预测。按照预测方法,可分为错误标签预测、至少一个假设和注意力机制。

(1)错误标签预测(Wrong Label Prediction)

旨在通过捕捉包及包内句子与标签的语义相关性来直接预测是否是噪声。

Hoffmann提出一种经典的多示例学习方法——MultiR,其为每个句子分配与关系数量相等的隐变量,并分别进行错误标签预测。MultiR方法是通过对包内句子预测结果取并集来表示每个包的预测结果,其采用类似于感知机的模型来学习参数。Surdeanu则在MultiR方法的基础上做出改进,提出一种新的多示例多标记MIML方法其基本思路是通过模型捕捉包与不同标签的相关性进行预测,不同于MultiR方法,其依然采用基于概率统计的贝叶斯模型学习参数,在准确率与时空复杂度上都优于MultiR方法。

Min和Xu等人发现由于知识库不全以及噪声原因产生了大量的假负例(False Negative)数据。其通过概率图模型,使用EM算法预测每个句子是否为真。Ritter则同时兼顾False Positive和False Negative并使用一种软性约束机制缓解句子与包标签不匹配问题。

(2)至少一个假设(At-Least-One Assumption)其建立在一个新的假设基础上,即对齐的文本中至少存在一个句子可以描述实体对关系,因此每次只选择包内一个句子进行预测。

Mintz认为与知识库对齐的文本中至少存在一个文本可以描述实体对关系,并基于此提出了At-Least-One假设,在一个包内只选择概率最大的句子作为实体对关系的分类样本。该假设在一定程度上可以保证正确的样本对分类的正面作用。

Zeng基于这个假设提出一种分段的卷积神经网络(Piecewise Convolutional Neural Networks,PCNN)自动捕捉上下文信息。首先使用预训练的词向量(Word Embedding)目将单词映射到低维度向量空间,然后使用卷积神经网络对文本进行特征提取。不同于传统文本分类的CNN,其根据两个实体将文本划分为三段,并为每一段进行最大池化,该方法被证明可以有效地处理长文本表征能力,并降低时间复杂度。另外Zeng还使用位置表示信息(Position Embedding),使得模型可以更好地学习到实体在文本中的结构化信息,进一步提升泛化能力。

(3)注意力机制(Attention Mechanism)是目前关系抽取任务中的热门方法之一,目标是为同一个包内的每个句子分配权重。如果句子是噪声,则分配较低的权重以降低其对包分类的影响;如果句子不是噪声,则会获得较高的权重以凸显其重要性。换句话说,注意力机制通过对每个句子进行加权求和来强化真实标签数据、弱化错误标签数据。

Lin[361认为基于At-Least-One Assumption分类时只选择一个句子,会损失大量的语义信息,因此提出一种句子级别的注意力机制fsentence-Level Attention)。首先使用PCNN对包内的句子进行卷积核最大池化。然后对于每个句子与关系向量计算相似度并使用softmax归一化为权重,以此对包内句子进行加权求和获得包表征fBag Embedding)。最后直接应用一层神经网络对这个包进行分类。基于句子级别注意力的降噪方法也成为多示例学习的主流方法。Ji改进了Lin的权重分配方法,提出一种结合实体描述信息的句子级别注意力机制。其改进之处是先对头尾实体进行表征,并在模型训练过程中进行微调,然后用尾实体向量与头实体向量的差来近似代替关系向量并将其与每个句子计算权重。

jat认为每个单词对关系预测的贡献是不一样的,因此提出一种基于单词和实体级别的注意力,每个单词分配不同的权重用于表示句子向量,实体则用于对不同的句子分配权重。同时将单词和句子进行加权求和可以提取更关键的语义成分来提升预测能力。

wu则在PCNN的基础上添加了神经噪声转换器(Neural Noise Converter)学习结构化的转移矩阵来获得含有噪声的数据集,并使用条件最优选择器(conditional Optimal Selector)从噪声中选择权重最大的句子用于分类。

Ye认为除了包内句子与句子之间存在相關性,包与包之间也存在相关性,因此提出一种包内(Intra-Bag)和包间(Inter-Bag)注意力。对于包内的句子则是对所有句子进行加权求和;对于包与包之间,Ye提出一种包组(Bag Group)的概念,将具有相同关系标签的包组在一起,为每一个包学习一个注意力权重,并进行加权求和形成包组向量。通过结合句子级别注意力和包级别注意力可以更好地降噪。Yuan~ll也提出了包级别注意力,但不同于ye,其首先使用PCNN和句子级别注意力获得包表征,然后提出一种交叉关系注意力(cross-Relation Attention)将包与每个关系标签结合起来计算权重,同时通过贝叶斯公式求得后验概率,并使用softmax归一化后的权重对不同的关系向量进行加权求和以获得融合关系信息的包向量,再通过交叉包注意力(cross-Bag Attention)将所有包与同一个关系融合的向量加权求和组合成超包(superBag),最后通过超包学习不同实体对与关系之间的语义联系并进行预测。

Jia从另一个角度使用注意力对噪声进行处理,他认为句子中的模式(Pattern)能够对降噪起到很好的作用,因此提出一种注意力正则化(ARNOR)方法,通过关注句子中的不同模式来对句子是否是噪声进行判断。Alt等人则结合了语言模型(Language Model),利用BERT等预训练语言模型获得文本的语义表达,再通过一个分类器学习实体对与关系标签的映射。预训练模型通常包含大量的先验知识,将其迁移到关系抽取上可以进一步缓解噪声的影响。

随着深度学习的发展,如今基于多示例方法通常以神经网络模型为主,相比基于规则统计的传统方法,避免了特征工程带来的误差传播风险,使得模型更具有泛化能力,但与此同时,时间和空间复杂度要求要高于传统的方法。

2.1.3对抗与强化学习

虽然多示例学习可以很好地平滑噪声的影响,但是在训练过程中依然会存在两个问题:

(1)无法处理所有包内句子都是噪声的情况。如果某一个实体对对齐的文本全部都是噪声,对于多示例学习方法,At-Least-One Assumption和注意力机制都会至少为一个句子分配一个较大的权重,因此无法处理所有句子都是噪声的情况。

(2)基于包的预测并不能很好地处理句子与关系标签的映射,另外,其容忍了一部分噪声使得模型学习到了一些错误的映射关系,从而可能影响分类效果。

随着对抗学习与强化学习的发展,以及它们在自然语言处理中的广泛应用,基于远程监督的关系抽取中噪声处理问题形成了一个新的思路——学习一种采样策略,使得在训练模型之前先过滤错误标注的句子,通过提升语料的质量来提升关系抽取的效果。

Shi和wu均提出一种远程监督关系抽取对抗训练的思路。通过在对句子使用RNN进行表征的时候,在每一个时刻将模拟为噪声的对抗样本与真实样本一同输入模型中进行训练,试图让模型能够识别出真样本和噪声样本,与此同时提升模型在含有噪声的语料中训练的鲁棒性。

Qin则使用生成对抗网络(Generative Adversarial Nets,GAN)来模拟采样过程。其参考多示例学习方法将语料划分为包,并在每个包内通过采样器(sampler)根据学习的概率分布采样出真实样本企图欺骗判别器(Discriminator),剩余的则是采样器认为的噪声。判别器则将采样器采样的真实样本认为是噪声并给予低分,而将剩余的噪声认为是真实样本给予高分。因为GAN的训练比较困难,因此Qin首先对采样器和判别器进行预训练,其次两者进行联合训练。对GAN的训练是一个极小极大问题,最终可以获得一个较优的采样器使得其采样的样本都可以被认为是正确的。

不同于Qin,Li认为大量的False Negative样本影响了关系抽取效果,因此首先通过对维基百科中的实体描述进行统计构建出小规模的专家语料,认为如果某个实体的描述信息中出现了另一个实体,则这两个实体间是有关系的。其次在对抗训练过程中,生成器分别從原始语料和专家语料中采样,判别器则分别给予低分和高分。Han等人提出另一种降噪方法,首先通过预训练的分类器将远程监督语料划分为2个集合,分别是确信集(confident Part)和不确信集(unconfident Part)。在对抗训练阶段,通过采样器从确信集中采样企图欺骗判别器,并不断将被打高分的样本更新到确信集中,直到2个集合不再变化为止。

Feng从强化学习的角度提出一种远程监督语料的降噪方法,在基于马尔可夫决策过程条件下,定义了状态、动作、奖励等基本要素。基本思路是利用策略梯度REINFORCE算法学习一个选择器(selector)在包中对每个句子执行一个动作,即选择或不选择,并在已选择的句子集合中使用句子级别的PCNN分类器(classifier)进行分类,并通过挑选的句子loss的均值作为奖励。实验表明这种方法可以有效提升关系抽取的效果,尤其是对于全部都是噪声的包能够起到过滤作用。He改进了Feng的方法,主要体现在:①依然使用基于包级别的预测,认为只考虑句子级别的分类会丧失句子之间的语义关联性;②使用Q学习来训练选择器;③同时考虑了True Positive和Unlabeled所产生的损失,实验表明识别True Positive的精确度得到了提升。

Qin则站在挑选噪声的角度,将每相邻的两次迭代所挑选噪声的交集作为计算奖励的依据。不同于Feng的是,Qin认为使用F1值的变化作为奖励可以提高策略的学习能力。Zeng和Sun则训练一个智能体进行关系预测,动作空间的大小是关系标签的数量,而奖励则为对包分类的预测准确度。通过策略梯度法不断调整智能体的策略使得能够给出正确的关系预测。

基于对抗与强化学习的降噪方法进一步地提升了语料的质量,让模型可以学习到更加准确的实体对关系,进一步提升训练模型的泛化能力和鲁棒性。但是相比于前两种方法,对抗学习与强化学习都需要训练两个模型,训练难度大,通常需要先对各个模块进行预训练来避免在联合训练过程中的不稳定问题,因此其时间和空间复杂度要求进一步提高,在实际工业界应用场景中难以落地。

2.2缓解信息匮乏问题

由于现阶段知识库和训练语料大量缺失,使得部分实体对对齐的语料数量过少,从而造成这些实体对的关系抽取训练不充分,最终导致信息匮乏。如图2所示,Kuang分别对NYT和GDS数据集的每个实体对在数据集中的共现次数进行了统计,其中横坐标表示实体对共现次数,纵坐标表示对应的实体对数量。发现绝大多数的实体对仅存在少量的样本,在本身还有大量噪声的情况下,真实样本含有的语义信息十分稀少,不利于训练。如今解决远程监督关系抽取中信息匮乏问题的工作主要分为辅助信息增强和联合学习。

2.2.1辅助信息增强

辅助信息增强是一种最直接地缓解训练不充分的问题的方法,其基本思路是通过引入额外知识信息来提升对关系的预测,如实体关系信息、条件约束、知识表示等。

Vashishth认为知识库中包含一些辅助信息(side Information)以及实体类型信息(EntityType)可以辅助增强关系抽取:在计算句子权重之前将辅助信息与句子向量结合起来;在形成包向量之后直接与实体类型对应的向量进行拼接。相比之下,Li则是使用自注意力机制(self-attention)结合实体信息来实现对语义信息的增强,其验证了自注意力机制可以有效地帮助模型关注更重要的语义成分以弥补数据不充分的缺陷。

Kuang认为实体对在大量维基百科语料中的共现次数可以间接地描述它们之间的潜在关系,从而弥补训练集中部分实体对不充分的问题。其构建了一个实体邻接图(Entity Proximity Graph),其中节点表示各个实体,边上的权值代表对应相连的两个实体在维基百科语料中的共现次数。随后使用LINE[711图算法从低阶和高阶两个方面捕捉实体对之间的隐式相互关系(Implieit Mutual Relation),并结合实体类型信息进行增强。与此同时,Su是同时在文本和知识库两个方面对实体对共现次数进行统计,并提出一种全局关系表征(Global Relation Embedding)用于提升关系预测能力。

Xu则结合了知识表示(Knowledge Base Embedding,KBE)和文本句子表征,提出基于异构表征方法来增强远程监督关系抽取。其思路是使用双向长短期记忆神经网络(Bi-directional Long Short-Term Memory,BiLSTM)对句子进行表征,并基于TransE模型学习知识库内的实体和关系向量。文本句子表征与知识表征分别对应使用交叉信息熵的局部损失和基于相似度排序的全局损失,在实验中二者结合起来联合训练。

Liu则考虑到了实体类型会对关系预测起到约束作用,如果两个实体类型分别是“Person”和“Film”,则预测的关系应当更可能是“DirectorOf”,而不可能是“PlaceOfBirth”。因此Liu提出一种多粒度的实体类型约束方法,并集成到现有的远程监督关系抽取模型中。Ye也考虑到了这类约束,并分别从连贯性(coherent)和语义性(semantic)两个层面上提出两种不同的约束损失函数计算方法,该工作不依赖于关系抽取模型,因此具有即插即用(Plug-and-Play)的优势。

2.2.2联合学习

联合学习则是另一类缓解信息匮乏问题的方法。Beltag认为远程监督关系抽取中的语料是不充分的,但可以通过其他有监督语料来辅助增强,因此提出一种联合监督与远程监督的训练方法。不过使用监督语料并不能从根本上解决训练不充分问题。

wei提出一种联合命名实体识别(Named Entity Recognition,NER)和关系抽取的端到端方法,其基本思路是先对文本中的实体进行标注,获得了实体层面的语义信息后映射到对应的关系语义表征上。该工作在远程监督数据集NYT上验证了同时结合两个任務学习模型可以弥补只进行关系抽取任务可能出现的学习不充分的问题。Ren提出一种联合抽取模型COTYPE,主要解决实体标注与关系分类分离导致的错误传播问题,他认为联合两个任务学习还可以缓解噪声问题。

Takanobu的出发点与wei相同,但实现策略完全相反。其是先挖掘文本中的关系,再根据关系到文本中寻找两个实体。为了能够很好地提取关系和实体,Takanobu使用一种分层的强化学习方法,先后交替训练关系抽取和实体识别,并在NYT数据集上验证了该方法既可以通过联合两个任务缓解含有噪声的语料中的训练不充分的问题,也能够处理关系重叠问题(overlapping)。

2.3解决非均衡问题

非均衡是远程监督语料面临的新问题,近几年开始被关注。非均衡问题主要体现在各个关系标签对应的实体对数量或对齐的语料数量不均匀。通常只有少部分标签对应的实体对或语料数量较多,而大部分标签则很少,这种现象被称为二八定律、马太效应或长尾问题。例如,Zhang对NYT语料进行了统计,如图3所示,横轴表示关系标签的编号,按照对应样本数降序排序,纵轴表示各个关系标签对应样本的数量。NYT一共包括53个关系标签,居于头部的关系标签语料充足,而近40个居于尾部的关系标签对应的语料严重缺乏,使得居于长尾的实体对不能够得到充分的学习,致使训练得到有偏的模型。

为了解决非均衡的问题,ye等人提出一种多任务学习(Multi-Task)框架,认为绝大多数的实体对关系是NA(无关),只有少数的实体对具有关系。因此在CNN的输出层部分添加两个分类器,分别为Relation Identification和Relation Classification。前者使用交叉信息熵进行关系识别,即判断当前实体对是否存在关系,后者则使用排序损失方法预测具体的关系。但这种方法只能够缓解NA标签对分类的影响。

Krause提出一种基于规则的关系抽取系统解决长尾问题。其从远程监督语料中提取了大量的语法规则,每个关系标签平均有40k个规则模板。然而大量的规则极大地消耗了人力物力,且局限于特定领域的关系抽取。为了解决规则带来的问题,Gui等人进行了改进,提出一种基于可解释学习(Explanation-Based Learning,EBL)的方法,其可以在少量规则的引导下提取出实体关系信息,同时对于长尾的关系,还可以通过领域知识进行纠正。

解决长尾问题的代表性方法还有少样本学习fFew-shot Learning)。Han则利用了深度学习技术来解决长尾问题。Han发现在FreeBase等知识库中关系标签是按照层次结构组织的,如关系“|people|person|place-of—birth”可以分为“|people”“|people|person”和“|people|person|place-of-birth”3层,对于长尾关系通常表现在第3层,但是可以通过前两层使得长尾关系的样本容量变大。基于此,其提出一种分层的关系抽取方法,根据关系的层次结构由粗到细地(coarse-to-Fine)进行预测,进一步缓解长尾问题。

Zhang认为基于Few-shot的训练方法具有挑战性,因此在Han基础上进行改进。其先后使用TransE和图卷积网络(Graph Convolutional Network,GCN)模型对知识库的图结构以及层次关系的树结构进行表征,分别获得隐式和显式的关系信息,进而通过由粗到细粒度的注意力机制将不同层次的信息进行融合。该方法可以很好地借助关系的层次结构以及知识库信息来缓解长尾问题。

3评估数据集与评测指标

3.1评估数据集

在国际评测中,监督类实体关系抽取的公开数据集主要有SemEval 2010 Task8、ACE2004/2005.前者是国际语义评测会议SemEval于2009年构建的语义关系分类任务,其包含9种关系共10717个示例,语料主要来源于词网(WordNet)、维基百科(Wikipedia)等。后者是ACE会议公开使用的数据集,其中包括实体识别和关系抽取两个子任务,语料来源于语言数据联盟(Linguistic Data Consortium,LDC),通常可以被用于联合抽取任务。另外还有MUC、MPQA2.0等语料。虽然这些有监督的关系抽取数据集被广泛用于评测模型,但它们共同的缺点在于数据集的语料数量过少、大量人工标注成本过高、因局限于特定领域而不能得到广泛的应用。因此有一系列相关工作致力于远程监督方法构建数据集,表3分别列出了相关数据集的统计信息。

(1)NYT数据集Riedel通过将纽约时报与FreeBase对齐产生大量的语料并简称NYT数据集,其中训练集由2005年和2006年新闻组成,测试集由2007年新闻组成。NYT数据集包括52种语义关系和NA标签,训练集共包括522611个示例、281 270个实体对,测试集包括172448个示例、96678个实体对。NYT也成为目前远程监督关系抽取使用最为广泛的评估数据集。后来有相关工作将NYT原始数据集进行了简约处理,构造了NYTll等版本语料,如表3所示,实体对数量之所以比示例数量多,是因为存在一些句子包含多个实体对或相同的实体对有多个关系。

(2)GDS数据集Jat等人认为NYT数据集中包含大量的NA标签致使模型不易学习到正确的映射关系,因此用远程监督方法额外构建了GDS(Google-IISc Distant Supervision)数据集,其将谷歌关系抽取语料库与Web进行对齐。其中训练集有13161个示例、7580个实体对,测试集包括5663个示例、3247个实体对,一共有4种语义关系以及NA标签。GDS相比NYT数据集来说降低了数据的规模,且使得5种标签对应的示例数量相对平衡。

(3)KBP数据集是由Surdeanu通过KBP2010和KBP2011评测任务上获得的语料,该语料是将150万个文档与知识库对齐产生的。KBP数据集中包含183062个训练实体对,3334个测试实体对和41种关系标签,且平均每个实体对对应50个句子。因此该语料具有规模大、数据真实等特点。不同于前面的数据集,Surdeanu设计了200个基于实体名称的头实体查询,并根据头实体获得对应的所有三元组及其对齐的语料。例如,Surdeanu和Min随机挑选40个查询作为训练,剩余的160个查询作为测试。

(4)FewRel数据集该数据集的主要目标是验证模型在少样本训练后在未知的实体对关系下是否具有泛化能力,其是由清华大学团队提出的关系抽取数据集,该数据集使用基于远程监督的思想,通过与维基百科进行对齐。不同于NYT的是,其包含自动对齐和人工标注两个步骤。在自动对齐阶段,其首先过滤掉样本数少于1000的标签,避免长尾问题出现,其次去掉实体对重复的示例,使得每个实体对仅出现一次;在人工标注阶段,主要由标注人员进行筛选,保证语料的质量,最终保留了100个关系,每个关系对应700个示例。由于每一个示例对应唯一的实体对,因此,总共有70000个实体对。FewRel定义了80个关系为训练集(其中16个关系为验证集),20个关系为测试集。随后FewRel 2.0版本则对第一版本进行了改进,使用N-Way、K-Shot设定,其表示给定模型Ⅳ个未知的类型,每个类型包含k个示例,以此验证模型是否可以有效地分类。FewRel已被多个工作作为验证模型的评测数据集,也是远程监督关系抽取的新的评测任务。

另外,国内也有相关研究团队构建了大规模中文关系抽取语料。例如,Xu等人构建了可同时完成实体识别和关系分类的中文语料库;清华大学自然语言处理实验室开源了神经关系抽取工具包项目OpenNRE;国内最大的开源知识图谱社区(openKG)则收纳了超过130个开放中文知识图谱语料。

3.2评测指标

在对远程监督关系抽取模型的评估方面,Mintz提出两种评估方法,分别是基于自动评估(Held-out Evaluation)和基于人工评估(Manual Evaluation)。

自动评估是指通过模型预测的结果自动与样本标签进行比较,通常选择的评测指标有准确率(Precision)、召回率(Recall)、Fβ值和P-R曲线(AUC值)等。然而,由于远程监督方法构建的语料中,测试集中也普遍存在大量噪声,可能受到False Positive和False Negative的影响,即在测试阶段给定的实体对被预测正确的关系,但由于错误的标注或知识库不充分等原因导致被判为预测错误,因此有时需要进行人工评估。如今诸多工作同时兼顾两种评估方法。表4对这些评测指标进行了整理。

3.2.1自动评估(Held-out Evaluation)

在自动评估中,远程监督关系抽取属于多类分类任务,常用混淆矩阵(confusion Matrix)来表示每个类预测的情况。假设给定的数据集预定义的n个关系标签组成的集合为r={r1,r2,…,rn),混淆矩阵可以表示为n×n的方阵,本文记作con,matrix∈Rnxn,其中每一行表示样本的实际标签,每一列表示模型预测的标签,矩阵的元素confmatrix(i,J)则表示实际关系标签ri对应的样本被预测为rj的个数。当且仅当i=j时表示预测正确。可以得到相应的评测指标分别如下。

在远程监督关系抽取自动评估中,研究者们通常取宏平均的准确率和召回率作为评价指标,且不计入标签NA的结果。

为了能够对模型进行综合评测,还引入了Precision-Recall(P-R)曲线和AUC值作为模型比对的指标。其中P-R曲线用来衡量查准率和查全率的综合效果,在多类分类中,通过获得每个样本在各个类预测的概率分布及其对应独热编码,并按照概率进行降序排序形成一个向量,若对每个元素作为分界線,则可以依次得到相应的查准率和查全率,以此可以获得相应的曲线。P-R曲线目前是远程监督关系抽取性能评估的主要指标。另外,ROC曲线是反映在关系抽取时敏感性(FPR)和精确性(TPR)的趋势,AUC值(0≤AUC≤1)表示ROC曲线与两坐标轴(TPR和FPR)包围的面积,AUC值越大则说明模型的性能越好。

3.2.2人工评估(Manual Evaluation)

人工评估法是为了弥补由于知识库语料不充分所导致的一些False Negative样本对实验结果的影响,因此人工评估方法也被广泛作为远程监督的评价依据。目前人工评估的方法主要有如下几类。

(1)直接重新从测试集中随机挑选一部分数据并进行人工标注,确保每个示例都是正确无误的,然后在此基础上验证预测的效果。例如,Feng通过从测试集中随机选择了300个样本并人工标注了每个示例是否是噪声,来验证他们的方法是否可以有效过滤噪声。

(2)P@N指标。由于P-R曲线中随着Recall值的不断上升,可能包含的FaKe Negative数量会变大,使得模型预测的正确的示例会被错误评判,因此通常取一小部分示例用于测试。一种方法是通过人工挑选Ⅳ(或Ⅳ%)个示例;另一种是直接按照Precision值从大到小排列并选择第Ⅳ(或Ⅳ%)个值作为评估结果,这种情况下,P@N指标相当于对模型预测的准确率最高的前Ⅳ个(或前Ⅳ%)示例中模型预测的准确率,而可能含有大量的False Negative样本便被排除在外,可以有效避免错误评判带来的问题。通常大多数工作取值为Ⅳ∈{100,200,300,500)或Ⅳ∈{10%,20%,30%,50%),后来也有工作为了避免人工评估方法带来的时间消耗,将P@Ⅳ指标应用到自动评估方法中。

猜你喜欢
自然语言处理知识图谱
基于组合分类算法的源代码注释质量评估方法
国内图书馆嵌入式服务研究主题分析
国内外政府信息公开研究的脉络、流派与趋势
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的智慧教育研究热点与趋势分析
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展
面向机器人导航的汉语路径自然语言组块分析方法研究
词向量的语义学规范化
汉哈机器翻译中的文字转换技术研究