PATB:一种面向联合实体和关系抽取的信息聚合器

2023-10-18 13:09:22王爱娟
小型微型计算机系统 2023年10期
关键词:三元组客体注意力

张 亮,卢 玲,王爱娟,杨 武

(重庆理工大学 计算机科学与工程学院,重庆 400050)

1 引 言

自动问答系统、对话生成等自然语言处理(Natural Language Processing,NLP)领域研究及应用的发展,令知识图谱[1]及其相关技术的研究一直备受关注.知识图谱是一种图数据结构,其最小单元是两个结点及其关系构成的三元组.自然语言文本中包含大量由主体、客体及主客体之间关系构成的(subject,relation,object)[2]关系三元组,它们呈现了文本中的基本关系事实,是构成知识图谱的基本单位.通过关系三元组,可进一步进行知识推理等任务,因此,抽取关系三元组是构建大规模知识图谱的一项重要而关键的基础任务.

早期的关系三元组抽取多为流水线方法[3,4],将抽取分为实体识别和关系分类两阶段.首先识别实体对(subject,object),再进行关系分类,由于两阶段任务分离,因此实体识别的误差将传播至关系分类阶段.后续研究提出了旨在同时提取实体和关系的联合方法,但现有联合方法普遍采用分离解码和参数共享方法,较少着眼于实体抽取和关系抽取两个任务的相关性进行研究.2020年,Wei等[5]提出了一种级联式联合抽取模型,先抽取主体,再联合抽取关系及客体.该方法在较好地解决实体重叠[6]问题的同时,还将主体信息引入到客体和关系抽取阶段,通过主体识别和关系及客体识别两个任务交互,改善了三元组抽取的性能.但该方法仅将主体与原文信息简单相加,对两个子任务的交互形式单一.

总体来看,流水线方法难以避免误差传播问题,其后的级联式联合模型既较好地解决了实体重叠问题,也表明令级联模型的主体识别和关系及客体识别两个任务进行交互,可以提升关系三元组抽取的性能,由此启发了本文方法的提出.本文认为,级联式联合抽取模型中的主体抽取、客体及关系抽取两个任务存在相关性,可基于主体进行信息融合,以提升关系三元组抽取的性能.这种融合含两个层面,一是在主体中融入其位置信息以增强主体的表示,二是在文本中融入主体的信息以增强文本的表示.由此,提出了一种基于主体位置及注意力的信息聚合器(Position and Attention based Booster,PATB)用于关系三元组抽取任务.本文的主要工作如下:

1)提出了融合位置信息的主体表示方法,将主体的编码与其头尾词的位置编码融合,更新主体表示;

2)引入注意力机制,计算抽取的主体对文本中各词的注意力,由此将主体编码融入文本中,更新文本表示.将更新后的主体及文本表示进行融合,用于后续的客体及关系抽取;

3)分别在NYT和WebNLG两个公共数据集上取得了优于基线的实验结果.

2 相关工作

关系三元组抽取主要分流水线方法[7]和联合抽取方法.流水线方法将三元组提取分为实体识别和关系提取两阶段,首先提取实体对(subject,object),再对其进行关系分类.由于流水线方法的关系分类训练使用带标签的实体对,但预测使用识别的实体对,因此难以避免由实体识别误差引起的关系分类误差.另外,流水线方法将实体和关系提取视为两个独立的子任务,忽视了两个任务的关联性.后续研究提出了旨在同时提取实体和关系的联合模型.Yu等[8]提出了一个基于无向、有条件训练的概率图模型进行实体和关系联合抽取.Makoto Miwa等[9]用BIO(Begin,Inside,Outside)方法标记句子中的词项,建立实体和关系表以获得句子表示,将实体和关系抽取视为表格填充问题.前述联合模型虽能缓解流水线方法的误差传播问题,但其实施需进行复杂的特征工程.深度神经网络为联合方法[10]提供了更广泛的思路.Pankaj Gupta等[11]提出了一种多任务循环神经网络(Table Filling Multi-Task Recurrent Neural Network,TF-MTRNN),将句子序列送入循环神经网络(Recurrent Neural Network,RNN)以获得词对间的候选依赖关系,再将候选依赖关系填入建模的表中,提升了实体识别及关系分类的性能.Makoto Miwa等[12]提出了一种带注意力的多层双向长短时记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)进行句子序列编码,改进了关系识别的性能.Zheng等[13]提出了一种序列标记方法,为每个词分配一个带实体和关系类型信息的标签,将实体关系抽取视为序列标记问题,但该方法只考虑一个实体属于一个三元组的情况,未考虑实体重叠问题.

为提升关系三元组抽取性能,解决实体重叠问题也被研究者普遍关注.Zeng等[14]提出了一种序列到序列(Sequence-to-Sequence,Seq2Seq)的联合模型,用端到端(End-to-End,End2End)的复制机制解决实体重叠问题,其F1值较基线提升30%以上.Zeng等[2]将生成三元组视为强化学习过程,通过奖励策略令模型按照正确的事实生成三元组.T.Fu.等[15]提出了一种基于图卷积网络(Graph Convolutional Network,GCN)的联合抽取模型,通过BiLSTM和GCN依赖树,将句子的线性结构和依赖结构融入词的表示中,在公共数据集NYT和WebNLG上获得了优于其基线的F1值.总体来看,基于深度神经网络的联合抽取方法通过避免误差传播和解决实体重叠而提升了三元组提取的性能,但其研究多是用分离解码和参数共享方法,对实体与关系间的内在关系较少关注和应用.

文献[5]提出了一种级联式抽取框架CasRel(Cascade Relation Extraction).CasRel将关系视为从主体映射到客体的函数,先以半指针标注形式提取主体,再用提取的主体和特定关系的标记器来联合提取客体及关系.CasRel较好地解决了实体重叠问题,同时,它通过简单相加的方式将主体信息引入关系及客体抽取阶段,虽然其方式单一,但其思路仍对后续研究有启发意义.与该思路同类的研究还有Wang等[16]用双编码器融合词序列信息和基于表格的特征信息进行关系提取,Sui等[17]将多头自注意力融入句子信息对关系三元组进行集合预测等.这些研究表明,对联合抽取模型,以某种方式将前一阶段的信息融入下一阶段,有助于提升关系三元组抽取的性能.

总体来看,联合模型可以解决流水线方法的误差传播问题,基于深度学习的联合方法已被广泛用于关系三元组抽取任务.其中,文献[5]的级联式联合抽取模型将主体信息简单引入客体及关系抽取阶段,为级联模型中两阶段任务的交互提供了思路,启发了本文提出基于主体位置及注意力的PATB信息聚合器,用于级联式关系三元组联合抽取.

3 信息融合方法分析

文献[5]的研究表明,对抽取主体与抽取客体及关系这两级任务的相关性加以利用,可提升关系三元组抽取的性能,这启发了本文提出融合主体的信息聚合器PATB.PATB的工作主要有二:1)在主体中融入其位置信息以增强主体的表示;2) 在文本中融入主体信息以增强文本的表示.以下3.1及3.2小节阐述了主体的位置及主体信息对关系三元组抽取的影响.

3.1 主体的位置分析

在自然语言文本中,主体与客体的相对位置可能随关系不同呈不同分布.例如,对表1的关系“family”,其句子S1的主体“Almond”与客体“Rosaceae”的词距为4,句子S2的主体“Celery”与客体“Apiaceae”的词距为5,主客体的位置距离均较近.对关系“club”,其句子S3中主体“Marcolini”与客体“Verona”的词距为22,句子S4的主体“Panucci”与客体“Roma”的词距为15.可见,对关系“family”和“club”,前者的主客体词距总体大于后者,表明主体的位置与客体及关系存在显著相关性.

为进一步观察主体位置与关系及客体的相关性,本文分析了NYT数据集中主体s与客体o的相对位置.令pos(s)、pos(o)分别表示s与o在文本中的绝对位置,so表示s与o的位置关系,so描述如式(1)所示:

(1)

表1 主客体位置词距示例Table 1 Example of subject object position word spacing

其中,pos1、pos2和pos3分别表示s与o在句中绝对位置的词距为小于10、10~20及20词以上.对NYT数据集中预定义的24种关系中的s与o按式(1)进行统计,结果如图1所示.可见,各关系中主客体的位置均以pos1居多,其词距为10词以内,但总体词距分布并不一致.例如关系r1中距离为pos3的主客体对比例显著低于关系r13.

图1 NYT数据集各关系中的主客体的词距分布Fig.1 Word spacing distribution of subject and object in each relationship of NYT dataset

进一步观察关系r1、r14、r24的so分布情况如图2所示.可见关系r1中,主客体的词距在10词内的为10~20词的7.4倍,而关系r14中仅为1.1倍.关系r1和r14的词距为10~20词的是20词以上的1.3和2.6倍,但关系r24仅为0.77倍.显然,对任意一种关系r,存在条件概率P(so|r),因此根据贝叶斯法则P(r|so)-P(so|r)P(r),在已知主体时,可根据其位置进一步推断关系r.主体的位置对识别客体也有同样的影响.由此,本文提出在识别出主体后,在主体的表示中融入其位置信息,得到融合位置信息的主体表示,进一步用于客体和关系提取.

图2 NYT数据集中关系r1、r14和r24的主客体词距分布Fig.2 Word spacing distribution of subject and object of relationshipr1,r14 and r24 in NYT dataset

3.2 主体与文本的注意力关系分析

文本中的同一对主体和客体在不同的上下文语境下可能存在不同关系,如表2所示.

表2 同一对主客体间的不同关系示例Table 2 Examples of same subject and object under different relationships

表2中,句子S1和S2的主体均为“The Great Wall”,客体均为“China”,但二者在S1中的关系是“located in”,在S2中的关系是“belongs to”.分析其原因,在S1中,“The Great Wall”和“China”的关系较多受词“located”影响,而在S2中则较多受“of”的影响.这表明,对同一个主体,如果关注文本中不同的词,可能捕获该主体在不同关系下所对应的不同客体.因此,在提取到主体后,建立主体与文本中各词的注意力关系,通过注意力将主体信息融入文本的表示中,有利于捕获同一主体在不同关系下的客体,这为解决实体关系重叠问题提供了思路.

综上,关系三元组中的主体在文本中的位置,以及主体与文本中各词的注意力,对进一步提取关系和客体有显著影响.由此,本文基于Wei等的级联式抽取框架,构建了一个融合主体信息的信息聚合器PATB.PATB在抽取到主体后,一是通过位置增强主体的表示,二是通过计算主体与文本词的注意力增强文本的表示,由此加强级联模型两阶段的交互,提升关系三元组抽取的性能.

4 PATB实体关系联合抽取模型

基于PATB的实体关系了联合抽取模型如图3所示,它是级联式联合抽取模型,含主体抽取器(Subject Extracter)、信息聚合器PATB及关系—客体抽取器(Relation-Object Extracter)三层结构.主体抽取器从文本中抽取主体,PATB对主体及文本表示进行更新,将更新后的主体及文本表示送入关系—客体抽取器进行客体和关系联合抽取,得到完整的三元组.主体抽取器(Subject Extracter)检测候选主体,将其开始和结束位置分别标为1.图3中示例共有3个主体,Subject Extracter用3种不同灰度的方块分别标识主体A.Elliott Meisel,Washington和United States of American的起始和结束位置,每一个主体迭代地输入PATB中.

模型训练目标为最小化抽取关系三元组的真实概率和模型抽取三元组的实际概率间的差异,损失函数如式(2)所示:

(2)

其中,s、o和r分别表示主体、客体及主客体之间的特定关系,x表示文本,θ为训练参数集合,pθ为模型抽取关系三元组的概率,KL(p|pθ)表示真实概率p和pθ的KL散度.根据级联式抽取思想,将式(2)建模为式(3):

(3)

其中,pθ(s|x)表示从文本中抽取主体的概率,pθ(o|s,x)表示根据已抽取的主体和原文本抽取客体的概率,pθ(oØ|s,x)则表示根据已抽取的主体和原文本抽取客体为空的概率.

图3 基于PATB的实体和关系联合抽取级联模型Fig.3 Cascade entity relationship extraction model based on PATB

4.1 BERT Encoder

预训练模型BERT[18]可通过学习词的上下文语义获得文本语义的深层表示,在许多深度学习任务中[19]有优秀表现,也被广泛应用于实体关系抽取任务[20].本文用BERT对文本进行编码,为加速收敛,防止梯度消失或爆炸,将BERT编码器的输出送入归一化层(Layer Normalization),如式(4)所示:

H=LN(BERT(X))

(4)

其中,X={x1,x2,x3,…,xn}表示文本的词序列,n为文本的词数,LN表示归一化层,H表示经过BERT编码和归一化后的文本表示,H={h1,h2,h3,…,hn},H∈b×l×d,b表示训练批次,l表示文本长度,d表示BERT最后一层隐藏层的维度.

4.2 主体抽取器

主体抽取器用于从BERT编码器产生的向量编码中抽取出主体.它将识别主体的起始、结束位置分别视为二分类问题,用两个相同的二进制分类器,分别识别主体的起始和结束位置.如果词xi所处位置i被识别为主体起始或结束位置,则将该位置标为1,否则标为0,如式(5)、式(6)所示:

(5)

(6)

(7)

4.3 PATB信息聚合器

PATB信息聚合器对抽取的主体及文本的表示进行重编码,用于进行下一阶段的关系及客体抽取.

4.3.1 主体-文本注意力机制

为捕获主体与文本的词在不同关系下的语义相关性,本文引入了注意力机制.对抽取的主体,建立主体与文本各词的注意力关系,通过不同程度地融入主体与文本在特定关系下的潜在客体的语义,增强文本的信息表示.

为进行注意力计算,首先对主体表示S进行维度变换.分别对其起始和结束位置的词向量进行维度转换和拼接,如式(8)所示:

S′=CAT[EX(hsta),EX(hend)]

(8)

其中,hsta和hend分别为S′的起始和结束位置的词向量表示,EX表示将hsta和hend扩充成与文本向量H相同维度,CAT表示向量拼接.经过式(8),得到与文本表示H维度相同的主体表示S′∈b×l×d,对S′与H进行注意力计算如式(9)~式(11)所示:

Att(S′,H)=HS′T

(9)

(10)

(11)

其中,Att为S′与H的点积注意力,α是经softmax函数后的注意力分布.首先计算S′对文本每个词的点积注意力,再经softmax得到S′对文本中每个词的注意力分布α,最后将α与S′的点积结果与H相加,得到新的文本表示H′.该过程将主体信息以注意力的形式加权到文本信息中,在主体与潜在的客体间建立关联,实现了主体信息与文本信息的融合.

4.3.2 Conditional Layer Normalization

受图像处理中的多信息融合结构(Conditional Batch Normalization,CBN)启发,Zhang等[21]提出了一种条件层归一化方法(Conditional Layer Normalization,CLN),其结构如图4所示.

图4 CLN结构Fig.4 CLN structure

对输入的文本特征x,CLN对归一化结构层中偏置项γ和权重项β增加一个条件函数c.将条件函数c通过不同的线性映射,分别转换为与LN中权重项γ和偏置项β相同维度,以此体现条件信息,控制模型输出方向,得到新的x的表示.CLN的计算如式(12)所示:

(12)

其中,x为待归一化的文本,E[x]和Var[x]分别为x的均值和方差.为防止分母为0出现计算错误,ε表示一个大于0的极小常数,cγ和cβ分别为添加在权重项γ和偏置项β上的条件.本文将CLN引入PATB,以文本表示H′为输入,以主体表示S′为条件.需要注意的是,cγ和cβ均为主体表示S′,引导模型以主体的表示为输出方向,得到新的文本表示,如式(13)所示:

H″=CLN(H′,S′)

(13)

其中,H″为通过CLN模块融合主体表示S′后的新的文本表示.

4.3.3 位置信息增强

如前文3.1小节所述,主体的位置与客体及关系密切相关,为此,提出了融合位置信息的主体表示方法.计算主体起始词和结束词的位置向量,将位置向量与主体表示S′拼接,再输入BiLSTM[22],得到融合位置信息的新的主体表示,计算过程如式(14)所示:

S″=BiLSTM([S′:psta:pend])

(14)

其中,S″表示经位置信息重编码后的主体表示,psta和pend分别表示主体的起始词和结束词的位置向量.

将融合主体信息的文本表示H″和融合位置信息的主体的表示S″相加,得到新的文本表示HS,如式(15)所示:

HS=add(H″,S″)

(15)

其中,HS∈b*l*d,将HS输入关系—客体抽取器(Relation-Object Extracter)用于关系和客体的联合抽取.

4.4 关系—客体抽取器

为解决实体重叠问题,Wei等提出了一种关系—客体联合抽取方法,它由一组特定于关系的客体标记器组成.对主体抽取器提取的主体s,客体标记器对每一种关系r,分别识别s在关系r下可能的客体的起始位置和结束位置,将起始位置标为1,否则标为0,最后将起始和结束位置间的文本片段识别为客体.显然,由于是对每一类关系r分别识别s可能的客体,因此,客体与关系是联合确定的,标识了s的客体,也就同时确定了s与客体的关系r.客体起始、结束位置判别方法如式(16)、式(17)所示:

(16)

(17)

(18)

4.5 损失函数

基于PATB的抽取模型是二级级联结构,模型首先抽取主体,再在所有关系中分别抽取主体所对应的客体,由此联合确定客体和关系.因此,模型以联合方式进行训练,其损失函数如式(19)所示:

(19)

其中,pθ(s|x)表示抽取主体的概率,pθ(o|s,x)表示根据抽取的主体和原文本抽取客体的概率.

5 实验结果及分析

5.1 数据集

本文实验在NYT和WebNLG两个公共数据集上进行.数据集的构成如表3所示.

表3 NYT与WebNLG数据统计Table 3 Statistics of NYT and WebNLG

NYT最初用于远程关系抽取任务,其数据集含24种关系类型.其中,训练集的文本数为56195,测试集文本数为5000,验证集文本数为5000.WebNLG最初用于自然语言生成任务,含246种关系类型,其中,训练集句子数为5019,测试集句子数为703,验证集为500.两个数据集都有重叠的关系三元组,有3类不同的关系模式,分别是正常的关系三元组(Normal)、实体对重叠(Entity Pair Overlap,EPO)和单一实体重叠(Single Entity Overlap,SPO),由此将句子分为#Normal、#EPO、#SEO 3类.需要注意的是,一个文本可能同时包含EPO和SEO两类重叠关系.

5.2 实验设置

对本文实验的参数,BERT编码器用keras版本的BERTbase(cased)作为预训练模型,主体抽取器和关系—客体抽取器的阈值σ和τ均设置为0.5.对PATB信息聚合器,其BiLSTM的隐层维度设置为768.训练使用Adam优化器,学习率和批量大小分别设置为1e-5和6,设置dropout为0.25,所有超参数都在验证集上进行了调整.实验在显卡设备NVIDIA GeForce RTX 3090 Ti上进行.实验用精确率(Pre.)、召回率(Re.)和F1值来评价方法性能.

(20)

(21)

(22)

其中,T表示预测正确的三元组数,P表示预测到的三元组数,G表示目标三元组数.对精确率指标Pre.,仅当提取的三元组(s,r,o)在其关系及主体和客体的最后一个单词正确时才被视为正确.

5.3 实验结果与分析

5.3.1 PATB与现有方法比较

为评估PATB的效果,本文选择以下有代表性的模型进行比较:

CopyR:Zeng等[14]提出的利用复制机制的End2End关系抽取模型.

GraphRel:Tsu-Jui Fu等[15]提出的基于关系图结构的关系抽取模型.

CopyRRL:Zeng等[2]提出的将强化学习用于关系三元组生成的End2End模型.

CasRel:Wei等[5]提出的二进制标记级联模型.

DualDec:Ma等[23]于2021年在CasRel基础上进行改进,提出一种改变关系三元组抽取顺序的联合抽取模型.

以上模型与PATB在NYT和WebNLG数据集上的实验结果如表4所示.

表4 NYT和WebNLG数据集上不同方法的实验结果Table 4 Experimental results(%)of different methods on NYT and WebNLG data sets

从表4可见,PATB在NYT和WebNLG数据集上取得了优于其他基线的结果.对NYT数据集,本文方法的精确率为90.3%、召回率为91.5%,F1值为90.9%,F1值较CasRel提高1.3%,较DualDec方法提高0.4%.本文方法在WebNLG数据集上的精确率为93.6%,召回率为91.4%,F1值为92.5%,其F1值较CasRel提高0.7%,较DualDec方法提高2.5%.实验结果表明,本文提出的PATB信息聚合器对提升关系抽取的整体性能有积极影响.

5.3.2 消融实验

为评价融合主体位置信息及融合主体与上下文的注意力信息对PATB方法性能的影响,本文在数据集WebNLG上进行消融实验,结果如表5所示.其中,PATBPos表示仅融合主体的位置信息,PATBAtt表示仅融合主体与上下文的注意力信息.

表5 PATB在数据集WebNLG中的消融实验结果Table 5 Ablation experimental results(%)of PATB in WebNLG

从表5可见,PATB在仅融合主体的位置信息和仅融合主体与上下文的注意力信息时,多数评价指标都有不同程度的下降,但是与表4中基线模型CasRel相比,F1值仍然获得了提升,表明PATB所提出的两种信息增强方法均能够提高模型性能.PATB在仅融合主体位置信息时,精确率、召回率和F1值分别为93.0%,91.1%和92.1%,精确率和召回率都略有下降,但精确率仍然保持93%左右.PATB在仅融合主体与上下文的注意力信息时,精确率、召回率和F1值分别为92.1%,91.7%和91.9%,精确率下降明显,而召回率不降反升.实验结果表明,仅融合主体位置信息时,上下文中添加了主体位置,由前文3.1分析的主客体位置关系对于抽取关系三元组的影响,且上下文中未添加其他语义信息,故对于精确率影响和召回率的均较小.仅融合上下文的注意力信息时,上下文中融入了主体,包含了额外的语义信息,故可能影响抽取的精确率.从实验结果总体来看,两种信息融合方法相互影响,故而从整体上提升了PATB方法提取关系三元组的性能.

5.3.3 信息聚合对单一元素的影响

为进一步分析PATB信息聚合器对提取关系三元组中各元素性能的影响,本文分别对比了PATB与CasRel在NYT和WebNLG数据集上进行单一元素抽取的性能,实验结果如表6所示,其中,(s,o)表示仅评测抽取主体及客体,不考虑关系;(r)表示仅评测关系,不考虑主体与客体;(s,r,o)表示评测整个关系三元组.

表6 分别抽取关系三元组中不同元素的F1值Table 6 F1 scores of extracting each element of the triples

从表6可见,PATB与CasRel在NYT和WebNLG两个数据集上的对比无论对单独抽取主客体(s,o),还是单独抽取关系(r),其F1值都提高近0.5%.从抽取整个三元组(s,r,o)的效果看,本文方法分别较CasRel提高1.3%和0.7%.实验表明,利用PATB进行信息重编码,增强了主体及原文编码的表示能力,能够提升抽取客体的召回率及精确率,F1获得提高,且PATB捕获了关系三元组中各个不同元素之间的语义联系,利用注意力机制将主体信息融入上下文中,加强了主客体之间的关联,有利于在重编码的文本表示中识别出客体.

5.3.4 信息聚合对实体重叠问题的影响

为观察添加PATB信息聚合器后,是否影响模型提取重叠关系三元组的能力,本文分别在NYT和WebNLG数据集上,对包含Normal、EPO和SEO 3种不同关系模式的测试数据进行了实验,实验结果如图5所示.可见,由于Normal、EPO和SEO对应的重叠模式越来越复杂,除CasRel方法外,其余基线方法在3种重叠关系上的F1值均逐渐下降,但PATB方法在3种模式的测试数据上都取得了稳定的F1值,且在EPO和SPO情况下,F1值多数在90%以上,比无实体重叠Normal时效果更好.可见,在存在实体关系重叠的复杂语境中,PATB反而进一步提升了三元组抽取的性能.分析其原因,由于PATB建立了同一对主体、客体在不同关系下的注意力,由此对各类关系下的潜在客体进行不同程度地信息融合,提升了原文对主体、客体在不同关系下的语义表示,令PATB在各类重叠情况下仍能保持稳定的提取性能.

图5 对重叠程度不同的句子提取三元组的F1值情况Fig.5 Extracts the F1 score of triples from sentences with different degrees of overlap

5.3.5 信息聚合对提取多个三元组的影响

为观察PATB方法在复杂语境下的抽取性能,本文验证了PATB在每一个包含不同关系三元组数量的文本中的抽取性能.实验将测试数据分为5类,分别是每个文本中含1~5个三元组的情况,实验结果如图6所示.

图6 对含不同关系三元组个数的文本提取的F1值Fig.6 Extracts F1 scores of triples from sentences with different numbers of triples

从对比结果可见,随着文本中三元组个数增加,大部分基线模型的F1值呈下降趋势,但PATB方法未受到明显影响,F1值依然高于基线方法.尤其是,当文本中含5个及以上的关系三元组时,PATB在两个数据集上的F1值仍能分别达到88.9%和92.7%,相较基线方法分别高出5.2%和1.8%.实验结果表明,由于PATB通过主体位置、主体与原文的词注意力,增强了主体及原文的信息表示,令抽取客体时的文本序列中包含更加丰富的三元组关联信息,因此,即使文本中关系三元组数量逐渐增加,模型仍然可以维持不错的效果.可见,在复杂语言结构的语境下,PATB方法仍可发挥良好的关系三元组提取性能.

6 总 结

在关系三元组抽取任务中,文本及词的编码信息的丰富性和完善程度,对任务的最终性能影响至关重要.现有实体关系抽取研究虽已取得丰富成果,但在级联式三元组抽取中,对实体抽取与客体及关系抽取两阶段任务的交互存在不足,对实体的位置及上下文语义信息的运用尚不充分,为此,提出了一种融合主体位置和上下文注意力的信息聚合器PATB,用于改善主体和文本的表示,由此构建了级联式实体关系联合抽取模型.首先抽取主体,再以PATB分别融合主体的位置、融合主体与上下文的注意力信息,对主体和文本的表示进行增强,进一步进行客体及关系的联合抽取.实验表明,基于PATB的级联式实体关系抽取方法在NYT和WebNLG数据集上均取得了优于基线方法的F1值,在Normal、EPO和SEO这3类重叠模式上的F1值也优于基线方法,且在包含多三元组文本的抽取任务中的抽取性能较基线方法更为稳定.在下一步工作中,在抽取主体时,考虑不仅抽取主体的起始和结束词作为主体的表示,而是抽取完整的主体用于后续的信息融合;并尝试将PATB用于其他结构复杂的文本中,如文档级等需考虑上文语义关系的实体关系抽取任务中.

猜你喜欢
三元组客体注意力
基于带噪声数据集的强鲁棒性隐含三元组质检算法*
让注意力“飞”回来
特征标三元组的本原诱导子
关于余挠三元组的periodic-模
“扬眼”APP:让注意力“变现”
传媒评论(2017年3期)2017-06-13 09:18:10
A Beautiful Way Of Looking At Things
旧客体抑制和新客体捕获视角下预览效应的机制*
论著作权客体的演变
三元组辐射场的建模与仿真
关税课税客体归属论