基于门控多层次注意机制的事件主体抽取

2021-09-15 11:20冀相冰朱艳辉梁文桐
计算机应用与软件 2021年9期
关键词:语料向量主体

冀相冰 朱艳辉 詹 飞 梁文桐 张 旭

(湖南工业大学计算机学院 湖南 株洲 412008)

(智能信息感知及处理技术湖南省重点实验室 湖南 株洲 412008)

0 引 言

随着互联网的快速发展,网络舆情事件呈爆炸式增长,使得人工提取信息的方法变得困难。过去几年,自然语言处理(Natural Language Processing,NLP)研究人员着重关注复杂的信息抽取任务,例如事件抽取。事件抽取旨在从网络文本中检测能标识事件的触发词、事件类型、事件元素和元素角色等。其中:事件触发词指可以清晰表明事件发生的核心词汇;事件类型指事件所属的类别;事件元素指事件的参与者或实体描述;元素角色指事件元素在事件中所充当的角色,如主体、参与者和受害者等。事件抽取是构建知识图谱、实现智能问答和舆情监控的基础工作。事件主体是指事件发生的实施者,如公司、机构或者个人等,主体抽取属于事件元素角色识别任务,即已知一段文本和文本所属的事件类型,从文本中抽取指定事件类型的事件主体,同一文本中可能存在多个事件和事件主体。命名实体识别的主要工作是从一段文本语料中识别出组织机构名、地名和人名等各种类型的实体。命名实体识别属于事件主体抽取的子任务,事件主体抽取在获取句子中所有命名实体之后,进一步通过已知事件类型寻找事件触发词,然后根据各个命名实体与事件触发词的依赖关系,识别与指定事件类型密切相关的命名实体作为事件主体。如图1所示的句子中,触发词为“短线交易”,其事件类型为“交易违规”,事件主体为“万东医疗”,“吴光明”为事件主体实控人,“上交所”为监管机构。

图1 事件示例

对于事件抽取相关任务,大多数方法将此问题视为分类任务,基于特征的方法依赖各种判别特征构建统计模型,如句法特征、词法特征和外部知识等。Huang等[1]利用顺序结构化的句子分类器识别与事件相关的上下文信息,实现了当时最高的性能。Liu等[2]提出利用概率软逻辑模型的形式编码事件关联之类的全局信息和细粒度实体类型等本地信息进行事件分类。Judea等[3]使用假设的特征把文档级的上下文信息放入决策系统,对实体、事件和关系进行预测。Li等[4]在传统特征上添加抽象意义表示(AMR)特征捕获触发词的深层语义信息。虽然统计学习方法可以利用常用特征并取得良好的结果,但是无法捕捉隐含特征信息并且需要大量的人工特征。

深度学习方法可以自动抽取较复杂的隐藏特征而且避免了人工定义模版特征,已经被广泛应用于事件抽取相关任务中。Liu等[5]通过监督注意机制进行事件识别任务,在ACE 2005数据集上取得较好效果。Zeng等[6]使用远程监督方法生成大量高质量训练数据进行事件抽取。Sha等[7]提出在RNN(Recurrent Neural Networks)中应用依赖桥构建模型,提取效果优于顺序RNN。Zhang等[8]提出双向长短期记忆网络(BiLSTM)对句子建模进行关系分类,获得了相关单词的完整连续信息。Feng等[9]采用独立于语言的模型获取序列和块信息,进行中文和西班牙文事件检测。Zhou等[10]利用一种基于注意力(Attention)的模型学习分布式语义。Hong等[11]采用BiGRU网络与注意力机制结合,关注更有意义的关键词编码更长的序列。Rao等[12]利用神经网络模型自动从抽象意义表示(AMR)中抽取生物医学文本事件。Peters等[13]提出一种新的Word Embedding方法ELMo(Embeddings from Language Models),处理多义词在上下文中的动态变化。Huang等[14]利用可转换架构和组合神经网络应用于新的事件类型检测。

传统抽取方法主要使用句子级信息,未能考虑候选词的文档级语义信息。通常在一个句子中可能存在多个事件的部分信息,仅以句子级信息进行事件主体抽取不能完全考虑每个事件的全部特征,很容易忽略事件的模糊性问题,限制了抽取系统的性能。

为了解决上述问题,本文提出一种基于门控多层次注意机制的ELMo-BiGRU神经网络模型用于事件主体抽取。首先把真实新闻语料输入ELMo预训练模型生成动态词向量;然后用Stanford CoreNLP解析新闻文本获取命名实体特征和词性特征;其次将动态词向量、命名实体(NE)向量、词性(POS)向量和距离向量拼接表示为联合输入向量;接着把联合向量输入BiGRU深度学习网络捕获时间序列中时间步距离较大的依赖关系;之后利用门控多层次注意力层自动提取文本中每个候选事件主体的句子级信息和文档级信息,并通过融合层动态整合上下文信息;最后输出层通过SoftMax分类器预测最优事件主体标签。

1 基于门控多层次注意机制的ELMo-BiGRU网络模型构建

本文使用基于门控多层次注意机制的BiGRU深度神经网络模型进行事件主体抽取,图2描述了抽取模型的体系结构,主要包括输入层、词嵌入层、BiGRU层、门控多层次注意机制层和输出层五个部分。

图2 事件主体抽取框架

对于存在嵌套关系的事件主体抽取算法如下:

Step1利用ELMo预训练模型训练获取句子中每个候选事件主体的动态词向量信息,ELMo模型根据同一事件主体上下文语境的不同,实时动态获取不同的Embedding表示,解决部分存在嵌套关系的事件主体带来的歧义问题。

Step2使用Stanford CoreNLP工具解析出新闻语料中的命名实体和词性信息,通过命名实体识别特征和词性特征捕获存在嵌套关系的事件主体之间的深层依赖关系。

Step3采用距离嵌入增强网络模型获取候选事件主体的距离嵌入信息,通过计算候选触发词与候选事件主体之间的相对距离,进一步获取存在嵌套关系的事件主体的维度向量信息,根据就近原则,一般靠近事件触发词的候选事件主体的优先级较高。

Step4将Step 1-Step 3获取的ELMo动态词向量、命名实体特征、词性特征和距离向量特征联合传入下一层BiGRU层进行训练,BiGRU通过两个单独的GRU隐藏序列模拟句子中候选事件主体的语义表达和上下文语境信息。

Step5将Step 4输出的向量输入门控多层次注意机制层分别获取句子级的信息和文档级的信息,然后通过融合门动态融合存在嵌套关系的事件主体的句子级信息和文档级信息,进一步获得其综合上下文信息。以上门控多层次注意机制可以对存在嵌套关系的事件主体分别赋予不同的注意力权重,方便对最优事件主体的判断识别。

Step6把Step 5输出的联合特征表示输入Softmax层,抽取存在嵌套关系的事件的最优事件主体。

1.1 Word Embedding

Word Embedding层使用ELMo向量、距离向量、命名实体特征与词性特征联合表示。

ELMo与传统词向量模型Word2vec、Glove等不同,是一种在词嵌入中表示词汇的新方法。通过ELMo训练新闻语料库获得的是随着上下文的语境而改变的动态词向量,能够处理复杂的语义和句法特征并在不同上下文语境下学习的词汇多义性,计算式表示如下:

(1)

图3 ELMo预训练

使用Stanford CoreNLP解析新闻文本语料获取命名实体(NE)特征和每个命名实体的词性(POS)特征,其可以提供对新闻文本结构的细粒度解析,使得嵌入的语义特征更加丰富。

根据新闻语料分析,发现若两个命名实体之间的距离较短,则很可能构成事件,因此,引入距离嵌入增强网络模型[15]。例如在句子“万东医疗实控人吴光明因短线交易被上交所处分”中,距离嵌入向量根据候选触发词与目标词“万东医疗”和“上交所”的相对距离计算,“吴光明”与“万东医疗”和“上交所”的相对距离分别是“-2”和“4”,所有相对距离都被映射为固定维度向量d(l),计算式表示为:

d(l)=tanh(l/s)

(2)

式中:l为相对距离;s为句子中两实体相对距离的最大值。若候选触发词到目标词“万东医疗”和“上交所”的向量分别为d1和d2,则候选触发词的距离嵌入dt为d1和d2的串联之和。

将获取到的ELMo动态词向量、命名实体特征、词性特征和距离向量拼接成联合嵌入向量,然后把联合向量输入BiGRU深度网络进行训练更新操作。

1.2 BiGRU

门控循环单元(GRU)被视为长短期记忆(LSTM)的变体网络,GRU保持了LSTM的效果同时又使结构更加简单,旨在解决标准RNN中出现的梯度消失问题。GRU根据输入到单元的信号自适应地记住并忘记其状态[16],模拟新闻文本中每个字词的语义表示及其上下文信息。首先在时间状态t,GRU单元利用重置机制考虑当前输入和状态,之后不需要再被监测到的特征就会被忘记,计算式表示为:

rj=σ([wrx]j+[urh〈t-1〉)]j)

(3)

(4)

更新门zj计算式如下:

zj=σ([wzx]j+[uzh〈t-1〉]j)

(5)

最后,通过更新机制获取最新的内存状态,计算式如下:

(6)

上面介绍的是单向GRU的计算过程,只能处理之前的文本信息,不能处理后面的信息。而BiGRU可以很好地解决这个问题,双向GRU可以通过两个单独的隐藏层在前后两个方向处理数据。前向GRU和后向GRU的最后隐藏状态产生的输出向量[h1,h2,…,hn]可由矩阵D表示,其中n表示句子长度,D∈Rdw×n。在时间t状态下的BiGRU网络输出公式如式(7)所示,其中f和b分别表示前向和后向。

(7)

1.3 门控多层次注意机制

根据对新闻语料的分析,每个句子不同的字词对整体语义表达具有不同的作用,采用门控多层次注意机制能够捕获影响输出序列的重要信息。门控多层次注意机制包括句子级注意层、文档级注意层和融合门层[17]。句子级注意力机制通过关注每个词wt的语义能够捕获当前词的句子级信息,计算每个候选事件主体句子级语义信息sht的表达式如下:

(8)

文档级注意机制主要通过当前关注的句子获取重要的文档级别信息,句子中所有字词均具有相同的文档级信息,每条新闻文本中第i个句子的文档级语义信息dhi的计算式为:

(9)

利用融合门动态整合新闻文本中每个候选事件主体wt的句子级信息sht和文档级信息dhi,然后计算获取其上下文信息crt,计算式如下:

crt=(Gt⊙sht)+((1-Gt)⊙dhi)

Gt=σ(wg[sht,dhi]+bg)

(10)

式中:σ为sigmoid函数;wg为权重矩阵;bg为偏差;融合门Gt表达了句子级信息sht和文档级信息dhi所提供信息的置信度。

最后将候选事件主体wt的联合词嵌入信息和上下文信息crt合为单个向量xrt=[et,crt]作为联合特征表示,输入下一层softmax分类器,得到最优事件主体标签的条件概率p(i|xrt,θ)和负对数似然损失函数J(θ)[5],计算式如下:

(11)

式中:oi表示在参数为θ时,对于每个训练实例(xi,yi),将单词wt标记为第i个标签的置信度得分;Nt为标签总数量;Nw为训练句子中词的总数量。其中,训练优化模型的方法采用随机梯度下降法。

2 实验与结果分析

2.1 实验设置

2.1.1数据和评价指标

实验采用CCKS2019(全国知识图谱与语义计算大会)任务四提供的语料,数据均来自金融领域的真实新闻文本并且经过会议工作人员人工标注筛选,总量为21 000条。采用交叉验证的方法将语料集以8 ∶1 ∶1的比例分为训练集、验证集和测试集。

经统计分析发现,除去“其他”事件类型,语料库共定义了21种金融事件类型,如图4所示。超过1 000条以上数据的事件类型有8种,占比36.36%;有100~1 000条数据之间的事件类型有9种,占比40.91%;100条数据以下的事件类型有5种,占比22.73%,其中事件类型“公司股市异常”少于10条数据。

图4 金融事件类型统计

评价指标采用精确率(P)、召回率(R)、F1值(F)来评估事件主体抽取系统,公示如下:

(12)

式中:FP表示假正类,即事件实例为负类被预测成正类;FN表示假负类,即事件实例为正类被预测成负类;TP表示真正类,即事件实例为正类被预测成正类。

2.1.2实验环境及超参数设置

整体模型基于Keras+Tensorflow的深度学习框架搭建,Keras版本号为2.2.4,Tensorflow版本号为1.8,GPU显卡为NVIDIA Quadro K1200。

为了获得最优抽取模型,在验证集上进行了参数优化实验。使用ELMo模型在语料集上训练词嵌入,设定学习速率为0.025,窗口大小是5,词向量维度设置为200。为了避免数据过拟合,设定Dropout为0.5。模型输入batch_size为8,总迭代次数设置为120。

2.2 不同事件主体抽取模型对比实验

为了检验本文方法的性能,实验比较了基于门控多层次注意机制的ELMo-BiGRU模型(ELMo-BiGRU-GMAM)与传统抽取方法在数据集上的性能,其中LSTM、GRU、GRU-Attention和BiGRU-Attention方法均使用传统词嵌入模型Word2vec训练词向量,结果如表1所示。

表1 不同事件主体抽取方法对比实验(%)

从表1可以观察到,本文方法的表现明显优于其他方法。LSTM方法和GRU方法在综合性能上面不分伯仲,但是因为GRU网络的参数更少一点,在较小的数据集下可以更快收敛。GRU是没有注意力机制的基本GRU模型,从表1结果看来,加入注意力机制的Attention-GRU模型表现优越,P、R和F值均高于GRU模型,传统仅使用GRU的模型在进行特征抽取时平等看待所有字词且无法捕捉关键性信息,而加入注意力机制的方法可以给每个字词分配不同的权重信息,一段文本中比较重要的句子加以大的权重,效果可以获得明显提升。运用双向GRU网络较单向GRU网络相比优势不是很大,仔细观察两者召回率和F1值,双向GRU模型要比单向更好一些,因为单方向GRU仅能保留过去的信息,而双向GRU利用前后两个隐藏状态组合处理输入的信息,可以在任何时间点保存过去和未来的信息,更方便地捕获上下文信息。此外,在所有方法中,本文所提ELMo-BiGRU-GMAM模型表现最好,传统方法仅利用句子级信息进行特征学习,本文方法融合了句子级信息和文档级信息来增强特征学习,其P、R、F值可以在事件主体抽取上实现最佳性能,可以有效解决事件模糊性的问题。

为了更清晰地对比本文方法与传统抽取方法的实验效果,表2列举了实验语料实例,同时将传统抽取模型与本文模型的抽取结果示例进行了对比,如表3所示。

表2 语料示例

表3 不同事件主体抽取模型的结果示例

从表2和表3可以观察到,本文模型抽取的事件主体更加精确。示例语料中包含“兴利集团”“欧瑞家具”“甲醛超标”“专卖店”“海南椰岛”“第一大股东变更”和“椰岛品牌”等实体,包含“甲醛超标”和“股东变更”两个事件,语料指定事件类型为“实控人股东变更”,根据已知事件类型可排除与“甲醛超标”事件相关的事件元素,将事件触发词定位为“第一大股东变更”。但是触发词前面的“专卖店仍在售海南椰岛(600238)”文本中包括两个事件的相关元素,且没有标点作为分隔符号,传统抽取模型大部分仅利用句子级信息进行事件主体抽取任务,很容易造成事件模糊性问题,会将“海南”错认为“专卖店”的宾语,进而错误地将“椰岛”判定为事件类型"实控人股东变更"相对应的事件主体,其主要原因是没有综合考虑候选事件主体的上下文语义信息。本文模型采用门控多层次注意机制,可以同时获取候选事件主体“海南椰岛”的句子级信息和文档级信息,然后通过融合门动态整合获取具有上下文语义的特征,可以有效缓解“甲醛超标”事件中噪声元素“专卖店仍在售”对主体元素识别的干扰,最终将“海南椰岛”判定为与事件类型“实控人股东变更”相对应的事件主体,证明了本文事件主体抽取方法的有效性。

2.3 ELMo对实验结果的影响

在深度学习模型训练过程中,词嵌入对模型的整体效果起关键作用。为了ELMo的有效性,实验对比了ELMo动态词向量方法与传统Word2vec、GloVe静态词向量方法在事件主体抽取系统上的性能。除了词嵌入方法不同,其他网络模型和参数设置均相同,结果如表4所示。

表4 ELMO相关证明实验(%)

从表4可以看出,ELMo动态词向量方法优于传统Word2vec、GloVe静态词向量方法。其中,ELMo的F值相比Word2vec方法提高2.82百分点,Word2vec获得的F值相比GloVe更好一些,但是GloveR值比Word2vec稍微高一点,可能是因为GloVe使用了全局信息,算法较复杂且更容易并行化,而Word2vec是基于局部语料训练的,通过划动窗口进行提取特征,可以进行在线学习且模型较简单。ELMo的R值和F值均高于Word2vec方法,因为ELMo把整个句子作为输入,根据每个词的上下文环境实时训练动态词向量,能够很好地解决一词多义的问题,验证了使用ELMo方法的有效性。

2.4 门控多层次注意机制对实验结果的影响

为了验证门控多层次注意机制的对模型的影响程度,实验对比了基于门控多层次注意机制的模型(ELMo-BiGRU-GMAM)与未加入任何注意力机制的模型(ELMo-BiGRU)、基于经典注意力机制的模型(ELMo-BiGRU-Attention)、基于多头注意机制的模型(ELMo-BiGRU-Multi headed Self attention)分别在事件主体抽取数据集上的性能。除了引入的注意力策略不同,其他网络模型和参数设置均相同,实验结果如表5所示。

表5 门控多层次注意机制相关证明实验(%)

通过表5可以观察到,基于门控多层次注意机制的模型(ELMo-BiGRU-GMAM)总体效果优于其他模型。其中未加入任何注意机制的模型(ELMo-BiGRU)表现较差,基于经典注意力机制之后,F1值提高了1.67百分点,未加入任何注意机制的模型在特征提取过程中容易获取冗余信息,而基于经典注意力机制的模型能捕获每个候选词的关键语义信息,提升模型的准确率。基于多头自注意力机制较基于经典注意力机制模型的F1值提高了3.05百分点,Multi-headed self-attention拼接了多个自注意力网络,每个head允许在不同的表示子向量空间多次捕获句子内部的相关信息,头的数量对捕获长距离依赖有较大影响。基于门控多层次注意机制与基于多头注意力机制方法相比较,前者实验总体效果明显优于后者。因为多头注意机制仅利用句子级信息提取每个句子结构内的特征,每个句子中可能存在多个事件信息的部分特征,如果不考虑文档级语义信息,很容易造成事件模糊性问题。而门控多层次注意机制可以同时获得句子级的注意信息和文档级的注意信息,更精确地提取融合每个候选词的上下文特征,能够很好地处理事件的模糊性问题,证明了使用门控多层次注意机制的有效性。

3 结 语

本文采用基于门控多层次注意机制的ELMo-BiGRU深度网络模型实现了事件主体抽取。与句子级抽取方法相比,利用门控多层次注意机制可以动态整合候选词句子级和文档级的上下文信息,有效解决句子中存在的事件模糊性问题。为了解决传统词向量不能对一词多义进行建模的问题,使用ELMo模型对语料进行预训练,动态生成包含丰富语义和句法信息的词向量。采用BiGRU网络捕获长期序列信息且结构更加简单,避免了复杂的手工设计和梯度消失问题。加入命名实体特征和词性特征,可以实现对文本结构的细粒度解析,进一步增强了模型的性能,实验结果表明了本文方法的有效性。未来计划使用远程监督机制自动标记训练数据,引入BERT预训练模型进行更复杂的事件抽取任务。

猜你喜欢
语料向量主体
强化述职评议 落实主体责任
论碳审计主体
向量的分解
海量标注语料库智能构建系统的设计与实现
聚焦“向量与三角”创新题
何谓“主体间性”
浅谈视频语料在对外汉语教学中的运用
可比语料库构建与可比度计算研究综述
略论意象间的主体构架
向量垂直在解析几何中的应用