陈彦杰,廖 涛
(安徽理工大学计算机科学与工程学院,淮南 232001)
随着信息技术的发展以及传统产业的数字化转型,互联网已经渗透到人类社会生活的各个方面,将互联网作为获取信息的首要途径的人逐渐增多。互联网用户的增加,导致数据呈现爆炸式的增长,大量的数据以电子文本的形式在互联网中传播,这些电子文本数据内容丰富、要素多样,并且包含了一种蕴藏着极大价值的信息资源,然而目前网页上的大量文本均呈非结构化状态并且包含大量冗余信息,使得用户无法迅速从中找到有用的资源。因此面对互联网上海量的数据,如何针对性地从文本中抽取出对用户有用的信息,再通过结构化形式展现给用户,成为一项重要的课题。
事件抽取在信息抽取研究领域[1]中至关重要,它的主要任务是把含有事件信息的非结构化文本以结构化[2]的形式呈现出来,在自动文摘、自动问答、信息检索、知识图谱[3]构建等领域有着广泛的应用。事件触发词抽取是事件抽取的子任务,其任务是要识别事件句中触发词的位置同时识别出其所属事件类型。触发词是事件句中最能体现事件发生的词语,直接决定事件类型。事件触发词抽取的方法主要有三种:基于模式匹配[4]、基于机器学习[5]和基于深度学习[6]的方法。
在基于模式匹配的方法中,目标语料使用适当的算法进行匹配,并根据给定的模板提取事件要素。Liu 等[7]手动创建模板进行提取,并在初步处理后将文本信息嵌入模板。这种方法只遵循一个固定的模板,所以给定的模板并没有涵盖真实场景中可能出现的所有情况。
基于机器学习的方法通过事件触发词的语义、句法等信息构建特征,然后根据特征采用统计学模型进行分类以达到抽取的目的,主要的机器学习模型包括最大熵模型、隐马尔可夫模型和支持向量机等。Chieu 等[8]针对事件抽取问题引入了最大熵模型,从人事管理中提取研讨会的公告和事件。
近年来,随着词嵌入技术的崛起,深度学习已成为一种新的研究趋势,并被应用于各个领域。基于深度学习的方法将事件抽取建模成为一个不依赖外部NLP 工具的端到端模型,使用特征丰富的词向量作为输入,避免了复杂的手工作业。Nguyen[9]解决了不平衡语料中的事件触发词抽取问题,通过卷积神经网络捕获句子中的重要特征信息。武国亮等[10]提出了一种FB-Latiice-BiLSTM-CRF 模型,以解决事件抽取任务中BiLSTM-CRF 处理的低维问题,增强了模型学习词语和实体语义特征的能力,并取得了更好的识别性能。
本文提出一种基于图注意力网络的模型进行突发事件的触发词抽取,实验结果表明文中提出的模型在突发事件领域事件触发词抽取任务中是行之有效的。
本文构建的突发事件触发词抽取模型(emergency triggers extraction based on graph attention network,ETEGAN)如图1,包括:词嵌入层、Bi-GRU层、GAT层、CRF层。
图1 模型整体架构
首先使用Word2vec 进行文本向量化表示,再利用BERT模型提取动态词向量,将预训练词向量和动态词向量特征融合作为模型的输入;然后通过BiGRU 对长距离语义特征进行抽取;接着采用GAT 网络对特征进行权重调整,作为最终的特征表示;最后在解码层通过CRF 进行解码得到模型最终输出的结果。
词嵌入层本质上是对输入字符的向量映射,即从离散的字符到分布式表示,可以很好地表示文本中的语义信息和语法关系。为了缓解由不正确的分词造成的问题,本文将语义特征进行融合作为模型的输入。
Word2vec 模型先通过去标签等操作把语料库处理成文本序列,再通过分词的工具把输入数据处理成词序列数据S,最后通过Word2vec将文本向量化处理成预训练词向量W。
BERT 预训练语言模型可以产生与上下文相关的词特征,并可以描述字的多义性和句子的句法特征等。本文使用预训练模型BERT,根据同一个词的不同语境来计算每个单词的语境表征,对于由n个字符组成的文档作为输入X,经过BERT预训练模型得到相对应的特征向量T。
把Word2vec 和BERT 分别训练的词向量W和动态词向量T相结合,得到联合词向量U。式中⊕代表将两个向量进行连接,把一个维度的向量结合起来成为新向量。
在自然语言处理中,有大量的数据无法用传统的前向神经网络来建模,因此出现了循环神经网络RNN;它在理论上能够处理任意长度的序列信息,但在实践中,当序列过长时,就会出现梯度消失的问题,而且很难学到长期依赖的特征。
GRU 是一种特殊的循环神经网络,混合了细胞状态和隐藏状态,其中遗忘门和输入门被合并在一个单一的更新门中。
GRU 的结构更简单,参数更少,从而减少了训练时间。GRU 由于其优越的序列建模能力,被广泛应用于语音识别、事件抽取和词性标注等方面。在本文中,BiGRU 模型被用来对来自BERT 层的向量进行初步建模;BiGRU 计算两种不同的特征表示,即前向和后向两种特征,然后对这两种特征表示进行加权求和,产生涵盖语境特征的向量。
相比于卷积神经网络、循环神经网络等网络模型,因为图注意力网络GAT 在图结构数据中表现出了优越的特征提取能力,所以研究者将它应用在了事件触发词抽取的任务中,图注意力网络的基本思想是通过计算邻节点的注意力来更新每个顶点隐藏层的输出,进而调节邻节点的权重。
如果m表示图卷积网络的层数,GAT 层的输入与BiGRU 的输出的隐藏层息息相关。GAT 层中第i层节点输入的隐藏状态{h1,h2,…,hn},n为序列长度,同时是图的顶点数。
首先做一个线性变换,可训练的权重参数为W(l)。
然后通过计算得到节点初始的注意力,通过计算i的邻居节点j得到初始的注意力权重e(m)ij。将节点i和节点j的z向量相结合,再把z向量以及可学习的权重向量a→(m)T进行点积操作,其中LeakyReLU是非线性激活函数。
接着将初始注意力进行归一化,计算出节点i对邻居节点j的注意系数,也就是注意力权重:
因为每个节点的邻居节点都不一样,所以节点i对邻居节点j的注意系数与节点j对邻居节点i的不同,这样的结构和词与词之间的依赖关系有相似之处,这样使得关联性强的特征得到更多的关注。
然后对所有邻居节点的特征做基于注意力的加权求和,更新节点的特征向量:
接着使用多头注意力机制拼接输出结果:
其中:||代表拼接;代表第k组注意力机制的权重系数。
多头注意力进行多次运算,在多重子空间中学习节点之间的关联,战胜了循环神经网络并不能成功捕获长距离单词之间依赖特征的困难,还拥有并行的特征,不同子层之间互不影响,最后得到输出结果h′={h′1,h′2,…,h′n}。
条件随机场(CRF)通常被用作自然语言处理任务中的解码器,根据连续标签之间的依赖关系对标签进行优化,缓解了输出标签存在的独立假设问题。
对于输入序列h′={h′1,h′2,…,h′n},如果其对应的标注序列为y={y1,y2,…,yn} ,则标注序列y的概率为
其中:y′表示标签序列,T为转移得分矩阵。通过计算输入序列h′对应的输出标签序列y得到预测的标签序列结果。
实验选取中文突发事件语料库CEC 作为语料集。上海大学语义智能实验室遵守《国家突发公共事件总体应急预案》的分类规则,统计了5 类突发事件(地震、交通事故、火灾、食物中毒和恐怖袭击)的新闻报道,当作初始语料,然后进行文本分析、文本预处理、一致性检查以及事件标注等操作,最后在语料库中保存标注结果,语料库中对突发事件以及突发事件要素的标注非常全面。
本文将准确率P、召回率R、F值当作事件触发词抽取性能的评测指标。
3.2.1 与其他模型对比分析
本文训练和测试了下面的几种模型,以进一步比较模型的性能。表1显示了几种模型的触发词抽取性能比较。
表1 与其他模型抽取效果的对比分析
根据表1数据,在同一个数据集中训练和测试,与其他对比模型相比较,本文模型的F1 值和准确率表现较好。相较于GAT+BiRNN 和GAT+BiLSTM,本文模型不仅避免了RNN 存在的梯度消失问题,而且更容易训练,使模型的准确率分别提高9.97和16.96个百分点,F1值提高了4.87 和7.62 个百分点,表明了BiGRU 的有效性;相较于BiGRU,本文模型添加了GAT,从数据可以看出,GAT 通过对重要特征权重的调整使得模型可以着重关注相关性较高的语义特征,使模型的准确率提升了6.17 个百分点,F1 值提升了7.92 个百分点,表明GAT 提高了触发词抽取的效果;相较于GAT+GRU,本文模型多加了一层GRU 用于获取双向的语义信息,得到了更为丰富的特征,使模型的准确率增长了12.12个百分点,F1值增长了5.83个百分点。
3.2.2 与其他工作结果对比分析
为了更全面地评估本文提出的模型的性能,这里将其结果与以往其他工作者的研究结果进行比较,对比情况如表2所示。
表2 与其他研究结果对比分析
对表2中的数据进行对比分析,相比于其他的神经网络方法,本文提出的基于图注意力网络的突发事件触发词抽取模型表现出了最好的性能,表现了BiGRU 和图注意力网络的优秀的性能,可以更深层地学习到丰富的语义特征,同时使得高度相关特征得到了更多的关注;同时采用Word2vec 和BERT 预训练语言模型,得到了丰富的语义信息,有助于本文的突发事件触发词特征识别更准确。
事件抽取在突发事件抽取以及知识图谱等研究中具有不可或缺的作用。针对触发词提取不准确的问题,本文提出了基于图注意力网络的突发事件触发词抽取模型ETEGAN。模型在实验数据集上取得了较好的效果,有助于突发事件触发词抽取任务。但是仍有进步的空间,在后续的工作中,将争取触发词抽取准确率进一步的提高。