闻畅 刘宇 顾进广
摘 要:针对现有突发事件关系抽取研究多集中于因果关系抽取而忽略了其他演化关系的问题,为了提高应急决策中信息抽取的完备性,应用一种基于注意力机制的双向长短时记忆( LSTM)网络模型进行突发事件演化关系抽取。首先,结合突发事件演化关系的概念,构建演化关系模型并进行形式化定义,依据模型对突发事件语料进行标注;其次,搭建双向LSTM网络结构,并引入注意力机制计算注意力概率以突出关键词汇在文本中的重要程度;最终,使用搭建的网络模型进行演化关系抽取得到结果。在演化关系抽取实验中,相对于现有因果关系抽取方法,所提方法不仅抽取出更加充分的演化关系,为突发事件应急决策提供了更完善的信息;同时,在正确率、召回率和F1分数上分别平均提升了7.3%、6.7%和7.0%,有效提高了突发事件演化关系抽取的准确性。
关键词:关系抽取;突发事件;演化关系;注意力机制;双向长短时记忆网络
中图分类号: TP182 (专家系统、知识工程)
文献标志码:A
Abstract: Concerning the problem that existing study of emergency relationship extraction mostly focuses on causality extraction while neglects other evolutions, in order to improve the completeness of information extracted in emergency decision-making, a method based on attention-based bidirectional Long Short-Term Memory (LSTM) model was used to extract the evolution relationship. Firstly, combined with the concept of evolution relationship in emergencies, an evolution relationship model was constructed and given the formal definition, and the emergency corpus was labeled according to the model. Then, a bidirectional LSTM network was built and attention mechanism was introduced to calculate the attention probability to highlight the importance of the key words in the text. Finally, the built network model was used to extract the evolution relationship. In the evolution relationship extraction experiments, compared with the existing causality extraction methods, the proposed method can extract more sufficient evolution relationship for emergency decision-making. At the same time, the average precision, recall and F1_score are respectively increased by 7.3%, 6.7% and 7.0%, which effectively improves the accuracy of the evolution relationship extraction of emergency.
Key words: relationship extraction; emergency; evolutionary relation; attention mechanism; bidirectional Long Short-Term Memory (LSTM)
0 引言
近年來全球各地突发事件频发,无论是洪水、地震等自然灾害还是暴恐、车祸等人为事故,都使得人们的生命财产安全受到严重威胁。演化关系(Evolution Relationship)作为突发事件中的一种重要并且特殊的关系,反映了事件中各种诱因、外部因素和灾害结果之间的关联关系,近年来一直是安全科学领域的主要研究对象和方向[1-2]。演化关系的抽取对辅助分析应急决策和完善突发事件知识库有着重要的意义。由于突发事件的复杂性和紧急性,决策者通常可以在短时间内分析出事件的起因和结果,但是容易忽略了一些外部因素对灾害结果产生的促进或者抑制作用,从而无法全面地分析问题。
例1 小区一居民在密闭的室内烧炭取暖,不幸一氧化碳中毒身亡。
例2 火灾发生后消防人员立即赶到现场救火,最终火灾导致2所房屋烧毁。
例3 汶川地震2天后,当地气温升高,部分地区爆发了传染病。
演化关系普遍存在于突发事件语句中,如例1中“一氧化碳中毒”导致了“身亡”,而“密闭的室内”促进了“身亡”结果的产生。例2中,“火灾”导致了“房屋烧毁”,但“救援”缓解了灾害结果的严重性,对结果起到抑制的作用。例3中的“地震”是“传染病”的起因,但“气温升高”是加重“传染病”爆发的因素,对结果起到了促进作用。突发事件演化关系抽取可以更深入地发掘事件中的隐藏要素,为决策者提供更全面的信息来判断事件后续的发展,从而有效应对突发事件和提供救援。
在突发事件关系抽取中,现在已有许多研究多是针对因果关系作抽取,最主要的研究方向分为基于模式匹配的方法、基于机器学习的方法和以上两种方法的融合。 传统的模式匹配方法[3-5]通过手工建立领域知识库和语法句法规则来进行关系抽取,需要特定领域的专家知识辅助,因此该类方法耗费大量人工成本并且通用性不强。在机器学习方法中,Girju[6]运用WordNet并结合决策树算法C4.5提出一种因果关系自动抽取算法,实现特定事件中的关系抽取,但受限于WordNet词库导致关系提取不充分。付剑锋等[7]和钟军等[8]都采用条件随机场(Conditional Random Field, CRF)算法并结合触发词和类型结构特征,将因果关系抽取问题转换为事件序列标注问题,然而需要大量的事件标注且未考虑上下文间的词汇关系。鉴于长短时记忆 (Long Short-Term Memory, LSTM) 网络加强了上下文词序关联性,田生伟等[9]利用双向LSTM结合事件内部结构信息特征,提取维吾尔语突发事件因果关系,但这种方法将所有词汇的贡献度视为等同,没有突出关键词汇在句子中的重要程度。
上述研究中的因果关系抽取方法如果应用于辅助应急预案和专家决策,会造成事件语义和知识全面性上的缺失。因果关系在语义上仅表示事件中起因和结果之间的关联关系,例如“美国加州发生大火,连日大风造成火花四溅,天堂镇房屋烧毁殆尽”,因果关系表现为“大火”造成“房屋烧毁”,“大风”造成“火花四溅”。有别于因果关系,演化关系不仅包含了导致结果的直接诱因,也包含了对灾害结果产生影响的其他因素,例句中的“大风”不是“房屋烧毁”的直接原因,但是加重了受灾结果的严重程度,在应急预案决策中,如果忽视掉了演化关系中的影响因素,事件中的语义信息会有很大程度的损失。因此,演化关系相较于因果关系可表现出更多突发事件发生过程中的语义信息,对突发事件演化关系进行抽取有助于完善应急决策分析中的信息完備性。
针对上述存在的问题,本文结合安全科学领域中的突发事件演化关系定义,运用基于注意力机制的双向LSTM模型对突发事件演化关系进行抽取。注意力机制(Attention Mechanism)被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中[10]。本文引入注意力层,旨在利用注意力机制计算注意力概率,来突出特定单词对句子的贡献度,以此加强演化关系中关键词汇的语义信息,从而提高抽取的准确性。
1 突发事件演化关系
为了明确突发事件演化关系抽取研究的方法,本章首先介绍突发事件演化关系模型以及相关基本概念。
1.1 突发事件演化关系模型
文献[11]针对突发事件应急管理中的“情景应对”模式,构建了突发事件情景演化系统模型,介绍了演化系统中致灾因子、承灾载体以及应急决策间的关系。文献[12]介绍了突发事件链三层结构框架,结合突发事件元模型,说明了各类影响因素在突发事件演化过程中相较于单特征描述的重要性。本文结合上述文献对突发事件演化关系的介绍,构建突发事件演化关系模型,结构如图1所示,其中致灾因子是事件发生的起因,承灾载体是致灾因子产生的结果,孕灾环境和人为因素对承灾载体的严重程度起着促进或者抑制的作用,而一个承灾载体又可能会转变成新的致灾因子[13-15]。下面本文结合例句对各类定义进行详细解释。
定义1 突发事件 (Emergency)。指突然发生并会产生严重危害的事件,分为自然灾害、社会安全、公共卫生和事故灾害[16]。
定义2 演化关系(Evolution Relationship)。即事件中致灾因子,承灾载体以及影响因素之间的二元关系,分为直接因果关系、促进关系(即加重灾情受灾情况的关系)、抑制关系(即减轻灾情受灾情况的关系)和无关系。
定义3 致灾因子(Disaster-formative Factor)。指导致灾害发生的诱因并会使得灾害持续发生下去,是推动突发事件发展演化的根本原因,即例1中的“一氧化碳”,例2中的“火灾”,例3中的“地震”。
定义4 承灾载体(Disaster-affected Receptor)。是指突发事件灾害发生过程中受影响的人或者物,由承灾对象和受灾结果构成,即例1中的“中毒身亡”,例2中的“房屋烧毁”和例3中的“传染病”。一定场景下承灾载体又会演变成新的致灾因子从而形成突发事件灾害链。
定义5 孕灾环境(Disaster-formative Environments)。即事件发生时,对灾情结果会产生影响的自然环境,例如地理位置、天气气候等。按照对承灾载体的影响分为危害因素和缓解因素,例1的“密闭的室内”和例3中的“气温升高”均是加重了结果的严重程度,所以是属于危害因素。
1.2 突发事件演化关系特征
基于构建的突发事件演化关系模型,为了实现关系抽取,定义突发事件演化关系集合E={F,A,I,P},其中,E代表突发事件,F为致灾因子集合,A为承灾载体集合,I为影响因子集合,P为演化关系对。具体定义如下:
致灾因子集合:F={f1, f2,…, fn,…|n∈N+},其中fn是每个致灾因子。
承灾载体集合:A={a1,a2,…,an,…|n∈N+},其中an表示每个承灾载体。
影响因子集合:I={i1,i2,…,in,…|n∈N+},其中in是每个影响因子,包含环境和人为因素。
演化关系对:指致灾因子、影响因子、承灾载体关系,即P={〈t1,t2,r〉|t1,t2∈F∪I∪A,r∈[-1,0,1,2]},r为-1和1分别表示抑制关系和促进关系,r为2时表示直接因果关系,为0时表示无关系。以1.1节中的例句为例,此时P={〈一氧化碳,中毒身亡,2〉,〈密闭的室内,中毒身亡,1〉,〈救火,房屋烧毁,-1〉,〈气温升高,传染病,1〉,〈地震,传染病,2〉,〈地震,气温升高,0〉,… }。
2 突发事件演化关系抽取方法
2.1 突发事件演化关系抽取框架
本文面向突发事件演化关系抽取,将演化关系抽取问题转化为实体关系四分类问题,图2展示了演化关系抽取框架。该框架主要包含3部分:数据预处理、训练基于注意力机制的双向LSTM模型,以及使用测试数据在训练完成的模型上完成演化关系抽取。
模型训练:将突发事件标注语料分为训练集、验证集以及测试集。构建基于注意力机制的双向LSTM模型中,使用训练集与验证集完成模型训练。 该模型中,首先对输入进行分词与词嵌入操作,得到输入语料的高维矩阵表示;然后,使用注意力概率对特征进行加权,从而突出重要词汇在特征中的贡献度;最后,利用softmax分类器对加权完成的特征进行分类完成演化关系的抽取。输出演化关系类型即为抽取结果。
2.2 基于注意力机制双向LSTM网络
本文使用基于注意力机制的双向LSTM网络进行关系抽取。该网络结构定义如图3所示,网络结构包含输入层、双向LSTM层、注意力层、softmax层以及输出层,网络结构将会在后文中进行详细介绍。
2.2.1 输入层
网络结构第一层为输入层,主要步骤包含分词与词嵌入。分词是将输入的句子以词为单位进行分割,词嵌入则是将词转化为向量的过程。输入m条句子集合S={S1,S2,…,Sm},对于集合中一条句子,首先进行分词操作;然后结合词序列字典与one-hot编码得到句子中每个词的向量e,其长度为超参数词嵌入维度dim;进而得到整条句子词嵌入矩阵[e1,e2,…,en],n为集合S中所有句子进行分词后的最大长度;最后对集合中每条句子均进行相同操作得到大小为m×n×dim的三维词嵌入矩阵。
2.2.2 双向LSTM层
网络结构第二层为双向LSTM层,输入对象为词嵌入操作后的多维矩阵。对于一条句子文本数据Se,将句子中的每一个词嵌入ew传入双向LSTM层进行特征提取。 LSTM模型用来处理时序性问题,能够充分利用整个文本序列的信息,包括各个词之间的相互关系信息,并将该种信息用于对每个词的处理。 LSTM模型包含多个LSTM单元, 如图4所示,每个LSTM单元包含3 种门结构:遗忘门(forget gates)、输入门(input gates)和输出门(output gates),以此来保持和更新状态信息并进行传递。
2.2.3 注意力层
网络结构第三层为注意力层。注意力机制源于对人类视觉的研究,在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息,上述机制通常被称为注意力机制。例如,人们在阅读时,关注和处理关键词汇即可帮助完成对全文的理解。与阅读过程相似,在演化关系抽取中,关注语料中重要词汇对演化关系抽取會有重要帮助,所以本文在模型中引入注意力机制。注意力层对双向LSTM提取的状态信息序列进行加权变换,突出重要状态信息的贡献,有效提高模型演化关系抽取准确性。注意力层的计算流程如下所示:
2.2.4 softmax层
网络结构的最后使用softmax对注意力层中得到的句子表征H*进行分类操作。每一个句子表征经过softmax生成四种类别概率,取有最大类别概率的类别为模型预测类别,该过程表示如下:
其中:p(y|H*)表示句子表征H*属于四种关系类别的概率;y^为概率值最大的类别,此类别作为模型预测的演化关系类别。
模型使用交叉熵损失作为分类问题目标函数,采用自适应学习率的随机梯度下降算法进行模型训练优化。训练中,模型学习率初始化为1.0,衰减率为0.1,训练集与验证集的比例为9∶1,训练周期设置为100,批大小设置为10,dropout系数设置为0.5,其他参数则进行随机初始化。
3 实验与结果分析
为验证本文中提出的基于注意力机制的双向LSTM模型的演化关系抽取效果,将提出的模型与近年先进的关系抽取方法进行对比。实验在同一个数据集中抽取的测试集上进行,对于不同模型,均采用相同的工具(jieba分词,https://pypi.org/project/jieba/)对测试文本进行分词操作,以及采用相同的词序列字典与one-hot编码方式进行词嵌入操作得到测试输入数据,然后搭建不同的网络结构训练模型进行演化关系抽取实验,最后用选取的评价标准进行不同模型的效果对比。
3.1 语料准备
基于注意力机制的双向LSTM方法需要相应的中文突发事件语料来进行训练和测试。在之前工作中建立的中文突发事件知识库[17],包含自然灾害、社会安全、公共卫生和事故灾害4大类别,以及28个子类,共计532个突发事件实例。此外,利用知识库中每个实例的“相关资源”属性,结合网易新闻网和中新网等新闻网站获取相关新闻语料,通过人工对原始新闻文本的去重后得到可用的新闻文本932篇,之后对每篇新闻中有关于突发事件的关键语句进行提取并标注。
本文参照自动内容抽取(Automatic Content Extraction, ACE)的事件标注标准,结合1.1节中的演化关系模型,共标注出2800条演化关系样本数据,将所有样本数据随机打乱后,按7∶3的比例分配训练集与数据集。
3.2 实验对比方法与评价标准
对比实验中,将本文方法与近年先进的关系抽取方法进行对比,分别是:基于双向循环神经网络(Recurrent Neural Network, RNN)的方法[18]、基于LSTM网络的方法[19]、基于双向LSTM网络的方法[20],以及基于树结构的卷积神经网络(Convolutional Neural Networks, CNN)的方法[21]。在上述方法的研究描述中,这些方法进行因果关系抽取时均有不错的性能表现。
对比实验中,本文采用正确率(precision)、召回率(recall)以及F1值(F1_score)作为评价指标,进行不同模型实验效果的评估。三种指标定义如下:
3.3 结果分析
首先将各方法在具体语料上进行演化关系抽取的结果对比。对于突发事件语料“该地区连续遭遇两次地震袭击,但遇上持续低温,现已致10人死亡,救援队正加紧搜救”,表1展示了各模型对该条语料中演化关系对的抽取结果,可以看出本文方法对几种演化关系均完成正确提取。从表1中还可以看出,对于较简单的直接因果关系〈地震,死亡,2〉以及文本中前向的无关系〈地震,低温,0〉,五种方法均可正确提取;对于〈搜救,死亡,-1〉这样的抑制关系只有本文方法可以完成抽取,原因在于注意力机制的引入;对于文本中后向的无关系〈搜救, 低温, 0〉,三种使用了双向结构的模型效果均比普通LSTM模型与基于树的CNN更好,因为双向的模型能更好地理解语句中双向的语义关系; 而〈低温, 死亡, 1〉促进关系对,基于LSTM的三种方法相较于使用RNN的模型结果更好,原因则在于LSTM单元相较于RNN单元能更好地处理复杂文本关系,而基于树的CNN方法同样可以进行抽取,原因如文献[21]中所说,该方法同时具有CNN与LSTM的优势,也可处理较复杂的文本关系。
使用本文提出的模型在测试集上进行演化关系抽取实验,共进行5次实验,所有结果数据取5次实验均值,表2为本文方法在四种演化关系上抽取的结果。此外,将本文提出的方法与双向RNN、LSTM、双向LSTM以及基于树的CNN模型进行对比实验,在同一个测试集上进行演化关系提取效果对比,表2也展示了各方法的对比结果。
如表2中F1值可知,本文提出的方法在四种演化关系抽取中均取得较好的效果。在无关系上,本方法取得了最好的效果,这符合句子中大多数词语之间是无因果关系的先验知识,在直接因果关系抽取中则效果稍差。原因在于突发事件中无因果关系所占比重较大,模型所学习到的语义关联更强,而其他关系则学习不到较强语义关联。
从表2中可以看出,本文提出的基于注意力机制的双向LSTM模型相较于其他四种方法均取得了较为领先的效果,并在直接因果关系上的结果也优于其他模型方法。相较于双向RNN模型,本文提出的模型使用双向LSTM不仅比双向RNN模型更好地提取复杂特征语义关联,同时引入注意力机制更是强化了特定词汇在语义关联中的作用;相较于LSTM与基于树的CNN模型,基于注意力机制的双向LSTM能够同时提取前后文关系再结合注意力机制,所以取得较好效果;而与双向LSTM模型相比,本文的模型效果稍好,原因在于引入注意力机制来关注特定重要词的特征作用。
从表1~2可以得出,本文提出的基于注意力机制的双向LSTM模型在突发事件的演化关系抽取中不仅能够在各个类别上均取得较理想效果;同时,相较于其他已存在较好的关系抽取模型,本文模型同样可以取得领先的效果。
4 結语
演化关系抽取对辅助专家进行应急预案决策有重要意义,本文针对现有因果关系抽取研究的语义缺失和信息抽取不准确的问题,运用基于注意力机制的双向LSTM模型,对突发事件演化关系进行抽取。本文将演化关系抽取问题转化为实体关系四分类问题,通过将事件对和句子的词嵌入作为模型的输入,并在双向LSTM层上引入注意力机制,突出重点词汇在句子中的贡献,最后利用softmax分类器进行分类以完成演化关系的抽取。在语料集上的实验结果表明,相比现有的突发事件因果关系抽取方法,本文提出的方法在信息抽取的完备性和准确性上都有进一步的提高,有助于突发事件演化关系抽取。但是,本文提出的方法在网络结构上仍然有改进的空间,例如LSTM单元门结构可以修改以更好地提取复杂时序文本特征,未来将在该方面进行持续研究工作。
参考文献 (References)
[1] 李湖生.安全与应急管理学科领域的概念视图及主要研究内容[J].安全,2017,38(10):23-26.(LI H S. Conceptual view and main research contents in the field of safety and emergency management [J]. Security, 2017, 38(10): 23-26.)
[2] 陈玉芳,屠兢,任冬林.高校社会安全类突发事件情景要素识别提取[J].电子科技大学学报 (社科版),2017,19(6):56-59.(CHEN Y F, TU J, REN D L. Identification and extraction of scene factors for social security emergencies in colleges and universities [J]. Journal of University of Electronic Science and Technology of China (Social Sciences Edition), 2017, 19(6): 56-59.)
[3] KAPLAN R M , BERRY-ROGGHE G. Knowledge-based acquisition of causal relationships in text [J]. Knowledge Acquisition, 1991, 3(3): 317-337.
[4] KHOO C S G, CHAN S, NIU Y. Extracting causal knowledge from a medical database using graphical patterns [C]// Proceedings of the 38th Annual Meeting for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2000: 336-343.