欧伟明 韩博 关珍博 杨乐 张建民 杜丹
摘要:为了能够掌握新闻专题的发展演化过程,又使其具备可解释性,提出一种面向新闻专题事件的事件关系图构建方法。基于事件间的关联关系,通过事件抽取、事件合并和事件关系识别等技术,从专题事件的新闻数据集中抽取出元事件,把指代同一现实事件的多条元事件数据合并为一条元事件数据,基于模式匹配法识别各元事件间的关系,按照时间顺序和事件间关系将专题事件内各零散的元事件组织起来,构建面向新闻专题的事件关系图,刻画专题事件在整个演化发展过程中各子事件间的因果、转折、条件和顺承等关联关系,实现对专题新闻事件来龙去脉更直观的解释和表达。
关键词:新闻专题;事件演化;事件关系;事件抽取;事件合并
中图分类号:TP391.4文献标志码:A文章编号:1008-1739(2023)04-50-5
新闻专题事件是指持续时间较长、发展情节较曲折、关注人数较多的事件。面对海量且无章的网站新闻数据,用户不但很难从新闻中快速获取专题事件的整体来龙去脉,而且很难掌握专题事件的全局信息。通过构建事件脉络,检测新闻专题事件演化发展的关键阶段,对碎片化新闻进行深入挖掘分析,自动组织成简洁、准确、连贯的专题事件脉络,让用户能够快速且直观地了解和把握事情的演化发展过程。目前,主要通过专题事件下新闻文本内容的相似度来寻找各新闻之间的联系,构建事件脉络,描述事件发展过程。这些事件脉络构建的方法以整篇新闻内容为单元,不能够描述专题事件内部各子事件间的因果、转折、顺承等关联关系,导致事件演化发展过程缺乏可解释性。
一般,事件的发生不是孤立现象,其发生和发展往往与其他事件有着本源的逻辑关系。事件关系则表示事件间的逻辑关系,在新闻文本信息中蕴涵着刻画事件关系的语义线索。一个新闻专题往往是由一系列元事件组成的,事件之间的关联关系也反映着专题事件演化机制。因此,本文提出一种面向新闻专题事件的事件关系图构建方法,基于事件间的关系,通过事件抽取、事件融合和事件关系识别等技术,从专题事件的新闻数据集中抽取出元事件,基于模式匹配法识别各元事件间的关系,按照时间顺序和事件间关系将专题事件内各零散的元事件组织起来,构建面向新闻专题的事件关系图,刻画专题事件在整个演化发展过程中各子事件间的因果、转折、条件和顺承等关联关系,实现对专题新闻事件来龙去脉更直观的解释和表达。
通过构建事件脉络可以挖掘事件不同的发展阶段,帮助用户快速掌握专题事件全周期的发展演化过程。现有的事件脉络构建方法主要基于专题事件下新闻文本内容的相似度来寻找各新闻之间的联系[1-3],是以整篇新闻为单元的,不能够描述专题事件内部各子事件间的逻辑关系,导致事件演化发展过程缺乏可解释性。
通常,事件的发生是相互关联的,通过建立专题新闻下各个元事件之间的关系,可以揭示事件发展规律。事件关系抽取以事件为基本的语义单元,自动抽取事件之间的逻辑关系,包括事件的因果关系、顺承关系、共指关系、时序关系等。依据事件之间的关系构建事理图谱,可以描述事件的演化逻辑,有助于后期事件的发展预测[4]。基于事件信息和事件关系构建的事件图谱,展示了事件的演变过程和事件间的关联关系[5]。因此,事件间关系的抽取成为国内外学者近期研究的热点。
传统事件关系抽取大多集中在因果关系或时序关系,主要分为3种方法:基于模式匹配的方法[6-7]、基于模式匹配与机器学习组合的方法[8-9]和基于深度学习的方法[10-12]。
相比于以往通过构建事件脉络的方式展现专题事件的演化,本文提出一种基于事件关系图的专题事件发展演化描述。通过事件抽取、事件共指和事件关系识别等技术,从专题事件的新闻数据集中抽取出元事件,进行元事件共指融合,识别各元事件间的关系,按照时间顺序和事件间关系组织专题事件的元事件,形成面向新闻专题的事件关系图,利用各元事件间的因果、转折、条件和顺承等关系展现专题事件的来龙去脉,实现专题事件发展过程的可解释性。
定义1新闻:一篇新闻由新闻标题、正文、发布时间组成。
定義3新闻专题:新闻专题表示一个时间窗内与专题相关的一系列新闻数据集,通常包含不同的元事件,反映的是事件不同侧面或发展。
定义4事件关系:事件关系则表示事件之间的逻辑关系,是事件之间固有的一种客观存在。目前有多种事件关系分类体系,本文侧重于事件之间的语义关系,即从文本语义关系的角度解释事件的逻辑关系,事件关系包括并列、转折、顺承和因果。并列,指2件事件同时发生;转折,指某件事与下一件事发生转折;顺承,指某件事接着一件事发生;因果,指在一定的条件下,一个事件的发生导致了另一事件的发生。
定义5事件关系图:以元事件为节点,元事件间的关系为边,按照元事件发生的先后顺序构建的专题事件演化发展图。
3.1方法总体设计
本文中新闻专题的事件关系图构建流程如图1所示,主要分为4个部分:第一部分是事件抽取,采用基于模板匹配的事件抽取方法从专题事件的新闻数据集中抽取元事件;第二部分是事件合并,通过事件共指和要素对齐,实现同类元事件融合;第三部分是基于事件关系识别模板建立元事件之间的关系,并判断关系类型;第四部分是事件关系图构建,按照时间顺序和事件间关系组织专题事件下的元事件,形成事件新闻专题的事件关系图。
3.2元事件抽取
元事件抽取技术的主要任务是从文本中检测到事件,并抽取事件的相关要素,获取结构化的事件表示。本文考虑事件抽取结果的准确率,采用基于模板匹配的事件抽取方法,通过中文分词、命名实体识别和依存句法分析等处理,从新闻文本数据抽取出元事件。事件抽取的具体流程如下:
①对新闻文本进行分句,对每句话进行分词、词性标注和实体识别;
②对句中的实体信息进行规范化处理,实现实体的指代消歧,包括以新闻发布时间作为基准时间进行时间规范化,根据Wiki和百度百科实体的别名词典库进行实体指代消解,并持续对别名词典库进行维护扩充;
③事件触发词匹配,并基于事件触发词库对句子进行过滤,将包含触发词的句子作为事件句;
④对事件句进行依存句法分析,通过遍历句法树的动词,找到其依存的主语、宾语、时间、地点等要素信息;
⑤对候选事件要素进行过滤,过滤掉动词非触发词、主语非实体类(人名/地名/机构名)事件;
⑥对抽取的结果进行处理,包括:否定词处理、被字句处理,多个主语、多个宾语的处理等;
⑦对抽取的事件要素进行组合,形成事件描述。
3.3事件合并
由于新闻数据来源的多样性,会导致新闻事件的重复报道。本文基于句子级的元事件抽取技术从新闻文本中抽取到元事件,同一个元事件会存在于同一篇新闻的不同句子或多篇新闻的不同句子中,导致大量的元事件冗余和事件信息冲突。通过事件合并,将指代同个现实事件的多条事件数据合并为一条事件数据,降低元事件的冗余度。另外,事件抽取的信息往往是不完整的,会存在事件要素缺失。事件合并包括事件共指和要素对齐。事件共指是通过发现元事件间的共指关系,实现对同一语义的多个元事件进行融合消解。事件要素对齐,事件共指时保留有价值的事件要素,补充缺失要素,规范事件要素,达到提高事件数据质量的目的。
本文用时间、地点、施事者、受事者和动作5个元素来表示个元事件。在两事件含有相同事件元素的限制条件下,基于事件描述句的相似度来进行事件融合的判断,即依据2个事件含有的相同事件元素情况的不同类型设置不同大小的相似度阈值,具体操作步骤如下:
①遍历已抽取的元事件数据集,获取每个元事件描述句,利用TF-IDF方法对元事件描述句进行向量化表示;
②以第一个元事件1为目标事件,以1要素作为检索条件获取候选元事件集;
③依次计算1的事件描述句向量与候选元事件集各元事件的事件描述句向量的余弦值,得到2个事件描述句的相似度,记为(1, )。
④判断1与各事件元含有的相同事件元素情况;
⑤依据2个事件含有的相同事件元素情况的不同类型选择不同大小的相似度阈值,进行事件融合判断;
⑥将满足相似度阈值的元事件与1进行事件对齐,补充缺失的事件元素;
⑦依次以事件2, 3,…,为目标事件,重复步骤②~⑥。
3.4事件关系识别
为了能够识别出更多元事件关系种类,本文采用基于模式匹配的事件关系识别方法,对同句抽取的2个事件,识别2个事件动词之间的连接词,根据连接词的类型判断2个事件之间的关系,包括因果、顺承、转折、并列等。本文在汉语句法模式的基础上,基于积累的语义规则知识,根据不同的语义规则制定了不同的事件关系识别的正则表达式,形成事件关系识别模板,并在实际运用中不断丰富,以提升关系模板的覆盖面。对于因果事件关系,区分原因事件和结果事件,其他类型事件关系需区分事件的先后顺序。从同篇新闻抽取的2个事件,在施事者相同的条件下,可根据2个事件之间发生的前后时间顺序,判断顺承关系。
事件关系识别的具体流程如下:
①按新闻遍历新闻中的事件句,依据事件关系识别模板识别关联的元事件,并判断关系类型;
②对于建立关系的元事件,将元事件映射为事件合并后的元事件,按照<元事件1,关系类型,元事件2>的方式存储事件关系,其中事件1的发生时间早于事件2的发生时间;
③对于未建立关系的元事件,首先判断施事者是否相同,若相同,则根据2个事件之间发生的前后时间顺序,判断顺承关系;
④将元事件映射为事件合并后的元事件,按照<事件,关系类型,事件>的方式存储事件关系。
本文从新闻网站上抓取了“美国南海核潜艇撞击”和“印度副总统奈杜赴阿鲁纳恰尔访问”新闻专题的相关新闻数据,其中“美国南海核潜艇撞击”专题的新闻共计79篇,“印度副总统奈杜赴阿鲁纳恰尔访问”专题的新闻共计104篇。经过对新闻数据进行元事件抽取、事件合并和事件关系识别等处理后,按时间顺序和事件间关系对事件数据进行组织,得到2个新闻专题的事件关系图,分别如图2和图3所示。
下面举例具体说明事件关系图的构建结果。
(1)事件抽取
從新闻原句“据美国海军学会网站报道,10月2日,美国海军海狼级攻击核潜艇康涅狄格号在南海与不明物体相撞,现已航行到关岛进行评估和维修。”中识别出事件触发词“相撞”和“航行”,并基于依存句法分析抽取出2个元事件,如表1所示。