面向中文新闻语料的事件规范化研究

2021-09-26 16:25谢红,孙锐
电脑知识与技术 2021年20期

谢红,孙锐

摘要:本文针对中文文本事件形态存在的不统一或省略的現象,提出一种基于自举的事件规范化方法。在中文新闻语料上的实验表明了方法的有效性。通过对事件规范化结果的分析明确了事件分析中的一些新难点,为后续事件相关任务研究提供了思路。

关键词:原子事件;事件抽取;事件模板;事件规范化

中图分类号:TP311        文献标识码:A

文章编号:1009-3044(2021)20-0139-02

1 引言

篇章学习任务大多以短语或语句作为单位,在学术界和工业界均取得较大的成功。从语义层面来看,词或短语存在较大的歧义,而事件语义表达确切,无需消歧,故受到越来越多的重视,如事件知识图谱[1]。

学术界对“事件”没有统一的定义,但多表示为“谓词+论元”结构。论元个数不同,事件的形态不同。本文关注原子事件,其谓词论元结构为,分别对应事件主语、谓语和宾语。近年来,这种事件结构已被证明可有效地应用到各种任务[2-3]。

中文是一种意合的语言,在文本中会大量存在着省略和开放灵活的语法结构。主要表现在:1)原子事件的形式呈现多样化。如,事件“人,受伤,nil”与事件“nil,受伤,人”语义相同,但语法结构是不同的。直觉地,这种语义相似的事件可采用统一的形式来表示;2)存在一些事件因省略或由于触发词与论元的距离过远而丢失论元;3)部分事件会以名词短语的形式出现。如,“四川火灾”是一个名词短语,但实际上对应原子事件“四川,发生,火灾”。

可以看出,中文原子事件因表达形式灵活,必然面临较严重的稀疏问题,从而给事件语义分析带来一定的制约。受语音合成和文本规范化的启发,本文提出一种自举(Bootstrapping)的事件规范化(Event Normalization)方法,在爬取的新闻语料上对事件规范化进行了统计分析,同时讨论了当前事件规范化面临的问题。

2 相关工作

2.1 事件抽取

由于学术界没有公开可用的原子事件标注语料,原子事件的抽取主要有两种无监督的方案:一是基于规则的方法,另一种是基于关系抽取的方法。

基于规则的方法大多利用依存分析结果,例如,根据“nsubj”、“dobj”和“loc”等确定事件触发词和主要论元。Hu等[4]将词性为“VB”的动词视为事件触发词,借助依存分析寻找每个动词的论元。Glavas等[5]为构建事件图,定义了句法模板并根据依存关系提取事件论元。

基于关系抽取的方法利用了实体关系来表达事件论元的语义关联。Balasubramanian等[6]将关系三元组中词干化后的关系动词作触发词,词干化后的各实体词作为事件论元。Qiu等[7]首次在中文开放文本领域实现实体关系的抽取算法,关注关系动词为核心的三元组。

2.2 文本规范化

文本规范化是将非规范词转化为规范词,进而得到规范文本的过程。大多数工作关注词的规范化。对英文而言,可通过词典来判断词的规范性。而对中文而言,由于词的构成形式的多样性,规范化难度更大。一般而言,通过构建非规范词典,将规范化问题转化为检索问题来实现。

本文关注结构化事件的规范化问题,即如何解决中文原子事件在表现形态上的差异,以缓解原子事件的稀疏性问题,以后续事件关系分析和统计提供良好的数据保障。

3 事件规范化

通过统计观察发现,原子事件的分布符合一种假设:大规模语料中的事件如果有更宽的分布和更高的出现频率,则可泛化成一个标准模板。例如,两个候选事件“人,死亡,nil”和“nil,死亡,人”,假设前者在20个文档中出现了123次,后者在18个文档中出现了96次。则可以将前者作为标准模板,其它与之语义相似的事件均应规范成该模板。由此可见,事件模板的生成基于事件信息,而事件的规范化则需要标准事件模板的指导。

本文采用自举的事件规范化方法,具体流程如图1所示,首先由初始化候选事件集合得到候选模板,对所有候选事件模板进行置信度评估,由此产生标准模板并候选事件进行修正或规范化,修正后的事件重新加入规范事件集合。此过程反复迭代,直至再无标准模板产生为止(所有候选模板置信度低于某一阈值)。

3.1 候选模板抽取

本文首先沿用基于规则的方法[7]来抽取候选事件,利用依存分析结果中的“nsubj”和“dobj”两种关系。给定语句“民政局公布相关数据”,可得到两个依存关系:“nsubj (公布,民政局)”和“dobj (公布,数据)”,可合并为事件“民政局,公布,数据”。

事件模板应具有泛化能力,故选择了同义词词林扩展版为每个词语提供语义标签,如“四川”可赋予地名标签“Di02B”,“地震”可赋予语义类别“Da09B”。由此,将候选事件按语义标签类别进行统计,即可得到候选事件模板。

3.2 置信度评估

每个候选模板[p]采用下式进行置信度评估:

[Score(p)=Efreq(p)×Dcover(p)=|i:ei∈p|E×|j:p∈dj|D]         (1)

其中,[Efreq(p)]表示事件在语料中的出现概率,[Dcover(p)]则代表事件出现的文档概率,[|E|]和[|D|]分别代表事件集合和文档集合大小。事件概率度量了模板的事件覆盖度,而文档概率则度量了模板的文档覆盖度,得分最高的即为标准模板。

3.3 事件规范化

在得到标准模板后,可直接对事件集合中的不规范事件进行修正以达到规范化的目的。若事件对应多个标准模板,可根据事件与模板间的语义距离以确定标准模板的选择。