面向中文新闻语料的事件规范化研究

2021-09-26 16:25谢红，孙锐

电脑知识与技术 2021年20期

谢红，孙锐

摘要：本文针对中文文本事件形态存在的不统一或省略的現象，提出一种基于自举的事件规范化方法。在中文新闻语料上的实验表明了方法的有效性。通过对事件规范化结果的分析明确了事件分析中的一些新难点，为后续事件相关任务研究提供了思路。

关键词：原子事件;事件抽取;事件模板;事件规范化

中图分类号：TP311 文献标识码：A

文章编号：1009-3044（2021）20-0139-02

1 引言

篇章学习任务大多以短语或语句作为单位，在学术界和工业界均取得较大的成功。从语义层面来看，词或短语存在较大的歧义，而事件语义表达确切，无需消歧，故受到越来越多的重视，如事件知识图谱[1]。

学术界对“事件”没有统一的定义，但多表示为“谓词+论元”结构。论元个数不同，事件的形态不同。本文关注原子事件，其谓词论元结构为，分别对应事件主语、谓语和宾语。近年来，这种事件结构已被证明可有效地应用到各种任务[2-3]。

中文是一种意合的语言，在文本中会大量存在着省略和开放灵活的语法结构。主要表现在：1）原子事件的形式呈现多样化。如，事件“人，受伤，nil”与事件“nil，受伤，人”语义相同，但语法结构是不同的。直觉地，这种语义相似的事件可采用统一的形式来表示;2）存在一些事件因省略或由于触发词与论元的距离过远而丢失论元;3）部分事件会以名词短语的形式出现。如，“四川火灾”是一个名词短语，但实际上对应原子事件“四川，发生，火灾”。

可以看出，中文原子事件因表达形式灵活，必然面临较严重的稀疏问题，从而给事件语义分析带来一定的制约。受语音合成和文本规范化的启发，本文提出一种自举（Bootstrapping）的事件规范化（Event Normalization）方法，在爬取的新闻语料上对事件规范化进行了统计分析，同时讨论了当前事件规范化面临的问题。

2 相关工作

2.1 事件抽取

由于学术界没有公开可用的原子事件标注语料，原子事件的抽取主要有两种无监督的方案：一是基于规则的方法，另一种是基于关系抽取的方法。

基于规则的方法大多利用依存分析结果，例如，根据“nsubj”、“dobj”和“loc”等确定事件触发词和主要论元。Hu等[4]将词性为“VB”的动词视为事件触发词，借助依存分析寻找每个动词的论元。Glavas等[5]为构建事件图，定义了句法模板并根据依存关系提取事件论元。

基于关系抽取的方法利用了实体关系来表达事件论元的语义关联。Balasubramanian等[6]将关系三元组中词干化后的关系动词作触发词，词干化后的各实体词作为事件论元。Qiu等[7]首次在中文开放文本领域实现实体关系的抽取算法，关注关系动词为核心的三元组。

2.2 文本规范化

文本规范化是将非规范词转化为规范词，进而得到规范文本的过程。大多数工作关注词的规范化。对英文而言，可通过词典来判断词的规范性。而对中文而言，由于词的构成形式的多样性，规范化难度更大。一般而言，通过构建非规范词典，将规范化问题转化为检索问题来实现。

本文关注结构化事件的规范化问题，即如何解决中文原子事件在表现形态上的差异，以缓解原子事件的稀疏性问题，以后续事件关系分析和统计提供良好的数据保障。

3 事件规范化

通过统计观察发现，原子事件的分布符合一种假设：大规模语料中的事件如果有更宽的分布和更高的出现频率，则可泛化成一个标准模板。例如，两个候选事件“人，死亡，nil”和“nil，死亡，人”，假设前者在20个文档中出现了123次，后者在18个文档中出现了96次。则可以将前者作为标准模板，其它与之语义相似的事件均应规范成该模板。由此可见，事件模板的生成基于事件信息，而事件的规范化则需要标准事件模板的指导。

本文采用自举的事件规范化方法，具体流程如图1所示，首先由初始化候选事件集合得到候选模板，对所有候选事件模板进行置信度评估，由此产生标准模板并候选事件进行修正或规范化，修正后的事件重新加入规范事件集合。此过程反复迭代，直至再无标准模板产生为止（所有候选模板置信度低于某一阈值）。

3.1 候选模板抽取

本文首先沿用基于规则的方法[7]来抽取候选事件，利用依存分析结果中的“nsubj”和“dobj”两种关系。给定语句“民政局公布相关数据”，可得到两个依存关系：“nsubj （公布，民政局）”和“dobj （公布，数据）”，可合并为事件“民政局，公布，数据”。

事件模板应具有泛化能力，故选择了同义词词林扩展版为每个词语提供语义标签，如“四川”可赋予地名标签“Di02B”，“地震”可赋予语义类别“Da09B”。由此，将候选事件按语义标签类别进行统计，即可得到候选事件模板。

3.2 置信度评估

每个候选模板[p]采用下式进行置信度评估：

[Score（p）=Efreq（p）×Dcover（p）=|i：ei∈p|E×|j：p∈dj|D] （1）

其中，[Efreq（p）]表示事件在语料中的出现概率，[Dcover（p）]则代表事件出现的文档概率，[|E|]和[|D|]分别代表事件集合和文档集合大小。事件概率度量了模板的事件覆盖度，而文档概率则度量了模板的文档覆盖度，得分最高的即为标准模板。

3.3 事件规范化

在得到标准模板后，可直接对事件集合中的不规范事件进行修正以达到规范化的目的。若事件对应多个标准模板，可根据事件与模板间的语义距离以确定标准模板的选择。

电脑知识与技术2021年20期

电脑知识与技术的其它文章: 微服务化二维码防伪溯源系统; 基于熵权TOPSIS的区域道路安全评价方法; 基于机器学习的聚类数据划分算法的研究; Web系统服务器集群部署策略研究; 基于指针数组的高精度UCOSII软件定时器改进方案; “云贝健齿”小程序的设计与应用