彭籍冲
摘要:自然语言领域内事件抽取是信息抽取中一项重要的研究课题。事件触发词的识别与抽取在事件抽取中扮演着重要角色。针对目前缺少对泰语触发词识别与抽取的技术研究,提出了通过中文事件触发词入手构建初始泰语新闻事件触发词表,并根据初始泰语新闻事件触发词表自动抽取泰语触发词。实验结果表明此方法很好有效的实现了泰语新闻事件触发词的识别与抽取。
Abstract: The research of event extraction in natural language processing field is an important research topic in information extraction area, and the recognition and extraction of event trigger word plays a decisive role in event extraction. For the current situation that lacks of technology research of Thai trigger word recognition and extraction, propose to build the initial Thai news events trigger words table by Chinese event trigger words, and extract Thai trigger word automatically based on initial Thai news events trigger word table. Experimental results show that this method can effectively realize the Thai news events trigger word recognition and automatic extraction.
关键词:事件抽取;新闻事件;泰语触发词表;触发词抽取
Key words: event extraction;news events;Thai trigger word table;trigger word extraction
中图分类号: TP311 文献标识码:A 文章编号:1006-4311(2017)11-0226-03
0 引言
随着全球化的推進,中国与泰国之间政治、经济、文化交流日益频繁。中泰两国之间各方面交往的新闻报道越来越多,而新闻报道能客观地反映一个国家对不同领域的政策和态度。对泰国新闻事件进行有效的抽取,有利于更好地了解泰语新闻报道的内容,以便更好地处理中国与泰国的国际关系。因此,对泰语新闻事件抽取研究至关重要。
新闻事件抽取主要把人们感兴趣的新闻以结构化的形式呈现出来,如什么时间,什么地方,发生什么事,由哪些人参与或被涉及。事件在不同领域有着不同的定义,在信息抽取(Information Extraction,IE)中,事件是指某个特定的时间和环境下发生的、由若干角色参与、表现出若干动作特征的一件事情,通常情况下是句子级。在ACE(Automatic Content Extraction)评测会议中,事件定义为由事件触发词及事件元素构成。可见,事件触发词识别与抽取是事件抽取的关键。因此,本文将参照ACE2005[1]有关事件抽取的相关定义,开展泰语新闻事件触发词的抽取研究。
1 国内外研究现状
作为信息抽取的一个热门研究领域,事件抽取研究主要聚焦在中英文两方面。Ahn[2]用英语句中的每一个词作为实例,使用二元分类的方法判别句中的词是否为触发词,用多元分类方法识别它所属事件类型。这种方法能够自动识别触发词和事件类型。但是,句子中的每一个词作为实例用于训练机器学习模型导致引入大量的反例,造成正反例严重失衡。Hilda Hardy[3]提出了基于数据驱动的方法进行篇章级的事件识别,并进一步证明了选取特征向量用于训练常见学习算法比人工定义规则模型进行事件识别用时更短而且不受专业限制。Ji Heng[4]提出基于规则的方法对触发词、事件参与者和角色进行判断的方法实现同一话题集文档的事件抽取,不再局限于对一篇文档进行事件抽取。由于考虑了全局信息,即话题集簇中的所有相关文档,该方法取得了很好的效果。赵妍妍[5]提出根据对构建的初始中文触发词表,先采用类似TF*IDF的方法过滤存在一词多义现象的触发词,再使用《同义词词林(扩展版)》扩充触发词表,不仅提高了召回率,而且解决了由于语料小构建的触发词表有限的不足。侯立斌[6]提出了通过LDA模型对词语聚类来解决词形特征过拟合问题,并使用基于字的事件触发词检测的方法解决中文自动分词与标注与触发词边界不一致问题。LongTian[7]以CEC语料库作为训练语料及测试预料,提出了结合扩展事件触发词表与机器学习的方法进行事件触发词的自动抽取。实验结果表明提取中文事件触发词的F值达到了71.2%。朱少华[8]采用基于马尔科夫逻辑网络,利用触发词或核心词素同指与相关一致性推理规则,学习训练语料中候选触发词填充真假事件的概率和触发词实例间的关系,进行中文触发词推理,巧妙地利用同一文档中各个触发词实例之间的一致性关系,此方法触发词识别的F值达到了73.79%。
2 泰语新闻事件触发词抽取
首先,本文根据CEC[11]语料库创建初始中文触发词表;使用《哈工大信息检索研究室同义词词林扩展版》[12]对初始中文触发词表进行扩展;调用百度翻译API端口[13],将中文触发词翻译为泰语,生成初始泰语触发词表。然后,对泰语新闻文本句子进行预处理,其中包括分词、标注词性、抽取实体,将抽取出的实体构建候选触发词集。最后,根据初始泰语触发词表计算候选触发词集中词的权重值,进而实现使用初始泰语触发词表对泰语新闻事件触发词的识别与抽取。泰语新闻事件触发词抽取过程如图1所示。
2.1 构建中文初始触发词表
根据CEC语料构建一张中文初始触发词表。CEC语料库,包含五类新闻文本:地震、火灾、交通事故、恐怖袭击、食物中毒,共计332篇。其中已经对事件、触发词、事件类型、事件元素进行标注。构建的部分初始中文触发词表如表1所示。
2.2 扩展初始中文触发词表
由于语料规模太小覆盖面不够广泛,许多事件类型的触发词无法召回。如:新闻句E1印尼苏门答腊岛附近海域1个月来发生多次强震。“强震”不在地震类事件触发词表中,E1就很难被识别为地震类事件。而“强震”与地震类事件触发词表中“余震”在同义词词林中被标记为同类词。Id14E02#余震、强震。所以根据文献[14]提出的使用《哈工大信息检索研究室同义词词林扩展版》对触发词表进行扩展来解决语料小召回率低的问题。然而,还存在一些触发词在同义词词林中有两种编码。如在同义词词林中查询“震动”可得到以下两个词条:Id14E01=颤动、抖动、颠簸、颠、震、簸荡、震荡、振荡、振动、震动、共振;Je02B01=触动、感动、打动、拨动、震动、激动、震撼、撼动、撼、动。这种情况我们判定此项词条中是否含有其他词在同事件类触发词表中。Id14E01=词条中存在“震”、“振动”同在地震类事件触发词表中,而Je02B01=词条中并不存在多个(多余两个)词同属地震类事件触发词。这种情况下,即把Id14E01=中的所有词汇扩展到地震类事件触发词表中。根据以上方法对初始中文触发词表进行扩展。部分扩展触发词表如表2所示。
2.3 泰语触发词表的生成
2.4 基于泰语新闻事件触发词表抽取泰语新闻事件触发词
根据泰语新闻事件触发词表抽取泰语新闻事件触发词。由于泰语文本中不采用标点符号或是空格进行句子分割的使用特性与目前缺少对泰语文本句子切分的相关研究,本文开展对泰语新闻句子进行泰语新闻事件触发词抽取。首先,根据文献[15]将泰语新闻句预处理,包含分词、标注词性;其次,提取出其中的名词、动词(文献[16]统计表明触发词基本为名词、动词,此举很大程度上缩小候选触发词集的范围);最后,构建候选泰语新闻事件触发词集。
3.2 实验结果与分析
本文从中泰双语新闻网[17]选取1000个泰语新闻句子作为实验数据。将其中750个泰语新闻句作为训练语料,250个泰语新闻句作为测试预料。对训练预料进行标注,参照CEC标注标准,标记出事件、触发词、事件类型。由于在泰语触发词提抽取方法研究方面,目前未见相关研究论文。因此,本文仅给出了我们方法的实验结果,实验结果如表4所示。
实验结果表明,由于泰语分词、词性标注准确率对泰语触发词识别及抽取有着较大影响及泰语新闻标注语料过于单一的这些原因,导致根据抽取泰语触发词的准确率不高,但召回率比较理想。
4 结语
目前泰语新闻事件抽取研究处于起步阶段,本文提出通过中文触发词表构建泰语触发词表,并通過泰语触发词表对泰语新闻文本中触发词进行抽取。实验表明,此方法对泰语触发词抽取是可行的。为了实现更好的抽取结果,提高泰语新闻触发词抽取的准确率,下一步的工作重心是扩大泰语标注语料,结合泰语语言特性构造特征向量,并结合机器学习的方法进行泰语新闻事件触发词抽取研究。
参考文献:
[1]ACE (Automatic Content Extraction) Chinese Annotation Guidelines for Events[S]. National Institute of Standards and Technology, 2005.
[2]Ahn D. The stages of event extraction [C]. Arte06 Proceedings of the Workshop on Annotating & Reasoning About Time & Events, 2006:1-8.
[3]Hardy, H., Kanchakouskaya, V., Stzalkowski, T. Automatic Event Classification Using Surface Text Features[C]. AAAI 2006 Workshop on Event Extraction and Synthesis, Boston, MA (2006).
[4]Ji H, Grishman R. Refining Event Extraction Through Cross-document Inference[C]. ACL 2008, Proceedings of the, Meeting of the Association for Computational Linguistics, June 15-20, 2008, Columbus, Ohio, Usa. 2008:254-262.
[5]赵妍妍,王啸吟,秦兵,等.中文事件抽取中事件类别的自动识别[C].第三届学生计算语言学研讨会.中国辽宁沈阳,2006.
[6]侯立斌,李培峰,朱巧明.基于CRFs和跨事件的事件识别研究[J].计算机工程,2012,38(24):191-195.
[7]Tian L, Ma W, Zhou W. Automatic Event Trigger Word Extraction in Chinese Event[J]. Journal of Software Engineering & Applications, 2012, 05(12):208-212.
[8]Tian L, Ma W, Zhou W. Automatic Event Trigger Word Extraction in Chinese Event[J]. Journal of Software Engineering & Applications, 2012, 05(12):208-212.
[9]朱少华,李培峰,朱巧明.基于MLN的中文事件触发词推理方法[J].北京大学学报自然科学版,2016,52(1):89-96.
[10]张金花.汉泰语对比浅析[J].群文天地,2012(2):98-98.
[11]孙汉萍.汉、泰语的同异性比较[J].当代教育理论与实践, 1995(2):34-39.
[12]付剑锋.基于事件的中文语料库标注方法[P].中国专利:201010126360.8,2010.
[13]http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm.2009.
[14]http://api.fanyi.baidu.com/api/trans/product/index.
[15]Qin B, Zhao Y, Ding X, et al. Event Type Recognition Based on Trigger Expansion[J]. Tsinghua Science and Technology, 2010, 15(3):251-258.
[16]赵世瑜,线岩团,郭剑毅,余正涛,洪玄贵,王红斌.基于条件随机场的泰语音节切分方法[J].计算机科学,2016,43(3):54-56,83.
[17]付剑锋.面向事件的知识处理研究[D].上海:上海大学, 2010.
[18]http://th.hujiang.com/zt/zhngtaixinwen/.