触发词扩展、神经网络及依存分析相结合的事件研究

2018-02-01 00:28王红斌郜洪奎
软件导刊 2018年1期
关键词:语料分类器词语

王红斌+郜洪奎

摘要:

事件抽取包括两大任务:识别事件和事件要素抽取。对于事件抽取的传统方法是模式匹配和机器学习。模式匹配包含规则有限,机器学习需要大量语料和众多特征。针对传统方法的不足,提出了结合触发词扩展、神经网络及依存分析相结合的方法。该方法利用触发词扩展增加触发词数量,利用神经网络选择特征进行事件分类,利用依存分析挖掘词之间关系。实验证明该方法可行,在事件识别和事件要素抽取方面得到了较好结果。

关键词:

机器学习;事件识别;事件要素抽取;依存分析;神经网络

DOIDOI:10.11907/rjdk.172075

中图分类号:TP301

文献标识码:A文章编号文章编号:16727800(2018)001001903

Abstract:Event extraction consists of two tasks: identifying the extraction of events and event elements. Traditionally, pattern matching and machine learning methods are used for event extraction. Pattern matching involves limited rules. Machine learning requires a large number of corpus and many features. In view of the shortcomings of traditional methods, this paper proposes a combination of triggering word extension, neural network and dependency analysis. The method can increase the number of trigger words by using the trigger word extension, use the neural network to select the feature to classify the event, and use the dependency analysis to dig the relationship between the words. Experiments show that this method is feasible and has achieved good results in event recognition and event element extraction.

Key Words:machine learning; event recognition; event element extraction; dependency analysis; neural network

0引言

中国交通事故发生频繁,突发性灾难事件研究受到重视。事故处理部门关心事故发生时间、地点、人员伤亡情况,以及哪个路段、哪个时间容易发生事故,从而采取措施最大限度地减少伤亡[1]。对事件的研究不仅具有理论价值,还具有实际应用前景。

事件抽取研究已取得较多成果,研究大致分为两类:基于规则的方法[24]和机器学习方法。基于规则的方法是事先制定一个字典,然后用待选词与字典进行匹配。Ahn D[5]采用二元分类器和多元分类器方法进行事件抽取研究,并在ACE英文语料库进行了实验,取得较好结果;吴平博等[6]采用预先定义的模版制定规则,从处理的文本中抽取事件信息来填充句型模板中的槽。结合上述事件抽取发现,基于规则方法在一定范围内效果不错,但它依赖具体环境,可移植性差,对于一些没有统计到字典的词识别不出来,而且字典的制定费时费力,需要领域专家指导,机器学习方法则可以解决这些问题。机器学习相关研究有:文档相关性的研究方法 [7],跨越不同事件的推理演绎方法[8]。杨尔弘[9]根据中文特点,采用语句聚类方法获得事件的信息结构(事件模板),并以此为标准抽取事件;赵妍妍等[10] 结合 Ahn等[11] 的工作,对机器学习需要的特征进行了改进;付剑锋等[12] 采用依存分析,深入挖掘词与词间的句法关联性,李培峰等[13]采用语义进行推理,对事件缺失信息进行还原和补充。但是机器学习方法需要大量的语料和众多特征作为支持,现今语料资源的缺乏和特征的选取影响了机器学习的提高,而且这两种抽取方法均没有考虑词语间词性特征及词语之间的依赖性和事件之间的关联。

针对上述情况,本文提出了一种新的事件抽取方法,充分考虑了上下文、核心词和其它词语的特征、触发词扩展和词语间的依存性。实验表明本文方法在事件识别和事件要素提取方面均有明显提高。

1事件识别和事件要素

事件反映自然界中的運动以及产生和变化的行为,是人类进行探索和发掘知识的基本单位。在自然语言处理和信息检索领域,检索的主题被称作事件。事件是话题的子集,多个事件共同组成一个话题。 事件表示为在“特定时间特定地点发生”。国际ACE评测大会认为,事件通常是一种状态转向另一种状态,并把“事件”定义为含有参与者、时间、地点等特征的集合。事件的定义包括行为(一般由动词、名词或动名词来描述)、事件的参与者、事件发生的地点和时间等要素。下面给出事件和事件要素的定义。

定义1事件(Event):特定时间特定地点发生、由参与者参与、表现出若干动作。

例如:2016年8月14日,在市中心,一辆公交车与多辆小轿车发生追尾,小轿车司机当场死亡,公交车司机受重伤。

定义2事件触发词[14](Event Denoter):文本中清晰表示发生事情的词语,即事件的动作要素。文献表明事件触发词一般为动词、名词、动名词。endprint

例如:北京时间2016年8月16日,澳大利亚发生了5.7级地震。

定义3事件要素(Event Elements):文本中时间、地点、人物等要素,具体描述事件。

例如:7日夜晚,昆湖高速公路上一辆大巴车与一辆大货车相撞,截至8日,这起事故已造成8人死亡,2人受伤。

2触发词扩展和依存关系

2.1语料

本实验所用语料是ACE2005中文语料资源,其中ACE2005定义的事件共有8大类,每大类下面又分33个小类事件。对语料的2/3标记事件触发词及相应的事件类别。

2.2触发词扩展

本实验所用系统是触发词识别抽取系统。根据标注的训练语料构建一个字典,在此基础上根据中文触发词扩展系统及方法进行触发词扩展[15],从而得到含有大量触发词的字典,使触发词不断扩展。最后,根据得到的字典把带有触发词的事件句与字典进行匹配,得到大量候选事件集合。

2.3事件句

在事件识别和事件抽取两大任务中,事件识别起到决定性作用。例如:张三患上了高血压,瘫痪在床。

例①小李在工作期间由于大意摔成瘫痪;②强大的暴雪致使公路瘫痪;③黑客攻击网络导致12306瘫痪。这3个例子,触发词都是瘫痪,但只有句子①才符合要求,才是真正事件。在事件识别中,对于包含触发词的事件统称为候选事件。针对上述例子,本文所要解决的是从候选事件中选择真正的事件句。汉语具有结构灵活多变、表达含义多样性等特点,在事件识别和事件要素抽取中占到很高比例。因此,在中文事件识别和事件要素提取时不能孤立考虑句子,要结合上下文、依存分析,把触发词以及距离触发词相近的词以及这些词的词性、位置信息、句子间的关联性、依存关系等作为事件识别特征。

2.3.1候选事件识别的特征选择

①词性特征:候选事件中的触发词信息;②上下文特征:触发词左右两边3个词的信息。

2.3.2神经网络分类器

神经网络(NeuralNetwork,缩写NN),不仅是一种模仿生物神经网络结构和功能的数学模型,而且是一种自我学习的神经网络算法。神经网络的目的是让计算机具有和人的大脑一样的能力。神经网络由节点相互连接而成,由输入层、隐藏层和输出层组成。神经网络按照老师教的方式学习,当提供新的特征时,神经网络的各个神经元根据获得的输入产生连接权值,通过各层进行处理,最后产生输出结果。神经网络组成如图1所示。

在用神经网络进行事件句语义分类中,作为事件句的基本组成,词向量具有重要作用。把事件句转化为词向量用于神经元的输入层。神经网络算法组成如下:

神经网络输入层:Xi、Xi表示输入特征;

神经网络的单元数量表示:d;

隐层的输入表示:netj;隐层单元数量表示:nH

神经网络输出层:Yi;

i表示的激活函数为线性函数;

最后的输出用yj表示,激活函数为非线性函数;

j的输出:

输入层的相关信息为:net;单元的数量为c:

k的输出:

神经网络算法描述如下:

(1)给定隐层单元及输出层单元的激活函数,一个神经网络就可以实现一个对输入特征向量x的非线性映射。因此,神经网络本质上是一个非线性函数。

(2)给定隐层单元及输出层单元激活函数,该非线性函数所对应的映射关系完全由权系数决定。不同的权系数对应不同的非线性映射。

(3)神经网络学习的目的,就是根据已知的训练样本,确定神经网络的权系数,这一过程称为训练过程。在训练过程结束后,对于新样本x,根据神经网络的输出进行判决。

(4)对于分类问题,输出结果为zk(x),k=1,…,c。

根据词向量,采用word2vec工具转换为相应词向量,结合特征用于神经网络分类器,最后选出真正的事件句并进行事件分类。

2.4依存关系

依存关系是进行句法分析的重要方法[17]。采用依存分析发现句子中心词和其余词语的关系,并且转化为语义依存来描述。当前的主流方法是基于短语的句法分析。基于依存结构句法分析概念1984年由 Hudson首次提出,受到学者一致好评并广泛推广。依存关系主要包括核心词、依赖词。依存关系的基本原理是充分挖掘句子中词与词间的关系,转化为描述自然语言的语法结构。词语间有联系和相互支配关系,反映出词语间的不对等现象,这种相互间具有的方向性关系称为“依存关系”。依存关系中,定义箭头发出的是支配者,箭头指向的就是从属者。例如2016年9月4日,20国集团在中国杭州国际博览中心召开峰会,依存分析表示如图2所示。

“2016年9月4日,20国集团在中国杭州国际博览中心召开峰会”的事件句中,Root是全句核心节点。HED代表核心词,核心词是“召开”;“召开”也是本事件句的触发词。依存关系表示中,COO表示并列关系,LAD表示左附加关系,SBV表示主谓关系,ATT表示定中关系。词语间的依存关系是用带箭头的有向弧表示。箭頭的发起端代表的词是依存词,箭头的指向端代表的词是核心词。在这个事件句中,中国、杭州、国家博览中心都是表示地点的事件要素。经过分析可知,只有国际博览中心是真正的地点要素。依存分析表示地点词按照核心词和依赖词顺序排列,真正的地点要素是后面的依赖词。中国是杭州的核心词、杭州是国际博览中心的核心词。根据依存关系,只要出现最终地点要素均是依赖词。依存分析依赖于分词之上,因此分词的效率直接影响依存分析结果。本文采用的分词工具是中科院的ICTCLAS,依存分析采用斯坦福大学的Stanford。

3实验

3.1事件识别

本实验先进行事件识别,然后在此基础上进行事件要素抽取。实验用的训练语料和测试语料是CEC语料,采用准确率(P)、召回率(R)、F值作为评价指标。事件识别对比实验结果如表1所示:①以词(Word)作为特征;②以词和词法(Word+POS)作为特征;③以上下文(Context)作为特征;④上述全部特征(All Features)作为特征。endprint

从表1可知,选择触发词及词法和上下文这些特征来识别事件效果,好于单独用词作为特征识别事件。

将上面选出的事件作为候选事件句,选择分类器进行真正事件的选择,表2为不同分类器对事件进行分类的结果。

从表2可以得出,采用神经网络分类器进行事件分类效果好于最大熵和SVM分类器。

3.2事件要素抽取

采用准确率(P)、召回率(R)、F值作为评价指标。事件要素抽取对比实验结果如表3所示:①以词(Word)作为特征;②以词和依存关系(Word+DR)作为特征;③上述全部特征(All Features)作为特征。

从上述3组实验可知,采用依存关系可以提高事件要素抽取效率。

4结语

本文提出了一种结合触发词扩展、神经网络及依存分析的事件识别和事件要素抽取方法。实验结果表明,该方法在事件识别和事件要素抽取中可以提高事件识别准确率和召回率以及F值。同时,从分析结果发现以下问题:①事件触发词数量不足,导致事件识别效率不高;②语料资源不足;③事件要素识别的人称代词没有具体指明所属。因此,下一步将结合神经网络对上述问题进行研究。

参考文献:

[1]轩小星.事件及事件要素的提取研究[D].淮南:安徽理工大学,2015.

[2]RILOFF E. Automatically generating extraction patterns from untagged text[C]. In: Proc. of the AAAI96. Palo Alto: AAAI Press, 1996:10441049.

[3]STEVENSON M, GREENWOOD M. A semantic approach to IE pattern induction[C]. In: Proc. of the ACL 2005. Stroudsburg: ACL, 2005:379386.

[4]PATWARDHAN S, RILOFF E. Effective information extraction with semantic affinity patterns and relevant regions[C]. In: Proc. of the EMNLPcoNLL 2007. Stroudsburg: ACL, 2007: 717727.

[5]AHN D.The stages of event extraction[C].Proceedings of the COLINGACL 2006 Workshop on Annotating and Reasoning About Time and Eyents.2006:18.

[6]吳平博,陈群秀,马亮.基于事件框架的事件相关文档的智能检索研究[J].中文信息学报,2003,17(6):2530.

[7]PATWARDHAN S, RILOFF E. A unified model of phrasal and sentential evidence for information extraction[C]. In: Proc. of the EMNLP Stroudsburg: ACL, 2009:151160.

[8]JI H, GRISHMAN R. Refining event extraction through crossdocument inference[C]. In: Proc. of the ACL 2008. Stroudsburg: ACL,2008:254262.

[9]杨尔弘.突发事件信息提取研究[D].北京:北京语言大学,2005.

[10]AHN D. The stages of event extraction[C]. In: Proc. of the Workshop on Annotating and Reasoning about Time and Events (ARTE 2006). Stroudsburg: ACL, 2006:18.

[11]ZHAO YY, QIN B, CHE WX,et al. Research on Chinese event extraction[J]. Journal of Chinese Information Processing, 2008,22(1):38.(in Chinese with English abstract).

[12]FU JF, LIU ZD, FU XF, et al. Dependency parsing based eventrecognition[J]. Computer Science, 2009,36(11):217219.(in Chinese with English abstract).

[13]李培峰,周国栋,朱巧明.基于语义的中文事件触发词抽取联合模型[J].软件学报,2016(2):280294.

[14]轩小星,廖涛,高贝贝.中文事件触发词的自动抽取研究[J].计算机与数字工程,2015(3):457461.

[15]李培峰,朱巧明.中文事件触发词的扩展方法及系统[J].北京大学学报:自然科学版,2016(1):156159.

[16]GROSZ B, ARAVIND J, SCOTT W. Centering: a framework for modeling the local coherence of discourse[J]. Computational Linguistics,1995,21(2):202225.

[17]高源,李弼程.基于依存句法分析与分类器融合的触发词抽取方法[J].计算机应用研究,2016(5):14071410.

(责任编辑:杜能钢)endprint

猜你喜欢
语料分类器词语
容易混淆的词语
BP-GA光照分类器在车道线识别中的应用
基于语料调查的“连……都(也)……”出现的语义背景分析
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
华语电影作为真实语料在翻译教学中的应用
一枚词语一门静
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别