高俊伟,孔 芳,朱巧明,李培峰
(苏州大学 计算机科学与技术学院, 江苏省计算机信息处理技术重点实验室,江苏 苏州 215006)
指代是自然语言中一种常见的语言现象,指在文本中用一个语言成分回指以前提及过的某个语言单位,表现形式有别名、代词、专有名词等。这种指代现象对减少冗余,简化语言,突出主题,使文本上下连贯通俗易懂都有很好的作用。随着人机对话、机器翻译、信息抽取等研究的不断深入,指代消解的研究也越来越受到大家的关注,指代消解已成为自然语言处理领域中的热点和难点之一。在语言学中,指代词也称为照应语,表示用于指向的语言单位,被指向的语言单位称为先行语。指代消解的主要任务就是确定照应语所指向的先行语的过程。指代现象一般来说分为两种: 回指和共指,回指主要指当前的指代词与文中出现的词或句子有意义关联性,即其依存于上下文环境,在不同的语境下可能指向不同的实体。共指则主要指多个实体指向的是现实世界的同一个实体,本文主要关注的是共指消解。
近几年,随着指代消解研究不断深入,越来越多的方法被提出来并取得了不错的性能。其中早期的方法主要侧重理论上的探索,通过人工构建的一些规则来达到指代消解的目的,这种方法用到的相关语言学方面的知识较少,因此指代消解的性能不是很好。随着Internet的发展,一些可用语料库的获得更加便利,因此,一些基于机器学习的方法被提出来,并取得了不错的性能。早期典型的指代消解的方法有Hobbs[1]提出的利用语法规则和树图信息的算法,通过遍历语法解析树,搜索数量和性别一致的名词短语,从中选出最佳先行语。Lappin和Leass[2]提出了一种通过计算先行语的突显性和过滤规则进行消解的RAP算法。基于有监督学习方法的有Soon[3]首次给出了一个基于分类的指代消解系统的完整的实现步骤。Ng[4]等对Soon的系统进行了扩充,将其特征集合从12个扩充到53个并改变从候选项中从右到左查找先行语的顺序,而是改为从候选项中找最有可能是先行语的作为结果。Yang[5]等提出一种基于核函数的代词消解方法,将句法树作为一个结构特征并用树核函数进行模型的训练。Zhou[6]等用了一个上下文相关的卷积树核函数进行代词的指代消解,为了更好获得句法树的结构信息,提出了一种动态扩展策略,这种动态扩展树不仅可以包含谓语信息,还可以包含候选先行语的一些信息。相比于以往的研究方法,Ng[7]和Hoifung Poon[8]等提出了一种无监督的指代消解方法,该方法可以减小指代消解任务对标注语料库的依赖。相比于英文指代消解的长期研究,中文指代消解的研究起步较晚,相关的研究也较少。王厚峰[9-11]对中文代词指代消解进行了研究并提出了指代消解的研究现状及一些方法。Grace Ngai[12]等也将一种无监督的方法应用在了中文指代消解研究中,相关的研究还有文献[13-14]。中文指代消解研究难点,一方面是由于体现中文指代现象特点的特征较少且不容易获得,比如单复数、性别特征等等,这些特征在中文中不易获得且对指代消解性能的贡献度也不像在英文指代消解中那样大;另一方面是中文指代消解中可用的相关语料库较少,目前已知的有ACE2005、OntoNotes等。为了探讨语料库对指代消解性能的影响,本文构建了一个基于有监督学习方法的中文名词短语指代消解平台和一个基于无监督聚类的指代消解平台。在此平台基础上,从语料的数量和标注的质量两个方面来探讨语料对中文名词短语指代消解的影响。
为了探讨语料对中文名词短语指代消解的影响,本文构建了两个中文名词短语指代消解平台,一个是基于有监督学习方法的指代消解平台;另一个是基于无监督聚类的指代消解平台。本文中的语料采用的是OntoNotes 3.0中文新闻语料。
整个指代消解平台分为预处理,特征向量的选择,训练样例及测试样例的生成等步骤。预处理阶段主要包括分词、命名实体识别、名词短语及中心词的获得、语义角色信息的获得等过程。因为分词的结果对指代消解性能影响较大,为了排除分词带来的实体识别错误等影响,平台采用的是语料库中的标准分词结果。名词短语及其中心词是从Stanford parser*http://nlp.stanford.edu/software/lex-parser.shtml工具生成的句法树和依存关系中获得。命名实体识别和语义角色信息是通过实验室*http//nlp.suda.edu.cn开发的MYNER和SRL工具生成。特征向量选择阶段,平台中构建了一个涉及词性、全匹配、别名、同位语、语义角色信息、名词短语间相似度等17个特征集合,相关的特征信息及其获得方法如下所示。
1) Distance: 先行语和照应语之间的距离,在一句之内为0,相差一句为0.1,相差2句为0.2,以此类推。
2) StringMatch: 若先行语和照应语完全匹配相等,则该特征值为1,否则为0。
3) Alias: 若先行语或照应语有一个是另一个的别名,则该特征值为1,否则为0。本文在判断该特征时,若有一个名词短语是从另一个名词短语中抽取出来的,则就认为此名词短语是另一个的别名。
4) Appositive: 如果照应语和先行语是同位语,则该特征值为1,否则为0。本文规定如果两个短语并列出现充当句中某一成分,且其中一个为专有名词,这种情况下认为它们之间有同位语关系。
5) i-Pronoun: 若照应语为代词,则该特征值为1,否则为0。若词性为PN,则该名词短语为代词。
6) j-Pronoun: 若先行语为代词,则该特征值为1,否则为0。
7) DemonstrativeNP: 若照应语为指示性名词短语,则该特征值为1,否则为0。若词性为DP,则该词为指示性名词短语。
8) Semantic Class Agreement: 若照应语和先行语实体类别一致,则该特征为1,否则为0。
9) i-ProperNP: 若候选项是专有名词,则该特征值为1,否则为0,若该照应语的词性为NR,则该词是专有名词短语。
10) j-ProperNP: 若先行语是专有名词,则该特征值为1,否则为0。
11) i-arg0: 若照应语在句中充当某一动词的施事者,则该特征值为1,否则为0。即如果其语义角色信息为ARG0,则该特征值为1。
12) i-arg1: 若照应语在句中充当某一动词的受施者,则该特征值为1,否则为0。即如果其语义角色信息为ARG1,则该特征值为1。
13) j-arg0: 若先行语语义角色信息为ARG0,则该特征值为1,否则为0。
14) j-arg1: 若先行语语义角色信息为ARG1,则该特征值为1,否则为0。
15) Similarity: 该特征的值是照应语和候选先行语之间的相似度的值与它们中心词之间的相似度的值中的最大值。相似度算法是根据刘群*http://nlp.ict.ac.cn/~liuqun的基于知网的语义相似度算法获得的。
16) Nest in: 照应语是否嵌套在某一名词短语内,若是,该特征值为1,否则为0。
17) Nest out: 照应语是否嵌套其他名词短语,若嵌套则该特征值为1,否则为0。
训练样例及测试样例的生成过程是参照Soon[3]的实例生成过程。训练样例生成以后,用SVM*http://svmlight.joachims.org/工具对训练样例进行模型的训练,然后根据模型文件,对测试样例进行分类。本文将语料库中325篇文章分为5等份,每次选择4份作为训练集,另一份作为测试集,采用5倍交叉验证对平台性能进行测试,平台名词短语指代消解性能如表1所示,其中Auto指除了分词信息是从语料库中获得的,其他所需信息都是通过预处理阶段自动获得的。Golden指所需信息均从语料库中获得。相关的性能评测算法的描述参考文献[15]。
表1 基于有监督学习方法的指代消解平台性能
无监督指代消解平台整个过程分为预处理、特征选择、聚类等过程。预处理阶段与基于有监督学习方法的平台一致。特征选择阶段,本文构建了14个特征及相应的不兼容函数,通过计算两个名词短语间不兼容函数的和来获得名词短语间的距离,然后利用层次聚类算法,将距离小于某一阈值r的名词短语都放到一个簇中。在一个簇中的名词短语即被认为相互之间具有指代关系。其中特征与其相应的不兼容函数如表2所示。
在表2中,权值为无穷大(+∞)表示两个名词短语距离无穷大,即不可能放在一个簇中。权值为无穷小(-∞)表示两个名词短语距离无穷小,它们之间存在指代关系的可能性很大,即应该放进一个簇中,当无穷大(+∞)与无穷小(-∞)同时出现的时候, 认为它们之间的距离为无穷大(+∞)。其中两个名词短语之间的距离为所有不兼容函数与其对应的权重乘积的和。在Auto和Golden状况下,中文无监督指代消解平台性能及与阈值r的关系如表3 所示。
在该平台中,阈值r表明当两个名词短语间的距离小于等于r的时候,它们之间可能存在指代关系,将它们放到一个簇中。距离大于r的时候,表明它们之间不存在指代关系, 不可能在一个簇中。从表中可以看出,阈值r的设定对平台性能影响较大,平台性能的波动较大。当阈值r大于等于3的时候,平台性能几乎没有什么变化,当阈值r取负值的时候,平台性能较好,当设置r=-4时,平台性能达到最好效果。在3种评测工具的测试下,Auto的F值平均值为59.43%,Golden的F值平均值为66%,其中Auto指除了分词结果是从语料库中获得,其他所需信息均通过预处理阶段自动获得,Golden指所需特征信息是从语料库中获得的。
表2 特征所对应的不兼容函数及权重
表3 无监督指代消解平台性能
(b) Golden状况下的平台性能
为了探讨语料数量对中文名词短语指代消解的
影响,本文在构建的两个平台上分别进行实验。在基于有监督学习方法的中文名词短语指代消解平台上,文中选用了75篇文章作为测试语料,训练阶段采用不同数量的文章作为训练语料,最后查看平台性能的变化,该性能的变化也反映了语料的数量对中文名词短语指代消解的影响。为了排除其他因素对实验的影响,在实验中所用到的信息均从语料库中获得,即是在标准情况下做的实验,实验结果如表4所示。
表4 Golden状况下语料数量对基于有监督学习方法平台的性能影响
从实验结果可以看出,当选用不同数量的语料作为训练集合时,平台的性能有所变化,在MUC评测下,最好与最坏性能相差有8个百分点左右,BCUB评测下,最好性能与最差性能相差有3个百分点左右,CEAFE评测下,相差有6个点左右。因此,在基于有监督学习方法的中文名词短语指代消解平台下,语料数量对中文名词短语指代消解性能是有一定影响的,当文章数量达到175篇时,平台的性能趋于稳定。其中文章数目与所含指代链上实体信息的数目的关系如图1所示。
在基于无监督聚类的中文名词短语指代消解平台上,由于不需要分训练语料和测试语料,因此选择OntoNotes 3.0中 文 新 闻 语料中的所有325篇文章参与测试。测试过程中分别采用不同数量的语料进行平台性能测试,实验结果如表5所示。
图1 文章数目与实体数目关系
表5 Golden情况下语料数量对无监督平台性能影响
从实验结果可以看出,在基于无监督聚类的指代消解平台上,语料的数量对指代消解平台性能的影响不是很大,采用不同数量的语料进行测试时,平台性能波动不大。在基于有监督学习方法的指代消解平台上,由于需要语料去训练模型,因此语料不充分的话,训练出来的模型文件就不能很好地对测试文件进行分类,所以语料的数量对平台性能有一定影响,而在基于无监督的指代消解平台上,由于不需要用训练语料去训练模型,仅需要根据定义的一些不兼容函数及特征获取名词短语间的距离,将距离小于某一阈值的名词短语放到一个簇中,因此,语料数量对无监督平台的性能影响不大。
本文中语料标注质量理解为语料库中标注的指代链信息的准确度。为了探讨语料标注质量对中文名词短语指代消解的影响,本文结合了无监督指代消解平台和基于有监督学习方法的指代消解平台,无监督指代消解平台聚类后的结果理解为标注的指代链信息,将这些信息作为训练语料加入到基于有监督学习方法的指代消解平台上,因此不同的聚类结果反应了标注指代链的质量,基于有监督学习方法的指代消解平台的结果也反应了标注指代链质量对指代消解的影响。平台框架如图2所示。
在实验过程中,本文选用了OntoNotes 3.0中文新闻语料中260篇文章作为训练语料,剩下的65篇文章作为测试语料,先将训练语料利用无监督模型进行聚类,将聚类后的结果作为标注的语料参与到有监督平台中的模型训练中。在无监督平台上本文选用了几个不同的阈值r,使其有不同的聚类结果,这些结果也反应了指代链标注的质量,实验结果如表6所示。
图2 平台框架
阈值rMUCBCUBCEAFEP/%R/%F/%P/%R/%F/%P/%R/%F/%443.6155.8148.9668.0879.673.3951.1441.8546.03343.6155.8148.9668.0879.673.3951.1441.8546.03242.5253.9647.5668.4778.9773.3450.3441.745.61154.9955.7655.3776.4975.9576.2248.594848.3053.1258.4255.6474.3578.4276.3350.5846.5148.46-162.5352.457.0282.1871.7476.6144.6752.3848.22-260.9364.1462.4978.8379.6779.2554.151.5352.78-360.6964.3462.4678.6479.8779.2554.3651.4352.85-460.9364.3962.6178.7479.879.2654.3151.5352.89
从实验结果可以看出,不同的阈值r对平台性能影响较大,这也反应了在基于有监督学习方法的中文名词短语指代消解平台中,语料标注的质量对中文名词短语指代消解的结果影响较大。另外,当利用一些不准确的指代链信息去训练模型的时候,指代消解的结果还没有无监督情况下指代消解的结果要好。当阈值为-4时,无监督指代消解性能的结果在3种评测工具下F值平均为66%。从表6可以看出,在3种评测工具下,F值平均为64.92%。因此,在语料库标注质量较差的情况下,基于有监督学习方法的指代消解平台的性能不如无监督聚类平台的性能好。
本文主要在无监督中文名词短语指代消解平台和基于有监督学习方法的中文名词短语指代消解平台的基础上探讨了语料的数量和语料的标注质量对中文名词短语指代消解的影响。实验中采用的都是OntoNotes 3.0中文新闻语料。实验结果显示,在基于有监督学习方法的指代消解平台中,语料的数量和语料标注的质量对指代消解的性能都有较大影响。在基于无监督聚类的指代消解平台中,语料数量对指代消解的性能影响不大, 由于采用无监督聚类的方法,不需要标注语料,因此,语料标注的质量对无监督指代消解平台性能影响也不大。
[1] Jerry Hobbs. Resolving pronoun reference[J]. Lingua,1978, 44:339-352.
[2] Lappin S, Herbert J L. An algorithm for pronominal anaphora resolution[J].Computational Linguistics,1994,20(4):535-561.
[3] Soon W M, Ng H T, Lim D. A machine learning approach to coreference resolution of noun phrases[J]. Computational Linguistics,2001,27(4):521-544.
[4] V Ng, C Cardie. Improving machine learning approaches to coreference resolution [C]//ACL’2002:104-111.
[5] Yang X F, Su J, Tan C L. Kernel-based pronoun resolution with structured syntactic knowledge[C]// ACL’2006:41-48.
[6] Zhou G D, Kong F, Zhu Q M. Context-sensitive convolution tree kernel for pronoun resolution[C]//IJCNLP’2008:25-31.
[7] Vincent Ng. Unsupervised Models for Coreference Resolution[C]//EMNLP’2008:640-649.
[8] Hoifung Poon, Pedro Domingos. Joint Unsupervised Coreference Resolution with Markov Logic[C]//EMNLP’2008:650-659.
[9] 王厚峰,何婷婷. 汉语中人称代词的消解研究[J].计算机学报,2001,24(2):6-13.
[10] 王厚峰,梅铮. 鲁棒性的汉语人称代词消解[J].软件学报,2005,16(5):700-707.
[11] 王厚峰.指代消解的方法和实现技术[J].中文信息学报,2002,16(6):9-17.
[12] Grace Ngai, Chi Shing Wang. A Knowledge-based Approach for Unsupervised Chinese Coreference Resolution [J]. Computational Linguistics and Chinese Language Processing. 2007, 12(4): 459-484.
[13] 周俊生,黄书剑,陈家骏,等. 一种基于图划分的无监督汉语指代消解算法[J]. 中文信息学报, 2007,21(2):77-82.
[14] 李国臣,罗云飞. 采用优先选择策略的中文人称代词的指代消解[J]. 中文信息学报,2005,119(14):24-30.
[15] 史树敏,黄河燕,刘东升. 自然语言文本共指消解性能评测算法研究[J].计算机科学,2008,35(9):168-171.