基于合一句法和实体语义树的中文语义关系抽取

2010-06-19 06:25虞欢欢钱龙华周国栋朱巧明
中文信息学报 2010年5期
关键词:语料库语义实体

虞欢欢,钱龙华,周国栋,朱巧明

(1.苏州大学计算机科学与技术学院,江苏 苏州 215006;2.江苏省计算机信息处理技术重点实验室,江苏 苏州 215006)

1 引言

信息抽取(IE,Information Extraction)是自然语言处理领域的一个热门研究课题,旨在解决如何从大量的自然语言文本(如Web网页)中识别出相关信息,然后转换成结构化数据存储起来。根据ACE对目前信息抽取定义的任务看,信息抽取主要包括实体识别和跟踪(EDT,Entity Detection and Tracking)、关系识别和描述(RDC,Relation Detection and Characterization)以及事件识别和描述(EDC,Event Detection and Characterization)三个方面的子任务。本文的研究重点是关系识别和描述,也就是通常所指的命名实体间语义关系抽取,有时候简称为语义关系抽取。

目前主流的语义关系抽取方法主要是基于机器学习的有指导方法。根据关系实例的表示方法,它又可分为基于特征向量的方法和基于核函数的方法。

典型的基于特征向量的方法包括在英文语料库上的最大熵模型(MaxEnt)[1]和支持向量机(SVM)[2-4]等。在中文语义关系抽取方面,车万翔等[5]提取了实体的类型/小类、实体间的位置关系、实体前后的词汇等信息,然后采用SVM方法进行训练和分类。在ACE RDC 2004中文语料库上的七个大类的关系抽取实验表明,其最好的F指数达到了73.3。董静等[6]则进一步将关系实例划分为包含关系和非包含关系,并在词汇、实体类型和相对位置等特征的基础上对非包含关系再加入句法结构信息(如两个实体的祖先结点、实体之间的路径、依存动词及实体到依存动词的路径等)。采用条件随机场(CRF,Conditional Random Fields)方法在ACE RDC 2007中文语料库上的关系抽取测试中,最佳F指数达到了65.8。文献[7]则进一步探索了实体间的结构关系(如包含关系、邻近关系和分隔关系等)对抽取性能的影响,同时采用基于字的一元或二元上下文特征以避免中文分词错误所带来的问题。基于特征向量的方法尽管速度很快,然而由于实体间语义关系表达的复杂性和可变性,要抽取出新的词汇、句法或语义特征从而进一步提高关系抽取的性能已经很困难了。

另一方面,由于核方法可以充分利用特征方法无法表示的结构化信息,因此在语义关系抽取方面获得了广泛的应用,如浅层句法树核[8]、依存树核[9]、最短路径依存树核[10]、卷积树核[11-13]。在中文语义关系抽取方面,文献[14-15]分别采用编辑距离核函数和字符串核函数来比较中文词串的相似度,并在比较过程中考虑了一定的词汇语义相似度,在少量关系种类的抽取实验中取得了不错的性能。文献[16]初步探索了卷积树核函数和最短依存树核函数在中文语义关系抽取中的应用,不过在ACE RDC 2007中文语料库上的大类关系抽取测试结果表明,其性能极低(F指数约为30)。当然,这并不说明核方法本身存在问题,而只能说明在中文关系抽取中较难找到能合理和确切表示语义关系的结构化信息以及结构化信息的相似度计算方法。总的来说,在中文语义关系抽取的研究中,由于是研究人员采用的语料库、所抽取的关系类别及实验方法等方面的不同,往往难于判断抽取方法本身的好坏。

受卷积树核函数在英文领域的关系抽取中的成功[13]所启发,本文深入探讨了卷积树核函数在中文语义关系抽取中的有效性问题。在采用最短路径包含树来表示关系实例的基础上,进一步加入实体类型、引用类型、GPE角色等与实体相关的语义信息,从而生成合一句法和实体语义关系树。在ACE RDC 2005基准语料上的测试表明,该方法能显著提高中文语义关系抽取系统的性能,实验结果与原型系统相比有了明显的提高。

2 基于合一句法和实体语义树的中文语义关系抽取

本节首先介绍了关系实例的结构化实例表示方法,然后描述了合一句法和实体语义树的构造方法,最后说明本文所使用的树相似度计算方法—卷积树核函数。

2.1 结构化关系实例表示方法

在语义关系抽取中最先可用的结构化信息是最小完全句法树(Minimum Complete Tree,MCT),即在完全句法树中包含关系的两个实体且未作任何修改的最小部分,如图1(左)。MCT虽然包含了丰富的结构化信息,有利于语义关系的抽取,但是对于关系的识别而言,由于其规模过于庞大,且包含了太多的与语义关系无关的噪音,并不适合于基于卷积树核函数的语义关系抽取。

为了寻找更合适的用于语义关系抽取的结构化信息,Zhang等[11]中提出了五种句法树的扩展方法,其中最短路径包含树(Shortest Path-Enclosed Tree,简称PT)结构取得的效果最好。这种树是以两个实体的最近公共父节点为根,并裁剪掉第一个实体左边和第二个实体右边的所有节点后所生成的树,如图1(右)。虽然对于英文语义关系抽取而言,上下文相关的最短路径包含树[12]和基于依存规则的动态关系树[13]取得了更好的性能,但是为了便于验证卷积树核在中文语义关系抽取中的作用,本文仍按照最短路径包含树(PT)结构进行对最小完全树进行裁剪。

其中MCT树和PT树是句子“…记者滞留在机场…”两个实体“记者”和“机场”之间的关系实例的两种不同表示形式。MCT表示以关系两个实体的公共父节点为根节点并包含两个实体的最小完全树,PT表示最短路径包含树。

图1 一个关系实例的最短路径包含树(PT)表示形式

2.2 合一句法和实体语义树

根据ACE的定义,实体语义特征(如GPE,引用类型①GPE:Geo-Political Entity,实体的GPE角色(GPE-role)信息主要针对GPE类别的实体,它反映了在实体的提及中实体究竟扮演人物、组织、设施、GPE中何种角色。引用类型:一个实体可以通过名称来引用,也可以通过名词性词语或代词来引用。因此实引用类型可分为名称、名词性词语和代词等三种方式。等)对实体间的语义关系具有很强的约束作用。大多数的基于卷积树核的关系抽取方法[11-12]都采用复合核函数来集成结构化信息和实体语义信息,因此需要确定两者之间的复合系数,该复合系数的最佳值通常采用交叉验证的方法来确定。为了避免这一问题,本文将实体语义信息作为与结构化信息一样重要的部分合并到结构化句法信息,即PT树中。

实体语义信息结合到PT树中的方法有很多,可以把两个实体各自属性组合加在实体节点(E1或E2)上,也可以把属性作为一个子节点挂在实体节点(E1或E2)下面,还可以像图2(右)中那样把两个实体的属性作为根节点的子节点依次挂在根节点下面。在ACE RDC 2004英文语料库上的实验表明[13],当属性节点挂在树的根节点下面时取得的性能最佳,因此本文在默认情况下采用这种配置。同时,文献[13]探讨了属性节点之间相结合的不同方法:特征列表树(Bag Of Features,BOF)、特征匹配树(Feature-Paired T ree,FPT)和实体匹配树(Entity-Paired T ree,EPT),其中FPT树取得的效果最好。本文将FPT树加到PT树的根节点上,形成了合一句法和实体语义树(Unified Parse and Entity Semantic T ree,UPEST),如图2(右)。合一句法和实体关系树不仅包含了必要的结构化句法信息,还集成了多种与实体相关的语义信息,从而试图同时捕获关系实例的结构化信息和实体语义信息。

图2 合一句法和实体语义树(UPEST)的形成

2.3 卷积树核函数

在确定了关系实例的结构化表示方法之后,接下来就要解决结构树之间的相似度计算问题。Collins和 Duffy[17]的卷积树核函数(Convolution Tree Kernel,CTK),为树之间的结构相似度计算提供了一个合理的方法,在句法分析、语义角色标注和关系抽取等领域中取得了广泛的应用。所谓卷积树核函数,即通过计算树之间的相同子树的数目来衡量两棵树之间的结构相似度,其计算公式为:

其中 N1和 N2分别为 T1和 T2的节点集合,Δ(n1,n2)用来计算以n1和n2为根节点的两棵子树之间的相似度,它可以通过下列递归的方法得出:

1)如果n1和n2的产生式(采用上下文无关文法)不同,则 Δ(n1,n2)=0;否则转 2);

2)如果n1和 n2是词性(POS)标记,则 Δ(n1,n2)=1×λ;否则转3);

3)递归计算 Δ(n1,n2)

其中ch(n)是节点n的子节点数目,ch(n,k)是节点n的第k个子节点,而λ(0<λ<1)则是衰减因子,用来防止子树的相似度过度依赖于子树的大小。

3 实验设置及结果分析

本节首先说明实验所使用的语料库及相应的实验方法,然后对实验数据进行讨论和分析。

3.1 实验设置

数据集:我们使用ACE RDC 2005中文基准数据集进行实验。ACE 2005语料库中包含633篇文档,其中 BNEWS有 238篇,NWIRE有 298篇,WEBLOG有97篇。我们对这些文档进行了预处理,由于其中一些文章中的单句字数过多或语法不规范等原因过滤掉了101篇,最终从中选取了532个文档,总共有关系正例7630 个,负例83063 个。ACE 2005数据集里总共定义了7大类实体类型(Person,Organization,Location,Geo-Political Entity,Facility,Vehicle,Weapon),6个关系大类(PH YS,PER-SOC,PART-WHOLE,ORG-AFF,ART,GEN-AFF)和36个关系子类。在本文中,我们假定实体及其相应的语义特征均已知,而且出现在同一个句子里的所有实体对都被视作潜在的关系实例进行抽取。

实验预处理:从 ACE RDC 2005语料库的SGM文件中提取纯文本,并对其进行分句、分词、句法分析,然后再从Apf.xml文件中提取实体和关系信息添加到句法分析树中。

分类器的训练和测试速度的优化:基于卷积树核函数的方法存在着训练和测试速度慢的问题(初步实验表明在单个数据集上运行的时间将近39个小时)。鉴于此,本文采用路径长度截断的方法[18]来减少训练实例数,即在构造SVM训练集时,去除路径长度大于等于某一长度l的所有正例和负例,但保留SVM测试集中的所有实例;接着在此训练集上得到分类模型;在测试时,对于所有路径长度大于等于l的实例均自动判断为无关系。所谓路径长度即该路径上的语法成分节点数(除去实体节点本身)。例如在图1的句法树中,“E1”和“E2”的路径节点长度就为6。初步实验结果表明,当截断长度l为9时,训练集大大减小了,单个数据集的训练和测试时间缩短为2小时左右,而抽取性能与截断之前相比基本一致。

分类器:本文实验中选用支持卷积树核的SVM分类器SVMLight-TK(Moschitti 2004)①http://download.joachims.org/svm_light/current/svm_light.tar.gz并采用五倍交叉验证的方法计算平均性能。

评价方法:采用召回率(R),精确率(P)和F值(F)的方式评价系统的抽取性能。

3.2 实验结果及分析

我们首先比较不同的实体语义特征对中文语义关系抽取的影响。如图2所示,在PT树的根节点下面按照潜在重要性的顺序加入各个实体语义特征节点。为了体现单一实体语义特征对语义关系抽取的影响,我们采用两种方法加入语义特征:

◦独立方式:每个语义特征单独加入到PT树中;

◦累加方式:每个语义特征依次加入到PT树中,并根据加入后的性能变化来确定是否保留该特征到下一步,这样最后就形成了合一句法和实体语义树。

表1列出了每一步过程得到的关系探测和大类关系抽取的性能指标,其中括号外的表示独立方式的性能,括号内的表示累加方式的性能。特征前面的“+”表明该特征是有效的并且该特征加入到下一轮的关系抽取中。实验表明,含有实体小类特征、大类特征、GPE角色和实体类别的合一句法和实体语义树在关系探测和关系抽取中取得了最高的性能,其F值分别为71.7和67.0,这说明基于合一句法和实体语义树的中文语义关系抽取是行之有效,同时它还表明:

表1 实体语义特征对抽取性能的影响

◦在PT树的基础上单独添加实体小类、实体大类属性和GPE角色等特征后,关系抽取性能提升很明显,其F值分别提高了12.1,10.8,2.4,这说明在ACE 2005语料库上定义的实体大类和小类信息对关系抽取非常重要,同时GPE角色也对关系类型具有很好的指示作用。我们还进一步发现实体子类特征对中文关系抽取性能的影响要大于实体大类特征,这是因为实体子类特征对PART-WHOLE类的逆向关系、ART类以及GEN-AFF类的逆向关系等关系类别的约束性较实体大类特征更强,而这几类在整个语料库中占了很大的比重(约46%);

◦在PT树上单独添加入引用类型、LDC类型,LDC属性,实体类别后,对系统的性能不但没有提升,性能反而有所下降,这说明这些信息要么是过于稀疏(如实体的提及)要么是过于笼统(如实体类别等),以至于对关系类型的区分没有有益的帮助;

◦在累加方式中,实体小类、实体大类、GPE角色和实体类别等特征对系统的性能都有提升作用,F值在上一轮的基础上分别提高了12.1,0.5,0.2,0.5,而其他三种特征对系统性能没有任何提升作用。比较特殊的是实体类别特征,当以独立方式加入时对性能没有提高,而在累加方式中同其他属性一起加入时系统性能有所提高,这可能是由于实体类别特征本身区分性不大,但同其特征结合组合起来就具有一定的区分性。

为了进一步分析实体语义信息对不同关系类型的抽取性能的影响,表2按照关系类型比较了最短路径包含树和合一句法和实体语义树这两种结构化信息在ACE RDC 2005中文语料库上的大类抽取性能,其中合一句法和实体语义树包含了能有效提高抽取性能的实体大类、实体小类、GPE角色和实体类别等四个实体语义特征。由于语义关系往往是不对称的,因此每一种关系类型又分为正向和逆向两种(如 PHSY表示正向物理位置关系,而 R.PHSY则表示逆向物理位置关系)。

表2 最短路径包含树和合一句法和实体语义树的分类比较

续表

从表2可以看出:

◦在大部分关系类型上,合一句法和实体语义树的性能普遍好于PT树,这进一步说明了实体语义特征对改善关系抽取性能的作用,且对于不同的关系类别,性能改善的幅度也不相同。如对于“R.PER-SOC”类型,性能提高最明显;而对于“GENAFF”类型,则提高很少,这是由于实体语义特征(如实体类型)对不同类型语义关系的约束程度不同,因而效果也不一样。同时,合一句法和实体语义树的F指数的提高主要来源于召回率的明显上升和准确率的小幅上升,这说明实体语义信息的加入有助于发现更多的关系实例。

◦ 对于关系类型“PER-SOC”,“PARTWHOLE”和“R.PART-WHOLE”,合一句法和实体语义树的F指数要略低于PT树,这说明对于这几类关系类型,实体语义特征没有明显的区分作用,不过由于这几类关系实例占总体实例的比例较小(约28%),因此它们的性能少许下降并不影响总体性能的显著改善。

最后,表3比较了几种在ACE语料库上的中文语义关系抽取方法的大类抽取性能,同时也列出目前在ACE英文语料库上取得的最佳性能。需要说明的是,由于中英文语料库的差异,它们之间的性能比较仅作参考,因为即使是相同的中文语料库,本系统过滤掉了一些实例,采用的是ACE RDC 2005部分语料,和Li等[7]所采用的训练实例数量和实验方法也不同。不过,大体可以看出的是,基于树核的实体关系抽取性能在中文和英文语料库上还是存在一定差距的,一般认为这是由于现阶段中英文的句法分析性能存在较大差距(中文80%左右,英文90%以上)所导致的。另外一点可以肯定的是,同黄瑞红等[19]采用卷积树核方法在ACE 2007语料库上的实验相比,在ACE 2005中文语料库上的基于卷积树核的方法是行之有效的,尽管离实用化还有一定的距离。

表3 与其他关系抽取系统的性能比较

4 总结与展望

本文描述了采用合一句法和实体语义树的中文语义关系抽取方法。通过实验我们发现,合一句法和实体语义树能有效捕获实体的结构化特征和实体语义特征,因而显著提高了语义关系抽取的性能,在大类抽取中最佳F值达到了67.0。具体而言,在句法树上有针对性地添加实体语义信息,如实体小类、实体大类、GPE角色和实体类别等,抽取性能得到明显提高,其中实体子类属性的作用最大,其次是实体大类属性,GPE角色也有很好的指示作用。当与其他属性组合时,实体类别也能取得一定的效果。

下一步我们要做的工作是对用于卷积树核的最短路径包含树进行改进,采用英文语义关系中较成熟的上下文相关的最短路径包含树[13]或基于成分依存关系的动态关系树,从而进一步中文语义关系抽取的性能。

[1]Nanda Kambhatla.Combining lexical,syntactic and semantic features with Maximum Entropy models for extracting relations[C]//ACL.Morristown,NJ,USA,2004:178-181.

[2]Zhou GuoDong,Su Jian,Zhang Jie,et al.Exploring various knowledge in relation extraction[C]//ACL,2005:427-434.

[3]Zhao S.B.and Grishman R.Extracting relations with integrated information using kernel methods[C]//ACL.Ann Arbor,USA,2005:419-426.

[4]Wang Ting,Li Yaoyong,Kalina Bontcheva,et al.Automatic Extraction of Hierarchical Relations from Text[C]// Proceedings of the Third European Semantic Web Conference(ESWC 2006),2006:401-416.

[5]车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6.

[6]董静,孙乐,冯元勇,黄瑞红.中文实体关系抽取中的特征选择研究[J].中文信息学报,2007:21(4):80-85,91.

[7]Li W.J.,Zhang P.,Wei F.R.,Hou Y.X.,and Lu Q.A Novel Feature-based Approach to Chinese Entity Relation Extraction[C]//ACL.Columbus,Ohio,USA,2008:89-92.

[8]Zelenko D,Aone C,Richardella A.Kernel methods for relation extraction [J].Journal of Machine Learning Research,2003,3(2003):1083-1106.

[9]Culotta A,Sorensen J.Dependency tree kernels for relation extraction[C]//ACL.Barcelona,Spain,2004:423-429.

[10]Bunescu R.C,Raymond J.M.A Shortest Path Dependency Kernel for Relation Extraction[C]//EM NLP.Vancover,B.C,2005:724-731..

[11]Zhang M.,Zhang J.,Su J.,and Zhou G.D.A Composite Kernelto Extract Relations between Entities with both Flat and Structured Features[C]//COLING-ACL.Sydney,Australia,2006:825-832.

[12]Zhou G.D.,Zhang M.,Ji D.H.,and Zhu Q.M.T ree Kernel-based Relation Extraction with Context-Sensitive Structured Parse T ree Information[C]//EMNLP/CoNLL'2007.Prague Czech,2007:728-736.

[13]Qian L.H.,Zhou G.D.,Zhu Q.M.,et al.Exploiting constituent dependencies for tree kernel based semantic relation extraction[C]//COLING'2008.Manchester,UK,2008:697-704.

[14]Che W.X.,Jiang,J.M.Su Z.,Pan Y.,and Liu T.Improved-Edit-Distance Kernel for Chinese Relation Extraction[C]//Proceedings of the 2nd international Joint Conference on Natural Language Processing(IJCNLP'05).Jeju Island,Korea,2005:134-139.

[15]刘克彬,李芳,刘磊,韩颖.基于核函数中文关系自动抽取系统的实现[J].计算机研究与发展,2007,44(8):1406-1411.

[16]Huang R.H.,Sun L.,and Feng Y.Y.Study of Kernel-Based Methods for Chinese Relation Extraction[C]//LNCS(Lecture Notes in Computer Science).Springer Berlin/Heidelberg,2008:598-604.

[17]Collins M.and Duffy N.Covolution kernels for natural language[C]//NIPS'2001:Cambridge,M A,2001:625-632.

[18]庄成龙,钱龙华,周国栋.基于树核函数的实体语义关系抽取方法研究[J].中文信息学报,2009,23(1):1-8.

[19]黄瑞红,孙乐,冯元勇,黄云平.基于核方法的中文实体关系抽取研究[J].中文信息学报,2008,22(5):102-108.

猜你喜欢
语料库语义实体
语言与语义
《语料库翻译文体学》评介
前海自贸区:金融服务实体
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
批评话语分析中态度意向的邻近化语义构建
“社会”一词的语义流动与新陈代谢
“吃+NP”的语义生成机制研究
基于JAVAEE的维吾尔中介语语料库开发与实现