周 强,王俊俊,陈丽欧
(1. 清华大学 信息技术研究院 语音和语言技术中心,北京 100084;2. 清华信息科学与技术国家实验室,北京 100084;3. 清华大学 计算机科学与技术系,北京 100084)
随着互联网的迅猛发展,大量的信息以文本的形式快速涌现。如何从海量的文本中准确抽取到所需要的信息,已经成为研究的热点问题。
对海量文本进行信息的深度挖掘离不开高质量的事件内容分析技术,而这些技术的开发又需要高质量的事件语义标注资源支持。近几年来,英语方面陆续启动了多个大规模的事件语义资源开发项目,如FrameNet[1]、OntoNotes[2]等,它们分别从不同角度对英语真实文本句子中的事件语义信息进行了深度标注。在这些项目的推动下,事件语义资源的开发取得了长足的进展和丰硕的成果。相对而言,汉语的事件语义资源开发还很薄弱,需要进行大量工作。
针对汉语的研究现状,结合汉语自身的特点,我们设计并实现了一个针对汉语客观事件的句法、语义和概念描述知识库——汉语事件知识库。该项目得到了国家863计划课题的支持,由北京大学、鲁东大学和清华大学协作开发完成。
在一个统一的设计框架下,我们将相关事件知识描述拆分成五个子库,包括两个静态库、两个动态库以及一个用于在两大知识库之间建立联系的动词义项对齐知识库。五个子库相互配合,互为补充,为汉语文本的事件内容分析提供了丰富的语义资源支持。初步的实验结果显示,这个方案可以很好地解决事件知识库的“可操作性,可计算性,可扩展性”问题。通过“小而精”地解剖一个局部问题,可以方便地扩展到更大的领域和更多的应用中。在此基础上,我们进一步分析了各子库的内在关系,提出构建集成事件知识库的设想,以挖掘知识库中的隐含信息,建立统一的事件描述体系,为开发更好的汉语事件计算平台提供条件。
在下面的几节中,第二节介绍汉语事件知识库的整体框架、各子库的详细内容及开发现状;第三节结合实例对汉语事件知识库的结构进行进一步展示,并着重分析各子库间的内在联系;第四节提出构建集成的大规模事件知识库的设想;第五节分析了在事件语义资源方面现有的相关研究成果;第六节是对现有工作的总结和对未来工作的展望。
在汉语事件知识库开发过程中,我们提出了静态知识库和动态标注库相结合的构建路线,从两个不同角度对特定事件内容进行深入描述和知识挖掘:静态库汇集了大量语言学专家的描写知识,动态库提供了丰富的客观事件标注实例。事件知识库的总体结构如图1所示。在一个统一的设计框架下,相关事件知识描述被拆分成五个既相互独立又存在内在信息联系的知识子库。经过有效拆分和信息联动,一方面细化了工作的粒度,便于分工合作,另一方面又增强了信息的可靠性和丰富性,提高了描述的质量。
图1 事件知识库总体结构
在静态知识库方面,我们设计了情境网络和词汇知识库两个子库。前者侧重从语义概念层面对不同事件、关系和状态进行细致描述,形成概念层面进行知识推理和语义计算的基础知识单元。后者侧重从词汇语义层面对不同词语内部隐含的句法语义分布信息进行描述,以便建立起真实文本描述实例与词汇语义知识库之间的内在联系。通过以上两个静态库,我们可以建立从表层的词汇描述形式到深层的情境概念表达之间的联系通道,为实现对表层文本反映的深层客观事件内容的准确分析和相关知识推理提供支持。
在动态标注库方面,我们设计了目标动词义项标注库和事件描述块句法语义标注库两个子库,分别从目标动词义项和事件描述块句法语义两个层面对真实文本中的事件内容进行挖掘。通过对真实文本句子中事件目标动词义项和事件描述块的句法语义信息的准确标注,形成了大规模的客观事件内容描述实例,为相应语义计算工具的知识获取和统计建模提供有力支持。
为了有效地建立起静态库和动态库之间的联系,我们设计了事件目标动词义项对齐知识库。通过人工标注,实现各个语义词典之间的义项对应,明确各个语义词典提供的事件框架之间的角色对应关系。以这个对齐知识库为中间桥梁,可以方便地建立起两大知识库之间的信息联动。
从我们关注的特定事件类型出发,各个子库分别从不同的角度对事件相关知识进行描述。
2.2.1 情境网络
情境网络描述体系[3]从概念语义层面对事件进行描述,其描述核心是通过对相关信息抽象形成的情境表达式。通过不同的情境关系,建立起这些情境反映的事件内容之间的内在联系,形成概念层面进行知识推理和语义计算的基础知识单元。
情境网络的构建过程主要包括情境的划分、网络的构建以及定义词汇的确立。在情境的划分过程中,我们力图保证情境概念描述的概括性和全面性,以便于进行知识推理和语义计算。在情境网络的构建过程中,我们控制每个子网络的规模,并限制定义词汇的数量,以便于人工分析把握。在确定各情境的定义词汇时,我们尽可能地遵循以下原则:
a) 一个特定情境的所有定义词汇具有相同的句法语义分布关系。
b) 子情境与子情境之间,定义词汇成对立互补分布。对于可能激活不同情境的动词,将其拆分为不同的义项,归入对应的情境中。
以“领属变化”类事件为例,我们将相关事件拆分成 “失去”、“获得”、“转让”、“商品交易”、“赊购”、“借还”、“租赁”等情境子网络,各个子网络包含7~10情境,每个具体情境中又包含若干定义词汇,同时各个子网络之间也存在一定的联系。相应描述实例可参见图2。
而其中的每个情境则主要包括了三部分内容:1)情境的完整描述,包括情境名称、情境表示、情境定义、参量定义、情境表达式、该情境发生的前提条件和后续结果等; 2)情境与相关情境的关系描述,它们形成了情境网络的推理关系; 3)情境的定义词汇信息。具体内容可参阅图3的相关部分。
2.2.2 词汇知识库
词汇知识库从词汇语义层面对不同词语的句法语义分布信息进行描述,其描述核心是相关事件义项的语义论旨角色和句法配置模式,这是静态知识库与真实文本标注实例之间建立联系的重要桥梁。对于可能激活不同情境的目标动词,在词汇知识库中都被拆分成不同的义项,分别进行句法语义分布的描述。从而保持了两个静态库的一致性,更好地反映各情境事件的区别和联系。
词汇知识库的义项描述单元包括如下内容:义项描述、情境表达、参量锚定、论旨角色和句法配置。其中,“参量锚定”建立情境参量和论旨角色之间的内在联系,“句法配置”描述了文本句子中不同语义论旨角色的典型配位形式,提供句法语义连接信息。具体实例参见图3描述。
2.2.3 目标动词义项标注库
目标动词义项标注库精选《人民日报》标注库、清华树库[4]中的真实文本句子,以句中的特定目标动词为标注对象,基于三大语义词典(《知网》[5]、《同义词词林》[6]和《现代汉语词典》[7-8]),对该动词在真实文本中的义项进行标注,从而实现同一目标动词在不同词典之间、多个词义之间义项的区分和对应。
我们选择了现有的三个典型语义词典:《知网》[5]、《同义词词林》[6]和《现代汉语词典》[7-8],它们分别采用了义原表达式、同义词集合和自然释义三种方式来描述事件意义。标注过程中,根据真实文本句子中各个目标动词出现的不同语境,分别选择上面三个词典中的合适义项描述,形成多个词典对齐的义项标注信息[9]。这样,一方面可以充分利用三个词典中的义项描述信息形成信息互补的完整事件内容描述;另一方面,也可以利用相关标注提供的不同语义词典计算入口,集成各个词典的计算能力。具体实例可参阅图3的相关部分。
2.2.4 事件块句法语义标注库
事件块语义句法标注库的标注文本选择与目标动词义项标注库相同。主要侧重对真实文本句子中出现的各个具体事件描述实例的内容标注和信息挖掘。
具体标注过程如下:在目标动词控制的事件描述小句中,进一步确定该目标动词所反映事件的各个描述块,并对其进行句法语义信息标注,包括:确定块边界、标注句法功能(S,P,O)和成分(np, vp, tp)、语义角色(A,PN)标记,以及确定各个块的中心词位置(用“@”符号标注)等。另外,还对代词指代和角色省略问题进行了特殊处理,通过寻找和标注事件描述小句外部的对应块信息,保证了相关事件内容描述的完整性[10]。具体实例可参阅图3的相关部分。
2.2.5 动词义项对齐知识库
事件目标动词义项对齐知识库是各个子库之间联络的核心和枢纽。我们从静态知识库和动态标注库中的各个动词出发,依托《知网》、《同义词词林》、《现代汉语词典》三大语义词典以及情境网络中给出的情境定义,通过人工标注,明确各个语义词典中动词各义项之间存在的对应关系。进一步,对于语义词典提供的事件框架,联系情境网络中的“参量锚定”和词汇知识库中的“论旨角色”,以动态标注为参考,确定其角色对应关系,搭建起静态库和动态库之间的事件角色信息通道。具体实例可参阅图3的相关部分。
开发大规模的事件语义资源需要消耗大量的人力物力,我们的解决方案可以在有限的资源限制下,针对关注的特定事件类型,建立完整系统的知识架构,提供准确、全面且相互融会贯通的语义资源。该方案已在汉语“存在拥有类”事件知识库开发工程中得到了可行性和有效性验证,可以方便地推广到其他类似的事件知识库开发过程中。目前的事件知识库开发现状如表1所示。
表1 事件知识库开发现状
本节以目标动词“租赁”作为切入点,通过详尽的实例分析,对事件知识库的结构进行进一步的展示,并着重分析各子库间的内在联系。
与“租赁”相关的情境子网络如图2所示。一个租赁事件一般包括同时发生的两个子事件:租物转移和货币转移。我们把它们组织成两个抽象情境。它们的下一层又对应若干具体的动作事件,如租入、租出、收款、付款,而这些情境又分别属于取得、给予、转让等情境的范畴。这样,我们将各个事件通过情境网络联系起来,通过情境网络中对相应情境关系的界定和描述[3],为相应的事件分析和知识推理提供了依据。
动词“租赁”有两个含义:租出和租入。按照2.2.1节的约定,我们将其拆分为两个义项:“租赁1”和“租赁2”,分别对应了“租出”和“租入”情境。以“租入”情境和“租赁2”义项为例,各个子库的信息描述单元及相互之间的对应关系如图3所示。
图2 “租赁”情境子网络
图3 事件知识库各子库信息描述单元及相互对应关系
两个静态库之间,通过情境网络中的“情境表达式”与“定义词汇”进行对应,两个动态库之间,则是通过一致的义项标注建立关联。而作为整个事件知识库核心与枢纽的动词义项对齐知识库,一方面通过“情境库义项描述”项与情境网络中的“情境表示”建立双向的连接,一方面又通过三大语义词典对动词义项的描述与动态库互通,从而搭建起两大库之间的桥梁,使五个子库完整地融合为一体。另外,通过词汇知识库中的“参量锚定”与目标动词义项对齐库中的“情境库—《知网》事件角色对应”,可以建立起不同事件框架之间的参量对应关系,在此基础上,我们可以整合多个语义资源进行语义计算。
经过五个子库的开发和信息的对应,我们便可以得到图1所示的事件知识库互连互动框架体系。以动词“租赁”作为入口,我们既可以获取语言学专家提供的句法、语义描述,又可以获取大量相关的标注语料,通过多个角度对事件的刻画,为事件内容的分析提供有力的支持。
事件知识库是一个相互关联的有机整体,但是这种关联性隐含在各个子库中,不够集中和直观。在开发过程中,子库的拆分降低了知识库构建的难度,但在实际运用中,我们更关注其易用性和语义计算性。而且,在人工合作分析标注的过程中,难免出现子库间的不一致、不同步。为了更有效地发挥事件知识库的研究和应用价值,需要在信息的集成和统一的事件内容计算平台开发方面进行更深入的研究。由此,我们进一步提出了集成事件知识库的开发设想。
首先按照各子库给出的事件描述深度的不同,将它们重新组织成三个基本知识库:1)情境描述库; 2)事件描述库; 3)标注句子库。其中,情境描述库侧重对某类事件的内容抽象和关系挖掘,形成可以进行初步知识推理的情境网络,其基本信息来自现有的情境网络描述库;事件描述库侧重对某个事件的内容描述,通过建立各个语义资源的义项描述和事件框架之间的内在联系,提供各个语义资源之间的计算入口,其基本信息通过融合现有的词汇知识库和动词义项对齐库得到。标注句子库侧重对真实文本句子中某个事件内容的信息标注,包括事件目标动词的义项标注和该目标动词控制的事件块的句法语义标注等,其基本信息来自现有的两个动态标注库。在此基础上,通过对低层次资源的数据汇总分析,可以为高层次资源提供更多更详细的人工标注互补分析数据,为进一步改进相关资源的计算能力提供支持。目前我们已经完成情境描述库的构建,并且检查和明确了情境描述库和词汇知识库之间的双向联系。其他相关工作正在进行中。
近年来,国外构建完成了多个大规模的事件语义资源,下面对其中我们认为有代表性的资源进行简要介绍。
ACE(Automatic Content Extraction)[11]项目的目标是研究文档内容的抽取技术,包括实体、关系、事件等,主要关注网络上的专线新闻、网络日志等6个领域,提供英文、中文、阿拉伯文三个语种的训练语料,2007年增加了西班牙语。ACE语料以篇章为单位,详细标注了底层的标准实体、时间、值的信息。ACE05提供了英、中、阿三种语言300K的训练库和50K的测试库。
OntoNotes[2]的目的在于构建大规模的跨领域标注语料库,涵盖英文、中文、阿拉伯文三种语言的新闻、电话对话、网络日志、脱口秀等文本。OntoNotes语料库中标注了语言的结构信息(句法树和谓词论元结构)和浅层语义信息(动词、名词的词义及共指关系)。最新发布的4.0版本包含300K的阿拉伯语料,800K的汉语语料,以及1 300K的英文语料。
FrameNet[1]以框架语义作为标注的理论基础,试图发现核心动词(LU)和它周围各框架元素(FE)之间的搭配关系,从而归纳出知识的语义表示方法,进而集结各框架构成FrameNet网络。FrameNet的语料来源于英国国家语料库,每个句子都标注了目标谓词和其语义角色、该角色句法层面的短语类型以及句法功能。最新数据显示,FrameNet已包含11 600个词条,960个事件框架和150 000个标注句子。
Propbank[12]是集语义词典和标注语料库于一身的论元角色语义知识库。它以动词词典为标注基础,以Penn Treebank II为标注底层,以动词的论元角色为标注对象。PropBank为超过3 300个动词建立了4 500个框架,并在中文Treebank基础上,构建了500K的中文PropBank语料[13]。
TimeML项目的语料资源主要是TimeBank[14]。TimeBank主要来自Wall Street Journal和New York Times的新闻文章,根据TimeML的标准,详细标注了事件、时间表达式以及它们之间的时序关系。到目前为止,TimeBank的最新版本为1.2,共包含183篇新闻文章,7 935个事件。
可以看出,大多数的事件语义资源开发将侧重点放在真实文本句子的标注上,FrameNet从框架语义学出发,试图归纳知识的语义表示方法,这与我们的做法很类似,但还是有所不同。我们的汉语事件知识库从静态知识库与动态标注库两个角度对事件内容信息进行挖掘和描述,且所有五个子库是在一个统一的设计框架下展开,因此可以关注特定事件类型,有针对性地以较少的代价“小而精”地逐步描述不同事件内容,便于分阶段扩展事件知识库。
近年来,在多个项目的推动下,事件语义资源的开发取得了长足的进展和较为丰硕的成果。相比之下,国内对于汉语事件语义资源的开发明显薄弱不足,所以,探索大规模的汉语事件知识库的开发和建设有其紧迫性和必要性,以及重大的应用价值和长远意义。
我们针对汉语的研究现状,结合汉语自身的特点,提出了大规模汉语事件知识库的构建方案。在一个统一的设计框架下,把相关事件知识拆分成五个既相互独立又存在内在信息联系的知识子库。通过各个子库之间的相互配合和信息联动,可以提高各自的描述质量。在此基础上,我们又进一步提出开发集成的事件知识库的设想,希望对推动汉语文本自动分析技术的发展有所帮助。
情境网络和词汇知识库由北京大学袁毓林教授领导的研究小组完成,目标动词义项和事件块句法语义标注库由鲁东大学亢世勇教授领导的研究小组完成。在此一并致谢。
[1] Ruppenhofer J, Ellsworth M, Petruck M R L, et al. FrameNet II: Extended Theory and Practice [OL]. http://framenet.icsi.berkeley.edu/.
[2] Weischedel R, Pradhan S, Ramshaw L, et al. OntoNotes Release 4.0[OL]. http://www.bbn.com/NLP/OntoNotes/.
[3] 北京大学汉语语言学研究中心. “广义拥有”与“领属变化”情境网络描述体系[R]. 技术报告. 2009.
[4] 周强. 汉语句法树库标注体系[J]. 中文信息学报, 2004, 18(4): 1-8.
[5] 董振东, 董强. 知网[OL]. http://www.keenage.com/.
[6] 梅家驹, 竺一鸣, 高蕴琦,等编. 同义词词林[G]. 上海辞书出版社, 1983.
[7] 中国社科院语言研究所词典编辑室. 现代汉语词典(修订本)[G]. 商务印书馆, 1996.
[8] 中国人民大学语言文字研究所. 现代汉语通用字典[G]. 外语教学与研究出版社, 1987.
[9] 鲁东大学中文信息处理研究所. 目标动词义项标注规范6.0[R]. 技术报告, 2009.
[10] 鲁东大学中文信息处理研究所. 事件描述块句法语义标注规范6.0[R]. 技术报告, 2009.
[11] Doddington G, Mitchell A, Przybocki M, et al. The automatic content extraction (ace) program-tasks, data, and evaluation[C]// Proceedings of LREC. 2004: 837-840.
[12] Palmer M, Gildea D, Kingsbury P. The proposition bank: A corpus annotated with semantic roles[J]. Computational Linguistics. 2005, 31(1): 71-106.
[13] Xue N, Xia F, Chiou F D, et al. The Penn Chinese TreeBank: Phrase structure annotation of a large corpus [J]. Natural Language Engineering. 2005, 11(2): 207-238.
[14] Pustejovsky J, Hanks P, Sauri R, et al. The timebank corpus [C]// Proceedings of Corpus Linguistics 2003. 2003: 647-656.