汉语语义标注理论的新视角
——《特征结构及其汉语语义资源建设》书评

2014-04-08 14:37姬东鸿
湖北文理学院学报 2014年4期
关键词:语料语义汉语

姬东鸿

(武汉大学 计算机学院,湖北 武汉 430072)

汉语语义分析(semantic parsing),特别是大规模真实文本的语义分析,一直是当前自然语言处理(natural language processing)的难点。传统依存分析法(dependency analysis)等标注方法在处理汉语特殊句型和特殊语言现象(如:主谓谓语句、连动句、兼语句、复杂名词短语、动补结构等)时遇到一系列难题。寻求一种适合汉语自己的特点的汉语依存标注体系,是中文信息处理研究的当务之急。湖北文理学院陈波副教授所著的《特征结构及其汉语语义资源建设》一书,正文共199页,18.5万字,配有114个图表。该书的研究目的正是探索一种适合汉语自身特点语义标注理论,立足于自然语言处理的语义分析需求,提出的特征结构语义描述模型。基于语义分析方法建构的标注语料库,是自然语言处理基础研究和应用技术研究的基础。该书描述了基于特征结构理论(Feature Structure)建构的大规模的汉语语义资源(semantic resource)的过程,该资源对于提高语义关系抽取(特别是事件关系抽取)、自动问答、信息检索、文本蕴涵等系统的性能有积极的意义。该书对语义分析理论和语言学理论进行了尝试性地探讨,通过特征结构理论积极探求汉语特殊语言现象背后的语言规律和描述机制。

一、《特征结构及其汉语语义资源建设》的主要内容

全书由前言、六个章节和后记组成,全书内容包括五个部分:研究背景概述、特征结构模型、语义资源建设、在语言学领域的应用及结论,具体如下:

第一章引论部分,详细地介绍了汉语语义分析方法的研究背景、国内外研究现状分析、研究对象界定、研究内容等方面。通过该部分,读者对目前自然语言处理学界的主流语义标注方法和已完成的语义标注资源会有一个较全面的了解。

第二章是作者的重点研究成果,提出了“特征结构模型”的理论,主要研究了特征结构模型的界定,特征结构的特点、形式化表示以及判定方法四大部分。特征结构的特点是用特征三元组反映概念关联和关联种类,特征三元组允许多重关联和交叉关联,允许嵌套和递归。特征结构的形式化表示为特征结构图,是一个“可递归的无向图”(recursive undirected graph)。特征结构的判定方法是基于提问的方法,研究了各种句式中提问的条件、提问针对的成分以及特征词在其中的分布等。

这部分是全书的理论精华所在,特征结构模型是一种新的汉语语义分析策略,该理论基于概念关联和关联种类,用特征结构三元组:[实体,特征,特征值]来描述具有语义关联的一组词语。特征结构允许语义的多重关联和交叉关联,也允许递归和嵌套。特征结构理论可以比较全面地表示汉语语句中词与词之间的语义关系。

概述了基于特征结构理论的汉语特征结构资源建设,重点介绍了陈波副教授所在的科研团队耗费四年的时间建构的语义资源库。分为语料来源、标注方式、标注标准、标注软件平台等四个部分。该语料库的语料来源于宾州中文树库的生语料、国内近三年中文新闻语料以及中小学语文课本。标注方式采用人工标注和计算机标注软件相结合的方法。设计并编写了汉语语义资源标注软件“语言标注平台”。研究了特征结构的判定标准。本章重点在于特征结构标注标准的制定策略。

继句法树库之后,近二十年来国内外各大研究机构都在大力建构语义资源库。该部分的汉语特征结构语义资源是一个从新的角度的尝试。在语料选取上充分考虑了语料的代表性、多样性、均匀性、时效性和通用性等因素,主要选用了宾州中文树库的语料、国内近三年的新闻语料和中小学语文课本语料。标注标准是建构资源库最重要的部分,其标注标准依据了最小单位原则、语义关联原则、递归原则、无中心词原则等四个原则,具有可操作性,确保了标注的一致性。

第四章和第五章是特征结构理论在语言学界的实际应用,分别用于主谓谓语句和连动句的语义标注策略研究。其中,第四章是主谓谓语句的特征结构研究。本章首先回顾了语言学界对主谓谓语句的研究成果和争论内容,根据汉语主谓谓语句的语法特点,分析了面向自然语言处理时的标注难点,然后运用特征结构模型对语言学界讨论过的13种类型的主谓谓语句进行了细致的语义描述和分析,总结出了6种语义模型。将现有的传统依存分析方法和特征结构分析方法对主谓谓语句的分析结果进行了对比,结果表明,特征结构分析方法包含了更多的语义信息。第五章是连动句的特征结构研究。本章首先回顾了语言学界对连动句的研究成果和争论焦点,总结了汉语连动句的语法特点,然后分析了面向自然语言处理时连动句的标注难点。运用特征结构模型对语言学界讨论较多的16个连动句分别进行了细致地语义描述和分析,总结出了四类语义模型。将现有的传统依存分析方法和特征结构分析方法对连动句的分析结果进行了对比,结果表明,传统依存语法无法表示连动句中主语和除第一个谓语动词之外的其他谓语动词之间的语义关系,无法表示连动句中某个谓语动词的宾语与其他谓语动词之间的语义关系,也无法准确表示两个或多个谓语动词之间的语义关系。

第六章是全书的总结,包括评估、研究特色、应用价值、下一步研究计划等内容。

二、《特征结构及其汉语语义资源建设》的特色与创新之处

该书主要有三方面的创新点:

(1)采用特征结构模型,探讨汉语语句的语义表示机制。

特征结构模型是一个全新的汉语语义表示策略。目前国内外虽有很多相关的工作,但总的来说都是基于句法结构或依存结构进行分析的。“特征结构”模型在进行语义表示时,允许语义的多重关联,也允许递归和嵌套,可以比较完整地、清晰地表示汉语语句中词与词之间的语义关系。

(2)基于特征结构模型,对汉语语句进行语义标注,探寻适合汉语独特特点的语义分析方法和标注标准。

该资源可用于支持词义消解、信息智能监控、信息抽取、机器自动问答等任务,为实现计算机的语义理解做出贡献。另外,该语义资源具有通用性。它选用的是世界通用的中文语料库,建成后可以为国内外其他相关机构共享。

(3)运用特征结构模型探讨了汉语特殊句型的语义分析方案,并尝试以新的视角来解释语言学理论中的争议问题。

书中以主谓谓语句和连动句为例,总结了两种汉语特殊句型的语法特点,然后分析了面向自然语言处理时两种句型的标注难点,运用特征结构模型对两种句型进行了细致地语义描述和分析,总结了语义模型的类型,为语言学理论研究的深化提供了一定的参考。

三、《特征结构及其汉语语义资源建设》的理论意义与应用意义

该书的研究内容立足于自然语言处理的语义分析需求,探讨了适合汉语特点的特征结构语义描述模型,并基于特征结构模型,建构了一个3万句的汉语语义标注资源库,有助于提高语义关系抽取(特别是事件关系抽取)、自动问答、信息检索、文本蕴涵等系统的性能。在此基础上运用特征结构模型分析了汉语的特殊句式(主谓谓语句、连动句等),积极探求汉语特殊语言现象背后的语言规律和描述机制,为汉语特殊句式的语义分析提供了一个新视角。

语义分析一直是信息处理的难点,该书对语义分析理论和语言学理论进行了尝试性地探讨,对语义分析的理论研究有着积极意义。从汉语资源的建设上看,建构的大规模汉语句子级语义标注资源库,标注理论和描述机制不同于已有的汉语资源,在标注规模和标注深度方面都有所提高,标注成果在一定程度上丰富了汉语语义资源。

不过还有几方面的工作需要在将来进一步深入研究,如:

(1)应扩大特征结构模型对汉语语言现象的考察范围。

该书仅探讨了汉语的主谓谓语句和连动句的语义表示方法,汉语的其他特殊句型,如兼语句、是字句、存现句、把字句、被字句、双宾句等,特殊现象如灵活语序等,都是下一步的研究对象。

(2)资源建设方面,可以从句子级向短语级过渡,研究汉语复杂名词短语的语义资源建设,也可以从句子级向语篇级过渡,研究汉语事件链的语义资源建设。

依存分析法是国际上主流的分析方法,特征结构模型的探索,源于依存分析法,又针对汉语自身的特点进行了扩展研究,为当前中文信息处理提供了一个别样的研究视角,为自然语言处理的发展提供了一个新的研究方向。在近两年的学术交流中,特征结构模型理论吸引了很多关注,相关科技企业也开始运用特征结构模型尝试解决语言处理的问题。《特征结构及其汉语语义资源建设》一书的出版,为中文信息处理界的语义标注理论的研究和语义资源建设有积极的参考价值。

猜你喜欢
语料语义汉语
学汉语
轻轻松松聊汉语 后海
语言与语义
追剧宅女教汉语
汉语不能成为“乱炖”
基于语料调查的“连……都(也)……”出现的语义背景分析
“上”与“下”语义的不对称性及其认知阐释
华语电影作为真实语料在翻译教学中的应用
认知范畴模糊与语义模糊
《苗防备览》中的湘西语料