现代汉语语义角色研究述评

2012-08-15 00:42段潇雪
文教资料 2012年27期
关键词:句法范畴语料库

段潇雪

(南京师范大学 文学院,江苏 南京 210097)

随着语言学研究的进一步深入,人们越来越认识到语言的本质共性是语义性。借助于句法分析的手段,自然语言理解的研究也必须建立在语义理解的基础上。语言工程对语义分析的迫切要求充分说明要使计算机具有人类的智能和高速的分析能力,就必须进行深度的语义分析。目前现代汉语的语义角色研究取得了一定的成绩,但对语义角色的分类和鉴别仍然存在较大的分歧。

一、语义角色的划分与鉴别

(一)理论上的研究

“语义格”的提出将语义分析引向深入,然而语义格数目的不确定也是学者们对这一理论诟病的主要原因。Fillmore(1968)首先提出了6种语义格,之后又增补了10个,但语义格的数量难以确定,有些NP如何划类仍存在争议。显然这16种格是不够的,“不能做到相同的格表示相同的关系,不同的格表示不同的关系。有些不同的关系不得不用同一种格描述”(徐烈炯,1995)。Dowty(1991)把题元划分为两个大类,即“原型施事”、“原型受事”。然而,语义角色划分得过于简单就不能很好地区分句子的语义特点。同样这种以原型理论为背景的语义角色划分是否完全适合于汉语的特点也值得商榷。

事实上用“语义角色”的概念来研究语义也并不只是西方学者的创见。吕叔湘在《中国文法要略》中所提的“起词”、“止词”以及14种补词的区分,都已经蕴含了汉语语法研究的格语法思想。任善铭(1956)认为“施受关系和结构在句子里本来都存在,两者的存在本身并没有抵触。在认识和分析句子的时候,两者都应该适当的应用”。丁声树和等(1961)也指出“有各种不同的动词,因此动词跟宾语也有各种不同的关系。就是同一个动词也常带各种关系不同的宾语”,主语与谓语是施事还是受事等等关系也都考虑在列。然而遗憾的是20世纪80年代之前,学者们并没有在语义的这条路上走下去。随着语法研究的深入和语义重要性的提升,80年代以后学者们又重回到了语义研究上来,展开了语义角色的深入讨论。80年代胡明扬翻译了《“格”辨》,译介了Fillmore的早期格语法理论;之后还有杨成凯对格语法早期和70年代的发展进行了详尽的描述;朱德熙区分了句子中各种成分间的显性语法关系和隐性语法关系。其中隐性语法关系就包含了施事、受事、工具等。三个平面语法理论提出后,语义成分摆脱了句法成分附庸的地位。徐烈炯、沈阳在译介西方的格语法理论后,对汉语语义角色问题进行了较为深入的剖析,如《题元理论和汉语配价问题》(1998),详细讨论了题元能否分类,有多少个题元,能否列出题元总表,如何定义题元等问题。孟琮等人在《动词用法词典》(1987)中将与动词相关的名词宾语划分为14个类别,这14个类别仅限于动词的宾语位置,但与动词发生格关系的体词性成分的状语位置并未涉及。鲁川、林杏光的《现代汉语语法的格关系》(1989)中指出“格关系是诸多的语义关系的一种,指的是句子的表述中心的谓词跟周围的体词之间的及物性关系”,“格系统是一棵树”,共分两个层次,上层6种,下层18种。邵敬敏在《论汉语语法的语义双向选择性原则》(2007)中基于鲁川、林杏光的格体系,划分了7大类24小类的语义角色系统。范晓在《说语义成分》(2003)一文中再次修改动核结构的动元、状元分类和名核结构的名元、定元。重建后的语义角色体系分为31个小类。陈昌来在《现代汉语语义平面问题研究》(2003)中把汉语的语义格分为26个。

有关语义角色理论研究的分歧还表现在界定问题上,包括鉴别的标准问题。Fillmore给语义格界定的标准是人类对其周围发生的事件所能做出的某些类型的判断。Jackendoff提出了一个认定代理格的方法,即通过某些短语是否能添加到句子中来判断。Dowty则认为应该划分为几个题元在本质上是没有意义的,他认为应该以事件而不是透视域来鉴别题元角色,而以事件为依据得出的语义角色能够独立于句法功能,保持稳定的语义作用。

同样,中国的语言学者在语义角色的鉴别上方法和原则也不尽相同。林杏光、鲁川(1999)通过对汉语格关系的研究发现,语义角色可以按层级进一步细分。他们认为语义角色系统像一颗树一样按层级排列,语义角色之间存在着层次。在这种认知的基础上,他们采取了层层控制和层层推进的方法界定语义角色类别。毕玉德(2003)在建构朝鲜语语义角色体系时归纳了四条语义角色鉴别的原则:基于事件原则;面向语料;句法为本;意念驱动。

对语义角色研究较多的袁毓林先生在《论元角色的层级关系和语义特征》(2003)一文中提出了怎样确定语义角色,如何处理语义角色的模糊性问题以及语义角色的层级设立和动词在特定句式中增加的论元如何处理等问题。语义角色难免有一定的模糊性,用一种形式化的办法难以严格的定义,那么是否可以采用原型理论,在给出语义角色的典型句法和语义特征的前提下,通过类比归类的办法鉴别特征不明显的语义角色。

语义角色的鉴定是语义角色范畴体系制定的前提,也是检验语义角色分类是否合理的指标。有了清晰的鉴定方法,语义角色的研究才能从混沌走向清晰。

(二)现有汉语语义标注语料库建设

在语义研究的过程中,人们越来越意识到单一层面的划分是不可能把语义角色的范畴描述清楚的,但是句式的多样性和汉语动词语义的复杂情况使得语义角色范畴的研究难有一个统一的定论。学者们因认识与需求的不同形成了不同的语义角色层级划分体系。至今语义角色的数目和语义范畴体系的明晰之间的矛盾依然存在,建立更加合理的语义角色范畴是语义角色标注的前提,对中文信息处理同样有重要的意义。

对应于理论层面的研究,近年来面向语义标注语料库的语义角色划分也取得了一定的成绩,具有代表性的有:

由清华大学、北京大学和鲁东大学共同构建的事件块句法语义标注语料库,标注的关键集中在对物质世界、人类社会中的几大类客观关系的实践内容,主要包括:广义拥有关系、时空存现关系和时空变化关系等方面。

鲁东大学承建的现代汉语句法语义信息语料库,以中小学课文和对外汉语阅读材料为基础共加工了包含713430字、28669个句子的语料。以句子为单位标注了每个句子的句法结构和语义信息结构。在语料库的基础上,分别提取并建立了句型系统、句模系统和句干系统。该语料库共设置了24个语义成分标记,7个句法成分标记,以句子为单位进行句法结构和语义结构的标注。

北京语言大学的现代汉语语料的句子级语义标注。该标注语料库是以HNC理论为指导建立的自上而下的句子语义标注,主要标注句类、语义块、句蜕。

北大中文网库是2007年开始建设的一个基于大规模真实文本的多层次语义关系标注语料库,共定义了22个论元角色,分为必有论元和非必有论元。在标注论元信息的同时对句子的主观信息也进行了标注。北大中文网库是在詹卫东等人开发的北大汉语句法分析树库的基础上进行的语义信息标注。

哈工大语言技术平台(Language Technology Platform,LTP)是哈尔滨工业大学社会计算与信息检索研究中心开发的一套系统,提供了一系列的汉语语言处理模块,其中包括分词、词性标注、命名实体识别、依存句法分析、语义消歧和语义角色标注等。该平台使用的训练数据是Chinese Prop-Bank2.0中的22277个句子。“数据稀疏仍然是困扰语义角色标注的主要问题之一”(刘挺,2011),由此可见,语义角色的精细等级和标注的效率的矛盾是一直存在的。与此同时,哈工大近两年正在研究“语义依存分析”(Semantic Dependency Parsing,SDP),同时联合北京城市大学标注了1万句中文语义依存分析树。中文语义依存树库是以依存句法理论为基础,融合依存结构和语义信息,提取句子中所有的修饰词与核心词之间的语义关系。除了分析句子中主要谓词与其论元的语义关系外,还涉及了诸如数量、属性、频率等非主要谓词包含的语义信息。

现代汉语的语义标注研究,除了以上所提到的还有较早建立的SinicaTreeBank(台湾中央研究院词库小组,1986)、句子级语义标注的现代汉语语料库系统(社科院声学所、北京师范大学和北京大正语言有限公司研制,1989)。上海师范大学和山西大学联合构建的Chinese Frame Net,可以看做是Frame Net的汉语对应库。偏向于工程的语义角色体系还有董振东的知网(HowNet),共有90个语义角色,用义元和角色关系来描述概念,采用了812类事件义元,并规定了相应的必备语义角色框架。

现有工程上的语义角色标注系统多数以句法成分为基本的标注单元,必然依靠句法标注信息,这里不再赘述。

二、当前语义角色范畴研究的困难及趋势

汉语语义角色的研究虽然已经在中文信息处理、对外汉语教学等方面取得了一定的成绩,但是也存在一定的问题。语义角色的称谓混乱、语义角色的数目不定、归属上混沌模糊、各角色间的界限不明确等。从学者们对语义角色范畴研究的历程中可以看出,语义角色的不断增加说明不同的句式对语义角色有着不同的要求。语义角色范畴研究的困难大致有两个方面的原因:一是句式的复杂多样;二是动词语义的复杂。

首先,语义角色概念称谓的混乱是亟待解决的问题。不应因为概念的混乱造成研究上的障碍,使得人们对语义分析理论有一种不规范、不明确的认识。第二,没有一套准确的语义角色测定标准。在分离和制定语义角色标准的时候,各个学者的标准不同。使得原本就混乱的语义角色划分更不清晰,有些相同句式中的语义成分被归为了不同的语义角色。第三,可供计算机处理的可用资源很有限。

针对语义角色范畴研究的困难,增大可供学习的语料库是解决句式多样造成范畴研究困难的一条途径。语料库的规模越大,所能涵盖的句式就更加全面,再给机器学习之后才能更好的完成语义角色的标注。在此基础上,本文认为面向深层次语义研究的语义角色范畴建立体现出以下的研究趋势:

1.语义句法理论的建构更加注重面向自然语言的处理中语义理解的需要。语义句法的理论研究和语义角色范畴的划分都是为了对语言进行深层次的语义剖析,解释语义的生成机制,以期提供更多可供机器学习的语义信息。

2.语义角色范畴的划分需要基于真实文本的标注验证。不论是理论上的语义角色体系建构,还是面向自然语言处理的语义角色划分,近年来有关语义角色范畴划分的一个明显趋势就是更多地将范畴划分和真实文本的标注验证相结合。语义角色的划分要遵循一定的语义分析原则,但并不是这样就一定适合于自然语言复杂多样的情况。因此,以真实文本的标注中遇到的问题来验证并提高语义句法范畴体系的信度和效度是今后研究的一个方向。

3.语义角色的研究趋向典型格的深化,同时关照非典型格的分析。孙道功(2009)提出目前汉语格语法取得了一定进展,在格的层级性以及施事、受事等典型格的界定上都已经达成共识;但对于格的个案研究还不充分,格的名称也缺乏统一性;对名核结构内部关系缺乏关注和探讨。以往的研究者们对典型的语义角色的研究已经有一定的成果,认识上也达成了一定程度上的一致,正一步步接近典型语义角色的语义本质。典型语义角色与研究较少的非典型语义角色之间组织关系等还不很清楚;在个别一些语义角色的界定上存在很大的分歧。进一步深入研究非典型的语义角色,才能平衡语义角色体系内部的研究。

4.语义句法范畴体系的建构更加需要借鉴认知语言学的相关理论。认知语言学的兴起使人们看到它在对语言现象的解释特别是对语义的挖掘上十分有效。语义句法范畴的建构和研究也要善于借鉴认知语言学的理论。

如上所述,当今人们对自然语言理解的最终目标就是深层次的语义分析,以期进行自动的知识获取、推理等等。因此在语义角色标注的基础上进行深层次的语义分析必然是未来语义研究的重点。语义角色范畴体系的建立是进一步语义研究的基石,是语义角色标注完备的前提。

[1]毕玉德.关于语义信息处理的语义角色系统的建构.2003(3).

[2]陈昌来.现代汉语语义平面问题研究.学林出版社,2003.

[3]丁声树等.现代汉语语法讲话.商务印书馆,1961.

[4]范晓.说语义成分.汉语学习,2003(1).

[5]刘挺,车万翔,李正华.语言技术平台.中文信息学报,2011(11).

[6]鲁川,林杏光.现代汉语语法的格关系.汉语学习,1989.

[7]林杏光.词汇语义和计算语言学.语文出版社,1999.

[8]吕叔湘.中国文法要略.商务印书馆,1941.

[9]孟琮等.动词用法词典.上海辞书出版社,1987.

[10]任善铭.主宾语问题是怎样的问题.中华书局,1956.

[11]邵敬敏.汉语语法的立体研究.商务印书馆,2007.

[12]孙道功.词汇-句法语义贯通研究的新探索.语言文字应用,2009(2).

[13]徐烈炯.语义学(修订本).语文出版社,1995.

[14]徐烈炯,沈阳.题元理论和汉语配价问题.当代语言学,1998(3).

[15]袁毓林.一套动词论元角色的语法指标.世界汉语教学,2003(3).

[16]袁毓林.论元角色的层级关系和语义特征.世界汉语教学,2002(3).

[17]http://ir.hit.edu.cn/demo/ltp/.

猜你喜欢
句法范畴语料库
批评话语分析的论辩范畴研究
述谓结构与英语句法配置
正合范畴中的复形、余挠对及粘合
《语料库翻译文体学》评介
Clean-正合和Clean-导出范畴
基于JAVAEE的维吾尔中介语语料库开发与实现
语料库语言学未来发展趋势
不能把范畴不同的两个问题混为一谈