彭炜明,宋继华,王 宁,康明吉
(1. 北京师范大学 文学院,北京 100875; 2. 北京师范大学 信息科学与技术学院,北京 100875)
中文信息处理发展至今,语义瓶颈问题已经为越来越多的研究者所关注和重视。在各类技术评测中,与语义理解直接相关的有词义消歧(WSD)和语义角色标注(SRL)。汉语语言知识库的建设也在不断向着语义层面深入,代表性成果有,中国科学院计算机语言信息工程研究中心的《知网》[1]、北京大学计算语言学研究所的《综合型语言知识库》[2]、中国台湾“中央”研究院语言学研究所的《中文词汇网络》[3]。然而,在“模块化”软件思想指导下,中文信息处理大体上仍延续了“词法分析→句法分析→语义分析”的分步走模式。
图1 中文信息处理模块循环依赖
这种分步走模式正如图1所示,其处理流程上的前序模块在进行消歧时往往要依赖后序模块的结果信息才能保证精度,这使得中文信息处理陷入一个非常尴尬的“模块循环依赖”怪圈。其间虽然也有人尝试去打破这一现状,如HNC(概念层次网络)团队的探索实践[4]等,但从宏观上进行语言理解机制的研究仍在少数。正如宗成庆等专家所说,整个领域的现状是“尚未建立起一套完整、系统的理论框架体系”[5],特别是关于语义理解与计算问题,尤其缺乏语言学理论支撑。而要让语义进入计算机,除了语义学自身的丰富和完善之外,处理语义与语法的关系又是其中的关键问题之一。
由于汉语语言学原有的学术渊源一直以字词为基本单位,汉语语法学起步较晚。语法学界曾经为了形成一个统一的汉语语法体系举行过数次全国性的大讨论,提出过若干系统方案。遗憾的是,关于体系问题各方至今仍未能达成一致意见。这些努力背后所取得的某些成果因而也就没有在中文信息处理中得到很好的应用。因此,回顾这段历史,重温汉语语法学发展过程中形成的一些共识性结论,对于我们今天思考中文信息处理的语法和语义问题具有重要的理论指导意义。
1898年马建忠发表《马氏文通》,自此汉语才开始有了独立的语法学科。从《马氏文通》至今的一百多年内,汉语语法学家提出过众多的汉语语法分析系统(一般称作语法体系,与语言客观存在的语法系统相对),其中影响较大、比较成熟的就有二十多种。每一体系的出现都有着特定的历史背景,在对它们进行比较分析之前有必要先厘清各个时期语法研究的主要思路,这样才更有利于抓住分歧的要害,进而权衡各家体系在中文信息处理应用中的利弊。
参考林玉山[6]、邵敬敏[7]等先生的语法学史研究,我们将正面提出过汉语语法体系的著作择要分期列表如表1所示(语法史分期参考文献[7])。
表1 汉语语法体系的代表著作
《马氏文通》模仿拉丁语法建立了第一个汉语语法体系,在草创时期难免多有附会之处,但汉语语法的两大部门(词法和句法)都已经有所创建。词法方面,建立了比较完整的“字类”(实为词类)系统。
• 实字(名字、代字、静字、动字、状字)
• 虚字(介字、连字、助字、叹字)
句法方面,建立了“词”(即句子成分)和“次”(即名代的句中位次)的学说。
• 起词、语词、表词、止词、司词、转词、加词
• 主次、宾次、偏次、正次、前次、同次
其后的几部著作除对《马氏文通》的不足有所补正外,在语法体系的术语、研究方法和原则等理论问题上均有新的贡献。章士钊的《中等国文典》首先区分了书写单位“字”和语法单位“词”,新拟了一套与现代语法术语较为接近的词类名称(名词、代名词、动词、形容词、副词、介词、接续词、助词),其对句子结构的分析已经初具“句子成分分析法”的雏形,如表2所示。
表2 句子成分分析法示例表
陈承泽和金兆梓的语法体系只是勾勒出了轮廓,都重在词类研究而略于句子结构分析,在语法理论上却有自己的特色。《国文法草创》详细分析了词的活用现象,提出区分词的“本用和活用”,并由“本用”定词类。“致动”和“意动”的概念就是此书首创。《国文法之研究》特别注重分辨文法和名学(逻辑)的联系和区别,在词类问题上主张将动词和静词(即形容词)合为一个大类“相词”。
以上几部著作都是以文言为考察对象。新文化
运动的兴起促成了语法研究从文言到白话的转向。其中影响最大的当属黎锦熙的《新著国语文法》,此书规模宏大,体系完整,奠定了现代汉语语法研究的基础。黎锦熙将其语法体系称为“句本位”语法,即遵循“以句法控制词法”的指导思想来构建语法体系。主要体现在两个方面。
(1) 句法上,以六大成分作为分析句子结构的基础,这六种句子成分划为三个层次。
• 主要成分: 主语、述语
• 连带成分: 宾语、补足语
• 附加成分: 形容性附加语(形附)、副词性附加语(副附)
其中主要成分和连带成分构成句子的主干,其结构模式决定了句子的基本格局;而附加成分则为句子的枝叶,附着在各主干成分之上。具体析句采用“句子成分分析法”(也称中心词分析法),即首先辨清全句格局,确定主干,再将附加成分拼接上去形成一棵有机的句法树。
(2) 词法上,通过句子成分与词类的对应关系来分辨词类,即采用“依句辨品”的词法分析观点。如果一个表动作变化的词放在主语宾语位置上,则认为这个词发生了“名物化”,转化成指称动作或事件过程的名词,这就是所谓词类“转类说”。
为了帮助析句,黎先生还独创“图解法”作为句本位语法的分析工具。其主要的句法格局及词类对应关系可概括于如图2所示的“图解公式”[8]中: 长横线上下区分主干和枝叶,主干部分用双竖线分主谓,单竖线连带出宾语,斜线连带出补足语。附加部分用左斜线或左折线表示形附,右斜线或右折线表示副附。例如,句子“用钢铁造桥的工人,当这时候,还在河岸准备材料。”的图解如图3所示。
图2 句本位语法图解公式
图3 句本位语法图解示例
从《马氏文通》到《新著国语文法》,最重要的变化就是语法研究重心从以“词”为本位转到以“句”为本位,句子结构分析日趋深入和完善。
草创时期的语法体系也有许多共同的特点: (1)重视意义。无论是划分词类还是分析句子结构,都注重各自的意义解释性;(2)重视书面语,带有较强的规范性质;(3)重视历史比较和古今沟通;(4)区分词汇现象和语法现象,构词基本排除在语法研究范围之外;(5)在句法格局下,短语的地位是从属性质的,短语只当作一个词的功能来看;(6)基本承认词类与句子成分存在一定的对应关系。这些特点在《新著国语文法》的体系中体现的最为明显和集中。作为第一个完整的现代汉语语法体系,它在相当长一段时间内的中学语法教学中都占据着统治地位,影响极大。后来的很多语法体系都继承了这些特点,它们在汉语语法学界被统称为“黎派语法”或“传统语法”。本文往后所指汉语传统语法即以《新著国语文法》的句本位语法体系为参照标准,其主要特征是,讲句子成分和结构格局。
探索时期的语法研究的一个主要方向就是着重于探索汉语语法的特殊规律。这是由于前一时期建立的语法体系或多或少都带有一点模仿西洋语法的痕迹,因此在使用过程中暴露出不少违背汉语自身语法规律而削足适履的弊病。最先吹响文法革新号角的是王力1936年发表的《中国文法学初探》,而真正试图建立一个新体系的是陈望道等人1938年至1943年在上海展开的“中国文法革新大讨论”。其中涉及整个语法体系的几个主要争论点是:
(1) 是否可以建立一个通用于文言和白话的新语法体系?
(2) 实行词类和句子成分合而为一的“一线制”还是继续保持词法句法各自独立的“双轴制”?
(3) 划分词类的标准是什么?
这些争论并没有都取得一致的意见,但在讨论过程中却提出了一些很有价值的创见,比如有关词类划分标准的“广义形态”说和“功能”说对后来的语法学界产生了很大的影响。
这场革新讨论虽然以建立新语法体系为初衷,但讨论过程中更多的是集中在一些理论原则的争辩上,而缺少在详尽占有语言材料基础上构建体系的具体研究。1943年陈望道编辑出版的《中国文法革新论丛》一书中只有金兆梓和傅东华两人的文章从正面提出了各自的语法体系。而讨论最后也没有得到一个为语法学界普遍接受而形成广泛影响力的语法体系。
这一时期建立的语法体系影响最大的有三家: 王力的《中国现代语法》、吕叔湘的《中国文法要略》和高名凯的《汉语语法论》。王力体系的特色有以下几个方面:
(1) 采用“词品”(大体上主语、宾语为首品;谓语、定语为次品;状语、补语为末品)的概念作为联系词类和句子成分的中间层次。这样似乎可以解决黎氏语法中“依句子成分辨别词类”造成的“词无定类”问题,但实际上这一做法不但割裂了词类与句法功能的有机联系,而且多出的词品一层并没有使语法体系因此变得简练,因为词类与词品的对应关系更加复杂。
(2) 对汉语中的六类特殊句式(能愿式、使成式、处置式、被动式、递系式和紧缩式)做了详尽的分析,很有价值。
吕叔湘体系的特点在于首先划分四类句型: 叙事句、表态句、判断句、有无句。叙事句的分析从两个角度,按结构则分为主语和谓语两部分,按动词语义关系则分为起词、止词和补词,即改变通常将主宾语和施受关系混为一谈的做法。其补词的定义范围很宽,甚至认为起词和止词也不过是与动词关系最为密切的两种特殊补词。这样的分析体现着以动词为中心的句法结构观。
高名凯体系的最大特点在于他对汉语词类划分的独特看法,即认为汉语实词不能划分词类。他的理由是,词类是语法分类,必需要有一定语法形式的“物质外壳”作为其词类意义和句法功能的标志,而汉语实词并无这样的形式标志,因此,句中的词只能说具有某种词类功能,而不能说某词就属于某类。
总的说来,这三个语法体系的出现使得句法结构的分析更加深入了,特别是关于句型和特殊句式的研究对黎氏语法体系的格局形成了较大的冲击和挑战,比如三个体系都取消了黎氏体系中的“补足语”。但它们基本上都继承了传统语法的主要特点,析句方法仍以句子成分分析为主,因此仍可归入传统语法的范围。
新中国成立后,汉语语法学史上最重要的一件大事就是20世纪50年代《暂拟汉语教学语法系统》的产生。这是在当时各家语法体系林立、术语混乱进而造成中学语法教学无所适从的情况下,由教育部统一领导组织制订的。这个体系力求综合之前各家语法之长,因此在许多地方采取了折中调和的处理办法,但就总的体系而言仍是传统语法的分析框架。具体的体系格局变化情况如表3所示(与黎氏体系对比)。
表3 黎氏体系与暂拟系统句子成分对照
其中,同动词“是”及其连带的补足语改为“判断合成谓语”;副附依据其语序在动词前或后分为状语和补语两部。一个典型的折中产物是所谓的“复杂谓语”,即同一个单句中多个动词的连用。这里杂糅了多种情况,之前各家体系也各有看法。
在讨论制定《暂拟系统》之前语法界在全国范围内开展过两次大讨论,第一次是关于汉语词类问题的讨论,第二次是关于汉语主宾语问题的讨论。这两次大讨论对《暂拟系统》的形成有较大影响,而讨论过程中对传统语法观念提出挑战最多的是在美国结构主义描写语言学影响下迅速崛起的汉语描写语法学派。这一学派的兴起代表了建国后汉语语法学发展的一个重要方向。其中影响最大的两部代表作是赵元任的《北京口语语法》和丁声树等的《现代汉语语法讲话》。后者许多观点都继承自前者,并有所发展,体系也更加完整、严密。它们的主要特点概述如下。
(1) 划分词类主要依据词的语法功能,最重要的功能是词与词的结合能力。这首先改变了传统语法中词类与句子成分绑定的看法。比如动词如果放
在主语位置上,并不认为转成名词,而是承认汉语动词也有充当主语的职能。也就是说,认为汉语词类与句子成分之间并没有严格的对应关系。
(2) 句法结构的分析特别强调语序的作用,反对根据施受关系来定主宾语。动词前面的词语只要符合一定意义条件则尽量为主语,动词后面的词语只要符合一定意义条件则尽量为宾语。因而主语、宾语的意义范围都相应地扩大了。只要能看作是句子陈述对象的都可以作主语,比如时间、处所等。而宾语也不再限于受事,处所、工具、结果甚至施事也都可以充当。系动词“是”连带的成分也归为宾语,取消补足语。
(3) 主语范围扩大的同时,主谓结构充当谓语的主谓谓语句地位大大提高了,与体词谓语句、形容词谓语句、动词谓语句一起并列为四种基本句子类型。相应地,取消了传统语法中“宾语提前”等变式句的讲法。例如,“这事我不在乎。”一句中的“这事”不再认为是宾语提前,而认为直接作主语。“我不在乎”是一个主谓结构作谓语,整句为主谓谓语句。
(4) 析句法打破传统的句子成分分析法,改为采用“层次分析法”,即除并列结构外,其他结构一律采用二分法。这样,句子结构分析就变为若干步骤的层次划分,如图4所示。
(5) 总体上看,语法分析从传统语法的偏重意义转为更加偏重形式。从形式出发避免了传统语法中词类转类说、句法变式说等繁琐理论,使语法体系显得更加清晰简练。整个体系的焦点集中在主谓、补充、动宾、偏正和并列等若干类结构关系上,并将这些句法结构关系贯彻到构词分析中。
结构语法在50年代崛起后便迅速发展成为与传统语法分庭抗礼的一大流派,影响至为深远。传统语法在此后发展过程中也有相当的借鉴和吸收,例如,胡裕树主编的《现代汉语》教材中语法体系便是在《暂拟系统》基础上进行改良,尽可能向层次分析法靠拢。而黎氏语法60年代的发展也可见结构语法的某些影子,例如,《汉语语法教材》和《现代汉语语法讲义》讲“形述子句”就是在一定程度上接受了主谓谓语句的分析思路。
这一时期汉语语法体系研究是在改革开放之后,语法学界大量介绍和引进国外新语法理论的历史背景下复起的。这时《暂拟系统》经过二十多年的中学教学试用,缺点已经暴露得比较充分了。于是在修订《暂拟系统》的强烈要求下,语法学界首先在《中国语文》上开展关于“析句方法”的大讨论,并于1981年在哈尔滨召开了全国“语法和语法教学”讨论会,在此基础上拟订出《〈暂拟汉语教学语法系统〉修订说明和修订要点》,随后制定了《中学教学语法系统提要(试用)》。
《系统提要》对《暂拟系统》的改造主要有以下几个方面。
(1) 取消附类的提法(如方位词为名词附类),改为普通子类;取消名物化说法,即否定了转类说。
(2) 原来一些折中未解决的问题,如合成谓语(判断合成谓语、能愿合成谓语、趋向合成谓语)和复杂谓语一律改为某种结构类型的短语。
(3) 最大的改变是析句法,《修订说明》中给出了三种图解建议,其中前两种为层次分析法,第三种为句子成分分析法的简化画法(加线法)。如图5所示。
图5 三种析句图解法
显然,《系统提要》中短语的地位大大提高了,并且不再讲句子成分和结构格局,这就意味着结构主义语法在这个体系中占据了主流,而黎派语法及其代表的传统语法被彻底批判和否定了[9]。
结构语法在这一时期的又一高峰是朱德熙的“词组本位”语法理论,其语法体系的全面展现是在1982年出版的《语法讲义》中。这是继《现代汉语语法讲话》之后结构语法发展构建出的最有影响的一个体系。其主要思想在另一部理论著作《语法答问》有相关说明。“词组本位”语法体系的主要特点为以下两点。
(1) 划分词类的标准为词的语法功能。语法功能解释为“词在句法结构里所能占据的语法位置”。而判定一个词的归类必须根据这个词的功能“分布”,即考虑它在所有结构中的功能总和。因此,词类与句法成分之间不存在一一对应的关系。
(2) 认为汉语句子构造原则与词组的构造原则基本一致,词组如果前后都有停顿就可独立成为句子,因此,对句子结构分析可以完全转化为词组结构关系分析,即采用层次分析法。
结构语法在这一时期的发展和地位提升在大学语法教材的内容安排中也有所反映。几乎所有的教材都增加了短语结构分析的章节,或者在传统的句子成分分析法基础上结合层次分析法进一步分析成分内部的短语结构(胡裕树主编《现代汉语》修订本,黄伯荣、廖序东主编《现代汉语》),或者直接采用层次分析法进行直接成分分析(张志公主编《现代汉语》)。总之,短语在汉语语法中的地位巩固下来,短语结构分析成为汉语语法分析不可忽略的一个环节。
但也应该看到,传统语法并没有完全没落,特别是在语法教学领域有着深厚土壤的句子成分分析法仍然发挥着巨大的作用。也就是说,结构语法没有完全取代传统语法,新构拟的语法体系很多地方是在二者中间取得一个平衡而已。
中文信息处理在进行汉语分析和理解时必然要涉及语法体系的选择问题,因为它决定了整个语言信息处理系统的基本架构,分词规范、词性(即词类)标注集以及句法分析算法无不受其制约。而从目前汉语树库构建实践中可以清楚地看到,中文信息处理选择语法体系大多是直接采用创新时期的最新理论成果,对前三个时期语法体系研究的成果缺少足够的继承和利用。实际上,最适合计算机分析汉语的语法系统不可能是单独的某家体系,而应该是集成各家所长的综合体系。计算机信息处理对这样一个体系的基本要求是: (1)兼顾形式和意义。既要保证分析系统中形式规则的一致性,又要使规则具有意义的可解释性;(2)兼顾词法和句法。既要保证词库建设的可行性,又要让词库知识能有效地应用于句法分析。这就牵涉到语法与语义、词义与句义等理论问题,而前三个时期的语法研究在许多问题上早已有过深入的探讨。从汉语语法体系发展的历史角度来审视中文信息处理,至少可以在句法分析和树库构建方面看得更全面一些,对问题的发现和解决应当是有益的。
目前中文信息处理领域句法分析采用的主流语法体系可分为两大类: 以短语成分为基础的短语结构语法和以词汇依存为基础的依存结构语法[10]。国内以这两类语法体系构建的汉语树库分别以清华大学汉语树库(TCT)和哈尔滨工业大学汉语依存树库(CDT)为代表。
清华树库的主要指导思想是朱德熙的“词组本位”语法理论,将从词到句的分析看作是短语的层层组合(句子也看作短语,比如单句为dj),如图6所示。每一级短语标注两类信息: 外部功能和内部结构。例如,np-DZ,np为名词性短语,表示整个短语对外相当于一个名词的功能;DZ为定中结构,表示构成这个短语的两部分之间是定中关系,“历代”为定语,“理财家”为中心语。在其2003年发布版本的标记集中,外部功能共分名词性短语、形容词性短语、动词性短语、时间短语、处所短语、单句、复句、句群等16类,内部结构共分主谓、述宾、述补、定中、状中、联合等27类[11]。
图6 清华汉语树库短语结构树示例
在这种二元标注设计中,外部功能信息即所谓的“直接成分”,它的嵌套层次反映句子的层次结构;而内部结构信息则表达各短语层次的“句法关系”。也就是说,把传统语法中主语、谓语、宾语等“句子成分”表达的一元信息分成了两部分。这样做有两个好处: 一是形式上统一了句子结构和短语结构,所有句法关系(除并列关系)都可以在短语内部以二分法实现,系统异常简练;二是以直接成分来表达结构层次,不受任何句子格局的约束,结构层次从句子结构关系中独立出来上升为主要的句法手段,有利于复杂层次关系的精细刻画。
但是,它的最大缺点就是句子格局信息的丢失,而这一问题的存在又必然导致从句法结构中获取句子主要意思(句义)变得非常困难。这里将图6中的例句“历代理财家也大多主张轻税政策”用传统语法图解出来做一个比较,如图7所示。“理财家”、“主张”、“政策”分别是同一句子格局下主语、谓语、宾语的中心词,如若设计数据结构,则它们应位于同一层次或者固定的上下层次中,以保证程序能按照固定模式从结构中将其取出,组成句义信息。而在图6的结构中,句法关系已经变成短语内部的对立关系,作为句子成分的主谓宾和定状补就不存在了。当然也可以根据dj-ZW粗略地找出句子的主语“历代理财家”和谓语“也大多主张轻税政策”两大部分,但每一部分语义中心词的出现深度则不可预知了。
图7 传统语法图解示例
清华树库的词类系统与北京大学计算语言学研究所《现代汉语语法信息词典》是一致的,其主导思想也是来自“词组本位”语法体系,即以词的语法功能分布来给词定类。例如,图6例句中的“轻”标注为形容词,但它带宾语“税”,那就是认为此处只是形容词的词类活用现象(减轻税赋,使动用法),它与“轻重”之轻在词义上具有同一性或引申性,仍属于同一个词。而语法上的词类必需根据这个词所有语法功能的分布状况来决定,此处“轻”的活用并不足以改变这种分布,因此不算兼类,仍然标注为形容词。而图7中的“轻”根据传统语法“依句辨品”的词类思想应该是标为动词的,即认为此处“轻”已经发生转类。从中文信息处理的角度看,这两种词类标注法各有利弊。前者站在固定词库中词类属性的角度,尽量让语料库中处于组合状态的词与词库中处于聚合状态的词保持词类的一致,以求做到“词有定类”;而后者是从句法分析的需求出发,尽量保证词类与句法功能的对应关系,力求做到“类有定职”。显然,清华汉语树库选择的是前者的做法。
从上文分析可见,短语结构语法的最大问题在于取消句子格局后,句子结构被层次拆分得过于零碎,表达一个基本句义的短语中心词被分散到了不同层次的节点上。这对在自动句法分析中利用语义信息是很不利的,因此,直接以词汇之间语义依存为语法指向的依存语法体系便在中文信息处理自动句法分析和树库建设中广泛运用起来。国内影响最大的是哈尔滨工业大学构建并共享的1万句汉语依存树库。哈工大树库一共定义了24种依存关系,除了主谓(SBV)、动宾(VOB)、介宾(POB)、定中(ATT)和状中(ADV)等常见句法关系之外,还将“的”字、“地”字、“得”字、“把”字、“被”字等特殊结构关系也加入标注集中[12]。
依存结构树可以由短语结构树转化得到[13]。按照转化规则,上引清华树库例句可转为如图8所示的依存语法树: 直接采用词与词之间的依存关系来描述句子结构;既有相邻词依存,又有远距词依存;存在依存关系的一对词中必有一个中心词,称为支配词,而另一词为被支配词。
图8 依存结构树示例
与短语结构语法相比,依存结构语法有以下两个优点。
(1) 取消了短语层级,使语法结构树的层次和结点都大大减少,所有语法信息都可以直接在分词结果上进行标注,无需额外的数据结构,这有利于树库的数据存储。
(2) 强调每一个依存关系都有一个中心词,并且以动词为核心支配主、宾等成分,这在某种程度上使得句法依存和语义依存之间有了一种天然的联系[14],其分析结果能够更好地为后续语义角色标注所用。
依存语法与句本位语法在标记中心词这一点上是相同的,但它们也存在着本质的区别,主要体现在以下三个方面。
(1) 句子格局的语法思想。传统语法维持句子格局是以句子的几大成分为基础,而依存语法虽然以动词为中心恢复了短语中心词,但并没有在一个格局下恢复主语、宾语等句子成分。它的中心词依存关系仍然属于一种短语内部结构关系的性质,虽然从形式上取消了短语结点,但以中心词为根的子树就等价于词组本位中的短语,区别仅仅在于二分还是多分。因此,依存结构本质上还是短语结构而非句子结构。
(2) 依存语法的中心词与传统语法的中心词也是有差别的。传统语法中,主谓、谓宾都属于离心结构,不认为谓语是中心,主谓结构和动宾结构也不能以动词作为整个短语的功能代表。
(3) 传统语法明确区分主要成分、连带成分和附加成分,而依存语法中所有依存关系地位是一致的,并没有主次之分,在树结构中,都以支配词为父节点。
另外两个影响较大的汉语语法树库是宾夕法尼亚大学的宾州汉语树库(CTB)[15]和中国台湾“中央”研究院词库小组的中文句结构树库(Sinica Treebank)[16]。
宾州汉语树库基本沿用宾州英文树库PTB-2的标注体系,以英语的传统教学语法框架来标注汉语。它打破二分法的层次分析模式,而采用骨架分析的思想形成比较扁平的句法结构树,然后再标注句子中主要句法成分的语法功能。由于采用英语语法框架来分析汉语,因此受到一些学者的非议[17]。实际上,汉语传统语法中的句子格局正是从这种骨架分析思想借鉴而来,或者说,汉语传统语法和英语传统语法有相通之处。因此我们认为宾州树库是采取短语结构的形式(如图9所示),而在句法树构造上却带有传统语法的思想。其句法功能标注更加类似于汉语传统语法的“句子成分”,而与前述两个汉语树库仅标注“结构关系”有本质的区别。
图9 宾州汉语树库示例
图9句法树中,直接成分(NP、VP等)与句子成分(SBJ为主语,APP为同位语,TMP为时间状语)并存,句子骨架为“中文版 出版 发行。”这三个词是全句格局下主要成分的中心词,因此,在结构中基本处在同一层次。这里有两个要点是传统语法体系内定而无需特别标注的。(1)关于中心词。例如,定语与名词放在同一层,后面的名词是中心词;状语与动词放在同一层,后面的动词是中心词。因此,抽取句法树骨架时,修饰成分不会混入进骨架中。(2)关于句法关系。句法树中没有标明(NP (NN 中文版))和(VCD (VV 出版)(VV 发行))之间的关系,但它们是处在同一句子(IP)格局下的两个主要成分(SBJ和VP),主谓关系自明。传统语法单句格局的成分构成是体系内定的,因此,完全可以做到从扁平树结构中正确解码所有的句法关系。
不过,宾州树库毕竟是在英语语法框架基础上建立的,它对汉语句子格局的维护是不自觉、不彻底的,比如谓语和定语就采用了直接成分VP、ADJP。另外,它还吸收了转换生成语法思想,添加了Wh-转移和空语类节点(如图9中的-NONE- *)。
Sinica树库的语法架构称为“信息为本格位语法”,其主要思想为中心语主导原则,即每个句子或短语都有一个中心语(Head),短语结构由中心语与其论元(argument)或附加成分(adjunct)组成,并由中心语决定词组的类别,例如: 句子(S)和动词短语(VP)的中心语都为动词(V);名词词组(NP)的中心语为名词(N);介词词组(PP)的中心语为介词(P),等等。如图10所示,中心词的标注既实现了语法树层次的扁平化,同时又把同一层次节点之间的语义角色关系清楚地表达出来了。这种语法树基本上也是以动词为中心,结构上接近于依存语法构造的依存树,句法关系表达上则采取了更加语义化的“角色标记”。这些语义角色大多来自格语法,抛弃了主、谓、宾、定、状、补等传统语法概念,因而也不具备格局内部主要、连带、附加的层次性划分。所以Sinica树库的结构性质是语义化的依存树。
图10 Sinica树库示例
综上所述,不论短语结构语法还是依存结构语法,中文信息处理的句法分析大体上都是以短语为着眼点,以结构关系描写代替句子格局分析。而纯结构关系描写又过于零碎,破坏了句子格局,很难再从中构造出骨干的句子意义。实际上,在语言交际过程中消解结构歧义的最主要判据就是作为思想表达完整单位的句义。传统语法句子结构格局的思想正是当前树库建设缺失或不足的地方。因此,在中文信息处理中探索基于传统语法体系的句法分析和树库构建框架,不论对于传统语法本身还是中文信息处理,都具有重要的理论和实践价值。
将传统语法应用于中文信息处理首先面临的是形式化问题,即设计一个以句本位语法为理论依据的句法标注体系,这又涉及若干子问题需要首先澄清。
当年讨论析句法问题时,传统语法的加线析句法曾一度被认为不能反映句子层次而受到批判。实际上,加线法只是图解法的一种简化画法,不能因为加线法没有表达层次就否定传统语法的结构层次性。传统语法在结构格局的管制下有着极为严谨的层次,这一点可以从《实践论》、《矛盾论》等作品的篇章级图解实践中清楚地看到[18—19]。
图11 句本位图解法的层次
如图11所示,三条粗线代表三个格局。句子的结构层次体现在两个方面,一是句子格局的层次,二是格局内部各成分的层次。其中①处虚线连接的两个格局是复句关系,②处支架顶起来关联的两个格局是子成分关系。这两种层次代表句子格局的层次,标注时采用类似清华树库的层次嵌套法。而各格局内部的主、谓、宾、补、定、状之间是一种自然的层次,由体系决定(参考图2的图解总公式),标注时就可以采用类似宾州树库的扁平化处理,将各成分平列或散列于固定层次的格局结构中。
为了尽量维持体系格局的稳定性,黎氏语法在论述句子结构时特别讲变式和省略。最典型的变式就是在主宾语大讨论时曾经争论过的关于“宾语提前”的问题。例如,
① 宾提动前: 我把“这本书”读完了。
② 宾置句首: “这本书”我读完了。
也就是说,承认这两句与“我读完了这本书”存在一定的语义转换关系。这与结构语法从语序出发的看法很不一样,结构语法认为①句是“把”字介词结构作状语,②句中“这本书”是主语,“我读完了”是主谓谓语。其实这两种看法都有一定道理,传统语法偏重意义,而结构语法偏重形式。我们认为,既不能认为这三句的意义完全等同,也不可完全抹煞它们之间的逻辑转换关系,需要结合上下文“活看”句子结构才能确定主宾语。
“依句辨品”的词类观与词库构建之间的矛盾反映到句法分析的具体操作中,就是词的转类问题。依句辨品稳固了词类与句子成分之间的对应关系,使类有定职,这对于句法规则的获取是有利的。问题在于词库中词类的确定,即如何做到词有定类。若承认依句辨品,则词库存储的词类信息不能简单地从标注语料中直接获取,必须经过归纳。反之,句法分析或语料标注时词类取值也不能仅限于词库记录的词类项,而应允许适当的转类。这是因为词库和语料分别代表了词义的两种状态: 聚合状态下的贮存义和组合状态下的使用义。区分这两种状态下的意义是可行的,也是有必要的。在此基础上才能更好地用基本词汇义来真正实现词有定类。而黎氏语法体系在涉及转类问题时也作了若干规定,比如设置七位是为了控制实体词基本不转类,散动说是为了控制动词基本不转类[8]。词类的转类问题基本可以得到有效控制,不致完全无规律可循。
传统语法通过词类、句子成分以及句子格局,搭建起了一座从词义到句义的桥梁。中文信息处理若采用传统语法体系,最大的优势就在于有可能通过固定格局下的句式分析和统计,从大规模语料中学习得到基本句义,进而归纳、抽象为反映人类语言经验的结构化知识——事理,最终建立一个事理知识库,让计算机的语言知识范围突破现有的词义知识、短语知识,扩展到句义知识。而归纳抽象事理知识是从语义角度对语法形式做系统检验,必然会引出对传统语法体系的调整、改进和完善。
我们首先将黎锦熙《汉语语法教材》三编中的全部例句(共计11 041句,21万字)摘出,按照黎氏语法体系标注其句法信息,初步构建了一个现代汉语句本位语法树库。黎氏格局下单句主干共分五种类型,《三编》例句的分布状况如表4所示。句式主干结构代表了最高抽象层次的事理知识。通过句式分析可以检验黎氏语法结构格局的合理性,标准是: 同一句式的句子应当反映出一定的意义统一性,而不同句式的句义类型要具有相当区别度。目前从树库中抽取的不同句式句子基本上能满足句义类型区别度的要求,但是在相同句式的句义统一性上则还需要进一步的归纳和分类。
表4 《汉语语法教材》单句主干类型统计
汉语传统语法由于其依句辨品、允许转类的词类观和调整语序、承认变式的句法观等相对繁琐的理论而在20世纪80年代与中文信息处理失之交臂,至今中文信息处理领域采用的语法体系仍然是结构主义语法全面占据的局面。而自动句法分析中突显出来的语义匮乏问题却让我们重新审视传统语法的一些优点,特别是强调句子格局的语法思想尤为珍贵。因此,我们提议在中文信息处理领域引进传统语法体系,让传统语法与结构语法在各尽所长的基础上相互补益,共同推进自动句法分析研究,提高计算机的汉语理解水平。
[1] 董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9.
[2] 俞士汶.建设综合型语言知识库的理念与成果的价值[J].中文信息学报,2007,21(6):3-12.
[3] 黄居仁,谢舒凯,洪嘉馡,等.中文词汇网络: 跨语言知识处理基础架构的设计理念与实践[J].中文信息学报,2010,24(2):14-23.
[4] 黄曾阳.HNC理论概要[J].中文信息学报,1997,11(4):11-20.
[5] 宗成庆,曹右琦,俞士汶.中文信息处理60年[J].语言文字应用,2009,23(4):55-63.
[6] 林玉山.汉语语法学史[M]. 长沙: 湖南教育出版社,1983.
[7] 邵敬敏.汉语语法学史稿[M].北京: 商务印书馆,2006.
[8] 黎锦熙.新著国语文法[M].北京: 商务印书馆,2001.
[9] 胡明扬.现代汉语语法的开创性著作——《新著国语文法》的再认识和再评价[J].语言科学,2002,(1).
[10] 宋继华,杨尔弘,王强军.中文信息处理教程[M].北京: 高等教育出版社,2010: 100-101.
[11] 周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8.
[12] Liu Ting, Ma Jinshan, Li and Sheng. Building a dependency treebank for improving Chinese parser [J]. Chinese Language and Computing, 2006, 16(4):207-224.
[13] 李正华,车万翔,刘挺.短语结构树库向依存结构树库转化研究[J].中文信息学报,2008,22(6):14-19.
[14] 黄昌宁,李玉梅.从树库的实践看句本位和中心词分析法的生命力[J].北京师范大学学报(社会科学版),2010,(5):55-60.
[15] Naiwen Xue, Fei Xia, Fu-Dong Chiou, et al.The Penn Chinese TreeBank: Phrase structure annotation of a large corpus [J]. Natural language engineering, 2005, 11(2):207-238.
[16] 陈凤仪,蔡碧芳,陈克健,等.中文句结构树资料库(Sinica Treebank)的构建[J].Computational Linguistics and Chinese Language Processing,1999,4(2): 87-104.
[17] 王跃龙,姬东鸿,汉语树库综述[J].当代语言学,2009,(1):51-59,98.
[18] 黎锦熙.《实践论》语法图解[M].南京: 江苏人民出版社,1956.
[19] 黎泽渝,刘庆俄.黎锦熙文集[M].哈尔滨: 黑龙江教育出版社,2007.