何山华 毛眺源
(1.扬州大学 外国语学院,江苏 扬州 225127;2.苏州大学 外国语学院,江苏 苏州 215006)
自《句法结构》[1]出版至今已有60年,乔姆斯基(Chomsky)无疑依然是语言学领域最有影响力的学者,他当年凭藉此书开创生成语法理论,一举“根本改变了现代语言学的面貌”[2]1,由此被称为“现代语言学之父”[3]。《句法结构》的一个重要贡献就是提出了语法的形式化思想,它将数学和逻辑的分析方法引入了语言学研究,使语言学开始向精密科学、自然科学发展[4]。60年来,生成语法理论的技术内涵历经数次重大变化,但一直秉持了《句法结构》所确立的数理化的理论原则。
近年来越来越多的西方学者认识到《句法结构》将在语言学史上占有重要一席,投入大量精力对该书的数理思想内容进行总结,并对其形式化思想渊源进行考证。例如,纽迈尔(Newmeyer)[4][5]在描述生成语法历史时重点分析了《句法结构》的数理理论特质;马修(Matthews)[6][7]挖掘出了该书与同时代类似研究的关系;奥特罗(Otero)[8]1-36则将整个20世纪上半叶相关的数学研究进展均纳入《句法结构》数理渊源的讨论;格拉菲(Graffi)[9]甚至将数理化句法研究的历史上推至整个19世纪。而较近的重要成果当属托马林(Tomalin)[10]的专著《语言学与形式科学——生成语法探源》,系统分析了20世纪上半叶出现的数学技术及其演化进入生成语法的过程。
如今西方学者已经就《句法结构》所涉及的数理思想内容有较全面的认识,如乔姆斯基的学生帕蒂等对语言研究中的数理思想和数学方法进行了梳理[11]182,不过国内学界还少有涉及。而对于《句法结构》数理思想的渊源及其影响,中西方学者均有探讨,但远未形成共识,如纽迈尔认为《句法结构》首先在语言研究中使用了数学方法,引起不少争议;托马林则过度强调了来自数理逻辑领域的影响,忽视了当时心理学和哲学领域的背景[12]97-115;毛眺源等[13]只诠释了《句法结构》数理概念对当前语言学发展的宏观影响。总的来说,学界目前基本同意《句法结构》的数理思想奠定了形式语言学的部分认识论和方法论原则,其出现是当时数学和语言研究融合这一大趋势所推动的,但其中的数理知识到底借自何处、其数理化思想是否由乔姆斯基原创,至今仍有争论,而关于《句法结构》史学价值的讨论可以说才刚刚开始。本文拟在西方学者讨论的基础上,对《句法结构》涉及的重要数理知识进行检视,对其来源进行分析,并试图探讨这些知识对生成语法后期发展的影响。
《句法结构》提出可以用一套机器可理解的形式化规则,产出语言中所有合乎语法的句子,其所借用的工具包括算术中的集合,几何中的公理系统,以及逻辑上的运算等数理概念。书中最具决定性的创新包括将递归函数理论和公理演绎思想引入了语言生成的分析过程,以及提出乔姆斯基形式语法等级体系。
在乔姆斯基看来,“语言知识是什么”是语言学家必须回答的核心问题之一。他把这一问题叫作“洪堡特问题”(Humboldt’s Problem),并接受洪堡特[14]56-75对这一问题的回答:“语言绝不是产品,而是一种创造性活动”,其核心就是“有限手段的无限使用”。乔姆斯基认为,洪堡特所指出的这种“语言的创造功能”其实就是一种递归机制,它使人们可以用有限的语言素材表达无限数量的思想、感情、意图等。[15]
递归如今是在数学和计算机科学中一个非常重要的概念。递归函数的基本概念在19世纪甚至更早就已出现,但直到20世纪30年代才被丘奇(Church)和哥德尔(Godel)等数学家正式提出,随即获得快速发展。至50年代时已经有学者[16]47-58将其用于自然语言的句法研究。递归函数通常由一个初始值出发,通过循环计算而定义一类值,其最关键的特征在于“自我参照”(self-reference)。[10]61-62比如在数学上,就可以采用递归的方法定义自然数的集合:“1是一个自然数;每个自然数都有一个后继,记作n+1;n+1也是自然数。”与此相类似,在自然语言中也可以使用一定的机制来拓展语言结构。比如英语可以通过在从句中嵌套从句来实现类似递归的功能,如“Mr. White is waiting for Mr. Black who is waiting for Ms. Green who is waiting for …”。在理论上,所有的语言都可以通过递归的方式使句子变得无限长。
《句法结构》试图通过数学方式论证语言的这一属性。乔姆斯基[1]21假定存在一种语言,只含有字母a和b,句子都是镜像字符串(1)镜像字符串是指可以一分为二,左面一半与右面一半由相同的符号组成,但顺序正好相反的符串。如abba,babbab,bbabbabb是镜像字符串,aabb, abab则都不是。。如果使用列举的方式,显然无法穷尽该语言所有的句子。但如果利用递归机制,就可以通过三个步骤描述这种语言L:(ⅰ)规定字符串x的初始值,即x等于aa或bb;(ⅱ)给出可以重复执行的递归步骤,如在X的两端各添加一个a或者b。(ⅲ)给定约束条件,把所有不是从(ⅰ)和(ⅱ)运算得来的符号串排除之外。这样,就可以用少量的规则来描述符合语法的所有语言事实,无须一一列举。乔姆斯基的学生帕蒂等(Partee)[11]182曾将上述构想具体表达如下:
(ⅰ) aa ∈ L & bb∈ L
(ⅱ)(∀ x)(x∈L→(axa∈L & bxb ∈ L))
(ⅲ)除了(ⅰ)和(ⅱ)产生的字符串以外,L不包含任何元素。
(注:∈:属于;∀:对于所有;→:如果……那么……)
以上例子很好地说明了《句法结构》有关语言递归属性的观点:“如果一种语法没有递归机制,就会变得无比复杂;如果有了某种递归装置,就能够产生无限数量的句子。”[1]24乔姆斯基因此认为递归性甚至可以说是人类语言唯一至关重要的特性。[17]1569-1579我们可以看出,递归机制就是生成语法理论中“生成”概念的基础,这也解释了为什么乔姆斯基说生成语法的研究之所以能实现,乃是数学发展的结果。[15]
公理演绎思想的使用是《句法结构》的一个重要特点。乔姆斯基引入大量的符号,使用公理演绎的方法精确呈现句法的生成过程,从而实现了“对我们有关语言的直觉进行严密的描述”[18] 375。
公理系统(axiomatic system)具有与递归相似的逻辑结构:从数量有限的给定初始命题出发,通过反复应用一套推理规则,推出无限数量的其他命题。初始命题被称为公理,而推理出来的命题被称为定理。公理集合、推理规则集合以及用于标记这些表达式的字母表,构成一个公理系统。它是一个有序三元组(A, S, P),其中:(ⅰ)A是一个符号的有限集,称为字母表;(ⅱ)S是A中符号组成的符串的集合,称为公理;(ⅲ)P是A*中n元关系的集合,也就是生成式或规则。《句法结构》中提出的短语结构语法[∑,F]就是一种典型的公理系统:∑代表初始符号集,F代表一套改写规则,F的形式为X→Y(把X改写为Y;X可以为一个符号串,但每次改写只能改动其中一个符号)。[1]29
当需要进行复杂推理的时候,就要引入新的符号集合(即辅助字母表,它只参与推理但不出现在最终结果中,因此也被称为非终结字符),成为一个扩展的公理系统,用(A, B, S, P)表示。如果把扩展的公理系统只应用于字符串重写,规定每一次推导的形式都限定为α→β这一生成式(α和β都是符串),那么我们就得到一个半图厄系统(semi-Thue system)。该系统以首次研究它的挪威数学家图厄(Axel Thue)命名,具体来说就是每次推导的生成式都是φxψ→φyψ的形式。
上文所述的[∑,F]语法,就是一个半图厄系统。∑为初始字符串,不过仅包含一个非终结符号Z;F是生成式,包含两条规则:F: Z→ab;Z→aZb。乔姆斯基[1]30假设有一种语言,其具体形式为n个a联接上n个b,如ab,aabb或aaabbb,则可以用如下包含三个步骤的[∑,F]语法进行定义:(ⅰ)∑:Z;(ⅱ)F:Z→ab;(ⅲ)Z→aZb。该语法生成的语言可以表示为{anbn∣n≥1}。乔姆斯基[1]31强调,Z只是引入的一个符号,它不是该语言中真正存在的句子,而且正是这个Z使形式句法变得抽象。我们可以看出,这里的Z其实就是扩展公理系统里的辅助字母表。将这一系统应用于自然语言的语法描写,就可以写出“the man hit the ball”的生成过程(2)本例中的NP,VP,T,N,Verb等都属于辅助字母,不出现在最终推理结果中,完整推理过程见Chomsky,N,Syntactic Structures,p.26.:
(ⅰ)Sentence→ NP + VP
(ⅱ)NP→ T+N
(ⅲ)VP→ Verb + NP
(ⅳ)T→ the
(ⅴ)N → man, ball
(ⅵ)Verb → hit, took
乔姆斯基[∑,F]语法所体现的演绎思想是革命性的,使生成语法立即从根本上有别于当时语言学以归纳为主的研究传统,在语言学界引起了广泛的强烈反响。《句法结构》基于公理系统为字符串的生产规定了生成规则,使语言学可以从确定的前提出发,基于少数规则推导出不同语言合乎语法的句子,对当代语言学后来半个多世纪的发展产生了深远的影响。
《句法结构》的一个重要贡献是正式将形式语法引入了语言学研究,用于描述语言的生成过程。乔姆斯基将基于上述公理演绎思想建立的形式语法根据限定条件不同,分为四种(0型、1型、2型、3型),后来被称为乔姆斯基等级。[19]有意思的是,乔姆斯基等级如今被纳入数学和计算机理论体系,成为进入这两个领域的学生的必学内容。
乔姆斯基等级的4种文法基于一个扩展的公理系统,即G =(A, B, S, P)。如果它的每个产生式α→β中,α含有至少一个辅助字母,而β没有,则G是一个0型文法,即无限制文法。如果在0型文法的基础上加上一个限制条件,要求|β|≥|α|,即β的长度都超过α,则变成1型文法,即上下文有关文法。2型文法是在1型文法的基础上,再要求α都是辅助字母,即上下文无关文法。3型文法是在2型文法的基础上满足:A→α|αB(右线性,只往右边延伸)或A→α|Bα(左线性,只往左边延伸),即有限状态文法。这一体系中0型文法限制最少,生成能力最强,而3型文法生成能力最弱。乔姆斯基在《句法结构》中重点推出的短语结构句法,其实是一种上下文无关文法,不过它规定α→β这一表达式中α只能包含一个辅助字母,其推导过程无须考虑α出现的上下文。乔姆斯基认为,上下文无关语法尽管有诸多不足,但仍然是最适合用于自然语言的描述文法,这一文法后来也被称为乔姆斯基文法。
乔姆斯基[1]19认为有限状态语法无法描述英语的生成过程,并以马尔科夫过程(Markov Process)为例进行了说明。马尔科夫过程实际上是一个典型的随机过程,它的“现在”与它的“将来”和“过去”都无关,只能通过概率统计来体现,因此无法依赖它总是产生符合语法的英语句子。《句法结构》明确指出,“不可能建立一种有限状态的自动机,它能产出并只产出合乎语法的英语”[1]23,并给出“if… then…”和“either… or…”等几个句型进行说明。后来戴利(Daly)[20]与普卢姆(Pullum)[21]277-296指出乔姆斯基的这种论证远不够充分,强调他不但没有在《句法结构》中,而且在其他著作和论文里也没有从数学上认真论证“英语不是有限状态语言”这一观点。更为关键的是,当时乔姆斯基在否定马尔科夫过程的同时,也否定了概率论模型在语言生成方面的适用性,这一点在后来遭到了更多的批评与质疑。
乔姆斯基等级体系中的四种类型的文法后来分别与图灵机、线性有界自动机、下推自动机和有限自动机等四种类型的自动机建立了对应关系,大大推动了计算语言学对语言识别的研究。语言自动机的功能在于检验输入的符号串是否符合某语法,如果是合法的句子,这个装置就接受它;如果不是合法的句子,这个装置就不接受它。乔姆斯基[1]79认为普遍语法的研究对象是“理想化的说话人和听话人的语言知识”,因此听话人和说话人同样重要。说话者通过普遍语法的机制产生语言,听话者通过它识别合法的语言。生成语法和自动机的关系与此类似:生成语法从生成的角度来描述语言,而自动机从识别的角度来描述语言。这种关于形式语法与自动机的对应关系,反映了语言的生成过程与识别过程的内在联系,对于后来计算机程序设计、算法分析、图像识别和人工智能等都产生巨大影响[22]57,已成为计算机处理自然语言以及机器翻译等研究领域的基石之一。可以说,尽管乔姆斯基不是出身于数学专业,但他借用数学和逻辑领域的思想进行理论创新,最终又反哺了数学和逻辑的研究。
《句法结构》或者说生成语法的思想来源较为复杂,其形成背景包括20世纪上半叶西方学界在哲学、心理学、语言学、逻辑与数学等领域的迅猛发展,及这些领域在此之前数百年中的源流演变。[12]毫无疑问,数理思想是生成语法理论来源的核心成分之一,不过由于乔姆斯基本人并未就此作明确说明,导致学界对此进行了长期的考证与争论,自90年代起成为一个热门话题。[4]鉴于乔姆斯基文法主要系其本人原创,来源明确,争论较少,我们此处仅讨论递归函数和公理演绎思想这两个争议较多的内容。
乔姆斯基认识到语言具有“生成”的性质,显然是受到了洪堡特的影响,但将这一性质用递归概念进行显性化,则是得到了他所处时代其他研究的启发:“在50年代初期,开始接触到更多数理逻辑,特别是递归函数理论和元数学知识,而这些领域的发展似乎为更精确地研究自然语言提供了工具。我当时受这些知识启发最大。”[23]只是乔姆斯基受何人启发,又以何种形式、在多大程度上借鉴了其他人的研究成果,至今没有定论。不过根据学界的推断,一般认为乔姆斯基对递归机制的使用直接借鉴了波兰裔美国数理逻辑学家波斯特(Emil Post)的研究成果。[12][21][24]26-60波斯特(Post)[25]284-316曾提出过一套推理规则,称之为“产生式系统”(production system),它实际上是一种递归可枚举集。简而言之,该系统包含了一套规则(每一条规则称为一个产生式),可以在某一初始字符串的基础上“产生”(produce)另外一个字符串。换句话说,如果符合规则,可以在{∅1,…, ∅n}的基础上生成∅n+1。需要注意的是,波斯特这一操作的对象,正是能够组成句子的字符串,与《句法结构》中假定的字符串语言[21][26]有异曲同工之处。
乔姆斯基在上述递归逻辑基础上提出的[∑,F]语法与“产生式系统”颇为相似:∑就是初始字符串,F就是“产生式规则”(production),而且在生成能力的解释上也是近似的。因此,普卢姆[21]指出《句法结构》中递归机制的提出可能是对波斯特成果的借鉴。索林经过考证也提出,该成果在1944年就已发表,6年之后又有罗森布鲁姆(Rosenbloom)[26]进行了概括与阐述,乔姆斯基完全有条件接触到这一内容。[12]拉斯尼克等[24]的研究也表明,乔姆斯基的形式化机制是对波斯特算法理论的系统化和一般化。实际上乔姆斯基[23]曾承认“generate”一词的使用参考了波斯特的“produce”,但言尽于此。索林[12]因此批评乔姆斯基不够坦诚,对借鉴最多的学者却提及最少,未能明确指出其思想的来源。鉴于[∑,F]语法与“产生式系统”颇为相似,我们认为乔姆斯基对波斯特的借鉴可能是存在的,甚至是“显而易见的”[12],保守地判断,即便乔姆斯基没有简单照搬波斯特的成果,也“不能忽视他熟悉波斯特的研究这一事实”[10]61,因此可以认为波斯特的研究应是启发乔姆斯基将递归概念用于语言生成的最大灵感来源。
在《句法结构》之前,语言研究基本上是遵循归纳思想,即从观察语言事实出发,通过比较、类推、总结等手段获得对语言系统的认知。《句法结构》尝试用[∑,F]这种公理系统的形式化手段对语言生成的过程进行严格的表述,使语言学研究变得精确,进而成为一门“明晰”和“严密”的“科学”。[18]也因为如此,《句法结构》被认为是“创造了一个新的时代”[27]36,其巨大影响导致很多人感觉是乔姆斯基首次将公理演绎思想应用于语言学研究。但相关研究表明,将演绎思想引入语言学的首创之功到底应归于谁,存在不同观点。托马林[10]55认为布龙菲尔德的引领起到了重要作用。布龙菲尔德[28]153-164在20世纪20年代指出语言学家应将数学中的公理-演绎方法用于对语言的研究,以迫使语言学家明白清晰地表达其思想,定义其术语,区分独立和依附性元素,并由此建立语言的科学。这一倡议在40年代末50年代初得到了其他语言学家的实质性回应,产生了较多研究成果,至50年代已能借助于形式符号,使用公理-演绎方法进行较为精确的句法分析[10],如“公理句法”(axiomatic syntax)[29]409-413。50年代时,语言学界的很多学者“为了追求‘严密’,都急切地盯着数学”[30]36,对于数学技术的学习和使用已经成为一种思潮。鉴于布龙菲尔德虽然较早提出了倡议,但其本人并未就此进行具体应用,而相关实质性成果直至20年后才开始出现,我们认为布龙菲尔德的作用是有限的。
拉斯尼克等[24]曾提出乔姆斯基这一思想直接来自戴维斯(Davis)未出版时的书稿[31],但这种考证鉴于没有得到当事人的确认,难以令人信服。根据乔姆斯基的自述,其对于数学的研究是得自其老师哈里斯(Harris)的建议[23]33,考虑到当时数学领域内对于公理-演绎思想的使用已经具有较长的历史,因此要确定公理-演绎思想的具体来源,甚至唯一来源,是非常困难的。正如巴奇(Bach)[32]9-10所指出的一样,公理-演绎思想在语言学中的运用,是数学和语言学两大学科长期(一百年)相互靠拢的结果。我们认为,要将生成语法中公理-演绎思想的来源归于某一位数学家或语言学家是一种过于简单化的思路;乔姆斯基受彼时风潮影响,必定是从多个来源接受了公理-演绎思想。
乔姆斯基承认自己在数学方面是完全自学成才[33]6,他所使用的数理知识基本上来自专业数学家,相关来源在数学领域一般可以找到证据。对乔姆斯基将数理知识运用于语言学研究是否为原创的质疑,乔姆斯基的回应是:“我经常被邀请参加数学界的研讨会和学术会议,就数理语言学作报告;从来没有人质疑我发言的资格;他们想知道的是我的发言内容。”[33]6-7我们认为,乔姆斯基将数理理论创造性地应用于语言研究,对现代语言学的发展提供了“积极推动作用”[13],而乔姆斯基是否参考了至今未披露的信息来源,将由于他在语言学史上的关键地位逐渐成为一个具有史学价值的重要问题,很可能将在乔姆斯基身后继续被讨论。
《句法结构》的出版和生成语法的创建对于语言学研究的影响可用“革命”[34]16-24和“震荡”[35]247-270来形容,而其对数理思想和数学形式的使用,则被认为是其革命性的一个方面。[5]纽迈尔(Newmeyer)[5]24指出:“在1957年之前,不仅是语言学界,所有人文学科和社会科学领域的人都普遍认为,不可能使用一种形式化的非经验主义的方式对人类属性进行描述。” 以《句法结构》的出版为标志,乔姆斯基证明了这个做法是可能的,并保持了后来超过半个世纪的蓬勃发展。(3)至2019年7月1日在谷歌上的查询结果显示:《句法结构》自出版以来的被引次数已达到2.2万余次,至今热度不减,2015年以来引用次数也达3 500余次。不过, 《句法结构》的贡献与其说是为自然语言的研究提供了坚实的论证和精准的结论,倒不如说是证明了一种新思路的可行性。《句法结构》中提出的一些结论虽未佐以完善的数学论证,导致了后来 其他学者关于其中数学细节的长期的论争。[36]后人沿着乔姆斯基指出的方向开展了长达五六十年的探索并取得了巨大的进展,只是这一导向能否引领我们破解人类语言的终极秘密还有待未来继续深入探索。有人认为,与其说是《句法结构》实现了语言研究的创新性、明晰化和技术上的一致,不如说是它催化了后来者在这一方向上实现了创造性的突破。[21]随着生成语法具体理论细节的多次变化,以及计算机技术发展对自然语言处理的极大推进,近年来《句法结构》中有关数理基础的部分观点引发学界的再度反思,本文仅略举两例。
学界近年来开始质疑乔姆斯基当时关于有限状态语法和概率论模型的批判态度。乔姆斯基在《句法结构》中认为有限状态语法无法用于描述英语,也无法用于描述其他自然语言,因为这一途径无法解释最终结果,不得不过度依赖概率统计数据。《句法结构》指出,“合乎语法”与语言结构在语言中出现的概率高低没有关系,一个人产出和辨识合乎语法的话语的能力并非建立在统计近似值等概念之上的,概率论模型无助于解决句法结构中的一些根本性问题。[1]15-17但后来计算机技术的飞跃使有限状态语法以及概率论模型在自然语言识别方面取得了很大的成功,这使得有学者[37]30-33对乔姆斯基的当年的这一立场提出质疑,认为不能因为马尔科夫模型的限制就否认其他概率模型的可行性。
乔姆斯基似乎确实未能预见概率论在语法能力研究上的作用,是否有误导语言学研究发展 方向之嫌?我们认为不能如此理解,乔姆斯基一直认为科学的任务是对世界做出解释,生成语法的任务则是解释语言的生成能力,而非预测某个结构出现的概率,统计模型无法提供对现象的 理解。尽管概率模型在搜索引擎、语音识别和机器翻译等领域取得了较好的表现,但正如乔姆斯基所指出的,工程上的成功并非科学研究的终极目的,而且目前大部分取得成功的例子都是与语言的基本属性结合使用取得的。[37][38][39]我们认为,概率模型所取得的成功并不能证明乔姆斯基观点的错误,概率模型不致力于发现因果关系,对于解释语言的本质终究只能提供辅助信息,要理解语言生成的过程规则依然要依赖于推导式的研究。
相对于早期,句法语义的关系重新受到关注。乔姆斯基在理论形成初期采取了对语义予以排除的做法,《句法结构》指出,“合乎语法”这一概念应与“有意义”(meaningful)、“有意味”(significant)等语义上的概念无关,企图以语义为基础来给“合乎语法”这一概念下定义是徒劳的。[1]15乔姆斯基对语义的排除可能是受到了当时数学和逻辑学界主张的影响。例如,克林(Kleene)[40]在《元数学导论》(Introduction to Metamathematics)一书中写道:“意义解读与形式系统的描写无关,完全可以将形式符号当做纯粹的标记,而非象征或指向某物的符号。”后来,乔姆斯基将语义重新纳入语言研究,可见初期对于语义的排除很可能是出于追求纯粹形式的考虑。目前,乔姆斯基[41]在最简方案中关于意义的处理比较巧妙,他用不可解读特征和可解读特征区分了非语义(形式)属性和语义内容。然而,即便乔姆斯基已经对语义在语法中的介入留下了一定的空间,他也没有容许语义左右狭义句法中的运算。
《句法结构》比较成功地运用了数理工具创立了一种高度形式化的语言处理理论,开创了语言学家们使用数学方法研究语言的新时代,永远地“改变了语法研究领域的面貌”[42]226。但另一方面,生成语法长期以来的发展也一直受到数学理论发展的限制,《句法结构》中的部分思想来源如今也受到了质疑,如其数理思想的原创性等。不过,乔姆斯基[43]69在语言研究中对于数学的重视是极具启发性的:“如果有人问我如何管理一个语言学系,我会主张大量开设数理语言学的课程,鼓励学生获得足够的数学背景,至少要紧跟数学领域的研究动向,并且学生们应努力与纯数学领域的学者保持联系。”他对目前数理语言学所达到的水平仍不满意,“普遍语法的某种数学理论与其说是今日的现实,勿宁说是未来的希望”[43]71。数学和逻辑领域的发现曾极大推进了语言学的发展,在未来仍有可能为语言学研究提供突破性推动力。对于《句法结构》数理思想的剖析及其渊源的考证,有助于我们更为客观地认识天才人物在科学发展史中的实际作用,并对我们现在和未来的实际工作提供启发。