邓 晓 华,杨 晓 霞,高 天 俊
(厦门大学 1.人类学与民族学系;2.中文系;福建 厦门 361005)
语言的演化分类又称“谱系分类”、“系属分类”,是根据语言间的发生学关系对现有语言进行的分类。演化分类是描述语言亲属关系,窥视语言演化历史的重要方法。
一直以来,语言的演化分类主要采用谱系树模型来描述,而谱系树模型脱胎自生物学中的生物树模型。早在1837年,达尔文就在他的笔记中①见达尔文的“B”笔记本“物种的变化(Transmutation of Species)”第36页。,首次用一棵假想的树描绘了生物演化的方式。1859年,代表其进化论思想形成的《物种起源》一书出版,他在书中首次正式发表了第一张生物演化树图(Darwin 1859:116-117),并用这棵“生命之树”(tree of life)阐述了他关于物种竞争、演化的思想:“同一纲中一切生物的亲缘关系常常用一株大树来表示。我相信这种比拟法甚为真实。绿色的、生芽的小枝可以代表现存的物种;数年前生长出来的枝条可以代表长期连续的绝灭物种……这巨大的‘生命之树’在其传代中也是这样,这株大树用它的枯落的枝条填充了地壳,并且用它的分生不息的美丽枝条遮盖了地面。”(达尔文1963/1859:152-153)此后,演化树的观念深入人心,成为描述生物之间亲缘关系和演化历程的最常用的方法。
语言的演化与生物的演化具有许多平行相似之处,生物学中的许多理论与方法也早已被广泛应用于语言研究之中。达尔文的进化论是现代生物学的基石之一,早在进化论产生之初,达尔文就将生物演化和语言演化联系在了一起。他在物种起源中就提出过这样一个设想:“如果我们拥有关于人类的完整的谱系,那末人种的系统的排列就会对于现在全世界所用的各种不同语言提供最好的分类”(达尔文1963/1859:514-515)。达尔文关于语言谱系分类的思想很快传入语言研究领域,在物种起源出版后的第四年(1863年),德国语言学家August Schleicher(奥古斯特·施莱歇尔)就将演化论引入语言学中。他将语言与生物有机体进行类比,提出“达尔文就动植物种属提出的理论,至少在最基本的方面也同样适用于各类语言的有机体”,同时他还借用达尔文的生物演化树图方法,为“印度-日耳曼语系”画出了第一张树图,描绘了“这个语系逐渐形成的图景”(奥古斯特·施莱歇尔2008/1863)。自此,谱系树(family tree①family tree一般用来表达物种(语言)之间的亲缘关系,同时还用来描述种群的演化过程,因此又称“演化树”,在系统发生学中称“种系发生树”,在语言学领域一般译为“谱系树”。)理论成为描述语言演化历史的最重要的理论模型之一。在此后的一百多年里,语言学家据此为世界上绝大多数语系确立了谱系关系。
谱系树模型结构简单明确,不但能够清晰地表现出物种之间的亲缘关系,还能直观的表现整个种系演化的历史。然而,谱系树模型对演化模式的定义还存在一些缺陷,此外它也无法兼容诸如水平基因转移、重组之类的“特殊”演化事件。
首先,谱系树模型只能描述分化式演化。正如施莱歇尔(1863)所总结的,演化论认为“种是通过逐渐的分化而产生的”,这正是生物学中谱系树理论的基本思想。生物谱系树理论假定同属的物种都由一个共同的祖先(common ancestor)演变、分化而来,即分化是物种产生的主要途径。然而新物种的产生并不总是以分化的方式进行的,在植物界广泛存在的杂交现象就是一个反例。不同种属的植物杂交后,不同种的染色体组合在一起而产生染色体倍数的变异(异源多倍化,allopolyploidization),在少数情况下可以产生与其祖辈生殖隔离的新的物种。
图1 分化与杂交的不同演化模式
另外,谱系树模型无法兼容于生物演化过程中广泛存在的水平基因转移(horizontal gene transfer)、基因重组等网状演化现象。20世纪60年代,蛋白质测序技术出现,生物学进入分子时代,对生物演化历史的研究也开始进入微观层面。演化生物学家开始利用核酸和蛋白质的序列信息,研究物种之间的演化关系,推断和构建生物谱系树。在分子水平上构建的生物演化树比传统的根据生物表型特征(如生物形态、结构、功能等)推断的演化树更加科学、可靠。20世纪90年代以来,一种“新的”基因传递现象——水平基因转移,开始受到演化生物学家的重视。水平基因转移指基因由一个有机体直接转移到另一个有机体的过程。和一般的垂直基因转移(基因由亲代转移到子代)不同,水平基因转移可以在没有亲缘关系的物种之间进行。水平基因转移的发现使生物学界关于物种的分化遗传是演化的主要过程的观点受到挑战。而在生物谱系树的构建方面,水平基因转移现象也给分子系统发生学②系统发生(又称种系发生、系统发育),指生物形成或进化的历史。系统发生学是研究物种之间的进化关系的学科。分子系统发生学则是在分子层面通过核酸、蛋白质序列推断生物之间的演化关系,构建生物演化树以研究生物形成和演化的历史的学科。的研究带来了困难:水平基因转移在原核生物界发生非常频繁,即使在关系非常疏远的物种之间也可以发生。此外,近年来更多的研究发现病毒之间的种间基因重组现象非常普遍。因此,基于同一种群的不同基因(可能和其他物种之间发生水平基因转移或重组)生成的演化树可能差异非常大(Huson 2010)。此时树状模型只考虑纵向遗传而无法兼容横向(水平)传递的弱点开始显现。于是,生物学家开始重视水平基因转移等网状演化现象,并重新审视树状演化模型的真实性和适用性。
新的更复杂的生物演化模式的发现对传统的演化理论产生冲击,许多生物学家开始反思树状模型在理论基础和方法论上存在的弱点,正如Huson等(2006)所指出的:“(演化树模型)对更复杂的演化场景的描绘可谓简陋。并且即使生物演化真的是以树状模式进行的,使用强制返回树状结果或者将结果假定为树状的分析方法也并不是最佳方案。”为此,生物学家开始探索既能描述纵向传递(由亲代向子代的遗传传递),又能兼容横向传递(水平基因转移、杂交等演化模式)的新的演化模型。近三十年来,演化网络研究逐步兴起,演化网络模型开始成为替代树状模型的一个新的方案。目前,在有水平基因转移、基因重组等网状演化事件发生的情境下,演化网络已成为描述演化历史的主流模型。此外,NeighborNet、Split-Decomposition、Median Network等多种演化网络重建方法已被开发出来,并已被广泛应用于生物种系研究之中。
同样,在文化和语言的演化中,谱系树模型也开始受到挑战。进化论在被引入文化领域后,发展出许多全新的文化演化理论,而文化的传递和生物的传递具有许多显著的差异:文化的传递并不局限于由母代向子代遗传的纵向模式,跨代的甚至无亲缘关系的个体之间的横向文化传递现象非常普遍。作为一种社会文化现象的语言也具有这样的特点。从观来看,人群的接触导致语言的接触,不同语言间的借用现象在语音、词汇和语法等诸多层面都有发生,语言的融合现象在历史上也并不少见;从微观来看,个体的语言习得并不仅来源于父母,社会中的其他人群不可避免的会对幼儿的语言产生影响,而二语的习得、语言元素的借用更是可以在整个社会人群中发生。因此,在语言演化的历程中,横向传递和纵向传递同样重要,而仅能反映纵向传递的语言谱系树模型,或许并不能表现语言演化的真实历史。
在语言的亲缘关系研究中,自施莱歇尔绘出首张语言谱系树图以来,树状模型就成为描述语言演化历史和亲缘关系的默认模型,一直在历史语言学界占据统治地位。然而,同生物学一样,语言学谱系树理论也只考虑世系的分化,忽略了语言之间相互的接触影响,将语言演化的历程简单化了。因此,即使在印欧语这个非常适合于树状模型的语系中,也会遇到与树状模式相冲突的现象。为解释这些冲突现象,施莱歇尔的学生施密特(J.Schmidt 1872)提出了著名的“波浪说(wave theory)”,他认为:一个新的语言的特征(或创新)可以像波浪一样以同心圆的方式向周围扩散开去,离中心越远,影响越弱。波浪说着眼于语言间的接触影响,能够很好地解释语言在空间上的传播问题,补充了树状模型的不足。因此,在后来的语言研究中,这两种模型都被广泛应用,成为描绘语言发展历史和变化机制的最重要、最基础的两种模型。
施密特希望波浪理论能成为谱系树理论的替代品,然而事实上波浪模型只反映了语言演化过程中的另一重要的传递模式:横向传递。横向传递与纵向传递是相互补充而不是相互对立的关系(徐通锵 1991:223),它们在演化史上互相交割,共同塑造了语言的历史。因此,单独的谱系树模型或波浪模型都无法完整地描述语言演化的真实历史。另一方面,“混合语”等语言演化中的一些“特殊”情况,也常使树状模型陷入尴尬的境地,而波浪模型对其也无能为力。
很自然的,我们希望能够有一个能同时描述语言的纵向分化和横向接触这两种演化模式的新的模型。迪克森(Dixon 1997)在生物学中的间或打断的平衡模式(punctuated equilibrium model)的启发下,将语言演化的谱系树模型和语言扩散的区域模型结合在一起,提出了一个类似的间或打断的稳态模型——“裂变-聚变模型”。他认为在人类语言演化的十多万年间,稳态聚变是常态,而“聚变稳态会时不时地被一些大事情打破,这会导致语言局势的彻底改变,也可能引发多重‘分裂和扩张’”,使得语言演变进入裂变期,在裂变期结束后,又会开始新一轮的聚变期,如此循环往复。迪克森的语言演化模型在一个非常大的时间尺度(十万多年)上,描述了语言的观演化模式,对解释澳洲、美洲和非洲等地的语言演化历史具有很强的说服力。但是,我们认为,“裂变-聚变模型”只是将树状模型和波浪模型在更大的时间尺度上进行了展开,却并未考虑在较小时间尺度上分裂和扩散同时进行的情况。比如,在裂变的过程中往往也会伴随着语言的接触和扩散现象,正如迪克森自己在该书第四章系族分枝部分所描述的那样(见图2)。在中国境内语言的演化历史上,上述问题的存在可能非常普遍。比如南方汉语方言中普遍存在的古南方民族语底层表明,在南方汉语方言形成的历史上,北方移民和南方土著之间存在着广泛而深刻的语言接触与互动。具体比如闽客方言的形成历史中既有分裂自古北方汉语的过程,又有北方移民语言和南方土著语言的交互作用影响(邓晓华、王士元2003b)。迪克森的模型将分(裂变)与合(聚变)两种演化模式截然分开,使得它对于更复杂的语言演化场景的解释力仍显不足。
图2 迪克森关于系族分枝和区域影响的假想图① 资料来源:Dixon Robert M.W.1997 The rise and fall of languages,Cambridge University Press:51.
综上所述,我们仍迫切地需要一个能够同时解释和描述分裂机制和波浪机制的模型。生物学中新提出的生物种系网络(phylogenetic network)模型或许就是一个可资借鉴的方案。
经典的谱系树模型是在印欧语研究的经验下产生的,过去的研究也已经证明谱系树模型能很好地描述印欧语演化的历史。最近采用新的生物学种系生成方法对印欧语谱系分类进行的研究进一步印证了它的适用性(Gray&Atkinson 2003)。此外,谱系树模型在南岛语系的谱系重建上也显示出较好的解释力,无论是使用经典的比较研究方法,还是采用基于词源统计的定量研究方法(Gray&Jordan 2000),都能得出相当一致的树状拓扑结构。
汉藏语系的演化历史与印欧语,特别是南岛语存在着显著的差异。印欧语是在相对独立的环境下从原始印欧语发展而来的,其分化历史上未受其他语系太大影响,语言之间的语音对应规律线索受破坏较少,线索仍比较清晰。南岛语的演化历史线索则更为清晰:南岛语族群在太平洋群岛上迁徙、扩散的路径可以用“快车模型(Express Train)”来描述,即操(古)南岛语的人从一个岛扩散到另一个岛,他们到达新的陆地后,很少和故乡联系,从而形成一种链状的迁徙路径。在南岛族群迁徙的过程中,语言也随之扩散、演化,由于各岛屿之间接触很少,横向的语言扩散在南岛语系中影响很小,这使得南岛语系的演化历史体现出较纯粹的以纵向传递为主的特点,也使得其历史非常适合于谱系树模式。
汉藏语系诸语言所处的地理环境以及其演化历程与欧洲、大洋洲有着很大的差异。一直以来,东亚、东南亚地区都有诸多民族杂处混居,语言接触频繁,语言特征的横向扩散与纵向遗传混杂在一起,语言的分化式演化和融合式演化这两种模式相互纠葛、难以区分。另一方面,本区域内部的各民族语言近两千年来一直受到强大的汉文化的影响,大量的汉语成分与特征渗入相关语言中,语言的接触甚至换用频繁发生,极大地改变了该地区的语言关系面貌。
因此,在将谱系树的概念应用于“汉藏语系”诸语言,提出“汉藏语系”的概念,重建其演化树时,就难免会遇到一些问题。首先,由于分类标准的不同,不同学者对同一语族的分类结果往往存在差异,争议难平;其次,白语、畲语、临高话等演化历史复杂的语言的系属地位问题仍未解决;另外,倒话、五屯话、五色话等“混合语”的系属问题仍有隐忧。而另一方面,在汉藏语谱系关系研究的过程中,越来越多地遇到方法上的甚至理论基础上的难题。印欧语谱系分类中得到成功应用的同构和语音对应标准在汉藏语研究中遇到困难,而同源词标准则面临着“同源关系和接触关系的区分在谱系树模型内部无法解决”的困境(陈保亚1996、1998)。人们开始反省谱系树模型在“汉藏语系”中的适用性问题,如王均(1989)对汉藏语系的理论基础问题提出这样的诘难:“语言的发展能不能说就是‘从一到多’?……认为在古代只有前后相继,而无语言之间的相互影响和社会变异,这是难以想象的……但我怀疑汉藏语系语言谱系树形图的实际意义。”戴庆厦(1990)则重新定义了亲属关系的概念,提出汉藏语系内部的亲属关系的形成有原始母语分化(藏缅语和汉语)和语言影响形成(壮侗语和汉语)两种途径。如果承认语言接触影响也会导致亲属关系的形成,那么谱系树模型就不是一个完善的描述语言亲属关系的演化模型了。
所以,我们有必要在汉藏语语言演化模式方面进行新的探索,以期更好地描述亚洲语言演变的历史,理解复杂的族群迁徙互动环境下的语言演化规律。目前,生物学中的种系网络模型已被应用于印欧语(Bryant,Filimon et al.2005)、南岛语(Bryant 2006)、汉语方言(Hamed&Wang 2006)等语系的研究中,他们的研究都表明,网状方法对于确实是树状的语群,能正确返回树状图,而对于更复杂的情况则能返回更复杂的网状图。因此,此类方法的应用一方面可以用来验证传统的树状谱系模型的可靠性,另一方面还能用于发现语言关系中的网状成分,进而为探索更完善的语言演化模型提供参考。
藏缅语是汉藏语系中分布最为广泛、涉及语言最多的语族之一。藏缅语分布地区地理环境的多样性及其发展历史上人群迁徙、接触的复杂性,使得藏缅语族语言呈现出许多复杂的特点:(1)从纵向的语言遗传演化来看,藏缅语各语言演化发展的速度不一,不同语言中不同语言成分从祖语中分化出来的时间层次不一,各语言之间的演化关系非常复杂。这成为藏缅语分类众说纷纭的一个重要原因。(2)从横向来看,藏缅语所处地区民族众多,历史上不同族群的接触、融合屡见不鲜。伴随着人群接触而产生的深刻的语言接触也非常普遍,语言的借用乃至换用频繁发生,横向传递与纵向传递交割混杂,难以区分,使得白语等接触深刻语言的系属问题争议难平。
基于以上原因,谱系树模型是否适合于描述藏缅语的历史,已成为一个亟需思考与验证的问题。目前,在藏缅语的演化分类研究中,不论是采用定性的分类方法,还是采用基于数理统计和生物学种系发生研究的定量分类方法,默认的都会给出一棵谱系树。然而,先入为主的将藏缅语的演化模式确定为树状的,默认返回树状结果,在方法论上也是有问题的。生物学中新发展出来的演化网生成方法,则能在一定程度上避免这种问题。为此,我们尝试使用已在印欧语、南岛语和汉语方言等语言(方言)中成功应用的NeighborNet法,进行了藏缅语演化网图的重建和分析。
我们采用邓晓华、王士元(2003a)发表的12种藏缅语族语言的Swadesh 100核心词表为基本材料,通过优选同源词,编制同源词表,计算每对语言的同源百分比,生成12种语言的同源百分比相似矩阵,进而将相似矩阵转换为距离矩阵,作为生成演化网图的基本数据材料。
我们采用的是Bryant&Moulton(2002)所提出的NeighborNet演化网重建方法,该算法已被集成于SplitsTree4软件包中(Huson et al.2006)。
基于以上材料与方法,我们重建了藏缅语演化网图:
图3 12种藏缅语演化网图
图3展示了由NeighborNet法生成的12种藏缅语演化网图(图右)及由Neighbor-Joining法生成的藏缅语演化树图(图左下。引自邓晓华、王士元2003a)。NeighborNet网图所显示出的语言聚类与过去采用Neighbor Joining树状方法得到的聚类一致,且与戴庆厦等(1989)所提出的分类完全一致。同时,网图族簇分枝清晰、层次明朗,呈现出明显的树状特征,这表明藏缅语演化的可能仍然是以树状分化模式为主的。此外,网图中还包含许多盒状信号,盒状信号是接触的表征,这反映出各语言及语群在演化历史上曾有广泛的接触过程。
一直以来,白语的系属问题都是学界争论的焦点,白语应划入藏缅语族(戴庆厦等1989、Matisoff 2003、吴安其2002等)还是应归入汉语族(如郑张尚芳1999)聚讼已久,而争论的根源就是纵向传递和横向传递的区分问题。网状方法相对于树状方法最大的优点在于它们能同时描述语言演化历史上的纵向遗传和横向接触,这可以为理解白语等接触深刻语言的演化历史提供一个新的视角。因此,我们在材料中加入了古汉语的数据,构成13支语言,并重新生成了一幅演化网图(图4)。
图4所展示出的聚类与图3基本一致,古代汉语数据的加入并未影响其他聚类的分合,说明古代汉语与藏缅语整体发生学关系较远。特别的是,白语和古汉语被聚为一簇,这可能暗示白语和古汉语有直接的发生学关系,是在从原始汉藏语分离出来后才分离的,因此应归于同一语族,这与郑张尚芳(1999)等的观点一致。同时,二者之间还表现出强烈的接触信号,这说明白、汉分离后,又进行了长期而深刻的语言接触。由于我们的研究是基于Swadesh 100核心词的,核心词中白语和汉语同源和借用的鉴别问题目前仍有不同意见,因此白语和汉语从原始汉藏语分离出来的时间点以及分离的层次仍然难下定论。更科学的结论还有赖关系词对应层次研究的进一步发展。
图4 12种藏缅语及古代汉语的演化网图
汉藏语系语言演化历史的复杂性使得我们有必要在新的语言演化理论方面展开探索,生物学中新发展出来的演化网思想和演化网生成方法的提出,则为重新审视汉藏语演化的历史提供了一个新的视角,也为同时描述纵向和横向传递这两种同样重要的语言传递机制提供了一个可视化的表达方案。我们就藏缅语演化网的重建与分析表明,NeighborNet等演化网生成方法适用于汉藏语系语言演化分类和演化历史的研究,演化网图能更科学、更真实地描述汉藏语的演化历史。演化网理论与方法在语言演化研究上的探索与应用上的价值值得进一步深入发掘。
奥古斯特•施莱歇尔 达尔文理论与语言学——致耶拿大学动物学教授、动物学博物馆馆长恩斯特•海克尔先生,姚小平译,《方言》2008年第4期。
陈保亚 1996 《论语言接触与语言联盟》,语文出版社。
陈保亚 1998 百年来汉藏语系谱系研究的理论进展,《语言学论丛》第21辑,商务印书馆。
达尔文 1859 《物种起源》,周建人、叶笃庄、马宗熙译,商务印书馆,1963年。
戴庆厦 1990《藏缅语族语言研究》,云南民族出版社。
戴庆厦、刘菊黄、傅爱兰 1989 关于我国藏缅语族系属分类问题,《云南民族学院学报》第3期。
邓晓华、王士元 2003a 藏缅语族语言的数理分类及其分析,《民族语文》第4期。
邓晓华、王士元 2003b 古闽、客方言的来源以及历史层次问题,《古汉语研究》第2期。
王均 1989 《民族语文》前程似锦——在《民族语文》创刊10周年学术交流会上的讲话,《民族语文》第1期。
吴安其 2002 《汉藏语同源研究》,中央民族大学出版社。
徐通锵 1991 《历史语言学》,商务印书馆。
郑张尚芳 1999 白语是汉白语族的一支独立语言,《中国语言学的新拓展——庆祝王士元教授六十五岁华诞》,香港城市大学出版社。
Bryant,D. 2006 Radiation and network breaking in Polynesian linguistics,Phylogenetic Methods and the Prehistory of Languages,McDonald Institute Press.
Bryant,D.,F.Filimon&R.D.Gray 2005 Untangling our past:languages,trees,splits and networks,The evolution of cultural diversity:phylogenetic approaches,Left Coast Press.
Bryant,D.&V.Moulton 2002NeighborNet:An agglomerative method for the construction of planar phylogenetic networks,Algorithms in Bioinformatics,Springer.
Darwin,C. 1859On the origin of species by means of natural selection,or the preservation of favoured races in the struggle for life,John Murray.
Dixon,R.M.W.1997The rise and fall of languages,Cambridge University Press.
Gray,R.D.&Q.D.Atkinson 2003 Language-tree divergence times support the Anatolian theory of Indo-European origin,Nature(6965).
Gray,R.D.&F.M.Jordan 2000 Language trees support the express-train sequence of Austronesian expansion,Nature(6790).
Hamed,M.B.&F.Wang 2006 Stuck in the forest:trees,networks and Chinese dialects,Diachronica(1).
Huson,D.H.,D.Bryant 2006 Application of phylogenetic networks in evolutionary studies,Molecular Biology and Evolution(2).
Huson,D.H.,R.Rupp&C.Scornavacca 2010Phylogenetic networks:concepts,algorithms and applications,Cambridge University Press.
Matisoff J.A. 2003Handbook of Proto-Tibeto-Burman:System and Philosophy of Sino-Tibetan Reconstruction,UC Publications in Linguistics.
Schmidt,J.1872Die Verwandtschaftsverhältnisse der indogermanischen Sprachen,Böhlau.