陈芯莹
(西安交通大学 外国语学院,陕西 西安 710049)
有关语言,人类从未停止过对如下几个问题的思考:为什么只有人类有语言?语言是如何出现、演变和发展的?语言为何是现在的这个样子?这些问题都属于语言演化研究的范畴。语言演化研究根据时间尺度的不同,又可划分为宏观史、中观史和微观史研究[1]。语言如何随着人类的文明累积,经过几万年的演化发展并涌现出来是宏观史的研究问题。中观史则将时间尺度缩短,更加关注同一语言或不同语言之间的演化和相互关系,例如语言家族的研究,历时音变的研究等等。每一个活的语言作为动态复杂适应系统[2],都是在不停地变化的。而语言演化的微观史研究则更多地在考察正在发生的演化现象,例如语言的社会变体,双语地区的语言竞争等等。与语言学的其他研究方向相类似,无论是哪一类的语言演化研究,由于缺乏必要的科学研究手段和实证数据,传统上更为侧重内省式研究。然而,随着众多学科在技术上的进步和发展,语言研究逐渐引入实证方法。同时借助丰富的自然语言语料和先进的技术,从不同学科不同方法来研究语言演化问题已经成为可能。
有关汉语历时演变的研究主要集中在语音演变、汉字或词汇演变、语法演变等几个方面。由于汉语的书面语在较早的时期已经趋于稳定,汉语在相当长的一段历时发展时期都采用了类似的文字书写系统,因此,传统的汉语历时演化研究更多地把注意力放在了汉语语音的演化研究上。这类侧重语音、兼顾词汇与语法变化的传统汉语演变研究取得了不少成果[2-3]。基于语音、词汇和语法的变化,语言学家将汉语演化历史划分为四个时期:上古汉语,中古汉语,近代汉语和现代汉语[2-3]。除去对汉语史进行划分,语言学家们还采用案例分析的方法对汉字、汉语词汇和语法的变化进行了研究,并取得了不错的成果[4-7]。例如,经过研究发现了汉语词汇的双音节化演变趋势[8]。除此之外,也有基于汉语历时语料库和定量分析的汉语历时演化研究[9],但较少见。而基于网络分析方法的汉语历时演化研究仅有一例,有研究者[10]通过构建字同现网络模型,模拟和考察了汉字在汉语历时发展过程中的演化趋势,发现了高频的汉字更可能被重复使用来组成新词。总体来说,诸如统计分析、网络分析之类的现代跨学科研究方法仍然没有在这一研究领域得到广泛的应用。
与此同时,网络分析,一个非常现代化和典型的跨学科研究方法,已经被应用到了汉语共时研究的许多其他方向,如现代汉语汉字网络的结构特点研究,现代汉语词汇和短语网络的小世界特点研究,汉语语音网络的统计特性研究,汉语音节网络的结构特点,汉语句法网络的复杂网络特性,汉语句法网络的中心节点研究,汉语句法网络中的词类配价模式研究,以及汉语语义网络的统计特性研究等等[11-13]。
将网络分析方法用于语言研究的优势不仅仅在于其先进强大的数据统计和分析能力,更在于它将语言材料作为一个整体结构来进行描述分析的独特视角。语言是一个复杂系统,这一被普遍接受的语言学观点直至网络分析方法的出现,才真正地实现了从理论探讨到实证研究的突破。而研究实践也已经证明,网络分析方法可以被成功地应用到各类汉语共时研究当中,并获得了较为丰富的研究成果。仅有的一例基于网络分析的汉语历时演化研究也显示了网络分析放在汉语演化研究当中的巨大潜力。
语言演化是一个连续的过程,而现有的研究成果和知识是对这一连续过程中的个别语言现象的片段描述,是若干分散于各个历史时期的语言演化的局部“快照”。鲜有从语言系统的宏观、整体角度的研究和认识,而一般用来模拟语言整体演变的模型过于简单,很难真实地反映出语言演变的趋势。如何通过累积不同时间尺度的快照,并将其合理地拼合成一幅完整而连贯的真实全景画面,用以解释人类语言的演变和发展,是当下语言演化研究面临的一个重大命题。网络分析方法所提供的宏观视角,为语言演化的“全景式写真快照”提供了可能。本文正是以此为目标,尝试着将网络分析方法进一步地应用到汉语的历时演化研究当中,具体地说,是应用到汉语汉字的句法功能演化研究当中。
网络分析方法是典型的跨学科研究方法。将它运用到汉语演化研究当中不但有助于汉语研究方法的现代化,还能增加汉语研究与其他学科研究之间的交流,促进相关研究的发展。同时,用现代科学的方法来研究探索人类所独有的语言系统,也是现代科学研究认识人类本质的必经之路。只有采用科学的研究方法,才能对人类语言的独有性和人类本质这些根本问题有更为深入和透彻的理解。
本文的研究思路如图1 所示,包含了:(1)制定语料收集方案;(2)收集语料样本;(3)对文本错误进行清理、校正;(4)根据文本语料库构建同现网络;(5)利用各类网络分析工具PAJEK 分析不同时期的语言结构特征,对比数据并总结汉语系统的历时演化趋势;(6)分析“在”和“人”两个单字词在不同时期的语言特征变化,对比数据并总结两个单字词的演化趋势;(7)结合语言网络的整体参数的变化和两个单字词的参数变化,进行系统与单字词的共演分析,总结描述汉语单字词的句法功能演化趋势。
图1 应用网络分析方法研究汉字句法功能演化的方法与流程
本研究主要依据王力[2]和向熹[3]先生的汉语史分期体系,随机选择了分属上古汉语、中古汉语、近代汉语和现代汉语的真实文本语料作为研究所用的样本语料。其中,上古汉语选取的语料是:荀子的《正名篇》。中古汉语选取的语料是:韩愈的《师说》和《进学解》、柳宗元的《捕蛇者说》、王勃的《滕王阁序》以及魏征的《谏太宗十思疏》。近代汉语选取的语料是:马建忠的《马氏文通》。现代汉语选取的语料是:刘海涛的《计量语言学的现状、理论与方法》。为了增加可对比性,所选语料均为论述文,且四个时期的语料规模大致相当,约为2800 字。
以上述真实文本为基础,本研究分别构建了四个不同时期的汉字同现网络。由于“同现”可以有不同定义,构建同现网络的方法也有很多种,而本研究中定义的“同现”指两个汉字在上述文本中的相邻关系。如若两个汉字在一个句子中先后相邻出现,则在代表这两个汉字的网络节点间建立联系。由此类推,可以将上述的真实文本语料转换成代表四个不同汉语时期的汉字同现网络。下页图2 是一个简易的字同现网络的构建原理示意图。
图2 字同现网络的构建原理示意图
在构建了四个不同汉语时期的汉字同现网络后,本研究分别对四个网络的整体特征进行了分析,测量了它们的网络节点数、平均度、聚类系数、平均路径长度、直径、网络中心度和密度等网络参数。通过对比分析这些网络参数的历时变化,来描述汉语语言系统的历时演化。
同时,本研究还选取了“在”和“人”两个高频单字词作为研究对象,分别观察了它们在不同时期的同现网络中的语言结构特征,测量了它们的节点度数在不同汉语时期的变化。之所以选择“人”和“在”作为研究对象,是因为它们从古至今一直都是单字词,受汉语双音节化的影响相对较小。同时,“在”在汉语发展史中有明显的语法化趋势,而“人”则在句法和词义上都无明显变化,一直是实词,没有经历语法化的过程,这使得本研究可以在同现网络中观察单字词语法化所带来的网络参数变化,并比较两个不同单字词的演化差异。
在考察了语言系统的整体变化,与“在”和“人”两个单字词的演化趋势后,我们将两者相结合分析,对汉语系统整体与具体语言现象之间的共同演化进行了描述,总结了汉字句法功能的历时演变。
虽然本研究在讨论具体语言现象的演化差异时仅仅集中讨论了“在”和“人”两个单字词,但同样的方法可以被应用到对其他汉字或单词、短语的演化研究当中。研究虽然落脚在“在”与“人”两个单字词上,但却实现了语言局部快照(单字词演化)与语言全景快照(语言系统演化)的拼合,为语言演化研究成果的整合提供了一条新的途径,为当下语言演化研究发展所急需的知识整合方案提供了新思路。
对于网络结构分析研究来说,最常用的网络参数是平均路径长度、聚集系数、平均度、直径等等[11-13]。本研究分别统计了不同历史时期的四个汉字同现网络的6 个主要网络参数,并对其作了对比分析,见图3。
图3 汉字同现网络主要参数的变化趋势
虽然四个不同时期的实验文本规模相似,但据此所构建的四个字同现网络的规模(不同汉字的数量)却有着较为显著的差异。本研究中,字同现网络的节点是指不同的汉字。图3 显示,中古汉语的字同现网络节点数要明显大于其他三个时期的字同现网络。由于文本规模相似,用字更为丰富的文本在转换成字同现网络时,则会拥有更多的节点。由此可知,本研究的中古汉语文本中所使用到的汉字要明显比其他时期的文本更为丰富。一部分的原因可能是因为中古汉语部分的文本是由多个文本组合而成,所涉及的主题更为多样化。更为本质、重要的原因则可能是因为这一时期的汉语书面语与日常口语的距离更大。这一时期的文学创作追求词汇丰富、结构紧密的风尚使得这一时期的文本大多篇幅短小,遣字用词丰富而考究。这些文学创作特点被保存在了中古汉语的文本里,在本研究当中则体现在了字同现网络的规模差异上。
网络的节点平均度数在本研究当中指的是每个汉字平均与几个其他不同的汉字相邻。在这四个不同时期的汉语文本当中,每个汉字平均与约5 -7 个不同的其他汉字有着同现关系(即前后相邻的线性关系)。这一参数反映的是某一汉字的线性组合多样性。汉字原本是单字词,可以独立担当某些句法功能,在古代汉语中的汉字线性组合关系其实更多反映的是当时汉语的句法组合关系。但中古汉语时期,由于文本中的汉字丰富程度增加,不同的汉字分担了原本由一个或少数汉字通常承担的句法功能,由此造成了汉字线性组合多样性的下降。从中古汉语到近代汉语时期,汉语书面语与口语的距离再次逐渐拉近,汉字的句法功能不再像中古汉语那样分散;同时汉语中的双音节词开始占据主导地位,整体上来说,汉字本身的句法功能显著减少,但构词功能明显增加,很多汉字都必须要与其他汉字组合才能担当一定的句法功能。这些都增加了汉字线性组合的多样性。近代汉语到现代汉语时期,汉语延续了上述的变化趋势,因此汉字线性组合的多样性进一步得到了增强。
在字同现网络中,聚类系数反映的是与某一汉字具有同现关系的两个汉字之间也存在线性关系的可能性。当这个参数大于相似规模的随机网络的聚类系数时,我们就称之为小世界网络。即任何两个汉字之间都有可能通过少数的几个汉字而串联起来。小世界网络特性广泛地存在于各类真实网络当中,例如社交网络、万维网络、作者引用网络等等。本研究中的四个网络的聚类系数都要远远大于相似规模的随机网络的聚类系数。因此,可以初步判断说这四个字同现网络均具有小世界网络的特性。
平均路径长度是聚类系数相关联的一个参数。它在同现网络中描述的是,任意两个汉字最少需要通过多少个不同汉字串联起来。根据图3 可知,这四个字同现网络中的任意2 个节点之间的平均汉字个数不会超过4 个。结合对聚类系数的考察,可以确定它们都是小世界网络。
密度这个概念在同现网络中描述的是不同汉字之间的组合紧密程度。更通俗地讲,就是两个不同汉字同时出现的频率高低。同现频率高则密度更高,同现频率低则密度更低。图3 显示,中古汉语的汉字线性组合最为松散,也就是说,汉字的组合搭配更为多样,相对来说没有那么固定。其次是近代汉语和上古汉语,现代汉语的汉字线性组合最为紧密。这可能与汉语词汇的双音节化有着较大的关系。词汇的双音节化使得汉字搭配更为固定,从而导致了网络密度的增加。
网络中心度参数在同现网络中其实反映的是“超级明星汉字”存在的概率,即是不是有一些或者有多少出现频率特别高、组合性特别强的明星汉字。依据图3,网络中心度:中古汉语<近代汉语<上古汉语<现代汉语。也就是说,中古汉语中明星汉字的数量或者使用频率最少,而现代汉语中这类明星汉字的数量或者使用频率最大。
直径描述的是同现网络中将组合出现频率最低的两个汉字串联起来所需要的汉字数。这个参数其实描述了文本中低频汉字的组合特点。低频词出现得越多,直径就有可能越大。前面图3 显示,中古汉语的直径最大而现代汉语的直径最小。
尽管不同参数的变化趋势和幅度各有不同,但从图3 的折线形状可以看出,所有的网络参数变化都表明:汉语在从上古汉语发展到中古汉语后出现了转折式的变化。同时,除了聚类系数外,其余网络参数的变化曲线都表明,自中古汉语的“转向”之后,这一变化趋势一直延续到了近代汉语和现代汉语当中。为什么中古汉语在各个语言网络特征指标上都明显异于其他时期的汉语呢?可能的原因是,基于先秦口语发展起来的书面语文言在该时期开始脱离实际生活中的汉语口语,并越来越严重。这类与真实口语相分离的汉语书面语,直到1919年的五四运动之后,才通过改革运动又开始重新适应真实口语[2]。由于本研究的汉字同现网络是基于文本构建的,所以反映的更多的是汉语书面语的历时变化。而书面语与实际口语的脱离程度可能会影响到书面语的发展。例如,因为有更多的时间组织语言,对于文章易读程度与审美倾向的取舍和侧重等等,当书面语与实际口语相距较远时,可能出现词汇丰富程度增加,句子结构更为多样等特征。而这些文本特征可能反映到了字同现网络的参数当中。值得注意的是,研究语料的体裁、篇幅、风格等特点也都可能影响到文本的网络参数。网络数据的差异变化是不是主要由书面语与口语的背离发展所带来的,则需要通过进一步的研究来证实。
尽管关于中古汉语书面语与口语相背离发展的观点已被普遍接受,但先前的描述和理解都是内省式的。这类背离式的发展如何影响汉语的书面语?多大程度上影响了书面语的变化等问题?虽然不少针对个别作者或名著的微观分析论证研究可以被认为是对这些问题的初步探讨,但仍然缺乏宏观的针对整个汉语系统的研究,或是相关探讨由于缺乏真实数据的支持而未能对上述问题进行令人信服的、深入的分析和解答。以真实的语言数据为基础,利用网络分析方法,可以从系统宏观的角度,真实地捕捉住并展现汉语书面语发展过程中的“转向”现象,从而为描述和解答汉语书面语的演化问题,提供新的数据和方法参考。该研究方法因此而具有重大价值,值得进一步的尝试和探讨。
在观察对比了汉字同现网络整体特征的发展趋势后,我们将目光转向了语言系统当中的一类具体单位:单字词。本研究考察了“在”和“人”这两个单字词的特征变化数据。
“在”与“人”在汉语的不同时期均是高频汉字,并一直都是单字词。虽然它们也受到汉语词汇双音节化的影响,但作为单字词,它们在经历了变化后仍然保有比较完整的句法功能。因此较具对比性。
本研究测量了“在”和“人”的节点度数。所谓节点度数,指的其实是在文本中与“在”和“人”相邻出现的不同汉字的个数。从语言学的角度来说,字同现网络中的节点度数描述的是一个汉字与其他不同汉字之间的线性组合关系的多样性。度数越高,说明该汉字可以与更多的其他汉字产生相邻的线性组合关系。为尽量减少网络规模对数据的影响,使不同时期的数据之间更具对比性,本研究对所有数据都进行了标准化处理,见图4。
图4 “在”与“人”网络参数的历时变化
由图4 可知,虽然均是高频词,除现代汉语时期外,“在”的度数要明显低于“人”的度数。也就是说,“在”的线性组合能力要远小于“人”的组合能力。但这一情况到现代汉语时期有了变化,“在”的线性组合能力经过发展,在现代汉语中已经具有与“人”相似的组合能力。观察和对比图4 中的曲线变化趋势可知,“在”与“人”的曲线变化遵循相似的规律:从上古汉语发展到中古汉语,“在”与“人”的度数均有所降低;从中古汉语到近代汉语再到现代汉语,两个汉字的度数都一再增加。明显的不同点是:“在”从近代汉语到现代汉语时期的度数增加要明显快于“人”同时期的度数增长。
经过分析对比,本研究认为,造成这一变化差异的原因主要是“在”的语法化。作为高频单字词,“在”与“人”的区别是:“人”在汉语的历时发展过程中,意义变化不大,一直都是实词;而“在”则表现出了语法化的倾向,发展出了新的含义,在现代汉语中“在”既是实词也是虚词。语法化并不是一个连续、匀速变化的过程,它在某些阶段的发展可能相较于其他阶段更快或者更慢甚至停滞[7]。王伟的研究表明,“在”在上古汉语和中古汉语时期主要是作为动词使用;在近代汉语时期它开始从动词虚化成介词和副词;而在现代汉语时期它进一步地虚化,可作为“词内结构”来使用。例如,名词“在读博士”[7]。同时,依据赵元任[14]的研究,由于受英语和英语翻译的影响,“在”在现代汉语中被用作介词的频率大大增加。由于汉语是孤立语,实词缺乏表示语法意义的形态变化,虚词(和语序)作为表达汉语语法功能的主要手段,尤为重要。因此,作为虚词的“在”比作为实词的“在”能够连接更多不同的词,亦即虚词“在”与实词“在”相比,能够与更多不同的汉字或词产生线性组合关系,从而造成节点度数的增加。这可能是图4 中,“在”与“人”在现代汉语时期发展趋势不同的重要原因。
图4 所示的数据允许我们对不同汉字(或单字词)的演化过程进行对比。但语言作为一个完整的系统也是不停地处于动态变化之中的。例如,随着新事物的出现和社会的发展,越来越多的新词语出现在汉语的书面语当中。这些系统性的变化当然也会影响到系统当中的个体。所以,当我们在研究和考察诸如“语法化”之类的语言演化现象时,除了观察和对比不同个体的变化,也应该考虑到语言系统变化对个体的影响,从而更为准确地区分出被考察个体的“真正”变化和它对动态语言系统的适应性变化。为此,本研究对比考察了图4 两条曲线和前面图3 中平均度曲线的变化趋势,见下页图5。
图5 “在”与“人”以及字同现网络系统的历时变化
前文已经提到,平均度描述的是网络中所有节点平均拥有的邻居节点数,亦即度数。因此,它是与“在”和“人”的度数相对应的一个描述语言系统的指标。如果我们认为,节点平均度从某个角度实际上描述了不同时期汉语书面语的整体变化的话,则节点平均度的曲线可以被作为一个基线,用来衡量“在”和“人”的度数变化是“真正”的变化还是只是一种对系统变化的适应。从下页图5 可知。“人”从上古汉语到中古汉语时期的变化基本与基线相符,很可能只是一种对语言系统性变化的适应,而从中古汉语到近代汉语时期,“人”的曲线变化要快于基线,这可能说明“人”在该阶段时期的线性组合能力有明显的提高,而从近代汉语到现代汉语时期的“人”的变化速率又趋于与基线一致。“在”从上古汉语到中古汉语时期的变化相较于基线要小,也就是说,当汉字的平均线性组合能力均下降时,“在”的线性组合能力相对下降较小。而从中古汉语时期到近代汉语时期的曲线对比则表明,“在”的线性组合能力在该阶段只有小幅的上升,而且因为其上升幅度要小于系统平均幅度,“在”的相对的线性组合能力其实是“明升实降”的。而从近代汉语到现代汉语时期,“在”的线性组合能力突然有了显著性的提高。这一变化必然不是“在”对语言系统性变化的适应造成的,而本研究认为,“在”在此阶段的快速语法化很可能是产生这一现象的重要原因。
通过网络分析方法,利用各类网络参数的对比,我们可以观察到并定量地描述汉语系统整体变化的趋势和速度。通过对四个不同时期的汉字同现网络的平均度、聚类系数、平均路径长度、直径、网络中心度和密度等网络参数的分析和对比,描述了汉语书面语在中古汉语时期的发展转向现象。传统的历时演变研究,由于研究方法的局限,没办法对汉语系统整体的变化进行类似的、比较精确的描述。同时,对“在”和“人”两个汉字的节点度数的演化对比研究,说明了“语法化”的演化过程是非线性的,“在”在近代汉语到现代汉语的发展过程中,“语法化”的速度和程度都明显增加。同时,本研究还首次实现了具体语言现象与语言系统变化的共演对比研究,研究结果更为精确,可信度更高。
本研究最主要的目的是利用新兴的网络分析方法来研究汉语的历时演化发展,从而加深对相关研究问题的理解。利用网络分析方法来进行研究的核心优势是,它为语言研究提供了一种新的系统性分析方法。现代语言学理论的一个核心假设是:语言是一个复杂适应系统[15]。但是这个被广泛接受的观点,由于缺乏合适的、实际可操作的方法,一直保持在一个纯理论的讨论水平。由于语言是一个复杂适应系统,它必然有一些规则特征是无法直接从个体单位的特征中观察到的。以真实文本为基础,构建并分析语言网络,为系统地观察语言系统的宏观特征提供了一个行之有效的操作方法,并为研究语言系统与语言单位个体之间的联系提供了新的手段。尽管本研究仅对两个单字词“在”和“人”的句法功能的历时演化进行了探讨,但同样的方法可以被应用到任何一个汉字、词、短语等的研究当中。这类研究方法从系统整体的角度将原本已有的语言演化“局部快照”,合理地拼合起来,从而提供一种对语言系统“全景式”的变化描述。字词等具体语言单位的研究在该方法下被统一到整个语言系统的研究当中,从而使得我们可以对语言系统整体及局部细节都有更加深入的理解。
网络分析方法已在其他学科研究领域当中展现了巨大的潜力,它为语言学研究所带来的新视角,也必将推进汉语历时演化研究的发展,为未来的相关研究提供先进的研究方法,并使研究结果无论为本研究领域还是其他学科研究领域提供更有意义的对比参考。网络分析方法的引入,将为汉语的历时演化研究翻开新的一页。
[1]王士元.语言演化的三个尺度[J].科学中国人,2013(1):16 -20.
[2]王 力.汉语史稿[M].北京:中华书局,1980.
[3]向 熹.简明汉语史[M].北京:高等教育出版社,1993:2.
[4]韩玉强.“在+L+VP”结构中处所介词形成的语法化历程和机制[J].语文研究,2011(1):21 -27.
[5]沈家煊.“语法化”研究综观[J].外语教学与研究,1994(4):17 -24.
[6]文 旭.《语法化》简介[J].当代语言学,1998(3):47 -48.
[7]王 伟.论“在”的语法化[J].西安外国语大学学报,2009(3):27 -31.
[8]吕叔湘.现代汉语单双音节问题初探[J].中国语文,1963(1):1.
[9]刘丙丽,刘海涛.基于语料库的汉语动词句法配价历时研究[J].语言教学与研究,2011(6):83 -89.
[10]Liang W,Shi Y,Huang Q.Modeling the Chinese language as an evolving network[J].Physica A,2014(393):268 -276.
[11]Cong J,Liu H.Approaching human language with complex networks[J].Physics of Life Reviews,2014(4):598 -618.
[12]刘海涛.语言网络:隐喻,还是利器[J].浙江大学学报:人文社会科学版,2011(2):169 -180.
[13]陈芯莹,刘海涛.汉语句法网络的中心节点研究[J].科学通报,2011(1):735 -740.
[14]Chao Y R.A grammar of spoken Chinese[M].Berkeley:University of California Press,1968.
[15]Kretzschmar W A.The linguistics of speech[M].New York:Cambridge University Press,2009.