周芷羽
摘 要: 本文对统计方法在汉语词汇研究中的应用现状进行了概述,并对其在应用中的得失做出了分析与评价。本文认为,统计方法在词汇研究中的重要性主要体现在三个方面:为所得研究结论的普遍性和客观性提供了更有力的保障;能够实现对语言规律更缜密、准确、深刻的认识;对于词汇系统的共时研究和历时研究具有特殊的必要性。其主要局限性则体现为:无法完全排除科研主体的主观因素;简约化的数字结果可能会掩盖某些复杂曲折的现实情况。
关键词: 汉语词汇研究 统计方法 定量研究
统计学是关于从大量现象中抽取量的特征的科学理论[1]99,统计方法则是运用统计学原理,对反映某种客观现象的数据资料进行搜集、整理、计算、描述、推断等综合处理,以揭示事物内在规律的方法[2]234。描述性统计和推断性统计是统计方法的两个基本组成部分,描述性统计是通过计算比例数、平均数、标准差、相关系数等统计量对数据进行归纳和描写的方法;而推断性统计则是以概率论为依据,在描述性统计的基础上通过对样本资料的分析推断统计总体数量特征的方法,其基本内容包括参数估计和假设检验[3]12-13。
统计学的产生起源于对社会经济现象的研究,发展至今已在自然科学和社会科学的研究中得到了更广泛的应用[4]3-4。那么,在语言研究中使用统计方法,是否有其可行性?语言现象所客观具有的数量形式表现、近年来统计方法在语言研究中的广泛应用及其优势的有效发挥,对这一问题作出了肯定回答。
一、统计方法在汉语词汇研究中的应用
统计方法如何应用于汉语词汇研究?要言之,即选取具有一定容量的语料作为样本,对其中处于随机状态的某种词汇现象进行搜集、整理等预处理,并最终通过量化分析得出其数量形式或数量关系,并据以揭示该数量特征之后的本质和规律。
在传统小学研究中,“单文孤证为考据家之所不取,然则考据家必文多而证广也。如此必将文之同义者,搜集以为证,已略含有统计之意义”[5]357。但这仅止于对例证的搜集,而没有对数据资料的计算和量化形式的呈现,还称不上统计。
顾炎武分别对《论语》、《大学》、《檀弓》中“斯”“此”的使用次数进行了计算,以“语言轻重之间”求其“世代之别”[6]349;阮元也曾在探讨《论语》中“仁”字意义时示以“仁字之见于论语凡百有五”的统计数据[7]176:这些已经可以说是统计方法在汉语词汇研究中的初步应用,但这种应用只是出于偶然的需要,而非对科学方法的有意识的运用,其使用不成系统,也未能普遍贯彻。
直到五四运动后,西方语言学理论和研究方法开始大量引入中国[8]478,汉语研究中才开始出现对统计方法的自觉运用。1922年,黎锦熙所撰《国语中基本语词的统计研究》一文,首次对统计方法在词汇研究中的应用问题进行了探讨[9]1-4。
统计方法在词汇研究中的广泛应用,则以20世纪80年代专书研究的兴起为开端[10]。如张双棣所著《吕氏春秋词汇研究》,全面贯彻了定量分析的原则,对《吕氏春秋》中各类语词的数量及比重、同一语词其不同义位所出现的次数等词汇诸方面的数量表现及数量关系,均进行了严格的统计,以求准确描绘该专书词汇的全貌及其内部结构规律[11]13-14。
20世纪90年代至今,计算机技术的普及和语料库建设的兴起,为统计方法在语言研究中的应用提供了有力的技术支持,同时统计方法本身的应用水平也得到了提高,汉语词汇的统计研究取得了良好进展:早期的统计实践多局限于对词汇现象频数和频率的计算,而这一时期的统计研究已提出了“流通量”和“分布率”的概念[12]6。
二、汉语词汇研究中统计方法的必要性和优越性
“一种科学只有在成功地运用数学时,才算达到了真正完善的地步”[13]8。定量方法的运用,是科学研究追求精密性和客观性的必然要求;可以说,统计方法的应用对于汉语词汇研究,具有相当的必要性和重要性。
1.统计方法为所得研究结论的普遍性和客观性提供了更为有力的保障:传统研究方法多依赖于研究者个人的经验与感悟,虽然也可能取得正确的认识,但毕竟个人经验有限而语言现象无穷,少数例证不足以总结出普遍规律,且这样的研究结论难免受到个人主观成见的影响;统计方法作为一种定量研究手段,以大量客观现实为依据,在一定范围内有可能对特定语言现象进行穷尽性的分析,因而在更大程度上保证了研究结论的普遍性和科学性。比如,王力先生认为从殷代到西周,“朕”只限用于领格;而唐钰明则通过对殷周甲金文的穷尽性统计分析指出,“朕”其实还有作主格甚至宾格的用例[14]109。
2.仅仅从质的规定性方面了解语言现象是不够的,只有准确把握其数量界限,才能够实现对语言规律的认识的深刻化和精确化。统计方法的运用能够实现对语言规律的更为缜密、准确、深刻的认识,这不但有助于克服定性描述中出现的含混模糊的情况,促进汉语研究的科学化、精密化,而且有利于培养严谨求实的数字化学术思维。比如,先秦汉语词汇以单音词为主是众所周知的常识,但这只是一个笼统的定性描述,其具体情况如何,单音词与复音词两者的数量关系如何,都需要更深入的了解。马真对先秦八部著作进行了考察,统计得到复音词2772个,并估计单音词数量为一万,则先秦复音词与双音词数量之比将近3∶10[15]80。这一数据虽然还不是非常精确,但较之“单音词为主”的含混表述与模糊印象,这一结论显然更清晰、细致、深刻。
3.统计方法的应用对于词汇系统的共时研究和历时研究,有其特殊的必要性和重要性。传统的训诂研究以零碎的语词为主要研究对象,多着眼于对具体词义的考释;现代词汇学更加重视对词汇整体系统性的研究,而整个词汇数量之庞杂及其系统内部结构关系之薄弱又造成了词汇系统研究的特殊困难。统计方法是处理分析大量语料的有效手段,只有借助统计方法,才能揭示整个词汇各个方面的数量特征,从而为词汇系统的断代描写奠定基础。脱离了统计方法,对共时词汇系统全貌的宏观把握是难以实现的。在共时描写的基础之上,统计方法也为词汇系统历时演变的描写提供了可能。张双棣曾指出:“如果我们将某一时代的著作一部一部地都这样做过穷尽性的统计分析,综合起来,这一时代的词汇语义的面貌就可以完整地、清晰地勾勒出来了。如果进而将每个时代的情况贯穿起来,理清发展脉络,就可以对整个汉语词汇语义发展的历史有一个全面而完整的认识了。”[11]14
除此之外,统计方法以下两个方面特征,对于增强研究结论的可靠性和说服力具有独特的优越性。
1.在科学研究中应用统计方法,具有可触摸性的特征[16]311。统计方法从客观材料中获取数据,统计结果以频数、频率等数据呈现,所得量化形式有形可感,一目了然,能够更直观地揭示规律;实在的数据使得研究结论有据可凭,可以避免泛泛而谈,做到言之有据[11]13。
2.应用统计方法进行的研究,具有可重复性。只要提供相同的条件,就可进行重复操作,对既有结论进行验证。可重复性是一个衡量研究质量高低的尺度[16]311;一项研究结论,如果不能接受实践的再次检验,那么其可信度就是值得怀疑的。
三、统计方法的局限性及其在应用中须注意的问题
统计方法虽具有明显的优势,但也有其局限性:
1.任何科学研究的进行和研究手段的应用,都无法完全排除人作为科研主体所必将造成的主观因素的存在,统计方法也不能例外。比如,许多学者对先秦重要文献中的双音词数量及其所占总词数比例做了统计,但对同一部著作的统计结果有不小的差异:据马真统计,《论语》中复音词数为159个[15]79,向熹的统计则是200多个[17]393;陈克炯统计《左传》复音词占总词数比重为20.7%,但据黄志强在其硕士论文中划定的《左传》复音词数,其比重几达总词数的30%(转引自徐流《论同义复词》)[18]17。对同一材料进行若干次分别统计,所得结果按理应当大致相同;之所以出现如此明显的差距,是不同的研究者对双音词的认识和理解有所差异,自然造成划定标准的不同。
这一问题的产生,固然可归因于不同研究主体主观因素的影响,因此与词汇学现有理论水平的限制直接相关:目前,学界对于古代汉语中双音词的判定尚无有效可行的统一标准。可见,统计方法在词汇研究中的应用,必须依靠正确理论的指导;研究方法的应用要充分发挥应有效用,亦有赖于理论本身的发展与进步。
2.统计方法具有可简约化性的特点,能够将错综复杂的社会现象简化为直观、单纯的数据形式[16]311。然而,简约化的数字可能会掩盖某些复杂曲折的现实情况。比如,随着词汇统计的深入开展,发现单纯将频次作为衡量标准具有较强的片面性,因为有些词虽然出现较多,但分布极不均匀;在此基础上,提出了“分布率”和“使用度”等统计概念[19]67。因此,要获得科学的结论,要求研究者结合背景资料,对统计结果进行全面的了解和深入的审察,避免被表面的数据所蒙蔽,并强调多层次、多角度的统计方法的综合利用,以求全面准确地揭示语言现象的本质和规律。
另外,语言研究虽有统计方法这一有力工具,但其效用的充分发挥则有赖于研究者的正确掌握和运用;一旦使用不当,则不但其优势得不到发挥,反而将得出错误的结论,对语言研究的科学性造成损害。因此,在词汇研究中应用统计方法,应当注意如下问题:
1.统计方法的成功运用,必须具备一定的前提条件,首先即是对样本的要求:样本容量必须足够大,才足以通过其数量特征得到倾向性规律的反映;反之,如果样本容量没有达到一定的要求,难以缩小相对误差,那么所得到的统计结果就缺乏普遍性。除此之外,确保样本的质量也至关重要。统计资料的完整、准确、真实是得到客观的统计结果的重要前提,对于原始统计材料,必须进行去粗取精、去伪存真的甄别整理工作。例如,要进行古代汉语专书词汇的统计研究,必须考察文献的不同版本,择善补正并加以校订,得到可靠的语料,方可进行进一步的统计工作。其次,对于统计对象应有明确的认识和把握,进行统计时,须对统计对象进行辨别,对不合统计目的者予以剔除[20]164。
2.定量分析是定性研究的基础,定量是为定性服务的;统计本身不是目的,而是进行研究的工具和手段。割裂定量分析和定性研究的统一关系,为定量而定量,盲目滥用统计方法以迎合时势或炫耀技巧的做法是不可取的。研究者对于统计学原理应当有透彻的理解,对所得统计结果在统计学上的意义有充分认识,并据此对其后所隐藏的语言规律进行探求和揭示;否则,仅有数据的罗列和材料的堆砌,而缺乏理论的深入挖掘,那么语言现象的本质将无从揭示,统计方法的使用将丧失意义。
四、现状与展望
虽然当前统计方法的应用在词汇研究中已经得到了普遍认可和更大规模的实践,但是从其应用现状看,目前对词汇的计量研究其实际水平并不高;除了统计方法应用水平相对较高的方言词汇和语料库领域已分别开始使用“相关系数”方法和“流通量”、“分布率”的统计概念外,其他词汇研究领域对统计方法的应用仍停留在初步的描述性统计阶段:其统计分析多仅限于对词汇现象出现次数的绝对数量(如频数)和相对数量(如频率)的统计,所使用的统计方法无外乎初等数学中的简单算术。正如苏新春所言,当前的词汇计量研究“仍较多地停留在一次性的直观统计,较少进行多层面、多角度的数的分析,也很少使用复杂的数学公式来进行数值之间相关度、聚类分析等分析”[12]8。可见,汉语词汇统计研究还有待进一步深入和开拓。
定量方法的使用,是社会科学从描述科学向精密科学过渡的必然要求[1]97;在此背景下,对统计方法应用水平的提高当予以更高重视,使其在语言研究中的优势得到更充分的发挥。
参考文献:
[1]宋健.社会科学研究的定量方法[J].中国社会科学,1982(6):97-105.
[2]欧阳康,张明仓.社会科学研究方法[M].北京:高等教育出版社,2001.
[3]张伦俊.社会统计方法[M].合肥:中国科学技术大学出版社,1988.
[4]徐浪,王青华.描述统计学[M].成都:西南财经大学出版社,2001.
[5]胡朴安.中国训诂学史[M].北京:商务印书馆,1939.
[6]顾炎武.日知录集释(校注本)[M].浙江:浙江古籍出版社,2013.
[7]阮元.揅经室集[M].北京:中华书局,1993.
[8]濮之珍.中国语言学史[M].上海:上海古籍出版社,2002.
[9]黎锦熙.国语中基本语词的统计研究[J].国文学会丛刊,1922,1(1):1-4.
[10]苏新春.汉语词汇定量研究的运用及其特点——兼谈《语言学方法论》的定量研究观[J].厦门大学学报(哲学社会科学版),2001,(4):135-142.
[11]张双棣.《吕氏春秋》词汇研究(修订本)[M].北京:商务印书馆,2008.
[12]苏新春.汉语词汇计量研究[M].北京:商务印书馆,2008.
[13][法]拉法格,[德]李卜克内西.忆马克思恩格斯[M].北京:生活·读书·新知三联书店,1963.
[14]唐钰明.定量方法与古文字资料的词汇语法研究[J].海南师范学院学报,1991(4):106-109.
[15]马真.先秦复音词初探[J].北京大学学报(哲学社会科学版),1981(3):76-84.
[16]桂诗春,宁春岩.语言学方法论[M].北京:外语教学与研究出版社,1997.
[17]向熹.简明汉语史(上)[M].北京:商务印书馆,2010.
[18]徐流.论同义复词[J].古汉语研究,1990(4):12-17.
[19]刘云.汉语词汇统计研究述评[J].汉语学习,2009,2(1):62-69.
[20]程俊英,梁永昌.应用训诂学[M].上海:华东师范大学出版社,2008.