词汇类型学研究:路径与方法

2022-12-07 04:09邓亮杨坤

外国语文 2022年4期

邓亮杨坤

(1. 重庆交通大学外国语学院,重庆 400060;2. 西南大学外国语学院,重庆 400715)

0 引言

词汇类型学是20世纪90年代逐渐兴起的语言类型学研究的一种新方法。一般认为,词汇类型学的产生得益于语言类型学、对比语言学、结构语言学、人类学以及词汇学的发展,尤其是对比语言学在词汇方面的跨语言研究成果,为词汇类型学的诞生与发展奠定了理论和方法论基础。然而,什么是词汇类型学?词汇类型学应该研究什么?不同学者的回答不尽相同。莱曼(Christian Lehmann)(1990:163)提出词汇类型学关注的是“词汇的语法结构中与类型有关的特征”,也就是词汇的语法类型学研究,而语义并不是研究的焦点。后来,莱勒(Adrienne Lehrer)(1992:249)把词汇类型学定义为“语言词汇化概念的特有方式,即是说语言把语义材料包装进词汇的特有方式”。她把词汇类型学看成是语义类型学的一个分支,与科普耶夫斯卡娅塔姆(Maria Koptjevskaja-Tamm)(2015)的观点基本一致。她也认为“词汇类型学关注的是语言如何透过词汇表达意义”(Lehrer,1992: 434)。格林柏格(Joseph Greenberg)(1957:71)把语言类型学分为六大类:音系的、形态的、句法的、与规范形式相关的(如词类、音位形素结构)、语义的和符号的(如拟声词)。按照以上划分,语义类型学属于语言类型学研究中的“语义”部分,与音系类型学、形态类型学和句法类型学同属语言类型学的不同分支。更准确地讲,格林柏格这里所说的“语义”就是“词汇语义”。因此,从研究内容来看,词汇类型学与语义类型学并不完全相同。词汇类型学不拘泥于对语义的研究,还涉及形态学、音系学等方面的内容。本文把词汇类型学扼要定义为“词汇的概念及表征方式的跨语言研究”,换言之,就是词汇的编码与解码方式的跨语言研究。近年来,国内词汇类型学研究受到越来越多的关注,并且在个案研究方面取得了不少成绩,但对词汇类型学的研究路径与方法还缺乏必要的梳理,一定程度上制约了词汇类型学研究的纵深开展。本文结合国外词汇类型学研究成果,对当前词汇类型学采用的主要研究路径与方法进行介绍,为词汇类型学研究以提供参考。

1 词汇类型学的研究路径

词汇类型学研究主要涉及称名学(onomasiology)、符意学(semasiology)和词汇—语法界面(lexicalgrammatical interface)三条路径(Koptjevskaja-Tamm,2008/2012;Koch,2001)。以下进行逐一介绍。

1.1 称名学研究

称名学这一研究路径历来是词汇类型学的核心内容,主要探讨相同的概念是如何由不同的语言来表达的。具体而言,称名学主要包括以下研究问题:不同语言中哪些意义可以编码为独立的词汇形式?不同语言的词汇系统对特定概念域的语义切分有何不同?不同语言词汇概念化的差异有何规律,受到何种因素的影响或制约?认知语言学理论视野下的大多数研究都是在这一路径下开展的,因为其研究目标都是揭示语言背后的认知机制与理据,如莱考夫(George Lakoff)(1987)对概念隐喻的研究,泰勒(John Taylor)(1989)对语言范畴化的研究以及泰尔米(Leonard Talmy)(2000)对词汇化模式的研究等。以概念隐喻为例,其研究目标是揭示不同语言如何通过一系列的语言形式来表达特定概念的。不同语言在表达“爱情”(LOVE)的概念时,都倾向于借助LOVE IS A JOURNEY(爱情是旅程)这一概念隐喻,人们通过“爱情”和“旅程”的概念映射来表达“爱情”的“起点、过程、终点”以及“艰辛、甜美”等重要特征。从这个意义上讲,整个功能语言学研究范式,都属于称名学研究,因为功能语言学视野下的任何理论研究,都是从语言的功能出发,然后探讨语言是如何表达这些功能的。

1.2 符意学研究

符意学这一研究路径关注的是一个特定的语言形式表达了哪些不同的意义。一词多义和同音同形异义是符意学研究的主要内容。具体而言,符意学主要涉及以下研究问题:特定概念域里具有共时语义关联或历时派生关系的词汇单位可以表达多少种不同的意义?存在哪些反复出现的语义拓展路径?什么样的意义可以被一个相同的词位或多个词位表达,这些意义在共时和历时上是如何获得的?一词多义现象和语义移变现象(semantic shift)如何分别从共时和历时的维度得以解释?以一词多义为例,人们通常通过空间来概念化时间,从而形成了时空隐喻(time-space metaphor)的概念,人类利用三维空间概念如“上/下”“前/后”“左/右”来理解更为抽象的时间概念,从而产生了“上周/下个月”“前年/后来”“一个月左右”这样的用法。莱考夫(1987)认为,语言中的一词多义现象几乎都可以通过隐喻、转喻和意象图式来解释,而这一论断已在介词的多义扩展中得到了充分的验证。

1.3 词汇-语法的界面研究

词汇-语法的界面研究主要关注语义系统对句法系统的影响,即作为语法成分的词汇所具有的语法属性呈现出什么样的跨语言特征。这就是莱曼(1990)所说的“词汇的语法结构中与类型有关的特征”。具体而言,主要涉及以下研究问题:表达相同概念的词汇在不同的语言中是如何词汇化的?表达相同概念的词汇可以用于多少种不同的构式,是否存在跨语言的差异?表达相同概念的词汇用于相同构式时存在什么样的跨语言差异?词类就是词汇-语法界面研究中最常见的问题,如研究不同语义类别词汇化时以何种词类形式出现。例如,迪克逊(Robert Dixon)(2016)按照语义类别把形容词划分为尺寸、年龄、价值、颜色、物质属性、人物品性、速度、难度、相似程度、品质、量化、空间位置、序数13类,指出不同语义类别词汇化为形容词、动词、名词或其他词类的可能性并不相同。此外,相同的词汇概念在不同的语言中可能存在不同的概念化方式,如“DIE”(死)的概念。汉语里可以说“王冕死了父亲”,但在英语里却不能说“*Wang Mian died his father”,这正是因为DIE在词汇-语法界面上的跨语言差异所致。

2 词汇类型学的研究方法

有关词汇或概念的跨语言研究已有相当长的历史,只不过没有使用“词汇类型学”这一术语而已。以下根据对词汇跨语言研究的方法,结合科赫(Peter Koch)(2001)和科普耶夫斯卡娅塔姆(2008/2015)等的相关研究,把词汇类型学的研究方法概括为以下几种类型:

2.1 解构语义分析

解构语义分析包括合成语义分析(Combinational Semantic Analysis)和自然语义元语言分析(Natural Semantic Metalanguage,NSM)两种方法。

合成语义分析属于结构主义的研究范式。其主要做法是通过二分法将一个特定的语义概念划分为更小的语义单位,即义素。合成语义分析对词汇类型学的最大贡献是对亲属词的研究。以亲属词范畴中最常见的次范畴“兄弟姐妹”(sibling)为例,勒拉吾(Sara Nerlove)和罗姆尼(Kimball Romney)(1967)通过跨语言的系统研究提出这类词的四个刻画维度:[男][女][年长的]和[年幼的]。汉语中这四个维度均有不同的词与之对应,可以分别用“兄/哥(年长的男性兄弟姐妹)”“弟(年幼的男性兄弟姐妹)”“姐(年长的女性兄弟姐妹)”“妹(年幼的女性兄弟姐妹)”这些单独的词来表达一个类别。然而,英语中只有“brother”和“sister”这两个词,没有[年长的][年幼的]的区分。勒拉吾和罗姆尼(1967)调查了245种语言有关“兄弟姐妹”词汇的表达方式,结果表明:有78种语言分别用四个不同的词来表示“年长的男性兄弟姐妹”“年幼的男性兄弟姐妹”“年长的女性兄弟姐妹”“年幼的女性兄弟姐妹”这四个不同的称谓,有38种语言只用三个词包括“年长的男性兄弟姐妹”“年长的女性兄弟姐妹”“年幼的男性/女性兄弟姐妹”来表达,而在所调查的其他语言中,多数语言只用两个词来表达这四个不同的概念,如有些只有性别之分,而有些只有年长、年幼之分。

自然语义元语言分析是另一种重要的语义描写工具。其核心假设是:所有语言的词汇都共享一些概念共核(core),即语义基元(semantic prime);语义基元可以通过词汇或其他语言表达来实现的,是所有语言的词汇都具备的最基础和最普遍的意义(Goddard,2012)。这些共核的意义可以作为语言与文化分析的工具来解释一些复杂的或涉及不同文化的词汇意义,并通过文化脚本(cultural script)界定不同词汇概念在特定文化中的细微差别。目前NSM所提炼的语义基元有65个,它们具有以下特点(Peeters,2020:2-3):(1)普遍性:这些基元作为概念或语义基本构成要素几乎普遍存在于所有语言中。(2)非还原性:这些基元不能再继续切分为更简单、更小的语义要素。(3)文化中立性:这些基元都经历了“还原性重释(reductive paraphrase)”,通过“化简”的方式剥离了它可能蕴含的与特定文化相关的要素。这种方法为词汇概念的跨语言研究提供了重要的理论与方法论参考,也为跨语言的研究提供了更多的可能性。

2.2 行为语义分析

这一分析方法主要是基于行为主义的“刺激-反应”实验。柏林(Brent Berlin)和保罗·凯(Paul Kay)(1969)对颜色词的研究是早期行为语义研究的主要代表。他们借助蒙赛尔颜色表(Munsell Color Chart),通过创设一些非语言语境和“成素网”(etic-grid)来区别颜色词在色调、亮度、色彩纯度等方面的跨语言差异,进而比较颜色词在一种语言或多种语言的感知上存在的细微差异。其中图片、视频剪辑和电影是最常用的刺激物。他们的研究发现,不同语言在各自的词汇中有不同数量的颜色词,在彩色谱上所覆盖和切分的区域和比例也存在变异,但是这些变异受到严格的限制,主要受制于视觉神经生物特征的影响。研究还发现,对颜色的范畴化是基于“焦点色”的,不同语言中的基本颜色词所指的颜色中心区(焦点色)是相似的,但其边界却有很大的差别。基本颜色词共有11个,它们构成一个蕴涵层级(图1),即如果一种语言拥有箭头右边的范畴,就意味着拥有箭头左边的范畴;相反的情况却不一定成立。

根据以上蕴涵关系,如果一个语言中仅有两种颜色词,那么这两种颜色必然是黑色和白色。如果还有第三种颜色词,那么就一定是红色。同样,若有第四种颜色词,那么黄色和绿色都有可能,而剩余的一个将作为第五种颜色词。接着,若还有第六种、第七种颜色词,那么蓝色就必定是第六种颜色词,而褐色便是第七种。最后的四种颜色词则没有固定的排序。

近年来,荷兰的马克斯-普朗克研究小组(Max-Plank Institute)继承以上研究方法,使用广泛的语言样本对多个概念进行跨语言调查,取得了一系列重要成果。他们所采用的研究方法也被誉为“奈梅亨方法”(Nijmegen Method)。其特点之一是使用标准化的“刺激物”,如图片、视频剪辑和电影等;二是设置一系列的概念要素作为跨语言语义比较的基础。具体做法是:通过给母语者播放一系列“刺激”手段,对他们的感官进行“刺激”,收集他们的语言反应,并对这些收集到的真实语料进行分类(Liliya,2019:10),然后系统比较受试对不同概念的范畴化中可能存在的相关语义差别。这种研究方法的最大优点是“客观性”。通过一系列的标准化的“刺激”,最大程度减少了研究者对研究结果的影响,更有利于不同说话人和不同语言进行比较。这种分析方法对研究那些描写不足的语言具有重要的意义(Koptjevskaja-Tamm,2015)。

2.3 组合语义分析

组合语义分析的主要研究思路是,每一个词都可以通过对它所出现环境的描写实现精细化的语义分析与对比。该分析方法最杰出的代表是莫斯科词汇类型学小组(Moscow Lexical Typology Group,简称MLexT)。MLexT聚焦词汇学的跨语言和类型学研究,通过研究语义场的组织方式,发掘不同语言词汇系统的差异,揭示差异背后的普遍性和可预测性。目前,MLexT的研究主要涉及以下语义场:水中运动动词、摇摆动词、飞翔与坠落动词、破坏动词、旋转动词、疼痛的隐喻、声音的隐喻以及物理属性词等(Liliya,2019:13)。相较于其他词汇类型学研究,MLexT有以下特点:

第一,参数设定。MLexT遵循莫斯科语义学派词典编纂研究中对同义词描写的传统,通过研究其搭配情况来区分词义。不同的搭配会呈现出不同的情境,亦可被称为“框架”(Rakhilina et al.,2016),常用专门的词语来表示,这些框架包含众多参数,通过这些参数可以揭示词义之间的细微差别。比如,在旋转语义场中,“鸟在空中回旋的飞”就是一个框架,用汉语的“盘旋”来表示,该框架是由“外轴线旋转”和“参照物不在一个平面”两个典型参数组合成的情景。“陀螺在转着”也是旋转的一个框架,可以用“自转”来表示,这个框架包含“内轴线旋转”和“参照物在同一个平面”两个典型参数。通过比对二者参数,可以充分对两个词的语义差异进行区分。此外,MLexT的研究对象不仅限于词汇的基础义,还拓展到了对其引申义的考察。

第二,数据统计。MLexT研究的另一个特色就在于对研究结果的可视化呈现。首先,根据词汇类型学的研究特点,MLexT继承并发展了语法类型学中语义地图的呈现形式,为每个语义场设计语义地图,概念空间中的节点代表语义框架(Rakhilina et al.,2019:369)。此举有助于阐明语义场中词义的范围,并以图形方式对不同词汇系统进行对比。其次,MLexT紧跟计算机语言学的最新进展,基于跨语言平行语料库,开始运用自动化数据收集和初步分析的方法对数据进行统计与分析,更有利于进行类型学的概括。比如,将分布式语义模型(distributional semantic models)以及它在词汇组合上的应用用于验证和支持诊断式情景(diagnostic contexts)的选择问题。

2.4 认知语义分析

词汇的认知语义分析主要是在认知语言学视野下展开的,属于三大路径中的称名学研究。其主要目标是对语义产生和发展的认知理据进行解释。认知语义分析主要探讨的是:在不同语言中对于特定词汇哪些意义是可以编码或不可以编码的?不同词汇系统在编码特定认知域的过程中有何不同,其中又涉及哪些要素?因此,认知语义研究旨在揭示词汇语义和功能在共时和历时的延伸与演变过程中的共性与差异。隐喻和转喻是认知语言学理论中的两个核心概念。隐喻无处不在,是人类生存的最主要、也是最基本的认知方式。人类在生理构造和身体体验上的相似性,在隐喻思维方面也呈现跨语言的相似性。以时空隐喻为例,跨语言的研究表明,时间词汇的主要历史来源就是空间词汇。空间经验是人类日常生活经验的核心,人类应用三维空间经验如“上、下”“前、后”“左、右”来理解更为抽象的时间概念,如英汉语中表示时间的词汇“before/前”和“after/后”最初就是表示“空间”的。这种语义模式在多种语言中都十分普遍,但不同语言对空间词汇的选择具有不同的倾向性。例如,以汉语为代表的汉藏语系更倾向使用垂直空间关系词“上、下”来解码时间,如“上/下个月”“上/下半年”“上/下一辈”等。而以英语为代表的印欧语系则更倾向于使用水平空间关系词“前、后”来解码时间,如英语中的“Monday comes before Tuesday”和“Tuesday comes after Monday”。斯威彻尔(Eve Sweetser)和戈比(Alice Gaby)(2017)认为基于空间映射的时间隐喻主要为“时间在动”(Moving Time)和“观察者在动”(Moving Observer)两种情况。不同语言通过空间词汇解码时间概念时存在明显的差异。例如,在英语中“将来”(future)是在观察者(ego)前面的,如“The future lies in front of us”,而“过去”(past)是在观察者后面的,如“The past is behind us”。在南美土著语言艾玛拉语(Aymara)中,“将来”是在“观察者”之后的,用“前”表示“过去”,而用“后”表示“将来”。

2.5 多语言视图分析

多语言视图分析主要是通过绘制图形的方式来展现不同语言的语法和语义的分布特征,进而实现跨语言的对比与分析。以下介绍多语言视图分析的两种重要方法:语义地图和共词化分析。

2.5.1 语义地图

语义地图是基于类型学的研究方法研制的多语言可视化分析模型。该模型起初用于语法类型学研究,随后哈斯普马特(Martin Haspelmath)(2003)提出该模型在词汇类型学研究中也可发挥重要功能,并应用这一方法对丹麦语、德语、法语和西班牙语中表示“树木”的词汇概念进行了系统比较与语义切割。根据科普耶夫斯卡娅塔姆(2015)的观点,语义地图模型可以大致分为蕴含语义地图(implicational semantic map)和概然语义地图(probabilistic semantic map)两大类。

蕴含语义地图是通过邻近性原则构建的。哈斯普马特(1997)认为所有语言都遵守邻接性要求,即特定语言的某个语法标记可能具有不同的功能,但这些功能必须在语义地图上相互毗邻,也就是说,这个语法标记必须在语义地图上占据邻接区域。克罗夫特(Croft,2003:134)据此提出了语义地图连续性假设,即“任何与特定语言及/或特定构式相关的范畴必须映射到概念空间内的毗连区域(connected region)”。具体来说,假设a、b、c三个多功能节点(本研究的多功能节点指语法功能节点或语义节点)依次相邻,若地图能够覆盖a和c两个节点,那么必然能覆盖两者中间的节点b。据此可以反过来预测:如果一个语言的多功能语素具有a、c两种功能,那么这个语素同样具有功能b。弗朗索瓦(Alexandre François)(2008)率先将蕴含语义地图用于词汇类型学研究,他以breath为例,为其构建跨语言蕴含语义地图,将共词化和蕴含共性相结合以解释语义延伸等相关问题。吴福祥(2014)提出从历时维度构建语义地图模型可以揭示语义演变的共性和制约因素,同时可以对概念空间共时构型提供解释。

概然语义地图是基于相似矩阵的对应分析这一统计学方法构建而来。近年来,多维尺度分析(Multidimensional Scaling,MDS)成为构建跨语言概然语义地图的主要工具。威维利(Bernhard Wälchli)和赛索(Michael Cysouw)(2012)以100多种语言中的《福音》(Gospel)翻译为样本语言,运用多维尺度分析为其中的运动事件构建了概然语义地图,同时他们提出“概然空间在一定程度上是准确的,因为它可以预测形式分类范畴化的跨语言重现趋势”(Wälchli et al.,2012:679)。需要注意的是,由于构建方式存在差异,对于同一研究对象,概然语义地图与蕴含语义地图的构建结果可能不完全吻合。

2.5.2 共词化

“共词化”(colexification)的概念最初由弗朗索瓦(2008)提出。具体而言,它是指当某种语言的一个词汇形式能编码两个功能不同的意义(sense),就可以说这种语言共词化了这两个意义。在弗朗索瓦看来,一个意义能否被纳入语义清单关键在于这两个意义是否至少在一种语言中被直接共词化,即如果在某语言A中词汇a同时具有〈意义1〉和〈意义2〉,就可以说词汇a直接共词化了〈意义1〉和〈意义2〉。间接共词化是指在某语言B中,词汇b必须引入其派生词、复合词、同源词等才能同时包含〈意义1〉和〈意义2〉。采用直接共词化能有效降低语义清单无限延伸的风险。换句话说,如果某种形式能够共词化〈意义1〉和〈意义2〉,那么这种形式的多义性可以体现为〈意义1〉和〈意义2〉。以汉语中的“眼”为例,“眼”既可用于表征〈视觉器官〉的概念,也可用于表征〈小洞、窟窿〉的概念,我们就可以说在汉语中,形式“眼”共词化了概念〈视觉器官〉和〈小洞、窟窿〉等。隐喻和转喻是促使共词化发生的重要机制,如果两个意义之间能够发生共词化,那么这两个意义在功能、形态等方面具有一定关联。

近年来,兴起的“第三代世界语言共词化在线数据库”(简称CLICS3)为共词化研究注入了新的活力。CLICS3收集的语言共词化信息不仅与不同语言变体配对,还与语系配对。在这种配对模式下,跨语系的共词化信息更有可能是来自于特定概念普遍具有的多义性,而不是同一语系由于互相影响或巧合产生的同音异义(Johann et al.,2018)。这样,CLICS3就可以将概念之间的组织关系通过可视化的手段呈现。约翰(Mattis Johann)和特哈勒(Anselm Terhalle)(2013)提出为跨语言或方言的多义性构建权重网络(Weighted Networks),他们通过一定算法把样本语言分为不同社区,大多数大型社区中的概念构成了有意义的概念分组、概念域。这种网络结构能确保所有概念都按照相似性整齐排列,而相似性由跨语言共词化的数量决定,据此提出通过不同算法为CLICS3中的共词化数据构建信息图(Infomap)和子图(Subgraph)。信息图和子图都是共词化网络图,共词化网络图能够反映语义场。

信息图是“基于信息论的社团发现算法(Infomap Algorithm)”的结果,这种算法将数据按一定规则划分为不同的社区,社区的中心概念由这套算法所使用的数据等因素决定。这种算法的核心就是社区内部的相似性,也就是说,相似概念的组织方式可以通过共词化网络图呈现。比较而言,子图是一种基于使用(usagebased)的组织结果,可以标记概念之间的最强联系,其构建流程大致如下:(1)为给定概念寻找直接邻近点(direct neighbors),直接邻近点的选定需要符合阈值,即共词化两个概念的最低语系数量;(2)继续为上一步找出的邻近点寻找属于它的直接邻近点。阈值的选取在子图构建中具有重要作用,如果阈值过小,概念之间的联系过多,就难以排除由偶然性导致的同音异义词。反之,如果阈值过大,概念之间的联系过少,则很难实现最佳邻近点的发掘。

3 结语

词汇类型学作为语言类型学研究的一种新方法展现出蓬勃的生命力,尤其是在称名学研究方面的成果为揭示特定概念的跨语言共性与差异做出了重要贡献。本文对词汇类型学研究的主要路径与研究方法进行梳理,分别介绍了称名学、符意学和词汇—语法界面研究这三条路径的切入点及研究内容,并结合相关案例阐释了解构语义分析、行为语义分析、组合语义分析、认知语义分析和多语言视图分析这五种研究方法的分析思路及典型案例。词汇类型学作为词汇学和类型学的结合体,自诞生之日起便肩负双重使命。一方面,词汇类型学研究可为从事类型学的研究者所用,作为类型学研究的一个部分,与音系、形态句法等类型学研究一起构成了语言类型学研究的主要内容。另一方面,词汇类型学研究可为从事词汇语义的研究者所用,以揭示不同语言词汇系统在语义层面的共性与差异。未来的词汇类型学研究,一方面需要继续聚焦理论的系统构建和方法论的突破,据此构建基于汉语的词汇类型学研究框架,另一方面,还需要借助更多语言类型学、翻译学、计量语言学、计算机语言学等多学科的相关理论与知识开展跨学科的词汇类型学研究,最终实现大样本的定量统计与分析,以构建更可靠的词汇层面的共性与类型原则。