第二语言词汇知识的构成与发展

2020-01-18 09:36邢红兵
华文教学与研究 2020年2期
关键词:二语语义聚类

邢红兵

(北京语言大学国际学生教育政策与评价研究院 ,北京100083)

1.引言

近些年来,语言习得在以脑科学为核心的认知研究方面得到高度重视,特别是第二语言(以下简称“二语”)习得的脑机制研究,正成为研究的热点。研究者们采用心理学、认知神经科学、计算机科学等交叉学科的方法对二语学习过程进行了生理、心理、病理、语言发展等方面的研究。词汇是语言知识的最大领域,也是影响最大的领域,无论是个人学习者还是语言社区(Gross,2004)。在第二语言习得研究领域,词汇习得(lexical acquisition)越来越受重视,Schmitt(2000)认为词汇知识是交际能力和习得第二语言的核心,Nation(2001)描述了词汇知识与语言使用之间的相互补充关系:词汇知识能够使语言使用,而且,语言的使用会导致词汇知识的增加,其中知识储存及其加工模式成为关注的热点。

词汇知识(lexical knowledge)研究历来备受关注。Cronbach(1942)界定了词汇知识的五个属性:概括性(generalization)、应用性(application)、 宽 广 性 (breadth)、 准 确 性(precision)和可用性(availability)等。Richards(1976)以描写语言学理论为基础,从词汇教学的角度提出“词汇能力”假设,认为词汇知识涉及到词的语境、搭配、功能和场合、句法行为、形式、语义等方面。Melka(1997)认为词汇知识习得是一个连续统,在这个连续统中,学习者熟悉词汇的过程一般分为四个阶段:模仿(imitation)、理解(comprehension)、同化性复制(reproduction with assimilation) 和产出 (production)。Laufer(1998)则将前人对词汇知识的界定进行了归纳,总结出了词汇知识的特征,包括:(1)形式,(2)词汇结构,(3)句法形式,(4)意义,(5)与其他词汇的关系,(6)常用搭配。Laufer还将词汇知识划分为:基本应接性知识(receptive/passive knowledge)、半自由/受控性知识(controlled knowledge)和自由运用知识(free knowledge)。近30年来,研究者们逐渐意识到词汇系统在语言学习和教学中所起的主导作用 (Coady&Huckin,1997;Griffiths,2003,2006;Shen,2008),一些学者认为词汇习得对于成功的第二语言使用至关重要,并且在完整的口语和书面文本的形成过程中起着重要的作用 (Laufer&Nation,1999;Maximo,2000;Read,2000;Gu,2003;Marion,2008)。但是,从目前的研究结果来看,我们认为二语词汇知识的界定及相关研究还存在如下需要改进的问题:(1)需要进一步从人类认知的角度关注二语词汇知识的构建过程;(2)需要关注母语知识体系和目的语知识体系在二语知识体系建立中的作用,随着语言学习理论的不断推进和深入,二语输入直接影响二语知识构成,二语知识学习和目的语的关系研究尤为重要;(3)二语知识的体系研究有待深入,主要体现在二语词汇知识体系性不强,还需要将词汇知识整合为一个完整的体系进行理论思考。

我们认为联结和聚类是语言知识体系的两大重要特征。按照联结主义的观点,聚类关系是心理词典的重要的构造特征(邢红兵,2009)。在二语词汇知识构建过程中,聚类的作用更为重要,是词汇学习的关键,这是因为聚类关系是将词典中各个语言单位按照特征是否相关而形成的词语存储模式,二语语言单位聚类关系的形成和调整,实际上就是二语学习者建立一套符合目的语的词语关系体系(邢红兵,2016)。而关于联结这个特征,我们认为不能仅仅局限于形音义的联结,本研究希望在目前的研究基础上,以心理词典中词汇知识构成中的核心因素之一——联结特征为讨论重点,从基于语言现实的学习观点和人类认知特点角度出发,提出基于联结和聚类的二语词汇知识体系(lexical knowledge system,LKS)的概念,为二语词汇知识习得研究找到一条有效的途径,探讨词汇知识体系的特征、构成及其形成过程。

2.二语词汇知识体系的理论基础

2.1 基于用法的语言习得

目前诸多跟语言输入相关的研究都可归为基于用法(usage-based)的研究思潮。Wulff(2008)指出,我们的语言大多数情况下是程式化(formulaic)的,我们通过大量收集真实语言的用例,从使用过的语言中提取知识。Goldberg(2009)认为基于用法的习得过程研究强调形式和意义的关联;基于用法的方法假定所有的语言知识都是在输入的基础上构建的。Ellis&Wulff(2015)认为基于用法的习得研究主要遵循两个共识:(1)语言学习主要是基于学习者对第二语言的使用,即他们所接收到的语言输入;(2)学习者运用认知机制,从输入中归纳出第二语言的规则。Ellis&Wulff(2015)还认为语言学习是形式和意义、功能配对关系的学习,语言学习本质上是基于范例的学习过程,语言学习是一种语言的渐进过程,作为一个复杂的和自适应的系统,语言学习是人脑的认知机制与输入的交互作用。因此,我们认为,人类的语言能力(language competence)就是物质世界、语言体系和认知能力通过人脑的生理结构进行作用的综合体。

2.2 联结主义理论

作为基于用法的一个范例,联结主义构建了人类大脑的语言处理认知模型,该理论采用计算机系统架构,利用语言输入单位的共现频率建立语言单位之间的联结(connections)。联结主义的语言学习观点认为,频率(frequency)是一个知识学习的重要因素。联结主义假定学习者的学习过程就是通过语言输入在学习项目之间建立心理联系,基于这种输入,通过认知过程来提取语言中隐含的规则,整个过程就是浮现(emerge)过程,因此联结主义也被称为浮现主义(emergenlism)。联结主义理论认为语言习得的过程实际上是语言学习者通过真实语言环境获取语言知识并存储在心理词典中的过程,词汇知识的习得就是词汇知识在心理词典中的表征(representation)并进行不断调整的过程。这样的设想为二语词汇知识的习得过程研究提供了很好的理论基础。联结主义强调心理词典的知识表征类型是分布表征(distributed representation),认为词汇知识在心理词典中的存储不是整体的,而是被分解成更小的单元(unit),即由一个个的词汇知识表征属性共同构成,并且具有某种意义关系的词语共享部分相同的意义单元。

2.3 语料库与语言知识体系

目前在大数据环境下,中介语对比分析(contrastive interlanguage analysis)为二语词汇习得研究提供了基于语料库层面研究依据(Granger,1998、2002)。基于语料库的研究方法最能体现语言的动态特征。在二语习得过程中,目的语系统的知识体系,是二语学习者学习二语词汇知识体系构建的最终目标,也是中介语分析的依据和参照(邢红兵,2016)。因此,我们需要进一步对汉语语料库系统进行统计分析,来了解目的语的内在特征,要了解目的语词汇的特点,就需要对目的语的词语使用特点进行分析,同样我们也要关注学习者的母语的特点(徐秋叶,2015;庞硕,2017),只有这样才能更好地了解学习者中介语的特点。语料库语言学的发展,为二语词汇知识体系的构建打下了基础,邢红兵、辛鑫(2013)在对目前研究现状分析的基础上,提出了运用中介语对比分析方法进行词汇习得研究的词汇知识框架和“四率三度”的研究指标,实际上是将基于语料库的统计分析数据应用于语言习得研究的尝试。大数据的研究实践及其相关的理论基础,是本研究提出的词汇知识体系构想的重要数据来源和理论基础。

2.4 二语习得的生理基础

语义知识在大脑中如何表征,是认知神经科学研究的热点,知识是如何表征的,目前的看法并不一致,比如核心脑区+分布式语义表征模型(hub-plus-distributed semantic representation model; Rogers et al., 2004; Patterson et al.,2007; Schapiro et al., 2013; Rice et al.,2015)就是一个有代表性的模型。根据该模型,人脑从客体中获取的知识,都分布式地表征在大脑的不同脑区里,构成了一个复杂语义网络(Martin,2007),语义网络中还存在一个极其重要的核心脑区,该脑区汇总来自分布式脑区的信息,形成一个跨通道的语义表征体系(Pobric et al.,2010),该模型认为,语义加工通过核心脑区与分布式脑区的连接和合作,对语义知识进行表征、存储和提取,这样的加工形式在语义性痴呆病人和中风病人的研究中得到了验证(陈研,2018)。从目前的二语习得研究来看,二语的生理机制研究还不够深入,很多的研究正在逐步开展,早期的相关研究假设也没有逐步得到验证,比如说关键期假说就是二语习得中的重要问题,但是目前并没有达成完全一致的结论。Zhao&Li(2007、2008)采用计算机模拟的方法研究发现,二语学习者心理词典的构建过程关键是二语词汇系统能否独立,早期的二语习得,学习者更容易形成独立的二语知识体系,成人的二语习得则容易产生二语词汇对学习者的母语寄生(parasitics)现象,很难成为一个独立的知识体系。目前进一步的研究结果证明,第二语言习得过程中,会产生一些第一语言不具备的脑的生理变化,语言训练会改变大脑结构。如Yang,Gates,Molenaar&Li(2015) 的研究就发现,通过二语训练后,学习者的大脑功能活动发生了变化,大脑的语言区有更为强烈的激活,优秀学习者的语言脑区之间沟通途径更多、连接更强等,这为进一步的词汇知识体系的形成提供了研究基础。

3.二语习得过程中的联结

3.1 关于联结

基于联结主义的分布式表征将知识体系看成是一个复杂的知识联结体系,比如语言单位和语言特征之间的联结,形成语言单位和知识体系的联结;不同单位之间,通过联结建立相互关系;相同的单位之间通过其联结的特征进行聚类,形成聚类关系。我们通常所理解的联结,最典型的就是形音义的联结,比如字形字义联结、字音字义的联结、字音字形的联结等。但是,这些联结并不能完全描绘出以联结为核心的知识体系。联结知识还包括词语搭配形成的搭配联结关系,词语和其表示的概念的语义特征之间的联结关系等。

3.2 联结的强度

联结强度(strength of the connections)是学习过程中形成的联结程度。在加工过程中联结强度表现为单位的可激活程度,比如认知加工过程中存在的频率效应,高频词更容易激活。语言学习过程中,联结建立以后,随着学习过程的不断深入,联结强度都会动态调整,每次的调整结果就是联结权值。从学习者的心理知识构建过程来看,知识输入的次数是词汇知识的重要描述参数,随着输入次数的增加,符号和概念的联结强度就会逐渐加强,同时输入的项目之间也存在输入次数效应,按照激活阈值假说(activation threshold hypothesis)的设想(Hobson&McCarley,1977),在其他因素不干扰的情况下,语言少用会逐渐形成母语的磨蚀(attrition),从目前的心理学研究结果来看,这种训练的结果和频次相关。我们把这种随着输入次数逐渐加强的效应叫做频度效应(frequency effect)。联结强度有时候可以通过语料库进行语言单位的频率统计分析,例如字频、词频就是利用语料库进行频率统计得到的,这种频率信息会通过联结强度反映在心理词典中,并作为词汇知识的重要部分存储在心理词典中。我们认为,单位之间的联结强度是词汇知识系统的重要特征,是词汇知识存储和加工过程中的重要信息,比如词语共现频率、词语的搭配频率(邢红兵、辛鑫,2013)、音形联结频率(李梅秀、Daniel、邢红兵,2018)等。

3.3 联结的方向

按照联结主义理论的设想,联结关系中处在联结关系两端的语言单位或者语言特征之间具有双向可激活性,也就是说,联结是有方向的,而且具有双向性的特点。比如汉语学习过程中汉字的形音联结关系,就是典型的双向联结,由于联结的双向性,加工过程中激活的方向既可以从汉字读音通达汉字字形,也可以通过汉字字形激活汉字的读音,但是两个方向的联结强度并不完全相等,比如汉字“礴”和该字的读音“bó”的联结关系中,从字形到字音的通路联结更强,容易提取,但是从字音到字形的角度,则难以提取。联结可以是多节点的,比如汉语的音节和汉字之间的关系就可能是多节点的,汉字音节“bā”就和“八、巴、芭、粑”等汉字有着多节点联结,而汉字“行”和“xíng”和“háng”两个音进行联结。同样词汇和语义特征之间也是双向、多联结的,每个词是由很多语义特征构成的,比如“父亲”这个词语,可以具有很多语义特征:男人、父辈、成人等,这些属性都能和“父亲”进行语义联结,“父亲”也和多项语义特征进行了联结,进而形成一个双向多联结的知识体系。

3.4 联结知识

由联结构成的联结体系我们称之为联结知识,联结知识是词汇知识体系构成的框架。基于用法的语言习得观认为形式和意义的联结是核心(Ellis&Wulff,2015),在联结主义理论体系中,联结是联结主义的核心特点之一,是知识系统的关键因素,词汇知识是需要通过各种联结形成的,因此,词汇知识的联结包括很多种类型,不仅包括形音义的联结,还包括不同汉字、字音、字义之间的相互联结。词汇知识在心理词典中按照联结进行组织,并形成了不同知识的聚类,从而形成了词汇知识体系。我们认为联结知识主要是由下面四类联结结合起来形成的联结知识体系:概念和符号的联结、概念和概念的联结、符号和符号的联结、概念和特征的联结等。

4.二语词汇知识的联结知识体系

4.1 概念和概念的联结

概念和概念之间需要建立联结,比如“智能”和“手机”两个概念之间需要建立联结,通过联结后的概念表示“智能手机”这个概念,概念和概念的联结在不同语言之间可能具有共性,比如“智能手机”汉语和英语的组合方式相同,也可能出现差异。不同语言的概念组合模式也可能不同,比如“衣架”这个概念,汉语采用“衣”和“架”两个概念的联结来表达,而意大利语中,“衣架”这个概念则采用“挂”和“架”这两个概念的联结来表示(蒂娜,2018)。概念和概念的联结,最终要转换成符号与符号的联结,在汉语中,要表达“智能手机”这样的概念,就必须形成“智能”和“手机”两个词之间的联结关系,才能完成意义到形式的转变,而不是“聪明”和“手机”的联结,而在英语中,则采用smart和phone两个词语来表达,这种意义到形式的转换,在二语习得过程中尤为重要。

4.2 概念和符号的联结

语言交际的本质就是利用一套符号系统来进行概念的理解和表达,以达到交际的目的。二语学习实际上是利用学习者现有的概念体系,建立一套不同于学习者母语的新的符号概念联结体系。而相对于汉语作为第二语言来说,学习者首先需要建立的就是汉语的语音体系、汉字与概念之间的联结关系,其中符号系统包括汉语的汉字、音节及其构成的更大一级单位短语、句子等,也包括其亚词汇(sublexical)体系的音素、部件(义符、声符)等(邢红兵,2016),都是需要建立的符号系统。符号和概念的联结是语言体系的核心关系,二语词汇知识体系也是这样,词的形态(包括词形、读音)和词的概念意义的联结是词汇知识体系的核心,对于二语学习者来说,构建二语的词汇知识体系,首先必须建立一套独立于母语之外的二语符号概念体系。

4.3 单位和单位的联结

从意义到表达,心理词典中还有一种联结就是单位和单位的联结,比如说汉语双音节词“学习 (xuéxí)”中的两个音节“xué”和“xí”之间的组合,就是两个音节构成单位的联结;词语搭配也是一种单位与单位之间的联结,比如动词“吃”和名词“东西”“思想”两个名词之间就存在是否有联结关系,“吃”和“东西”之间有联结关系,“吃”和“思想”之间一般就不会形成联结关系。不同类型语言单位之间同样存在联结,读音和字形的联结,读音和意义的联结,字形和意义的联结等都是这类联结,比如汉字“礴”和该字的读音“bó”的联结等。这两类联结从联结成分之间的关系来看,可以分为同类联结(单位和单位)和跨类联结(符号和概念、不同单位之间的联结)。这些联结的建立是词汇知识体系构成的重要框架,也是语言表达的重要外在形式。在二语学习中,只有将内在的语义知识转换成符合二语体系的表达形式,才能达到较高的二语水平。

4.4 单位和特征的联结

单位和特征的联结也是词汇知识体系中最为核心的构成,因为语义单位是由无数个语义特征构成的,语义单位和语义特征之间也就形成了联结。语义特征包括词义特征、句法属性、结构特性、功能特征、语体特征等,因此一个语言单位实际上是多种语义特征的有序集合。词义特征(semantics features)是词汇语义知识的组成部分,是词汇项目意义的基本概念组成部分。与此相对应的是,词义的对比是由不同的语义特征来解释的,例如“父亲”和“儿子”“女儿”具有相同的特征“人类”“亲属关系”,其中“父亲”和“儿子”具备“男性”的语义特征,“女儿”具备“女性”的语义特征等;“父亲”和“儿子”属于男性家庭关系语义域,其不同的特征是“父辈”和“子辈”,“儿子”和“女儿”是家庭的“子辈”,具有相同的语义特征,但在“性别”这一语义特征上不同,这样的特征分布让三个词语形成了关联,同时也区分了每个词的不同意义。由于每个语言单位都由一定数量的特征构成,不同单位既有相同的特征也有不同的特征,因此一个语言单位的意义是由它与其他语言单位的对比产生的。通过相同特征,那些共享特征的语言单位形成同一个同义域(domain),形成聚类(cluster)关系。除了词义特征以外,我们认为词的句法特征与功能也是词汇特征的重要组成部分,比如词语的句法功能信息、句法框架信息等(邢红兵,2016),这些知识都和词汇形成联结,成为词汇知识的组成部分。

5.二语词汇知识的构成与发展

5.1 聚类和联结为核心的知识体系

词汇知识在心理词典中按照聚类和联结进行组织,形成了词汇知识体系。首先,分布式表征将语言单位和语言特征之间的联结组织起来,形成语言单位和知识体系的联结;语义和语义之间通过联结,形成了新的概念;不同单位之间,通过其联结特征进行聚类,形成心理词典中以语言单位为核心的知识体系;语言表达最终就是通过一套语言符号系统来表达内在的语义体系。比如邢红兵(2012、2013)提出的基于搭配的词汇知识体系,一个词语按照不同的句法功能和其搭配的各类词语形成了搭配关系,具有相同搭配关系的词语又形成了一个聚类,这个聚类又按照搭配的频率排列开来,这样就形成了一个以该词语为核心的搭配知识体系。作为词汇知识体系的主要构成成分,词语搭配所构成的搭配词语集合及其使用频度等信息,构成了丰富的搭配知识,在功能上进行分类,按照不同的功能进行了聚类。

5.2 联结的建立与强度的调整

语言知识是一个不断动态调整的体系。我们认为,二语知识的一个重要调整过程就是二语词汇知识体系中各种联结关系的动态调整。在二语学习中,词汇知识体系中各种联结都需要不断调整,最后才能达到接近母语者的水平。比如按照李梅秀、Daniel、邢红兵(2018)的研究,汉字音节和汉字字形之间的联结存在两种不同的对应量:载字量和联结概率,比如说音节“pí”对应“皮”“啤”“脾”等24个汉字,其中每个汉字在汉语中的使用频度不同,也就造成了“pí”与每个汉字的字音联结次数有差异,其中最常用的是“皮”,概率是0.7153,而“脾”的联结概率只有0.0774,这表明每个汉字和音节的联结是不同的,对于二语学习者来说,是需要通过输入量来不停调整的,只有建立了24个汉字的读音联系,并且按照母语的频率分布进行联结,才能具备母语的联结知识,这是需要一定的时间的。类似的搭配也存在于其他所有的联结关系中,比如搭配知识中搭配概率等问题也是一种强度的动态调整,一个动词和哪些宾语能够搭配,哪一个是最常用的,这些都需要通过搭配实例来动态调整(邢红兵,2012、2013)。

5.3 词汇特征逐渐丰富与精确

二语词汇特征的调整是逐步进行的,经过学习,词汇单位特征逐步丰富和精细化,形成有效的特征。比如我们认为一个词语和它搭配的各类词语的搭配关系形成了这个词语的搭配知识体系。以动词“走”为例。我们将和动词“走”搭配的词语按照前后位置分为两大类:(1)在动词“走”之前和其搭配的词语。这类词语包括与其搭配的主语、状语成分以及“走”作为补语时与其搭配的动词成分等,主语成分还可以按照语义类型进行分类,比如说名词和代词,单个名词、组织机构、团体等;(2)在动词“走”之后和其搭配的词语。这类成分主要包括动词“走”的宾语、趋向补语、结果补语和动态助词等,宾语还可以按照语义类型进行分类;我们分别调查了现代汉语语料库和汉语中介语语料库中的搭配情况,从统计结果来看,作为目的语的汉语体系在搭配词语的类型及搭配词语的数量上都要比二语学习者的中介语体系丰富得多,而且中介语系统中词语的搭配概率也没有和汉语母语者完全匹配。因此,我们可以说搭配知识体系需要更多的知识输入才能让二语学习者获得更多的语义特征,词汇知识特征的表征是由粗略的特征逐渐向丰富精确的特征转变的,词汇特征是随着输入的变化逐步完善的。由于特征的构建逐步形成,词语的特征关联逐步明确,聚类关系更加清晰。

5.4 由理解知识逐渐向产出知识转换

儿童母语的习得,概念的获取和形成是依赖客观世界的,是从客观世界中获取的。作为语言知识体系来说,概念的获得是从用法到意义的概括,是词汇知识和人类对客观世界认识的共同发展。二语习得过程不同于母语习得,二语学习者由于已经存在了依赖于母语的知识体系,所以概念的获得不是主要的难题,难题就是如何获得适合目的语的表达方式,形成一套适合目的语的表达体系。因此,二语知识的获得过程实际上是一个从意义到用法的过程,主要发展语言知识的实际运用,调整和第二语言匹配的客观世界体系。这样的二语学习特点决定了二语产出能力是二语能力的核心和关键。在词汇知识相关的研究中,研究者从各个角度对词汇知识进行了分析,也从理解和产出角度提出了产出性词汇(productive vocabulary)和理解性词汇(receptive vocabulary)的概念,但是近些年来,学者们也逐渐关注产出性知识(productive knowledge)和理解性知识(receptive knowledge),并且认为这是一个逐渐转变的过程(Melka,1997;刘映萩,2012;邢红兵,2016)。语言理解和语言产出是两个不同的认知过程,无论是母语学习还是二语学习,理解过程实际上是由形到义的加工,我们只需要通达语言符号所表达的意义则可,不需要对词形进行选择,而语言产出则不同,这个过程是一个由意义到词形的选择过程,需要一个明确的概念到符号的联结以及同类符号的选择等。比如“美好的夜晚”从理解的角度来看,相对非常容易,因为“美好”和“夜晚”都是非常常用的词,语义的组合规则也非常明了,没有歧义。但是如果要表达这样的意思,对于二语学习者来说,就需要进行选择,因为“漂亮”“美丽”“精彩”等等表示美好的词语,哪个和“夜晚”组合才更符合汉语的表达?如何产出“夜晚”这个概念,也会受到“晚”“晚上”“夜里”等同义概念的影响。因此二语习得过程中,理解性知识和产出性知识是具有本质区分的,二语词汇知识体系中,关键知识是产出性知识的建立,这是一个漫长的过程。

6.结论和展望

从目前的研究现状来看,二语习得过程是一个复杂的生理过程、心理过程,需要认知神经科学等交叉学科进行综合研究。二语词汇习得是一个复杂的词汇知识构建过程,二语学习者在构建二语知识体系过程中,会受到学习者母语的词汇知识体系的影响,也会受到学习者的目的语知识体系的影响,同时学习者的二语知识体系也是不断发展的,词汇知识的特征是不断丰富的,不同语言单位之间的关联是逐步确立的,因此,不同阶段表现出不同的特点,表现出明显的阶段性。二语词汇知识的形成的最终目的是要建立一套完整的词汇知识体系,这套体系不仅要具备语言理解的能力(从符号到概念)还要具备语言表达(从概念到符号)的能力。本研究从联结和聚类两个大的角度进行了二语词汇知识体系的构建,并着重讨论了联结的类型及联结知识体系。但是,就目前的研究来看,还需要大量的研究从认知、生理和心理的角度进行心理词典内部结构以及心理词典之间关系进行探讨,本研究希望能够提供一点思路,为研究者提供一定的参考。

猜你喜欢
二语语义聚类
中国大学EFL班级的二语自我分型特征分析
真实场景水下语义分割方法及数据集
二语习得理论对初中英语课外阅读教学的实践探索
基于L2MSS理论的职业英语二语动机策略干预研究
语言与语义
基于K-means聚类的车-地无线通信场强研究
The Application of Interaction from Sociocultural Perspective in English Teaching Classroom
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
“吃+NP”的语义生成机制研究