“基于规则”还是“基于网络”
——形态复杂词的神经表征研究现状

2024-03-11 03:29李佐文王玉玲

当代外语研究 2024年1期

李佐文王玉玲

(北京外国语大学,北京,100089)

0. 引言

随着人工智能发展到认知智能阶段,“语言智能”作为一门新兴交叉学科亟待发展。对语言认知机制的探索是语言智能学科的重要任务之一(李佐文、梁国杰 2022)。关于语言的本质,学界均赞同它属于认知科学,应该用认知神经科学的手段去探索语言(Chomsky 2017)。生物学家在尝试理解生命时通常从具有较少细胞的生命着手。同理,语言学家在尝试理解语言加工机制时,一个完整的句子通常难以操控,而一个词则更易于理解且便于探索。但是,当前词的心理表征及语义获取机制远远没有定论。例如,形态复杂词(屈折词、派生词、复合词)的形态结构在大脑中是否具有明显表征?换句话说,语素在大脑中是否被显著表征?形态复杂词在大脑中是如何被存储的,是构成语素通过形态关系相连还是整词具有单独的表征?形态复杂词整词语义的获取是否必须经过语素分解重组过程?总体来说,词的内部形态表征及语义获取机制远未明确(Leminenetal.2019)。

词的认知研究是语言高阶理解模型的基础。如果不搞清楚词的存储加工机制,那么由多个词组合成的句子的理解模型更难刻画。重要的是,形态学的相关探究几乎提供了语言认知领域所有争论的微观模型。例如,形态复杂词的神经表征研究可以为区分规则和必须存储在内存中的非规则形式提供证据。语言规律是基于规则的知识生成的吗?语言规则是明确表征的吗?不论屈折、派生还是复合词研究,当前“基于规则”和“基于网络”的形态表征观点争执不休。

1. 三种形态类型研究现状

当前对形态的认知机制研究主要集中在拼音文字语言,尤其英语。拼音文字语言的形态变化主要分为屈折(inflectional morphology)、派生(derivational morphology)、复合(compounding)三种。

1.1 屈折词

在三种形态类型研究中,屈折词的认知机制研究最多(Leminenetal. 2019)。屈折词缀附在词干后仅改变词形,只增加该词的语法范畴,并不构成新词,比如 “book-books”“work-worked”。那么在心理词典中如何表征这些屈折词,是以完整的形式(例如,“books”“worked”)还是通过其构成语素(例如,“book”+“s”,“work”+“ed”)存储访问?不规则的屈折词(“taught”)又如何存储?规则的过去时态(例如 “walked”)和不规则的过去时态(例如“ran”)之间的显著性差异是否导致存储加工机制也显著不同?关于是否以及如何区分规则和不规则的屈折形式,形成了神经语言学领域研究时间最长且最活跃的争论之一,即所谓的“过去时之争”。

关于屈折词,Rumelhart 和 McClelland (1986)的联结观点提议最先引发了英语过去时的争论。联结主义方法允许通过一种单一的计算机制来推导规则和不规则形式。具体表现为,一种联结主义网络系统会将所有动词的词干映射到它们的过去时形式。例如,从规则词干产生规则过去时的相同单元和连接也会处理不规则词,将词干的特征复制到过去时形式并根据最终辅音添加/d/、/t/ 或/^d/。例如生成“kept”而不是“keeped”,所需要的只是调整代表元音的输出单元的激活,并且网络将根据 “keep”的经验处理 “creep, leap, sleep, sweep,weep”。该网络使用相同的基于联结的知识,允许它执行常规映射,并且还利用由 “keep”的属性激活的特定连接来产生元音调整(McClelland & Patterson 2002)。即联结主义观点认为屈折形式仅有一种存储加工机制,无论是规则的还是不规则的屈折词都以整词的形式存储在大脑词库。由于形式与意义重叠的差异或者词干频率差异而导致的规则和非规则的屈折词之间没有原则性的区别。该模型认为语音和语义之间的映射形式在形态表达中起着至关重要的作用,从而有效地消除了对单独的形态表征的需求(Coxetal.2014)。另外,联结主义理论支持者认为这个相对简单的模式能够以惊人的准确度模仿英国儿童所表现出的习得阶段。

相反,一些观点认为规则和不规则的屈折形式之间的存储加工是分离的。其中规则过去式由规则系统产生,而不规则过去式则作为整词存储在内存中(Pinker &Ullman 2002)。该观点既允许用于检索存储的不规则形式的词汇列表路线,又允许用于生成常规屈折形式的规则合成路线。即该观点主张两种计算系统:整词存储和规则计算系统,称为“陈述/程序模型”(declarative/procedural model)(Ullman 2001)。该模型进一步假设规则(规则过去式)形态的处理是由额下回和顶叶脑区的网络处理的,而不规则形态(不规则过去式)主要存储在内侧颞叶。

基于脑电及磁共振成像的形态学研究,屈折是研究最充分的形态类别,其数量远超派生和复合词的相关研究。当前探究的目标主要集中在规则和不规则屈折形态加工是否与可分离的神经过程有关,即两者是否在不同的脑区激活或通过不同的ERP成分表征。针对该问题学界主要采用了典型的掩蔽启动范式。在掩蔽启动实验中,启动词的呈现时间通常不超过50 ms, 并且会在启动词前或者启动词后呈现一个掩蔽刺激,均是为了进一步防止被试能意识到启动词。因此,被试对目标词做出判断的脑电可以揭示词在大脑中早期自动加工的模式。例如英语的屈折词启动(stretched-stretch vs. fought-fight),与控制条件(与目标词毫不相关的启动条件)相比,有研究发现规则启动条件显示N400效应减小。相反,不规则动词启动则显示N400效应比规则动词晚约100 ms,或者直接无任何显著效应。以上N400效应的差异被解释为规则过去式在形态上分解加工,而不规则过去式N400效应的缺失被解释为其只能通过间接整词方式访问。然而,有研究则观察到了等效的N400效应,或者观察到了由规则和不规则的过去时态引起的等效的LAN和N400效应(Justusetal.2011)。另外,支持分解观点一些研究又集中在形态-词形(morpho-orthographic) 分解与整词意义计算是并行的还是前者先于意义计算,结果仍不一致。当前关于屈折词的磁共振成像研究也未能达成一致。

总的来说,屈折形态的认知加工机制研究主要分为两派观点。联结主义观点认为不论规则的还是不规则的屈折词,均采用一种计算系统加工。在联结主义模型中,规则和不规则过去时形式之间的分离主要参照这些形式对语音和语义处理的依赖程度来解释。而双路径或者“词和规则”理论则认为规则的和不规则的屈折词采用两种系统分别加工。规则形式的屈折词采用规则计算系统,而不规则形式的屈折词采用整词存储记忆系统。

1.2 派生词

派生指通过将词根或词干与一个或多个词缀(例如前缀、后缀、中缀)组合来创建新词的方式(例如“teach-teacher”)。派生形态领域内的争议也集中在是否存在独立的形态组合(“规则”)的证据。

采用掩蔽的形态启动决策任务,有些研究发现事先呈现的透明(“farmer-farm”)和不透明(“corner-corn”)的词都可以促进后续目标词的识别。此外,有研究发现这两种情况的启动强度在统计学上是等量的,表明语义信息没有介入整词早期识别过程(Beyersmannetal.2019)。基于此,一种强制性的形态分解的观点被提出。该观点认为看起来像语素的字母序列将进行无条件切分,无论这一切分是否有助于形态复杂词整词语义获取。因此,无论透明还是不透明的形态复杂词首先都将被分解,但是由于“-el”不是英语中的合法后缀,因此对诸如“brothel”之类的单语素词将进行整词访问。采用类似的观点,还有Taft提出的形态复杂词识别的层次结构框架 (Taft &Nguyen-Hoan 2010)。根据该模型,形态是在“词元”级别编码的。“词元”是位于形式和功能信息(例如语义和句法特征)之间的抽象表示层。因此,语素语义启动可以归因于启动词和目标词之间共享的同一词元的预激活。词元模型本质上也是两阶段的强制分解模型,即同样认为形态复杂词首先经过无语义信息介入的强制语素分解阶段。

持相反观点的学者认为,早期形态加工不仅依赖形态—词形结构,还依语义信息。支持这一观点的证据是,在某些掩蔽启动实验中,有研究发现透明词所产生的促进作用要比不透明词所产生的促进作用显著更强(Jaredetal.2017)。形式和意义在早期形态加工中的参与,与分布式联结主义理论一致。该理论主张由于同一形态族内词与词之间的形式和含义的稳定相关性而出现了形态表征。即形态结构是词形、语音和语义因素融合的结果。因此形态学效应可以从这些因素预测,即语素并不需要独立的心理表征。有研究发现语义透明词的启动作用最大,半透明词的次之,不透明词的最小,并发现语义透明度对无论早期还是晚期的脑电成分均有影响(Gonnermanetal.2007)。语义透明度的分级效应是证明联结主义观点而非分解观点的关键证据。另外形式和意义在早期形态加工的共同参与还与双路径模型观点一致。

如图1所示,派生词加工的三种观点分别被展示。A中描述的框架预测了强制性的派生词分解机制。不论真派生词“worker”还是伪派生词“corner”,首先都会被强制进行语素分解,因为它们看起来均像形态复杂词,均包含后缀“er”。一旦这种分解的结果被转到词汇层面,形态语义关系就可以发挥作用。发生这种情况是因为透明亲属的表征之间的明确或隐含的联系(“work”和 “worker”)。B显示了词形和语义信息同时处理的并行双路径模型。与前一种模型的关键区别在于,形态表征和整词表征之间存在直接联系。这条路线原则上允许观察到单独的形态语义效应,即可观察到形态效应而不涉及亚词汇分解机制。在实际识别过程中,除了不规则形式外,直接路径和分解路径之间可能存在合作。C描述了关于形态处理的分布式联结主义观点。该模型认为通过统计学习,连续的隐藏单元表征(描绘为条形图模式)捕捉形式和意义之间的系统相关性。由于形态家族是这种相关性的原型,因此透明派生词亲属的表征比仅在形式或含义上相关的词的表征更加相似。

1.3 复合词

关于复合词研究的基本问题,仍然是它们以整个词的方式还是以相连接的组成语素存储的。当前对复合词的认知机制研究较少,且结论不一。有研究支持在访问整个复合词之前访问组成语素的观点,有研究则认为复合词是在整个词级别上进行识别的(Davisetal. 2019)。此外,一些研究表明复合词的语义透明性可能决定访问这些词的处理方式,但其他研究则声称语义透明和不透明复合词的处理方式相似 (Smolka &Libben 2017)。还有研究声称新复合词和现有复合词的形态分解与否也存在差异 (Kaczeretal.2015)。

复合词形态分解的证据主要来自目标复合词可以被它的某个组成语素(例如 man-milkman)促进识别的现象。然而,组成语素和目标复合词之间的语义启动效应可能并不能作为复合词组合加工的决定性证据,因为它们可能是由纯粹的整词级别的语义相关性驱动的。所以,单纯的语素促进复合词识别的现象不能作为复合词分解加工的证据。有研究发现共享语素的透明复合词不会相互启动,除非复合词作为整个词在语义上相关。具体来说,尽管启动词-目标词对都是透明的复合词,但“teacup/茶杯”可以启动“teapot/茶壶”,而“headache/头痛”并没有启动“headscarf/头巾”。如果复合词由通过形态关系连接的组成语素表征,那么重复获得的语素表征应该对目标词具有促进启动作用,而不管启动词和目标之间的全词语义相关性如何。相反,以上结果更有可能是启动词和目标词整词之间的语义相关性决定了形态启动效应(Zhou &Marslen-Wilson 2000)。当前针对汉语复合词形态加工机制的研究较少。Wang 等人 (2021a, 2021b, 2023) 发现整词语义的早期激活,并发现单独的构成语素对复合词影响作用微弱,推测复合词整词语义的提取可能并不需要强制经过语素分解重组过程。

2. 三种形态加工模型

目前,关于形态复杂词处理机制的理论模型主要有三种:强制分解模型,双路径模型,联结主义模型。

2.1 强制分解模型

形态复杂词的强制分解观点(Obligatory decomposition models)认为心理词典存储词干(例如build)以及关于什么词缀可以与每个词干组合的信息(例如re-、-er、-ing、-s)。当出现一个形态复杂的词(或看似形态复杂的词“corner”)时,形态解析机制会从词干中迅速剥离词缀,词汇访问仅基于词干进行(Taft &Nguyen-Hoan 2010; Taftetal.2018)。有学者也提出了一种类似的强制解析机制,该机制在处理的早期将具有形态复杂性的词迅速分解为其语素成分(Rastle &Davis 2008)。与最初的 Taft的强制分解观点类似,该解析机制认为形态复杂词识别的早期仅基于词形信息进行分解操作,而对语义信息视而不见。

这种强制分解观点预测,在处理的早期阶段应该对真实的形态复杂词(例如foolish、predictable、builder)和伪形态复杂词或不透明词(例如vanish、tenable、corner)进行等效处理,即使将 “corner”等词分解为“corn”和“er”无助于获得语义。“corn”和“corner”之间没有语义关系,仅仅因为“corner”包含形态复杂词后缀“er”所以一样会被强制进行语素分割。总的来说,这种强制分解观点认为形态复杂词或者看起来像形态复杂词的词首先会根据语素-词形信息均被分割为语素,紧接着语素-语义被加工,最后经过语素合并才会获取整词语义。

2.2 双路径模型

双路径或者混合方法结合了分解和整词表征访问的两条路径。两个过程可能是并行运行也可能是竞争关系。该模型认为分解路径可能只应用于规则形成的形态复杂词,而不规则的词则存储在词典中。然而,双路径模型内部对分解的规则形式定义不同。换句话说,该模型内部对于哪些非规则词将从记忆中检索存在争议。有些学者认为语义上透明的词分解加工,不透明的词则整词存储。而有些学者则认为带后缀的词分解加工但非前缀。有些学者认为屈折词分解但派生词不分解。另外,这些双路径模型在分解或检索哪个路径被认为是更重要和更快的过程方面也存在分歧。最后,关于分解解析和整词检索是合并到单个系统还是两个不同的系统中(对常规的形态变化对应于规则计算系统,而不规则形态则应用于联想记忆系统)观点也不统一。即使内部存在争议,这些双路径模型均假设语素是离散的且某些形态复杂词是分解加工的。

双路径模型中比较具有代表性的是陈述/程序模型。如图2所示,该模型提供了一种语言处理架构的神经认知实现,该架构明确区分了词汇知识和基于规则的知识。陈述性记忆负责存储事实(“语义记忆”)和事件(“情景记忆”)。它允许快速学习关联关系,并且可以被其他系统访问。相比之下,程序性计算系统包括感觉运动和认知领域的序列、动作和技能的知识。更详细地说,基于规则的语言知识(即句法和规则形态知识,以及音系和组合语义方面)是构成程序系统的一部分,而词汇存储信息(例如不规则形态、词汇语义)表示为陈述性信息类型(Ullman 2001)。

2.3 联结主义模型

关于形态复杂词表征处理的第三种观点——联结主义模型(Connectionist models)与以上两种模型完全不同。该模型直接摒弃了语素作为独立的表示级别,而主张形态是在共同激活的形式单元和语义单元之间学习映射。这一映射可能是直接的或由隐藏单元层介导的(Baayenetal.2016)。

在典型的联结主义体系结构中,词的表征被编码在代表词形、语音和含义的单元池中。如图3所示,椭圆形代表简单的类似神经元的处理单元库,而实线代表单元组之间的连接。表征是分布在这些单元上的激活模式,知识存储在它们之间的连接权重中。该模型主张语素表征不是离散的实体。相反,它是随着网络学习从一个域到另一个域的映射(例如语音到语义或者词形到语义)。并且它会根据映射的规律性来进行选择。从联结主义的角度来看,形态是对词的表层形式(词形、语音)与其意义之间的学习映射的表征。依照该观点,形态结构不是离散的,而是分级的、连续的。该模型指出现实中存在许多既不完全透明(规则)也不完全不透明(不规则)的中间情况。例如,像“dresser/梳妆台”这样的词在语义上既不是完全透明的,也不是完全不透明的。虽然“dresser”不是穿衣服的人,而是一件装着衣服的家具,但它显然与穿衣活动有关。双路径观点将特殊性与系统规则知识隔离开来,这是双路径理论的核心。联结主义观点认为这种明确区分的隔离可能最终成为处理丰富的、等级不分明的语言结构的严重障碍。

图3 联结主义模型中词的心理表征机制 (Plaut &Gonnerman 2000)

表示输入和输出之间的相关性是分布式联结主义模型的特征。在这样的模型中,通过激活的子模式捕获相关性,该子模式在介导输入和输出之间的单元隐藏层内发展。当词形和语义信息的一致同时出现时,稳定的子模式发展,形态结构就会出现。例如,由于重复形式的“hunt”在某些词中都具有相似的含义,因此在该级别上捕获了“hunt”“hunter”“hunting”等之间的关系。类似地,尽管“venge”本身并不是一个词,但在“revenge”“avenge”“vengeance”“vengeful”再次出现“venge”的相似含义将在此级别被捕获。总的来说,在完全存储和完全解析之间的连续统一体的一侧即联结主义观点。联结主义网络假设一个单一的联想记忆系统,该系统直接从词形表征计算意义表征。而从这些模型中出现的形态“表征”仅是形式到意义映射的附带现象。

3. 语言规则是否被明确表征?

关于形态复杂词(屈折、派生、复合词)的认知加工机制的争论主要围绕着“基于规则”和“基于网络”方法展开。尽管这两种观点各自都有几种不同的解释,但它们之间的争论均与语言规律是否由基于规则的知识产生有关。需要注意的是,这场辩论不应被视为暗示联结主义模型的支持者否认语言存在规则结构。在联结主义提出其最初的过去式模型(屈折词)时,Rumelhart 和 McClelland (1986)用一个类比来举例说明这一点:蜂巢的规则结构源于蜡球在压缩时相互施加的力的相互作用。蜂巢可以用一条规则来描述,但产生它的机制不包含这条规则的任何陈述。因此,两大观点的分歧主要涉及语言规则是否被明确表示的问题。鉴于两个对立的理论都赞同语言表现出规律性,并且某些模式比其他模式“更规律”这一事实,那么具体如何区分这两大观点、三种模型?

对于形态复杂词识别是通过分解解析还是从记忆中整词检索,以及是由单一系统还是由双重系统来处理,三种模型观点不一。在完全存储和完全解析的连续体的一侧,联结主义网络模型假定有一个单一的联想记忆系统,该系统直接从词形表征计算意义表征。并且该模型主张形态学表征仅仅是形式到意义映射的一个表象。即该观点认为无论只包含一个语素的单纯词还是包含多个语素的形态复杂词都被作为完整的形式来访问。在通往语义信息的路径中,有一个抽象的层次,在这个层次上,由于形式-意义的相互作用,是词而不是语素聚集在一起。在任何层次上均没有解析,形态相关的影响来自系统的形式-意义的相互作用。即在联结主义观点中,针对所有类型的词都由一个单一的联想记忆系统来处理。

另一方面,强制分解模型假定必须进行分解,所有形态复杂词均被解析成词干和词缀,然后再访问整个词的表征。因此,该模型也实现了一个单一的处理系统,其中不同的过程(解析、全词访问)以一种连续的方式运作,并且形态复杂词表征既表现为整词也表现为语素形式。双路径或者混合方法则结合了分解和访问整词形式的两条路径,两个过程可能是并行运行也可能是竞争机制。该模型认为分解路径可能只应用于规则的形态复杂词,而非规则的词则整个存储在词典。然而,双路径模型内部对规则形式的定义有争议,即对于哪些词采用规则计算系统哪些词将从记忆中整个检索观点不一。最后,关于分解解析和整词检索是合并到单个系统还是两个不同的系统中意见也不统一。

从是否分解角度来看,双路径和强制分解模型均认为语素是离散的,是被明确表征的,形态规则也被明确表征。而联结主义认为形态复杂词是以整词形式存储的,语素没有明显的表征,它仅是形式到意义映射的表象。从单一系统还是双重系统处理角度来看,强制分解和联结主义模型均认为形态复杂词处理仅通过单一系统,而双路径模型则认为包含两条不同的处理系统。从整词语义获取的时间进程来看,双路径和联结主义观点均认为整词语义的获取并不需要强制经过语素分解重组,而强制分解观点则完全相反。

总体来看,联结主义完全不同于强制分解和双路径观点。联结主义认为传统上归因于屈折、派生或者复合形式的形态分解的处理效果应该通过语义、语音和词形代码的融合来解释。传统观点认为形态是语言结构的基本要素,而联结主义观点则认为形态来自词的形式和意义之间的系统映射规律,不具有单独的心理表征,并且可以从词形、语音和语义表征中推导出形态。需要注意的是,联结主义与分解观点均承认语言存在规律的事实,两方争议点主要在于语言规律是否由语言规则生成或语言规则是否被明确地表示(Zwitserlood 2018)。

为了证明语言规则被明确表征,Ullman(2001)提出陈述/程序系统与可区分的电生理成分相关。存储记忆的各个方面被认为反映在N400效应中,基于规则/组合的处理会产生LAN,P600则被视为程序性方面的标志。本质上,它们对应于与语言相关的ERP成分非常经典的功能解释(即LAN效应反映了某些描述的组合处理;N400效应与词汇/联想知识有关)。然而,这种详细的电生理定义与最近的一些发现不兼容。特别是有越来越多的证据表明N400效应也可能反映组合过程。具体来说,有研究认为整词语义的提取在目标词出现后前200 ms已经完成(Hauketal.2012)。根据以上发现,N400可能并不表征自动语义提取过程,而是表征语义整合到语境的过程。自动语义的提取过程可能在早期时间窗口已经完成。从陈述/程序模型的角度来看,这是难以解释的。第二个问题出现在晚期P600效应方面。P600除了与句法再分析相关(即根据 Ullman 指出P600表征程序性知识的使用)之外,有研究称其也可能表征语义信息和句法信息的整合,或者仅表征语义的整合(Brouweretal.2017)。依照这些发现,陈述/程序模型对P600成分(或相关成分)明确的“程序”解释可能有点过于狭窄。

另外,当前很多研究从语义信息加工的时间进程角度加以验证。如果整词语义信息不影响早期形态复杂词识别,则可能支持两阶段的强制分解观点。而如果整词语义加工较早,可能支持双路径或者联结主义观点。另外,如果发现早期语义信息的分级启动效应,则更可能符合联结主义观点。之所以当前研究结果不统一,可能是因为各实验的任务设定、实验材料、启动词的呈现时间、掩码类型等诸多因素不一致。另外不同语言系统甚至不同形态类别是否具有不同的形态表征机制也未可知。针对汉语形态加工机制,Wang 等人(2023)从复合词角度出发,发现整词语义信息可能在最早期已被激活,并不需要强制经过语素分解重组过程。这一结果与强制分解观点相反,但还不能明确双路径还是联结主义模型更符合汉语复合词表征机制。换句话说,不论针对字母语言还是针对汉语,“基于规则”还是“基于网络”的神经表征机制均需进一步验证。

4. 结语

形态复杂词的神经表征一直是神经语言学领域的研究焦点。不论屈折、派生还是复合词研究,“基于规则”还是“基于网络”的形态表征观点争执不休。两方均承认语言存在规律的事实,争议点主要在于语言规律是否由语言规则生成或者说语言规则是否被明确地表示。本文对相关研究的最新进展提供了一个比较全面的概述。另外,现代汉语语法体系的基础单位问题一直存在争议。本文对语素级别的大脑表征的讨论对语言学理论可能也有借鉴意义。

“基于规则”还是“基于网络”——形态复杂词的神经表征研究现状