基于感知习得理论的多媒体二语语音学习模式

2022-08-29 01:28周丽胡伟胡珍铭

长沙大学学报 2022年4期

周丽，胡伟，胡珍铭

（1.长沙学院外国语学院，湖南长沙410022；2.长沙理工大学外国语学院，湖南长沙 410114）

基于行为主义的对比分析假设是二语习得研究的里程碑，但二十世纪八九十年代，生成音系理论被广泛地用来构建中介语音系表征和解释二语语音习得过程。近二十年来，现代音系学变得越来越包容，对现象的解释越来越倚重感知、发音等功能—语音因素［1］。这种趋势也体现在二语音系习得研究中：一些基于感知的二语语音习得模式对学习者发音的母语迁徙效益的解释由抽象的音系层面回到了可观测、可感知的声学—听觉层面，这种从形式主义向行为主义的范式转换，可以看成沉寂多年的对比分析假设的某种回归，只是此时的对比分析假设已经被赋予了新的内容与生机。我们将以学术史梳理的方式，阐述对比分析假设与基于感知的语音学习模型的理论渊源，并在多媒体语境下探讨更合理的二语语音学习模式。

一对比分析假设

Lado 的对比分析假设在语言学、行为主义哲学和外语教学之间搭建了桥梁。对比分析假设是指通过对比学习者母语和目标语各语法领域，找出它们之间有差异的结构特点，并凭此预测学习的过程中学习者将犯的产出错误。母语迁徙一直是二语习得研究的重点，对比分析假设对此的解释是：母语和目标语相同（似）的结构有助于学习，相异的结构则有碍于学习，并导致学习者的产出错误。结构的差异首先是表征上的，如日本人往往将英语中的ride 读成lide，因为日语的音段库里没有［r］［2］。其次是因规则的不同引发的产出错误，如德国人很难学会加拿大英语的提升规则即［aɪ］在浊辅音前变成［ʌɪ］，是因为德语中的音节尾辅音清化规则的干扰。必须指出，在以行为主义为指导的对比分析假设中，无论是表征的差异还是规则的不同，都是可观测的，是直观的经验总结。

二中介语假设与形式主义二语习得研究范式的缺陷

（一）形式主义的中介语研究与语言教学实践的分裂

行为主义的语言习得观遭到了乔姆斯基的批判，他认为语言习得不是人与环境互动的产物，而是人类天赋的内在语言能力的外延。到二十世纪七十年代，学习者对目标语各阶段性的认识都还不被认为是语言系统，但乔姆斯基1966 年在美国西北语言教师协会上发表讲话后，中介语和学习者的心理表征成了二语习得研究的重心。Selinker 正式提出了中介语假设，指出二语学习是一个动态的过程，中介语和任何自然语言一样是不断演化的语法体系，演化的驱动力是独立于母语、目标语之外的语言的内在机制［3］。

上述二语习得研究范式更替发生在美国形式语言学蓬勃发展的时期。形式主义的生成音系学中规则与表征是不可分的整体，规则是表征的一部分，所以在形式主义看来，一、二语的结构差异实质上都是表征的，因而也是抽象的、可形式化的，这是中介语假设产生的基础，也使得随后数十年的二语习得研究天然地倾向于形式主义。就音系习得而言，既然中介语音系是抽象的、具有普遍意义的结构表征，可观测到的学习者的语言表现就可以用来证实和证伪某一音系表征模型及其制约性原则。这种思想指导下的研究数十年来一直是二语音系习得研究的主流。相比之下，对学习者的语音表现（特别是错误）的研究被边缘化，从对比分析到中介语理论的范式更替导致了二语研究与语言教学实践的分裂。

（二）形式语言学理论体系中二语习得学科的不利地位

以形式主义为指导的中介语研究还导致该学科处于十分不利的地位。二语习得在行为主义的对比分析盛行的二十世纪五六十年代并不是一门真正独立的学科，确实是形式主义的兴起和介入使之成了一门独立的语言学学科。但深受形式主义影响的二语习得学科并没有因此获得与音系学、句法学平等的地位，反而成了它们的附庸。很多二语研究只管描写，实验设计得再精妙，数据分析得再细致，也只是为了得到经验证据，至于对经验的解释，都交给了音系学、句法学的各类理论假说。可以说，除了试图探索二语学习者在习得各阶段的表征体系和各阶段联系的中介语假说之外，二语习得自身没有提供任何解释性的理论模型。这种情况很像Lightbown et al.提到的语言习得研究发展的奇怪循环——研究从数据驱动型经过一个似是而非的理论导向时期后又回到了数据驱动的状态［4］，即便提出过一些假说，如表征缺陷假说［5］，也仅是对数据归纳结论的表述。

（三）形式主义高度抽象的中介语表征的问题

尽管最初对比分析与中介语假设是根本对立的（前者以行为主义心理学和结构主义语言学为理论依据，后者以心智主义和形式主义语言学为指导），但二语习得研究近四十年的发展说明中介语假设并非专属于形式主义，它是一项被各派学者广泛接受的学说。中介语是客观存在的、独立的语言体系，也是不断向着目标语法发展的，由各阶段表征体系组成的动态过程，此乃各派之共识。各派的分歧在于，中介语的表征抽象程度和它与诸多外部因素的互动特点。形式主义者认为，中介语既然由抽象结构表征、普遍原则构成，那它本身就是演绎系统，具有推导和解释的功能。这本与形式主义提出的理论模型应同时具备描写和解释功能的观点不违背，但问题在于其高度抽象性和排外性，这种抽象性和排外性使其无力回答一些如丰富的个体差异等现实性问题，以及各中间阶段表征体系之间如何过渡的问题，即过渡段可以是一个多种形式呈自由变体的阶段等理论问题。此外，抽象、排外的中介语在对学习者产出错误的解释上也易趋于简单化。如用中介语缺乏“时态”的形态表征的假设来解释中国学生为何常将动词过去式读成原形［5］，这个观点后来饱受质疑。显然，更深刻的解释必须依赖结构描写或表征之外更深刻的机制——基于感知的二语语音习得模式。

三基于感知的二语语音习得模式

（一）基于感知的二语语音习得模式的原理

现代语音学认为如某音段在不同的语音环境中拥有的音征数量（number of cues）和凸显性（saliency）不一，可以比抽象音系表征（也包括规则）更好地解释共时、历时语音变化，语言习得等诸多语言现象。

二语语音习得研究越来越倾向用基于语音的模型来解释学习者的产出错误，或概括阶段性的中介语法。这些研究认为至少在学习初期，母语的音系对立严重影响着学习者对听到的目标语语音信息的规整和范畴化，这种感知过滤往往带来错误的音系规整，形成对目标音系的错误解读进而影响学习者的语音产出［6］。显然这些研究都直接继承了对比分析假设，只是将学习者发音的母语迁徙效益的解释机制从高级的抽象结构（表征）层面向低级的、可观测的声学—听觉层面的转移。目前影响最大的两个理论是Flege 的语音学习模型（Speech Learning Model，SLM）［7］和Best的感知同化模型（Perceptual Assimilation Model，PAM）［8］。

（二）语音学习模型

SLM 为阐释对比分析假设的迁徙效果提出了全新的概念——“等同归类”［7］：导致学习的困难是母语和目标语的相似性而非差异。该理论认为，在音段学习中，目标语音的声学参数以及其在母语语音声学空间的统计分布决定听音人对目标语语音的感知，由于母语中与目标语某元音在以第一、第二共振峰为轴建立的元音声学图上的空间位置非常接近，学习者错误地将该母语音段投射到该目标语音段，使其未能正确地设立新的音位范畴，而导致产出时的语音错误。如西班牙人将听到的英语［ɪ］归为音位［i］，故将［ɪ］发成［i］［9］。

但简单的一、二语音段对照不能解释很多经验观察。Katsura 让日本学生和韩国学生听辨英语［m，n，ŋ］分别在音节首尾的对立，发现日本学生对音节尾［n，ŋ］的辨别格外困难，这用音段相似度就解释不通［10］。通过比较，他们排列出了三个鼻音彼此间的相似度：［m］与［n］之间的相似度最高，［m］与［ŋ］其次，［n］与［ŋ］最低。但根据SLM 的预测，相似度低的［n，ŋ］应该最不会引起听者的错误投射，也因而最好辨别。另外，SLM没有考虑各类音征在感知中可能相互影响。Ingram et al.研究了日、韩学生学习澳大利亚英语的前元音的情况［11］。澳大利亚英语中松紧元音的区别主要是音质（一、二共振峰值），但时长也是重要语音参数，除［ӕ］外，其他松元音都有相对应的紧元音，而紧元音明显比松元音长。日语的长短元音有区别（音位）意义，韩语没有长短元音的对立，因此日本听者将会更容易察觉目标语中的松紧元音在时长上的语音或非音系的差异。如果按SLM 的预测，日本学生会将母语中与［ӕ］在元音声学—感知空间上位置最接近即音质上最相似的［e］来替换之。但产出试验证明除［e］替换或同化［ӕ］的格式外，日本学生更多地采用［a］同化［ӕ］的格式。这显然是日本学生同时运用共振峰值和时长两个维度的感知信息的结果，因为在时长上［ӕ］和［a］比［ӕ］和［e］更为接近。

（三）感知同化模型及其与语音学习模型的区别

Best 的感知同化模型提出了三种音段感知同化格式［8］。第一，范畴对范畴的感知同化：母语有两个不同的音位分别同化或替换目标语的某对音位时，听者（即学习者）区分这对音段最容易。第二，非范畴对非范畴同化：当两个目标语音位被同化为一个母语音位时，它们的可辨度最差。第三，非范畴对范畴同化：两个目标语音段中一个同化为母语的某一音位而另一个同化为母语的某音位的一个变体时，学习者也不难区分它们。日语中［m］是范畴（音位），［n］或［ŋ］是［N］的音位变体而非范畴，所以对日本学生来说，英语音节尾［m］vs.［n］和［m］vs.［ŋ］的对立均属非范畴对范畴同化，不难辨别。但音节尾［n］vs.［ŋ］的对立属于非范畴对非范畴同化，最难区分。Katsura 的试验结果符合PAM 的预测［10］。

PAM 与SLM 的另一重要区别就是PAM 认为母语、目标语某音段感知上的异同与特定音姿（如圆唇或升降舌体等动态指令）一一对应，直接关联，中间不需经过任何心理解读。在对语音输入的感知过程中，学习者（无论是成人还是儿童）逐渐将各类音征一一整合成与音姿耦合的知觉对象，即在认知中建立音姿和知觉对象的内在联系。感知和产出共享一套有公约性的发音和听觉参数（或特征）。因此在具体研究中，PAM 坚持产出试验得到的声学数据能够直观地反映出学习者在听辨试验中采用的感知特征。

从目前我们掌握的文献看，PAM 比SLM 有优势：首先，PAM 能更准确地预判对目标语音段的替换或同化格式；其次，PAM 坚持感知的发音基础，音征和音姿的耦合，为在感知过滤中多个语音特征同时作用提供了可能。但我们必须指出，无论是音征和音姿的一体化，还是各特征交互作用的具体机制，都有待探究。

四基于多媒体的语音教学模式

（一）多媒体语音教学模式的认知基础

多媒体中的媒体指的是学习者和新信息交互的渠道。Mayer 的双渠道假设认为人类的信息处理系统包括言语处理系统和图像处理系统，这两个子系统独立地处理两类信息［12］。Mayer 认为，在多媒体条件下，各种信息表征邻近且连贯，学习者能更好地建立各表征间的联系，这就是空间连贯原则。同时，多类媒体信息被同时而非断续地呈现给学习者，使学习者在工作记忆中同时拥有多类表征，因而更容易建立和保持图与文、视觉与听觉的心理联系，这就是时间连贯原则。

我们认为，多媒体学习的认知过程可以概括为理解、摄入和整合三个依次进行的环节：理解是指在工作记忆中对输入材料进行初步加工，所形成的可理解的输入和反馈再分别进入视觉和听觉渠道，便开始了摄入过程；摄入的信息在工作记忆中形成文字、声音、图像的心理表征后，就需要在这些心理表征间建立互参的联系，这就是整合；整合后的知识结构或表征已经进入长期记忆，成为学习者中介语法的构成部分。

因此，多媒体语音教学模式能结合听觉和视觉两个反馈渠道和建立视、听的心理联系，是提升语音学习效率的有效手段。

（二）多媒体语音教学新模式

图1 是新的基于感知的多媒体语音学习模式，其工作原理如下。首先，各类输入材料在工作记忆中初步加工后产生最初的语音产出。这类输入材料包括：发音语音学、声学语音学基本知识，比如对发音部位、发音方法的了解，对常用声学参数的了解和英语音段在语图上的识别等；对目标语（英语）音系的掌握，尤其是音位变体和音变规则（如闪音化、三音节松化）的了解，接下来是多媒体的认知过程，在这一环节，视、听觉的反馈开始发挥关键作用。语图上的相关声学参数、标识和学生对标准音以及自己发音中相关音征的听觉感知，能清晰地提醒学生注意自己的发音和标准音的差别，从而有力地推进感知与音姿的耦合过程。修正后的语音产出再次形成新的视、听觉反馈，整个学习过程便开始下一个循环。例如湘方言区学习者受母语影响，在学习区分［l］和［n］时容易混淆，这两个音听感相近，学习者仅凭听易产生困惑。通过图1 所示的基于多媒体的训练，［l］与［n］不同的音征在语图上有清晰的体现，这样的反馈可以帮助学习者认识自己的产出错误，使其更容易注意到［l］与［n］在听感上的差异，把握这种差异的特点，同时不断地调整发［n］或［l］时的音姿，并逐渐在认知中形成两个有区别的、与不同音姿耦合的感知项。

图1 新的多媒体语音学习模式

（三）多媒体语音教学新模式的开发与运用

目前，可视化语音教学稳步开展。基于感知的语音习得模式和多媒体学习的性质、特点吻合，加上声学语音技术、平台、程序也比较成熟，很多便携商业软件被开发推广。比如二十世纪六七十年代问世的CALL（Computer Assisted Language Learning），该软件一直沿着感知精度与交际自然度最大化的方向发展，技术已相当成熟，可与手机应用程序兼容。此外，开发始于二十世纪九十年代的SpeechViewer 更侧重超音段和口语整体表现的提高。这两项技术在国外运用得比较广泛，但在国内的推广因产权等问题而受阻。在中国很多高校的语音教室里，安装的多媒体教学系统中多带有ASR（自动语音识别）技术，这主要是因为ASR 技术已无独立产权。但该技术在各类高校中的运用情况还有待广泛调查；如何尽快开发出适合我国国情的便携软件程序，来实施多媒体、可视化的二语语音学习，也是将来的重点工作。

综上所述，通过持续地向学习者输入可视语图反馈（音征）和其他模式的知识，提醒其注意自己的发音与目标的偏差所在及偏差有多大，训练其逐步调整发音—感知匹配，无疑是二语语音学习领域的不可逆趋向，也预示着对比分析假设将在新时代技术背景下持续彰显生机。