金 霞
(上海交通大学,上海,200240)
工作记忆是由Baddeley和Hitch于1974年在短时记忆研究基础上提出的一个重要概念。它不同于仅强调存储功能的短时记忆,而是同时为复杂认知活动提供加工(processing)和储存(storage)双重功能的认知资源。作为一种容量有限的认知资源(Daneman & Carpenter 1980;Daneman 1991;Just & Carpenter 1992),工作记忆还存在个体差异性。在认知活动中,当工作记忆负荷较大时,容量不同的个体就会在信息的加工和储存上表现出速度和准确性的差异,从而形成认知活动中的个体差异。工作记忆的相关研究有很多,本文将通过实验的方法,具体研究二语口语广度测试及其对口语流利度的预测力。
Daneman和Carpenter在1980年根据容量理论设计开发了阅读和听力广度测试来测量工作记忆容量,其效度是基于它们与阅读理解能力之间的显著正相关。在这两个测试的基础上,Daneman和Green于1986年设计了口语广度测试。在该测试中,被试默读并记忆在电脑屏幕上以1词/秒的速度呈现的一组单词,然后用该组单词分别造句并大声读出语句,所有语句录音后转录成文本。该测试共有70个单词,被分为2-5个单词一组的组系,组系内单词数目依次增加。该测试采用两种计分方式,一种与阅读和听力广度测试相同,另外一种是总体计分方式,即包含呈现单词且语义和句法都准确无误的语句总数为口语广度成绩,其中语句长度、单词在语句中出现位置以及语句顺序是否与单词呈现顺序相同均不影响得分。Daneman(1991)后又提出口语广度测试可采用严格和宽松两种计分方式,其中严格方式等同于上述的总体计分方式,而宽松方式允许所说语句中单词与原呈现单词形式不同,如原呈现单词为danger,而语句中单词若为dangerous也可接受。
口语广度测试同时涉及工作记忆的加工和存储双重功能。在测试中,加工(造句)和储存(单词记忆)共同分享有限的资源,当工作记忆负荷较大时,容量低的个体在对信息的加工和储存方面出现困难,表现为无法记住单词或造句速度迟缓或所造语句出错,因而广度成绩较低。目前口语广度测试成为测量工作记忆容量的常用范式之一(Daneman 1991;Fortkamp 1999;2003;Weissheimer & Fortkamp 2009;Fontaninietal. 2005;Finardi & Prebianca 2006;Xhafaj 2006)。但Daneman(1991)口语广度测量方法是否能够准确测量工作记忆容量仍值得进一步研究。
工作记忆是具有加工和储存两大功能的认知资源(Baddeley & Hitch 1974),其广度测试应测量这两方面的能力,而加工能力应进一步从加工准确度和加工效率两个方面来考虑,因此广度测试应综合反映加工准确度、加工效率和储存三方面的能力。Daneman(1991)口语广度测试的对象是母语使用者,对他们而言,只要能够记住呈现的单词,用这些单词说出语义和语法正确的语句并非难事,因此他们记住的单词数目与能够说出的正确语句数目之间并无多大差异,也就是说对母语使用者而言,广度测试中的加工准确度与储存能力基本是等同的。但是二语学习者的情况则不同。首先,有些二语水平较差的学习者即使记住呈现单词,也未必能够说出语义与句法完全正确的语句,因此他们的储存能力与加工准确度之间存在程度不同的差异。若按照Daneman(1991)的计算方法,仅以包含呈现单词且语义和句法都准确无误的句子总数作为口语广度成绩,一些包含二语学习者常见错误(如单数第三人称未加s或冠词使用错误)的语句没有考虑在内的话,那么这种计算方法只反映了被试的加工准确度却没有准确反映其储存能力。其次,Daneman(1991)口语广度测试没有统计被试造句使用时间,也即未考虑加工效率这一因素。但是根据已有研究(Friedman和Miyake 2004),如在阅读广度测试中不限制测试时间的话,被试会采用某些策略以帮助单词的记忆,这些策略的使用不仅影响加工效率,而且导致阅读广度测试成绩与阅读成绩之间相关程度下降。可见按照这一方法进行的口语广度测试并不能准确反映被试的真实成绩。现在口语广度测试中已有研究者观察到被试在实验中采用复述、联想等策略以记住单词,并因此明显使用更多的加工时间(Weissheimer 2007),也就是说,被试在造句时因加工时间不同而存在加工效率方面的差异。
可见,Daneman(1991)口语广度测试没有准确反映二语学习者在加工(造句)能力和储存能力方面的差异。本研究认为,二语口语广度测试应采用同时考虑加工准确度、加工效率和储存能力的综合口语广度成绩,并将通过实证研究比较该口语广度和Daneman(1991)的口语广度对二语口语流利度的预测能力。
本实验对象为随机抽取的两个班共78名非英语专业大学二年级学生,其中男生66名,女生12名。年龄21岁左右,学习英语时间7-8年。
实验对象需要参加两项测试:1)测量工作记忆容量的口语广度测试;2)测量口语流利度的口语产出测试。
3.2.1 口语广度测试
本实验中工作记忆容量采用口语广度测试进行测量(Daneman 1991),具体采用Fortkamp(2003)所用的口语广度测试范式。测试中使用的60个英文单词全部选自Cobuild英语学习词典(2006)中的高频(标◆◆◆◆◆)单音节单词,这些单词被分为三个组系,每个组系包括2-6个单词一组的五组单词。为避免被试采用联想等记忆策略,每个组内的单词既无语义上的关联也无发音上的相似。
测试所用的单词事先做成PPT文件。在测试中,测试单词以1词/秒的速率依次呈现在电脑屏幕上,被试大声朗读屏幕上的单词,当一组单词呈现结束时,屏幕上出现与该组数目相等的问号,提示被试用刚才呈现的单词造句。例如,当屏幕上依次出现“price”,“week”,“game”,“star”四个单词后会出现“????”,提示要求被试用四个单词造句。被试大声说出所有语句。造句没有时间限制,当被试完成该组的所有语句或表示放弃时,实验者会点击鼠标,开始呈现下一组单词。测试的60个单词分为3个组系。测试先从2个一组的单词开始,然后3个一组,直到6个一组完成一个组系的20个单词,然后再以同样的顺序完成另外两个组系。
口语广度测试采用了四种评分标准得出四个不同分数。第一个是严格口语广度SSS,也就是使用呈现单词原形且语义句法正确的所有语句的总数,但不考虑是否与单词呈现顺序相同(Daneman & Green 1986;Daneman 1991)。第二个是宽松口语广度LSS,即使用呈现单词(包括派生词)且语义句法正确的所有语句的总数,但也不考虑是否与单词呈现顺序相同(Daneman 1991)。第三个是综合严格口语广度CSSS,根据Water和Caplan(1996)阅读广度测试设计原则并参照李晓媛和俞理明(2009)听力广度测试成绩计算方法,该分数由加工准确度、加工效率和储存能力三部分组成。加工准确度为使用呈现单词原形且语义句法正确的所有语句的总数(不考虑是否与单词呈现顺序相同);加工效率为产出这些语句所用时间与这些语句总数之比,即正确产出平均反应时;储存能力为被试能够回忆出的所有单词(包括正确语句、非正确语句中的单词或派生词以及记得单词但是放弃造句的)得分总和,符合呈现语序的单词得1分,而不符合呈现语序的单词得0.5分。然后将上述三项转换为标准分,其中正确产出平均反应时乘以-1,这三部分的平均分即为综合严格口语广度CSSS。第四个是综合宽松口语广度CLSS,其加工准确度为使用呈现单词(包括派生词)且语义句法正确的所有语句的总数(不考虑是否与单词呈现顺序相同);加工效率为产出这些语句的正确产出平均反应时;储存能力计算方法与CSSS的相同。在后文中严格口语广度SSS和宽松口语广度LSS统称为一般口语广度,而综合严格口语广度CSSS和综合宽松口语广度CLSS统称为综合口语广度。
3.2.2 口语产出测试
在实验中采用描述图片故事的方法来诱发被试的口语产出。这一方法是类似研究常用方法之一,它比交互性口语产出如对话、面试能更准确反映二语学习者的口语流利度(Lennon,1990)。
综合前人的研究(Lennon 1990;Towelletal. 1996;Ortega 1999;张文忠&吴旭东2001;Fortcamp 2003)并略加调整后,本研究采用下列时间性变量对口语流利性进行操作性定义:剔前语速(speech rate unpruned)、剔后语速(speech rate pruned)、发声时间比(phonation/time ratio)、平均语流长(mean length of speech run)、发音速度(articulation rate)和平均停顿长(average length of pause)。
所有时间性指标的计算都取决于对停顿的界定,因此停顿是分析口语流利性的关键。本研究采用张文忠和吴旭东(2001)的定义,将停顿界定为发生于句内或句间的0.3秒及以上的间歇,包括0.3秒及以上的有填充和无填充停顿。本研究言语样本中剔除的对象除了包括被改述、替代、重复(为修辞效果的重复除外)的单词、错误启动和犹豫现象(张文忠&吴旭东,2001)外,还包括插入的母语旁白(如:“不不不”;“那个”等)。
上述7种时间性指标的计算方法如下:
剔前语速(SRU):表示为一个言语样本的音节总数和产生该言语样本所需的(包括停顿在内)时间总量(表示为秒)之比,将所得结果乘以60,表示为每分钟发出的音节数。
剔后语速(SRP):表示为一个言语样本删去剔除对象后的音节总数和产生该言语样本所需的(包括停顿在内)时间总量(表示为秒)之比,将所得结果乘以60,表示为剔除后每分钟发出的音节数。
发声时间比(PTR):表示为用于发音的时间总量与用于产生该言语样本所需的时间总量之比。
平均语流长度(MLR):指所有每两次达到或超过0.3秒停顿之间的语流的平均长度,表示为言语样本的音节总数与(除首尾外)所有达到或超过0.3秒停顿的总次数之比。
发音速度(AR):指用于发出所有音节的总时间内平均每秒所发出的音节数,表示为言语样本的音节总数与用于发出这些音节所需的(除停顿以外的)时间总量之比。
平均停顿长度(ALP):表示为所有达到或超过0.3秒停顿的时间总和与(除首尾外的)停顿次数之比。
本研究之所以采用剔后语速这项指标是因为有些言语样本虽听起来持续不断,给听者一种表述流利的感觉,但是实际上样本中包含很多改述、替代、重复、错误启动和犹豫现象,这些现象是由于说话者在概念的形成、言语的形成和产出过程中的失误所造成的,因此这种流利往往给人一种错觉,而剔除这些现象之后的剔后语速则应更能真实体现出说话者思想表述和言语产出的流利度。
首先进行口语广度测试。口语广度测试由研究者与被试一对一在计算机上进行,先由研究者讲解测试程序和要求,特别向被试强调造句时要使用单词的原形并按照单词呈现的顺序造句,所造语句长度不限,但是必须语义和语法都正确。在正式测试开始之前,被试有一个练习阶段,直到他们表示已完全明白并适应测试要求才开始正式测试。被试的测试言语样本通过话筒用Audition 1.5软件录制成MP3文件保存到计算机硬盘上。所有被试的口语广度测试在四周内完成。
口语产出测试采用集体施测的方式在语音实验室进行。在测试正式开始前被试拿到图片并有5分钟的准备时间。所有被试的口语产出均被录制成MP3文件保存在电脑硬盘中。
对于收集的口语测试MP3文件,研究者首先将其转录成文本,根据严格口语广度SSS和宽松口语广度LSS的计算方法分别计算出每个被试的这两项成绩,以及综合口语广度中的加工准确度和储存能力这两部分的成绩。然后用Audition 1.5软件记录并统计每个被试产出正确语句所用的总时间,计算出他们的正确产出平均反应时,并通过计算得出他们的综合口语广度成绩。
对于所收集的口语产出MP3文件,研究者首先用Audition 1.5软件将其转录成文本,确定达到或超过0.3秒的有填充和无填充停顿,记录这些停顿的时间,每两次达到或超过0.3秒停顿之间的语流的音节数,以及发出这些音节所用的时间。接着再统计剔除对象所占音节总数,最后计算出每个被试的剔前语速、剔后语速、发声时间比、平均语流长、发音速度和平均停顿长。
为检验上述指标的可操作性和数据的可靠性,研究者从78名被试中抽取序号末位为5的8名被试的口语广度测试和口语产出样本,并请另一名研究者对这些样本进行上述指标的计算和统计。两名研究者所得各项指标之间的相关系数均达到甚至超过0.9以上。
本研究采用软件SPSS11.5对所有数据进行统计分析。
口语广度测试中所采用的60个单词分为3个组系,每个被试在完成全部测试后,除总成绩之外,还可以分别计算出3个组系的广度测试成绩。根据这3个组系的广度测试成绩,我们得出口语广度测试的内在信度Cronbach’s α系数(见表1)均大于0.8,这说明各测试可信。另外综合口语广度的α值略高于其相对应的一般口语广度的α值,说明前者的内在信度略优于后者。
表1 口语工作记忆测试描述统计及其信度(N=78)
(续表)
口语工作记忆测试的描述统计表(表1)还显示了口语广度、反应时和储存能力的均值、标准差、最高值与最低值。值得注意的是被试个体不仅一般口语广度(加工准确度)存在显著差异(p<0.05)(严格广度全距为25;宽松广度全距为31),而且他们的反应时(加工效率)也存在极大差异,最大值和最小值之间相差22秒,将近反应时平均值的两倍。这种明显的差异说明在口语广度测试中极有可能出现了Weissheimer(2007)观察到的同样现象,即被试在实验中采用复述、联想等策略以记住单词,并因此使用了更多的加工时间。这种现象也说明一般广度成绩(加工准确度)不足以体现个体在工作记忆测试中的差异,反应时应成为口语广度成绩中不可忽视的因素之一。另外,从表1中我们也可观察到储存能力和一般口语广度成绩之间存在很大差异:严格广度(SSS)平均数23.8,宽松广度平均数25.8,而储存能力平均数30.7,且t检验结果表明两者存在显著差异(p<0.05)。由此可见,对于二语学习者而言,使用规定单词正确造句仍然存在一定的难度,在口语广度测试中,被试的储存能力显著大于其能够产出的正确语句数,因此在二语口语广度成绩计算中不能简单地以被试产出的正确语句数来代表其储存能力。
本研究采用剔前语速、剔后语速、发声时间比、平均语流长、发音速度和平均停顿长等时间性变量来表示口语流利度,表2为这些指标的描述统计。表2显示这些二语学习者在上述流利度指标中都表现出相当大的差异,另外剔后语速的均值比剔前语速均值降低20.15个音节(18.67%),也就是说改述、替代、重复、错误启动和犹豫这些不流利现象占总样本的18%左右。
表2 口语产出流利度描述统计(N=78)
(续表)
表3 工作记忆和口语流利度的相关统计
注:**p<0.01,*p<0.05。
从表4中我们可以看到,除一对相关系数,即宽松广度、综合宽松广度与平均语流长MLR的相关度之间不存在显著差异外,其余综合口语广度与流利度指标之间的相关度均显著高于一般口语广度与流利度指标之间的相关度,其中一般口语广度、综合口语广度与SRU、SRP的相关系数更是在0.01的水平上差异显著。这说明综合口语广度与相对应的一般口语广度相比,能够更好地预测口语产出的流利度。
表4 相关系数差异检验
(续表)
注:**p<0.01,*p<0.05。
为了进一步比较一般口语广度和综合口语广度对口语流利度的预测能力,研究者分别以SSS、LSS、CSSS、CLSS为自变量,SRU、SRP、PTR、MLRB、MLRA和RA作为因变量,进行回归分析(表5)。回归分析结果显示,虽然一般口语广度和综合口语广度都是口语流利度的显著预测因素,但是综合口语广度对口语流利度所有指标的预测能力均高于一般口语广度。CSSS与SSS相比,前者对SRU的变异解释从12.8%提高到25.1%,提高了12.3%,SRP提高17.2%,PTR提高8.3%,MLR提高10%,AR提高6.6%;而CLSS与LSS相比,前者对SRU的变异解释力提高了11%,SRP16%,PTR7.6%,MLR6.3%,AR5.8%。
表5 口语工作记忆广度对于口语流利度预测能力的回归分析表
综合口语广度比一般口语广度对二语口语流利度具有更好的预测能力,一方面是因为综合口语广度本身同时考虑加工准确度、加工效率和储存能力,从理论角度而言更好地反映了工作记忆能够同时加工和储存信息的功能;另一方面是因为在口语产出过程中说话者必须经过单词的检索和提取、言语的编码和产出等一系列过程,在这些过程中加工效率、加工准确度和储存能力对于口语产出都起到非常重要的作用,因此综合口语广度中同时考虑这三个因素,使其比一般口语广度更能区分二语学习者在口语产出过程中各方面的差异。尤其是综合口语广度中加工效率这一因素的加入,使之对于以时间性指标为主的口语流利度的影响力明显提升。
通过本文的实证研究,我们可以发现,考虑加工准确度、加工效率和储存能力的综合口语广度比Daneman(1991)的口语广度能更好地预测二语学习者口语产出的流利度。综合口语广度更好地体现工作记忆同时加工和储存信息的功能,因而也更好地预测二语学习者在口语产出过程中因加工效率、加工准确度和储存能力方面的差异而产生的流利度方面的差异。至于综合口语广度对于口语产出的其它方面,如准确度、复杂度等,是否也有更好的预测能力,则有待于将来进一步研究和探讨。
Baddeley, A.D. & G. J. Hitch, 1974. Working memory [A]. In G. H. Bower (ed.).ThePsychologyofLearningandMotivation:AdvancedinresearchandTheory[C] (Vol. 8). New York: Academic, 47-89.
Blalock, H. M. 1972.SocialStatistics[M]. NY: McGraw-Hill.
Daneman, M. 1991. Working memory as a predictor of verbal fluency [J].JournalofPsycholinguisticResearch, 20: 445-464.
Daneman, M. & I. Green. 1986. Individual differences in comprehending and producing words in context [J].JournalofMemoryandLanguage, 25: 1-18.
Daneman, M. & P. A. Carpenter. 1980. Individual differences in working memory and reading [J].JournalofVerbalLearningandVerbalBehavior, 19, 4: 450-466.
Finardi, K. & G. Prebianca. 2006. Working memory capacity and speech production in L2: evidence from a picture description task [J].Revistadeestudosdalinguagem, 14(1): 231-260.
Fontanini, I. & J. Weissheimer & J. Bergsleithner & M. Perucci & R. D’Ely. 2005. Working memory capacity and L2 skill performance [J].RevistabrasileiradeLingüísticaAplicada, 5, (2), 189-230.
Fortkamp, M. B. M. 1999. Working memory capacity and aspects of L2 speech production [J].CommunicationandCognition, 32: 259-296.
Fortkamp, M. B. M. 2003. Working memory capacity and fluency, accuracy, complexity, and lexical density in L2 speech production [J].Fragmentos, 24: 69-104.
Friedman, N. P. & A. Miyake. 2004. The Reading Span Test and its predictive power for reading comprehension ability [J].JournalofMemoryandLanguage, 51: 136-158.
Just, M. A. & P. A. Carpenter. 1992. A capacity theory of comprehension: Individual differences in working memory [J].PsychologicalReview, 99: 122-149.
Lennon, P. 1990. Investigating fluency in EFL: a quantitative approach [J].LanguageLearning, 40: 387-417.
Ortega, L. 1999. Planning and focus on form in L2 oral performance [J].StudiesinSecondLanguageAcquisition, 21: 109-148.
Towell, R., R., Hawkins & N. Bazergui. 1996. The development of fluency in advanced learners of English [J].AppliedLinguistics, 17: 84-119.
Water, G. S. & D. Caplan. 1996. The measurement of verbal working memory capacity and its relationship to reading comprehension [J].TheQuarterlyJournalofExperimentalPsychology49, 1: 51-79.
Weissheimer, J. 2007.WorkingMemoryCapacityandtheDevelopmentofL2SpeechProduction: An Exploratory Study. [D]. Unpublished Ph.D. dissertation, Federal University of Santa Catarina, Florianópolis, Santa Catarina, Brazil.
Weissheimer, J. & M. B. M. Fortkamp. 2009. The effects of practice and strategy use on L2 working memory capacity and fluency [J].IssuesinAppliedLinguistics, 17(2): 93-112.
Xhafaj, D. 2006.PausedistributionandworkingmemorycapacityinL2speechproduction[MA]. Unpublished Master’s Thesis. Universidade Federal de Santa Catarina, Florianópolis, Santa Catarina, Brazil.
李晓媛、俞理明.2009.关键图示对二语听力理解中工作记忆负荷削减作用的研究[J].现代外语(2):149-157.
张文忠、吴旭东.2001.第二语言口语流利性发展定量研究[J].现代外语(4):341-351.