丁 凯
(福建师范大学心理学系,福建福州350007)
目前国内外一批教育学与心理学的研究者,一直在致力于探索教育实践中的不同因素对学生学习效率以及效果的影响,近些年来,他们在结合教育实践的基础上重新审视一些经典的认知科学原理,以期更好地促进实验室的研究与真实教育情境之间的结合[1]。在教育学中,测试或者说测验是检验学生对已学知识的掌握程度,是衡量学生不同的学习程度的一个重要的指标。而随着心理科学特别是认知科学的不断发展,有研究者发现,在学习活动中适当的、有目的地加入测验,可以帮助学生巩固所学的知识甚至提高学习效果,这给了广大教育研究者和教育工作者一个新的启示:是否能够研究一种新的基于学习和测试的有机结合的教育模式,最大限度发挥学生的学习潜能和学习效率呢?
带着问题笔者探究了测试效应的概念和基本研究范式以及前人的研究成果。测试效应(Testing effect)比较通用的一个概念就是指学习某一内容时,进行测试比额外学习能更好地提高后来对它的记忆保持水平,即便在测试无反馈时也是如此[2]。也就是说,测试能够促进后续阶段中回忆已学过的知识。最常见的测试效应的基本研究范式是:学习材料→一次或多次初始测试(initial test)→衡量被试记忆保持程度的最终测试(finaltest),而控制组就是和实验组等长时间并且次数相等的对学习材料的学习,即SSS(S指study)和STT(T指test)[1]。有了这一基本范式,那么研究者就可以通过修改基本范式,探讨不同条件下的测试效应了,例如学习材料的改变:无关词对、联想词对、散文等;还有开始和结束测试形式的变化:再认、自由回忆、线索回忆等。Tulving(1967)率先用他的经典研究证明了学习不仅仅只发生在编码阶段,测试本身就是一种学习[3]。但是Tulving的实验条件下实验组和控制组在最终测试上的成绩几乎是等同的,也就是说,一次测试几乎相当于一次学习。之后Roediger等人证明了测试能够促进和强化个体长时记忆的编码和提取[4]。之后研究者对配对联想学习任务以及自由回忆等其他的回忆形式的测试效应进行了研究,从不同的角度验证了测试效应[2]。
然而在实际的教学活动中,学习材料的难度不可能是一致的,前人的实验都是基于某一难度或者没有考虑难度的条件下的测试效应。那么学习材料难度的不同对测验效应究竟有没有影响呢?如果有,哪种难度的学习材料最适合用测试学习呢?笔者认为,如果材料过于简单,编码阶段不需要太多的努力,这就导致重学组第二次的重复学习没有了优势,短时记忆上的差异就没那么明显了,长时记忆(延时测试)下也因为材料的简单导致重学组在一周后也能有较高的击中率;而在学习材料难度比较高的条件下,也会同样出现交互作用不明显的情况,原因是重学组就算经过重学,也不能很好地进行编码,导致测试组和重学组的回忆成绩都很低,没有显著差异。
本实验的目的是:一、验证测试效应的存在;二、验证材料难度的不同会影响测试效应的表现。研究假设是:在中等难度的学习材料下,测试的优势发挥得最明显。
随机选取福建师范大学60名研究生(4组),视力矫正或正常,此前未参加过类似的实验。
实验采用3(材料难度:高联想词对、中联想词对、低联想词对)×2(组别:重学组、测试组)×2(测试间隔:3分钟后、三天后)的混合设计。其中材料难度是组内变量,另外两个是组间变量,所以有四组被试,每组15人。学习过程变量中的SSS(S代表Study)指的是学习后再重复学习该学习材料两次,STT(T代表Test)指的是学习后连续两次测试该实验材料。
学习材料的确立[5]:高联想词对为低难度组,中联想词对为中等难度组,低联想词对为高难度组,首先在《现代汉语频率词典》中找出所用的词语60个,满足以下条件:1.词语出现频率在0.0050-0.0080之间。2.所有的词都是双字具体词。3.在情感纬度上尽量保持中性。然后根据《现代同义反义词典》找出相应的同义词和反义词或无关词进行匹配,结合成60个词对,三个难度各有20对,再随机抽取40名被试对这60组词对进行难度5级评定(1为非常简单,5为非常困难);统计出每个词对评分的平均分,然后进行差异检验,选出差异显著的不同难度的词对各10对。程序使用Eprime1.1编制,使用SPSS13.0进行分析。
实验包含三个阶段:学习阶段、重学或者测试阶段、最终测试阶段。学习阶段:依据电脑提示屏幕随机呈现完30个实验词对,每组呈现5秒;重学或测试阶段:重学组继续重复学习30个词对,每组依然呈现5秒,重复两遍;测试组依据屏幕上出现的前段词,在规定时间内写出后段词对(书桌-?),时间为5秒,这个过程也重复2遍;最终测试阶段:延时测试组(三天后)在三天之后填一张线索回忆表,任务是对30个词对进行线索回忆,表格只呈现30个词对的前半部分,需要被试在3分钟内回忆并写出后半部分;即时测试组的被试实验完后看一个3分钟短片后在3分钟内填写线索回忆表。计分方式:回忆正确得1分,回忆错误或者没有回忆出来不得分。
对实验材料三种不同的难度进行单因素重复测量方差分析。球形检验统计量W=0.912(p>0.05),差异不显著,即各组间的方差矩阵接近相等,因此可接受单因素方差分析的结果。
重复测量方差分析结果表明:三种实验材料难度中至少有两种材料之间的难度差异显著(F=599.117,p<0.01);而且两两之间的简单效应差异都显著:容易和中等难度间差异显著(t=16.591,p<0.01);中等和困难差异显著(t=22.377,p<0.01);易和难这两种难度差异显著(t=28.609,p<0.01)。
在不同的实验材料难度下,被试用不同的学习方式和在不同的测试间隔下对没有再次进行学习的词对的线索回忆成绩描述统计见表1。
表1 组别、时间间隔、难度3种条件下最终回忆成绩的描述统计表
三因素的主效应和交互作用分析(表2),除了组别的主效应不显著以外(F=1.279,p>0.05),测试间隔、材料难度的主效应都极其显著(F=66.294,p<0.01;F=89.325,p<0.01),组间交互作用显著(F=21.149,p<0.01),材料难度与组别(F=7.676,p<0.01),材料难度与测试间隔的交互作用均非常显著(F=6.703,p<0.01),组别、材料难度和测试间隔三因素交互作用极其显著(F=10.366,p<0.01)。说明即时测试组在遗忘率上要显著低于延时测试组,并且随着难度的加大,即时测试组的回忆率与延时测试组的回忆率差异越明显,证明了“测试效应”的存在。
表2 对被试最终线索回忆成绩的方差分析表
用重复测量方差分析考察实验材料难度分别与测试间隔和组别之间的交互作用(表3和表4)得出:不同难度下的测试效应显著。进一步分析,由表3可以看出简单难度的主效应显著(F=813.05,p<0.01),但是与组别和材料难度的交互作用并没有达到显著值,即简单难度的学习材料过于简单,联想程度过高,使得无论是测试组还是重学组在学习简单难度的词对时,被试能够依据经验的参与来提取材料所致;中等难度的主效应同样显著,而且与组别和测试间隔在不同水平组合下的交互作用显著(F=8.76,p<0.01;F=7.79,p<0.01);困难难度的主效应显著,并且与组别、测试间隔交互作用显著,值得注意的是,在困难难度下延时测试组的简单效应不显著,即困难难度下的学习材料难度值太大,导致延时组的提取困难并出现了地板效应,而在即时测试组显著是因为重学组会对材料进行3次的学习,而测试组只学习了1次,因此短期记忆痕迹明显高于测试组。
表3 测试间隔和实验材料难度的交互作用
表4 组别与实验材料难度的交互作用表
在本次实验中,重学组的被试学习不同难度的成对词汇3遍,测试组的被试只学习不同难度的成对词汇1遍,测试2遍,在时间上重学组与测试组完全一致;重复学习使得个体在学习阶段表现优异,而且对学习效果更为自信,而实际上从延时测试来看,其记忆效果保持得并不好;而学习后进行测试或者重复的测试使得个体在学习阶段的掌握程度不如重复学习,自信程度也较低,但是却使得个体在延时测试中的成绩好于重复学习,并且使得被试较为准确地判断了自己的掌握水平。这似乎是一种矛盾,因为我们平时觉得看似高效的学习方式实际上是低效的,而看似低效的学习方式却从时间维度上来看并非如此[6]。虽然测试组因为在学习材料的时间上和完整度上明显处于劣势,即刻回忆的条件下的正确率低于重学组,但是随着时间的推移,3天后重学组的记忆保持率要显著低于测试组,即表现出了“测试效应”,这与以往的研究结果是一致的,即验证了假设一:测试效应是存在的。
该实验结果可以用“提取努力理论”[1]来解释,该理论提出:是测试时的提取过程导致了测试效应。Jacoby的一系列研究探讨了这一问题,他采用记忆新词范式(memory-for-foils paradigm)考察了不同提取深度对记忆的影响,结果发现在大学生的被试中,与浅层加工相比,深层加工之后进行再认测试提高了随后测试中对新单词的再认,笔者认为测试组在学习一遍成对词汇后,进行测试的时候实际上是对所学的材料进行了一次再提取,这一过程相对于被动接受刺激3遍,也就是重复学习,需要花费更多的注意资源和提取努力,因此记忆痕迹明显要强于重复学习,另外对学习材料的主动回忆也加深了学习材料的记忆,这些都导致了更多的学习材料都进行了编码进入了长时记忆[7][8]。
对三个因素进行重复测量方差分析得出了三者交互作用显著:即不同难度条件下被试所表现出来的测试效应是有显著差异的,被试在学习简单难度的成对词汇时,由于材料不需要花费太多的注意资源,而且借助以往经验的帮助就可以回忆出所学的材料,重学组相对于测试组而言,重复学习的优势就不明显了,因此测试效应并不显著,这也与本实验的假设相符合;而在困难难度下,延时测试无论是对于测试组和重学组都无显著的差异,说明材料的高难度需要被试花费大量的注意资源对材料进行编码,较高的任务难度造成了大部分的编码失败,因此进入长时记忆也就相对困难,所以出现了地板效应。只有在学习材料是中等难度条件下时,测试效应是最显著的,因为材料的难度适中,对于测试组而言,虽然在学习成对词汇的短时记忆保持上不如重学组,但是因为对学习材料进行了多次的回忆和提取,对学习材料进行了更深层次的加工,因此在长时记忆保持上要优于重学组,说明在中等难度的学习材料下,对所学的知识进行测试要比同等时间的反复学习效果好,即验证了假设二:在中等难度下,同等时间的测试相对于重复学习,优势最明显。
关于难度对测试效应的影响,因为没有前人研究的参考,所以在难度的确立上还有进一步讨论的空间,因为难度选取的梯度过大,那么实验结果的解释就并不能完全说明在中等难度下的测试效果最好,可能是由于实验材料的偏难或偏易导致了“天花板效应”或者“地板效应”。
提高课堂学习效率是基础教育改革实践中的重要环节,2001年6月教育部颁布的《基础教育课程纲要》指出:“教师在教学过程中应与学生积极互动、共同发展,要处理好传授知识与培养能力的关系,注重培养学生的独立性和自主性……创设能引导学生主动参与的教育环境,激发学生的学习积极性,培养学生掌握和运用知识的态度和能力,使每个学生都能得到充分的发展。”
测试效应的研究结果对教育实践具有重要的启示,在课堂上教师应采取教学与测试相结合的模式,与学生互动,设立情境和问题鼓励学生积极参与到课堂中来,对所学的知识进行不同形式的测试,内容可以丰富多样。这样不仅可以使学生对所学知识有更深的理解和记忆,并且能够提高学生的自我效能感,增强学习的信心,培养学习的兴趣,提高学习的主动性。
学习过程中有测试的学习方式比仅仅通过重复学习的方式去学习表现出了更高的回忆正确率;测试能够增强学习的效果,学习与测试结合效果特别是在促进长时记忆效果上要好于无测试的学习。
在学习难度适中的学习材料时,有测试的学习和无测试的学习之间的差异最明显。学习中等难度的学习材料时,会有更显著的测试效应,也就是说,在教育活动中,对于大部分是中等难度的学习任务时,学习与测试有机的结合能够使学生更好地掌握所学知识,对帮助学生减轻学业负担,增强学习自信心,提供了一种很好的高效率的学习方法。
[1]张锦坤,白学军,杨丽娴.国外关于测试效应的研究概述[M].心理科学进展,2008,16(4):661-670.
[2]李斌.测试效应对记忆的影响初探[D].上海:华东师范大学,2009.
[3]TULVINGE.The effectsof presentation and recall of material infree-recall learning[J].Journal of Verbal Learning and Verbal Behavior,1967,6(2):175-184.
[4]ROEDIGER H L,KARPICKE J D.Test enhanced learning:Taking memory tests improves long-term
[5]庞翠菊.认知方式、奖励方式及材料难度对大学生学习判断影响的实验研究[D].郑州:郑州大学,2010.
[6]ROEDIGER H L,KARPICKE J D.The power of testing memory:basic research and implicationsfor educational practice[J].Perspectives on Psychological Science,2006,1(3):181-210.
[7]张锦坤,杨丽娴.测试效应的加工分离[J].心理科学,2009,32(5):1180-1182.
[8]李宏英,张洁尉,连榕.测验对学习促进作用的实验研究及启示[J].宁波大学学报,2009,31(5):32-35.