(浙江工业大学 之江学院,浙江 杭州 310024)
长期以来,我国高校英语教学的评估方式一直过多地依赖于终结性评估(summative assessment),即仅以考试成绩评定学生的学习能力和教学质量。尽管这种评价省时省力,有其自身的一些优点,但它重结果、轻过程,不能提供全面、准确的信息来描述学习者的学习行为、能力发展和成绩进步等方面的情况[1],在很大程度上忽视了学生在学习上的主体性、能动性和创造性。在英语教学日益强调自主学习的今天,这种评价体系的缺点也日益暴露出来,具体表现为:学生学习的动机是为了通过考试;不能因材施教,扼杀学生个性;不利于学生创新精神和实践能力的培养。
教学评估研究从二十世纪中叶算起,已经发展了半个多世纪。在这期间,越来越多的专家学者逐渐意识到教学评估不仅包括以标准化考试为代表的终结性评估,也包括以学习为目的、注重学习过程的形成性评估(formative assessment) 。形成性评估以建构主义、人本主义为基础,根据学生在各项学习活动中的行为表现,对其学习过程、学习态度、学习策略和学习效果等进行综合性的评估,这在一定程度上弥补了终结性评估的不足。
与国外相比,国内形成性评估方面的研究始于二十世纪九十年代末,起步较晚,以理论研究为先导。最近十几年,有些研究者将形成性评估的理论应用到大学英语的口语、写作等课程的实践上,并取得了一些成果[2]。但到目前为止,涉及到英语专业尤其是实证方面的研究仍然很少[3],这有待于我们通过试验来检验形成性评估的理论成果,找出适用于英语专业各门课程的行之有效的评估方式,克服终结性评估固有的缺陷。
形成性评估以建构主义为依据,把建构主义、人本主义等观点有机结合起来,是基于目标、注重过程、及时反馈、促进发展的、在教学过程中进行的过程性、发展性评估,使教与学能够相互促进、相互提高[3]。
根据建构主义(Constructivism),学习不是知识由教师向学生的传递,而是学生建构自己知识的过程,这意味着学习是主动的,学习不是被动地接受外来信息,而是主动地进行选择加工[4],因而不是行为主义所描述的S-R(Stimulus-Response)过程。学生不是被动的信息吸收者,而是意义的主动建构者,这种建构不可能由其他人代替。建构主义的核心是个体内化知识,强调学习者的主观能动性。而形成性评估恰恰从动态的、构建的角度为学习者提供了检测知识内化的工具,为学生和教师提供了知识建构的检测手段。
罗杰斯在二十世纪六十年代提出的“自由学习”和“学生中心”(student-centered)的学习与教学观进一步强调了发挥学习者个人主观能动性的重要性[5]。他所倡导的人本主义认为,人天然具有学习的潜力,学习是人的终生需求。教育要尊重学习者个体,尊重学习者的个人需求和情感,鼓励学习者对自己负责,自己选择。可见,人本主义重视的是教学过程而非教学内容,重视的是教学方法而非教学结果。而形成性评估能够有效满足学生认知自我的要求,培养学生自我负责、自我发展的能力,从而为学生的全面进步提供客观的衡量尺度。
概言之,基于以人为本、建构主义的形成性评估强调对学生的学习过程进行评价,提供反馈信息,并对学生的情感、态度和策略等方面的发展做出评价[5]。
与国外相比,国内形成性评估的研究起步较晚,主要集中于介绍形成性评估的理论基础、实施方法、原则、优缺点等内容,大多停留在理论研究层面,或仅仅是简单的经验介绍。实证研究相对较少,主要集中于大学英语的口语、写作等课程方面[3]。如将形成性评估应用于网络教学[5],监控写作的各个环节[6],评价学生的自主学习能力[1]。这些实证研究表明,形成性评估可以激发学生学习语言的动机和学习兴趣,能有效地监控学生的学习过程,同时培养了学习者的自主学习和交际能力。在为数不多的实证研究中,周文博[7]借鉴于广的“235多元评价体系”[8]所进行的研究对于形成性评估的实践应用有一定的指导意义。于广针对大学英语的教学,以多元智能为理论依据,将过程性评估与终结性评估相结合,尝试提出了一个激励多元智能发展、突出听说能力培养的“235多元评价体系”,即把原有的终结性评价的100分转换为20%的口语成绩、30%的平时成绩、50%的卷面成绩。这个体系有一定的创新性、科学性和实用性,但于广并未将该评价体系应用于实践。而周文博[7]在“235多元评价体系”的基础上,针对自己所教授课程的特点对该体系进行了调整、细化,在大学英语这门课程的教学和评估中进行了实践。研究结果表明:学生对“235多元评价体系”的各个细节满意度均较高,普遍认为该体系能够有效地促进学习,激发自己学习英语的积极性,多数学生认为这种评价方式更加公平公正。但该研究也发现了一些问题,如学生对一些形式较为传统的期中测试、随机测试的认同率非常低,对小组讨论、网上自主学习等比较新的教学手段也不太认同。
那么,上述研究中发现的有关形成性评估的优点和问题是大学英语这门课程所独有的,还是其他课程所共有的?该体系中提到的各项指标及其所占比例是否也适用于其他课程?该研究的结果是否可以复制?这些问题均有待于我们通过实证研究来解答。
形成性评估的实证研究以往主要集中于非英语专业即大学英语上[3]。因此,本研究旨在通过试验来验证形成性评估是否能成功地应用于英语专业课程的教学实践。
本研究的试验对象为浙江工业大学之江学院2009级和2010级英语专业的本科生,其中2009级学生为对照组,2010级学生为试验组。试验课程为中级英语测试,该课程的性质为英语专业四级(TEM4)备考课程,内容包括听写、听力、词汇语法、完形填空、阅读等TEM4考查的题型。试验从2010年9月开始,至2012年5月结束,前后历时将近两年。对照组采用的评估方法是终结性评估,而试验组采用了形成性的评估方法。
在该门课程第二次上课时,即学生基本上熟悉了TEM4题型之后,笔者分别于2010年9月和2011年9月对对照组和试验组进行了模拟考试(前测),试题完全相同,考查了除写作外的全部TEM4题型,满分为75分。经独立样本T检验,T值为1.794,双尾显著性为0.74,这说明试验组和对照组的英语水平总的来说是一致的,没有显著性差异。T检验的具体结果如表1:
表1 试验组与对照组的英语水平T检验
由于所试验课程的性质为应试课,因此,本研究在235多元评价体系[7-8]的基础上,主要采用了作业、随堂测试、课堂表现、自评互评、教师评价、阶段总结、模拟考试、期末考试等考核方式。在试验初期,笔者制定了上述各部分在学生总评成绩中的比例,即期末考试30%,模拟考试20%,课堂测验15%,课后作业15%,课堂表现10%,自评2%,他评3%,出席5%。
经过为期近两年的试验,对照组和试验组分别于2011年4月和2012年4月进行了后测,除增加写作之外,其他试题与前测完全一致。试验组的平均分为61.05,明显高于对照组的57.96分,经过独立样本T检验,T值的显著性达到了.009(表2)。这说明,不同的评估方法对试验组和对照组的最终成绩产生了显著性的影响:采用形成性评估的试验组学生学习成绩提高幅度更大,这在2010级的TEM4通过率上也得到了充分的验证(表3)。
表2 试验后试验组与对照组的英语水平T检验
注:**表示显著性水平在0.01。
表3 试验组与对照组专业四级考试通过率
注:*表示显著性水平在0.05; **表示显著性水平在0.01。
对照组与试验组的学生分别于2011年4月和2012年4月参加了TEM4全国统考。从表3的结果来看,在独立学院和全国的英语专业学生TEM4通过率显著下降的大背景下,试验组的平均分(62.65)和通过率(74.77%)均取得了显著性的提高,这再次验证了过程性评估在注重教学过程的同时,对学生的学习结果确实产生了显著性的影响,收到了良好的成效。
形成性评估在测试性质的课程上的试验无疑是成功的,那么在本试验中哪些做法是值得肯定的呢?2012年5月,笔者对试验组的学生进行了问卷调查及访谈,主要的问题有:总评成绩中应该包括哪些内容、过去一年我们的评估中哪些做法对他们的学习是起促进作用的、总评成绩是否能反映他们的真实成绩及其在班级中的排名等。共收回107份有效问卷。
从调查结果看,学生仍然认为期末考试非常重要(40.8%),是总评成绩中最重要的部分。而课堂测验(15.6%)和模拟考试(11.6%)的比重也均超过了10%。对于教师评价(2.8%)、自评(1.7%)、他评(2.4%)、课堂表现(4.5%)等可能会受人为因素影响的考核方式,学生认为不应在总评成绩中占很大的比例。在被问及哪些评估内容对他们的学习有促进作用时,学生认同度较高的评估方法有:课堂测验(86.9%)、事先告知上交课后作业(65.4%)、期末考试(54.2%)、模拟考试(50.5%)、突击抽查作业(36.4%)、事先告知不上交课后作业(30.8%)、课堂表现(20.6%),而出席(11.2%)、教师评价(8.4%)、自评(2.8%)、他评(1.9%)的认同度几乎可以忽略不计了。由此,我们可以得出如下结论:
第一,课堂测验、课后作业、考试等传统评估方式的反拨效应(washback)较好。反拨效应指测试(评估方式)对教学和学习的影响[9]。如上文所述,学生认为对他们成绩最有帮助的仍然是那些非常传统的评估方式:测验、作业和考试等。另外,有78.5%的学生认为,老师对所留的作业是需要全部检查的,而抽查和不上交作业的做法所起到的作用是有限的,因为总有一些学生存在侥幸的心理。
第二,自评、他评、教师评价等考核方式的信度、效度受到质疑。任何测量手段包括测试都需要具备一定的信度(reliability)和效度(validity)[10]。从问卷调查结果看,学生普遍认为这三种考核方式对于他们成绩的提高帮助很小。笔者在与一些学生的访谈中,他们均提到了自评、他评、教师评价等方式对他们的课内外学习有一定的督促作用,但主观性强,其科学性和公平性受到了质疑,他们担心这些评价方式容易受人为因素的影响,不好操作,如学生或老师可能会给评价对象人情分。因此,信度、效度较低,缺少可行性(practicality)。
第三,235多元评价体系基本能适用于应试性质的英语专业课程的评估。在问卷调查的最后两个问题上,分别有86% 和81.3%的被调查的学生认为该门课程期末的总评成绩能完全或基本上反映出他们的英语能力及其在所在班级的排名。这说明,经过修改的235多元评价体系总体来说具有很高的信度、效度和可行性。
目前,中国的大专院校普遍存在轻过程、重结果的问题,对学生的考核主要看学生在期末考试中能取得什么样的成绩[3]。教师与学生之间形成了评价与被评价的关系,学生对作业和考试等传统评估方法已习以为常。因此,对本研究中的自评、他评、教师评价等过程性评估的做法普遍不太认同。
从本试验中我们得到的启示是:考试、测验等传统的考核方式仍是约束学生的学习行为、提高学习成绩的最好方式,这与周文博[7]的研究结果有些出入。与本研究一样,他的学生总的来说是赞同这种评估方法的,但与本研究不同的是,他的学生对这些传统的考核方式是不太认同的。究其原因,本文的研究对象为独立学院的学生,他们的自我约束能力、自主学习能力总体上不如一本、二本院校。因此,他们希望教师能对其学习行为进行严格的约束,而约束的最好的、最传统的方法就是考试(包括课堂测验)和作业,调查的结果也恰恰证明了这一点:传统的考核方式对他们的学习帮助最大。
整体而言,基于235多元评价体系的过程性评估在本研究中取得了良好的教学效果。这种评估方式充分体现了以人为本的教学理念,使学生也成为了评估的主体,师生之间多了合作,不再是简单的评价与被评价的关系,实现了重过程也重结果的目的。因此,这种评估方式是可以在不同的课程中复制的。
参考文献:
[1] 沈梅英.形成性评估在学生自主学习能力评价中作用的实证研究[J].天津外国语学院学报,2010,(2): 71-76.
[2] 魏薇.大学英语口语测试中的形成性评价[J].文教资料,2005,(24): 36-38.
[3] 解芳.形成性评估与外语教学研究述评[J].边疆经济与文化,2008, (6): 119-120.
[4] 莫雷.教育心理学[M].广州: 广东高等教育出版社, 2005. 127,150-151.
[5] 周娉娣, 秦秀白.形成性评估在大学英语网络教学中的应用[J].外语电化教学,2005,(5): 9-13.
[6] 曹荣平, 等.形成性评估在中国大学非英语专业英语写作教学中的运用[J].外语教学, 2004, (9):82-87.
[7] 周文博.“235多元评价”体系在大学英语课堂的应用[J].齐齐哈尔师范高等专科学校学报, 2010, (2): 139-140.
[8] 于广.大学英语教学多元评价体系探析与思考[J].中国高教研究,2008, (8): 92-93.
[9] Brown J D. Testing in Language Programs: A Comprehensive Guide to English Language Assessment[M].北京:高等教育出版社,2006. 242.
[10] 李筱菊.语言测试科学与艺术[M].长沙:湖南教育出版社,2001. 34,398.