● 丁念亮
形成性评价在中国教育语境中的困境与出路
● 丁念亮
教育政策借用过程就是外来政策与本土语境冲突与融合的内化过程。形成性评价思想发端于英美国家,与中国的教育语境在文化上存在天然的冲突和矛盾。首先,中国语境中的尊师传统延续着等级性,而形成性评价所倡导的“学生主体”的思想则传递出明显的民主性。其次,中国的考试文化注重结果,而形成性评价关注过程,二者的张力成为形成性评价在中国发展的主要障碍。其出路在于围绕形成性评价的核心特征进行适合我国国情的评价理论本土创生。
形成性评价;终结性评价;教育语境
自二十世纪初以来,西方教育理念被大规模引入中国,并逐渐成为我国各层次教育改革的主要理论来源。从历史上来看,近百年来的中国教育发展史同时也是一部教育政策借用的历史[1]。教育政策的移植或借用的整个过程包括若干阶段,菲利普斯和奥克斯将这一过程分为四个部分:跨国吸引(cross-national attraction)、决策(decision)、实施(implementation)、内化/本土化(internalisation/indigenisation)[2]。对于已经引进的教育理论或政策来说,后两个阶段尤为重要,教育改革的成败往往由这两个阶段所取得的成效决定。如南非在1997年发起的“结果本位”教育改革,即未能实现教育理念的本土化,而只是在表面上发生了某些改变[3]。形成性评价起源于英美国家,从二十一世纪初开始进入我国教育评价领域,并逐渐在各个层次及学科的教学大纲中扮演重要角色。早在二十一世纪初颁布的《英语课程标准(实验稿)》(2001年)、《普通高中英语课程标准(实验)》(2003年)和《大学英语课程教学要求》(2004年)就突出了形成性评价的重要地位[4]。对照菲利普斯和奥克斯的四步模型理论,形成性评价目前在中国处于实施和内化的阶段。尽管相关研究已经表明,形成性评价是有效学习的必要因素,能给老师和学生提供及时有益的反馈信息,也有助于教学目标的实现[5],但仍须看到,在异质文化中产生的评价范式在中国语境中必然会遭遇到种种障碍。剖析这些障碍背后的原因将有助于形成性评价在中国实现其真正价值。
形成性评价的提出可以追溯到1967年出版的《评价方法论》(The Methodology of Evaluation),该书由美国哈佛大学评价专家斯克里芬(Michael Scriven)所著,他首次将形成性评价和终结性评价引入课程评价范畴,并对二者做出了明确的区分。他认为形成性评价是指“为改进课程教学及其他方案活动而在活动过程中进行的评估”,而总结性评价是指“为做出选择决策而在活动结束后对其最终结果进行的评估”[4]。不久,布卢姆将形成性评价的理念应用于教学中,认为评价除了具有传统的分类鉴别功能之外,还存在另一种促教促学的功能。他把“summative evaluation”界定为在学习或教学结束之后对学生、教师或课程的学习和教学效果的评估判断;而“formative evaluation”是指在学习或教学过程中对教学或学习的系统的评估,目的是促进教学或学习[5]。布卢姆等人曾经用恒温器和寒暑表来类比形成性评价和终结性评价的区别,他们分析道,“课业教程中所举行的平时测验或者测试,就好像是测量室温的寒暑表。寒暑表可能是十分精确的,然而除了记示或测示室温之外,它对室温起不了什么作用。对比之下,恒温器根据与既定标准温度的关系来记示室温,其后随即制定各种改正程序(即打开或者关闭火炉或者空调机),直到室温达到既定的标准温度为止。因此,寒暑表只能提供信息,而恒温器却能提供反馈与各种改正办法,直到室温达到所需要的温度为止。”[6]由此可见,相对于终结性评价,形成性评价具有重要的即时调节功能,能有效地促进教学。
尽管形成性评价对教学多有助益,但一开始并未受到广泛关注。1998年,Black和 William发表了《评价与课堂教学》(Assessment and Classroom Learning)等系列研究成果,通过元分析(meta-analysis)的方法对形成性评价进行了详细论述,得出“形成性评价的确促进了学生的学习”的结论[4]。此后,形成性评价开始在全世界范围内迅速传播开来。英国首当其冲在曼彻斯特大学和布里斯托大学分别成立了形成性评估中心(The Center for Formative Assessment)和评估研究中心 (The Center for Assessment Studies),同时以Black等一批专家为核心的“评估改革小组”负责在全英国推进形成性评价工作;葡萄牙政府为形成性评价立法,规定学生要参与评价过程,进行自我评价;美国全国普及形成性评价,并在多州开展形成性评价联合项目;芬兰政府禁止用外部的标准化测试对学生学习进行评价,强调只能用描述性反馈,不允许区分等级[4]。不久之后,形成性评价跨越了盎格鲁森文化圈,被包括我国在内的亚、非其他国家和地区纳入教育评价范畴。短短几年内,形成性评价就在全球范围掀起了一股与评价相关的改革浪潮。[7]
英国评估改革小组 (Assessment Reform Group)提出形成性评价的十条原则,强调了及时有效的反馈对教学的促进作用,突出了学生参与对提高学习能力的重要意义。这十大原则已被广泛采纳,并成为英语国家和其他一些国家形成性评价实践的基础和依据[8]。但在实际教学过程中,许多教师包括受过培训的教师,其形成性评价的实施过程往往流于表面形式,而未能完全贯彻形成性评价的原则精神,如有的学校使用学习反馈手段的目的只是让学生将来考出更好的成绩[9]。这使得形成性评价的目的变得非常狭隘。而反观我国的教育现状,提高考试成绩和升学率似乎就是教育仅有的终极目标。因而,形成性评价的引入也或多或少带有功利主义性质。
形成性评价的理念引入国内已有多年,但其使用状况却差强人意。首先,形成性评价的使用分布情况极不均匀。通过考察国内形成性评价的相关文献,可以了解其在不同教育层次和不同学科的大概分布情况。根据贾军红2010年的统计,形成性评价的研究主要集中在高校,占样本总量的66%,而其他层次的教育机构则占比极少[10]。从学科分布情况来看,则呈现出形成性评价研究在英语学科一枝独秀的现象。笔者在知网期刊数据库中搜索“形成性评价”的篇名,共检索到40个学科下1567篇文献。按学科分布进行分组后发现,仅外国语言文字学科一项就有984篇文献,占比高达62.8%,其中英语相关的研究检索到973篇,占外国语言文字学科下文献总量的98.9%。作为发端于英语国家的舶来品,形成性评价首先在英语学科得到应用和研究也在情理之中。但这种严重的分布不均显然与引进形成性评价的初衷不一致。
另外,形成性评价的使用效果也并不理想。金艳在全国16个省市做过一个关于评价模式的问卷调查,问卷参与者来自25所大学的45位教师。结果显示,形成性评价的经典方法,如学生的反思日记和档案袋并未得到有效使用[11]。尽管教育主管部门和学校都鼓励使用形成性评价,但真正付诸实施的教师并不多。而在已经实施的形成性评价中,真正符合形成性评价特点的更是凤毛麟角。张建琴在对全国八个省、自治区、直辖市72所高中的英语教研员和资深英语教师调查后发现,“从理念到实践层面,高中英语教师都没能正确把握形成性评价的真正内涵,教师仍然倾向于以分数来评定学生”[12]。在使用形成性评价手段的教师中,相当一部分是出于完成科研课题的目的,至于是否还有后续的理论创新或设计改良则不得而知。但笔者对检索到的1567篇文献按作者分布进行分组后发现,文献数量达到4篇的作者仅为10人,很多研究者帐下只有一两篇相关文章便销声匿迹,不能做到对形成性评价的持续性关注。由此导致的问题是形成性评价实证研究的匮乏和理论探索的滞后[4]。当然,我们也不能否认形成性评价在英语国家也碰到了诸多问题,但其推广的规模和研究的水平都远远高于我国。由此,我们不得不将中国语境与形成性评价的相容性问题纳入我们的研究视野。
中国是儒家文化的发祥地,因而儒家文化价值观对其教育和教学观念以及行为影响深远,有着明显异于其他文化的显著特征,应加以区别对待。形成性评价是源自于欧美国家的评价思想,必然与儒家文化产生某种张力。在两者的互动关系中,中国的尊师传统和结果导向的评价文化成为形成性评价在中国落地生根的主要文化障碍。
(一)尊师传统与学生主体
在中国历史上,教师地位虽多有起伏,但不可否认尊师传统确是非常悠久。教师被赋予传播政治思想、文化知识、培养后代的重任,关系到国家的兴衰和民族的前途,因而自古就有君师并称的说法。《尚书·泰誓》中说:“天佑下民,作之君,作之师”。《荀子·礼论》记载荀子把天、地、君、亲、师并重,说:“天地者,生之本也;先祖者,类之本也;君师者,治之本也。”[13]因而在师生关系中,教师自然也被赋予了绝对权威。在整个封建社会中,森严有序的伦理纲常是人们严格遵守的行为规范。而“师道尊严”则是师生之间伦理等级制度的重要特征。五四运动之后,受西方教育思想的影响,“师道尊严”虽屡遭批判,甚至成为“教师专制”的代名词[14],但历经几千年,这一传统的师生伦理思想仍真实地存在于学校的课堂之中。社会文化传统的规定性将教师奉为权威,拥有绝对的话语权和管理权,而学生则须像对待父辈一样遵从和敬重教师,处于从属地位。这种传统的师生关系模式在中国得到广泛的认同,从而强化了教师的权力意识,忽视了学生的主体性。
可以说,中国语境中的尊师传统与形成性评价所倡导的“学生主体”的思想形成了鲜明的对比。具体来说,尊师传统中的等级性与形成性评价的民主性构成了二者冲突的主要方面。形成性评价将评价的权利分配给学生,使其成为评价的主体,而教师则不得不放弃评价过程中的主宰者角色,沦为评价的参与者。这实际上是降低了教师在评价过程中的地位,而突出了学生的重要性。这种评价的民主化过程不亚于教育领域的社会革命,因为教师与学生的权力结构将由此发生重大变化。从微观层面来看,教师作为拥有权力的教育者,一定不愿放弃自己的传统社会文化所赋予的权威地位,或主动强迫自己去适应地位更低的新角色,因此教师更愿意在捍卫自己权威的前提下做自下而上的适度改良。而政策制定者则往往从宏观的角度来理解当前教育的重大问题和教育模式的发展动向,更加偏爱高效的自上而下的政策推行模式,但往往忽略了作为政策真正执行者的教师的权力。当教师权威被形成性评价的民主性所消解,就会产生抵触心理,形成性评价则失去了实际执行者。
(二)结果导向的考试文化与注重过程的评价文化
中国的考试传统始于汉代的荐举,其渊源可以上溯到先秦的乡里选举制度[13]。众所周知的科举制度始于隋、盛于唐,后经宋、元、明、清,至1905年止,延续1300年之久[13]。科举制度是中央政府大规模选拔人才、任用官员的主要手段,也是普通百姓封妻荫子、改变命运的主要途径。考试文化因科举制度的长期推行而在中国深入人心。科举考试将读书、应试、做官密切联系在一起,构建了一种结果为导向的人才评价模式。这种“学而优则仕”的功利主义考试文化将能否入仕做官作为评价的唯一标准。即使是在科举制度消失一百多年后的今天,我们仍能感受到考试文化的的强势存在。孙玲博士认为,教学评价受制于特定的文化根基和文化渊源,这个文化根基和渊源之一即科举考试制度。“从某种程度上说,现行以中考和高考为核心的考试评价制度正是这一传统的延续。虽然,它在形式上似乎已经完全超脱于古代的教学评价,但内在的文化精神上却仍深受其束缚和制约。”[15]也就是说,以科举取士为核心的传统考试文化在中国依然根深蒂固。
目前,我国的学校特别是中学,频繁的考试排名成为考试文化依然繁盛的直接证明。期中考试、期末考试和月考,甚至还有周考周练等评价手段名目繁多,此起彼伏。强势的考试文化让老师、学生和家长只注重考试结果和排名,而学习过程及过程中人的发展问题则往往被更加显性的分数所遮蔽。我国的儒家考试文化以结果为导向,更多关注考试成绩而不是能力和水平的真正提高[16]。在这种文化中,学生的个人发展被简单地等同于成绩和升学,或被教育者从人们的关注视野中喝退,完全由考试结果来取代个人发展。
由此看来,我国本土的考试文化在本质上更符合以结果为导向的终结性评价的特征。按照Harrison和Howard对形成性评价和终结性评价的对比[4],我们可以更加明确地将儒家考试文化归入终结性评价的范畴。而两种评价方式之间的张力构成了形成性评价在中国教育语境中尚未取得突破的重要原因[17]。Carless的研究证明,儒家文化环境中,终结性评价占绝对主导地位,是形成性评价的主要障碍[18]。陈秋仙博士也认为,儒家文化区域的土壤并不适合形成性评价理论的有效实施[19]。各种现实的障碍都意味着,在中国教育语境中应该施行有别于其他文化语境的形成性评价。
曾有学者主张改变现行的教育评价模式,将其从儒家文化中剥离出来,但这并非易事。目前,可在微观层面行变革之策,采用更为灵活实用的策略,即在接受终结性评价(测试)的统治地位的前提下,挖掘其形成性功能。Carless认为要推行形成性评价,就应找到合适的策略使形成性评价与终结性评价有效共存。为此,他将形成性评价视为一个连续体,有限性形成性评价和扩展性形成性评价分别位于连续体的两端,不同的环境适用不同程度的形成性评价[18]。Davison等也认同这种观点,认为形成性评价应随着情况和实施者的不同而呈现出不同的形态[20]。基于我国的现实语境,正统的形成性评价很难推进,选择Carless等人所提出的形成性评价连续体中的某一形态无疑是当下评价改革的现实选择。但评价改革应以人为本,最终目的是促进学生的学习和全面发展,而不是为改革而改革的政治冲动。高高在上,浑身闪着金光的洋玩意儿,能否走下神坛接通中国的地气呢?Carless指出,形成性评价的实施应与具体教育评估文化环境相结合,即实行基于环境的形成性评价策略[18]。儒家语境中成功的形成性评价改革应该是理论和现实相互调整和适应的过程,既要保留形成性评价的核心观点,又要找到符合自己教育情境的合理模式。形成性评价只有经过适度改良,融入当地社会文化语境和教育语境之中,才能真正变成适应国情的有效评价手段。
目前我国的各级学校中出现的“过程评价”和“平时评价”常被视为形成性评价的变体之一。即将平时的教学内容或教学过程分割为几个部分,每个部分各占一定的分值,学期结束时再将这些分数按照一定比例汇总得到一个平时成绩。“平时评价”仍处于形成性评价连续体的初级阶段,尽管不能否认其进步性,但这无疑是形成性评价在中国语境中妥协后的产物。这种平时评价在本质上并不是正统的形成性评价,因为它并未给学生提供有效的口头或书面反馈来帮助学生找到问题所在和解决办法。可以说,这种缺少了有效反馈的平时评价仍是一种终结性评价。如陈秋仙博士所说,平时评价与正统的形成性评价在评价主体、评价内容、评价方式以及评价目的等方面都有着根本的区别,本质上还是一种不同名目下的、在平时进行的、多次的、迷你型终结性评价[19]。虽然在教学实践中,这种评价方式简单易行、便于操作,教师和学生也都能较快地适应并接受,但其实际促学效果尚缺乏实证研究的验证。促学目标的实现应是选择评价模式或进行评价改革的唯一标准,生硬的理论借用并不利于促学目标的实现,围绕形成性评价的核心理念进行实用评价理论的本土创生,才是未来我国评价改革的方向。
[1]周成海.教育政策借用必要性、可行性及其过程[J].外国教育研究,2010,(06).
[2]PHILLIPS D,OCHS K.Processes of Policy Borrowing in Education:Some Explanatory and Analytical Devices[J].Comparative Education,2003,39(4).
[3]康叶钦.教育政策借鉴的四步模型研究——以南非“结果本位”教育改革为例[J].外国教育研究,2013,(01).
[4]李清华,王伟强,张放.形成性评估研究[M].北京:科学出版社,2014.169,7,1.
[5]吴秀兰.形成性评价在国内高校外语教学中的应用研究综述[J].外语界,2008,(03).
[6]布卢姆.教育评价[M].邱渊等译.上海:华东师范大学出版社,1981.259-260.
[7]BROADFOOT P.An introduction to assessment[M].New York: Continuum,2007:1.
[8]CHEN Q,KETTLE M,KLENOWSKI V,et al.Interpretations of formative assessment in the teaching of English at two Chinese universities:a sociocultural perspective[J].Assessment&Evaluation in Higher E-ducation,2013,38(7).
[9]KLENOWSKI V.Assessment for Learning Revisited:An Asia-Pacific Perspective[J].Assessment in Education:Principles,Policy& PRAC,2009,16(3).
[10]贾军红.形成性评价的研究现状与发展趋势[J].四川理工学院学报(社会科学版),2012,27(1).
[11]金艳.体验式大学英语教学的多元评价[J].中国外语,2010,(01).
[12]张建琴.中国高中英语教育形成性评价实施情况研究[J].课程·教材·教法,2013,(09).
[13]徐寒.中国历史百科全书(第四卷:文化教育卷)[M].长春:吉林大学出版社,2005.445,448,49.
[14]辛鹏.当代中国高校师生关系冲突的文化透视[D].长春:东北师范大学,2011.21.
[15]孙玲.教学评价背后的价值冲突及反思[J].教育理论与实践,2011,(31).
[16]HU Guang-wei.Potential cultural resistance to pedagogical imports:The case of Communicative Language Teaching in China[J].Language,Culture and Curriculum,2002,15(2).
[17]HUANG Jian,LUO Shao-qian.Formative Assessment in the L2 Classroom in China:The Current Situation,Predicament and Future[J].Indonesian Journal of Applied Linguistics(3):18-34.
[18]朱其韵.《从测试到有效学习:在儒家文化环境下实施形成性评估》评介[J].考试研究,2014,(01).
[19]陈秋仙.论形成性评价在中国的文化适可与挪用[J].山西大学学报(哲学社会科学版),2016,(03).
[20]DAVISON C,LEUNG C.Current Issues in English Language Teacher-Based Assessment[J].Tesol Quarterly,2009,43(3).
(责任编辑:刘丙元)
丁念亮/山东理工大学副教授,研究方向为英美文学