● 倪 娟
高中学业水平测试的实践问题及成因*
● 倪 娟
学业水平测试走向学业成就评价是必须的改革。梳理学业水平测试的实践问题,比较国际发达国家的学业成就评价改革的理论与实践研究成果,可为我们的学业水平测试走向真正的学业成就评价提供一些启发。
高中;学业水平测试;学业成就评价
按照教育部的要求,考生的综合素质评定、高考总分以及学业水平测试(简称“学测”,俗称“小高考”)将成为高校选拔录取的依据。因此,全国已公布“新高考”方案的省份中,越来越多的把学业水平测试逐渐和高校录取实行“挂钩”,有的是硬挂钩,有的是软挂钩,还有的是暂不挂钩。硬挂钩即学测等级作为高校录取硬条件,录取依据看高考成绩和学测等级,并且某些省的学测等级优异可在高考中加分。将学测与高考选拔挂钩,是为了加强高中学校对考生的综合素质评定和学业水平测试的重视,在一定程度上有效遏制了学校“非考不教”的现象,但是其对高中教学的矫枉过正的负面影响也必须引起重视。以江苏为例,实行新的高考方案以来,为了促进各个学校不打折扣地开展学业水平科目的教学,在高考方案中确定了学业水平科目测试A等级在高考总分中加分的政策,前后有两种加分方法,最先的方法是,学业水平科目测试四科均得A等级在高考总分中加10分,后来的方法是,学业水平科目测试每科A等级加1分,四科均为A等级加5分。显然,现行的加分方法相对前一种加分方法要合理一些,然而,其弊端仍然是存在的。概而言之,背后的问题是学测在性质和功能上是否应当跟高考挂钩,在重视学习评价改革的今天,重视基础达标的学测与以选拔为第一要务的高考挂钩,是否已背离了学测的本质属性?可能需要认真审视学业水平测试与学业成就评价两者之间的差异,期待学业水平测试能够走向真正的学业成就评价,为了评价的学习走向为了学习的评价。
学业水平测试与高考挂钩能够盛行一时,而学业成就评价实践举步维艰,其背后的原因是复杂的,可以说囊括一切课程改革深入推进受牵制的文化、社会因素。
从国际发达国家来看,学业成就评价的发展是从简单的数量化测验开始的,经过教学目标为中心的阶段,从单一数量化测量的漩涡中走出来并逐渐转向较为全面意义上的评价。①后期人本化评价的出现,也使评价从注重学生内在的学业能力走向更加重视学生微观的学习进程,以开发学生的潜能、促进学生的发展为目的的学业成就评价。
但学业成就评价作为教育测量与评价的主要内容,它受到近百年测量运动本身主要的缺陷——管理主义倾向、忽视价值的多元性、过分依赖科学范式的影响,在教育史上一出现就遵循一条科学与客观之路,这种科学与客观在学生评价的标准化阶段由于过分强调与突出而有所扭曲。维根斯(G.P.Wiggins)认为对学生的评价之所以产生标准化测验统治学生评价的状况,是因为教育管理者倾向于评价一些易于测定的知识和技能,而非那些作为课程核心或标准的以及在课堂中真正有价值的真实而复杂的问题与任务,在做这样的选择的同时,学校层面的学生评价忽视了学生的智能发展需求,而去追求所谓的评分的准确与评价的效率,换言之,真正阻碍学生成功地达成教育目标的不是倍受指责的标准化测试而是教育管理者的评价观:认为学生评价不是教与学的驱动器而是计量器,由此而制定了标准化测验,反过来,这种测验的普遍应用又进一步造成了学生评价的僵化。
在美国的基础教育领域,不管是州级、学区级还是校级的学生评价,都有两个明显特点:测量运动的思想依旧占据很重要的地位;评价与绩效责任紧紧联系在一起。测量运动的余波与绩效责任之风在学生评价领域掀起了新的风浪。虽然其形成背景及相关因素与我国有所不同,有的是因为教师希望学生通过获得高分而对学习有兴趣且能激励自尊和学习的成就感,也有因为测评内容本身比较狭窄、不全面的因素,但其最主要的原因是高标准、高风险测试的盛行。但有一点很有意思,美国教师也同样会为了测验而教学,这个现象已相当普遍。美国教育学专家的研究发现,在课堂中,绝大部分教师都会教授学生应付考试的方法、获得高分的手段,甚至,还会以标准化测验的内容为依据自行改变教学内容,从而使得测验内容与教学内容相一致。这样造成的结果是为考而教,不是以学定教,以课程标准定教。
有考试,就有对应试的重视。在“不让一个孩子掉队”法案之前的美国,很多州都没有自己的考试。现在除了一个州没有,其它所有的州都有自己的成就考试。在这一法案颁布之前,仅有 Harcourt,CTB,Riverside和ETS四个公司为学校设计相关的考试。但是现在涌现出大量的公司,致使有时孩子们的学习只是为了考试。在70年代美国开始实行 “教育责任制”后,要求以考试成绩为依据来评判学校的好坏,各州对最低能力测试提出了许多要求。不过,这些最低能力要求很快成为学校努力的最高要求。为了克服这种弊端,各种标准化测验应运而生,其后果则是牺牲了学生高级思维能力和问题解决能力,只获得基本技能测试分数的提高。教育责任制需要收集足够的有关学校质量、学生学习效果的信息,而标准化测验所测量的能力范围是有限的。在美国的基础教育领域,不管是州级、学区级还是校级的学生评价,都突现出两个特点:测量运动的思想依旧占据很重要的地位;评价与绩效责任紧紧联系在一起。测量运动的余波与绩效责任之风在学生成就评价领域掀起了新的应试风浪。美国基础教育正在面临“我要成为第一”的危机,大家都在寻找办法证明自己的孩子比他人的聪明,自己的学校比他人的好,自己的工作比他人的重要,直到自己成为第一为止。
人人想在考试中争分夺优,而考试被认为是最具有公信力最客观的评价方式最能被大家所接受,以致人人痛恨现今的考试高压,却又人人不自觉地对各种训练、各种考试身体力行。作为学业成就评价主要方式的学业水平测试,它本应是对学业的评定,但因各省逐渐与高考挂钩,担负了选拔任务,它的本体功能被扭曲,进入了学业水平测试为高考服务、为升学和选拔服务,教育教学为考试服务的恶性循环。在提高学校教育质量改革中,学校管理者首先关注的将是如何提高学生的成绩,追求的是学生的成功而不是学生的成长。我们习惯将测试成绩视为学校、区域成功与否的指标,而遗忘了评价是一种促进学生发展与完善的工具,忽略了评价可以成为学校成功的原因。与高考硬挂钩的学业水平测试正受到社会、学校、师生的抱怨。
拿美国当前教学实践中的应试情况跟我国作一比较,首先它的教育背景不同,美国最近一轮的改革是在提高标准,由原来的低标准走向高标准。而我国由解放以来的国家就教学方面的指导意见来看,都是在提出要降低教学要求,降低标准。因此,值得我们借鉴的一个是其评价内容的宽泛,还有一个应当是其评价方式的创新,而不是盲目的去参考美国的测量与绩效之风引起的新的评价风浪。我们所应当做的是让测试走向评价,让并不能履行促进学生全面发展这一以考试替代评价的评价实践拓展其功能。
学业水平测试是我国普通高中综合评价的重要组成部分,它是在国家指导下以国家普通高中课程标准为考核内容,是由各省组织实施的全面检测普通高中学生学业水平的标准参照性考试。事实上,在国家制定了课程标准后,如何评价学生是否达到课标所规定的标准便是研究要务和工作重点,这也是学测之基本任务。而中国的普通高等学校招生全国统一考试简称高考,是中华人民共和国的重要的全国性考试之一。普通高等学校招生全国统一考试的定义是:合格的高中毕业生和具有同等学力的考生参加的选拔性考试。因此,高考应具有较高的信度、效度,必要的区分度和适当的难度。高考的本质属性是选拔性。
由学测与高考的界定可知,学测与高考是两种完全不同性质、不同种类的考试。但是,当下在实践中的学测已逐渐迷失了它的性质。比如在江苏提出实行学业水平测试的目的“是为了加强对高中的课程管理和质量监控,同时,向高校提供更多有效的考生信息。有利于促进高中学生全面发展,有利于高校更加科学、自主地选拔人才。”这样,学测也被赋予了选拔性。难道高考本身还不具有很好的选拔功能吗?为何非得把学测跟高考捆绑?向高校提供更多有效信息、促进高中学生全面发展的目的是否可以实现?学测与高考挂钩、学测成绩在高考中加分是否合适不仅可以由其本质属性来考量,还可以通过实践来检验。学测的等级是由考试的绝对分数决定的,而目前的测试命题仍然属于经验型命题,每年同一学科的测试难度不具有可比性,因此,这种加分就存在着事实上的不合理性,且会挫伤不同学科教师的积极性与学生学习的积极性。更为严重的后果是从根本上影响了学测对高中课程管理与质量监控目标的达成,更不利于高中学生的全面发展。正如江苏两会期间,某名校副校长指出:这种学测与高考硬挂钩加分政策的存在,造成的最大问题是,学校为了让更多的学生在高考中加分,就可能违背教学的客观规律去组织学业水平科目的教学,事实上,这种现象已经普遍存在。对此,不少学校、教师和学生也很有意见。现在的高中学生学业负担比老高考方案时学生的学业负担明显地加重了,这是一个不争的事实。学校通常要求保证等级“绝D”、“灭C”(尽可能消灭“C”),“无D”。鉴于“学测”在高考方案规定可以加分,学校还要求学生考试成绩“保B”和”争A”。为了切实减轻学生的学业负担,深入推进素质教育,这个政策是否继续值得商榷。
首先,评价主体的评价观很有问题。维根斯(G.P.Wiggins)认为之所以产生标准化测验统治学生评价的状况,是因为教育管理者倾向于评价一些易于测定的知识和技能,而非那些作为课程核心或标准的以及在课堂中真正有价值的真实而复杂的问题与任务,在做这样的选择的同时,学校层面的学生评价忽视了学生的智能发展需求,而去追求所谓的评分的准确与评价的效率,换言之,真正阻碍学生成功地达成教育目标的不是倍受指责的标准化测验而是教育管理者的评价观:认为学生评价不是教与学的驱动器而是计量器,由此而制定了标准化测验,反过来,这种测验的普遍应用又进一步造成了学生评价的僵化。
在大多数学校中,教学管理人员包括校长同样非常缺乏新的学生评价知识,所使用的评价模式仍然十分传统,因此不能调动广大教师改革学生评价的积极性和创造性。即使教师被要求进行改革,他们也不愿意去做那些认为是“份外”的事情。所以,往往在强行花了大量的时间和人力之后,教师们又都回到原来的老路上去。[1]以上问题在发达国家与发展中国家呈现普遍性。国内有研究者对上海市浦东新区的130名中小学教师进行了有关调查发现:约58%的教师没有尝试过改变以往对学生的评价方式。如升学指挥棒不变、家长和学生不支持、学校重视不够、各方面协调不够等而造成效果不理想,难以实现预期目的。有的教师甚至感到很沮丧:当自己的评价方式改变后,所教班级在考试时与那些没有改变评价方式的班级相比,在成绩上没有任何优势,而不管学校还是社会在衡量教师的优劣时,首先还是看所教学生的分数![2]因此,评价主体对学生评价的正确认识是个根本问题。
其次,教学一线人员的评价理论知识和实践技术十分欠缺。教学一线人员,尤其是中小学教师,十分缺乏教育评价的理论知识和支持性的资料与信息,他们不适应先进的学生评价理念,更不知道应当如何进行新的评价操作,非常需要在学生评价的程序与方法上得到及时、有效的指导。虽然教师的这些需要从20世纪60年代开始就一直被呼吁,美国教育界也为此做过一些努力,但始终没有真正解决好;因为他们在接受教学时,培养教师的大学教学中无论是对本科生还是研究生,几乎都没有把教育评价作为必修内容,很多学校未开设过评价与测量课程,没有教给学生如何在教学工作中开展学生评价,高校教师也很少强调这方面知识的重要性。这是导致上面提到的目前在职教师严重缺乏教育评价理论和技能的重要原因。
在澳大利亚维多利亚州,实施的高中教育证书考试与我国普通高中学业水平考试有着相似的性质和功能,但其高中教育证书考试经过长期发展,形成了终结性评价与过程性评价有机结合的评价机制,既能促进高中学生科学素养各方面的共同发展,也有利于学生的个性发展,既保证了高中教育质量的高水平,也为高校入学选拔提供参考依据。[3]可为我们借鉴。以化学学科为例,澳大利亚维多利亚高中化学课程标准(2007-2011)对课程评价做了细致的规定,巧妙结合终结性评价与过程性评价,拟定具体的评价方案,体现出先进的课程评价理念,具有很强的指导性和操作性。而我国的评价应试痕迹明显,不能完全体现新的学业成就评价理念。澳大利亚维多利亚州高中教育证书化学考试采用书面考试和活动表现评价两种形式,书面考试主要考查“化学研究方法”和“化学与工业生产”两个模块内容,研究发现,高中教育证书书面考试在试题材料选择和问题设计方面的出色表现给我国普通高中学业水平考试试卷命题以深刻启示;活动表现评价主要针对“化学基本理念”、“环境化学”、“化学研究方法”和“化学与工业生产”四个模块,在学科模块教学过程中完成对学生的科学道德观、探究能力、知识应用能力以及交流能力的全面评价,为我国普通高中学业水平考试中更全面检测地学生学业水平提供了宝贵经验。
美国为提高基础教育整体质量,提高学生毕业水平,实行严格的高中毕业资格要求的管理,制定州一级的学分统一要求,举行统一的毕业考试,划定统一的资格线,这样既保证高中毕业生的水平,又促进学校提高教学质量。美国各州有独立的教育决策权,而且尽量将这种权力下放到各学区、学校。但从总体上看,每个州对于高中学生的最低毕业要求是有限定的。以俄亥俄州为列,关于高中毕业要求的限定内容包括四个方面,一是对学校课程(学分)的基本要求;二是俄亥俄州毕业测试要求(OGT);三是学区、学校具根据体情况增加的其他要求;如社区服务的时间(4年120个小时)、纪律要求、计算机的基本要求、学术或艺术活动要求,等等。其中前两条是州的基本要求,必须达到州规定的最低学分要求、州毕业测试要求,学生才有资格申请毕业证书。毕业考试有多次,通常第一次各门学科全部通过的并不多。但第一次没通过的都可以补考,学校也有相应的辅导。各区成绩都有详细的分析并在州网站会公布,各学校之间会有一定的比较,因此,他们也在为应对毕业资格考试而教研,而教学。从美国高校招生的资料看,对于学生在高中阶段的“平均积分”(GPA)是十分看重的,而这恰恰是高中学生学习过程性成就的记录。高中毕业的要求,既要学分、又要毕业考试、同时还要“平均积分点”。由此,高中毕业资格也就包涵了过程性评价了。达到高中毕业水平的学生才能参加高校招生,选择性与基础性之间的矛盾也就自然解决得比较好了。
在法国、日本等发达国家,都在重视基于学习过程改进的评价改革。法国对高中学校绩效评价的一个重要概念是“预期值”。法国高中学校绩效评估的一个基本理念是,对学校的考察不应该只看其学校会考合格率,更要从不同侧面反映学校的教学能力,评价学校的“增值”情况。法国设计了一套基于“预期值”来计算“增值”的评估工具。评估机构把影响学生发展情况的因素分为年龄、家庭情况、入学时的学业水平和性别四个方面,并对每个方面进一步细分。评价时把当年学校上述四个因素对学生发展影响情况的统计数据与上一年的会考统计结果放在一起计算就可以算出一所学校会考合格率和会考达及率两个指标的“预期值”。在日本各地的中小学,基于过程的形成性评价改进教学活动的研究也开始萌动。其一,课堂教学过程中即时反馈的形成性评价。教师可以发现课时
目标是否实现,随时修正教学展开的轨道;其二,以单元为单位的形成性评价;其三,以学期、学年为单位的形成性评价。例如,倘若第一学期终结,发出成绩单,算是一个学期的终结性评价。但也是一个学段的中途评价。日本中小学实施的形成性评价,以单元层面的形成性评价居多。近年来,学期、学年层面的形成性评价也开始有所推广。基于形成性评价的反馈做出教育决策的类型形形色色,诸如,A.重新学习(反复学习),B.补充学习(补缺学习),C.调整学习(调整学习的进度和方向),D.分叉学习(把学生分成不同的小组,布置不同的课题)等等。
当下,我国即将成立国家考试指导委员会,对全国范围内做好考试和录取制度改革一定会产生一些权威性的高标准的顶层设计,对各地的各种形式的考试将会发挥指导引领作用。
注释:
①学业成就评价从20世纪初的教育测量运动开始到现在近百年里基本经历了较为清晰的四个阶段,即:教育测量、以目标为本的教育评价阶段、目标参照的教育评价阶段和人本化的教育评价阶段。从各阶段的特征上看,教育测量阶段主要把心理测量技术应用到教育当中,侧重测量技术和教育测验。以目标为本的教育评价阶段是以泰勒的“八年研究”为代表,把教育评价直接与教学目标相联系,评价教学目标的达成度。目标参照的教育评价研究通过教育目标的分类,在认知心理学信息加工理论的基础上突出了学生的信息加工过程。到了20世纪末,在人本主义思想的影响下,人本化的教育评价更加注重学生的人性化因素。
[1]郭少峰.国家考试指导委员会年内成立.新京报,[EB/OL],
http://news.ifeng.com/mainland/detail_2011_03/05/4985146_0.shtml,2011.3.5
[2]蔡敏.美国《学生评价标准》评析[J].外国中小学教育,2003.11.
[3]张惠.陕西省普通高中学业水平考试与澳大利亚高中教育证书考试比较研究[D].中国优秀硕士学位论文全文数据库,2009,(07).
*江苏省教科院教育改革与发展战略国际比较研究专项课题《发达国家中小学课程评价改革的比较研究》(Z/2010/16)、江苏省教育科学“十一五”重点资助课题“中学理科课程与教学重大问题研究”(B-a/2009/01/013)研究成果之一。
倪 娟/江苏省教育科学研究院副研究员,江苏省教研室化学教研员、初中部主任、信息资源部主任,主要研究方向为理科课程与教学论、基础教育课程变革中的实践与理论问题
(责任编辑:陈培瑞)