龚 伟 应益可
德国自2006 年开始实施州际学业比较测试(Vergleichsarbeiten,简称VERA),旨在调查诊断学生在某些方面所取得的能力。该测试结合能力水平模型(Kompetenzstufenmodell,简称KSM),并运用分数形式的能力水平量表(Metrik der Kompetenzskala),对学生能力进行定量描述,以帮助学校和教师形成促进学生能力发展的教学策略,很好地改善了以往德国在PISA 测试中排名靠后的状况。自2015 年起,我国也开展了国家义务教育质量监测工作,但相较于德国,我国的教育质量监测工作刚刚起步,迫切需要参考其他国家的成功经验。本文系统阐述了VERA 的具体研究过程与实施情况,并基于我国基础教育质量监测工作进行思考与探索。
2001 年12 月,PISA 2000 研究报告显示,德国15 岁学生中有1/4 的学生无法正确书写和阅读,在数学和自然科学领域远远落后于其他国家和地区,排名处于中下游。[1]为了回应这一“PISA震惊”(PISA Schock),德国重新审视了各州教育自治体系给教育质量监测带来的巨大阻碍①,迅速采取了以下两项重要举措。(1)2003 年,KMK(Kultusministerkonferenz,简称KMK)组织颁布了德国中小学国家基础教育标准,结束了各州教育标准不统一的局面。KMK 基于教育标准对4 年级和9 年级学生开展国家能力测评(Nationale Schulleistungsstudien),以便了解学生在毕业时的能力水平,同时以此作为学生能否取得毕业证书的一个依据。②(2)2004 年,KMK 在柏林洪堡大学(Humboldt Universitat)成立了德国教育质量研究所(Institut zur Qualitatsentwicklung im Bildungswesen,简称IQB),以支持德国16 个州改善和保证其教育系统的教学质量。IQB 为了有针对性地测试学生的学业水平和能力,于2006 年通过了常设会议教育监测综合战略(Gesamtstrategie der Kultusministerkonferenz zum Bildungsmonitoring)。该战略由4 个部分组成[2]:国际中小学教育评估,例如PISA、PIRLS、TIMSS;基于教育标准的国家能力测评;小学、初中水平测试的州际学业比较(VERA);撰写国家教育发展报告。
自2006 年以来,VERA 扩大调查对象,启动跨地区合作项目“小学学习情况调查”(Lernstandserhebungen in der Grundschule),旨在加强各地区间的教师合作与教学指导。[3]2010 年底,KMK 发表关于教学发展的教育标准,强调VERA 的数据反馈是学校课程开发周期的关键组成部分,必须植根于反馈文化,以此作为数据报告和数据使用之间的接口。[4]在2012 年3 月关于VERA 的进一步发展的协定中,KMK 强调了VERA 作为学校和课程开发工具的作用,认为相比于测试学生在课堂上学到的教材或课程内容,还应注重监测学生习得的与课堂材料或内容无关的能力,并且这些测试的结果不会被用来作为后续学生成绩的预测因素,只用于教学的诊断和改进。[5]
由此看出,VERA 作为德国各州学生能力的测评与反馈工具,其总体目标是使教育更加注重学生的能力,以测评为载体,了解学生在学校中某一特定点上应达到哪些能力,从中发现学生能力在各方面的强弱。其测试结果将给教师提供建议和支持作用,以发展和加强教师的诊断能力,针对学生能力的薄弱点改进教学方式,从而不断提高学生能力,使学生在毕业时能达到教育标准所规定的能力要求。
作为一个能力诊断和促进教学发展的工具,VERA 着力于将学生的实际能力水平与教育标准规定的能力水平进行比较,帮助教师评估学生在课堂内外的表现,反馈结果为教师教学设计提供参考。
(1)测评对象
PISA 和TIMSS 作为国际性测评,只对参加评价的学生年龄做出了规定,并未考虑到不同地区学生因为学制差异而处于不同学段或年级。德国国家能力测评则结合本国特色将测评对象规定为小学和中级I 的毕业生。VERA 为了突出其诊断功能,将测评对象设定为3 年级(VERA-3)和8 年级(VERA-8)学生,为学生和教师提供了发现和解决问题的机会,从而帮助学生达成教育标准所要求的能力水平。
(2)测评方式
与PISA、TIMSS 和德国国家能力测评等项目不同,VERA 不是一个抽样调查的监测系统,而是针对德国16 个州的所有3 年级和8 年级学生进行的调查,扩大了调查对象的范围,有利于对学生整体发展趋势的把握。在学生差异性方面,VERA 则根据各州学生的不同情况分别开发测评工具,使调查结果更精确、更具有参考价值。
(3)测评重点
PISA 和TIMSS 主要是通过考察学生的学习状态并进行横向比较,从而为各参与国和地区的教育决策提供依据。德国国家能力测评则是探究各州学生学科能力水平的发展趋势,以全面提高学生的学业水平。而VERA 更关注对学生学科能力的诊断,旨在为学生找出薄弱点、教师改进教学提供支撑。
(4)测评地区与人员
有意向参与PISA、TIMSS 及德国国家能力测评的地区都需要自己提出申请,通过审核后才能进行测评,且进行测评的人员均为一线专家。VERA 虽然强制要求德国各州参与测评,但一线教师的直接参与突破了“自上而下”测评范式的局限,在测评中,教师可以有效结合本地区学生的实际情况最大化运用获取的信息,能更好地将测试结果进行反思并做出针对性的改变,有效提高了测评的效果。
(5)测评与反馈频率
从测评频率来看,PISA、TIMSS 和德国国家能力测评均有一定的时间间隔(如德国国家能力测评实施频率为小学每5 年测评一次、中学每3年测评一次),针对测试结果的反馈一般在测试的3 年后给出,具有一定的滞后性。而VERA 自2006 年首次测评以来,每年都进行测评,测试结果在数据录入后马上进行反馈。得益于VERA 的高频率测试与即时反馈,教师能在第一时间发现学生存在的问题并有针对性地解决,自此,德国学生的各项能力水平迅速提高,德国在PISA 2015 中的排名进步显著。[1]
(1)反馈循环模型
2004 年,Helmke 提出学业测试的反馈循环模型(Zyklenmodell der Rückmeldung)的理论框架[6],该框架分为4 个阶段,如图1 所示。第一阶段为接收信息,这里的信息包括测试任务、测试对象、测试过程、测试结果等,教师在接收过程中要注意信息的及时性、实用性和可理解性,并对接收的信息进行有效分析,筛选出具有实际参考价值的信息。第二阶段为反馈,教师需要借助自身经验,结合实际教学与学生表现,分析与比较测试结果,并试图解释结果及寻找原因。第三阶段为采取措施,教师要确保学生达到最低能力水平,鼓励并帮助低水平学生找到薄弱点,同时改进自身教学方式,提高教学质量和自身的班级领导力。第四阶段为进行评估,这个阶段要对第三阶段采取的措施进行有效性检验,并加以改进,从而完成整个循环过程。在整个循环过程中,需要考虑个人因素与外部因素:个人因素包括教师的自我效能、专业知识、动机和意志等;外部因素主要由学校因素组成,其中包括学校环境、学校计划、合作氛围等。
(2)VERA 能力模型和测试任务开发的技术路线
Klieme 强调:教育标准的构建应立足于教育学、心理学和专业实践合作发展的能力模型,而这种能力模型需区分每一领域内的子维度,并描述子维度下的不同水平。[6]作为一项跨学科研究计划,能力模型的架构和测试任务的开发需要经过长时间的验证。IQB 在教育政策的指导下,依据学科教育目标及内容标准,借助相关的教育学、心理学、测量学理论,率先对能力及能力水平的定义做了一定的预设,进而通过反复编制测试任务及测验,将测验结果与预设标准进行比较,根据结果不断修改能力模型,并得到具有一定判决性的测试任务(如图2)。这说明基于标准和能力模型的测试任务的开发不是单向进行的,而是一个循环往复不断完善的过程,任务不仅是该循环过程的最核心的输出,更是这一过程的中介环节。
图1 反馈循环模型理论框架[6]
图2 VERA 能力模型和测试任务开发的技术路线图
具体而言,IQB 开发的测试任务由专家和一线教师共同完成。首先,IQB 对所有参与的一线教师进行调研,帮助他们更好地理解教育政策、教育目标及测试内容,并收集教师提出的良好建议,然后由一线教师和专家共同编制试题,并进行测试与结果反馈。其次,在新一轮的试题编制过程中,开发者们在了解新学年测评任务的各类事项后,通过自我分析与小组讨论并依据结果标准对上一年的测评结果进行定性判断,从中找出测试任务中有待完善的问题,亦可以能力模型为参照采取相应措施进行修改,并再次对学生进行测评。如此反复臻于完善。
(3)能力导向的教育标准设计
教育标准是国家对学生的特定教学期望,是保障和发展学校工作质量的全部战略和措施的核心工具,具体化了普通学校必须履行的教育使命。KMK 在制定教育标准过程中,坚持以学生能力的长期发展为原则[7],由专家和一线教师组成工作组,结合PISA、TIMSS 等测评框架,由学校实践经验及学科知识背景提取的能力模型,以及Klieme 提出的能力水平假设,建构起适合本国的教育标准。该标准符合国际上对教育标准的理论描述,是内容标准、结果标准、级别要求的三者混合体,并进一步细化为3 个维度:传统课程内容的相关组成部分(即内容)、与课程内容相关的能力(即能力)、认知组成部分(即要求)。如图3 所示,陈述性知识的内容通过程序化成为程序性知识,当这些程序性知识转移到更高水平层次时即表征为能力,而“要求”部分连接了内容和能力,根据任务的难易程度和学生差异,完善了对预期学习结果的描述。从教育标准制定的意义上来说,它打破了德国各州自制教育标准的格局,通过内部和外部评价来实现学校的系统性发展,不仅成为学生展示如何解决与学科相关的任务和问题的重要工具,分析各自达到的学习水平并允许制定学习路径,从而制定个性化的学习规划,同时也指导教师按照教育标准进行教学,为自身的专业发展提供了参考体系。
图3 教育标准的框架模型
(1)基于教育标准的学科能力解构
教育标准描述了学生在学校职业生涯的某些方面应该获得的与学科相关的能力,其主要目标在于提高教学质量,以及检查这些目标在多大程度上能达到教育计划,从而改善学生的表现及其对学科的态度,此外还提供了对学生目标期望的相关指导。IQB 基于教育标准的学科能力结构的核心任务就是建构适合德国基础教育质量监测工作开展的依据——KSM,KSM 的设置需要满足以下5 个方面的要求[8]:①充分考虑各州间学生多样化的情况,设想具有挑战性和合理性的预期;②清晰说明所有地区学生所需要达到的最低能力水平;③不断细化扩展现有的能力要求;④制定激励性的能力预期以提高学校发展动力;⑤在教师中获得广泛认可。
如前所述,教育标准的共同框架区分了3 个维度:内容、能力、要求。其中,“能力”维度是以特定的学科或学习领域为基础的,其定义须符合教育期望以及教学中的可能性和局限性,并满足某些特定的要求。“要求”维度是基于现有的教学经验及测试任务,根据学生在同一个问题所反映出的不同表现,确定测试任务的复杂性和难度。IQB对每个科目的能力维度都提出相应的水平等级,学生的能力和任务的难度可以在同一尺度上进行比较,这样就可以对这一尺度上的某些间隔进行实质性描述(即能力水平)。如此,教育标准不仅规定了一个最低水平,还区分了学生能力在达到最低水平之后的不同能力水平,进而构建了层次明晰的KSM。KSM 的建立使得教育标准一方面预期了学生应遵守“要求”的结构,另一方面提供了科学合理的解释依据来说明学生可以接受哪一种等级或不同学生所处的程度或水平,使得学习可持续,具有渐进性。
图4 数学学科能力模型示意图[9]
目前,KSM 的研究领域主要涉及语言(德语、英语、法语)与数学。以数学学科为例(如图4),数学教育标准区分了3 个维度,分别是“过程”“内容”“要求”。[9]“过程”维度详细描述了6 个宏观数学能力:数学论证(K1),数学地解决问题(K2),数学建模(K3),数学表征的应用(K4),数学符号、公式以及技巧的熟练掌握(K5),数学交流(K6)。“内容”维度结合数学核心内容将这些宏观的数学能力具体化,指出数学核心内容领域:数(L1)、测量(L2)、空间与形状(L3)、函数关系(L4)、数据与随机现象(L5)。“要求”维度提出了学生能力的3 个方面:再现内容(I)、建立联系(Ⅱ)、概括与反思(Ⅲ)。
(2)能力水平表现的区分
由于在以往的测评过程中不同学生可能会得到相同的评价,这些反馈难以区分学生之间的本质差异,只能得出关于学生解决方案的有限结论。因此,IQB 为了给学生提供更多的发展依据,应用教育标准所依据的能力水平量表,编写了不同的测试任务,充分捕捉学生的表现差异。能力水平量表结合级别要求的标准将每种要测的能力分为5 个水平,从低到高依次为:水平I(不合格),指学生没有达到中学毕业时教育标准所规定的最低能力;水平Ⅱ(最低标准),指学生都应该达到中学毕业时教育标准所规定的最低能力;水平Ⅲ(规范标准),指学生达到中学毕业时教育标准所规定的一定水平的能力;水平IV(规范标准+),指学生达到的能力水平略高于规范标准能力水平;水平V(最佳标准),指学生所达到的能力水平明显高于规范标准能力水平。[10]IQB 基于每个学科的教学标准赋予了上述5 个水平等级相应的分数,并与普通中学毕业考试(HSA)、中等学校毕业考试(MSA)对学生的要求一一对应,扩展后的能力水平量表不仅可以判定学生所处水平,也为教与学的开展提供了更多有价值的信息。③如德国某中学生在VERA-8 数学测试中取得434 分的成绩,根据表1 中MSA 标准可知他有可能进入职业培训学校而不能进入高中继续学习,如果他有进一步深造的愿望则可以根据他参加VERA-8 数学测试得到的反馈进行有针对性的学习调整,以便在参加HSA 或MSA 考试中取得理想成绩。
(3)能力试题的编制
表1 数学学科能力水平量表[11]
IQB 确定各学科能力与能力水平量表后,试题编制组针对需要测试的能力编制一系列试题,题型包括选择、简答和论述等,统合成3 本测试小册子。在设计测试任务过程中需要时刻考虑以下4 项原则[12]:①与其他学生或学校的测试结果相比,IQB 测试结果应该以“分配为导向”或“规范”,还是以“标准为导向”进行解释?②是否应将学习区域内的能力记录在一个整体尺度(一维尺度)上,还是应单独区分和记录几个子能力(多维尺度)?③让所有的学生都做同样的测试,还是通过在一个班级内“交换”测试任务,向学生们提交不同的任务,以确保有足够的任务与数据?④同样的测试应该适用于所有技能水平和学校形式,还是使用适合群体或个人能力的任务?一般来说,学生完成1 份小册子的时间控制在80 分钟内,而小册子任务的难度取决于本州范围学生样本的初步试点水平。例如,以3000 名学生为样本进行标准化的测试,一般把方案解决率为10%的任务定义为非常困难,把方案解决率为90%或更高的任务定义为非常简单,通常会把测试手册的平均方案解决率控制在50%到60%之间,并在正式使用之前反复测试,直至所需测试的能力与教育标准相对应才会被VERA 使用。这样的试题命制达到了以下两个目的:①确保将教育标准中对学科能力的界定和要求反映在试题中,学生的得分能真实地反映他们的学科能力;②通过与能力层次对应的赋分原则,确保将能力进行分层,进而保证教育目标对能力的要求最终落实在教育评价之中。
KSM 强调能力发展是一个可持续过程,要求从学生现有基础出发,设计符合并促进学生发展的测试题,使所有学习者在整个学习生涯中能力得到不断发展。下面展示一个数学中关于测量(L2)的例子,这个试题将说明学生所应掌握的知识程度,以及实际解决问题的能力。
①试题举例[13]
上图是生活中常见的牛奶盒,请回答以下问题。
1. 当你喝牛奶时,吸管为什么很容易滑进牛奶盒?
2. 如果由你设计牛奶盒上的小孔,吸管长度会如何变化?如果小孔正好在中间,吸管要多长才不会滑进去?
3. 在牛奶盒上固定一根较长的吸管会遇到什么问题?吸管最长是多少?
②试题分析
这个题目选自数学测试,是以生活中的真实问题——吸管容易滑进牛奶盒为试题情境的。该题要求学生解释其原因,并思考牛奶盒上小孔的不同位置对吸管长度有何影响,因此该测试任务的核心内容属于测量(L2)。如表2 所示,解决这一问题首先要从生活中识别数学问题,并能够用数学方法解决问题(数学地解决问题,K2)。其次,第二个问题是3 个问题中的核心,需要学生在动态变化过程中,利用极限法选取几个特殊的静态来用数学语言分析相应的问题(数学表征的应用,K4),在此过程中更需要学生灵活地调用数学符号、公式并进行熟练推理(数学符号、公式以及技巧的熟练掌握,K5)。由上分析可知,该试题对学生的认识要求达到了“建立联系(II)”水平,只有VERA 成绩达到675 分以上(V)的学生才能正确作答。
表2 数学学科能力测试分析
(4)纸笔测验的实施及反馈
IQB 在指导建立学科测评工具的基础上,组织协调各州开展VERA 的纸笔测验。测验日期由IQB 事先划分一段时间,再由各州根据自身情况在规定时间内自由安排并予以公示。例如,2019年的VERA-3 选择在4 月15 日~5 月24 日进行,数学测试内容为L3、L4 和L5,德语分两天测试,内容为阅读和听力;VERA-8 选择在2019 年2 月12 日~4 月5 日进行数学、英语、德语和法语的测评。为了能够准确获取每位学生能力的发展状况,所有符合条件的学生都被要求参加测试。④
VERA 的诊断结果反馈通常在完成测试的一个月后发布,评价重点不在于学生的得分情况或预测其学业成绩,而在于对结果的分析和解释。这些反馈为学生和教师提供了重要的信息支持。一方面,学生可以了解自身能力水平的发展情况,找到自己学习上的薄弱点及与他人的差距,以此激发内在的学习动机与竞争意识,调整自己的学习进程以获得进步。另一方面,学校和教师也得到了更多的教学支持,具体体现在:测试项目和结果反馈始终关注学生的能力;测试为教师提供多种方法了解自己班级的学习进度;测试能够提高教师的诊断技能;教师可以利用测试结果来证明和规划教学干预措施和支持措施;结果反馈可用于改进学校特定学科的教学。[14]
由于德国是联邦制国家,VERA 的整体设计与组织统筹由IQB 负责,但各州在这一过程中并不是被动地接受,而是积极地参与其中,与IQB一起为VERA 测评工作的深入推进开展积极探索,使之更好地为课程改革与教学实践提供支持。
VERA 项目在设立之初就从理论层面提出:开展该测评项目的最主要目的就是要突出其教学诊断功能,为教学反馈提供更多的有意义的信息。在2012 年3 月关于VERA 的进一步发展的协定中,KMK 强调了VERA 作为学校课程开发工具的作用,相比于学生在课堂上学到的与教材或课程相关的内容,应更注重学生与生活有关的能力,并且这些测试的结果不会被用来作为后续学生成绩的预测因素,只用于教学的诊断和改进。[5]
各州在实践层面上也积极探索如何践行这一要求。如2013 年,不来梅州为VERA 的进一步实施提供了指导,它向公众公布部分VERA 的结果[15],详细说明了每一题所包含的测试能力、水平及所在水平的人数和该题目的正确率,并对每位测试学生进行编号,呈现该学生总体的答题情况,为其他各州提供了宝贵的借鉴材料。自2015年以来,黑森州一直在组织专家会议(Fachkonferenz)及“威斯巴登论坛(Wiesbadener Forum)”,其目的是为专家学者、一线教师提供交流经验的平台,就他们所提供的学生情况展开研讨,以寻求教学反馈的有效路径。同时基于VERA-8 提出了VELM-8 (即Verbesserung der Effektivitder Lernstandserhebungen Mathematik Klasse 8),该项目旨在调查8 年级学生的学习有效性,进而指导教师使用教材,为教师选择恰当的教学起点。
由此可见,VERA 是诊断取向的教育测评,自其诞生之日起就一直在不断修改与完善,使得整个测评工作更好地为德国课程改革与教学实践服务。 2018 年第87 届副部长委员会(Amtschefskommission)更是明确了VERA 用于保证学校教学质量、为课程与教学提供更多支持的作用。
目前德国绝大部分州的测评工作主要集中在3 年级和8 年级,测试的项目也主要集中在数学和语言学科。为了让更多的学生能够从VERA中受益,各州尝试增加测评年级和测试项目,如梅克伦堡-西波美拉尼亚、萨克森、石勒苏益格-荷尔斯泰因和图林根等州尝试在6 年级开发VERA-6 项目,主要用于测试学生的德语水平,重点考查学生的阅读、听力和语言运用写作等能力。
各国参与PISA 项目是一种典型的“输入”模式,而VERA 则属于“输出”模式,目前已经辐射到欧洲的其他国家,如VERA 在2012 年和2015年向意大利南蒂罗尔地区的博尔扎诺自治省⑤提供意大利语言能力测试评估,主要测评学生的听力、拼写、阅读理解、语法和写作等能力。这种输出模式的尝试一方面扩大了德国的影响力,另一方面测评项目将所遇到的新情况进行反馈也必然有利于VERA 的发展与丰富。
自2006 年VERA 正式启动以来,IQB 始终根据实际情况不断改进、丰富测评内容。正因如此,VERA 从最初不被教师所接受逐渐发展成为德国探寻学生能力水平发展路径的重要工具,并唤醒各州去发现自身教育弊端,积极进行教育改革,成为德国制定教育政策、丰富课程内涵、提升教育教学水平的有力保障。在我国,自改革开放以来,课程建设要求从“狠抓双基”到“实现三维目标”再到“关注核心素养”,这反映了我国课程设计越来越关注学生内在发展的本质要求,但也容易造成监测目标与监测内容的不断转变,难以形成一个系统性的测评项目。比如现阶段我国的大部分监测项目以“三维目标”的实现程度为监测目标,以学生核心学科的学业水平为监测内容,但“情感态度价值观”方面的要求在实际测评工作中依然难以落实到位,监测主题和范围也仅限于学校,无法全面反映和描述学生的必备品格和关键能力。由此,我国要借鉴VERA 测评框架设计与试题编制的经验,在现行教育监测工作开展的基础上,发现“双基”“三维目标”“核心素养”三者间的内在连贯性,尽快完善“核心素养”要求背景下的测评框架,务必保证测评工作的继承性和延续性。
VERA 的测评不过多关注学生在课堂上如何认识或掌握知识,而是为学生提供更多实际问题并要求学生创造性地运用知识解决困难,更关注学生对社会性问题的思考,强调学生的能力发展。2014 年,我国教育部在《关于全面深化课程改革落实立德树人根本任务的意见》中指出:将组织研究提出各学段学生发展核心素养体系,明确学生应具备的适应终身发展和社会发展需要的必备品格和关键能力。[16]提出“核心素养”的目的就是为了实现教学方式从“学科本位”到“学生中心”的转变,课程与教学的评价方式也应发生相应的变化。以往,我国大型标准化考试往往成为学生分流的核心评价方式,是以布卢姆的认知领域学习要求作为测评的参考,且大多是在相对封闭的环境下采用纸笔测验来考查学生的认识水平,弱化了学生的信息获取与加工能力、问题解决能力、批判性思维能力、社会参与与决策能力。因此,我国在发展核心素养的背景下,可以参考德国这种在升学考试前提前测评的方法,加大对评价方式多重性的研究,关注学生在课堂内外的表现,全面诊断学生是否适应未来社会的发展,为基于“核心素养”的教学与评价寻找合适的“落脚点”。
教育标准对于教材编写、教师教学与评价有指导性作用,是国家管理与评价课程的基础。德国将教育标准与学生能力模型相结合,根据学科特色分别刻画每门学科的能力结构,并将能力水平分为5 个等级,通过测试将学生在掌握知识过程中的能力发展路径直观地表示出来,有效助力学生学习与教师教学。我国基础教育学段中的学前教育、义务教育和高中教育等领域的发展目标没有形成完整的统一体,没有专门对基础教育总体目标做出连贯性的规划和建设。因此,我国亟待构建一个立足学生终身发展的教育标准,明确当今时代对新型人才的需求,突出对学生能力的培养,并不断在实践中革新,以顺应时代变化发展。随着终身学习型社会与人工智能时代的到来,我们编制教育标准不仅要注重传统的文化课,更应具有发展性和预见性,满足未来竞争对人才培养的需求,建构起符合自身情况的教育标准,使学生在信息时代不仅会“玩智能”,更要“学智能”“开发智能”,促进学生素养的多元化发展,培养其终身学习的能力。
教育标准与评价的一致性是当前基于课程标准改革的重要主题。教育标准与评价的一致,有助于全面落实教育标准的要求、深化教学改革、提高测试质量和公平性。虽然我国一直强调评价要基于课程标准,但在实际操作中,有些试题的命制还不能严格遵循课程标准,如Liu X 基于国际比较的视角选取美国、新加坡和我国江苏为研究对象,发现我国江苏地区当时的高中物理会考试题在内容主题和认知水平的侧重上与课程标准均有一定程度的偏差,且与发达国家相比,我国课程标准与教学评价的一致性程度不高。[17]现阶段,我国升学考试很容易成为教师教学和学生学习的“指挥棒”,易导致教师在教学过程中只侧重“高频考点”,忽视教育标准中所规定的相关要求,这非常不利于我国学业评价质量的提高与人才的培养。VERA 在试题编制过程中,所有试题都是基于教育标准的3 个维度与KSM,注重的是该试题对学生能力测验是否有效,能否发现学生的问题并帮助学生解决问题,同时积极开发新的教材对学生能力进行补充,试题与教育标准之间具有非常好的契合性与一致性。借鉴这一经验,我国不仅要采取相关措施进行阶段性的能力测试,更要对试题编制严格把关,在传统纸笔测试的基础上,增加表现性评价,实行多元评价机制,努力提高试题与教育标准的一致性。
一线教师应是测评工具开发的重要成员,是测评过程重要的参与者。我国测评工具的开发与试题编制大多局限于少数专家参与,一线教师很少直接参与其中,这极易引发教师对于测评系统的不理解、不支持等问题。VERA 集中了德国大部分学校的一线教师对试题进行编制,使教师不再被动地接受测评,而是对测评任务具有主动权,测评试题的诊断功能也更加突出。在测评过程中,一线教师能深入地了解到教育标准中的能力模型以及相应的试题编制原理,能与学生实际有效结合,准确把握学生能力水平的状况,从而提高了测评的信度和效度。此外,一线教师可以很容易获得测评结果的第一手数据,通过对比不仅能够完善测试任务,也有利于他们找出不同学生的差异性,针对学生存在的薄弱点实施具有针对性的措施,激发学生学习兴趣,进而达到教学标准所规定的能力范畴。因此,我国在开发测评工具的过程中要将主动权交给一线教师,教师在专注于教学方式、策略更新的同时,也要寻求更加有效的测评方法,最终为改善课堂教学、完成课改任务提供有力保障。
注释:
①德国为联邦制国家,共16 个联邦州,各州在教育上享有独立权利,由各州教育科学文化部联合成立文化部长联席委员会(Kultusministerkonferenz,简称KMK)统筹管理德国的教育。
②在学段划分上,德国基础教育分为初级(即小学,4年级结束)、中级I(即初中,9 年级或10 年级结束)和中级II(即高中,12 年级或13 年级结束)。
③德国为满足不同学生的差异,中学出现了4 类学校的分流:普通中学(Hauptschule)、实科中学(Realschule)、初级文理中学(Gymnasium)以及综合中学(Gesamtschule)。德国在9 年级举行第一次结业测试,学生通过该测试将取得HSA 证书,这主要用于开展双元制或职业学校的职业培训;在10 年级举行第二次结业测试,学生通过该测试将取得MSA 证书,即可以进入高中继续学习。
④在私立学校和集体学习中有特殊教学需要的学生也可自愿参加,但他们的结果不包括在总评估中。此外,在德国居住不到12 个月、还没有充分掌握德语的学生不需要参与其中。
⑤意大利语是该地区的第二外语。