英格兰基础教育法定评估研究

2021-07-08 03:49彭婵娟

比较教育学报 2021年3期

彭婵娟

英格兰连续几届在“国际学生评估项目”（Programme for International Student Assessment，PISA）中表现不佳，激发了民众对基础教育质量的批判与不满情绪，直接催化了新一轮国家课程及其评估体系改革。2014年9月，英格兰以全球表现最佳的教育地区①全球表现最佳的教育地区, 即英国语境下的“高绩效地区”(High-performing Jurisdictions), 指的是在“国际学生评估项目”(PISA)、“国际数学与科学趋势研究”(Trends in International Mathematics and Science Study, TIMSS)等国际测评项目中排名相对较高的司法管辖区, 如中国的香港地区和上海地区、新加坡、芬兰、澳大利亚、日本等。为参照基准，推出了要求更高的新国家课程，旨在为每一个孩子成功进入下一阶段的

学习提供知识技能准备。①Department for Education. Primary Assessment in England: Equalities Impact Assessment[R]. London: DfE, 2017: 3.同时，为监控新版国家课程标准的实施和维持，英格兰建立起相应的法定评估框架，以确认基础教育阶段的学生在何种程度上达到了国家课程中概述的成就目标。作为基础教育质量监测的较早实践者，英格兰国家课程评估体系变革引发了国内外教育研究者和政策制定者的广泛关注。英国学者普遍关注国家课程评估的历史、目的、有效性和可靠性及其对课堂教学实践的促进作用。我国学者对英格兰新国家课程评估的关注点则聚焦于政策演进、政策内容、政策研制方式及实施问题。研究表明，英格兰于20世纪80年代末提出的详尽而复杂的评估系统，由于成就目标体系过于繁杂且涉及教师工作量等巨大的问题，在实施过程中引发了教师工会的强烈抵制。为此，标准成就测验（Standard Attainment Tests，SATs）实现了从教师内部评分的标准参考系统向代理机构外部评分的考试系统的转变。②Whetton C. A Brief History of a Testing Time: National Curriculum Assessment in England 1989-2008[J]. Educational Research, 2009, 51(2): 137-159.然而，英格兰民众对国家课程评估有效性的批评与争议仍不曾间断，如评估目标过多以致无法实现所有目标。③Newton P E. Clarifying the Purposes of Educational Assessment[J]. Assessment in Education: Principles, Policy & Practice,2007: 149-170.重总结性评估、轻形成性评估导致测验结果在改善课堂教学实践上成效甚微。④Wiliam D, Ryan J. National testing and the improvement of classroom teaching: can they coexist?[J]. British educational research journal, 2000, 26(1): 49-73.测验结果更强调问责但对每个学生的实际影响非常有限，对测验结果的强调还导致教师评估的有效性被削弱。⑤Stobart G. The validity of national curriculum assessment[J]. British journal of educational studies, 2001, 49(1): 26-39.高风险的问责目的对学校和儿童施加了太大压力，导致了课程范围的缩小和“为了测验而教”。⑥Stobart G. Determining Validity in National Curriculum Assessments[J]. Educational Research, 2009, 51(2): 161-179.⑦Wiliam D. Education: The Meanings and Consequences of Educational Assessments[J]. The Critical Quarterly, 2000, 42(1): 105-127.2014年版国家课程评估体系在英格兰引入之后，我国研究者在对其历程、背景、内容、理念、⑧李国栋, 夏惠贤. 为学生毕业后生活做更好的准备—英国“2014国家课程”述评[J].比较教育研究, 2015, 37(09): 85-90.问题、⑨吴晓玲. 英格兰中小学新国家课程与学业评价改革政策述评[J]. 外国教育研究, 2016, 43(04): 36-48.特征、趋势等进行综合分析的基础上，提出对我国中小学课程教学评价的启示与建议，如大力推行课程教学评价的发展性目的、增强学校和教师在评价中的主体性、促进评价方法的多元化、提高评价对象的全纳性等。⑩李才静. 英国国家课程评价的演变与发展趋势—基于英国国家课程评价方案的分析[J]. 教师教育学报, 2016, 3(04): 95-101.已有研究仍有一些尚未解答的新问题，包括：当前英格兰基础教育阶段法定评估的完整框架如何？英格兰如何确保基础教育法定评估的有效实施？英格兰基于国家课程的基础教育评估体系一直以来存在哪些争议点？因此，本文重点论述当前英格兰基础教育法定评估的制度与政策安排，分析其实现路径和面临的争议，以期对我国基础教育评价改革提供思考和借鉴。

一、英格兰基础教育法定评估框架

英格兰基于国家课程的基础教育评估与问责制度始于1988年7月29日通过的《教育改革法》（Education Reform Act 1988），该法案打破了长久以来地方当局对教育的垄断局面，扩大了中央政府对课程的控制权，其主要目的在于全面提高基础教育质量。自此，英格兰建立起统一的国家课程，即义务教育阶段学生都必须学习的课程，并要求在每个关键阶段（Key Stage，以下简称KS）末期①1988年《教育改革法》将义务教育阶段划分为四个关键阶段，包括关键阶段1（简称KS1, 5—7岁，1—2年级），关键阶段2（简称KS2，7-11岁，3-6年级），关键阶段3（简称KS3，11—14岁，7—9年级），关键阶段4（简称KS4，14—16岁，10—11年级），规定不同阶段学生应掌握的知识、技能和理解能力（即学习计划），并以此为依据分别对7岁、11岁、14岁和16岁学生学习国家课程各个科目的情况进行全国统一评定。对学生进行评估，以确认他们在该阶段的预期成就目标上达到了何种水平，并沿用至今。当前，英格兰仅在关键阶段1（以下简称KS1）和关键阶段2（以下简称KS2）结束的时候进行法定评估，②自2009年以来，KS3末期的国家课程评估已被取消，而KS4末期的“中等教育普通证书（GCSE）”属于由专门考试机构所组织实施的资格证书考试，不属于法定评估，因此也不在本文的讨论范畴。旨在为教师和父母提供更准确和可靠的信息，并实现对学校进行问责的目的。除了1988年沿袭至今的KS1和KS2末期的国家课程评估以外，近年来英格兰依据国家课程框架将“评估对象”进行了延伸和下移，③李丽洁. 英国EYFS(2016): 注重早期教育与初等教育衔接的国家课程评价体系[J]. 当代教育科学, 2018(11): 84-89.当前英格兰基础阶段的学生还需要接受基准评估、早期教育基础阶段评估、KS1中期的自然拼读测试和KS2中期的乘法表测试等法定评估（见表1）。

表 1 英格兰基础教育阶段法定评估框架

（一）基准评估

衡量学生的进步（Progress Measure）在英格兰教育系统的问责制中发挥着重要作用，它比单独的学业成就评价更为公平。因为这种问责形式是一种增值评价方法，它将学生的成绩与全国其他具有相同先验成就水平的学生成绩进行比较，“将关注点从静态的绝对成绩转向了动态的成绩提升程度”，①尤铮, 王璐. 英格兰基础教育增值评价的实施与效用探究[J]. 外国教育研究, 2019, 46(07): 42-53.从而提供了一种更利于衡量进步与绩效的评估工具。这一问责制度为那些拥有较高比例特殊需要学生的学校提供了一种“补偿性正义”，使得学生起点低但成绩取得较大进步的学校绩效得到承认。当然，此类问责措施需要基准来确定学生的起点，以衡量与全国其他起点相近的学生相比，某一所学校的学生在某一阶段末期的平均表现如何。因此，基准必须可靠且值得信赖，并且应在学生入学后尽早进行，以涵盖学生在特定学校中的最大时间。当前英格兰在KS1末期（小学二年级）和KS2末期（小学六年级）之间建立起基于标准分（Scaled Scores）和增值评价的评估制度，即以KS1末期的国家课程评估结果作为基准衡量KS2末期学生取得的进步。但英格兰这一基准使得学生在小学预备班（Reception Year）至小学二年级之间取得的进步无法反映在问责制中，还可能导致学校产生一种不正当的动机，即不将资源集中在早期干预上，以便最大程度地提升学生在KS1末期至KS2末期之间的进步增值。②Department for Education. Primary Assessment and Accountability under the New National Curriculum[R]. London: DfE, 2013:16.因此，英格兰在广泛征询利益相关者意见后，决定在2019—2020学年进行大规模试点之后，于2020年9月起引入新的基准评估（Baseline Assessments），即在小学预备班进行新的法定基准评估，以此作为增值评价的起点。

英格兰计划让符合条件的学校学生在小学预备班入学之后的六周内参加数学、识字、交流和发展等方面的评估。评估的结果将作为起点，了解学生从刚入学到KS2末期取得的进步。值得注意的是，评估的数据不会被用来判断和评价个别学生，每个儿童与学校的结果也不会公布。相反，只有在7年后，当学生达到KS2末期时，它才会被用于建立学校层面的平均进步指标③学校层面的平均进步指标是基于每个学生在各科目上的进步分数计算出来的均值. 计算步骤如下：第一步是根据KS1末期的测验结果将全国所有学生分配到先验成就组(Prior Attainment Group)，以便拥有彼此起点相近的学生群体；第二步是确定学生KS2末期的测验结果；第三步是计算每个学生的进步分数，即计算他们KS2末期的成绩与先前成就组的平均成绩之间的差异。例如如果Emily在KS2末期的阅读成绩为102分，而她所在先验成就组的KS2平均阅读成绩为101分，那么她的进步分数将为+1；第四步是创建一个学校层面的进步分数，即把所有六年级学生的进步分数相加，除以学校六年级学生的人数。（Average Progress Measures）。④Department for Education. Primary Assessment in England: Equalities Impact Assessment[R]. London: DfE, 2017: 12.此外，英格兰初步计划，一旦完全建立起新的基准评估，将不再需要KS1末期的评估数据来衡量学生所取得的进步，因此可能将于2022—2023学年结束KS1末期的法定国家课程评估，将其变更为非法定评估。即英格兰将在KS1末期继续提供可选择的非法定测验，以供学校视需要使用，用于确定学生需要获得更多支持的领域，以及确保家长在小学阶段的中期继续获得有关孩子成绩和进步的详细信息。①Department for Education. Primary Assessment in England: Equalities Impact Assessment[R]. London: DfE, 2017: 13.

（二）早期教育基础阶段评估

为促进早期教育与初等教育的衔接，英格兰将国家法定评估的对象下移到早期教育末期的全体儿童，于2008年9月起开始实施早期教育基础阶段评估，并以此作为小学一年级教师制订有效课程和学习计划的依据。也就是说，在早期教育阶段的末期，通常是孩子达到5岁那一年的最后一个学期，从业者和教师将依据表2所述的早期教育基础阶段法定框架，基于每位孩子的日常活动和表现对他们的发展水平进行评估，并完成早期教育基础阶段报告（Early Years Foundation Stage Profile，以下简称EYFSP），总结并描述儿童的发展和学习状况。具体来看，EYFS法定框架设定了早期学习的七大目标（包含三大基本能力和四大专业能力），规定了儿童从出生到5岁期间发育、学习和受照料的法定标准，确保儿童拥有健康、安全和快乐的童年，以及拥有广泛的知识、广泛的技能和理解能力，从而为顺利进入下一阶段的教育作好准备。评估结果具体分为三个等级，即达到预期发展水平，超出预期水平，以及尚未达到预期水平。教育部（Department for Education，简称DfE）执行机构——标准与测试局（Standards and Testing Agency，简称STA）负责EYFSP法定评估的开发和实施，并确保经过严格校准程序（Moderation）的评估结果是可靠的。EYFSP法定评估体现了英格兰注重早期干预和早期评估的理念，其重点强调：确保早期教育环境的质量和一致性，以便每个孩子都能取得良好的进步，并且不会让任何孩子掉队；通过早期教育阶段的学习和发展机会为每个孩子的需求和兴趣打下良好基础，并进行定期评估和审查；建立从业者、父母以及看护者之间的伙伴关系；践行机会均等和反歧视原则，确保每个儿童都得到包容和支持。①Department for Education. Statutory Framework for the Early Years Foundation Stage[R]. London: DfE, 2017: 5-14.

表 2 EYFS法定框架：目标及内容

（三）KS1法定评估

在英格兰，所有由政府资助的基础教育阶段公立学校②公立学校指的是受政府资助的学校，通常指的是政府资助学校（Maintained Schools）、特殊学校或学院（包括自由学校）；独立学校（Independent School）则采取自愿的原则，自主决定是否参与统一国家课程测验。都必须按照国家课程框架进行教学。英格兰具体列出了各关键阶段所有学科的法定学习计划及其成就目标。所有符合条件的学生在KS1结束之际都要参加国家课程评估（National Curriculum Assessments），包括标准成就测验（Standard Attainment Tests，通常被称为SATs）和教师评估（Teacher Assessment，简称TA），以及KS1中期的自然拼读测试（Phonics Screening Check）。

1. 标准成就测验（SATs）

标准成就测验，也被称为国家课程测验（National Curriculum Test），旨在衡量学生对关键阶段学习计划的认识和理解。KS1末期的SATs通常在5月份统一进行。其中，英语阅读测验和数学测验是学校按照国家法定程序统一进行的，英语语法、标点和拼写测验（Optional English Grammar, Punctuation and Spelling Test）则是学校可以自主选择的非法定评估。

（1）英语阅读测验。测验主要分为两份卷子，均由难度逐渐提高、类型多样的精选文本组成。其中测验1由阅读提示和答题册组成，测试时间大约需要30分钟（400—700字阅读材料），但没有严格的时间限制，总分20分；测验2由阅读册和单独的答题册组成，包含比测验1更具挑战性的文本（约800—1 100字），测试大约需要40分钟，时间同样具有灵活性，总分20分。

（2）英语语法、标点和拼写测验。测验分为两个部分：测验1是拼写题，由供测试官朗读的材料和供学生拼写20个单词的答案册组成，测验大概需要15分钟，总分20分；测验2是一本综合答卷，着重于评估学生对语法、标点和词汇的掌握情况，总分20分，测验大约需要20分钟，时间同样可灵活处理。

（3）数学测验。测验包含两个部分，以两份测验的形式呈现给学生。测验1是算数题，旨在评估学生在整数、进位制和计数方面的学习情况，大约需要20分钟完成，总计25分；测验2为推理题，旨在评估学生解决数学问题和进行数学推理的能力，总计35分，大约需要35分钟，时间均不严格。

2. 教师评估

除国家课程测验之外，KS1末期的学生还需要接受教师评估。教师必须根据教师评估框架（TA Frameworks）、关键阶段前标准（Pre-key Stage Standards）或者P级法定指南（P Scale Statutory Guidance）①关键阶段前标准适用于低于国家课程评估总体标准但参与特定学科学习的学生；P级量表规定了5—16岁有特殊需要的学生应该达到的成绩目标和指标，这些学生的学习水平低于国家课程测验和评估的标准，且尚未开始特定学科的学习。中规定的标准，基于学生的平时表现以及SATs成绩，对每个学生的英语阅读、英语写作以及数学和科学的学习情况作出评估。其中，TA框架具体规定了在KS1结束时学生必须达到的标准，教师必须遵循框架中规定的关于每门科目的具体指导来作出判断。例如，在科学科目上，TA框架仅包含一个标准，即达到预期标准。因此，完成KS1学习计划的学生将被判定为“达到预期标准”或“未达到预期标准”。而在英语阅读、英语写作和数学科目上，TA框架则包含3个级别，即接近预期标准、达到预期标准以及达到更高标准。另外，对于在英语阅读、英语写作和数学科目上尚未达到预期标准的学生，教师将使用关键阶段前的标准进行评估，具体分为四个等级，即标准1—4。最后，如果学生有特殊教育需求，学习水平低于国家课程评估的标准，且尚未参与具体学科的学习，则应使用P级1—4的标准进行法定评估。②Standards & Testing Agency. Key Stage 1 Assessment and Reporting Arrangements[R]. Coventry: STA, 2019: 34-36.

3. 自然拼读测试

在KS1阶段的中期，所有公立学校一年级（6岁）儿童都必须接受自然拼读测试。测验由20个真词（Real Words）和20个假词（Pseudo-words）组成，学生可以大声朗读给施测者听，并由教师根据指导手册进行评分。通过自然拼读测试可以评估学生是否达到预期标准的语音解码能力，该能力是学生阅读和拼写所需的基本能力。如果有学生没有达到预期的标准，学校将确保他们获得额外的适当支持，并在下一年度重新参与测试。国家层面和地方当局层面的结果会公布，但是不会公布学校层面的数据，校长还必须向家长报告他们孩子的自然拼读测试成绩。③Standards & Testing Agency. Key Stage 1 Assessment and Reporting Arrangements[R]. Coventry: STA, 2019: 28-33.自然拼读测试可以帮助学校和教师及时发现存在解码障碍的学生并尽早干预，以帮助解决或缓解学生在阅读方面的困难，这进一步体现了英格兰注重早期评估和尽早支持的理念。

（四）KS2法定评估

在关键阶段2结束的时候，也就是六年级的5月份，英格兰需要对在公立学校注册的学生进行评估，包括SATs和教师评估，以检查学生在国家课程学习计划上的完成情况。在KS2中期，英格兰还对全体学生进行乘法表测试（Multiplication Tables Check，简称MTC）。

1. 标准成就测验（SATs）

在KS2末期，公立学校的学生需要参加三个标准成就测验：英语阅读，英语语法、标点和拼写，数学。在科学科目上，英格兰每两年对选定的学生样本进行一次抽测，由外部管理人员在选定的学校中进行，以监控国家科学科目的成绩表现。

（1）英语阅读测验。测验包含多种类型的阅读文本。测验以难度逐渐增加的形式来设计。试题包含阅读册和单独的答题册两个部分，学生有一个小时的时间阅读3篇文章并完成相应问题，总计50分。

（2）英语语法、标点和拼写测验。测验包含两份试卷：第一份是一本问答册，学生有45分钟的时间回答问题，总计50分；第二份是拼写试卷，由供测验实施者阅读的材料和答题册组成，学生在答题册上拼写20个单词，测验大致需要15分钟，但没有严格的计时，总计20分。

（3）数学测验。数学测验侧重于国家数学课程中可评估的要素，包括算数和推理两部分，以3份试卷的形式呈现给学生。试卷1主要评估内容是算术，学生有30分钟回答问题，总计40分。试卷2和3侧重评估推理，对于每份试卷学生将有40分钟回答问题，分值都是35分。

（4）科学抽测。科学抽测每两年进行一次，由外部管理人员在选定的学校中进行。测验以纸笔考试的形式进行，结束后将进行外部评分。最近的一次科学抽测原计划①由于新冠病毒（COVID-19）的全球肆虐，英格兰取消了2019—2020年度的国家课程评估。这意味着2020年4月至7月间的KS1和KS2评估（包括SATs和教师评估）、自然拼读测试、乘法表检查和科学抽测等都被取消。由于2020年12月底至2021年1月初英国新型冠状病毒病例数的迅速攀升，教育大臣加文·威廉姆森（Gavin Williamson）宣布2021年的上述测验也将被取消。于2020年6月进行，届时STA将在4月27日通知被选定的1900所学校，并将从每所学校中选出5名学生代表，即大约随机抽取9 500名学生作为代表性样本参与科学测验。科学测验具体包括三份试卷，每份试卷的完成时间不超过25分钟。②Standards & Testing Agency. Key Stage 2 Assessment and Reporting Arrangements[R]. Coventry: STA, 2019: 47.

2. 教师评估

与KS1相同的是，在KS2结束时学校同样需要报告英语写作和科学等科目的教师评估。即教师需要根据TA框架、KS2前标准（Pre-key Stage 2 Standards）或P级法定指南中规定的标准，基于学生平时课堂和作业上的表现，对每个符合条件的学生作出评估。其中，TA框架具体规定了在KS2结束时学生必须达到的标准，教师必须遵循框架中规定的关于每门科目的具体指导来作出判断。具体来看，英语写作框架包含三个级别的标准，即接近预期标准、达到预期标准和达到更高标准。KS2科学框架仅包含一个标准，即达到预期标准，也就是说，完成学习计划的学生将被判定为“达到预期标准”或“未达到预期标准”。在KS2结束时，对于低于国家课程评估总体标准并参与具体科目学习的学生，必须使用KS2前标准对学生的英语阅读、英语写作和数学科目进行法定评估。该标准遵循与TA框架相同的原则，具体包含标准1—6个不同的等级。另外，如果学生有特殊教育需求，且学习水平低于KS2前标准，则应使用P级1—4的标准对未参与具体学科学习的学生进行法定评估。①Standards & Testing Agency. Key Stage 2 Assessment and Reporting Arrangements[R]. Coventry: STA, 2019: 35-36.

3. 乘法表测试

除了最重要的KS2末期的标准成就测验和教师评估以外，KS2中期的学生还需要接受乘法表测试。从2019—2020学年开始，英格兰在六月对公立学校的所有四年级末学生进行法定乘法表测试，教师可以采取灵活的方式同时对学生个人、小组或全班进行检查。测试以在线方式（使用连网的计算机或平板电脑等IT设备）进行并自动计分，每题限时6秒钟，每两题之间有3秒钟的停顿，共计25题，总时间不超过5分钟，一旦测试窗口关闭，学校就可以获得结果。MTC的目的是确定四年级的学生是否可以流利地回忆乘法表，这被认为是将来在数学科目上取得成功的关键。该测验将帮助学校识别那些还没有掌握乘法表的学生，以便提供额外的支持。

二、英格兰基础教育法定评估的推进路径

英格兰自1988年建立起来的国家课程及其法定评估制度，旨在保障所有学生能够接受广泛而均衡的教育，而不受地域、学校、社会经济状况的影响，并使得学生的学业成就在全国范围内可衡量且可比较。总的来说，英格兰基础教育法定评估的推进路径可以总结为以下几点。

（一）建立起职责清晰的监管与执行机构

英格兰已经建立起从中央到地方，涵盖独立监管机构、政府执行部门、第三方评价机构、学校等不同主体的组织机构框架，全面负责和监督法定评估工作的有效进行。具体地看：（1）教育部的各个部门，主要负责制定国家评估有关政策。其中，教育大臣负责制定课程并决定是否需要进行何种国家评估。教育部的执行机构——标准与测试局（STA）作为主要负责机构，负责早期教育到KS2国家课程测验的开发、实施以及标准的制定和维持，并受资格和考试管理办公室（Office of Qualifications and Examinations Regulation，简称Ofqual）监管。STA的具体职责包括：负责KS1和KS2英语、数学、科学等核心科目测验的编制、印刷、分发、评分等具体事宜；确保测验结果的准确性和可靠性，处理与国家评估有关的结果复核申请以及质询和投诉；收集法定教师评估数据；通过对地方当局的监督审查，确保教师评估结果的一致性和准确性；与供应商或第三方实体评价机构订立合同或达成协议，另外参与测验的开发、编制以及印刷和评分等具体流程，并负责确保其评估安排的有效性。此外，教育部还负责对结果和绩效表的公布。（2）Ofqual和Ofsted担任“监督员”的角色，负责对国家评估的有效性进行监督和审查。其中，Ofqual作为独立的法定监管机构，全面负责英格兰早期教育基础阶段评价和国家课程评估的监管工作。Ofqual的法定目标是提高标准以及公众对国家评估的信心，其主要职责是对国家评估的各个方面进行审查，以监控、审查并报告国家评估的有效性，确保STA评分的质量。负责督导中小学或早期教育机构的教育、儿童服务和技能标准办公室（Office for Standards in Education, Children’s Services and Skills，简称Ofsted）也需要考虑国家评估的有效性和公信力等相关问题。（3）地方当局对国家评估负有一系列法定责任。地方当局必须：监控国家课程测验的实施，确保评估按照预订的国家统一流程和要求进行；审核学校和早期教育机构教师评估的准确性和一致性；从学校收集教师评估的结果，并将其统一交给STA。此外，学校的管理机构、校长，早期教育机构、学院信托等相关机构及其管理人员，也需要负责国家评估的执行、管理与监督工作。①Ofqual. Regulatory Framework for National Assessments[R]. Coventry: Ofqual, 2018: 3-5.

（二）制定了明确的测验编制与实施原则

为了保证国家课程评估的质量及其所蕴含多元目标的实现，英格兰建立起清晰明确的五维评价原则，即必须保证测验的效度、信度、可比性、公平性和可管理性等重要原则。具体表现为：（1）保证测验的效度。效度指的是在测验开发过程中收集的证据在多大程度上是支持测验预期测量的。英格兰拥有明确的程序来审查评估方法、评估内容和评估目的，以衡量测验是否能够衡量国家课程相关领域的表现，以及是否对学生所达到的学业水平进行了充分有效的评估。（2）保证测验的信度。信度表示的是测验分数的可靠性、一致性或无随机测量误差。英格兰通过不同的统计数据来衡量测验的信度，旨在测量测验的有效性以及评分的一致性。（3）保证测验的可比性。英格兰每年都在测验编制过程中使用相同的测验框架，以保证不同年份的评估之间的可比性。例如，在测验编制过程中使用锚测验或锚题将每个技术预测验（Technical Pre-test，简称TPT）②技术预测验，是测验开发过程中所进行的大规模预测验，目的是收集详细可靠的统计数据，以帮助支持最终的测验开发。和实际测验等同起来，从而确保了2016年之后每一年测验结果的可比性。（4）保证测验的公平性。在整个测验编制过程中，对测验中的所有问题进行审查，以最大程度地减少偏见，保证仅根据每个学生的学业水平进行评估，而不受其他无关因素的不利影响。具体包括来自全纳小组（Inclusion Panels）的反馈，以及在数据分析过程中对项目功能差异（Differential Item Functioning，简称DIF）③“项目功能差异”是一种旨在表明同一水平的不同学生群体对某一项目的正确率是否相同的统计数据。的监控。英格兰还为学生提供了一整套的特殊测试安排和修改版测验，以确保学生不受歧视、公平地进行测试。（5）具有可管理性。对相关人员而言，评估应该是可管理和可实施的，应该向学校以及参与评估的其他机构提供必要的信息，以保证评估及时有效地准备和实施。国家课程测验的实施要遵循KS1和KS2的既定安排，按照正常时间表实施测验相关管理工作。④Standards & Testing Agency. National Curriculum Test Handbook: 2018[R]. Coventry: STA, 2018: 62-64.

（三）形成了严格的评估程序和多样化的评估目标

英格兰采用的是基于标准参照的评价模式，即要求在各个关键阶段末期评估学生在何种程度上达到了国家课程中统一设定的关于各个学科的成就目标。同时，英格兰还具有严格的程序来保证评估工具的信度、效度以及可比性，从而使得全国范围内客观有效的学生学业成就评价成为可能。例如，国家课程测验的编制、实施与评分遵循严格的框架和流程，其中KS2测验由外部独立第三方机构进行管理和评分，并由STA负责确保评分过程以标准化、专业化和可靠的方式进行。此外，标准统一、程序严格的法定评估系统背后还蕴含着多重目的。具体来看，首先，国家课程评估的结果可以用于让学校对学生的成就和进步负责。法定评估所提供的针对不同学生群体的的成绩和进步信息，可以帮助中央和地方政府、公众以及家长了解学校的表现。其次，结果可用于告知家长和学校关于每个学生的表现。国家课程评估的结果可以帮助学校和教师更清楚地了解学生在整个学习阶段所遇到的困难和挑战，从而提供更适当和及时的支持，同时也有助于家长更有针对性地帮助孩子在需要关注的领域实现提升。最后，全国范围内的数据还有助于在学校之间建立基准，并在本地和全国范围内监控绩效。国家课程评估使得学校有机会将自己与当地以及全国平均水平进行比较。对于地方政府以及中央政府而言，使用相关数据则可以监控地方乃至全国范围内国家课程框架的实施情况。

（四）重点关注评估过程的平等性和包容性

为使所有学生都能够没有障碍、不受歧视地参与国家课程评估，英格兰非常关注平等性和包容性原则，设定了诸多针对特殊需要学生的特别安排。例如，为适应特殊需要学生的需求，STA为有重度视力障碍的学生设计了放大版（Enlarged Print，EP）、修改过的放大版（Modified Large Print，MLP）和盲文版等不同版本的KS2测验。其中，EP版本以更大的版面制作，试题册以及所有的文本、图片和非比例图表均大于标准版本；MLP版本也采用较大的版面，但是存在更多的空白处，且有些图用高对比度的设计来代替，或者需要使用实体模型；盲文版则专门为视力极差或盲人学生所设计，图以触觉格式或实体模型呈现。

此外，针对有特殊需要的学生，英格兰还采取了一个独立的评估等级体系来对这些儿童的学习情况进行评估。教师使用P级评价指南对成绩目标低于国家课程测验标准且未参与特定学科学习的学生进行评估。并且，英格兰开始越来越关注特殊需要学生的多样化需求，并逐渐意识到根据国家课程评估来衡量这部分学生的表现是不合适的，即便是P级评价。因此，2018年11月，教育部宣布从2020年开始采用新的基于“参与度”（Aspects of Engagement）的方法来评估有特殊需要的学生。也就是说，针对未参与特定学科学习的学生，对他们的评估将集中在认知和学习方面，具体包括反应力、好奇心、发现、期待、坚持、启蒙以及探究等七个方面。①Roberts N. Assessment and Testing in Primary Education (England)[R]. House of Commons Library, 2020: 7.

三、英格兰基础教育法定评估存在的主要争议

自20世纪80年代以来，标准化评估俨然已成为一些OECD国家教育改革的关键工具，并被作为一种政治工具以实现“中央或联邦当局与地方当局之间权力平衡的转移，大大降低自治程度”以及“强化学校对普通公众的责任制”。在此背景下，英格兰进一步制定了更为严苛的基础教育评估制度，该制度既被视为有效的“教育系统监测工具”又被作为“提高学生表现的教学工具”，其背后隐含的逻辑理念是“考试制度的发展必然促进整个教育系统的绩效提升，特别是能够改善学生的学习成绩”。①Mons N. Theoretical and Real Effects of Standardized Assessment[R]. Eurydice Network, 2009: 5-7.然而，有意思的是，芬兰等在PISA中表现优异的国家并没有建立起基于高风险考试制度（High-stakes Testing）的“严格问责”模型（Hard Accountability Model）。相反，英格兰所建立起来的基础教育法定评估体系对课堂教学以及学生发展的成效甚微，②Stobart G. The Validity of National Curriculum Assessment[J]. British Journal of Educational Studies, 2001, 49(1): 26-39.这种严格的外部问责机制还在国家内部引发了一股抵制之风。

（一）统一考试给学生造成巨大压力

尽管目前英格兰仅对KS1和KS2末期的学生进行标准成就测验，且最终结果主要用于对学校进行问责，并不对外公布每个学生的成绩，但公众对国家基础教育评估制度的抗议之声仍不绝于耳，他们普遍认为这些测验给学生施加了太大的压力。特别是，随着评价呈现出的越来越低龄化的趋势，公众对幼儿需要接受各种不同测验所可能导致的压力十分担忧。例如，英格兰原计划于2020年9月引入的基准评估一直以来都存在争议，政府认为基准是衡量学生从入学到关键阶段2末期所取得的进步的一种认可和证据。但是，一些教育者持有一种相反的观点，他们认为不宜在刚入学的时候就对儿童进行评估。拒绝考试联盟（More Than a Test）认为基准评估“毫无意义且具有破坏性”，结果将“不可避免地不可靠”，基准评估对儿童的后期成绩没有什么预测价值，甚至会干扰学生对学校的适应程度。③Roberts N. Assessment and Testing in Primary Education (England)[R]. House of Commons Library, 2020: 6.此外，持反对意见的人们还认为，测验的结果容易被解释为对学生智力或能力的唯一和总结性判断，而不是通过该数据来诊断学习过程中的成功与不足之处，从而影响学生的信心和学习兴趣。

（二）严格问责制对课程和教学的负面影响

英格兰统一在每个关键阶段末期对学生进行特定科目的标准化测验和教师评估，要求学校在排名表（League Tables）中公布测验结果，并以此为依据对地区、学校甚至教师进行问责，势必会对课程和教学产生重大影响。由于课程大纲的范围有限，考试内容在很大程度上是可以预测的，这引发了各种旨在提高测验结果的“为应试而教”的强化教学现象，扭曲了教育的本质和价值。国家课程测验还导致学校过于关注英语、数学和科学等核心科目的教学，而缩小课程的范围以及减少内容的多样性。此外，标准化测验还可能导致教师专注于学习目标所规定的知识和技能要求，而忽略了学生社交技能、创造力、独立性和公民意识等其他能力的培养。④Mons N. Theoretical and Real Effects of Standardized Assessment[R]. Eurydice Network, 2009: 25-26.这在一定程度上导致了评价目的与手段的混淆与颠倒，即由“为了学习的评价”走向“为了评价的学习”的泥淖，学校则有成为考试工厂的倾向。因此，英格兰的这种标准化、低龄化和越来越严苛的基础教育评估制度在全国范围内引发了相关人士的强烈谴责，他们认为这种重测量的教育评价体系损害了真正的教育价值。

由家长、教师、校长和教育专家组成的拒绝考试联盟不断合作，以表明他们对高压测验系统的反对，呼吁政府改变过度测验的制度和现状。他们认为，小学阶段是一个自我发现、建立自信和开发潜能的时期，应该让学生享受丰富多彩的课程，并让他们对学习充满热爱，而不是花数月时间准备英语和数学考试。学生需要的是能够帮助拓展知识、开发创造力以及提升解决问题能力的教师，而不是教他们如何考试的教师。但是目前英格兰的小学教育系统却过度沉溺于分数和排行榜，给孩子、家长以及教师带来了不必要的负担。对此，该联盟认为，应根据学校提供的整体教育质量来评判学校，而不是根据一系列标准化考试的结果。①More Than A Score. Children are More Than a Score [EB/OL]. [2020-05-08]. https://www.morethanascore.org.uk.

（三）多元化评估目标的实现情况不容乐观

自1988年建立以来，评价和考试任务小组（Task Group on Assessment and Testing，即TGAT）就赋予了国家课程评估系统多重目标，包括形成性目标、诊断性目标、总结性目标和评估性目标。其中最为著名的还属保罗·牛顿（Paul E. Newton）于2007年所做的工作，他指出法定评估被广泛使用的目标至少有16种。②Newton P E. Clarifying the purposes of educational assessment[J]. Assessment in education: principles, policy & practice, 2007:149-170.随后，儿童、学校和家庭委员会（Children, Schools and Family Committee）于2008年公布的调查报告指出，由于英格兰国家课程评价系统承载着过多不同的目标，包括在国家、地方、学校以及个人等多维层面，导致在实际实施过程中，这些目标实现情况不容乐观。特别是，在既有形成性目标又有总结性目标的情况下，人们总是不可避免地偏向于更加强调在管理上引起问责和评估的总结性功能。③Stobart G. The validity of national curriculum assessment[J]. British journal of educational studies, 2001, 49(1): 26-39.现实情况也表明，随着近年来英格兰对学校和教师的问责力度进一步加大，评估体系的总结性目标越来越突出，而对每个孩子学习情况的诊断、支持与影响却非常有限。对此，相关学者认为应该改革全国考试制度，重新审视这些多重目标，从而消除学校中所盛行的不惜一切代价追求考试成绩的风气，④Whetton C. A brief history of a testing time: national curriculum assessment in England 1989-2008[J]. Educational research,2009, 51(2): 137-159.基础教育评价的最终目标在于关注每一位学生的发展与进步。然而，英格兰近年来的基础教育评价改革始终未触及根本，尚未建立起评估结果对教学过程的反馈机制。

四、对我国基础教育评价的启示

目前英格兰已经建立起比较完善的国家课程体系及其法定评估机制，虽然面临一些争议与批评，评估框架也历经数次调整，但始终三十年如一日地监控着全国范围内基础教育的整体质量。以此反观我国的基础教育评价制度，可获得一些思考与启示。

（一）完善基础教育课程标准及其评价机制

20世纪80年代以来，随着新公共管理主义思潮在西方主要发达国家兴起，量化公共部门的产出，使用科学的工具测量产出，根据基于产出而不是基于投入的审核程序来管理公共组织，使拥有更大自主权的公共机构对管理者和公民负责等理念，开始在教育部门渗透和应用。在此背景下，标准化评估应运而生。除了传统的衡量学生学业成绩的这一功能之外，标准化评估还被视为一种蕴含多重目标的工具，即生成可比较的定量数据，以支持内部学校问责制和公民社会的外部问责制。①Mons N. Theoretical and real effects of standardized assessment[R]. Eurydice Network, 2009: 8-10.其中最具代表性的是英格兰所实施的国家课程评估和美国的国家教育进展评估（National Assessment of Educational Progress，NAEP）。英格兰这种在全国范围内广泛收集的关于基础教育课程实施状况的统一评估数据，不仅有助于了解课程标准在不同地区、学校的实施效果，加强对处于最低标准以下的学校的问责与紧急干预，还能够帮助及时掌握基础教育课程改革过程中的薄弱之处和问题所在，为未来的改革与发展提供证据依据。目前，我国已经初步建立起全国范围的义务教育质量监测体系，如何进一步完善义务教育质量监测制度，有效使用质量监测数据改进义务教育质量，并规避基础教育评估潜在的风险和不利影响，仍然是一个亟待研究的问题。

（二）重视教师在基础教育评价中的关键作用

英格兰十分重视教师评估在基础教育评价中的作用，甚至TGAT最初设计的国家课程评估框架（包括SATs）是完全由教师进行实施的，主要目的是让教师从中获得对教学有用的反馈。目前，英格兰所实施的教师评估具体又包括关键阶段末期的总结性评价和贯穿教学始终的形成性评价。其中前者作为法定评估，主要用于国家层面数据的收集和全国教育质量的监控，后者则主要侧重于让教师能够即时监控学生在核心科目上的学习进展情况，并采取针对性策略改进学生的学习。此外，在法定教师评估上，为了确保终结性教师评价的一致性和准确性，保证全国范围内数据的可比性，STA等责任机构还拥有严格的校准程序保证教师评估的一致性。尽管在实际实施过程中，英格兰对标准成就测验的重视程度高于教师评估，国家课程评价的评估性和总结性目标也远远凌驾于形成性目标之上，但这种对教师在不同教育评价形式上主体作用的重视，以及程序化、流程化和规范化的教师评估制度，依然值得我们思考。

（三）发挥多主体部门在基础教育评价中的作用

在基础教育评估领域，英格兰建立起架构清晰、职责明确、功能完善的组织机构框架。除了充分发挥教育部及其执行机构等政府部门，独立官方监管机构，地方当局、学校等多元主体的监管与执行功能以外，英格兰还非常重视第三方评价组织在基础教育评价中的积极作用，以充分建立公众对评估体系的信心，满足不同利益相关者的多元需求。特别是，Ofqual作为独立的法定非内阁政府部门（Non-Ministerial Department），直接对议会负责，这保证了法定监管部门的独立性，使得基础教育评估体系具有较强的专业性、权威性和公正性。此外，英格兰负责机构将国家课程测验的编制、评分等具体工作外包给可靠的第三方评价实体机构（Awarding Organizations），同时实行严格的资格审查制度和动态监测机制，从而保证评估的信度、效度、可比性等重要原则。这在我国注重促进教育管办评分离，全面深化教育评价制度改革的当下，具有现实启发意义。