英国普通中等教育证书考试改革的缘由、举措和特点

2018-01-11 21:41张家勇朱玉华
世界教育信息 2017年24期

张家勇 朱玉华

摘 要:英国普通中等教育证书考试具有很多优势的同时存在改进空间:模块化考试很难做到等值,考试难度偏低不利于甄别优秀人才,受控评价的信度和效度不高,等级分制度难以有效区分学生全部成绩序列,分卷模式可能导致地板效应和天花板效应。2013年2月,英国宣布启动普通中等教育证书考试综合改革,2017年9月所有普通中等教育证书考试科目全面实施新内容。改革后,考试难度有所增加;绝大多数科目的考试安排在夏季,重考次数大幅减少;统一卷是首选,保留下来的分卷模式更具弹性;笔试是绝大多数科目的唯一评价方式;评分制度保留等级制,但等级用1~9表示。英国普通中等教育证书考试改革强调分工合作、科学决策、民主决策,并持续回应社会关切的问题。

关键词:综观评价;受控评价;分卷;模块化考试

自1986年英国普通中等教育证书(GCSE)推出以来,教育内外部环境发生了比较大的变化:教育发展阶段、考试服务的目的、中学绩效考核制度均已改变,国家课程、普通中等教育证书考试高级水平课程(A-Level)考试相继改革。GCSE必须进行改革以适应这些新变化。2013年2月,英国宣布启动GCSE综合改革,2017年9月所有GCSE科目全面实施新内容。原有GCSE存在哪些问题?改革后的GCSE有哪些新变化?这些改革有哪些基本特点?本文拟就这些问题作出简要回答。

一、改革的缘由

(一)模块化考试很难做到等值

2009年9月以前,GCSE科目考试都是采用线性评价(linear assessment),所有考试都安排在学生两年学习结束时进行。此后,绝大多数GCSE科目增加了模块评价(modular assessment),允许同一科目的不同模块分散在不同时段教学,每个模块单独测试并获得统一量表分数(UMS)①及等级分,如果某一模块成绩达不到及格等级,将不予计分,完成全部课程后综合三个模块得分得到最终等级分,学生可以重复参加模块考试以提高最终等级分,但最多可重考一次。例如,GCSE数学B由三个模块组成:统计及概率占30%,算术、代数及几何I占30%,算术、代数及几何II占40%,学生可以在中学三至五年级(13~16岁)期间分三次完成考试。如果模块考试成绩不理想,可改为最后一年参加线性考试。这种模块化设计难免干扰学校的正常教学计划,妨碍学生对一门课程建立完整的理解,考试机构很难确保资格证书年度标准的一致性。学生何时参加考试、学生拥有的重考次数等因素都会影响最终结果。仅仅因为他们选择的路径不同,部分学生就能够比其他同学考得更好,这就可能对考生不公平。

(二)考试难度低不利于甄别优秀人才

证书及考试监管办公室(Ofqual)调查发现,GCSE科学和地理试题过于简单且要求太低、多項选择题太多,科学试题偏少。GCSE生物考试标准逐年降低,短篇论文、简答题和多项选择题增多,不能有效检测学生的知识深度和广度。此外,考试机构为了争夺市场份额、获得更高收益,漠视行业职业道德,违规为授课教师举办讲座和考前辅导,提供考题信息,圈定考试范围,帮助学生获得高分。此外,GCSE考试更加公式化且更易预测,GCSE课程教学倾向于应试教育,不利于学生真正学习和掌握知识,不能为学生成功提供最佳机会。现行制度导致逐底竞争(race to the bottom),难以甄别拔尖人才。为选拔优秀的生源,很多大学增设入学考试,特别是医学、法律等热门专业。2013年牛津大学要求65%的报考者参加自己学校组织的入学考试。学生获得更高等级分的比例不断上升,但是更多的雇主不满意中学毕业生的读写算能力,大约42%的雇主因此为中学或大学毕业的雇员增加培训。

(三)受控评价的信度和效度备受质疑

内部评价(internal assessment)是GCSE考试的重要特色,早期是通过课程作业评价,现在采用受控评价(controlled assessment)②。首先,受控评价有时并没有评价应该评价的内容,不能像笔试那样有效地对学生的不同能力水平做出区分。例如,考生通过背诵范文备考外语写作,受控评价即评价考生记忆力而非外语写作能力。在备考压力下,往往最终成果也不能代表学生的真实水平。其次,受控评价很难组织和实施。部分科目的受控评价比例太高,高级监管措施增加了教师负担,很有可能干扰正常教学或打乱教学时间安排。学校之间也彼此不信任,因为各校对考试机构评价指导的使用方式不同。提高师生一致性的具体控制措施往往没有发挥作用。最后,受控评价很难保持连贯性和一致性。部分受控评价剥夺了学生反思和改进的机会,考试机构设定的任务限制了考生的创造性。教师还反映考试机构编写的评价指导解读空间较大,容易让人产生困惑且存在一致性缺陷。

(四)等级分不能均衡有效地呈现全部成绩序列

学生得分分布过于集中在A~D等级,增加A*等级后区分度仍显不足,C以下设置太多等级显得区分过度。获得A等级考生之间的成绩差距比E和F等级之间的差距更大。2012年,所有科目考试获得D等级的学生占16%,高于E~G等级学生所占比例(14%),获得B~D三个等级的考生更是高度集中,为63%[1]。同时,不同科目的等级分难易程度相差甚远,量化并处理不同科目等级分成为难题。例如,21%选择化学的学生获得A*,只有6%选择英语文学的学生获得A*。此外,单纯等级分不能很好地满足学校招生需求,部分考试机构将考生试卷各单元得分也反馈给学校。等级分并不绝对可靠,较易受到时间、试卷和考官等因素的影响。

(五)分卷可能导致地板效应和天花板效应

现有GCSE科目考试一般分为基础卷和高级卷,C~E等级在两卷中都有出现。分卷模式很难通过确定合理边界为拥有不同知识水平的考生设计不同试卷。分卷难以确保不同途径获得的同一等级分等值,目前主要依据统计信息进行专业判断。同时,考生可能因为选择错误导致零分,即地板效应(floor effect)③;也可能导致被低评,即天花板效应(ceiling effect)④。此外,分卷可能限制考生的发展潜力和抱负水平。因为基础卷最高等级是C,如果被错误地编入基础卷教学组,即便学生水平再高也不能升到A-level或其他同级资格证书水平。最后,如果与学校绩效考核捆绑,分卷也存在负面效应。等级C是学校绩效考核的门槛,因为基础卷获得C等级更容易,学校更倾向于安排中等水平学生参加基础卷考试。endprint

二、改革的基本内容

(一)重考次数将大幅减少

2016年5月,Ofqual出台《关于正式规则的决定》(Decisions on Formal Rules),对重考等事项作出了新的规定。除了英语语言和数学外,其他科目不再有分期、分批的重考机会。对于尚未改革的模块化科目,不再允许考生重考某个模块,但是考生可以选择重考所有模块,大部分科目重考要等一年之后,受控评价材料重新提交则因科目不同要求会有不同。改革后,两年课程不再分模块,帮助学生融合主题的不同方面形成对一门课程的整体认识,所有科目的综观考试⑤都安排在课程修完之后的夏季学期(5~6月)举行,以减少考试对正常教学的影响,保证标准的公平性和一致性。因为英语语言和数学两科的资格证书对于学生升学或求职至关重要,故每年11月继续安排重考,但考生必须在当年8月底年满16周岁。

(二)考试难度将有所提高

Ofqual要求重新设计英语文学、数学、历史、地理等科目的教学内容,增加课程深度和广度;取消GCSE职业教育课程;增加核心科目的考试难度,覆盖完整的课程内容;考试重点考查学生知识能力的深度和广度,提高合格等级难度。英语语言要求更高的阅读技能和更好的写作能力;英语文学将鼓励学生批判性阅读、写作和思考;英语、历史等科目将减少碎片化和过于结构化的问题,同时增加扩写内容;数学和科学等科目更加重视量化问题处理;数学将覆盖比率、比例、变率等内容,要求所有学生掌握基础知识和技能,加大最高等级分难度;科学将增加人类基因、生命周期分析、太空物理等内容,更加具有挑战性。2017年所有GCSE科目将按新标准更新,目前已经更新了35个科目。新课程考试评价结构更加严谨,核心内容更具挑战性,学时数将基本保持不变(少数科目教学时间变长)。新课程更加重视拼写、标点和语法、专业术语,其分值将占英语语言科目总分的20%,其他科目的占比将根据需要逐一确定。

(三)重叠型分卷将更具弹性

一般而言,分卷有重叠型、主卷+附加卷、连续型三种设计。Ofqual提出4条筛选标准:是否影响学生抱负水平,是否能够有效管控,技术上是否可行(设置标准的难度),是否透明且易于理解。相比而言,重叠型对学生的负担更轻,更具有易控性,技术要求更低,更易于理解。改革后,分卷科目将继续采取重叠型模式,提高透明度并吸取其他模式的优点,但重叠点及重叠幅度将更加灵活,鼓励适当比例的学生选择分卷相应的课程学习路径,降低天花板效应的影响,提高不同试卷之间的可比性。如果重叠幅度太小,无法获得与发展潜力相应等级的考生比例会上升;如果重叠幅度过大,设计有效试题的几率将会降低。新的数学科目基础卷设1~5等级、高级卷设4~9等级,其他科目将根据需要采用新的重叠设计。

(四)受控评价将全面调整

笔试将作为默认评价手段,受控评价等其他辅助形式只用于测试关键技能。Ofqual提出采用受控评价要遵循以下原则:必须是评价科目关键部分的唯一有效途径,必须在效度、信度、可控性和合理评价实践之间取得平衡,必须符合具体科目的评价需要,必须确保资格证书不会受到外部压力的影响。受控评价将改进任务设定的控制,改进学生完成作业的方式,改进授课教师评分和考试机构审核。绝大多数科目受控评价将由考试机构的考官评分,减少受控评价对教学的影响,让授课教师拥有更多时间专注教学,减轻教师为自己学生评分的压力,特别是评分还与自己及所在学校绩效考核密切相关的时候。如果学生成绩用于学校绩效考核,受控评价部分将在资格证书上单独报告,不再计入总分。考试机构将根据不同科目特点制定评价策略、选择试题类型、决定考评时间、确定笔试比重,保证评价的信度、效度、可比性和可控性。

(五)考试评价方式将有改进

统一卷将是首选,分卷科目将大幅减少。如果统一卷不能让所有考生充分展示学习成果,并且高级卷涉及的课程内容能够有效识别,这样的科目将继续采取分卷。同时,成绩呈现方式将继续采用等级制,将探索使用标准分作为等级制的补充。新的分级量表将使用数字1~9标明不同等级,9是最高等级。GCSE新科目采用数字等级便于与尚未改革的科目评分相区别,避免与原有8个字母等级混淆,同时让处于下游的考生也有机会展示进步并得到认可。数字等级制与字母等级制并不一一对应,英格兰还可以借此与北爱尔兰、威尔士授予的GCSE证书相区别。

三、改革的特点

(一)强调分工合作与科学决策

英国GCSE改革强调相关部门的分工合作,教育部与Ofqual、考试机构密切合作,共同完成改革的设计和落实工作。教育部全面负责GCSE改革,提出改革的主要框架设想,对改革的重要方面提出主導性建议,包括改革时间表和路线图、提高科目内容难度、严格考试评价结构、改革评分方式、丰富试题类型、确定命题重点、细化成绩报告等。教育部对每门科目的核心内容开发过程负有全面责任。教育部还主持GCSE核心科目内容改革和评价目标的社会公众咨询工作[2],随后向社会公布最终达成共识的相关科目内容的改革决定。

Ofqual负责改革GCSE监管要求,确保国家标准准确:决定新GCSE的具体设计特色,出台获得考试机构认证的标准,决定如何制定并保持资格证书标准,确保考试机构设计、实施和授予证书时契合改革目标,审核考试机构提交的科目内容开发提议。2013年12月以来,Ofqual就很多改革内容提出建议并征求社会意见。例如,GCSE改革对利益相关者的风险控制(2013年),新GCSE资格证书的基本设计(2013年),考试机构开发、实施和授予GCSE证书的技术规则(2013年),新GCSE资格证书科目的结构和评价(2014年),如何制定并完善新GCSE证书标准(2014年),任一科目纳入GCSE证书的原则(2015年)等。2014年,Ofqual开始对考试机构进行认证,2015年底完成所有资格证书认证工作。endprint

考试机构负责制定改进措施,确保GCSE 考试的质量。考试机构吸收自身、全国、国际评价研究成果及优秀评价实践案例,提升评价信度、效度、可控性和可比性,确保资格证书的有效性和公信力。在适当的地方增加扩写类(extended writing)考题和问题解决类(problem solving)考题,减少不必要的过于结构化或细碎的试题。考试机构负责开发每个科目的核心内容,向Ofqual提交2017年新开设科目提议。

(二)重视社会参与和民主决策

英国教育改革公开透明,建立了完善的信息公开及意见反馈机制,每一次改革甚至改革的每一项举措都会由相关责任部门提出框架建议,面向社会公开征集反馈意见,并组织专门人员对社会反馈进行分析整理,再向社会公布反馈意见和采纳情况。改革框架通常是由教育大臣任命的、由大学学者组建的专家组在深入调查研究的基础上完成。据不完全统计,GCSE改革60余次公开征求社会意见,其中教育部主持7次,Ofqual主持53次[3]。例如,Ofqual在研究改革風险防控的时候,专门组织与学校面对面的讨论,与考试机构召开一对一座谈会,面向就业与教育机构协会、学院学会、考官协会、学院和学校财务代表等发放问卷,广泛收集社会意见和建议。任何社会机构或个人都可以通过教育部或Ofqual开发的在线反馈表格、电子信箱、在线问答,以及其他方式反馈意见。政府对这些反馈意见必须做出公正公开的反馈,公开对意见和建议的采纳情况。Ofqual还委托独立的市场调查公司舆观调查网(YouGov)、BMG调查公司(BMG Research)等通过电话访谈、在线问答、面对面座谈等途径收集社会反馈意见并进行深度分析,公开发表调研报告。Ofqual也关注与改革相关的学术研究成果,召开与改革主题相关的研讨会等。通过征求社会反馈使改革措施更加完善可行。例如,推迟到2017年完成所有GCSE科目改革、让考试机构自行决定考试评价时间、将8个等级改为9个等级等改革措施都是社会反馈建议的结果。

(三)回应社会关切,改革从不停步

英国是西方民主自由价值观的策源地,却至今保留着君主立宪制度,因此一直被认为是保守主义思想主导的国家。最近几十年,英国教育改革十分活跃,无论是联邦教育行政部门频繁改名重组,中小学课程与考试评价监管机构的分分合合,中小学办学体制不断改革以至于新学校类型繁多,还是考试招生制度反复调整,都一反保守常态,让世界刮目相看。为了应对教育实践中出现的难题,英国政府坚持改革不停步。自1911年设立中学考试机构到2010年Ofqual获得法律地位,中学考试评价监管机构11次重组易名,中学考试名称变更5次,课程与考试监管职能也是时分时合。

虽然GCSE是英国十分成熟且受到广泛认可的资格证书,但围绕GCSE的改革的动议时时出现。考试机构组织的外部评价与学校组织的内部评价相结合,这种安排在几十年内经历了多次改革调整。1988年英国推出课程作业作为GCSE内部评价的主导方式,2009年开课的GCSE科目改用受控评价替代课程作业,2013年出台受控评价改革措施。2010年底,英国政府推出英国文凭考试(EBacc),以学校为单位计算学生在GCSE考试中英语、数学、2门科学、1门外语、历史或地理科目成绩获得A*~C等级的比例,目的是让更多学生选修科学和外语。2012年,时任教育大臣迈克尔·戈夫(Michael Gove)提议在英格兰地区推出英国文凭证书(EBC),遭到教师协会和议员的激烈批评后于2013年宣布取消,但全面深化GCSE改革最终被提上议事日程。[4]

注释:

①模块考试统一量表分数由原始分转换而来,用于表示考生的模块测试成绩。因为考生参加各模块考试时间不同,每年试题和受控评价难度有细微差别,不同模块相同原始分数所代表的成就水平并不等值,统一量表分数能够确保成就水平相当的原始分数折算为最终等级分时等值。

②内部评价是GCSE科目评价的重要特色,1988~2009年采用课程作业方式,2009年以来采用受控评价方式,受控评价是授课教师监管的内部评价。目前,绝大多数GCSE评价除了考试机构组织的笔试外还有受控评价,二者按一定比例折合为最终等级分。根据科目性质,受控评价按0%、25%和60%三种比例计入总评,相应地在任务布置、任务完成和任务评分三个步骤中有低级、中级和高级不同层次的监管,高级监管条件下任务布置由考试机构负责,任务完成过程有人监督,考试机构的审核官有权更改教师评分以符合国家标准。

③地板效应指在分卷模式下学业水平偏低的考生错误地选择高级卷参评,可能因无法达到高级卷最低评分要求而不能获得任何等级分。

④天花板效应指在分卷模式下学业水平较高的考生错误地选择基础卷参评,可能因基础卷最高等级限制而无法展现最高水平。

⑤综观考试指综合两个或更多模块进行一次性评价,帮助学生在不同模块之间建立联系,提高学生参与度,促使教师采用整体方法进行模块教学,避免课程碎片化和离散化。

参考文献:

[1]Ofqual.GCSE Reform Consultation June 2013[EB/OL].https://www.gov.uk/government/consultations/gcse-reform-consultation-june-2013,2017-04-16.

[2]Department for Education.Statistical First Release 2013[EB/0L].https://www.gov.uk/government/uploads/system/uploads/attachment_data/file/251184/SFR40_2013_FINALv2.pdf,2017-04-16.

[3]Department for Education. Publications: All Consultations[EB/OL].https://www.gov.uk/government/publications?departments%5B%5D=all&from_ date=&keywords=GCSE&official_document_status=all&page=2&publication_filter_option=consultations& to_date=&topics%5B%5D=all,2017-02-16.

[4]Wikimedia Foundation. English Baccalaureate[EB/OL].http://en.wikipedia.org/wiki/English_Baccalaureate, 2017-04-16.

编辑 朱婷婷 校对 许方舟endprint