朱 颖
《深化新时代教育评价改革总体方案》发布以来,全面贯彻党的教育方针、破除“五唯”顽瘴痼疾、加快推进教育现代化、建设教育强国,已经成为社会共识。以实现新时代教育评价改革为目标愿境,上海市教育考试院于2021 年11 月25 日召开了教育评价国际研讨会。来自美国教育测量服务中心、美国大学入学考试中心、英国剑桥大学考评院、澳大利亚维多利亚州教育委员会等国际著名的专业教育评价机构,以及教育部考试中心和国内相关领域的专家学者,以“评价愿境中的教育考试机构专业化之路”为主题,围绕教育评价愿景与考试机构专业发展、教育考试机构的专业建设路径、教育考试机构专业发展之技术、教育考试机构专业发展之数字信息化建设等专题展开深入研讨。
“十四五”时期,是教育考试事业深化新时代教育评价改革、建设中国特色现代教育考试制度、提升教育考试治理体系和治理能力现代化的关键时期。上海市教育委员会副主任倪闽景指出,我国的高考制度从1952 年发展至今,考生人数已经从最初的每年5 万人到如今每年突破千万人。随着时代的变迁,当前我国教育考试机构面临着三大挑战:一是考试规模不断扩大以及由此衍生的考试形式、考试组织变化带来的挑战;二是基于德、智、体、美、劳全面发展的要求,学生综合素质评价改革带来的挑战;三是来自技术领域的挑战,人工智能、大数据的飞速发展,既给考试带来许多新机遇,也带来新的需求和挑战。
当前,国内外形势发生巨大变化,我国的教育格局也在悄然发生改变。党的十八届三中全会以来,国家对于深化教育领域改革做出了一系列重要部署,改革举措和要求覆盖教育各环节,深入教育各层面,旨在系统推进育人方式变革。教育评价在系统变革中发挥着指挥棒的作用,是新时代实现我国教育高质量发展的关键要素。教育部考试中心党委常务副书记于涵的主题报告,深入剖析考试机构在科研创新、人才队伍、信息技术、治理能力等方面普遍存在的与新形势要求不相适应的状况,并分析解读教育部考试中心“十四五”规划编制的时代背景、文本要点以及实施举措。报告指出,教育部考试中心“十四五”规划立足于新发展阶段与现实国情,对标国家“十四五”规划和教育“十四五”规划,以建设中国特色考试评价模式为未来走向,体现从专业化到现代化的必然趋势。在目标任务、框架结构、内容要点和主要特征等方面,教育部考试中心“十四五”规划以高质量发展理念贯穿始终,聚焦深化新时代教育考试改革任务,突出体现考试机构进入新发展阶段的特征和时代要求。
教育考试机构肩负着立德树人、为党育人、为国选才的重要使命,承担着特殊而重要的职能。为此,上海市教育考试院原院长郑方贤从专业机构的主要职能、人员构成、组织架构的角度分析其工作运行机制,认为考试机构编制事业发展规划有利于明确目标定位、制定专业领域评价标准、集聚资源配置,并为此探讨操作路径。由此他进一步阐释编制事业发展规划的内在动机在于:通过编制规划更深层次唤醒考试机构的专业性,唤醒专业领域的工作目标。对标新时代国家教育改革要求,郑方贤指出,要切实发挥好教育评价的指挥棒作用,就必须以国家的社会主义建设者和接班人的教育方向为指引,与德智体美劳全面发展的要求相匹配。“十三五”期间,上海市教育考试院结合高考综合改革试点已经进行先期探索,坚持评价引领,考试机构从考试组织向考试评价的转型取得了突破。进入“十四五”,面对国家新课标、新课程、新教材启动实施的新形势,结合上海城市数字化转型的规划目标,上海市教育考试院将进一步从提升考试开发质量、以数字化赋能考试组织、拓展并提升评价工作这三个方面着力,助力政府教育质量控制和教与学的双向促进。
天津市教育招生考试院院长徐广宇阐释了“十四五”时期天津招考事业改革的总体思路和重点任务。在分析国内外环境、教育形势以及科技发展状况的基础上,他提出,要以考试招生制度改革为动力,以专业化能力和信息技术为支撑,建设服务型、专业化的高水平招生考试与教育评价机构。天津作为第二批新高考改革试点省市,将贯彻新发展理念,系统推进考试招生制度改革、优化考试内容和形式、探索评价服务新面向、完善信息技术支撑体系、开创终身学习发展新局面等五大任务,积极发挥考试招生的引导作用,推动选人育人取得新突破。
考试机构的专业化建设需要发挥专业力量,创新评价工具,运用现代信息技术等手段,不断完善评价结果运用办法,发挥评价的导向、鉴定、诊断、调控和改进等作用。来自高校、考试机构的科研人员和教育界同行,以问题为导向,针对教育考试机构的专业建设路径,从不同的视角展开了实践研究。
根据国家教育评价改革总体方案的要求,深化考试招生制度改革,需要构建引导学生德智体美劳全面发展的考试内容体系,改变固化的试题形式,增强试题开放性,减少死记硬背式试题,这就对考试命题和评价提出了变革的要求。江西师范大学涂冬波教授,分享了心理统计与测量理论的最新研究成果及其在考试命题与评价上的应用尝试。相较于经典测量理论和项目反应理论在教育测量开发和教育数据统计上的应用,涂教授着重探讨了项目反应理论应用于数据分析的学理、方法与实践。他以主观题和客观题为例,深入分析了针对混合格式试题开发的项目反应树模型,通过充分利用所有小题信息,结构观察反应过程,提升试题评析的精准度,以发挥对考试命题改革的指引作用。
新高考改革促进了考试形式和考试组织方式的变化,而这些变化可能会引起学生在考试作答及考试心理方面的变化。为了让考试的变化更符合学生的内在需求,让这些变化成为考试机构专业发展的内在支撑,上海市教育考试院直面工作挑战,以科研引领提升工作成效。该院徐雯老师针对高考英语听力测试面临的困境,介绍了研究团队在口语机考的基础上进一步探索高考英语听力机考的实践研究。为论证机考形式是否会对考生的答题表现产生负面影响,上海市教育考试院高考英语学科组设置锚题,比较参与机考与纸笔考试两组考生的能力差异,并将不同考生的考试结果映射到同一量表上,展示两组考生的表现差异。数据分析结果表明,机考并未对考生答题产生负面影响。同时问卷调查的结果表明,大多数学生参加过各种形式的机考,对于计算机使用的熟练程度很有信心。
上海市教育考试院研究团队在试测和调研的基础上,进一步探讨了一考多卷的解决方案。该院信息中心的王居儒老师分享了在学业水平合格性考试中开展机考的研究成果。他认为,面对中考和高考改革中考试批次增多、考试任务加重的新形势,机考有望成为提升考试效率的有效方式。此次机考研究项目力图在合格性六科考试的主观与客观试题中全部实现机考,并解决复杂公式录入和作图问题。研究项目以全计算机化为目标进行考试设计,同时以考位为管理单位,提供计算机录入复杂公式和作图的功能,最终实现基于多科联考与多科混排的全新机考模式。
澳大利亚维多利亚州教育委员会专家Glenroy Garden 介绍了维多利亚州在课程教学与考试测量方面的政策变迁,以及正在推进的教育改革举措,这些政策意在培养学生的韧性和同理心,并帮助建创一个良好的学校教育和测评环境。Glenroy Garden 分享的维多利亚州高等院校入学考试的混合测评方式,以及在测量领域中的学校测评、教师作用、机制流程,为我国当前中小学校改进过程性评价提供了思路。
数字技术的发展对考试机构的专业能力提出了新要求,而考评人员能否掌握数字化技术,并将其运用于试题编制、考务管理、考试评析、成绩报告等一系列具体工作中,是体现考试机构专业化能力的关键指标。来自美国教育测量服务中心(ETS)Randy 教授的报告,展示了运用数字化技术对学生作文写作行为进行分析、以数字化评估不同学生写作能力差异的相关工作。研究人员使用击键日志的数据进行分析,形成了许多研究结果。击键日志以字符、文字的形式记录学生写作过程中的按键、插入、删除或停顿等动作类型,及其持续的时间和动作的发生之处。针对数据样本,研究者组织创建了富有特征、内涵明确的7 个独立量表,分别评估学生写作的词间速度、大段流畅性、创作效率、删除编辑、跳转编辑、回删速度、段落划分等特征,以此创建评析学生写作特征的模式。研究显示,低分区考生和高分区考生的写作过程特征明显,研究者据此创建论文写作过程分析模型,并根据数据分析的结果形成论文写作的反馈报告。Randy 指出,能否掌握并运用数字化技术是考试机构专业化发展的关键因素,通过数字化技术可以更有效地实施测量,实现传统纸笔考试无法测量的评估构想,有助于将测试与学生日益增长的学习方式相结合,最终促进学生成长。
信息技术的发展促使全社会高度重视信息素养,也促进了考试机构对信息素养标准的研究。上海市教育考试院周云老师介绍,上海市教育考试院以上海市高等学校信息技术等级考试创立30周年为契机,对应信息技术的发展变革,对接上海城市数字化转型要求,展开了上海市大学生信息素养标准和评估体系研究,构建了以意识与态度、道德与安全、知识与技能、融合与创新四要素为一级指标,以基础信息素养、核心信息素养和职业信息素养三维度为一体的上海大学生信息素养评价标准体系。在此基础上,上海市教育考试院信息素养评价项目组进一步对本市高校大学生进行问卷调查与访谈,并对学生信息素养情况与学生的学习背景进行相关性分析。研究发现,理工科学生在信息问题解决方面普遍较非理工科学生具有更好的表现。根据研究结果,该项目组建议高校大学计算机课程及信息素养测评体系按照基础素养、技能应用、融合创新三大内容,构建基础阶段、初级应用、广泛应用、初步融合、深度融合和创新发展6 个水平层次的课程体系及评价标准。
2019 年,《教育部关于加强初中学业水平考试命题工作的意见》提出,试题命制既要注重考查基础知识、基本技能,还要注重考查思维过程、创新意识和分析问题、解决问题的能力;结合不同学科特点,合理设置试题结构,减少机械记忆试题和客观性试题,提高探究性、开放性、综合性试题比例,积极探索跨学科命题。[1]为此,上海提出在中考改革中设置跨学科案例试题。上海市教育考试院闪德龙老师介绍了跨学科案例分析试题的设计开发工作。跨学科案例分析试题内容涉及地理、生命科学等学科,侧重考查学生综合运用各学科知识分析和解决实际问题的能力。研究组针对课程标准缺乏、学科教学缺少交集等问题,通过专业化研发流程,从对一线教师的师资状况、教学能力、教学惯性,以及学生现状、学校支持度等方面展开调研,经过多次大规模的试测,研发制定了适合中学生的跨学科测评框架。跨学科案例测评旨在将考生置于真实的情境案例中,调动地理和生命科学的核心概念,运用相关学科的技能与方法,使学生在具体任务问题中展现出信息提取与处理、问题分析与质疑、结论阐释与创新的能力,并通过学生在试卷中的表现形成综合评价。研究团队通过专业研发流程、命题队伍建设、命题培训与实践、阅卷把控、试卷评价与教学反馈等环节,探索了考试开发的新模式,进行了专业化命题路径的有益探索。
综合素质评价是新一轮高考综合改革的重要内容,是对学生全面发展状况的观察、记录、分析,是发现和培育学生良好个性的重要手段,是深入推进素质教育的一项重要制度,有利于促进评价方式改革,转变以考试成绩为唯一标准评价学生的做法,为高校招生录取提供重要参考。[2]2019年,《国务院办公厅关于新时代推进普通高中育人方式改革的指导意见》进一步提出完善综合素质评价的要求,把综合素质评价作为发展素质教育、转变育人方式的重要制度,要求强化其对促进学生全面发展的重要导向作用。[3]上海市宝山区教育局局长张治梳理了古今中外教育评价的发展脉络,并指出教育评价当前面临的时代挑战主要表现为:教育目标多元性和教育评价狭隘性的矛盾,教育目标的对立冲突造成的评价取舍矛盾,以及教育评价的个性化诉求与评价的统一性的矛盾等。面对新时代的挑战,回应国家教育评价改革要求,他提出,下一代评价是基于数字画像的综合素质评价,即通过建立MIPAL五育数据模型,以学生多源多维数据为基础,运用数据分析技术生成全方位的学生数字画像,既包含了过程性描述,也包含了总结性描述,有利于促进学生全面而有个性的发展。
《深化新时代教育评价改革总体方案》提出,要充分利用信息技术,提高教育评价的科学性、专业性和客观性,鼓励评价工具、手段、方法的智能和创新。数字信息技术丰富了考试形式,变革了考试模式,为考试机构发展注入新动能。南昌市教育考试院熊彪院长以智慧招考为例,分享了南昌运用大数据、人工智能等信息技术,推动传统招考工作向智能招考转型的实践成果。他介绍,南昌信息化考试采用高集成化设计思路,建成教育考试指挥中心、数据中心机房等集群设施,推进招生考试业务与信息化深度融合,发挥智能协同效应,实现招考业务网上办、掌上办,服务考生和社会;招考数据打通信息壁垒,集聚数据优势,实现跨业务数据共享,用数据决策、服务与管理,依据学区路段、生源类别,智能实现义务教育招生录取;探索实践普通高中学业水平考试机考改革,降低考试风险,提高组考效率。面对新时代教育评价改革新要求,南昌市教育考试院在探索中高考学科信息化考试中,通过智慧考试来改进结果评价,通过教考结合探索过程评价,通过学习诊断形成增值评价,利用标准体系形成综合评价,并尝试构建以学生为中心的学业评价模型,为数据驱动评价奠定基础。
信息时代注重对学生创新能力的培养,而如何测量学生的创新性思维、批判性思维和协作解决问题的能力,是教育评价关注的重点,也是评价实践的难点。美国大学入学考试中心(ACT)的高级学习解决方案设计师Kristin Stoeffler 与大家探讨了创造性思维测评任务的设计、开发与评估的相关研究。她在比较创造思维与创造力的概念后指出,创造性思维不同于创造力,是个人创造一个非传统的、原创的或独特的想法的过程和技能。ACT 为确定技能的熟练程度,基于PISA对创造性思维框架的定义,将创造性思维框架确定为三项技能,分别为“产生多样化的想法”“产生创造性的想法”“评估和改进想法”,并提供了测试技能的相应试题。
以“产生多样化的想法”技能为例,测量注重考查学生跨领域灵活思考的能力,试题通过让学生提供不同的解决方案、撰写不同的故事想法或创造不同的方式来直观地表达想法。就现实世界中的任务而言,对该技能的测量类似通常所说的头脑风暴,侧重的是不同的想法。因此,从这个意义上说,测量关注的是试题之间差异的质量,而非数量。又如“产生创造性的想法”技能,侧重测量学生在不同领域中寻找适当创意的能力。它要求学生提供与试题任务相关的恰当回答,而这些回答是独特的、原创的或非传统的。“评估和改进想法”技能则侧重测量学生对给定想法局限性的评估能力,以及找到改进它们原创方法的能力。对原创进行改进是一种变化,且这一变化既需要保留试题任务中呈现的原始想法,又需要包含新的、具有创造性的要素。以PISA 节约用水的试题为例,考题要求学生对创新功能进行描述,以改进旨在帮助用户节约用水的一个应用程序。对学生作答进行评分主要依据他们的改进想法属于常规还是非常规。报告还分享了试题设计与开发的思路和建议,指出考查创造性思维的试题设计尤为重要,对这些试题进行优化设计有助于将技能的学习融入课堂,确保学生掌握这些技能,并提高熟练程度,以在现实世界中熟练运用来改变生活和推动经济发展。
测评与学习是携手共进的过程,将测评与学习链接起来,发挥测评对学习的正向反拨作用是考试机构专业化建设的重要内容。剑桥大学考评院Nick Saville 博士以语言测评为例,介绍了以学习为导向的测评链接的工作。他认为这项工作面临的最大挑战是如何将大规模外部测试与课堂内外进行的各种测评链接起来。在现实中,宏观层面的政策制定与微观层面学校实施之间常常是存在矛盾的,在学校层面落实政策,也许会导致各种各样的大规模测评,以及课堂实际操作的大量增加,从一般意义而言,这有可能导致负面影响。为此,Nick 以语言学习生态系统(该系统以欧洲语言共同参考框架为指南建构)为例,介绍了以学习为中心的测试系统的设计思路与方法。这个以考试、教学、学习和测评为一体的模型,始终以学习为中心,测试系统设计之初,首先考虑考试的正面反拨作用,老师、学生和学习者处于中心位置。该系统提供以学习为导向的综合性考试任务,推动学习和测评不断循环,以促进考试参与者提升认知能力。这些考试任务可以多方位使用,以支持学习者的学习,并向他们提供相应的反馈。Nick 在总结中强调指出,构建以学习为中心的测评需要依赖信息数字技术去收集、储存,并解释在这个模型中所收集到的证据。在这个过程中,教师至关重要,他们需要具备理解数据、解释数据的能力。
教育评价事关教育发展方向,有什么样的评价,就有什么样的教育。随着我国教育综合改革的深入推进,以及国家新课标、新课程、新教材的启动实施,教育评价愈发成为教育能否健康发展的关键所在。本次研讨会中,国内外招生、考试领域的专家学者立足国际视野,聚焦教育评价愿境目标,就共同关切的考试机构专业化建设议题,从不同的维度、层次和视角,分享前沿理论研究与扎根本土的实践成果,为广大招考工作者深入把握教育评价改革的核心要义、提升教育评价专业能力提供了许多参考。