刘 骥 张 晋
党的二十大报告明确提出“加快建设教育强国、办好人民满意的教育”,将教育强国建设事业放在历史性的战略位置。在中共中央政治局第五次集体学习中,习近平总书记聚焦教育强国建设,强调“要坚持把高质量发展作为各级各类教育的生命线,建设高质量教育体系”,为我国新时代教育事业改革发展指明了战略方向。[1]这一背景下,如何聚焦教育质量问题找差距、补短板、强弱项,有效统筹资源推动教育优质均衡高质量发展,成为新时代新征程教育改革的重要议题。大规模学业测评作为教育质量监测的重要内容,一方面能引导社会树立正确的教育质量观、修正教育发展方向,发挥了“指挥棒”的导向作用。另一方面可通过量化评估学生在教育中获得的知识、技能与能力反映当前教育教学状况,为国家了解与改进教育质量提供依据,发挥了“体检仪”的诊断作用。[2]以大规模学业测评系统性引导、诊断与改进教育发展,对于前瞻布局我国教育发展方向、建设高质量教育体系与建设教育强国具有重要意义。据此本文基于大规模教育测评如何助力教育高质量发展的现实问题,对大规模学业测评的国内外经验与发展趋势进行剖析,以回应教育强国背景下加快建设高质量教育发展体系的现实需求。
大规模学业测评产生反映了人力资本时代以人才与科技为代表的综合国力竞争对教育质量提升的需求,是世界各国逐渐重视教育质量与追求教育变革共同推动的结果。第二次世界大战以后,全球经济在经历了短暂的经济复苏与快速发展后再次陷入发展瓶颈。各国逐渐发现高额物质资本投入面临着边际递减效应,难以满足国家综合国力发展的需要,而由人力资本投入所推动的人才与科技发展在国际竞争中的地位和作用愈加突显,开始呈现以“物”立国向以“人”强国转变的发展趋势。由此,教育与人才科技发展的重要关联得到各国重视,其纷纷将教育视为强国发展的重要支撑,掀起了以教育质量推动综合国力提升的改革浪潮。这一背景下,大规模学业测评作为深入了解教育发展现状与支撑教育决策服务的重要工具应运而生。
随着“二战”后重建工作的快速推进,世界各国希望以更快发展速度回应民众对生活质量提高与国家实力增长的企盼。而由于基本工业化推进速度较快,欧洲国家较早发现由物质资本投入边际收益递减导致的经济增长乏力问题。这一背景下,教育作为国家发展重要支撑的功能开始进入到欧洲各国政策革新视野。而面对科研成本的不断提升,单个国家已很难维系大规模教育质量研究所需的巨额开支,这进一步加快了欧洲各国开展更具系统性与组织性的国际科研合作进程,以实现其利用较低成本提升国家发展能力的目标。[3]因此,1958 年起英国、法国、比利时、芬兰等12 个国家联合开启了对大规模学业测评的研究。同年在位于德国汉堡市的联合国教科文组织教育研究所(UNESCO Institute for Education)内,由教育心理学家与社会学家组成的各国核心研讨小组初步确立了以某一年级毕业率衡量整体教育质量的早期监测思路。[4]完成测评设计的基础上,1959 年这些国家在国际教育成就评价协会(IEA)的组织下,发起了首次大规模学业测评。该项研究以参测国家的9918 名13 岁学生为样本,通过衡量其在数学、阅读、地理、科学与非语言能力(non-verbal ability)共五个领域的表现研判教育发展状况,其测评结果由哥伦比亚大学福谢(Foshay)教授编撰成《十二国十三岁儿童的教育成就》(Educational Achievements of Thirteen-year-olds in Twelve Countries)研究报告。[5]1964 年,IEA 进一步就大规模学业测评实施方法进行完善,在完整提出测量问卷、态度量表与研究方案的基础上,聚焦数学这一同科学研究与国家发展息息相关的基础科目,开展“首次国际数学研究”(First International Mathematics Study)项目。这次测评的实施不仅再次证明大规模学业测评促进教育发展的可行性,更标志着以大规模学业测评提升教育质量、增强国家综合实力理念的确立。
20 世纪60 年代末,美国在多重因素叠加推动下也加入利用大规模学业测评提升综合国力的模式探索中。具体而言,美国开发大规模学业测评项目主要有三方面原因。一是在可行性验证方面,欧洲多国的实践经历证明了大规模学业测评促进教育发展的方案可行,为美国开展测评活动提供了基本经验借鉴。二是在综合国力提升方面,自1957 年以来美国与前苏联争霸的愈演愈烈加剧了美国在综合国力竞争中的焦虑,使其意识到提升人才培养与科技研究的能力迫在眉睫,并将教育提升到国家安全高度,期望通过教育发展推动国家综合实力快速提升。[6]因此,美国于1985 年出台《国防教育法案》(National Defense Education Act),提出加大国家对教育领域的财政投入,并开启了针对教育质量问题的改革。三是在社会向心力凝聚方面,1965 年时任美国总统林登·约翰逊(Lyndon Johnson)发起“面向贫困的战争”(War On Poverty),并将教育作为这场“脱贫攻坚”的支柱性环节。在同年颁布的《初等和中等教育法案》(Elementary and Secondary Education Act)中,其核心部分的第一条款便是“改进低收入家庭学生学业成就项目”,突出强调了教育质量改进对解决深层次贫困问题、缓解社会矛盾、提高社会凝聚力的重要推动作用。[7]这一背景下,美国于1969年经由“教育评价之父”拉尔夫·泰勒(Ralph Tyler)的指导,开展了旨在对全美基础教育阶段学生学业成绩进行长期连续评估的“国家教育进展评估”(NAEP)项目。[8]NAEP 共有主评估、长期趋势评估、州评估与实验性城市地区评估四类模式,以9 岁、13 岁和17 岁学生为测评样本,着重关注了全美中小学生阅读、数学、科学等学科的学术表现与发展趋势分析,被称为美国教育发展的“国家成绩单”(The Nation’s Report Card)。而后进入20 世纪80 年代,随着基于标准的教育改革运动从美国兴起并迅速席卷全球,以教育质量提高促进国家现代化发展的模式逐渐拓展到欧洲与东亚地区的发达国家中。在欧洲地区,以1988 年英国《教育改革法案》与1989 年法国《教育指导法》为代表,多国相继通过教育改革法案的方式调整核心课程结构、完善质量测评标准,从制度层面推动了国家测评体系的建立。[9]在东亚地区,日本和韩国以NAEP 为范本,建立了日本全国学力调查(NAAA)与韩国国家教育成就评估(NAEA),从实践层面推动了国家测评体系的发展。[10]由此,大规模学业测评从国家综合实力与凝聚社会向心力两条路径促进高质量的现代化的模式得以确立。
在20 世纪90 年代冷战结束与全球化逐渐推进的背景下,以大规模学业测评推动综合国力发展的模式在国际组织的推动下向全球范围拓展。1990 年世界全民教育大会(World Conference for Education for All)提出全民教育思想并动员各国为实现全民教育目标采取行动,成为发展中国家开展大规模学业测评的直接推动力量。受全民教育目标的驱动,联合国教科文组织(UNESCO)与联合国儿童基金会(UNICEF)在1992年共同实施了学习成果监测项目(Monitoring Learning Achievement Project),其主要目的是协助发展中国家建立本国的学业测评体系,用以监测其基础教育发展状况、为教育政策的制定与完善提供循证依据与技术支持。为了帮助发展中国家实现全民教育的目标,1992年联合国教科文组织(UNESCO)同联合国儿童基金会(UNICEF)共同实施了学习成果监测项目(Monitoring Learning Achievement Project),首要目标是帮助发展中国家建立本国的学业测评体系,用以监测本国基础教育质量、为教育政策的制定与改进提供分析工具与数据。该项目通过测评学生受教育四年后的识字、算术与生活技能等基本学习能力,并结合学生所处的家庭环境、社会背景等因素综合分析国家教育质量发展水平,共覆盖了非洲、亚洲、拉丁美洲等地共47 个国家,帮助约一半的非洲国家完成了首次大规模学业测评。[11]除此之外,1992 年经济合作与发展组织(OECD,简称经合组织)建立了跨国教育指标与评价项目,并在该项目的基础上出版了名为《教育概览:经合组织指标》(Education at a Glance:OECD Indicators)的教育统计报告,提出了一套较为完整的国际教育质量指标体系,也加速推动了新一轮具有国际可比性的大规模学业测评项目的出现。[12]1995 年,IEA 再次跨国组织大规模学业测评活动,重新开展了国际数学和科学趋势研究(TIMSS) ,固定以4 年为周期对4 年级和8 年级学生的学习状况进行测评。1997 年,经合组织正式启动国际学生评估项目(PISA),该项目自2000 年起以3 年为一周期评估15 岁学生在阅读、数学和科学等领域学习结果,并通过可视化的综合成绩与国际排名展现各国教育发展现状与潜力。目前已有全球逾90 余经济体、超过300 余万学生参与其中。随着国际大规模学业测评项目在全球范围内拓展,各国逐渐对优质教育促进人类进步的方案达成全球共识,促进教育改革、提升教育质量等多项议题进入国际社会的议事日程。
从发展轨迹上看,我国对教育质量的关注与国家不同阶段的战略进程相伴相生,始终围绕“为谁培养人、培养什么人、怎样培养人”的教育根本问题,积极开展教育全过程的质量保障模式探索。新中国成立伊始,国家便以人民发展为根本大力推动教育改革,要求“有计划地、有步骤地改革旧的教育制度”与“有计划地、有步骤地实行普及教育”。[13]伴随着新中国教育体系的不断完善,以保障教育质量为目的的教育督导被列进教育事业发展的战略谋划中,肩负起推进国家教育制度建设、促进教育全方位发展的重要使命。[14]这一时期,教育质量观依托教育督导实践逐渐萌芽,为我国陆续探索以教育督导、教育监测和全过程质量保障助力强国建设做了铺垫。自改革开放以来,我国改善教育质量的探索历程可划分为三阶段。
自改革开放到新世纪之初,我国依托于教育督导活动开展输入型教育质量保障的实践探索。十一届三中全会以来,以体制改革为特征的社会改革推动了中国社会的现代化进程,教育与国家发展的关系也由此进入到崭新的历史阶段。这一时期,邓小平指出教育是国家现代化建设的重要人力基础,着重强调教育在促进科技发展与开展社会主义现代化建设方面的基础性、长期性作用。[15]为满足国家培养高质量人才的需要,国务院于1985 年颁布《关于第七个五年计划的报告》,指出“要增强教育事业的管理,逐步建立系统性的教育评估和监督制度”,明晰了教育督导在我国教育发展的重要地位。[16]在20世纪90年代初,国家颁布《教育督导暂行规定》,首次以出台法规性文件的方式明确提出教育督导制,并规定“教育督导的任务是:保证国家有关教育的方针、政策、法规的贯彻执行和教育目标的实现”,标示着教育督导步入法制化轨道。[17]在此基础上,1992 年《中华人民共和国义务教育法实施细则》提出“县级以上政府应当建立对实施义务教育工作进行监督、指导、检查的制度”。[18]随着教育督导制度的发展完善,以测评引领教育质量发展的初步实践也随之出现。2001 年,国家教育督导团下发《关于加强基础教育督导工作的意见》,规定“建立适应素质教育要求的督导评估机制、保证素质教育顺利实施”,开始在全国范围内选取若干市县部署学业测评实践活动。[19]2002 年教育部正式开始“全国义务教育监测项目”,对我国60个城市义务教育发展现状、教师素质、学校环境等事关教育质量提升的关键因素实施了评估。同年,教育部工作计划将加强教育监测管理独立成项,提出“建立新的规划监测指标体系及监测软件系统”,标志我国教育质量测评活动的重心开始由教育督导到教育质量监测的转向。[20]
随着教育质量评价制度的体系化与组织实施的规范化发展,我国以教育质量监测为核心开启了过程型与结果型教育质量保障的探索。进入新世纪,世界各国都面临着科技进步日新月异、知识经济初现端倪、国际竞争日趋激烈等重大变化,为回应时代发展对人才质量提出的更高要求,我国实施了以课程改革为核心的教育改革。而随着新课改的施行,加强监控教师课程教学及学生学习品质的作用也日益突显,教育质量监测活动与之相伴而生。2004 年国务院印发《2003—2007 年教育振兴行动计划》提出“深化基础教育课程改革。建立国家和省、市两级新课程的跟踪、监测、评估、反馈机制,加强对基础教育质量的监测”,开启我国从国内与国际两方面探索完善大规模学业测评体系的进程。[21]在国内探索方面,2007 年教育部基础教育质量监测中心设立,同期开发推进了覆盖31 个省级行政区域及新疆生产建设兵团的国家教育质量监测项目(NAEQ)。[22]NAEQ 以一年为周期开展了八轮学业测评,主要关注我国义务教育阶段的学生在数学、科学、英语、体育、心理健康等方面的表现。在八年的测评实践中,我国逐渐掌握规范的数据采集技术和实施流程,形成体系化与全面化的测评方案。例如江苏省、浙江省台州市、上海普陀区等地先后成立教育质量监测机构,涵盖国家、省、市、区县的四级学业测评网络逐步建立,成为国家大规模学业测评体系化发展的重要组织保障基础。[23]在与国际同行的积极交流上,自2009 年上海首次参与PISA 测试以来,我国实现了参测区域拓展与测评技术发展两方面提升,逐渐实现教育测评工作与国际发展前沿接轨。其一,我国实现了参测区域广度与深度的双重拓展。一方面,正式参与国际大规模学业测试的区域由上海一地拓展至广东、浙江、苏州、济南等七省市;另一方面,测评范围从城市深入到乡村,覆盖乡村、小镇、镇、城市、特大城市五类样本群体。[24]其二,我国不断深化学习对潜在特质理论为主的现代心理测评理论,强化基于在地化视野的数据分析能力。
党的十八大以来,以习近平同志为核心的党中央立足中华民族伟大复兴战略全局和世界百年未有之大变局,加快教育高质量发展、推进教育现代化、迈向教育强国、以举国之力办好人民满意的教育,我国教育发展的重点也进入到由外延向内涵发展转变、从重视规模到关注质量发展的新阶段。而教育高质量发展的质量意涵是一个逐步拓展、不断深化的过程性概念,原有强调外部质量保障与资源要素投入的教育质量管理显然已无法适应这一发展要求。[25]由此国家提出将质量文化作为持续提升教育质量的内生动力,即强调持续优化全要素全过程全方位的质量保障体系,推进以提高人才培养质量和能力为核心的质量文化建设。[26]在质量文化建设的影响下,大规模学业测评也聚焦于以学生为核心的核心质量价值,在组织制度、评价理念与实施方案三方面不断完善全过程教育质量保障方案。在组织制度方面,《国家义务教育质量监测方案》(以下简称《方案》)的出台对我国学业测评活动进行了系统性部署。具体而言,《方案》明确监测工作以引导树立正确教育质量观、扭转升学率作为教育评价的唯一标准为根本目的,将语文、数学、科学、体育、艺术、德育等六大学科领域及影响学业水平的相关因素作为监测的重点,阐明了由国家统筹指导、各地政府督导单位负责实施的基本程序,并对监测对象、评价周期与样本选取等制定详细的实施章程。[27]在评价理念方面,2020 年10月印发的《深化新时代教育评价改革总体方案》明确指出要改进结果评价、强化过程评价、探索增值评价、健全综合评价,完善教育评价的科学性、专业性与客观性,着重强调了全过程评价对于提升教育质量的指导意义。[28]在实施方案方面,2021 年9 月教育部印发了《国家义务教育质量监测方案(2021 年修订版)》,突出测评实施的过程性与动态性特征,[29]对于测评过程性而言,规定学业测评以三年为周期追踪教育质量的变化过程,强调对学生发展全过程的测量、跟踪和记录;对于测评动态性而言,测评周期内每年轮换测试科目,动态关注学生认知和非认知能力的变化情况,形成综合素质评价体系。
基于国内外大规模学业测评发展经验的分析,可以看到大规模学业测评与时代、国家发展的需要紧密结合。一方面,国际大规模学业测评以提高教育质量为首要目的,通过增强国家综合实力与凝聚社会向心力两个途径来推动高质量的现代化。另一方面,我国大规模学业测评聚焦于提高人才培养质量,通过教育督导、质量监测与全过程质量保障促进教育强国建设。通过梳理国际大规模学业测评多年来的实践经验发现,大致呈现三个新兴趋势。
在数字信息技术为社会带来全方位深刻变革的背景下,人们生活方式、学习方式与认知方式的变革都不断推动着教育领域的革新与转变。教育部等六部门《关于推进教育新型基础设施建设构建高质量教育支撑体系的指导意见》提出,“深化教育督导信息化,实现大数据支持下的实时监测和精准评估”。[30]因此,大规模学业测评的数字化发展一方面顺应了社会发展的形势,另一方面也承接了教育数字变革的需求。目前,国际大规模测评项目正呈现由纸笔测评(Paper-Based Assessment)形式向数字化测评(Digitally-Based Assessment)形式的转变,其可从三个方向推动测评活动的高质量发展。[31]第一,数字化测评支持以文本图像、音频视频等多模态非结构化测评方式开展,这一功能为部分患有听力、视力障碍的学生群体参与测试提供便利条件,从而拓展参测群体的广度。例如巴西的研究者发现,使用数字化辅助技术(Assistive Technologies)可有效提升测评的公平性。[32]第二,数字化测评增强了测试者与试题的互动程度,为多元化测评题目的开发提供基础。相较传统的纸笔测试,数字化测评可将人的认知思维、情感理解与抽象推理能力同计算机大规模数据处理功能相结合,不断拓展测评题目的考察维度与多元开放程度,进而实现对个体高阶能力的准确评估。[33]例如拖放(Drag-and-drop)题目需将选择源拖拽到相应目标中做出回答,对学生信息分类、排序、匹配等综合能力进行考察,对比纸笔测试中的多选题目,其不仅有效减少由随机猜测带来的测评结果偏误,还进一步通过增强题目趣味性提高了学生应答的专注力。[34]第三,计算机测评可动态采集密集型过程数据,记录与分析个体在真实情境中解决问题的思维过程与态度演变轨迹,使得对学生复杂能力与高阶技能的测评成为可能。在NAEP 的写作测试中,数字测评设备可通过实时采集学生测试过程数据绘制其状态图谱,直观反映了学生在写作过程中的状态,为分析学生写作能力、应变能力提供数据支撑。[35]
教育本身是一项具有高度异质性的活动,学生个体差异、教师教学差异与学校管理差异等都是影响教育效果的重要因素。如何在教育测评中观察到客观存在的异质性,并针对其测评结果进行针对性分析、为学生提供个性化教育方案,成为提高大规模学业测试结果利用效率、提高教育决策有效性、促进学生全面发展的重要问题。《教育部关于加强新时代教育管理信息化工作的通知》明确提出,“充分发挥数据的作用,推动教育科学决策、精准管理和个性服务”。[36]因此在未来发展中,对于个体发展的精准决策反馈成为大规模学业测评的重要探索点,其主要可从三个方向推动测评结果的精准分析。其一,在测评数据识别过程中总结归纳出不同学生群体的共性特征,并以此为基础对样本进行分层(Stratify),以便决策者能更好地了解不同学生特征并制定针对性学习方案。例如研究者使用深度信念网络(Deep Belief Network)算法构建的智慧教育测评方案,根据学生课程学习情况数据生成学生特征数据,并将学生偏好和课程特征进行匹配,以实现教学内容的智能推荐。[37]其二,在测评建模分析过程中应用集成方法(Ensemble Method)构综合分析大模型,提高整体预测性能。集成方法的核心思路是将不同算法或同一算法在不同层次的数据子集上训练出的多个模型组合起来,可构造涵盖考察教育学、心理学、社会学、脑科学等多学科知识的综合分析模型,通过对测评数据的多角度理解提高分析准确性。[38]有研究发现,采用集成方法建立的大模型在预测学生学业表现时,其精确度比最佳单一预测模型高10%。[39]其三,在测评方案生成中增进其动态调节能力,提升决策的时效性。例如增量学习(Incremental Learning)算法可根据新数据和旧数据的权重进行调整,在不破坏决策系统原有分析结构的基础上,继续学习新数据特征以提高测评分析的精准度。在已有测评实践中,研究者通过基于增量学习模型动态捕捉学生在课堂中互动行为,并结合其历史学习数据对其注意力、计算思维等能力进行实时评估,并动态修正学生成绩的预测结果,为教师及时调整授课方案提供有效参考。[40]
随着现代社会对人才的需求日益复杂多样,追求单一学科的深度知识已经难以完全满足社会发展对学生提出的现实需求。而超学科(Supra-disciplinary)测评聚焦学生的可迁移能力(Transferability),强调推动学生思维能力、创新能力、团队协作能力等综合素养的全面发展,使其能够灵活应对在社会生活中遇到的新情景与新问题。中共中央、国务院印发的《关于深化教育教学改革全面提高义务教育质量的意见》提出,“建立以发展素质教育为导向的科学评价体系”,将综合素养作为教育评价主要内容。[41]因此,超越单一学科而聚焦于学生发展需要的综合能力,是未来大规模学业测评的重要探索方向。具体而言,该趋势近年来已在多数大规模学业测评项目的设计理念与框架开发两方面得以突显。在设计理念方面,逐渐重视学生整合、运用知识技能应对现实挑战的高阶能力,减弱对特定学科内容与复杂应试技巧的考察。高阶发展能力是以高层次认知水平为核心、应对劣构问题或繁复问题的心理特征,包含理性判断、制定策略与创造性思维等诸多要素的综合能力概念,突出表征为高水平知识习得与迁移能力。[42]以高阶能力为重点的测评并非关注学生能否掌握学校课程知识,而是侧重其是否具备应对现实生活挑战的能力。例如PISA 以素养为核心概念开发其测评内容与框架,评估学生运用所学知识技能理解问题与解决问题的能力发展情况。[43]在框架开发方面,针对不同能力考察方向的测评框架以模块化形式呈现,通过增强测评内容的时效性,更好发挥学业测评对人才培养“指挥棒”的作用。与固定化测评内容项目相比,模块化测评框架可通过添加或去除部分测评框架模块,实现对测试内容与结构的灵活调整,可增强测评内容的拓展性,为更新测评内容提供便利条件。例如PISA 近年来相继以合作问题解决(Collaborative Problem-solving)、全球胜任力(Global Competence)、创造性思维(Creative Thinking)为主题开发了对应的测试框架,并在每轮测试中进行内容更新迭代,有效顺应社会发展对人才需求的变化。
过去半个多世纪以来,大规模学业测评在世界各国教育改革实践的推动下快速发展,其衡量各国教育发展水平、评判各项政策有效性、推进各层各类教育改革、赋能教育强国建设的作用日益突显。回溯国际与本土大规模学业测评发展历程,尽管二者在不同发展阶段对教育质量的监测理念、关注重点与测评方式等各方面存在着一定差异,但其测评活动的发展既承托了政治、经济与社会发展对教育强国的需求,又顺应了教育发展特别是高质量人才培养的逻辑。教育评价事关教育发展方向,有什么样的评价指挥棒,就有什么样的办学导向。强化教育评价改革的价值性、系统性与创新性是中国式现代化的重要内容之一,也是加快构建高质量教育体系的奠基性工程。[44]中共中央、国务院印发的《中国教育现代化2035》提出“构建德智体美劳全面培养的教育体系和科学的评价体系,全面落实立德树人根本任务”。[45]党的二十大报告中明确指出要完善学校管理和教育评价体系,深化教育领域综合改革。由此可见,在国际竞争日益激烈的背景下,如何以教育高质量发展提高人才培养质量,特别是发挥教育评价在改善教育质量、提升人才培养效果中发挥的积极作用,是建设教育强国历史新征程上教育工作者面前的必答题。聚焦教育强国背景下教育高质量发展的战略需求,我国大规模学业测评的未来发展涵盖三个优先路向。
一是要加快全过程质量监测与保障机制的现代化。教育本身是动态地激发人内在天赋与潜能的过程,坚持以全过程质量监测为中心的测评理念,既回应了教育的过程属性与过程价值,又体现了对教育中日益发展的个体的充分尊重。[46]具体在测评设计上,要将立德树人作为根本标准,围绕德、智、体、美、劳五育并举开展全过程教育质量监测,追溯筛选在校学习、校外活动、行为习惯、心理状况等对学生全面发展具有重要影响的过程性评价要素,突出不同时期学生成长目标的阶段性。在测评实施上,一方面要从纵向上关注学生发展全过程,对学生成长背景、教育资源投入、实施过程与学习结果进行质量测评。另一方面则在横向上重视各教育主体对教育质量的影响,将包括学生、教师、学校、家庭、社会等在内的多方参与者纳入测评体系,通过综合采集教育发展信息充分了解教育体系中存在的问题与挑战,为优化教育策略、提高教育质量提供帮助。在测评保障上,不仅要建立与全过程质量监测相适配的财政投入制度,保障全过程教育质量监测的顺利实施,而且要进一步完善包括监测的时间、步骤、方法等在内的全过程教育质量监测的实施程序,为全过程教育质量提供组织保障。
二是要加强有关大规模学业测评的基础研究力度。目前我国已确立了大规模学业测评的体系架构,并初步摸索出了一套适用于我国国情的测评程序与方法,进一步发展方向便是基于新时代发展要求提高监测的专业化程度,具体包括了开发测量工具、建立测评模型与培养研究队伍等方面。首先,高效的测量工具是提升教育质量监测效率的重要支撑。面对未来国家与社会发展对人才培养要求的快速演变,应充分关注现代测评技术理论发展,着力开发学业测试、调查问卷、选用匹配等立体评价工具,不断丰富教育质量测量工具箱以适应未来教育变化。其次,构建监测分析模型是利用测评数据发现与改进教育问题的重要方法。《教育部关于加强新时代教育管理信息化工作的通知》明确提出,“建立教育大数据分析模型,推进教育管理精准化和服务个性化水平全面提升”。[47]由此应从模型建立、模型运用与问题分析等各方面精准发力,充分挖掘测评数据所反映的教育问题,为教育高质量发展提供支撑。推动大规模学业测评体系的持续发展需要教育测评专业人员的支撑。当前我国教育测量相关专业的人才培养存在课程设置少、师资力量少、培养人数少的问题,难以满足各地区学业测评的发展需要。[48]因此加大教育测量人才培养与学科建设力度,为我国大规模学业测评体系的发展提供人才保障。
三是发挥数字技术应用对大规模学业测评高质量发展的积极赋能作用。从发展的角度看,数字技术在推动大规模学业测评方法创新、提升测评效率方面具有天然优势,是塑造教育质量监测新优势、构造教育发展新形态的关键路径。在教育数字化转型快速推进的背景下,基于数字技术的信息收集、管理与分析创新将成为改进大规模学业测评效率的重要内容。在信息收集方面,精准、高效的数据采集离不开数字化设备的底层支持,要加快部署改造物联网关、信息传感器等教育数据采集智能设备,打造智能化的大规模学业测评服务系统,为逐步实现过程性、实时性教育质量监测提供便利条件。在信息管理方面,通过建设与完善统一的数字化管理平台实现测评数据的整合融通,打破各级监测平台间数据壁垒的现实难题。尽管我国已推进建设统一的教育数据管理平台,但目前仍存在数据可比性不足、共享程度不够的问题。[49]因此要完善多来源测评数据共享标准与清洗规则管理,解决不同测评口径与跨层级数据的可比性问题。在信息分析方面,人工智能算法具备多维数据挖掘、复杂问题分析、个性化政策制定与决策方案改进功能,可通过深度解析测评数据为教育发展提供询证支持。[50]应利用人工智能算法提升测评数据分析的精准化程度,探索以技术革新为重要驱动力的高质量教育决策与实践转化路径。