基础教育质量监测评价体系的取向、结构与保障

2020-03-16 09:31

国家教育行政学院学报 2020年9期

（北京师范大学，北京 100875）

随着证据为本的决策不断深入，用以判断教育质量现状和趋势的基础教育质量监测评价工作蓬勃开展，多层次、多元化的基础教育质量监测评价体系逐渐成形。但 “检测”频率过高，监测评价异化为 “鉴别”“评比”，评价和改进 “两张皮”等现象普遍存在，反映出该体系存在价值取向仍不够明晰、结构性冲突依然存在、保障措施仍不够有力等问题。本文围绕这些问题，提出完善基础教育质量监测评价体系的思考。

一、基础教育质量监测评价体系的取向

基础教育质量监测评价体系是在一定价值观指导下，由多元的监测评价主体和机构围绕教育质量开展的不同层次和不同类别的监测评价活动所构成的整体；其横向内容包括教育督导、教育质量监测及各类针对质量开展的评价活动，纵向层级包括从国家到县级的各个层次，形成纵横交融的体系。完善该体系，首先应厘清“为什么评”、“评什么”和 “怎么评”等问题及其价值取向。

1.“为了改进”是基本价值定位

基础教育质量监测评价是生产教育质量证据的活动，但并非价值中立，其蕴含价值判断无法抛却目的和价值，判断的基本依据是国家课程标准，目的是提升教育质量，“为了改进”是其基本价值定位。

第一，“为了改进”体现了基础教育质量监测评价的教育性本质。监测评价是教育的附属性活动，需遵循教育性，抛弃机械性和控制性，强调改进。监测评价关注教育的重点和核心方面，但囿于目前的评价技术，可评价的方面往往是可视的、可比的，造成教育行为中的可呈现性和可控制性的浮躁，丢弃了教育依靠生命、润物无声的精神，[1]进而导致评价异化为简单的排队，被评价行为异化为展示。但教育是内向的，而不是外向的，从基础教育质量监测评价的教育属性上讲，教育质量监测评价也应该是内向的，需时刻面向教育改进，并在探索教育规律的同时，时刻关注受教育对象的全面发展、个性发展和可持续发展。

第二，“为了改进”是基础教育质量监测评价现代化的重要理念。美国的评价专家古巴和林肯认为以往评价中突出的问题是 “管理主义倾向”，管理者主宰和左右了评价，并避免被评价，而被评价者往往采取不合作的态度，采取各种方法获得迎合管理者需求的评价结果。[2]在这样的理念下，监测评价本身不是独立的，质量提升这一目的被边缘化。从单独的质量评价转向全面质量管理，是管理理论和实践的基本方向。监测评价从价值中立的测量和测试转向回应、协商与共同建构。“为了改进”的监测评价将管理者纳入评价过程，同时与被评价者产生更多的互动，监测评价成为利益相关方共同建构、参与教育改进的过程。

第三，“为了改进”的基础教育质量监测评价是教育评价改革的实践需求。基础教育质量监测评价的范围广，既不同于课堂教学中对学生学习开展的实时的过程性评价，也不同于筛选性、鉴别性升学考试的结果性评价，它是包括各级教育质量监测、各级各类教育督导，以及各级各类与教育质量有关的评价活动在内的多类型活动。从性质上讲，其不包含学生个体判断的属性，不包含筛选属性，而是以学校和区域为单位提供教育整体性信息。在评价方式上，集中体现了2020年6月中央全面深化改革委员会第十四次会议审议通过的《深化新时代教育评价改革总体方案》所提出的 “改进结果评价，强化过程评价，探索增值评价，健全综合评价”四类评价。以基础教育质量监测评价体系的完善带动教育质量改进和提升，引导教育质量及其评价观的改善，是教育评价改革的重要内容之一。

2.探讨质量及其原因为核心内容

“为了改进”的质量监测评价的基础性工作是清晰描述教育质量状况及其发展变化情况。基础教育质量监测评价需判断学校教育是否达到国家的要求；需明确学生是否具备了面对未来社会和国际竞争的关键能力和核心素养；需历史性地、趋势性地描述教育质量提升和改进的状况；还需明确教育优势，并找出教育真正的弱点和痛点。

“为了改进”的质量监测评价还关注如何提升教育质量，尤其是明确哪些因素是影响教育质量的关键因素。一方面，聚焦学校效能评估，本土化地探讨学校发展的关键因素，分析教育的过程性因素，揭开 “教育黑箱”，“识别不同层面的教学、课程、学习环境，以便能够直接或间接解释学生成就的差异，包括考虑背景特征（如学生能力、社会经济地位以及学习基础）对学生成就的影响”[3]，分析不同因素之间的作用；另一方面，聚焦政策和项目评估，通过追踪性、历史性描述，借以判断教育政策的有效性。同时，还需结合社会发展，系统考虑教育改革和发展的系统性问题，将布朗芬布伦纳（Bronfenbrenner）生态系统理论（Ecological systems theory）[4]中个体参与的同伴、家庭、学校等的微观系统（Microsystems）与若干个微观系统联系起来的中间系统（Mesosystems）、间接影响个体发展的教育行政等外层系统（Exosystems），以及整个社会环境及其意识形态背景等的宏观系统（Macro-systems）联系起来，围绕教育目的、培养目标开展全面考察与审视，系统地、全面地予以收集、提取各级各类信息，并且融入各级行政的判断和理解，进行全局性、方向性地判断。

3.体系具有明显的层级性

基础教育质量监测评价体系从评价主体和方式来看，并非是大一统的，是由多元主体多层级构成。目前，世界范围内大多数国家的教育质量监测与评价实行多主体责任制，即教育质量监测与评价的责任由包括国家层面、地方政府教育部门、评估和测评机构等多个责任主体共同承担。国家层面往往在政策和标准制定上承担更多职责，而在真正运用监测评价进行决策改进时，地方层面的参与往往能够更好适应本地的需求，发挥更好的提升效果，[5]体现出“不同层面的问题需分层解决”的基本思想。

我国基础教育质量监测评价体系呈现明显的层次性，形成清晰的国家、省、市、区县四个层级的纵向结构。“以证据为本”的决策日渐成为教育决策主流，监测评价结果成为决策的重要 “证据”。无论是美国、英国等发达国家，还是巴西、墨西哥等发展中国家，纷纷建立了国家教育质量监测与评价机构，成为教育智库的重要组成部分。越来越多的国家参与PISA和TIMSS为代表的国际教育质量评价项目中以进行国际比较。我国也顺应国际发展趋势，在“中央统一领导、省级政府统筹、地方分级负责”的教育管理体制、政策体系下，[6]建立教育部基础教育质量监测中心，各省、地市逐渐建立不同层级的教育质量监测机构，加之各级教育督导机构和评价机构以及众多市场参与的教育评价机构，多层次、多元化的基础教育质量监测体系逐渐成形，以丰富地、立体地反映各地、各层级基础教育的发展情况。

二、基础教育质量监测评价体系的结构张力及其平衡

教育质量的复杂性以及教育质量监测评价体系的发展性、管理性与层次性导致监测评价机构及相互关系存在一定的张力。在体系与外部机构及内部机构的横、纵向关系上实现结构的平衡，是体系稳定和健康发展的重要保障。

1.行政理性与技术理性的张力

基础教育质量监测评价体系兼容行政理性和技术理性，但二者遵循不同的行动逻辑，其本质上存在矛盾。在监测评价活动中，要集合两种力量，充分发挥二者优势，建立二者合作的机制。

首先，技术理性应容纳行政理性。监测评价活动并非完全是技术理性的，不应把政府从评价中硬性剥离出去，而是要 “纳进来”。基础教育质量监测评价环节繁多，包括确定评价目的、制定评价标准、实施评价活动、反馈和应用评价结果等。在不同环节，行政机构和专业机构交叉参与。制定评价标准等核心技术标准是政府的重要职能，但目前个别监测评价活动片面理解 “管、办、评”分离的要求，将评价活动与管理和办学孤立，在需要依靠政府把握和确定的方向性问题上职能外移，依靠专业机构自定评价标准，削弱了政府的责任意识和专业属性。监测评价需将利益相关方都纳入进来，共同分担教育质量提升责任。政府侧重于监测目标的制定和监测方法的管理，如颁布相关法规、制定相应标准、选择监测机构，并根据监测结果进行宏观调控。

其次，技术理性不应依附于行政理性，在监测评价活动中应保持各自独立。基础教育质量监测与评价的实施机构除了督导机构之外，主要是公益类事业单位。一些单位仍然承担大量的行政和支持服务职能，部分人员可能具有双重身份，既是行政官员又是技术专家，易催生一些不规范的营利活动，既有政府指令性的服务，也有相互选择性的市场化服务。[7]另外，事业单位性质的监测评价机构在财政上受制于或依靠上级行政机构拨款，较难自觉坚持独立的立场和独立的话语。同时，事业单位取消了行政级别，与行政机构的级别不对等，导致其话语权减弱，对决策的影响力度有限。一些监测评价结果虽然能够呈报决策者，但其对于政策源流的汇集不足，难以引导教育决策。对政府而言，应明确各级政府的职能，减少对监测机构人、财、事权的直接干预，要创造宽松自由的研究环境，促使研究不断提高质量和水平，[8]并减少政策研究禁区，增强社会脱敏能力，为政府调整政策提供更广阔的空间。[9]

最后，行政理性和技术理性应有效互动。我国教育决策理性化水平不断提升，由依据经验的行政权威决策到实施证据为本的决策时，更需要 “内脑”“外脑”的结合。一方面，加强监测评价部门与行政部门的深度沟通，打通政策咨询报告传递的多元、通畅渠道，发挥好智库职能；另一方面，在信息爆炸的情况下，各级各类基础教育质量监测与评价机构提供了越来越多的证据和决策方案，更需依靠和考验决策者的鉴别能力和决断力，避免对得到的证据不加思考和鉴别、不依据当地实际、盲目移植其他地区甚至他国经验的不科学决策行为的发生。

2.分化与整合的张力

对于教育质量监测评价机构、教育质量提升机构及考试机构之间的关系，实践中存在分化和整合两种做法。有些地区将三类机构明确区分，设专门的机构由专人开展不同工作，如湖北、青海等9省的义务教育质量监测机构为新建的省教育厅直属事业单位，浙江、吉林2省则依托高校挂牌成立省级监测机构。也有一些地区倾向于机构之间的整合，或者将监测评价机构与质量提升机构整合，如江苏、辽宁等3省在省教研室、课程教材发展研究中心等加挂牌子成立省级教育质量监测中心，上海、山西等6省市在现有教研、科研机构下设一个科室；或将监测评价或考试机构整合，如重庆等；或督导机构整合监测评价的职能，如北京、山东等6省市。上述做法各有优势，但更需宏观设计与思考，避免机构分化导致的工作交叉重复，给基层增加负担。

首先，在评价功能上加强分化，将选拔性考试评价与发展性监测评价清晰剥离，强调教育质量监测评价机构的教育质量提升与改进功能。以往的评价机构多与 “选拔”“鉴别”的考试有关，“为了改进”的功能往往被忽视、边缘化。筛选功能是评价的重要功能，要继续重视该功能，但要将其从教育质量监测评价机构中清晰地剥离出来，将教育质量监测评价机构的功能集中于面向改进。

其次，在改进上加强整合，加强教育质量监测评价与改进提升之间的链接。从教育质量提升这一国家战略思考来看，质量监测与诊断，以及质量改进与提升，应是相互关联，整体思考并推进的。仍需政府主导，从国家层面加强统筹规划，整合监测评价相关机构的职能。从“大评价”理念出发，强调发展性评价，加强教育督导与教研工作的整合，以监测、督导、评价为前提开展教研工作，将监测评价工作与教育质量提升工作紧密结合，提升教育质量提升和改进的针对性和有效性。

最后，在主体上注重多元，吸纳市场性机构。教育治理是新时代改革与发展的重要政策话语和政策要求。作为第三部门，监测评价机构对教育的参与是教育治理现代化的途径。基础教育质量监测与评价体系应本着更为开放的态度，将政府、市场和社会各利益相关者都纳入其中。需要让渡政府 “不该管”也 “管不好”的职能，吸纳非公益的第三部门加入，加强制度创新，如开展合同外包与特许经营。可将一些专业任务分包给市场化的评价专业机构，激发市场活力。如PISA作为OECD的重要公益项目，将其监测工作任务切分，分包给世界各国最专业的非营利机构或专业公司，其将测试统筹工作交由全球规模最大的非营利教育测量机构——美国教育考试服务中心（Educational Testing Service,ETS）承担，将抽样任务委托给全球性数据公司Westat。市场的参与对于推进监测评价的个性化、满足基层教育行政部门和学校更加个性化的评价需求有重要意义。此外，应着重培育公益性事业单位，作为市场失灵和政府失灵的调节机制，将政府、市场、社会、学校等利益相关群体吸纳进来，共同判断教育质量状况，一同促进教育质量提升，推动多元参与，促进教育治理能力提升和治理体系完善。

3.中央与地方的张力

21世纪以来，基础教育行政管理 “实行在国务院领导下，由地方政府负责、分级管理、以县为主的体制”，嵌套于此管理体制中的基础教育质量监测与评价体系，其工作和运行逻辑上仍然保有科层特征，需平衡中央与地方之间的张力。

打破资源和信息的向上聚集和概括化，实现分层治理。科层化的教育质量监测评价体系的基础部分是自下而上的信息汇集和传递机制，信息和资源向上集中，信息越向上越概括，同时，信息准确性不断被消耗，地方所见的丰富的信息被掩蔽、概括和模型化。越靠近基层，其拥有的信息越准确、越丰富。在国家层面的教育质量监测评价基础上，需加强各级各类监测评价，发挥基层监测的自主性，实现信息的互通和决策科学化，实现各级行政治理能力的提升。

打破数据的向下攫取，加强对地方的支持。在基础教育质量监测与评价体系的科层结构中，越靠近结构的上端，越需要更多来自下级的数据和信息，向下收割数据是必然的结果，导致基层机构逐渐异化为数据提供者，削弱了其评价实施能力，在教育质量监测评价中几无获益。同时，虽然地方教育质量监测机构的能力提升需求很大，但由于基础教育质量监测评价体系中的纵向事业单位之间不存在垂直领导关系，中央机构主要精力在于组织、实施、研究国家基础教育质量的监测评价，对于地方监测实施能力提升的帮扶投入有限。需要通过加强数据反馈等方式，一方面使其感受到数据提供的意义，另一方面提升地方监测评价机构对数据的理解和使用能力。

对于国家性的统一监测评价，要加强工作层次划分。如国家义务教育质量监测工作的开展，在国家层面要加强建立监测工作规范，建立国家常模和国家数据库，加强数据和评价结果向省、市、县层面的反馈。在省、地市层面，减少在评价指标和评价工具研发上的投入，增强对本地教育特点的研究，着重深入分析当前存在的问题并将工作重点放在制定整体性的质量提升工作方案上，以有针对性地采取措施帮助学校、教师改进学校管理和教育教学。

对于特色性的和地方性的监测评价，要注重整体性。避免过度陷于教育行政体系的工作逻辑，将监测评价嵌入 “条条”中思考 “各管一截”的问题，与学生发展长远利益和根本利益相悖。地方性的监测评价也应着眼国家的战略要求，对于教育问题的思考应以属地的学生发展作为工作核心，着眼教育质量和公平问题，服务于学校和学生，引导社会公众。

三、基础教育质量监测评价体系的保障

教育质量提升仍然是我国未来十余年教育发展的关键词，以理性、现代的理念推动基础教育质量监测体系的完善是基础教育质量保障的重要环节，“服务、开放、专业”是保障基础教育质量监测评价体系健康发展的关键词。

1.减少控制，加强服务

我国教育管理体制改革的重要理念是 “管、办、评”分离。在此理念要求下，基础教育质量监测评价工作应以 “第三只眼”的视角，客观审视基础教育发展中的优势和问题，并做好与 “管”“办”联通，既面向教育决策与管理，又直接用于改进学校办学。

从面向政府的角度，突出独立性，加强问责。监测评价机构对行政权威有着天然的尊重，因此首先需要政府加强自我约束。“推行国家治理体系现代化，就不能避开行政权，但应该适当重构行政权力体系，在思维上需牢固树立有限政府理念，以维护政府权力的合法性。”[10]同时，加强监测评价的独立性，以问责彰显其专业权威性。从全球范围来看，实施教育问责，加强基础教育质量监测评价结果的应用，是各国共同的趋势。如美国近年来依据NEAP结果逐渐开始建立教育问责制度，联邦政府要求各州同时发布州测试和NEAP成绩，将二者匹配，防止各州降低评价标准而让更多学生达标，并通过 2010年的《共同核心标准》（Common Core State Standards，CCSS）解决大部分州要求过低以及各州标准难以对比的问题。[11]基础教育质量监测评价结果强调全面和公平的教育质量观，为科学准确评价政府官员的教育政绩提供了数据支持。通过问责机制，可引导地方政府摈弃以分数衡量教育质量的片面质量观，树立正确的教育观、质量观和政绩观，把提高教育质量作为推进教育改革与发展的核心目标。[12]

从面向学校的角度，突出协助，加强服务。作为问责机制的重要平衡和补充，做好推动学校发展的 “保姆”，为学校做好保障和服务。科层结构下的压力传导机制会将政府的问责压力逐层转嫁给学校，如不建立适当的 “减压赋能”机制，过于强调监测评价，仍会走向冠以监测评价名义的 “应试”，仍未脱离 “唯分数论”的窠臼，或成为地方教育行政部门新的政绩工具。未来在监测和评价的过程中，应转变评价方式，不过度依赖科学范式，突出教育的整体性和不可数量化的部分，加强质性的刻画和描述。有研究者指出，儿童自身学习机制的内在性、自然性、私密性和自在性否定了 “事必评价”的观念。基础教育质量监测评价应从儿童的特点和需求出发，与学校一道，为了孩子的发展开展尽量少的评价。更加强调将利益相关者纳入其中，加强协商，做温暖人心的判断。在机构和职能整合的基础上，促进教研部门、业务科室使用监测评价结果，改进工作方式，为学校和学生提供更具针对性的专业支持和服务，将诊断和服务有机融合。

此外，为政府的决策提供更高质量的服务。随着决策科学化、理性化的不断推进，基础教育质量监测评价体系应在推动政策形成与改进作用的过程中发挥更大作用。根据金登的框架，[13]需通过监测评价发现教育问题，建立渠道促进问题得到政策制定者关注，并进入政策议程，汇入问题源流（problem stream）；参与政策共同体，对政策相关的思想进行总结、建议、宣讲、修正与选择，汇入政策源流（policy stream）；了解和剖析公众情绪、压力集团间的竞争等，汇入政治源流（political stream）；还应监测和促成三股源流的汇聚，在打开的 “政策之窗”中讨论教育公共问题，并为教育政策的进程提供充足、科学的证据。

2.打破壁垒，走向开放

目前，各级各类基础教育质量监测评价机构之间及与外部机构之间仍存在一定壁垒，导致数据封闭、基层重复提供数据的现象突出，学生 “考试”次数多、层次杂、负担重，研究人员政策水平不足，社会对教育质量了解不足，教育质量观仍偏向 “应试”。未来的基础教育质量监测评价体系应打破机构之间的壁垒，加强数据共享，建立政策咨询的同行评审机制；打通机构与社会的桥梁，加强面向公众的宣传；打通行政机构与专业机构的交流，建立 “旋转门”机制。

第一，加强数据共享，建立政策咨询的同行评审机制。目前，不同机构所收集的数据多处于保密状态，数据封锁现象明显，多头评价、重复评价的问题突出。未来，基础教育质量监测与评价体系，重在打破机构的数据壁垒，加强数据共享。基础教育阶段，各地教育共性的部分较特色的部分更多，国家义务教育质量监测的数据作为共性的部分，首先应共享出来，以高质量的基础数据作为各机构的工作基础，地方只收集特色性数据予以补充，减少在基础性领域不断交叉、重复地收集数据。在数据公开和共享上，可以不必拘泥于 “体制内”，根据科学研究的伦理规范，在涉及国家机密的相关内容经由论证、保护和处理之后，尽快面向社会公开，吸引学者和各类监测评价机构挖掘使用。同时，在监测结果的呈现上，也要百花齐放。“当前中国正处于各类矛盾凸显期、各种思想观点交锋期，‘无奇不有’的社会现象，‘五花八门’的社会思潮，各方都在争夺 ‘国内话语权’。”[14]为更好推进治理现代化，在监测评价机构广泛参与的基础上，建立一个政策思想同行评审和同行竞争的机制，建立能够让多种政策主张公开辩论的平台，使政府和社会其他政策参与者有能力更加平等地鉴别不同观点的优劣。

第二，加强面向公众的宣传机制。目前，基础教育质量监测评价对公众的引导不足。虽然理论界普遍视教育质量监测评价为开展教育、传播与应用政策证据的重要途径，[15]但监测评价机构的公益服务明显不足，面向公众提供权威而丰富的信息和数据不多，难以有效影响和引导社会公众。基础教育质量监测评价作为循证实践，其证据的生产、证据的利用及证据的传播等环节缺一不可，[16]目前的监测评价着重证据的生产，并逐渐加强证据的利用，但证据的传播不足。未来，需根据时事和政策需求及时回应，制作精练、实用的政策简报，面向公众的杂志、报告、年鉴、指数等构建专业数据库和检索平台，借助媒体进行信息传播和推广，加强监测信息公开和反馈，吸纳社会力量参与监督教育发展。[17]

第三，建立人才交流的 “旋转门”机制。基础教育质量监测评价机构承担了教育决策咨询的智库功能，但人才相对封闭。可适当借鉴美国智库鲜明的 “旋转门”机制，提高监测评价工作的政策水平。美国智库与政府部门之间有着顺畅的人才交流、流动机制，智库机构大量输送人才到政府任职；政府官员卸任后，大量旋转到智库机构从事政策研究。[18]我国教育行政机构中有行政经验和良好学术背景的官员越来越多，可建立其流动到基础教育质量监测评价体系中的通道；同时，从政府层面，为从事监测与评价工作的专业人员提供教育行政部门的相关实习、交流岗位，打通人才通路。

3.重视研究，提升专业性

不断提高专业水平，是基础教育质量监测评价事业健康发展的基石。基础教育质量监测评价体系的发展需在人才、研究和专业组织方面不断提升专业水平。

第一，提高人才的专业性。基础教育质量监测评价工作专业要求高，但目前人才基础和储备不足，参与工作的督学、教研员和研究人员专业性欠缺，特别是缺乏基本的测量理论和数据分析技术的专业训练。从专业人才的补充上，高等教育要推动教育监测与评价的二级学科建设，完善专业设置，加强专业人才培养。还需在现有人员的专业性提升上下功夫，加大对人员的培训力度，不断提升从业人员素质和研究水平。另外，扩大研究人员参与监测评价工作的通道，吸引更多优秀专业人才专、兼职从事监测评价工作。

第二，提高研究的专业性。基础教育质量监测与评价体系已经发挥了质量判断、决策建议和质量提升的重要作用，但在其功能发挥上，仍然存在学院派或经验型研究多、对现实问题的研究不足、政策意识缺乏、对决策的智力支持不足、对社会的影响不够等问题。在未来发展上，加强理论前沿性与政策敏感性的结合。在监测问题和框架的设计上，需要面向理论前沿，以最新的研究引领教育发展和教育政策实践，并且密切关注教育现实中的核心问题，将亟须解释和解决的政策问题纳入测试框架，为教育决策和发展提供战略式服务和顾问式服务，既包括前瞻性、预警性研究，也包括跟踪性、需求满足性的研究。对基础教育质量的研究从描述学生发展状况，拓展到对影响质量的关键因素的深度挖掘以及对教育系统的检视，并结合近年来计算机测试及课堂观察等产生的大数据，加强学科交叉的共同研究。

第三，推动专业组织建设。拥有发展成熟的专业组织是专业的重要特征，[19]是基础教育质量监测与评价体系长远发展的专业基础。基础教育质量监测评价机构应通过建立和完善各级专业组织联合起来，通过各级教育学会下设专业学会，或者通过自设专业学会、自设专业联盟等形式，搭建平台，积极分享研究成果，共同促进理论发展和实践改善。通过各类纵向和横向基金设立研究项目，聚集研究队伍，加强对已有数据的深入分析挖掘，进而推动技术进步和从业人员素质提升。