中小学生劳动素养增值评价：“何能”与“何为”

2022-02-18 23:09:49陈鹏刘铖

教育测量与评价 2022年3期

陈鹏刘铖

教育评价具有指挥棒效应，对教育发展、办学导向、学生发展等层面都能起到统领性作用。2020 年，《中共中央国务院关于全面加强新时代大中小学劳动教育的意见》（以下简称《意见》）提出，要健全劳动素养评价制度，将劳动素养纳入学生综合素质评价体系。[1]同年10 月的《深化新时代教育评价改革总体方案》提出，要改进结果评价、强化过程评价、探索增值评价、健全综合评价[2]，“增值评价”首度出现于国家文件中。2021 年3 月发布的《义务教育质量评价指南》（以下简称《指南》）提出，要注重结果评价与增值评价相结合，关注学生发展水平的进步程度，做到科学评判。[3]可见，增值评价对我国未来教育评价体系的改革具有极其重要的意义，将增值评价运用于综合素质评价尤其是劳动素养评价已是时代所趋。

增值评价（value-added assessment）是当前国际上一种较为前沿的评价方式，它不以学生单次的考试成绩作为教育评价的唯一标准，而是通过统计分析技术，比较学生通过教育活动获得的进步来衡量工作成效。[4]在评价内容上，它最初被用于评价学生的学业成绩，而现在增值评价的使用范围已经从学业成绩拓展至其他方面，例如专业技能、思想品德、职业生涯发展等内在素养。[5]那么，就增值评价运用于劳动素养而言，作为一种新的探索性尝试，其是否具有逻辑合理性？能否真正实现技术迁移与结合？在实际运用时需要哪些保障？本研究试图通过分析增值评价的内在逻辑来探索中小学生劳动素养增值评价实现的可能性。

一、内在逻辑：增值评价在辩证张力中指向发展

增值评价之所以具有突破性意义，正是因为它转变了传统教育评价的参考系，使得教育评价从一种绝对性思维走向了某种辩证性思维，具有某些辩证张力。增值评价在这种多重的辩证张力中指向教育的发展方向。

1.在科学与价值之间：契合教育走向循证的趋势

增值评价的技术性手段主要解决的是增值程度的量化问题。增值评价通过构建科学的统计学模型，尽可能地实现增值量的客观科学评价。目前常见的模型有概要统计模型、多元线性回归模型、多层线性回归模型、成长百分等级模型等。[6]从评价手段来说，增值评价具有较高的科学性。而且，在追求技术理性的同时，增值评价也未遮蔽价值理性。虽然索求技术的极致，但它真正追求的并非技术本身，而是技术背后所隐藏的意涵，即“教育促进人的发展”的本体价值。换言之，增值评价既能满足时代对科学性的需求又能彰显教育回归发展的传统本真，使得教育从筛选功能的工具价值走向本体功能的人本价值。增值评价在科学与价值的平衡中表达了辩证张力。

增值评价还契合了教育走向循证的发展趋势。循证教育是指基于科学证据的教育实践。受循证医学运动的影响，美国于21 世纪初发起了循证教育运动。近年来，我国学者亦开始重视证据驱动式的教育实践。循证教育依赖科学的证据（既可以是量化数据，也可以是质性证据），尤其是有关学生学习的证据。增值评价能够为循证教育提供相对可靠的学生发展数据，以科学证据驱动教育的科学评估、政策的科学决策、资源的科学配置。

具体而言，增值评价的数据运用于循证教育能够关切不同层面的教育实践。在微观层面，学生的增值评价数据有益于教师科学地进行教学反思，实施循证课堂决策，从而将教师教学反思从传统的主观性感知、经验式判断转向科学证据驱动的实践；在中观层面，学生的增值评价数据有助于学校进行科学的教师绩效评估，以实施循证学校治理，助力传统学校管理走向以信息化、大数据、证据驱动为主要特征的学校治理；在宏观层面，学生的增值评价数据有助于政府进行科学的学校效能评估以及教育政策制定。

2.在个性与公平之间：回应教育高质量发展诉求

增值评价改变了传统评价的参考系。一方面，增值评价不同于基于外在客观标准的传统评价，它首先以“过去的自己”为参考依据，能够具体地体现每位学生的增值情况，促进每位学生充分发挥自己的潜能，是一种基于内在标准的个体内差异性评价，具有个性化与人本性。另一方面，增值评价以增值程度为评价标准，它给予原本处于“落后”地位的学生、教师或学校新的增长点，在彰显个性化的同时，也能够凸显公平性。

增值评价能够在个性与公平的辩证张力之中回应我国高质量教育体系构建的时代诉求。一方面，增值评价原本就是面向未来的教育评价体系，因此，它是高质量教育体系的一部分；另一方面，教育高质量发展亟须解决教育发展不平衡、不充分问题，而增值评价的个性化特点能够促进每位学生充分发挥潜能，其公平性特点又能够促进不同学生、不同学校、不同区域间的均衡发展。

增值评价助力高质量教育体系建设的作用体现在多个层面。从微观层面看，多层线性回归分析的增值模型能够控制影响学生发展的多个变量，从而将纯教育因素从诸多因素之中剥离出来进行分析，促进学生层面的充分和平衡发展；从中观层面看，增值评价能够驱动教师绩效评价真正回归教师“立德树人”的本职工作，并促进教师将工作重点放在自我教学胜任力、学生学习结果的提高之上，从而引领高质量教师教育体系建设，同时，也能使城市与乡村教师再次回归到同一起跑线，教育资源不平衡配置的影响将被削弱，促进教师层面的充分与平衡发展；从宏观层面看，增值评价打破对“名校”的传统评判标准，能够给“薄弱校”带来新的发展机遇与发展动力，从而优化区域内教育资源的配置，促进学校或区域层面的充分与平衡发展。

3.在传统与未来之间：彰显后现代性的价值取向

形象地说，增值评价通过一系列“点评价”的联结而实现个体“区间评价”，再经过个体间比较，形成“横面评价”。“点评价”即多次学业测试，“区间评价”即增值程度，“横面评价”即以增值程度为衡量标准进行的横向比较。可以看出，在逻辑层面上，增值评价实际上是多种评价逻辑的有机结合。因此，它具有绝对性与相对性之间、终结性与发展性之间、静态性与动态性之间的辩证张力。

通过回溯教育评价的历史发展可以发现，“绝对性”“终结性”“静态性”是早期教育评价的显著特征，在哲学基础层面则为现代性特征。如果说桑代克、泰勒、布卢姆、斯塔弗尔比姆的教育评价属于现代性教育评价，那么20 世纪80 年代出现的第四代教育评价则是具有“相对性”“发展性”“动态性”的教育评价，体现着后现代性的特征。增值评价也属于第四代教育评价的范畴。但是更为准确地说，增值评价因具有介于上述几个辩证关系间的张力而兼具现代性与后现代性的特征。对于我国而言，拥抱现代性与现代性批判是我国现代化的双重主题变奏[7]，增值评价兼具现代性与后现代性的特征，在一定程度上能够回应我国特色的现代化发展道路之诉求。同时，工业化时代建立的以现代性为基本特征的教育评价体系已无法满足未来需求，未来的智能化时代亟须一种新型的教育评价体系，而增值评价恰恰能够对接大数据技术，在未来的智能化时代能够发挥出其独特的价值。

二、何以可能：劳动素养与增值评价的适切性分析

1.内在逻辑上的合理性分析

一般而言，两种相关的事物之间具有一致性、从属性、互补性、相交性、相悖性等逻辑关系。对劳动素养评价和增值评价进行关系性分析，笔者发现，二者在内在逻辑上有着一致性或互补性。

（1）理念一致：回归教育本体价值

劳动教育承担着“五育融合”的使命，是我国教育体系中的重要组成部分。“五育融合”的根本目的就在于培养全面发展的人，因此劳动教育蕴含着对“唯分数、唯升学”的教育传统的批判精神。增值评价在后现代浪潮中诞生，在对传统现代教育的扬弃中诞生，改变了传统教育评价的参考系，使得教育从“一切为了分数，一切为了升学”走向“一切为了发展（增值）”。可以说，二者皆体现出对传统教育的批判精神，皆具备让教育回归本真的功能，指引着教育发展的新路向。

（2）特征一致：过程与结果相统一

劳动素养评价具有过程与结果相统一的特点。一方面，《意见》指出劳动素养评价应当兼顾劳动的过程与结果；另一方面，劳动自身的特点也决定了劳动素养评价必须在注重劳动成果产出的同时兼顾劳动过程。增值评价也同样具有过程与结果相统一的辩证张力。传统的结果性评价注重学生学习的结果，具有静态性；过程性评价注重学生学习的过程，具有动态性。增值评价将结果性评价的静态性与过程性评价的动态性相结合，突破了传统教育评价方式重终点轻起点的桎梏，既能重视终点又能够同时兼顾起点、关注增值。可见，劳动素养评价与增值评价皆显示出了过程性与结果性的辩证统一，二者在特征上具有较高的拟合度。

（3）优势互补：质性与量性的耦合

《大中小学劳动教育指导纲要（试行）》指出劳动教育的目标包含了劳动观念、劳动精神、劳动能力、劳动习惯和品质，并且要求全面客观地记录课内外的劳动过程与劳动结果。劳动教育目标的多层次性、全面性决定了劳动素养评价的复杂性。因此，劳动素养评价应当结合多种评价方式，坚持质性评价与量性评价相结合。但是，当前的劳动素养评价或仅仅采用质性的评价方式，或仅仅进行简单的等级评价，或仅仅依赖固定的量化评价指标，缺少综合评价。增值评价具有科学性和客观性，恰恰可以弥补劳动素养评价的不足，也能够契合文件中规定的“全面客观”的要求。因此，劳动素养评价的质性特点与增值评价量性特点在内在逻辑上能够相互补充，具有较高的拟合度。

2.技术逻辑上的可行性分析

理念逻辑的适切性决定二者结合的合理性，技术逻辑的适切性决定二者结合的可行性。要分析劳动素养增值评价的可行性，首先需要分析的是增值评价所采用的多种模型及其对数据的要求、实现的机理等，其次需要结合劳动素养评价的特点整体分析这些模型得以实现的技术条件。

（1）三类常见的增值模型

其一，概要统计模型。常见的概要统计模型，例如获得分数模型，所使用的数据类型是描述性数据（例如均值、方差、标准差、中数等），不涉及回归分析的变量预测。不同的概要统计模型在描述性统计数据的运用、具体的操作流程上会有细微的差别，但是总体思路一般都是将前测（原始分数或标准分数）同分的样本作为同一组别，在同一组别的不同学生之间进行增量均值（前测与后测的平均差值）的横向比较。可见，概要统计模型仅需获得前测与后测数据，原理较为简单，操作性也较强，能够在一定程度上排除被评价者原有基础的影响。因此，运用概要统计模型进行劳动素养增值评价具有较强的可行性，通过两次劳动素养的测量和分数的分组计算即可完成对学生劳动素养的增值评价。但是，概要统计模型也存在不足，由于该模型未涉及回归方程，无法进行变量间的分离进而单独考察教师、学校的“净效应”，也无法考察学生家庭背景，学校办学条件、教育经费等外在因素的影响。

其二，线性回归模型。常用的增值评价线性回归模型有多元线性回归与多层线性回归两种，它们依靠实际测量值与模型预测值之间的残差值判断学生的增值情况。多元线性回归模型可以考察多个变量对学生学业成就的影响，却无法处理多个层级（学生层面、教师层面、学校层面）的嵌套数据。多层线性回归模型则是在多元线性回归的基础上发展而来的，经典的美国田纳西州增值评价系统就属于该模型。多层线性回归模型包括协变量校正模型、增长的重复横断模型、交叉分类模型[8]，是较为常用的增值模型。增值评价的“净评价”功能就是依靠多层线性回归模型实现的，即通过排除无关变量的影响（如原有水平、人口学因素、家庭背景、地区发展水平等），仅仅预测教师、学校对学生学业成就的影响。因此，将线性回归模型运用于劳动素养评价能够相对精准地评价学生劳动素养的“净增值”，但是其过程较为复杂、需动员的主体较多、实现的难度较大，并且，相较于概要统计模型，它还需要较大的样本量，需要多种问卷收集学生、教师等主体的多种信息。

其三，百分等级模型。相比于前两种模型，百分等级模型（student growth percentile，SGP）出现较晚，它由美国教育学者比特本纳于2009年开发[9]，是当前美国使用最广泛的模型，现在美国已有超过20 个州采用该模型[10]。可以说，百分等级模型结合了概要统计模型与线性回归模型的特点。百分等级模型的使用流程与概要统计模型类似，但概要统计模型通常使用分数均值进行比较，而百分等级模型则通常使用后测成绩在相近水平的群体中的百分等级来描述增值程度。具体而言，先将前测同分的学生作为同一水平组，再依据同组学生的后测成绩做出频数分布图，拟合正态分布模型，并通过分位数回归方程，计算百分等级（1～99）。百分等级模型由于加入了不同于线性回归模型的分位数回归方程，克服了传统线性回归中不同水平学生成长空间不同的问题，有效解决了评价的天花板效应（高水平学生成长空间小）与地板效应（低水平学生退步空间小）。[11]百分等级模型符合人们对增值概念的理解，原理较容易被大众接受，可操作性强，容易实施。[12]相比线性回归模型，百分等级模型不需要较强的假设条件[13]，不需要多个量表测量多种因素，也不需要进行连续的测量，因此，将其运用于劳动素养评价时，实现的可能性较高，且实现难度适中，是一种较为理想的劳动素养增值评价模型。但是，百分等级模型无法剥离无关变量的影响，样本量需求也较大，一般要求在5000人以上。[14]因此，劳动素养增值评价的百分等级模型适合区域性的大范围评价。

（2）劳动素养增值评价实现的技术条件

根据以上分析可知，增值模型类型众多、各具特点，采用何种评价技术进行劳动素养增值评价需要综合考虑不同增值模型的优劣。总体而言，劳动素养增值评价的实现条件有以下三点。

第一，增值评价模型对样本量的需求较大，这决定了更适合在大的区域范围内开展劳动素养增值评价活动，也就决定了劳动素养增值评价的实施主体需要具备较强的资源调动能力。

第二，所得的数据必须是通过测验得来的量化数据。增值评价是通过统计分析技术实现的，要实现劳动素养增值评价，就必须获得量化的数据。因此，我们需要开发一些专业的测验量表来对学生的劳动素养进行测量，并要确保测验量表的信度和效度。

第三，必须通过追踪测验获得两组及以上的数据。这些数据可以是单波数据（指前测与后测两组数据，效度较低），也可以是多波数据（两次以上测量所得的数据，效度较高）。同时，多组数据之间需要具备一定的可比性，评价的量尺需要保持基本一致，以实现对学生增值的测量。

据此，实现劳动素养增值评价的前提是回答并解决以下问题：一是劳动素养增值评价由谁来实施；二是劳动素养如何测量以及如何保证测量的信度与效度；三是评价的量尺如何统一。如果上述一些基本问题能够得到解决，那么劳动素养增值评价的可行性就可进一步提高。为此，可依据上述条件建立劳动素养增值评价的保障机制。

三、何以可为：劳动素养增值评价的实践保障

1.测评主体：设立专职的测评机构

多方面因素增加了增值评价实施的复杂性，如劳动素养增值评价技术的高度专业性、师生的校际流动或区域流动带来的数据衔接问题等。为此，需要建立第三方专业机构，实现数据集中与资源整合，以专门处理专业程度和复杂程度较高的评价事务。

在组织形式上，可通过政府委托服务或设立专职部门的形式，建立各级各区域的专职教育测评机构，让他们承担复杂的劳动素养测评工作。正如《指南》指出的，要积极探索采取政府购买的服务方式，委托专业的第三方机构进行教育质量的评价。具体而言，可以建立省、市、县不同层次的教育测量与评价机构负责不同层次的教育评价事务，并依托教育督导体制机制履行对学校效能、学生劳动素养的教育测量与评价职责。

专职测评机构的优势在于，能够将劳动素养增值评价的资源和数据进行整合与集中。当前教育测量数据多为不同部门掌握，专职测评机构可以将这些散落的数据进行整合，避免由教育环境的不确定性带来的数据收集困难，例如学生的转学可能导致的个人劳动素养数据缺失等不确定性因素。此外，专职测评机构在提高自身业务能力和专业性的同时，需适当向学校、社会进行增值评价的科普。例如，在运用回归分析模型时，专职测评机构不仅需要提升自己的模型运用能力，还需向部分管理人员解释诸如什么是残差、为什么残差能够代表教师绩效或学校效能等诸多问题。

2.测评工具：制定量化的指标体系

劳动素养既包含外显性的劳动能力、劳动习惯和品质，也包含内隐性的劳动观念与劳动精神。劳动素养增值评价实现的基本要求是获得能反映主体劳动素养发展水平的量化数据。但是，如何获得这些数据？如何保证获得的数据能够真实反映学生劳动素养的发展水平？制定劳动素养指标体系能够在一定程度上帮助解决上述问题。

首先，劳动素养的指标体系通过构建由潜变量和观察变量组成的结构方程模型来实现。结构方程模型可以用来测量无法直接观测的学生劳动素养。具体而言，即构建包括潜变量和观测变量的两级指标体系，将劳动观念、劳动精神、劳动能力、劳动习惯和品质等作为潜变量，设计多样化、多层级的观测变量，以测量潜变量。

其次，评价者还需要通过项目分析、探索性因子分析、验证性因子分析等操作，进行模型的调整，从而获得高效度的指标体系。运用该指标体系，我们可以通过两种方式进行施测：一是以调查量表的形式，进行他评（教师评、家长评、同辈评）、自评；二是以观察量表的形式，进行劳动过程的观察。

最后，不同学校、不同教育阶段需要根据自身的特点制定相适应的指标体系。尤其需要指出的是，劳动教育课程的开发与实施具有校本性，不同学校更应当基于不同的地方文化、课程资源等建立适宜的指标体系。

3.测评过程：基于真实情境的测量

劳动素养增值评价在完成了学生劳动素养的量化测量之后，还需要保证一定的信度与效度。二者的保证不仅依赖于测量工具的科学制定，还依赖于测量过程的科学性。关于测量过程，与一般的增值评价通过纸笔测验过程就可获得所需量化数据不同，劳动教育是一种过程性较强的教育，劳动素养增值评价的数据收集往往发生在劳动过程之中。

为保证劳动过程与测评过程的统一、保证评价的信度与效度，评价者可以为学生设计劳动的真实情境，并设置相关的疑难任务。具体而言，可以设置有关生活情境、生产情境和服务情境的疑难任务供学生进行劳动，还原最真实的劳动情境。真实的劳动情境可以相对避免学生在被测验过程中的“学习效应”，其自我呈现的方式相较于一般的考试情境更接近自身的真实状态，能够真正体现评价的作用。

学生在真实情境中进行劳动时，评价者可进行参与式观察，采用先前所制定的量化指标体系，依据学生在真实的劳动情境中的表现对其劳动素养进行评分，在此基础上结合学生劳动成果进行综合考量。评价者不仅包括学校教师，还可以由学生进行自评，由家长根据其家庭劳动表现进行评价，评价的结果需要进行数据化处理。

4.数据衔接：建立数据的衔接机制

用于增值评价的多组数据之间需要具备一定的可比性，然而，许多因素都为数据的有效衔接增加了难度，例如劳动教育课程的校本化实施、劳动教育的阶段性特点、劳动素养增长的周期等。为此，需要探索并建立劳动素养增值评价的衔接机制，提升劳动素养增值评价在不同学校、不同学段之间的相对一致性，以实现数据的对接。

具体而言，可分别从数据收集和数据处理阶段增强数据的一致性。在数据收集阶段，可从源头提高数据结构的一致性，以减轻后续数据处理的复杂性。学段间、学校间应当加强互通互认，形成有效、高效的衔接机制。可以以地方为主体，依托集团化办学，设计与制定区域内的劳动素养评价体系，建立统一的、一贯的学生个人劳动素养发展数据库，为复杂的数据统计与分析过程提供一个可跟踪的数据存储保障。在数据处理阶段，评价者可以通过一定的统计分析技术将不同的数据进行统一化、标准化处理，例如跨年级、跨群体的分数可以通过正态曲线等值量表法、垂直等值法进行数据量尺的转化[15]，从而提高不同数据间的可比性。

此外，需要指出的是，探索评价的衔接机制与提高评价的一致性程度并非要消解不同年级、不同学段间的差异性，而是在操作层面的差异性中寻求根本价值上的共同性，例如不同的评价指标体系的观测变量可以有不同的形式，但是潜变量需要保持一致，如劳动素养评价包含劳动观念、劳动能力、劳动精神、劳动习惯和品质4 个潜变量，这些变量就需要保持一致。