增值性评价缘起、现状与未来指向

2023-11-22 03:05刘玉勇
教育评论 2023年9期
关键词:评价模型教师

●刘玉勇

一、引言

党的二十大确立了人才引领驱动的战略定位,《义务教育课程方案(2022年版)》和“各科2022年版课程标准”也围绕“人本”这个核心,从人才战略高度提出了通过“立德树人”锚定发展总方向,从割裂素养的关注转向综合素养的提升,从“教——学——评”的功利性到“教——学——评”的发展性和一致性,让评价改革成为教育、人才、科技一体发展的活力引擎。

评价内驱的增值是促成“教——学——评”整体螺旋提升的关键,也是近年研究的前瞻热点。李凌艳等[1]对教学实践中的结果评价、过程评价、增值评价和综合评价的整体实施提出了建议,引发对“打通教育评价改革‘最后一公里’”评价实践的关注。

中共中央、国务院印发的《深化新时代教育评价改革总体方案》,在“四个评价”中特别指出要探索增值评价。将评价理论和实践进行融合,探索区域增值性评价的本土化、校本化,是当前评价改革的要务,是多数一线教师和基层科研工作者自我成长的要旨,也是学生成长和学校发展的要道。

二、缘起:增值性评价内涵生长

(一)增值性评价前瞻意义与价值发现

第一,增值性评价的前瞻意义。“增值”这一术语发轫于经济领域,哈努舍克(Hanushek)首次将此词引入教育领域,简单理解是输出与输入的差值。对于“评价”,格朗兰德(N.E.Gronland)把评价表述为:“评价=测量(量的记述)+价值判断;评价=非测量(质的记述)+价值判断”[2],可以认为评价是定性与定量融合的价值判断过程。对学生教育中进行的增值性评价,是通过动态收集学生某时间段内、不同时间点上标准化后的输入和输出成绩,控制外在变量因素,以考察学校或教师对学生学业成绩影响的“净效应”,从而实现科学、客观和发展的评价。这里的“值”是学校给予学生发展的“纯促进值”,分离并排除了自身自然成长和其他外在“冗余”增长因素的。北京师范大学刘红云教授用园丁对树苗的成长作用进行了形象的“增值”说明:要想得到园丁对树苗一段时间后的长高贡献值,除了关注初测高度,还要排除雨水、土壤、温度等对树苗生长的影响,用后测高度减去剔除其他因素影响后的预测高度,差值才是园丁对树苗高度产生影响的“净效应”。映射到教育评价中,一般不用后测值减前测值,而用后测值-预测值=增值(残差),得到学生在教师指导下学业提升的“净效应”。这里的预测值是基于一定数据统计模型运算的,而造成预测值变化的主要因素有家庭背景、性别、先天能力等,需要在研究中进行观察、控制、输入和输出分析。有了对增值性评价意义的深度理解,才能在数据源收集整理、数据统计模型构建与实践框架设计、平台架构和创新实施中达到一致。

第二,增值性评价的价值发现。郭小芸等认为,增值性评价实现了萨乔万尼的“美好的东西使人们去做”的行动理念,有助于人本发展,突破原有评价的弊端与瓶颈;[3]吴茵荷从现实角度出发,觉得增值性评价在体现学生中心、促进教育公平和获取过程反馈信息中发挥了很重要的作用。[4]学者们都呈现了对增值性评价的相似观点:其一,从实践架构来看,增值性评价将静态、横向、切片的标签性评价转向了动态、纵向、过程的驱动性评价;其二,从内驱方式来看,增值性评价以布鲁姆(Benjamin Bloom)目标分类学、麦格雷戈(Douglas McGregor)的Y理论和马丁·塞利格曼(Martin E.P.Seligman)的积极性理学等为理论基石,强调相信学生天性向上,重视为了成长而评价,在多元评价主体中,指向积极的、内在发展和心理需求的生发;其三,从评价目的来看,增值性评价有助于教育矛盾柔化,利用和其他三个评价内容融合、关系耦合,实现对“破五唯”“立新标”“全面发展”的回应;其四,从评价素养上看,要关注教师前瞻素养的学习与培养,重视教师信息化能力、数字评价素养的规模培育,满足社会需求,激发成长活力。可见,在计算机、信息化技术已经普及的当下,在大数据、教育测量与统计技术不断更新运用中,在ChatGPT为代表的人工智能(AI)飞速发展中,增值性评价将进入高速迭代和本土实践创新阶段。斯塔弗尔比姆(D.L.Stufflebeam)说过:“评价不是为了证明,而是为了改进。”确实,增值性评价的最核心价值是对理想、信念的坚守,对公平、信心的提振,对现状、未来的改进。

(二)增值性评价国外缘起及国内演进

增值性评价的意义回答了“是什么”的问题,增值性评价的价值回答了“为什么”的问题,增值性评价的缘起及实施现状则给“怎么办”提供了决策信息。

第一,国外增值性评价的源发。增值性评价的思想源于1966年科尔曼(Coleman)报告对学校效能评价的阐述,孕育于20世纪70年代美国新思想和管理潮流中。1992年创建的田纳西州增值性评价模型(TVAAS)被纳入教师问责系统,在“力争上游计划”的经费支持下,新教师评价系统向全美推广,但因为评价结果与高利害的人事决策相挂钩,因此其科学性和有效性饱受质疑,直至“每一个学生能成功法案”(ESSA)的出台,降低了增值性评价的强利害关系属性,教育增值评估系统(EVAAS)才得到进一步完善和发展。此后,欧盟也采用了本土化后的增值性评价对学校实施管理。

第二,国内增值性评价的回观。我国增值性评价起于20世纪80年代我国香港和台湾地区的学校效能评价,大陆地区的增值性评价起于20世纪90年代。近年,我国对教学评价越发重视:2009年教师绩效工资分配改革实行;2020年,《深化新时代教育评价改革总体方案》颁布;2021年《义务教育质量评价指南》印发;同年“双减”政策实施;2022年《义务教育课程方案(2022年版)》及“各科2022年版课程标准”落地。这些政策、文件都将评价指向过程、发展、多元、综合、人文和驱动等关键词,增值性评价也从高位的理论前瞻,逐步推至一线教师多元评价实践和自身发展的需求。

笔者以“增值性评价”为关键词在CNKI平台进行中文文献的主题检索,共获得283篇中文文献,发现增值性评价探索、实践、思考有待关注,校本化创新实践处于稀缺状态。从1998年的文献(张兴,《引进增值观念 推进素质教育》)记载算起,文献数量在2020年开始迅速增加,进入研究加速期;研究层次分布以应用研究为主,而开发研究偏少,其中管理开发类奇缺;分布上,以中等教育、教育理论研究居多;研究的作者群以大学或教育部委的教授、专家为主,如辛涛、谈松华、任玉丹、边玉芳等;地域分布以东部地区为主。笔者又以“评价改革”为关键词再次查阅,发现评价改革启动于2001年,加速于2020年,可以看出与上述增值性评价发展趋势是基本趋同的。查阅近10年的国家级立项规划课题,也鲜有增值性评价的课题研究。

综上,我国的增值性评价是伴随着国内外评价改革而展开,也随着科技赋能、数字赋能、智慧赋能的多种场景卷入,从起初将增值性评价理念引入素质教育,到现在将增值性评价路径融入素养提升,评价待开拓空间巨大。

三、现状:增值性评价实践问诊

在我国,增值性评价理论创新研究已较深入,但实践层面推进还较缓慢。源自增值性评价推进存在数据收集困难、加重“唯分数”论、评价模型难以理解等问题,亦有公平性质疑;另外,增值性评价的“天花板效应”和“地板效应”(即成绩很好和很差的增值难度大,也很难做到等值处理)也引发了增值性评价实践的困惑与困难。[5]概而言之,增值性评价的“本土化”实践之难,源于“人”“事”“理”。

(一)增值性评价角色的单一

一线教师既要对学生进行教育教学评价,也需要接受学校和上级对自己的评价。因此,教师在评价链条中是一种评价与被评价的双重中间角色。教师评价应该是一种激发教师专业群体内力的手段,而不是限制教师合作创新的桎梏。[6]回顾以往的评价,教师多以评价者和被评价者割裂的角色参与,且带着利害关系,缺少了两个角色的价值澄明与有效融合;另外,增值性评价参与人员数量上的单一游离,也是影响实践的重要因素,“各自为政”“单兵作战”是造成增值性评价科研落地推进困难的根本因素。个人化、知行脱钩的增值性评价实施要么执行无力、要么价值虚假。因此,以团队融合为主要形式是增值性评价落实的基础。

(二)增值性评价活动的脱位

通过对评价实践的感受和评价改革文献的对比,发现增值性评价实施之“困”也源于理论理解与探索活动的高低“脱位”。国内专家们对增值性评价理论研究较多,但宏观“高位徘徊”居多,实践层面只是点状分布;中观和微观层面上的基本理念和技术实践切入不够,有些一线教师甚至曲解了增值的基本内涵,对“增”的理解不透,只让传统结果性评价换上新包装,便认定为增值性评价。为此,形成了增值性评价“理论创新研究”和“实践偷梁换柱”“两张皮”的游离状态。造成这种状态的原因是:增值性评价和其他评价对比,显得比较“宏观”和专业,评价对象和前后测数据量较为庞杂;增值模型选择和建立难度高,数据调查、收集、整理、存取、建模、统计和分析专业性强,耗费精力多,且很少有集统计分析能力强、信息素养高、教科研理论和实践经验丰厚为一体的全能研究者。另外,国内区域增值性评价平台或数字评价系统建设还处于待开发的瓶颈状态。因此,理论与实践的联通对位是增值性评价发展的关键。

(三)增值性评价理解的浅表

从组织层面人的单一,到实践层面事的脱位,逆向溯源、理性分析实践现状,对于一线教师来说,多源于理念、理解和创新意识上的浅薄,需要进一步厘清。

第一,内涵理解的浅表。字面理解增值性评价,就是抓住某时间段内前后测评差值进行评价与驱动。但是,其核心要厘清两个理念:增值理念和净影响理念[7],分别对应“增”与“净”,要体现反馈、诊断、精准、公平和激励功能。

第二,构架方式的浅表。增值性评价难在评价统计模型的架构和增值理念的渗入。周园[8]、杨志明[9]、符华均[10]等对模型分类、设计与运用进行了详细阐述。增值性评价通常分为“分数差值法”“一般线性回归分析”“多层线性分析模型”“增长百分位模型(SGP)”等常见的几类。分数差值法,先算出每个学生同一时段分数的差值,再计算出班级或者学校学生此时段分数差值的均值,后将均值进行对比评价。线性回归是机器学习的算法之一,一般线性回归分析适用于变量的交叉关系,通过对回归系数反馈校验,形成因变量(Y)与自变量(X或X1,X2,X3,…,Xn)变化关联的概率关系。以教师评价为例,因变量教师成长情况(Y)与自变量参与学习情况(X1)、反思能力(X2)属于交叉关系,可以用二元线性回归分析。多层线性分析模型,适用于数据变量之间存在嵌套关系,用来处理多层级数据,是多元回归分析的“升级”。如,因变量教师成长情况(Y),若增加了上级部门管理水平(W1),则与参与学习情况(X1)、反思能力(X2)形成嵌套结构,上级部门管理水平(W1)作为调节变量可进行多层线性回归分析。美国田纳西州(Tennessee)增值评价系统(Value-Added Analyses)便是其应用的典型。增长百分位模型(SGP),与线性回归基于变量不同,增长百分位强调前测数据源的相似分类,以初测水平相近的群体形成“学业伙伴”(Academic Peer),在后测中计算每个学生在这个“学业伙伴”中相对位置中的百分位分数,评价学生进步情况。[11]这种评价模式区域运用也比较广,数据样本要求较为庞大。可见,增值性评价与教师的数据素养密切相关,个人难以独立完成全套的数据收集整理、模型建立、模型有效性核验和后期增值计算、理解与分析等统计要求。

第三,实践创新的浅表。实践创新是基于对增值性评价理论深度理解基础上进行的。有些教师对增值性评价理解并未透彻,缺少文献深度的解读和对现实的综合思考,将部分传统评价结果异化为增值性评价,甚至幻化为评价实践的创新。在多元评价体系中,增值性评价创新向度应是成长的公平需求和数据价值的发展驱动。因此,理解的深度化是增值性评价实践化的基础。

四、未来:增值性评价校本指向

苏州市有着增值性评价的研究底蕴。在全国智慧教育示范区创建基础上,苏州重视评价基础平台的建设,市质量监测平台已形成特色,在学生增值性评价研究方面也走在全国前列。2022年,苏州高新区作为“江苏省基础教育高质量发展(增值性评价)试验区”,结合区教育局省级增值性评价重点课题,利用苏州高新区教育时空云平台,结合“教育数据大脑”“教育大数据分析应用服务中心”建设的契机,投巨资架构和打造区域性的教师增值评价系统(SNDVETD),同时依托省级智慧评价改革项目的前瞻性探索,促进区域教师增值性评价校本化实践和落地研究,形成对增值性评价实践创新的深度感知和经验积累。

(一)透析正确的增值理念

增值性评价通过分离相关变量进行控制,通过大量数据拟合出预测模型,再经过科学验证模型确认其有效性,利用模型的预测功能实现个体实测值的增值判断。

回顾增值性评价的发展史,从经济领域的价值判断到教育领域的高利害决策,再到低利害关系的价值驱动,内涵的完善与内驱性实质让它风靡全球。增值性评价对评价者成长进行追踪,打开纵向评价的视域,丰富了多元评价的外延。

针对增值性评价意愿和能力提升现状,结合区域实践经验,需从两方面发力。一要提升增值性评价的理论积淀。可以采用集中和分散学习结合的形式,从文本、视频库中寻找文献、整合碎片资源,利用师资特长,进行阅读分享、沙龙研讨、风暴争鸣,与师资培养结合;可以利用研究生及以上学历的研究型教师资源,协助解读增值模型构建的问题,消弭理解中的惑点、难点。二要从现实中挖掘隐性增值做法。如学生评价的成长记录袋、教师评价的成长档案袋活动,都属于增值性评价的范畴,只是在数据及模型上缺少科学性和一般性。为此,可以挖掘经验丰富的骨干教师资源,进行隐性增值性评价的例解和增值价值的孵化与衍生。

增值性评价实质是教师和学校日常评价的升级、量化和“亮化”,是数据与智慧赋能、信息与思想迭代后跃进发展的使然。

(二)组建多元的研究团队

第一,教师作为评价者的科研团队建设。增值性评价要收集的数据较多,增值模型建立比较专业。因此,作为评价主体的教师,学校需要把研究团队建设落到实处,融理论素养高、实践能力强、科研分析熟的教师为一体,聚合各部门领导和学科骨干,形成人员结构多元、合作韧性强、具有国际比较视野的团研组织,最终达到人际及能力的互补融通,建立宽视域、深思维的全能型、复合型校本科研人才库。

第二,教师作为被评者样本团队的升级。学校要结合区域教育发展,继续做好增值性评价活动和指标的丰富。笔者所在学校针对区域实施“三名工程”和“四有好教师”建设,实行“三师”培养工程,将合格教师、骨干教师、名优教师的阶梯化发展,蕴含在“新入职教师角色转变与促评工程”“青年教师素养提升与自评工程”“启航团队价值创新与领评工程”中,从本质上说通过不同团队工程化的评价建设,可实现团队及成员的进一步成长孵化。

第三,由课题带动的高阶增值实践团队。《江苏基础教育高质量发展体系的内涵、重点及实现路径研究》的实施,开启了增值性评价研究新高潮。苏州高新区采用省重点课题引领、逐步下沉的方式,组织区内学校申报了32项增值性评价区级专项课题,组建区研究团队,提供组织策略和实施示范。各校以课题申报作为契机,形成增值性评价的科研团队,将增值研评能力的培养和增值评价的结果都融入到教科研和教师培养之中,使增值性评价向学生和课堂的“微环境”延伸,浸至成长的“微循环系统”,促进教师增值性评价的健康发展。

(三)寻找适切的评价模式

增值性评价“去简就繁”的复杂化思维,既是对原有简单评价的“科技赋能”,也是对人性成长需求的尊重和未来发展的驱动。

增值性评价带来评价理论上的相对科学精准和客观公正,但也并非十全十美。如,分数差值法对评价影响因素考虑不全;线性回归复杂且需要满足多项前提假设,存在垂直等值处理困难;增长百分位模型也有数据量大、变量分离能力弱、测评不稳定等问题。在增值性评价区域实施和校本化探索中,要根据评价对象的特点,围绕数据特征、结合软件硬件实况探索实施,也要利用好校际、区域联动的混合研究方式。如,可以通过校际或区域大样本,选用增长百分位模型组建“学业伙伴”,看其一段时间后在这个团体中的百分数位置情况进行评价。对于中小样本的学校教师成长状况及因素分析,则可以选择回归分析方式,将因变量教师成长情况(Y),和自变量教师学习参与(X1)、反思能力(X2)、实践能力(X3)及背景情况(X4),建立简单的四元线性回归模型(Y=β0+β1X1+β2X2+β3X3+β4X4+e),其中的e是残差增值项,β项就是模型拟合的重要目标。这个模型,利用最近调查数据及前期成长数据进行拟合和模型校验,用于教师增值性评价的后测值预测,若还需研究学生、学校层面的变量影响,则要利用多层线性回归进行模型拟合分析。常见的EXCEL、SPSS、HLM、MLwin、Mplus和一些国产软件都可以帮助数据统计与分析。

在院士团队的支持下,苏州高新区正逐步优化、完善苏州高新区教师发展增值性评价系统(Value-added evaluation of teacher development,SNDVETD)。评价系统集画像、评价、反馈为一体,方便跨库检索和跨域应用,为评价个人多样化的数据,实现区域大数据的导入、存储、追踪、共享、调用、处理、分析和结果运用,给予支撑,也为省、市、区的基础教育高质量发展提供过程性佐证资源和增值性结果分析。在增值性评价研究中,各校可利用时空云平台进入教师增值性评价系统,实现数据的动态收集、实时管理,进行画像分析,提升增值性评价研究的质效和多元延伸价值。

(四)探索校本的增值创新

通过本区域实践发现,校本化落实增值性评价需要部门带动、区域联动。本土化过程中应做到理念先行、实践融通、创新助力。评价改革是个系统工程,“探索增值性评价”是评价改革的“新一极”,但也不能一枝独秀,应在整个评价系统结构中起到创新引领作用。

第一,创新行动之前的理性审视。为了减轻学生的学业负担、激发学习热情,新高考的综合素质评价、高校的学分制已对评价改革具体落实作了一定的回应,义务教育阶段评价改革也如火如荼。不管是对学生还是教师而言,增值性评价都应该减少评价的高利害决策用途,在评价改革、“双减”和新课改背景下,增值性评价应作为诊断与发展的源动力。同时,要防止将增值性评价演变为平台依附性的数字评价,避免评价过程和评价价值的双缺失。

第二,增值性评价下的创新融通。对教师增值性评价,其实就是对学生和学校发展性状的间接问诊。故,校本化实施增值性评价应该注重“化”字,将多种评价理念融合,让多重评价手段结合。美国各州在评价教师时,就把增值性评价与课堂观察评价、学生测验成绩和学生学习目标共同融入评价系统。[12]对教师进行增值性评价的校本化实施,可以设计和使用课堂教学增值量表,实施偏向定性的评价;也可以设计科研能力框架量表,进行偏定量评价。在同一时间或不同时间点(时段)采用“四个评价”的边界扩展和互相嵌入,凸显出校本化评价改革的创新样态。

第三,增值数据的创新化呈现。校本化的融合型评价可以走出增值性评价创新实践的第一步。其实“双减”的落实强化了评价的两种变化:一是评价等级制(星级制)这样的评价方式,似乎对增值性评价的精准发展形成阻力,但对表现性活动(如情绪、情感、理智、意志等)、艺术、德育等方面却有了赋分的唤醒。所以,在无数据变量的统计分析中,增值性评价可采用量表的加权赋分形式,拓展增值性评价对象的范围和创新空间。二是“减负”带来了作业评价创新的热潮,激发了教师对评价内容和方式创新的积极性,为增值性评价的创新研究提供了良好的环境氛围。

第四,增值性评价的创新构架。增值性评价用大数据的分析,提供评价的简约和多模态,其理性的复杂带来呈现的贴切。评价实践上的创新源于理念的深度理解和落实的整合,可以唤醒多种教育思想和实践理念的相互观照。如,王碧梅运用实证有效分析了教师的教学能力对学生学业增值的影响;[13]炕留一等运用循证评价,探索教师网络研修增值模型;[14]王晓华利用PISA数据进行模型结果对比;[15]王旭东创新地对后进率、T标准分和优秀率进行阶梯划分,并将之组合成指标模型体系,进行师生增值性评价。[16]笔者所在的苏州高新区则围绕数字赋能增值评价平台的架构,着力聚焦于区域基础教育阶段全体教师全程与全景式发展。上述增值性评价的实施,有实证评价师生教与学关系的,有前瞻师资发展模型建构与应用的,有多种理念与模型融合创生的,也有以增值性评价平台架构赋能教师发展的。其实,结合日常评价管理工作来看,学校众多评价体系中也不乏增值创新举措,如学生成长的“学分银行”“成长币”等都在德育工作中普遍体现,但基本最终止步于数据和模型的整合、分析前,多停留在表现性和结果性的感性评价上,缺少前瞻性拟合与预测,未能呈现出数据分析、评价增值的深度挖掘。因此,校本的评价可以适度地向增值评价的理性多走一步,或许能创造出更具成长性的风景。

第五,评价表达生活与创新化。对于教师成长情况(Y),在保证安全性基础下,是否也可以利用数据处理平台或者APP小程序,将教师个人成长变量数值(包括赋分的)及时记录,动态更新、多模态展示,接入微信、钉钉或QQ等移动终端及软件,让成长数据透明、趣味互动。此数据处理方式在“个人健康”“线上学习”中已普遍存在。苏州高新区的教师增值性评价平台应用场景也将据此进一步打开,为个人成长提供“自我体检”、助力驱动的平台。

第六,增值工具模型的微创新。增值,也不可忽视小视域下的“眼前一亮”。如,在增长百分位模型(SGP)中计算百分等级(PR)时,可采用PR=(0.5×E+L)÷N×100表达,即给定分数的百分等级=(等于给定分数人数的一半+低于给定分数的人数)÷学业伙伴总人数×100,用两段人数的和除以总人数计算百分比,这里的0.5×E实质是将每个等于给定分数的人当作半个人,在得出计算数据后,再对百分等级进行区间划分、可视呈现和预测判断。这个公式模型只需在EXCEL中编写和运算,还可以进行图表可视化处理。因此,用小学数学思维和常见软件搭配编写并形成统计模型,也能体现出增值统计大众化创新的可能。

增值性评价的校本化,在模型“有理”中挖掘数据的“有据”,在理念“有模”里探索实践的“有样”。增值性评价实践中所指向的理念、团队、模式、创新,应分别对标增值性评价的思想、对象、思维和实践,借以实现“四个评价”互补、互促,形成对人的正向驱动与增值,实现增值性评价校本化愿景的不断抵近和超越。教育者要深刻领会习近平总书记关于教育评价的重要论述[17],在对增值性评价研究的深度解读中,区域和学校应继续探索适合的校本化方法,从价值、技术、应用、发展和实践维度寻找中国特色教育评价的路向[18],打开“教育质量的多元主体评价(新)格局”。[19]

五、余论

增值性评价拓展了评价的数据意义和社会意义,让现有评价的切片丰盈、活动并发展起来,对人的评价更赋予了可传递的关怀和激励。在区域的统筹和支持下,围绕教师的“中介性”,进行区域教师增值性评价的校本化实施,将在今后助力教研与科研融通、协助个人与集体融合、推动理论与实践创新中,催发出更多的教育发展价值;在“立德树人”引领和科技赋能成长的大教育背景中,通过增值性评价的融入,以实现育人价值的“真”彰显。

猜你喜欢
评价模型教师
最美教师
中药治疗室性早搏系统评价再评价
重要模型『一线三等角』
重尾非线性自回归模型自加权M-估计的渐近分布
教师如何说课
未来教师的当下使命
3D打印中的模型分割与打包
FLUKA几何模型到CAD几何模型转换方法初步研究
基于Moodle的学习评价
圆我教师梦