涂秋元 姚正鑫 向春艳 庞新军
教育评价是办学导向的指挥棒,评价改革事关教育发展方向如何激发各层次学校的办学活力、引导树立“育人为本、德育为先、能力为重、全面发展”的办学理念,全面推动素质教育,实现区域教育可持续发展,回应人民对优质均衡教育的需求,是广州市荔湾区基础教育面临的系列问题中最主要的问题之一。实施教育评价改革,探索基于区域质量监测大数据的初中学生学业水平增值评价,是学校全面实施课程改革、促进教师专业发展的有效途径。本文以2021届初中区域教育质量监测数据为基础,以不同基础模型进行简单试算初一起点测至初三终点测增值分数, 闡明不同增值性评价模型可能带来的差异。
一、基于相对位次的区域增值评价
基于相对位次的区域增值评价以学校或班级为整体,以区域质量监测学生的有效分数作为计算对象,根据其总平均分在区域排名的变化来对教育教学水平进行分析。学校的位次增值(Y)计算公式如下:
Y=W0-Wn
其中:W0、W1分别为起点监测以及第n次监测中学校的均分在区域全体学校中的位次。Y=0表示位次没有变化;Y>0为正增值,表示位次进步;Y<0为负增值,表示位次退步。图1显示了29所学校总分均分的位次增值发展。
基于位次的增值数据可以说明学校整体均分的相对增值情况,但也存在一些问题。从图1可知高水平组学校上升难度远高于低水平组,位次前5的学校中仅有1所增值为1的微小变动,而组别二和组别三的学校增值数量和幅度都远超组别一,因此不同水平的学校位次提升的难度是不同的。提升同样位次,因其层次不同其表达的学业水平变化的意义及学校所付出的教育投入都有着极大的差异。而且,高组别学校存在天花板效应,而低组别学校则存在地板效应,因此基于均分位次的增值性评价是相对不准确的。
二、基于等级达成率的区域增值性评价
等级达成率是一种简易的增值性评价方式,以出口测学校各等级人数除以基于入口测预测的学校各等级人数获得。如图2所示,为区域部分学校等级达成率发展分析。等级划分标准参照学业水平标准进行换算后获得,选取前三等级进行分析,以避免D、E等级学生因进行职业生涯规划时较大概率可能出现的出口测数据缺失的影响。
如图2示,组别一G校C达成率接近190%,但其A、B达成率却无明显异常,该情况主要是由于其参加测试人数变化造成,而其A达成率低于100%,说明其优秀学生培养工作有所欠缺。组别一尾段和组别二前段都存在A、B达成率较低,而C达成率偏高的主要原因,在于该区段学校多数学生为等级临界生,其受参测人数变化导致等级边界偏移的影响最大。组别三学校则普遍存在A达成率超高,而B、C达成率较低的情况。主要由于组别三学校入口测A等级人数多为个位数,一两名学生的变动都会导致其数据异常偏高。与此同时,其B、C等级学生存在部分因职业生涯规划选择或随迁子女返乡等情况,导致区域监测数据下的等级达成率反映情况有所局限。整体而言,对于在各等级有一定基数的学校,等级达成率能较好反映学校的增值能力;对于部分数据异常的学校需要做个案分析进行评价调整;对于部分临界学生较多的学校,等级达成率的评价模式存在较大的不确定性。
三、基于提高度的区域增值评价
提高度反映学生个体发展水平提高的幅度,同时反映学校的加工能力。其原理是通过对学校的区域监测数据进行回溯,根据学生的入学基础、发展潜力、学校的发展趋势综合分析,对各学校前样、中样人数作出预测,按学校表现将所有学校分为相应组别,不同组别的提高度预测标准有所不同,作为分析测算基础数据。提高度(P)的计算公式如下:
如图3示,组别一学校提高度整体不高,随着学校排位后移,提高度的增值幅度不断提升。与图1对比,X校的均分排位仅前进一名,与其提高度增值180%有着明显落差。在均分排位中前进8名的V校,其提高度却为负增值。在组别一中仅有的排位前进的E校,在提高度评价中为负增值。究其原因,提高度主要关注学校中前段学生的学业能力,而均分排位则主要关注学校整体学生的学业能力,其在关注群体有所不同;且均分评价维度较为单一,未考虑学校内部的差异性,且以排位方式进行评价,区域学校整体波动未加入考量。而提高度通过多维度预测的模式,将区域整体情况和学校自身情况综合考虑,主要关注学校培优固本的能力,特别是前样率,对学校的加工能力提出了较高的要求。因此,提高度评价作为增值性评价的一个方法,有其科学性。但提高度计算方法依然存在部分与达成率模式相同的问题。
四、基于学生成长百分位法增值评价
学生成长百分位法(SGP)增值评价,以学生前测成绩对学生进行分组,比较同组学生的后测成绩的百分位位次以判断学生的增值情况。其强调学生后测成绩仅与学生前测同组别的学生进行比较,可以部分缓解优秀学生上升空间不足的问题。 计算公式如下:
学生成长百分位法是一种相对科学的增值性评价方式,其学生仅与和自身初次测试水平相近的学生进行对比,以其自身在该批次学生中的二次测试百分比作为增量。虽然该模型较好的考虑了学生分层情况,但由于其模型局限性,在统计上仍属于零和游戏。因而,后续研究将进一步优化模型分层应用,考虑更多荔湾区域特色因素加以优化调参。如图4示,优秀学校在该体系下依旧面临增值幅度不大的问题,中后段学校反而表现较好。造成该情况的可能原因是该评价以初一起点测为基准对学生进行分组,而初一起点测科目较少,难度较低,区分度相对不足,导致优秀学生和中段学生没有拉开差距,使得计算中并未能完全将同等级学生进行区分。此外,通过对一线教育工作者的访谈,个别学生在初中阶段可以通过自身努力,实现学业水平的跨层次飞跃;而高水平学生多数成绩较为稳定,波动较小,仅有部分学生会因为各种原因大幅下滑。因此,后续研究中应加强对起点数据的分组统计工作,加入更多变量进行分组,同时探索采用循环前测模式,不以单次起点测试作为增值起点,而以前次区域调研测成绩作为后次调研测增值评价起点,以改善分组集中的情况。
注:本文系广东省2021年度中小学教师教育科研能力提升计划项目“基于区域教育大数据的初中学生学业水平增值评价研究”(课题编号:2021YQJK045)阶段性研究成果。
本栏责任编辑 黄博彦