黎 东,张 薇
(1.南宁市第二中学,广西南宁,530022;2.首都师范大学教育学院,北京,100048)
《深化新时代教育评价改革总体方案》指出,教育评价事关教育发展方向,要针对不同主体和不同学段、不同类型教育特点,分类设计,稳步推进,改进结果评价,强化过程评价,探索增值评价,健全综合评价,坚决克服唯分数、唯升学、唯文凭、唯论文、唯帽子的顽瘴痼疾,提高教育评价的科学性、专业性、客观性。[1]增值评价以在学生成长与达标之间寻找平衡点为教育理念,成为当下我国教育评价改革研究的热点内容之一。[2]
基于学生成长百分等级的增值模型在美国是使用最为广泛的一种学生成长评估模型。[2]近年来,我国陆续有研究者撰文介绍成长百分等级增值模型的基本思想和统计方法[3-4],部分地方教育主管部门也应用该模型开展了区域内学校教学绩效增值评估的实践[5-6]。但将该模型应用于以学校为单位的教师教学绩效增值评估的研究仍较为缺乏。
通过教师增值评价落地优质均衡的教育评价理念,为教师教学的个别化分层指导提供数据支撑,是学校教学主管部门迫切希望借助教育评价改革解决的问题。本研究拟以学校(段)期考学生学业成绩分析工具的变革为切入点,引入学生成长百分等级模型,采用分层分析、对比验证的方法,对当前中学常采用的增值评价模型进行深入分析,讨论不同增值评价模型运用于教师教学效能评价时所具备的功能及局限,并尝试构建兼顾成长与达标的教师教学效能评价体系,以期为中小学职能部门实施和优化教师增值评价提供参考。
讨论增值,会涉及2次以上的测试结果。本研究用前测与后测两个专用名词对前后两次的测试结果进行区分。
直接比较后测成绩与前测成绩,值为正,表示学生学业进步;值为负,表示学生学业退步。以这种方式计算的增值评价,表面上能简便清晰地看到学生的学业增值情况,但实际上会因试卷难度的波动而导致结果不可信。
举例而言,某校前测选用的试卷较容易,A学生测试成绩为98分(98分以上的学生有10人),后测选用的试卷较难,A学生测试成绩为95分(95分以上的只有A学生1人)。如果以后测与前测的分数差值为负值(-3)判定A学生这段时间学习退步,这显然是不科学的。
为消除试卷难度波动对增值评价的影响,衍生出了基于标准分数比较的增值评价模型。
标准分数的计算方法为某名学生测试的原始分数减去全体学生测试的平均分数再除以试卷的标准差。标准分数借助平均分和标准差,对原始分进行转换,以消除试卷难度对增值评价的影响。
在实际测算中发现,通过后测的标准分数减去前测的标准分数得到的增值标准分数,虽然可以科学判定是否存在增值,但无法用其差值的绝对值表示学生的进(退)步程度。高水平学生的提升空间有限,上升难度高于低水平学生;低水平的学生进步空间较大,下降空间有限,即出现了高水平学生的天花板效应和低水平学生的地板效应。[3]因此,如果仅从标准分数差值的绝对值判定增值程度,不考虑不同层次学生获得增幅的难易程度,这种评价的公平性也是存在疑问的。
学生成长百分等级模型(student growth percentile,SGP)能够较好地克服上述增值评价模型存在的问题,值得在各级各类学校的增值评价实践中推广使用。[7]
SGP利用学习伙伴的概念,通过计算某名学生在水平相同或相近的一组学生中排名相对位置的变化对其成长进行评估,落实了关注学生原有基础的评价思想。[2]其计算基本思路如下,按照前测将学生分为若干个成绩相同或相近的群体,这些群体即为学习伙伴。再计算每名学生后测成绩在自己所属学习伙伴中的排名百分等级。百分等级即可科学标识学生的学业增值及进步程度。[4]
如图1所示。某学科按照前测成绩将学生分为若干个群体。A学生前测成绩为90分,与其有相同成绩的共有10人,则将这些学生分为一个小组,称为“X学习伙伴”。B学生前测成绩为65分,与其有相同成绩的共有20人,则将这些学生分为一个小组,称为“Y学习伙伴”。这一分组方式可使学习伙伴的内部成员具有相同的学习起点。
在该学科的后测中,X学习伙伴内部10位成员成绩出现了分化:1人成绩为97分,4人成绩为95分,3人成绩为90分,2人成绩为87分,其中A学生成绩是95分,在该群体中排名第2。用百分等级公式PR=100-[(100R-50)/N]计算A学生的成绩增值情况(R为学习伙伴中的排名,N为学习伙伴的总人数),得出其成长其百分等级PR=85,表示A学生的后测成绩超过了X学习伙伴中85%的学生。
在该学科的后测中,Y学习伙伴内部20位成员的成绩出现分化:2人成绩为80分,4人成绩为75分,6人成绩为70分,4人成绩为65分,4人成绩为60分,其中B学生成绩是60分,在Y学习伙伴中排名第17。用百分等级公式进行计算(B学生在学习伙伴中的排名R=17,Y学习伙伴的总人数N=20),得出成长百分等级PR=17.5,表示B学生的后测成绩超过了Y学习伙伴中17.5%的学生。
该模型最初应用到学校增值评估时,以35分和65分作为判断标准:学校所有学生成长百分等级的中位数低于35分表示进步程度低于预期;在35—65分之间表示进步程度符合预期;高于65分表示进步程度高于预期。[2]参考上述计算方式,在学生个人的增值评估中,本研究同样以35分和65分为标准进行判定:低于35分视为负增值,表明学生成绩退步;在35—65分之间视为正增值,即进步程度符合预期;高于65分视为正增值,即进步程度高于预期。案例中A学生的增值评价分数为85分,表明成绩进步且高于预期;B学生的增值评价分数为17.5分,表明其成绩退步。
第一,SGP克服了试卷难度大幅波动的干扰。因为后测成绩不再与前测成绩的原始分直接比较,所以试卷难度的波动不会对评价结果产生影响。第二,该模型克服了天花板和地板效应的干扰。学习伙伴概念的运用能够将相同或相近学习起点的学生相互比较,因为每名学生的进步空间相同或相近,所以可以尽量避免天花板或地板效应。
尽管SGP能够克服外界因素影响,较好地反映学生的进步水平,但其仍存在以下几点不足。第一,不能全面反映学生成长的影响因素。SGP未将学生的家庭背景、同辈影响、性格特征、兴趣爱好等非智力因素考虑在内。该评价结果只是诸多评价指标中的一个,不能全方位反映学生的进步情况。第二,样本数量要求较高。SGP一般以多所学校为单位进行统计,若以一所学校为单位,特别是以学生人数较少的学校为单位进行统计时,会存在学习伙伴成员间成长百分等级跳跃较大的现象,这会导致学生增值程度的表示较为粗略。第三,计算过程较为复杂。以学校为单位的学生成长百分等级计算需要掌握全年级两次考试的完整数据。但在现实中,教师通常仅能获得自己所教班级的部分数据,导致教师个人很难独立计算出结果。因此,学校职能部门应该在提供统计结果后,加强有关于计算结果解读的培训,提升增值评价在学校的普及率。
教师教学的效能通常通过学生的成绩体现,对学生成绩进行合理化评价,能够完善教师教学的效能评价。因此,将SGP引入教师教学效能评价,完善其体系构建,能更好地凸显教师教学的效能,有助于教师获得更加直观的教学效能评价。
第一,仅关注达标,不关注成长。目前在开展教师教学效能评价时,常用的评价方式为均分评价(班级学生原始成绩平均分的年级排名)和尖子生评价(班级学生原始成绩超过指定分数线人数的年级排名)等方式,这些都属于达标评价指标,基本上没有与成长相关的评价指标。因而,教师的教学效能无法完整体现。第二,无法有针对性地优化教师分层指导策略。常见的教师教学效能评价多以班级为单位,教师看到的是自己对班级全体学生教学的综合效能,无法了解自己分层指导的效果,无法获得直观、有效的数据。这不利于教师全面了解自己的教学效能,也不利于教师选出针对性强的分层指导策略。第三,被评价的教师处于不同的起跑线上。由于各种客观因素的存在,学校很难实现绝对公平的均衡分班。评价工作中,在学生基础较为薄弱的班级任课的教师,不论是均分评价还是尖子生评价,即使其付出了巨大努力也较难取得优秀的评价结果;但在学生基础较好的班级任课的教师,却可以获得稳定且优异的评价结果。换言之,评价起点不一致导致部分教师陷入了评价无法客观衡量个人投入及教学效能的困境。这不利于学校调动全体教师的工作积极性。
本研究提出,可以将班级划分为四个学生群体,构建分层评价框架。以班为单位,按前测学科成绩将班级排名前6的学生划分为尖子生,7—15名为优秀生,16—35名为中等生,35名之后为学困生。学校可依据实际生源情况确定四类学生的划分标准。通过观察四个学生群体的达标和成长评价结果,教师能了解自己在不同学生群体中的教学效能,并可以采取相应措施优化分层指导策略,进而落实关注全体学生发展的价值导向。
引入了SGP的教师增值评价有较为公平的评价起点。SGP旨在让学生通过与自己有相同或相似学习起点的学习伙伴进行比较,计算自己成绩在其中的成长百分等级。因为学生成长百分等级与学生在前测中被分入哪个学习伙伴相关,与学生被分在哪个班级不相关,所以引入了SGP的教师增值评价能够让教师直观地看到自己的投入与产出。
1.统计方法
首先,基于学生前测原始分的年级排名百分位,将全体学生分为若干群学习伙伴。再根据学生后测原始分,计算出每名学生在各自学习伙伴中的排名百分等级,即学生的成长值PR学生成长值。此处公式中的R为学习伙伴中的排名,N为学习伙伴的总人数。
其次,基于学生后测原始分的班级排名,划分出各班的尖子生、优秀生、中等生和学困生,分别统计年级中各班四个群体的成长值均值和原始分均值。
最后,计算班级群体成长值均值的年级排名百分等级,即班级特定群体的成长特性,PR特定群体成长特性。此处公式中的R为班级特定群体成长百分等级均值的年级排名,N为年级班级总数。再计算班级特定群体原始分均值的年级排名百分等级,即班级特定群体的达标特性,PR特定群体达标特性。此处公式中的R为班级特定群体原始分均值的年级排名,N为年级班级总数。
2.结论判定
成长特性高于65分,表示增值程度高于预期;介于35—65分之间,表示增值程度符合预期;低于35分,表示增值程度低于预期。达标特性高于65分,表示学科基础拔尖;介于35—65分之间,表示学科基础中等;低于35分,表示学科基础薄弱。
选取南宁市第二中学某年级20个班的1053名学生语文成绩为样本数据。以期末考试为后测数据,用编号T002标识;以相同学期的期中考试为前测数据,用编号T001标识。排除了只参加一次测试的学生,有效的学生样本为1046人。学科试卷按课程标准由学校经验丰富的教师负责命题或审题,保障期中与期末的试卷难度相近。
1.教师增值评价不能依据成长值均值直接判断
将各班的学生分为尖子生、优秀生、中等生和学困生四类,根据前测、后测两次数据计算各班四类学生群体的成长值均值,省略中间部分班级的数据,结果如表1所示。
各班的尖子生成长值均值均稳定在65分以上,优秀生和中等生的成长值均值多数集中于35—65分之间,学困生的成长值均值跨度较大,部分介于35—65分之间,但多数小于35分。不同类型学生的成长值均值仅在特定区间波动。假设教师增值评价的结论以不同群体的成长值均值作为判定条件。以尖子生为例,各班的尖子生成长值均值都稳定在65分以上,于是得出年级所有班级尖子生群体增值程度全都高于预期,这显然与事实不符。因此,教师增值评价的结论不能直接依据成长值均值进行判断。
原始分均值与成长值均值情况类似,通常不能直接依据原始分均值得出教师达标评价结论。要将各班的原始分均值进行比较并计算排名百分等级后,才能进行判定。同理,教师增值评价结论的得出,也应依据成长值均值在年级各班的排名百分等级,而非成长值均值。
2.成长特性与达标特性相结合能够贯彻优质均衡的教育理念
以尖子生为例,对各班学生中尖子生的前测和后测数据进行分析,得到其成长值均值、成长特性、原始分均值、达标特性等数据,根据达标特性的数值进行递增排序。省略中间部分班级的数据,排序结果如表2所示。
表2 部分班级语文学科尖子生成长特性与达标特性数据
由表2可知,班级D01—D07的语文尖子生的达标特性均小于35分,其达标特性结论为:这些班级为语文尖子生学科基础薄弱的班级。一般而言,这样的班级在教学绩效评估中较难发现亮点,但这些班级的增值评价结论并非全都低于预期。其中,D06和D07班级的成长特性大于65分,增值评价结论为超出预期,D01、D02、D04班级的成长特性介于35到65分之间,增值评价结论为符合预期。
用同样的判定方法,可以发现班级D14—D20的达标特性均大于65分,达标特性结论为:这些班级为语文尖子生学科基础拔尖的班级。但从各班的成长特性来看,并非所有班级的增值评价结论都是高于预期,实际上也出现了低于预期(如D17)、符合预期(如D15)和高于预期(如D18)的分化。
综上所述,教师教学效能的达标特性结果并不能代表或预测其成长特性结果,也就是说,通过努力,每位教师都有机会获得高于预期的成长特性结果,彰显个人投入与教学效能。教育的优质均衡是当前教育领域的热点话题,其核心理念为“不是把所有学生都培养成尖子生,而是让每个学生在自己的水平上能有所成长”。将该理念应用到本研究构建的增值评价模型中,可以将教师教学的目标表述为“不是把所有达标特性低于35分的班级都提高到65分,而是要求各班在自己达标特性的原有基础上,努力将成长特性提升到65分以上”。这样才能最大化地调动教师的工作积极性,提高教师创先争优的工作意识。
3.成长特性与达标特性相结合的教师教学效能评价更公平
本研究将SGP引入了教师教学效能评价。因为SGP构建了与行政分班无关的学习伙伴,所以以学生成长值为基础数据得到的班级特定群体的成长特性就无关于行政分班。对教师而言,这建立起了一套基于相同起跑线的评价体系,能够让每位教师都有平等的机会全面了解自己的教学效能。
以表2所示的D07班级举例,其尖子生群体达标特性低于35分,成长特性却高于65分。这打破了“教授基础薄弱班级的教师,无论多努力,都很难取得优秀评价”的错误观念。同样,D19班级尖子生群体的达标特性高于65分,而成长特性却低于35分,这样的结果也打破了“教授基础拔尖班级的教师,随便教也能教出好成绩”的错误观念。
综上所述,综合运用成长特性与达标特性的教师教学效能评价不会埋没教师的努力工作,或者掩盖教师的消极态度。这为每位教师提供了公平的评价机会。
4.能够为教师个别化分层指导改进提供数据支持
不同于以班级为单位的传统教师评价方式,本研究中的教师教学效能评价能够提供班级中尖子生、优秀生、中等生和学困生等四个群体的评价信息。基于不同群体的详细信息,被评价教师能够更直观地了解自己的指导策略对不同学生群体的作用如何,在原来的基础上是进步、退步还是维持原状。如表3所示,以A07班级为例,相应的数据可以为教师反思自身的分层指导效果提供科学的数据支持。
表3 A07班级语文学科四个群体的数据对比
A07班级的四个学生群体中,尖子生的达标特性小于35分,成长特性大于65分,则可推断出该班级尖子生虽然基础薄弱,但是通过教师的个别化指导,尖子生的成长性高于预期。通过类似的推断过程,可得出以下评价结论:第一,A07班级学生语文学科中等生基础拔尖,学困生基础中等,尖子生和优秀生基础薄弱,因此,教师应参考学生基础采取不同的教学策略;第二,教师先前的分层指导策略促进了班级尖子生和中等生的发展,但该策略未能较好地促进优秀生和学困生的发展。
将SGP引入教师教学效能评价,可以为教师提供更加公平的评价机制。教师评价体系应兼顾达标与成长两方面,才能多角度地反映教师的教学效能。将班级中的学生细分为尖子生、优秀生、中等生和学困生四个群体分别进行评价,能够为教师对不同学生群体的个别化分层指导改进提供数据支持。教育评价是较为复杂的过程,学校管理者可以以增值评价结果为依据,通过多维度、多层次、动态的评价方式,助力教师提高教学效能,努力实现以评促教、以评促学的教学目标。