基于初中学生成长百分等级模型的增值评价实践探索

2023-12-12 22:27陈科武
考试研究 2023年3期
关键词:教育评价

陈科武

[摘要]重点介绍和分析学生成长百分等级模型的原理、优缺点及改进方向,并在Visual Studio 2015下实现了相关算法。通过某区域某届初中学生的成绩追踪分析,初步验证了该模型用于增值评价和学生成绩等级呈现的效用。

[关键词]增值评价;学生成长百分等级模型;教育评价;学生成长评价

[中图分类号]G424.74[文献标识码]A

[文章编号]1673—1654(2023)03—042—009

教育评价是教育教学研究的关键环节,正确的评价能对教育教学行为和成效进行准确的鉴定和诊断,为后续教育教学工作提供激励与导向。传统上,我国教育评价手段倾向于关注学生的考试分数和排名,关注学校的升学率,由此導致学生学业负担过重,引发家长和社会普遍的教育焦虑。2020年10月,中共中央、国务院印发《深化新时代教育评价改革总体方案》,指出要“改进结果评价,强化过程评价,探索增值评价,健全综合评价,充分利用信息技术,提高教育评价的科学性、专业性、客观性”[1],意在引导教育评价向正确的方向发展。增值评价作为近年教育评价的研究热点,从成绩起点看进步,有助于引导教学利益相关各方关注学生的学业成长和进步,而不是具体的考试分数,克服“唯分数”论的倾向,从而有助于减轻学生和家长的焦虑。本文是以初中学生为案例,使用学生成长百分等级模型进行增值评价的实践探索。

一、学生成长百分等级模型简介

用于对学生进行增值评价的模型很多,这其中,学生成长百分等级模型因其使用灵活、易于理解等特点得到了较为广泛的应用。学生成长百分等级模型,即Student Growth Percentile(SGP),是美国学者Damien Betebeener于2009年基于百分位回归提出的学生成长评估模型。当前,该模型已成为全美国使用最为广泛的教育增值评价模型之一[2]。

(一)SGP

将学生的当前考试百分等级与先验成绩相同学生(学术伙伴)的百分等级比较,获得的百分等级作为该生的SGP。所有学生的SGP平均约为50,一般认为35—65为正常成长范围,65以上为成长优异,35以下为成长不足[3]。

(二)mSGP(median or mean SGP)

将学校(或班级)所有学生某学科的SGP取中位数或平均值,称为该学校(或班级)该学科的mSGP。mSGP可以用于学校(或班级)效能的增值评价。

(三)SGP的计算方法

1.标准方法

2.百分位回归估计

如果学生样本数量不够大,每组“学术伙伴”的当前考试成绩不足以形成一个分布,可以通过百分位回归来估计SGP。

首先根据前一次考试成绩,找到该学生的“学术伙伴”,假设人数为N,计算当前考试“学术伙伴”组的成绩等级,并分别统计低于和等于该学生当前成绩等级的人数,记为L、E,由以下公式计算该学生的成长百分等级PR(Percentile Rank),即为SGP:

PR=(L+0.5×E)/N×100[5]。

如图1所示,在7年级期末测试中,学生A(图中白色小人)和其他9位学生的百分等级均为60,这样就构成了一个“学术伙伴”组。在8年级期末测试中,此学术伙伴组发生了分化,学生A和组内另外1人的百分等级为70,另有3人百分等级高于70,5人百分等级低于70,代入公式,可以得出PR等于60:PR=(L+0.5×E)/N×100=(5+0.5×2)/10×100=60,即学生A的成长百分等级为60,高于平均增长水平。

二、学生成长百分等级模型的实证分析

(一)研究方法

1.数据来源和变量选取

选取深圳市某区8所初中学校2018级学生的三次统考成绩。其中,7年级入学考试成绩作为基准测试成绩,并跟踪7年级期末考试和8年级期末考试成绩作为对比,对三次考试成绩的学生名单进行匹配,剔除因休学、疾病等原因存在部分或全部学科缺考的学生,实际纳入学生样本2178人,分别来自8所学校的49个班。考虑到初中学科的变化,选取语文、数学、英语及三科总分成绩构建增值评价模型。

2.统计方法

根据百分位回归估计的原理,在Visual Studio 2015下,使用C#语言开发SGP计算程序,同时使用SPSS 26.0和Excel 2016进行数据统计分析。

(二)学生、班级、学校层面的相关性分析

1.学生层面的相关性分析

从表1的统计结果可以看出,在学生个体层面,各学科SGP及总分SGP均与基准测试的百分等级无关,说明从学生层面来讲,用SGP模型衡量进步值不依赖于先验成绩。语文、数学、英语三科SGP及总分 SGP均存在显著的正相关(p<0.01),相关系数在0.208-0.702之间,其中数学SGP与总分SGP有最大的正相关值0.702。

2.班级层面的相关性分析

从表2的统计结果可以看出,在班级层面,各学科mSGP及总分mSGP与基准测试的百分等级存在一定程度的正相关,其中英语学科存在显著的正相关(p<0.01,相关系数0.407),提示班级的学习基础对学生的学业进步存在一定的影响。需要说明的是,8所学校均按政策要求实行均衡分班,由于各校所在学区招生竞争激烈程度不同,各校生源质量存在一定的差异。分析结果也可以从侧面验证教育均衡化政策的正确性和必要性。语文、数学、英语三科mSGP及总分mSGP均存在显著的正相关(p< 0.01或p<0.05),相关系数在0.321~0.815之间,与总分mSGP存在最大正相关值的是语文mSGP,相关系数为0.815。

3.学校层面的相关性分析

从表3可以看出,在学校层面,各学科包括总分mSGP与基准测试的百分等级的相关性不明显。语文、数学、英语三科都与总分mSGP存在显著的正相关(p<0.05),相关系数在0.735~0.786之间。语文、英语两科之间存在显著的正相关(p<0.01),相关系数为0.842。

(三)班级、学校层面mSGP与正态化标准分升降比较

标准分数(standard score),又被称为z分数,是计算分数与平均数的差再除以标准差,它反映的是一个分数距离平均数的相对标准距离。由于z分数考虑到了分数分布的离散程度因素,相对于使用原始分比较,能更精确地反映学业水平。理想化的z分数要求原始分数遵循正态分布,但这在一般考试中通常难以被满足,所以在实际工作中,首先根据标准正态分布常模量表,建立标准分与百分等级对照表,然后将原始分转化成百分等级分,通过查询上述对照表,获得正态化标准分。正态化标准分是一种基于考试常模的排位分,用正态化标准分增长来评价学生的学业进步,比直接比较成绩相对排位变化更加科学。笔者所在学校使用平均分为500、标准差为100的统考正态化标准分进行班级、学校层面的学业增值评价,并将其作为教师工作绩效考核的依据之一,同时也用于兄弟学校之间学业水平进步情况的比较。多年的实践证明,这种模式是较为准确的,且能获得一线教师的认同。将班级、学校层面mSGP与正态化标准分升降进行比较,也可以从侧面验证mSGP用于班级、学校層面增值评价的有效性。

1.学校层面mSGP与正态化标准分升降比较

2.班级层面mSGP与正态化标准分升降比较

从图2和图3的统计结果可以看出,无论是学校层面还是班级层面,mSGP与对应学科的正态化标准分变化的趋势基本一致,mSGP大于50,标准分升降一般为正值,mSGP越大,标准分增加的值越大,反之亦然。可见,与标准分升降类似,mSGP可以作为学校、班级层面进行增值评价的依据。

(四)SGP用于学生个人成长评价

目前在“双减”政策指引下,学生学年考试成绩只能用等级分的方式呈现。本质上来说,等级分是一种含糊的终结性评价,因为“含糊”,单纯呈现等级分在一定程度上反而会加剧学生家长的成绩焦虑。SGP体现的是学生的努力程度和学业进步程度,与等级分一起呈现,有助于引导学生家长关注学生的学业成长和进步,缓解成绩焦虑。SGP不仅能体现学生的学业成长是否符合要求,还能提供学生不同学科成长是否相似、是否偏科等信息,为家长和教师提供相关预警。

1.成绩等级计算

参照深圳中考相关标准,设定成绩等级并划定各等级比例为:A+(5%)、A(20%)、B+(25%)、B(25%)、C+(20%)、C(5%)。在SPSS 26.0统计的百分等级分的基础上,使用Excel 2016的if函数进行转化。

2. SGP评价点数计算

为了方便学生和家长理解,参考美国新泽西州教育署的评价点数转换表,使用Excel 2016的vlookup函数将SGP转化为如表3所示的SGP评价点数[6]。

3.学生成绩呈现

由前面的数据统计分析可知,在学生个体层面,各学科SGP都与基准测试的百分等级无关。因此,每位学生成绩同时呈现相对独立的成绩等级和学生成长百分等级点数,要注意引导家长在关注成绩等级之余,更要关注学生成长百分等级。

从表4学生成绩典型个案可以看出,1班林同学,语、数、英三科均为“A+”,且三科SGP点数都是4,可见该同学成绩优异,且进步稳定。2班龙同学,三科成绩等级分别为“B+”“C+”“C+”,但是三科SGP点数分别为4、4、3.8,说明该同学起点虽然较低,但是各科都进步明显,值得大力表扬和鼓励。4班陈同学,三科成绩等级分别为“A+”“B+”“B+”,三科SGP点数分别为4、2.4、1,从数据可以看出,该同学整体成绩虽然尚可,但数学、英语两科成绩下滑,尤其是英语,下滑明显,提示老师和家长应当引起重视。4班杨同学三科成绩等级分别为“B+”“A+”“A”,三科SGP点数分别为1、3.8、1,该同学聪明外向,是典型的理科男生,单纯从成绩等级来看尚可,但从SGP点数可以看出,语文、英语两科下滑非常严重,这与该生家庭问题有着密切的关系,只有同时呈现成绩等级和SGP点数,两者相结合,才能触动家长;杨同学第一次英语成绩96分,本次英语成绩83分,假设他的预期英语SGP成长目标是50,老师查成绩表与他的英语“学术伙伴”比较可知,本次英语成绩必须达到91分。2班廖同学三科成绩等级分都为“C”,但是英语SGP为4,这一点也成为老师激励该生的契机。可以看出,由于成绩等级和SGP点数相对独立,家长能够更全面地了解学生的成绩和学业进步情况,缓解成绩焦虑;教师可以通过SGP了解学生的学业成长是否符合学校要求、要达到预期成长目标学生需要的成长程度、是否有个别低成长学生应当引起特别关注等。SGP与成绩等级相结合,更加有利于发挥评价的鉴定、诊断、监督、导向、激励等作用。

(五)mSGP用于学校的评价

在国际上,使用mSGP对学校效能进行增值评价已经得到广泛应用[2];除此以外,mSGP还能提供很多有用的信息,例如在学校层面,校长可以知道本校的学生学业成长与其它学校比较是否符合要求、不同年级的学生成长是否相似等。

容易看出,学校5总分mSGP为64,在8所学校中位居第一,整体成绩进步最佳,学校5的语文mSGP、数学mSGP、英语mSGP分别为62、53、68,说明三科都有进步,其中又以英语成绩进步最大;学校2、学校3大部分学科mSGP值小于50,整体退步。

三、SGP模型的优势和不足以及改进方法

(一)优势

1. SGP模型不依赖历次考试的垂直等值,同时不依赖线性假设和方差齐性假设,具有较大的灵活性。

2. SGP模型使用成绩的百分等级位的相对变化衡量学生成绩的进步,容易被一线教育工作者和学生、家长理解接受。

3. SGP模型关注的不是学生的绝对成绩或者成绩排位,而是百分等级位的进步程度,符合发展性评价的理念。

4. SGP模型不仅可以通过对学生历次考试各科的SGP值进行记录,从而描述学生的成长轨迹,而且还可以对成长轨迹进行线性回归,从而实现对学生成长的预测。

5.将学生的SGP在班级、学校层面累积,计算平均值或中位数,得到mSGP,可以作为对班级、学校进行增值评价的有效手段。

(二)不足与改进方法

1.从SGP的原理和计算过程可以看出,SGP是一种关于测量结果的常模参照解释,也就是说,它测量的是在常模群体中的相对排名变化,并不能判断被测者是否达到指定的测量标准[5]。

2. SGP取决于“学术伙伴”的百分等级进步值,属于条件状态(conditional status)的测量,它的准确性首先依赖于每位考生有足够多的“学术伙伴”,这一点对考试规模提出了比标准分模型更高的要求,为了使测量结果更加精确,建议考生总数在5000人或更多[5],因此,SGP更适合区域性的考试评估。本文数据来源选自深圳市某区8所初中学校2018—2019年统考成绩,因疫情原因,無法获取原计划中的更大规模的数据样本,这也是本文的一个不足之处。

3.在理想情况下,“学术伙伴”的百分等级应当形成正态分布,实际上在“学术伙伴”百分等级非理想分布情况下,会引入一定的误差。改进方法如下。

(1)因为中位数叠加了多种误差来源,可以使用SGP平均值而不是中位数计算mSGP[7]。

(2)数据源可以使用多年考试的数据,有研究指出,与使用一年的数据比较,使用两年的数据能够减少40%的偏差[7]。

(3)有学者提出了模拟-外推(SimulationExtrapolation,SIMEX)算法和等级化模拟-外推(Ranked Simulation-Extrapolation)算法,最多可以减少75%的误差[7]。

(4)因为是常模参照,SGP要求2次考试的被试群体一致,对于区域性考试而言,学生因休学、疾病等原因缺考导致相关数据缺失是常见的,被试群体的不稳定会降低SGP结果的准确性。因此,一方面应当加强对考试的管理,做好数据清理工作,进行大数据分析与预警,改进算法;另一方面,可以降低mSGP在学校、教师绩效考核中的权重,正确引导相关决策。

四、结语

学生成长百分等级模型关注学生的学业进步而非具体分数,同时还可以对学生的成长进行预测,既能用于评价学生个体的学业进步水平,也能用于评价班级、学校的效能,且其基本理念容易被一线教育工作者和学生、家长理解、接受,是值得探索应用的增值评价方法。然而,教育评价是一个复杂的问题,必须结合其他评价手段和评价指标进行全面、综合的评价,方能实现科学决策。

参考文献:

[1]深化新时代教育评价改革总体方案[EB/OL].[2022-08-06]. http://www.gov.cn/zhengce/2020/10/13/content_5551032.htm.

[2] Michael D K. Value-Added and Student Growth Percentile Models:What Drives Differences in Estimated Classroom Effects [J]. Statistics and Public Policy,2018,5(1):1-8.

[3]谢小庆.用于成长评估的学生成长百分等级模型——来自美国的经验[J].教育测量与评价,2019,(6):3-9.

[4]周园.增值评价中学生增长百分位模型及其估计方法概述[J].教育导刊,2019,(11):61-67.

[5]符华均,等.基于学生成长百分等级模型的学业进步评价[J].中国考试,2019,(2):14-18.

[6] New Jersey Department of Education. Median Student Growth Percentile(mSGP)Conversion Chart [EB/OL]. [2022-08-06]. https:// www.state.nj.us/education/AchieveNJ/re-sources/mSGPConversionChart. pdf.

[7] Castellano K E,Mccaffrey D F. The Accuracy of Aggregate Student Growth Percentiles as Indicators of Educator Performance [J]. Educational Measurement:Issues and Practice,2017,36:14-27.

Practical Exploration of Educational Value-added Evaluation Based on Student Growth Percentile Model

Chen Kewu

Shatangbu School,Shenzhen,Guangdong,518114

Abstract:Value-added evaluation is a hot research topic of educational evaluation in recent years. This paper attaches importance to the introduction and analysis of the principle,advantages and disadvantages,and improvement direction of the student growth percentile model. Moreover,the relevant algorithms under Visual Studio 2015 are accomplished. Through the performance tracking analysis of students in 8 junior high schools in a certain region,the utility of the model for value-added evaluation and the presentation of studentsgrades is preliminarily verified.

Key words:Value-added Evaluation,Student Growth Percentile Model,Educational Evaluation,Student Growth Evaluation

(责任编辑:吴茳、白云)

猜你喜欢
教育评价
高校知识产权教育研究情况探析
莫让“后进生”成为教育之殇
基于生存视角思考下教育评价的价值取向
关注“人的发展”:“核心素养”观下学校教育的召唤
运用学业质量检测数据,诊断与改进学生的学习
基于幼儿成长的有效教育评价研究
中小学综合素质评价的价值取向和育人导向探析
浅析研究生教育评价指标体系
初探教育评价的改革
“课堂观察”国外研究初探