侯乃铭,徐 路
(1.铜仁职业技术学院人文学院;2.铜仁学院大健康学院,贵州 铜仁 554300)
教育评价作为体现、维系和实现高质量教育公平的重要手段,倍受政府相关机构和教育工作者重视[1]。2015 年,在美国《每个学生都成功法案》中,把教育评价的目标描述为“缩小成绩差距并为所有学生提供公平和高质量的教学”[2]。2020 年,中国《深化新时代教育评价改革总体方案》明确指出要“促进学生全面发展的评价办法更加多元”[3]。可见,建立一套以公平为重点的高质量教育评价体系,尤显重要[4]。目前,在教育评价中,多使用某个项目的得分数据进行计量,以评价一组研究对象在该项目上的表现,作为深入分析数据和决策的基础[5]。其中,最常用的计量方法是用算术平均数。算术平均数反映了数据的一般水平或集中趋势,但是,由于高值和低值互相抵消,算术平均数容易掩盖或忽视得分较高或较低的个体的表现,有时并不能充分地反映整体的表现,进而导致评价结果偏离或违背教育评价的公平标准[6]。此外,根据分值高低的分级方法(例如优秀、良好、合格和不及格的分类)也是常用的方法,分级虽然较全面地反映得分数据的分布,但是这种分类方法并不利于直接比较不同组别的结果优劣。
为解决持续存在的评价不平等问题,在判断学生能力时最大限度地降低评价标准制定者的主观因素影响,落实“公平而卓越”的教育评价价值,本文在参考h指数的数学思想的基础上[7-10],提出了h效率度和h损失度等两个用于教育评价的h型计量指数。这两个指数互为补充,分别关注整体中较低和较高分数的个体数,且考虑了分数水平及其所覆盖的人数。新型计量指数尽可能地反映出研究对象的整体表现,不忽略表现较差的个体,有望广泛运用于学生考试成绩及其他多种教育项目的评价,以体现评价的公平和测试项目的质量。
h效率度是指:在n个对象的得分中,如果最多有E%的对象的分值不低于满分的E%,则h效率度的值为E%。以某班级学生在一门课程中的考试得分为例,假设满分为100分,如果最多有60%的学生得分不低于60分,则h效率度的值为0.60;如果最多有90%的学生得分不低于90分,则h效率度的值为0.90,依此类推。很显然,h效率度可能的取值范围在0~1之间,对应的整体得分越高,h效率度的值就越高;要获得更高的h效率度值,必须有更多的对象获得更高的得分。反之,即使在整体中仅仅包含很少数分数较低的对象(其影响的大小与其在整体中所占比例有关),也会体现在h效率度中。因此,h效率度的值不仅考虑了得分的高低,还考虑了高分对象的个数。
h损失度是指:在n个对象的得分中,如果最多有L%的对象的分值不高于满分的(100-L)%,则h损失度的值为L%。显然,h损失度=1-h效率度。仍以某班级学生在一门课程中的考试得分为例,假设满分为100分,如果最多有40%的学生得分不高于60分,则h损失度的值为0.40,这大致对应于有40%的学生不及格(<60分)的情况(此处忽略了得分正好等于60分的对象,在本文的讨论中无关紧要)。针对一门一般的课程考试来说,h损失度的值为0.40,即有40%的学生不及格,这显然并不是一个令人满意的结果。如果最多有20%的学生得分不高于80分,则h损失度的值为0.20,就教育评价来说,这就对应了一种较前者好得多的情形。如果h损失度为0.10,虽然这看起来是一个比较小的数值,但是仍然反映出在教学上有改进的必要和空间,如果要继续降低h损失度的值,显然需要付出更大的努力,因为必须要有更多的学生获得90分乃至更高的分数。很显然,h损失度的取值范围也在0~1之间,对应的整体得分越低,h损失度的值越大,要获得更小的h损失度值,必须有更多的对象获得更高的得分。从某种意义上说,h损失度和h效率度是互补的,分别关注于整体中较低和较高分数的个体数,其共同点在于二者均同时考虑了分数水平及其所覆盖的人数,无论是高分和还是低分的对象,其比例在这两个指数中有所反映。
为比较不同的计量方法,本文用到了两个平行上课的本科班级在同一门课程中的期末考试笔试以百分制记分的成绩。另外,对某高中二年级11个班级的数学教学质量评价研究,用到了共计548名学生的教学质量评价结果和年度考试成绩(满分150 分)。综合教学质量是根据教师满意度、学生满意度、学习动机(通过考勤)、考试成绩和团队学科竞赛表现等五个方面权重相等的评价。
本研究涉及的统计分析和计算均在MATLAB2013b运行,采用作者自行编写的MATLAB代码。数据、计算h效率度和h损失度的MATLAB代码可通过电子邮件从作者处获取。
本文用到的考试得分数的原始数据如表1所示。
表1 两个班级在同一门课程中的考试得分
数据的指标计算结果如表2所示。
表2 两个班级得分的初步计量指标对照
由表1、表2可知,两个班级分别有39名和38名学生,平均分数分别为70.59和70.63,中位数分别是71.00和72.50,虽然两个平均数的差异并不显著(P>0.05),但是无论是从平均值还是从中位数看,似乎B班级的整体分数更高一点。进一步考察数据的标准差和极差,结果如图1直方图所示。
图1 两个班级得分的直方图
由图1可见,B班级的分数分散度更大,分布范围也更宽。
h效率度的计算方法和几何意义。首先计算组内所有对象的得分百分位数,再以(1-百分位%)为横坐标,其对应的百分位数(/100)为纵坐标作如图2所示散点图。
图2 两个班级得分的h效率度计算
从图2可见,该散点图即能显示出所有得分的分布。根据h效率度的定义,h效率度即为散点连成的曲线下方容纳的最大正方形的边长,图2 中班级A 的正方形的边长为0.6650,其h 效率度的值即为0.6650。由此可见,h效率度同时兼顾了得分的高低(以分位数表示)和高分所覆盖的个体数(以分位表示),并赋予二者同等重要的地位。对班级A而言,其h效率度值为0.6650,意味着有66.50%的学生的得分高于或等于66.50。班级A 得分的中位数为71.00,说明有50%的得分大于或等于71.00,另外有50%的得分低于或等于71.00,至于得分的其他分布信息,中位数则无法提供。班级A 的平均得分值为70.59,由于高分和低分可以互相抵消,实际上平均数对班级的所有学生的得分分布情况提供的信息量最少。比较h效率度、中位数和平均数,h效率度重视高得分和具有高得分的学生数。同时h效率度具有统计稳健性,因为当n较大时,极端得分值的个体数目较少,所占的比例也较小,对h效率度的影响很有限;中位数倾向于稳健的评价整体得分的高低;平均数则既不稳健,所提供的信息量也最少。另外,h损失度可通过1-h效率度计算获得,与h效率度互补,反映了低得分的学生数,关于h损失度的更详细的说明已在前文给出,此处不再赘述。
本文数据分析的重点并不在于比较班级A和班级B得分的优劣。实际上,在本文给出的例子中,班级A和班级B各个指标的值差别并不显著。但是,上述结果的讨论仍然表明,h效率度和h损失度可以用来直观地比较不同组别的结果。h效率度和h损失度的计算兼顾了总体得分高低以及高分或低分所占的比例,这些比例的变化会引起h效率度和h损失度的变化,这正好符合了教育公平和教育平等的原则,要求在教学评价时平等地关注、考虑和评价对象的表现,以在教育决策和措施上给予适当的调整和反馈。同时,与平均值相比,h效率度和h损失度在统计学上更加稳健。很显然,根据定义,h效率度和h损失度还可用于评价考试成绩之外的其他研究项目的得分,只要这些项目的得分是连续的并具有确定的最高分和最低分。
为了比较不同参数的效能,以教学班级为单位,进一步研究了11个班级的教学质量综合评价结果和成绩指数之间的相关关系。综合教学质量是根据教师满意度、学生满意度、学习动机(通过考勤评分)、考试成绩和团队学科竞赛表现等五个相等权重的要素进行评价。教学质量评价的原始数据请见补充材料。指数的计算和教学质量评价的具体结果如表3所示。
表3 11个班级的数学成绩计量指数和教学质量评价结果
此外,每个指数与教学质量评价分项目结果之间的相关系数计算结果如表4所示。
表4 不同指数与教学质量评价项目之间的相关系数
如表4所示,与教师满意度和学生满意度的相关性最高的指数是中位数,分别为0.786和0.766,h效率度、均值与这两个项目的相关性则稍低。与学习动机相关性最高的是h效率度,r=0.707,明显比均值和中位数更加相关;与团队竞赛表现最相关的也是h效率度,r=0.676。学习动机是学生学习行为背后的重要驱动力,与学习成绩和学习表现密切相关。学习动机高的学生更有可能主动参与学习活动,保持积极的学习态度和行为。通过h效率度可以更好地反映学习动机,可以帮助教师了解学生对学习的态度和兴趣,从而为其提供更有针对性的反馈和指导。团队竞赛需要学生综合运用各种知识、技能和能力来解决问题。h效率度与团队竞赛表现相关性高,说明该指标更好地反映了学生的综合素质发展,如批判性思维、创新能力和沟通能力等。此外,在教育评价中对团队竞赛表现的重视,有助于培养学生的团队合作能力、实践能力和问题解决能力,推动学生的全面发展。
3个不同指数之间的相关系数如表5所示。
表5 不同指数与综合教学质量评价结果之间的相关系数
其中平均值和中位数之间的相关系数最高,为0.984;而h效率度与平均值和中位数之间的相关也较高,分别为0.969和0.939。另外h效率度与综合教育质量评价结果之间的相关系数最高,为0.910;平均值次之,为0.844;中位数则最低,为0.824。从上述结果看来,h效率度似乎和本文中的综合教育质量评价结果有更好的相关性,h效率度可以提供更全面的教学质量评估,有助于促进教师和学生的发展,推动教学质量的可持续发展。必须指出,由于综合教育质量的评价可以有不同的方法,必然也会导致不同的结果。因此,上述结果只说明h效率度有时候能提供一些不同于平均值和中位值的信息用于团体的教育质量评价,h效率度与二者的侧重点稍有不同,可以作为一个备选的指数。
针对平均数在评价对象整体得分时的局限,引入了文献计量学中非常流行的h指数思想,提出了用于教育评价计量的h效率度和h损失度指标。以班级课程考试成绩的得分评价为例,比较了h效率度、h损失度、平均分和中位数的评价结果。结果表明,h效率度和h损失度计算简单,具有互补性,不仅考虑了分数的整体水平,还兼顾了分数水平覆盖对象的多少,与平均数和中位数相比,为整体的评价提供了更加丰富和有用的信息。h效率度和h损失度分别关注高分群体和低分群体,具有统计稳健性,体现了教育公平对于教育评价的计量要求。对一所高中的11个平行班级的数学教学质量研究也表明,与平均数和中位数相比,年度考试成绩的h效率度与班级教学质量的综合评价结果有更好的相关性。还应指出,虽然本文以考试成绩的计量为例,但h效率度和h损失度可能有更加广泛的应用范围,只要评价项目的得分是连续的并具有确定的最高分和最低分,这两个新型指数均可提供一种简洁、有效的计量手段。