基于分数膨胀现象的教学评价改进方法

2023-12-30 15:33廖睿智陈奕含李树祯
高教发展与评估 2023年6期
关键词:均分方差分数

张 傲,廖睿智,陈奕含,李树祯

(1. 香港中文大学(深圳),广东 深圳 518172;2. 南开大学滨海学院,天津 300270)

一、分数膨胀现象及原因

教学与科研是高校教师的两项主要活动。其中,教师的研究成果与质量主要由在该领域有一定成就的同行参照教育部门或学校标准来进行审查和评价。由于评价者与被评价者之间的利益关系并不直接,因此能在成本较小的前提下,得到较为客观的评价结果。相对应的高校的教学质量的评价,则主要在大学内部进行,常见的评价形式有校内同行评价、管理者评价和学生评价。校内同行由于存在一定的利益关系,评价结果存在着一定程度的失真;学校的管理者由于并未直接参与教学,因此间接性的评价缺乏说服力;学生作为教学活动的参与者和直接受众,其意见收集较易获取且相对直观,因此学生评教成为了大多数高校教学评价的主要手段。然而,在过去的几十年里,世界大多数采用以学生评教为主要教学评价手段的高校均出现了明显的分数膨胀(Grade Inflation)现象。[1]

根据Rojstaczer 和Healy 对美国200 余所公立和私立高校过去70 年的本科学生成绩的统计[2-3],在1940—2012年的70年间,获得A的人数占比几乎翻了3倍;获得B的人数占比在保持在30%—40%之间,变化较小;获得C的人数占比显著下降。根据Bachan的研究,英国高校也存在分数膨胀现象。自20世纪90年代以来,英国高校一等学位(First class)的比例从1996年的60%左右上升到了2012年的72%。[4]高分层人数越来越多,明显超过了学生真实水平的增长,即所谓的分数膨胀现象。这导致了分数的贬值、区分度的降低,以及学生学习积极性的减弱。

近年来,我国也出现了分数膨胀的趋势。天津大学档案馆分析了自2008 年到2017 年间共37 713 条学生成绩数据(图1)发现:天津大学学生的平均GPA 从2008年的2.95上涨至2017年的3.16,提升了0.2个绩点;成立时间相对较晚的专业或院系的平均GPA 往往更高。[5]北京大学学者赵颖和哈巍对国内某研究型大学2012—2017年本科课程GPA数据的研究显示:2016—2017学年相对2012—2013学年整体优秀率提高了7%,且该大学整体优秀率一直在上升[6];百分制下全校课程平均分由2012秋季学期的82.9分上升到2017春季学期的84.2分,5个学年增长了1.13%,平均每年增长0.28 分(百分制下平均分提升1 分约等于4 分制的GPA 提升0.1 个绩点);人文类与经管类课程分数膨胀尤为明显;纵观2012—2017 年这5 年间,该校分数膨胀速度已经高于全美GPA 的膨胀速度(美国平均GPA 每10 年增长0.1 个绩点)。[6]此外,根据北京大学学者丁山和何小浩对某大学1992—2003 年所有26 552 名在校学生共1 093 123 条成绩数据的研究显示,从1999 年秋季学期开始,该校学生的平均成绩呈现明显的上升势头。[7]35-42

图1 天津大学2008—2017年平均GPA变化趋势

造成分数膨胀现象的原因表现在如下几个方面:

首先,随着高等院校的扩招,高校毕业生的数量迅速增多,而就业市场在产业结构和科学技术未发生重大变革的情况下,难以保持与毕业生数量相同的增长速度,高校毕业生的就业状况迅速恶化,继续升学成为延缓就业压力的有效途径,而短期内的分数膨胀可以提供相对更好的升学机会。社会以及教育系统对分数膨胀的认知变化过程相对缓慢,院校可以利用信息时间差在短期内提升升学率与就业率。[8]

其次,部分用人单位的应聘条件变相地助长分数膨胀现象。例如,人事部门在招聘时会限定报名者在校期间所修课程必须全部合格,无补考记录。[7]35-42在就业压力下,无论是教师或管理人员都尽量避免低分,变相助长了分数膨胀现象。

此外,留学需求巨大。2019年中国留学生总量约为70万。由于GPA是境外高校衡量学生表现最重要的指标之一,因此分数膨胀的高校在短期能利用信息差在录取中占据优势,庞大的留学需求催生高校抬高绩点。

综上所述,学校管理者、教师和学生之间的关系逐渐异化为类似经济环境内委托人、代理人和消费者之间的关系,形成代理人问题。代理人是为了更高效工作,委托人无法直接观察并评价代理人的行为。随着代理人数量的增加,委托人与代理人之间的不对称关系逐渐加剧。消费者的意见如何帮助委托人实施管理?代理人对消费者的偏好如何应对?这是代理人问题的核心内容。[9-10]

在代理人利益与消费者评价捆绑的制度中,满足消费者的偏好成为了代理人的预期策略。学生希望得到好的成绩以得到更好的升学或工作机会;教师为了获得更好的教学评价而迎合学生对高分的偏好;在与用人单位信息不对称的条件下,学校为了短期的就业与升学数据,冒着损失声誉的风险迎合分数膨胀的趋势。学校、教师与学生在保持个体理性的前提下陷入了一种对个体短期有利,但长期对整体不利的恶性循环,如图2所示。无论是学校、教师还是学生都无法保持理性打破整体恶化的囚徒困境,进而导致持续的分数膨胀现象。

图2 基于教学评价的三方博弈

对于社会发展来说高等教育具有正外部性。让学生作为“消费者”对代理人行为进行评价,以学生的评判来衡量其所受教育的社会价值,并以此作为学校管理者进行管理与实施奖惩的重要依据,这种做法实际上忽视了高等教育的正外部性,带来诸多社会负面影响。[11]

在高校层面,学生评教制度的初衷是希望对高校教职人员的教学质量进行客观的评价,进而用于教学水平评估、评优、晋升或留用等诸多决策的依据。然而,部分教师用给予高分来换取更优评教结果的行为干扰了高校教职人员考评系统的准确性和公平性。学生在选课阶段倾向于选择给分高的课程,而不是教师水平更高、自身更感兴趣或内容更丰富的课程。学生凭借膨胀的分数在评优、选拔、毕业、海外升学等方面占据优势。这种现象严重影响了学生评价和人才选拔体系的公平性。高校有限的资源很可能会出现错配,产生经济学领域的“劣币驱除良币现象”,即分数虚高代替了综合表现较好的学生取得更多资源。

从社会角度上来看,分数膨胀造成的信息不对称现象影响了高校学生在社会招聘中的公平性。分数膨胀现象降低了高校教学质量,削弱了学生实际能力,造成人才市场对高校教育不信任现象,并增加了用人单位对高校毕业生的考察与培养成本。高等教育本质是为社会发展服务,然而分数膨胀现象引发了学生评教的准确性、教师评价的公正性、学生选拔的公平性以及高校教育质量的权威性等社会问题,因此,改善现有评教体系对抑制分数膨胀具有重要的意义。

二、典型教学评价体系的对比与分析

自1960年开始美国公立与私立大学开始出现分数膨胀现象,且私立大学的分数膨胀现象更加严重。1960年以前,无论是公立高校还是私立高校的A率(A range)与平均分(average GPA)都保持在较为合理的范围;1960年以后私立高校的分数膨胀现象开始超过公立高校,且随着时间的推移越来越严重。1960—2007年,两类学校的分数分布都由大致的正态分布变成了明显向高分层集中的偏态分布。2007年,在C、D、F 区间上私立高校的人数已经明显少于公立高校,两类学校的B 率人数保持稳定,由于私立高校的A 率显著高于公立高校,且私立高校的低分层比例远低于公立高校,导致两类高校的GPA 差值保持在0.3 左右,如图3 和图4 所示。受此启发,本研究将结合他们的偏态分布图像,从控制A 率与控制均分两个角度进行探究,试图找到一种更有利于抑制分数膨胀的方案,从而分析总结出客观有效的教学评价体系。

全球各地大学普遍选择在分数公布前进行学生评教,以免学生将在课程上得到的分数与教学评价挂钩。尽管如此,学生对课程的预估分数还是会影响他们对教师的课程评价。[12]如果一个学生根据已修这门课程同学的评价和自己的课程表现预估自己在某课程会得到较好的成绩,该学生便倾向于给任课教师更高的评分。改良高校评教体系需多方考虑,一方面,分数膨胀的趋势需要加以抑制,减小教师以高分“兑换”更佳评教分数的可能性;另一方面,分数的提升显然也有部分原因来自于教育水平和学生学业水平提高。

哈佛大学的教学评价贯穿于整个学期。相比评判教师的教学水平,其更重视学生的学习效果,采取早期反馈与期末评价结合的机制,鼓励所有学生在课程开始后不久就对教学进行早期评价,这有利于教师及时调整课程内容与安排。早期反馈与期末评价相结合的手段可以有效地减少学生的预期成绩给教学评价带来的影响。例如,一个学生在课程早期反馈不理想,也许是因为该生基础较弱,预期成绩不高,从而存在教学评价负面的可能性。相反,如果一个学生在教学中所得甚多,对于同一年级水平相似的其他同学而言,他们最终成绩高低并无明显差异。但由于人们往往有着高估自己成绩与水平的倾向,而对外界环境的变化,如其他同学的变化与进步经常被忽视。因此,一个收获甚多的学生无论其基础和最初预期分数如何,往往会高估自己的最终成绩。[13]这与基础薄弱且预期分数相对较低的同学给教学评价带来的负面影响相抵消,可以有效削弱学生预期成绩对于教学评教的影响,最终呈现出一个真实的教学评价。[14]

加州大学伯克利分校的评价方式十分多元,除了常见的管理者评价与同行评价外,在学生评价中还纳入了当届学生评价和毕业学生评价。由于教师与毕业生之间的代理人和消费者的角色关系已经解除,如果一个教师在课程中依靠较高的打分来“兑换”虚高的教学评价,学生可能会在后续的学习与就业过程中遇到困难,因此毕业生的评价更有利于还原该教师最真实的教学水平。此外,加州大学伯克利分校还采用了定性与定量相结合的方式,并在问卷中加入关于教学各个方面的开放性问题。这意味着加州大学伯克利分校一方面有着直观的统计数据,另一方面通过同学们富含情绪感染力的语言来获得直接且生动的教学评价,因此得到的结果也更具有说服力。

三、抑制分数膨胀的途径

衡量分数膨胀程度的两个重要指标是课程的A 率和均分。本研究团队抽取了香港中文大学(深圳)在2018年度的676名学生的成绩(脱敏处理),并对各门课程的A率与均分进行汇总后分别进行了排名,为了比较控制A率与控制均分两种手段的有效性,设计了一组对比实验。

第一步,比较两种控制措施下的分数膨胀程度。

假设学校A采取控制A率的手段来抑制分数膨胀,学校B采取控制均分的手段控制分数膨胀。为了保证两所学校有效贯彻抑制分数膨胀的手段,分别选取了香港中文大学(深圳)2018学年所开设课程中A率最低与均分最低的课程,并假设A率最低的10 门课程作为学校A 所开设的课程,均分最低的10 门课程作为学校B 所开设的课程。经过统计,学校A的平均A率为15.7%,学校B的平均均分为2.79。这两个指标接近图4近几十年大规模分数膨胀现象的开端,说明两校在各自的指标上初步实现了控制分数膨胀的目标。

为了衡量控制分数膨胀的有效性,将两所学校课程GPA的中位数与方差作为指示变量。课程GPA的中位数不受到极端值(如挂科学生的成绩)的影响,代表了在一门课程中,大多数学生所能得到的GPA;课程GPA方差可以被用来衡量一门课程的成绩是否拥有足够的区分度,能否将成绩优异的学生与成绩较差的学生有效地区分开,从而避免分数收缩现象(Grade Compression),提升分数本身价值与学生学习积极性。

统计与比较发现,学校B(控制均分)各个课程的成绩方差明显大于学校A(控制A率),说明学校B的课程成绩区分度显著大于学校A,能够对学生层次以及对知识的掌握程度进行有效的区分,即学校B分数的价值显著高于学校A;除此之外,学校A 的平均中位GPA(3.03)高于学校B(2.94),这意味着在不受到极端值影响的情况下,控制A率会增加学生成绩往中等成绩段汇聚的比例,如图5所示。

第二步,运用线性回归模型来分析课程A率/均分与课程GPA方差之间的关系。

试验1显示,约束均分的方案比约束A率的方案,能够更加有效地控制分数膨胀现象。试验2将采用线性回归模型,探求以下几个目标:

(1)分析在自由度修正之后,是否可以由A率/均分解释或预测的课程GPA方差样本的比例,即拟合优度Adj-R2。

R2最大值为1,值越接近1,表明线性回归模型对观测值的拟合程度越好;R2的值越小,表明拟合程度越差。通常,0.1-0.3 为弱相关,0.3-0.5 为中等相关,0.5-1.0为强相关。

(2)如果拟合优度较高,进一步对比当A 率或均分变化一个单位时,该课程的GPA方差将会如何变化。

试验2随机选取了香港中文大学(深圳)2018年度45门课程的平均分与A率以及成绩方差进行分析。

模型1 探究A率与成绩方差之间的线性关系

A率:

成绩方差:

课程人数是n,平均成绩是M,该课程每个学生的成绩依次是x1,x2,x3…xn。

线性回归模型1:

ui是误差项,它包含了造成该课程学生成绩方差与总体回归线预测值之间差异的所有因素;β0是回归线的截距;β1是回归线的斜率,它意味着当A率(Arange)变化一个单位时所引起的方差的变化。

如图6 所示,该模型的Adj-R2很小,这意味着回归模型对数据的解释能力较弱,A 率与成绩方差之间的线性关系很弱。这表明单单控制A 率,很难使课程成绩拥有足够的区分度。

图6 A率与成绩方差回归分析结果

模型2 探究均分与成绩方差之间的线性关系均分:

线性回归模型2:

如图7所示,该模型的Adj-R2达到0.6049,属于强相关水平,样本点大多靠近回归线,这意味着模型对数据的解释能力较强,平均GPA高低与分数方差大小之间的线性关系较强,回归线斜率β1是-1.52,当平均GPA提升1单位时,课程GPA方差将减小1.52个单位。线性回归模型数据表明控制平均GPA,可以使一门课程拥有足够的区分度,将成绩优异的学生与成绩较差的学生有效地区分开来,避免分数膨胀/收缩现象,提升分数本身价值与学生学习积极性。

图7 均分与成绩方差回归分析结果

综上所述,均分与成绩方差之间的回归曲线对数据的拟合效果更好。约束平均分而不是简单约束A 率的方案,使得分数分布更加稳定且更具区分度,也可以有效限制教师去迎合学生对于高分追求的能力。因此,约束平均分的方案可以更好地保证教学评价体系的真实性与有效性。

结语

精确实施“约束平均分”的做法并非易事。一方面,不同专业有着不同的特点,课程也有分类,比如专业必修、专业选修和大学必修等,各类课程的重要性各不相同,对学生掌握情况的要求也不尽相同,因此教师的评分不应严格按照“约束平均分”的要求一刀切。另一方面,每个学校的发展情况不同,进步的速度也有快有慢,因此均分的高低也应该随着的学校水平和发展阶段而调整,如实反映学生水平的变化。这些时效性和个性化的要求,难以在传统校园得到及时反馈。在智慧校园的大趋势下,借助智能设备与教学APP,实时监测并获取海量数据,利用大数据分析对课堂教学与学生表现进行“画像”,比对各个课程乃至各届学生的差异性,通过智慧校园的计算,综合考虑各个课程均分的差异,使得总均分保持在合理的水平。中国正处在由传统校园向智慧校园转型的关键时期,设计出一套科学客观的教学评价体系,有利于锻炼高水平的师资队伍,培养符合社会主义新时代要求的高水平创新人才。从抑制分数膨胀与改良评价体系两方面着手,结合上文探究出的方法,加上智慧校园有关物联网和大数据等信息技术的深度应用,必将能够实现教育反馈机制的时效性、准确性和真实性。

猜你喜欢
均分方差分数
方差怎么算
概率与统计(2)——离散型随机变量的期望与方差
分数的由来
无限循环小数化为分数的反思
柔性喂丝机均分盘CFD分析和优化设计
计算方差用哪个公式
可怕的分数
方差生活秀
面积均分线的推广
算分数