乌都木丽,朱佳瑜,阿仙姑·哈斯木
(1新疆医科大学基础医学院病理学教研室, 乌鲁木齐 830017; 2新疆医科大学全科医学院; △通讯作者)
随着高等医学教育改革的深入,医学教学过程中已经普遍采用形成性评价(简称形评)方式对学生成绩进行考核。教学需要不断反思,作为教师,我们对每一种能够提高教学效果的方法和变革都极力配合,但是当下不能忽视形成性评价出现的问题,必须深思问题背后的原因,寻找解决问题的策略。
在病理学考试结束后,学生会得到一个综合成绩。该综合成绩的60%-70%是学生的期末笔试成绩,另外30%-40%是学生平常积累的形评成绩。我们对过去三年进行形成性评价的50个临床医学本科班级、74个非临床本科班级以及18个高职班级学生的期末笔试成绩与加上形评成绩后的综合成绩进行了比对,通过比较各个分数段,发现两个问题。
期末笔试成绩最高分和最低分的最终综合成绩受到形成性评价成绩的影响迥异。临床医学专业50个班级成绩最高分的学生期末笔试成绩加上形评成绩后与最终综合成绩几乎是一样的,甚至会低几分(如图1A-D),而最低分学生的成绩三个专业的班级明显都增加很多。如图1E-H所示,平均成绩和及格率也大幅度提升(图1I-P)。这些差异具有统计学意义,P<0.000 1。
图1 不同分数和不同专业的期末笔试成绩和形评后综合成绩的比较
最终综合成绩比期末成绩明显增多的这种情况在74个非临床专业班级中更为显著。我们对18个高职班的学生也进行了形成性评价,发现高职班和非临床专业的最低分、平均分及及格率都大受影响(表1所示)。将这种差值进行比较,可明显看出对临床专业最高分的影响是负的,而对非临床和高职专业最高分影响是正的,但增加幅度比较小,总的波动在1-2分左右。最低分分别增加14分、16分、13分,各专业之间的差异幅度也较小,差异没有统计学意义。平均分分别增加4分、6分、10分,及格率普遍增加7%、13%、23%(如表1所示),平均分和及格率的差异非常显著。这种改变极大减少了非临床医学专业和高职班需要补考的学生数量。
表1 不同专业期末成绩与形评后综合成绩的比较
通过以上暴露的两个问题,我们可以推断出综合成绩最高分的学生只能是在期末成绩和形评成绩都保证最高分的学生,对优等生造成了不必要的心理负担;同时有一类学生非常聪明,掌握知识又快又好,考试成绩优秀,但他们并不屑于参与平时形成性评价,没有得到优秀形评成绩,综合成绩很可能会变成中等而被埋没;另一类学生平时浑水摸鱼,不重视知识的积累,但由于形成性评价是分组完成,因此即便在完成过程中并未发挥任何作用,依然可以跟随其他组员获得较高形评成绩,但最终必须独立完成的期末考试成绩很低,却因为形评成绩而及格。这类学生在非临床专业和高职专业中占大多数,这让教学效果大打折扣,同时传递给下届学生错误的信息,促使很多学弟学妹纷纷效仿,破坏了学习的氛围,更不注重知识的掌握。
形成性评价符合高等医学教育着重培养学生综合素质的要求,在国内医学教育中的应用日益显著[1-3]。但是我们也遇到了上述的问题,因此在反思的同时必须明确形成性评价的内涵。
形成性评价从1967年提出到现在,经历了漫长的演进,由课程整体评价逐渐发展为对教育过程的持续性评价与反馈,其本质是教师通过对学生所学知识掌握的程度进行连续性评价,通过评价反馈不断修正教学活动以提高学生学习效果,达到了解教学效果,获得教学反馈信息和改进措施的目的,总结对学生学习有益的反馈信息来辅助教学[4-8]。
通过比对形成性评价的本质,我们发现一直以来对形成性评价的理解是片面的:首先,形成性评价的主体是多元的、全方面的,包括教师评价、学生自我评价、同学评价和管理人员评价等[6],而我们忽略了学生评价和同学评价;其次,形成性评价是不限形式的,凡是能定性或定量的资料均可用来分析,而并非一定要方便存档的书面材料,如实验报告、阶段性测试成绩等;最后,我们混淆了形成性评价与终结性评价的形式。形成性评价的目的是教师及时获得教学反馈,从而能够掌握学生对知识的接收程度,熟悉学生的学习状态,了解学生的学习进展,明白学生的疑惑和问题,通过这些反馈及时调整教学方法,修改教学策略,激发学生的兴趣,使得学生能够及时受益[9],而并非简单地将多次的阶段性测试、课前课后测试等结果在期末后进行整理得到形评成绩。这种做法是分阶段的终结性评价而并非形成性评价,一旦在时间上有延迟,就无法对教师的教学起到及时反馈和修改的作用,也失去了形成性评价的本质。
我们发现一直以来的形成性评价并不符合其本质,需要按照形成性评价本质的要求重新设计课堂。然而在此过程中,按照形成性评价的初衷进行教学评价又很难进行,具体有以下3个难点。
形成性评价有“FED”三个实施要素,即:“F”(feedback)反馈,“E”(encouragement)鼓励,“D”(direction)引导[10]。首先,形成性评价的反馈是需要实时的,而且应该是频繁的,但是频繁的反馈容易引起学生反感[11]。因此,这种实时反馈周期是否需要进行量化,又如何量化是一个难题,是每次上课后、还是某个章节后,是一周一次、还是一月一次;实时反馈的形式是同学评价,还是课前或课后测试,还是学生自我评价;教师获得反馈后如何进行教学方式的调整,如何保证所有的班级都完成了反馈和修改,这种反馈如何进行监督也是难点。其次,第二要素(鼓励)的实施也是难点。教学过程中一个班级50人左右,有些大班甚至上百名学生,而教师和课时都是有限的,很难保证能够鼓励每一个学生。另外,虽然提倡对学生进行积极的鼓励,但简单的表扬缺乏信息反馈,可能会让学生更注重被表扬满足的虚荣心而忽视对课程内容的掌握[12],而且一旦鼓励变成了评价的一部分,让学生和教师都认为鼓励是有目的的并非真心,也削弱了鼓励的效果。最后,难以实施的要素是引导。引导的实施者是教师,教师引导学生的前提是发现学生的问题。这需要反馈为基础,否则就无法及时引导。另外,实施引导的关键是教师的水平。然而高校教师水平参差不齐,有调查表明多数高校教师对形成性评价了解但并不深入[9]。教师在完成反馈后再进行引导需要花费更多的时间和精力,是否每位教师都能够持续对学生进行引导,如何监督教师完成引导学生的过程都是难点。
教师在病理学形成性评价过程中普遍会将学生课堂考勤、课后作业、实验课成绩、阶段性测试成绩、案例讨论、小组作业、课堂提问等多种形式内容的指标当做形评的一部分。如果选择课堂表现或者课堂提问,会发现一个学期结束时并不是每个学生都被提问到,或者被提问的问题难度不一,导致学生认为打分并不公平,且这些内容非常零散不方便存档,不能充分体现形成性评价的应用,也不能应对国内统一标准的教学评估检查[9]。因此,会选择比较方便存档的书面材料,如实验报告册、平时作业、实验课考试成绩、阶段性测试成绩、案例讨论、出勤名单等。可供形成性评价的内容很多,然而这些内容在最终的综合成绩占比不同,往往出现以下两种情况。
3.2.1 形评内容多而散时,学生和教师出现倦怠的心理 学生每周要面对多门课程多种类型的形评内容,每项形评内容占比都不同,有些占比很少。而教师也需按时收集多个班级繁杂的形评数据,进行保存留档折合分数。繁琐的过程让师生都处于倦怠的状态,无法保证实时反馈。
3.2.2 形评内容较少而精准时,学生会出现功利行为 当形评内容精确后,学生开始算计哪些分占比多且容易与其他学生拉开分数。比如阶段性测试成绩占比较高,次数也较少。目前大多阶段性测试都在雨课堂或者学习通中线上进行,有时没有教师监考,有些过于机智的学生就愿意冒风险通过各种作弊的方式,甚至团队合作答卷的方式获得高分;而实验报告册成绩占比很少,辛苦一学期结果就折合为5分,虽然每次都需按时完成,但无论完成好坏都会有较高分数,很难有人能得满分,也很少有人得零分,学生之间不易拉开距离,所以学生更倾向于花少时间、低质量完成或者抄其他学生甚至往届学生报告册等行为糊弄教师。当学生开始利用形成性评价时,他们的重点并不在于检测自我对知识点的掌握程度,而是算计分数的重要性。这与形成性评价激发学生兴趣,提升和改进学生的学习状态等初衷背道而驰。因此,形成性评价内容很难全面纳入评价中。
目前,多数课程的形成性评价都与期末笔试成绩按一定比例折合成综合成绩,对学生掌握知识情况进行评价,但是综合成绩中形成性评价成绩与期末成绩占比并不统一。以病理课程为例,有一些学校采取期末成绩占比70%,形评成绩占比30%[13],也有分别占60%和40%[14]及各占50%[15]的情况。我们可以将最终综合成绩为60分及格作为标准,比较一下各种占比的极端情况。首先,如果形评成绩60分以上,期末笔试成绩60分以上,无论两者以何种比例得到的综合成绩都将是60分以上,因此我们可以不考虑这种情况时两者的占比。其次,如果期末成绩占90%,形评成绩占10%,则会出现两种极端情况,一种形评成绩假设为100分,期末成绩需考够56分,综合成绩才可及格。另一种形评成绩假设为0分,期末成绩保证67分以上,综合成绩也能及格(如表2所示);如果形评成绩和期末成绩各占比为80%和20%、70%和30%时也可以这样推理,即这种占比的情况下,学生完全可以忽略形评成绩就可以保证通过期末考试的分数达到综合成绩的及格。但当形评成绩占比到达40%以上后,学生不能够再忽视形评成绩,因为即便期末成绩能够达到100分,没有形评成绩则最终的综合成绩无法大于60。因此,我们认为至少形评成绩要占比40%以上才能体现形成性评价的存在意义。但是当形评成绩占40%以上时,期末成绩40分以下的学生也能通过形成性评价成绩进行提分从而使综合成绩及格。这种情况下,综合成绩并不能够达到对学生的知识掌握情况进行评价的作用。试想一个学生期末成绩只考了45分,但是由于形成性评价占比60%以上,所以形评成绩达到84分就可以及格。而形成性评价达到中下的84分,学生很可能通过按时上课,按时完成作业,按时参加小组讨论就可以得到,无需高质量完成,只需要参与即可。当然有人会认为形评成绩大于80分的学生期末成绩一定也不会太低,然而我们从不同班级三年成绩可以看出,有很多学生的综合成绩都是需要形评成绩才可以及格的。因此,我们认为形成性评价的成绩无论哪种占比都并不适合作为学生最终综合成绩的评价,因为以形成性评价为导向的综合评价并不能够体现教学效果。
表2 保证及格的形评成绩与期末成绩的最佳占比的比较
通过罗列以上形成性评价难以实施的困难,结合我国目前对学生成绩评价的需求,我们不难得出形成性评价并不适用于对学生成绩进行评价的结论,但不能否认形成性评价的本质非常有利于教学过程。有很多研究已经证实了形成性评价的重要性及对教师、学生产生的积极影响[16],因此我们提出了以下两种改进策略。
形成性评价的本质是能够将学生的学习状态实时、动态地反馈给教师,从而让教师改变教学方案,完成连续性的评价,在整个教学过程中形成“反馈-分析整改-实施-再反馈”良性循环的闭环管理[17]。然而在形成性评价实施过程中,很多教师按照形评内容对学生进行阶段性测试、批改作业、布置案例等,但却等到期末考试时才开始整理这些成绩,最后与期末成绩共同折合成综合成绩,并未在教学过程中及时处理反馈信息调整教学策略。因此,教研室如果保留形成性评价,让教师每次得到形评成绩后及时做出教学调整的说明并反馈给教学监督者,也可以对学生随机进行调查,掌握教师是否有效实施形成性评价。学生对教师形成性评价的反馈和教学调整进行打分,教师的形评实施作为教师考核的一部分。这个改动,提高教师的参与度和责任感,让教师真正关注学生的学习状态、学习兴趣,积极引导学生掌握知识点。同时学生也能够通过教师的重视和调整而改变自己的学习态度,不再是为了应付考试,不再是为了获得分数,而是以掌握知识为目的进行学习,从而提高教学的效果。
我们目前对学生的评价依然是以成绩为主,因此形成性评价可以在现有的模式上稍微改动一下,比如期末成绩依然占比60%,那么相应的形评成绩占比为40%,形评成绩依然是阶段性测试成绩、课前测试、章节测试、案例讨论、实验报告册、实验成绩等。但不同的是,我们不限定考试次数,学生可以在学期结束之前不断考试,直至考到自己满意的分数。比如学生课后测试考了40分,他可以找教师再次开放考试权限,重新进行考试,假设第二次考到60分,学生可以再次要求开放考试权限,直到考到学生满意的100分为止;或者案例讨论,教师第一次给出70分,学生可以重新再做1次,请教师重新评分,直到满意。这个过程需要花费教师额外的时间,因此教师需要设计好每次进行集中补考的时间,可以是每次上课之前或者之后集中完成一次刷分的机会,考试时间设置、次数设置完全由教师根据自己的时间把握。通过这个改变,我们相信学生每次的进步都是主动自己争取的,也避免了分数压力驱使的作弊行为,增强了学生和教师的交流。学生会像玩游戏闯关一样提高自己的成绩,如果失败了就重新再来一次。这种设置符合当下当代大学生呈现出的“自主化的学习方式、网络化的娱乐生活”等群体特点[18]。感谢科技的发展,线上考试为教学提供了很大的便利,后台数据可以记录学生每次的考试情况,再考次数越多也能够体现相应教师的工作量。学生平时每次认真考试的结果一定会在期末成绩中体现出来,因此会成为良性的反馈。
教学过程是与时俱进的改革过程,教育的形成性评价也是时代的产物。然而时代在变化,科技在进步,线上教学和考核逐渐形成常态,网络技术应用到形成性评价中也成为目前研究和应用的趋势[19],甚至随着数字化变革,AI的发展将更精准地体现学习者动机、兴趣、情感等主体性,更加接近形成性评价目的的评价方式[20]。作为教育者,我们在形成性评价过程中要不断地总结和改进。通过分析三年内临床医学专业、非临床医学本科专业及医学高职专业的形成性评价对综合成绩的影响差异,发现形成性评价对不同个体、不同专业的不公平现象,深思了形成性评价的本质,反思了目前的形成性评价模式,剖析了真正的形成性评价难以实施的原因,最终提出将形成性评价的实时性反馈作为重点,并将学生的综合成绩改为期末成绩和可以无限次刷分的形成性评价成绩相结合的改进策略。希望我们的改进策略能够经得起推敲,为广大的医学教育者们提供见解,推动形成性评价体系的改革。