义务教育学校纸笔考试等第化评价的缘由、技术与意义

2024-05-21 13:40:32王旭东
广西教育·A版 2024年3期

摘 要:义务教育学校考试分数评价误差较大,并被广泛用于排名排序,违背了素质教育的初衷。顺应新时代教育评价改革和“双减”政策要求,在全面实施2022年版义务教育课程方案及各学科课程标准的背景下,义务教育学校应努力破除传统的考试分数评价,对总分实施等第化评价,有效促进学生学业与身心健康协同发展。等第划分必须科学合规、合情合理,可通过吸纳Angoff法和Bookmark法的优点,改良传统的固定分数法和百分位分数法,应用比较科学、可操作的简约型等第划分技术,提高等第化评价的准确性。

关键词:学校考试;等第评价;等第划分;Angoff法;Bookmark法

中图分类号:G62 文献标识码:A 文章编号:0450-9889(2024)07-0034-05

鉴于义务教育学校纸笔考试采用传统的分数评价、排名排序评价存在诸多弊端,为切实扭转这种不科学的教育评价导向,全面深化义务教育教学改革,促进义务教育内涵发展和质量提升,有效减轻学生作业负担和校外培训负担,中共中央、国务院在2020年印发了《深化新时代教育评价改革总体方案》,中共中央办公厅、国务院办公厅在2021年印发了《关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见》,教育部在2021年印发了《义务教育质量评价指南》和《义务教育学校考试管理的通知》、在2022年印发了2022年版义务教育课程方案及各学科课程标准,以上政策文件均要求义务教育学校提高教育评价的科学性、专业性、客观性,克服“唯分数”的倾向,取消分数评价,实施考试成绩等第化评价。2022年8月,浙江省教育厅发布了《关于小学生综合评价改革的指导意见》,在地方上率先开展了小学生综合评价改革,着力推行“等级加评语”的评价方式。面对国家和地方层面对义务教育学校提出的等第化评价改革要求,很多校长和学科教师思想上转不过弯来,不知道如何科学实施等第化评价。为此,笔者进行了相关的理论探析。

一、义务教育学校纸笔考试等第化评价的缘由

必要的考试是教学工作的重要环节。针对义务教育学校考试,教育部发布的《义务教育学校考试管理的通知》提出了许多明确的要求,如:小学一二年级不进行纸笔考试,义务教育其他年级由学校每学期组织一次期末考试,初中年级从不同学科的实际出发,可适当安排一次期中考试;各地不得面向小学各年级和初中非毕业年级组织区域性或跨校际的考试;学校和班级不得组织周考、月考、单元考试等其他各类考试,也不得以测试、测验、限时练习、学情调研等各种名义变相组织考试;等等。义务教育学校采用纸笔考试的做法由来已久,问题客观存在;改用等第化评价方式不仅有政策依据,而且有其不得不改的理由。

(一)学校分数评价的专业性不强

当前义务教育学校分数评价专业性不强,主要表现在以下三个方面。

首先,教师命题能力低下,导致义务教育学校很难研制出高质量的试卷。目前,大部分义务教育学校教师没有经过系统的命题技术培训,也没有参与过区域性统考命题工作,甚至不知道什么样的试题是合格的试题、什么样的试卷是合格的试卷。教学实践中,一些教师只能简单地模仿或套用区域统考试卷或者其他名校试卷,依样画葫芦地参考这些试卷的题型结构、试题排序、题量分布和分数结构进行学校考试命题,而很少研究一份试卷对所考查的知识、能力和素养的内容结构效度,很少研究试题的难度及其区分度的结构,很少研究试题赋分技术和评分细则,等等。

其次,试卷研制流程不规范,导致义务教育学校的试卷整体质量低下。一份优质试卷的产生,须经历命题方案研制、双向细目表研制、试题挑选与研制、组卷磨卷、审核定稿五个基本环节。虽然学校和教师都很重视考试,但是重视的是考试的安排及其分数评价,而不是命题流程的规范和命题的质量。由于学校考试次数较多,且各备课组人力有限,通常情况下各备课组每次命题只有一两人参与;即便有审核者,审核者常常也只是做一遍试卷,对试题中的学科性错误、答案是否正确进行把关。由于教师日常工作量都比较大,命题者常常会省去制订命题方案和双向细目表这两个流程,直接模仿他人试卷进行挑题组卷。在命题流程和试卷质量缺乏监管的背景下,学校考试的试题难度常常参差不齐,一些中学甚至常常出现学校考试难度高于中考的现象,有时还会出现一些不合格试题等命题的信效度问题。

最后,试卷批改过程不严谨,会加大义务教育学校考试的评分误差。一道标准的试题由题干(或情境)、设问、答案和评分标准构成。学校教师在命题的时候,常常会忽略了评分标准的设置。在没有评分标准的情况下,极易产生不同阅卷者扣分尺寸不统一的问题。在批改计算题、问答题等题目时,阅卷教师的主观性、随意性更大。此外,学校教师的阅卷任务较重。他们不像中考那样只改一道小题,而常常需要批改一大组试题,因此通常不能保障试卷批改的精度。加上一般学校没有像中考那样设计双评机制,可以对个别阅卷教师的评分误差进行及时纠偏,这便进一步导致了这些学校试卷批改精度的下降。

作为学科教学质量的测量工具,义务教育学校考试必须具备较高的信效度。然而,教师命题能力低下、命题过程粗放,势必导致试卷质量低劣,加上批改过程不严谨,有可能会加大考试分数的误差,因此,这样的学校考试常常不能精准反映学生的学科水平高低。比如,学校考试成绩94分的学生的学科水平未必高于92分的學生的学科水平;排序为第50名的学生的学科水平未必高于第55名学生的学科水平。

(二)等第化评价更加有利于学生的全面发展

教育部办公厅印发的《关于加强义务教育学校考试管理的通知》明确规定:“义务教育学校考试面对的是未成年学生,主要发挥诊断学情教情、改进加强教学、评价教学质量等方面功能,除初中毕业生升高中考试(学业水平考试)外,其他考试不具有甄别、选拔功能。”[1]义务教育学校组织的各学科考试都是过程性考试,不是终结性考试;是低利害的考试,不是高利害的考试;是标准参照考试,不是常模参照考试;是过关性考试,不是选拔性考试。高利害考试、常模参照考试、选拔性考试、甄别性考试采用分数评价方式,需要使用考试分数给学生排名排序;低利害考试、标准参照考试、过关性考试、非选拔性和非甄别性考试没有必要采取分数评价的方式。

教育部《关于加强义务教育学校考试管理的通知》要求义务教育阶段学校期中期末考试实行等级评价,一般分4至5个等级。国家义务教育质量监测将小学评价分为优秀、合格、待合格3个等级,初中分为优秀、良好、合格、待合格4个等级。参考国家义务教育质量监测的做法和《关于加强义务教育学校考试管理的通知》要求,笔者以为,小学阶段的学校考试评价可以分为3至4个等级,初中可以分为4至5个等级。各学校可以根据本校的学生规模确定考试的等第层级数:学生规模较大的,考试等第的层级可以多一些;学生规模较小的,考试等第的层级可以少一些。

国家义务教育质量监测学科考试的性质和功能与义务教育学校组织的各学科期中、期末考试相似。根据义务教育学校期中、期末考试的性质和功能,采取等第化评价不仅可以有效评价学校的教学质量,而且更加有利于学生的全面发展。

二、两种需要改良的学校考试等第划分法

义务教育学校采用等第化评价方式,存在两种较为常见的等第划分法,一种是传统的固定分数法,另一种是百分位分数法。目前来看,两种等第划分法都有待改良。

(一)传统的固定分数划分法

很多学校传统上以60分、70分、80分和90分作为学生成绩合格、一般、良好和优秀的划界分数,而不管试卷中考了什么、试题的难度如何。事实证明:60分并不能成为判断学生合格与否的“金”标准,它较适用于预先设置通过率(常模参照测验)的以选拔为目的的测验类型。而将60分作为标准参照测验的划界分数是一种主观性的划定,在许多情形下并不适合对学生进行科学的评价[2]。同理,用70分、80分、90分划线来区分一般、良好和优秀也不够科学、合理。

根据这种等第划分方法,如果整卷试题难度较大,评定为优秀和良好的学生人数就会比较少,评定为合格和待合格的学生人数就会比较多;如果整卷试题难度较小,就会出现相反的现象。从横向比较来看,同一次考试(如期末考试)不同学科考试的等第比例结构差异较大,有可能会出现语文A很多、英语A很少等学科不均衡、不合理的现象。从纵向比较来看,也很容易出现同一个学生同一个学科前后两次考试成绩等第的异常变化现象,而变化的归因很有可能是整卷试题的难度发生了变化,而不是学生学业真实的进步或退步。因此,用传统的固定分数划分等第不足以真实反映学生学业的进步或退步。

尽管这种传统的固定分数划分法操作简便,但因为缺乏科学依据而严重损害了考试的效度和信度,所以必须改良。

(二)百分位分数划分法

当前各省(自治区、直辖市)统一实施的学业水平考试大多将百分位分数作为分类的依据,县级学科考试也常常采用百分位分数等第划分法。一种情况为各等第比率一样,如A(优秀)、B(良好)、C(中等)、D(合格)、E(待合格)各占20%。另一种情况为各等第比率不一样,如A(优秀)占10%、B(良好)占20%、C(中等)占30%、D(合格)占35%或以上、E(待合格)占5%或以下。这两种百分位分数划分法,划出的等第结果与试卷难度无关,与考试内容无关,具有纵向、横向可比性,可用于增值性评价。

但是,按照以上等第划分法,不管试卷难度及学生课程目标达成度,各等第整齐划一,依然存在很大的弊端。简单来说,即便全体学生实际上都达到了课标的要求,也会有20%或5%的学生被评定为E(待合格);即便全体学生实际上都没有达到课标要求,也有80%或95%的学生被评定为合格及以上等第,甚至还有20%的学生可能被评定为优秀。

百分位分数划分法实际上采用的是常模参照考试的做法,本质上是将学生的表现与其他学生进行比较,而这并不符合当下基于课程标准的学校考试评价要求。可以说,它完全违背了基于标准的教育考试的初衷。因此,用百分位分数划分法划分考试等第的做法,同样必须改良。

三、义务教育学校考试等第划分的三种技术

(一)Angoff法划分技术

美国心理学家威廉·安戈夫(William Angoff)于1971年提出的Angoff法,是目前教育测量学中应用十分广泛的一种等第标准设置方法。该方法可根据各学科专家任务的不同进一步细分为概率法和对错法两种。“概率法”要求学科专家判断各等第表现考生能够正确解答某题的概率值,概率值在0—1之间;“对错法”要求学科专家判断各等第表现考生能否做对某题,能正确回答的题目赋值1,不能正确回答的赋值0,没有中间值[3]。

Angoff法的操作步骤有三个:(1)形成最低能力(各等第)表现考生的概念;(2)学科专家判定测验的每一个题目并赋值(“概率法”赋值范围为0—1之间的某一个数值,“对错法”赋值为0或1);(3)求出各学科专家对各等第最低能力表现考生判断的总分,其平均值即各等第划界分数[4]。

Angoff法常用于大型考试的划界分数设置,但该法侧重0、1计分题目的划界分数设置,并不适用于多级计分的题目类型。Angoff法最大的优点是直观,且相对容易理解,评判结果数据的收集和分析也比较容易,但是对学科专家的学科教育测量能力要求很高,包括专家对学科课程标准的把握能力、对教学目标的理解能力、对教与学效果的预测能力等。大部分一线教师很难对试题不同等第学生的得分率进行精准判断,导致题目赋值误差较大。因此,义务教育学校考试评价不建议直接采用这种等第划分技术。

(二)Bookmark法划分技术

Bookmark法最早是由Mitzel等在2001年进行系统描述的基于项目反应理论的设置标准等第划界分数的方法[5]10,是一种比较新的重要的標准设置方法[5]16,是近年来特别是在美国的K-12教育评价中得到广泛应用[5]11的一种标准设置方法。

Bookmark法一般分为4个操作步骤。(1)采用项目反应理论(IRT)对试题进行项目反应分析,将试题按照项目反应理论难度从易到难进行排列,每道试题放置一页,组成像书一样的题册。(2)有关学科专家以考试题目材料的难度参数值为基础,按照试题册的顺序讨论每道题目,判断等第中最低能力的考生答对所讨论题目的概率是否在2/3以上:如果低于2/3,则评判专家在相应的题目上放置书签,以此作为设置划界分数的依据。(3)专家们反馈并讨论第一次书签放置结果,再次放置书签。(4)向所有学科专家呈现所有书签放置结果,参照前两轮步骤开展第三次讨论,放置书签,结束Bookmark程序,或者视情况再进行第四轮、第五轮讨论。此外,若加以延伸,可按照相同的步骤设置良好、优秀等多重分数线[5]11。

在国内的考试机构中,掌握Bookmark法的人不多,相关研究文献和实际应用也较少。需要说明的是,要想采用Bookmark法,必须利用项目反应理论(IRT)对试题进行项目反应分析[5]11,而这是大部分学校教师难以做到的。因此,义务教育学校考试评价不建议采用这种等第划分技术。

(三)简约型等第划分技术

学科成绩等第具有一定程度的标签效应,合适的等第评价对学生学习具有激励和促进作用。等第评价相对于分数评价而言,虽然具有明显的模糊性,但是仍然不能随意化和主观化,必须讲究科学性、专业性和客观性。面对常态化的期中、期末纸笔考试等第划分工作,在各备课组教师普遍缺乏学科教育评价专业技能的情况下,义务教育学校不能简单模仿国家教育质量监测、省级教育质量监测和市级教育质量监测的做法采取Angoff法、Bookmark法等专业性很强的等第划分技术,必须找到一种更简易且更具可操作性的等第划分技术。笔者团队基于Angoff法和Bookmark法,结合义务教育学校一线教师考试评价能力和评价工作的特点,研制出了一种具有一定程度科学性和可操作性的简约型等第划分技术,该技术有下面三个操作步骤。

第一步,构建校本化等第结构模型。校本化等第结构模型有两类。第一类模型侧重客观性评估功能。学校可根据多年来市级教育质量监测、省市中考、县域期末统考中本校学生各等第占比数据和本校学生生源实际,拟建本校不同学段学生各等第比率结构模型。平时学校考试各等第情况分布可以与该模型相近。例如,若模型中A占34%、B占41%、C占22%、E占3%,则平常考试中可按A占35%、B占40%、C占20%、E占5%的比率结构进行设置。鉴于义务教育学校实行的是“划片招生,就近入学”的政策,生源情况相对稳定,这种基于大规模考试数据的模型也就相对可靠。第二类模型侧重考试评价的促进功能和激励功能[6]。如:小学阶段待合格比例约在5%以下,一二年级优秀率约在70%及以上,三四年级优秀率约在60%及以上,五六年级优秀率约在50%及以上;初中阶段待合格率比例约在10%以下、建议5%以下,七年级优秀率约在50%以上,八年级优秀率约在40%以上,九年级优秀率约在30%以上。显然,第二类模型的优秀率和良好率比较高,待合格率很低,具有显著的标签功能,会发生皮格马利翁效应。

第二步,参考Angoff法、Bookmark法初拟划线分。这一步,需要做好以下几项工作。(1)统计难度值。考试阅卷后,统计每一道试题的得分率和得分值,同时按照校本化等第结构模型计算不同等第学生的每一道试题的得分率和得分值,并按全体学生的难度大小由易到难排序,形成excel电子表;这些数据将成为学科专家的重要参考。(2)组建学科专家组。人数3—7个,以本备课组教师为主,其他备课组教师为辅。如果都是本备课组教师,容易出现自我利益化倾向,从而影响划线的公正性和客观性。学科专家尽量选用有三年及以上教龄的比较优秀的教师,优先选用参与过命题、具有一定命题能力的教师。(3)作答试卷。统一时间、统一场所,组织学科专家作答试卷,并预测不同等级学生每一道试题的最低得分率。(4)研读标准。当场组织专家研读本学科课程标准中的学业质量水平描述和教学要求,微调自己对试题的预测值。(5)初拟划线分。汇总统计各专家各试题的评价得分率、平均分和等第划线分。组织学科专家讨论交流,分析大家的预测数据和实考数据,研讨交流,初拟各等第划线分。

第三步,折中拟定各等第划线分。先按校本化等第结构模型,计算各等第的划线分。再将专家组的预测划线分和等第结构模型进行比较,取两者平均值。例如,专家组划线结果A占27%,等第结构模型中A占31%,则本次考试可初拟A为29%。然后根据试卷难度、区分度、信效度、分数分布和传统习惯等因素,将各等第划线分调整到最佳状态。例如,把初拟的A占29%微调为占30%,根据30%的比率逆向划定分数线;同理,重新确定各等第划线分,评定所有学生的等第。在这个环节,要合理微调A(优秀)和E(待合格)的划线分。如果试卷难度很小,没有60分以下的学生,则E(待合格)可以没有;若96分以上学生很多,比率明显超过等第结构模型值,也可以都认定为A(优秀)。

四、义务教育学校考试等第化评价的意义

(一)有利于学生的身心健康

根据考试分数排名排序,异化分数横向比较,已经成为当下教学评价的顽疾。义务教育学校存在考試结果使用不当等突出问题,违背素质教育导向,造成学生应考压力过大、心理负担过重,损害了学生的身心健康。

“考考考,老师的法宝;分分分,学生的命根。”这种落后的考试观和评价观已经严重影响了学生的身心健康。尤其是小学生,他们对数据差异特别敏感,相差一分,就感觉相差很大,会误以为自己水平显著低于别人,以为自己的学习成效不如他人,从而产生学习焦虑。又因为同分现象比较多,差异一两分,位次排名有可能相差几十名,会在无形中增加学生的心理负担。再说,学校考试成绩相差两三分,都在误差范围以内。消除分数化评价是应对“甄别与选拔功能”釜底抽薪的重要举措,是“减负”最有效的手段之一。

为了严格遵守评价的伦理规范,尊重学生人格,保护学生自尊心,学校对学生必须采取等第化评价。采取等第化评价,没有了排名排序,则有利于学生消除“与他人比较”“分分计较”的思想;也会大幅度减少考试作弊现象,有利于学生“诚实”品格的养成;还会大幅度降低学生之间的学业竞争,有利于学生之间的合作学习。

(二)有利于教师面向全体学生因材施教

传统的分数评价,导致教师普遍存在“第一名”“前三名”“前十名”的升学思想。如果班级中出现了“第一名”,就会标榜出了“状元”;如果班级中出现了“第二名”,就会鼓励并大力支持“第二名”在下次考试中争当“状元”;如果班级中出现了“第三名”,就会自我标榜进入了“前三甲”;如果班级中出现了“第四名”,就会鼓励并大力支持“第四名”在下次考试中力争进入“前三甲”;如果班级中出现了“第十名”,就会标榜进入了“前十名”;如果班级中出现了“第十一名、第十二名”,就会鼓励并大力支持他们在下次考试中力争进入“前十名”。通常情况下,前十几名学生的学科水平都处于同一个水平层次,没有必要鼓励和支持他们开展过度的学业竞争。在这种传统的升学思想指引下,分数评价误导了一线教师格外关注优等生的培育,而忽略了大量中等生和部分后进生的培育。

采取等第化评价以后,教师的关注对象将不再是“第一名”“前三名”“前十名”,而是将关注重心转向待达标学生和等级边缘学生,即更加關注全体学生的等级跃迁。因此,等第化评价可以引导教师树立起教育教学“面向全体”的思想,努力使每一个学生都能达到国家课程标准的要求,更加重视后进生的转化,不让一个学生掉队。如此则会缩小学生成绩标准差,控制两极分化的程度,从而整体提高学校教学质量。

(三)有利于学校改进教学质量观

目前,很多学校仍然采用考试平均分比较的方法衡量教师的教学质量。即使平均分差异非常微小,没有本质差异,也要排出次序高低。虽然这种不科学的水平评价历史悠久,但是并没有得到教师们的认可。采取学生等第化评价以后,学校对教师的教学评价将由“整体水平评价”调整为“整体结构评价”,即通过学生等第分布结构质量评估教师的教学质量。

例如,初中整体结构公式为M=4A+2B+1P-4E,小学整体结构公式为M=4A+P-4E。A、B、P、E分别代表优秀、良好、合格、待合格学生的占比;各等第前面的系数为各等第的权重值,系数大小反映重视程度和评价导向。由于E(待合格)的系数权重与A(优秀)一样,会引导教师高度重视待合格学生的转化帮扶工作。

(四)有利于家庭教育“五育”并举

通常情况下,家长看待孩子的考试分数很片面,一般不管试卷难度、不管是否达到课程标准。如果分数比较低,或者分数不如其他同学,就想送孩子去校外培训机构补习。也就是说,学校考试分数评价对家长有误导性。大规模义务教育监测数据发现,大部分学生没有必要过度进行文化学科的补习。采取等第化评价后,没有了分数评价,便可以让部分家长把精力从刷题教育、应试教育转向德育、体育、美育和劳动教育,从而有利于家庭教育的“五育”并举。

综上所述,顺应新时代教育评价改革的需要,义务教育学校必须破除传统的考试分数评价,实施等第化评价。等第化评价只有做到了科学合规、合情合理,才能有效促进学生的学业与身心健康的协同发展。这种评价导向的改变,不仅仅指向期末考试,而且指向平常的过程性学科评价,这将成为义务教育学校学科评价改革的一大趋势。

参考文献

[1]王旭东.义务教育学校考试的性质探析[J].浙江考试,2022(10):58-61.

[2]刘欣颜,刘晟,刘恩山.学业质量水平等级标准设定及其启示:以小学科学学科为例[J].教育学报,2016,12(2):34-40.

[3]余嘉元.Angoff方法有效性的检验研究[J].教育研究与实验,2008(1):54-57.

[4]陈梦竹,张敏强.Bookmark法设置划界分数的研究述评[J].心理科学进展,2009,17(5):1102-1108.

[5]王晓华.Bookmark法在基于标准的教育考试中设置划界分数的应用[J].中国考试,2014(7):10-18.

[6]王旭东,周家荣.落实“双减”,学校考试要回归正道[J].云南教育,2022(7/8):58-60.