Rasch模型在试题质量分析中的应用
——以五年级科学期末试题为例

2024-01-04 09:12江苏省苏州市沧浪新城第一实验小学校华艳秋
新课程教学(电子版) 2023年18期
关键词:区分度估计值信度

江苏省苏州市沧浪新城第一实验小学校 华艳秋

一、问题的提出

《教育部办公厅关于加强义务教育学校考试管理的通知》(以下简称《通知》)明确指出,“义务教育学校考试面对的是未成年学生,主要发挥诊断学情教情、改进加强教学、评价教学质量等方面功能”,同时要求“大幅压减考试次数”,要求“小学一二年级不进行纸笔考试,义务教育其他年级由学校每学期组织一次期末考试”。这意味着期末试题的质量将成为有效实现考试功能的关键因素,客观、科学地分析期末试题质量在学情诊断的有效性和教学质量评价的真实性等方面都具有重要意义。通过查阅已有文献发现,一线教师对试题质量研究的关注度较低。国内已有的试题质量研究大多聚焦于中学试题,小学段的试题质量分析研究较少。因此,本文旨在探讨运用Rasch模型分析小学段试题质量的可行性,以期给广大一线小学教师的试题开发及质量分析工作提供助力。

二、基于项目反应理论的Rasch模型分析

当前的试题质量分析方法主要源于两种理论:经典测量理论(Classical Test Theory,CTT)和项目反应理论(Item Response Theory,IRT)。经典测量理论的弱假设、相对简单的数学模型、简单明了的数据统计方法等优势,使其得到了迅速发展和广泛应用。与此同时,它测量结果的顺序性(ordinal)、天花板效应、样本依赖性等缺陷也给测量带来了更多误差。项目反应理论作为一种非线性概率模型成功填补了经典测量理论的不足,利用强假设克服了测量结果对样本的依赖,实现等距(interval)测量。

Rasch模型认为被试在回答任一试题时,回答正确的概率(P)与被试的能力估计值和试题难度之间的差距(Bn-Di)存在着某种函数关系。这一关系的函数表达式如下:

式中Bn表示被试n的能力估计值,Di表示试题i的难度值。那么式(1)表示的就是能力估计值为Bn的被试n在回答难度为Di的试题i时正确作答(X=1)的概率(P)。

三、研究方法

笔者于2021年1月对S市某小学五年级学生进行了整体取样,学生独立完成测试题并当堂回收,得有效样本119份,其中男生59人,女生60人。运用Excel 2010统计作答得分情况并采用Rasch模型分析软件Winsteps3.72.0对数据统计结果进行分析,分析质量参数包括测量工具整体质量分析、试题质量分析和试题单维性分析。在此基础上讨论Rasch模型在小学段试题质量分析中的应用。

本次科学测试卷有五个大题共49个计分点,满分50分。其中标签为“302”的试题为画图题,采用0,1,2多级计分,其余题目均为二级计分。

四、应用Rasch模型对试卷质量进行分析

(一)检验质量参数及其指标

整体质量分析主要包括区分度与信度(Separation and reliability)和个人能力-试题匹配度分析(Person-Item Match)两个参数。测评量表的区分度与信度值包括试题区分度信度和样本区分度信度两部分。当二者的区分度大于2或信度值(Cronbach's alpha)大于0.8时可以认为试题的区分度与信度良好。个人能力-试题匹配度分析(Person-Item Match)参数表示试题难度值与个人能力估计值之间的匹配度。其中题目的难度估计值通常在-5logit~+5logit范围之内变化,需要将项目难度变化范围与学生能力估计值的变化范围进行比较,力求题目难度能覆盖不同能力估计值的学生,这一过程通常根据Wright图(或“怀特图”)分布来判断。

试题标准误差(S.E.)和试题拟合度(model-datafit)能较大程度地表现出单个试题的质量。标准误差表示对题目难度估计的准确程度,误差值越接近0,说明题目难度的logit分值精确度越高。可接受的误差范围通常在0~0.5之间。试题拟合度表示数据真实值与模型期望值之间的拟合关系,主要关注四个指标:加权后的平均残差(Infit MNSQ),未加权的平均残差(Outfit MNSQ),加权后的标准平均残差(Infit ZSTD,加权t值),未加权的标准平均残差(Outfit ZSTD,未加权t值)。其中对MNSQ的期待值为1,离1越远表明拟合度越不好。可接受的MNSQ范围是0.7-1.3。对ZSTD的期待范围是-2~+2之间。

质量良好的测评工具应当是单维的。测评工具的单维性要求指所有试题所检测的心理特质只有一个,学生在测试中对试题做出响应时不受其他潜在特质(latent trait)的影响。基于Rasch模型检验测评工具的单维性一般通过对残差(MNSQ)进行因子分析来判断。

(二)整体质量分析

运用Winsteps3.72.0对119名学生的测试结果进行分析,得到结果如表1所示(N=119)。

表1 整体质量分析数据统计

Rasch模型中通常将试题难度估计值设为0,个人能力估计值随着测试的不同而发生变化。检验结果显示,本测试卷的个人能力估计值为1.99,这意味着本次测试对大多数学生来说是比较简单的,同时说明该测试卷可能存在着对高水平学生能力区分度不高的问题。标准误差均在0~0.5之间(学生能力值标准误.09,试题难度标准误.21),说明本次测试对学生能力和试题难度的估计较为准确。

数据显示四个拟合参数(Infit MNSQ,Infit ZSTD,Outfit MNSQ,Outfit ZSTD)均在期待范围内,这表明本套试题整体拟合性良好,大部分试题具有较高的质量。在区分度与信度方面,试题区分度表现良好(区分度3.73>2,信度.93>.8),个人区分度和信度略低于理想值(.79<.8),说明部分学生的能力估计值无法得到有效区分,这可能和试题难度偏低有关。

基于Rasch模型的测量,可以将顺序的观测数据转化为线性的测量结果,实现真正的等值测量,这一优势体现在Wright图中。

本次测量的Wright图显示试题难度分布广泛且分散,说明不同难度题目的数量安排是基本合理的;与此同时,大部分学生能力值位于0以上,其中能力值为2logit值及以上的学生接近半数,却只有第11-2题用作区分;相应的,能力值低于0的学生人数仅6人却有大量试题与之对应。说明本次测试中大部分试题难度较低,对一半以上的学生都不具备区分功能。这一分析结果与整体质量分析数据中的信度值(.79<.8)实现了相互验证。

(三)试题质量分析

具体试题的质量分析包括对标准误差(S.E.)、模型-数据拟合指数(model-data-fit)的分析,它们可以通过气泡图(bubble chart)的表现来加以确定。本次测验结果的拟合度及误差表现如图1所示。图中X轴表示未加权的平均残差,期待范围是-2~+2。该值大于2时表示该试题拟合度不足(underfit),小于-2时表示该试题过度拟合(overfit),均难以对学生的真实能力水平加以有效测量或区分。气泡半径的大小表明测量误差的大小,半径越大则误差越大。从图中可以看出,大部分试题的outfit ZSTD值介于-2到2之间,说明这些试题拟合性良好。但第2-4、3-2、11-2三个小题拟合不足而第7-5和7-3两个小题过度拟合。测量误差方面,大部分题目的测量误差在允许范围内,但仍有4个题目的测量误差较大,分别是2-1、2-2、2-5、5-1,这意味着这些题目的测量结果的准确性不足。造成不拟合或误差大的原因很多,比如被试在考试过程中的偶然尝试、作弊、创造性作答等,有待结合题目和作答情况进一步进行分析,此处不再展开叙述。

图1 气泡图

(四)单维性

为检验本次测量试题的单维性,采用因子分析的方法进行检验,结果呈现在因子载荷分布图中,如图2所示。从图中可以看出,大部分试题的因子载荷分布在-0.4~+0.4之间,符合单维性要求。但A、b、a三个小题的单维性表现不佳,查表得出分别对应第7-2,5-2和第2-4小题。这表明这三个小题测试的心理特质不止一个,有一个或多个因素影响了学生的作答情况。

图2 因子载荷分布图

综上所述,本套测试卷基本满足信效度和区分度要求,大部分试题与Rasch模型实现较好拟合,但试题整体难度较低,对中高能力水平的学生难以进行区分。同时,部分试题的单维性和拟合性不佳,需要进一步分析。ZSTD也接近-2。这意味着过多学生对这道题反应一致,尽管有些学生的能力水平难以达到。因此,重复做第7题并没有帮助学生改善他在测量中的表现,因此无论是在日常练习还是质量测评中,都尽量不要让学生重复做同一个题目。另一方面,笔者认为,Rasch模型的应用能有效帮助一线教师提高自身的命题能力。《通知》提出,要“不断提高教师命题水平”。Rasch模型的拟合性分析和单维性分析能帮助教师筛选高质量试题,为教师修改试题、提高试题质量提供证据支撑;Wright图分析则能帮助教师在命题时兼顾不同能力层次学生的需求,扩大试题难度范围,合理调整试题结构,使试卷具有更高的质量,从而不断提升教师的命题水平。

五、分析结果与启示

(一)分析结果

通过对S市某小学五年级科学期末试题进行质量分析可以发现,Rasch模型对小学阶段的试题质量分析也能进行有效评价。因此,运用Rasch模型进行试题质量分析能帮助教师分析测评结果的难度、信度、效度、区分度等。与此同时,Rasch模型能帮助教师筛选和鉴别高质量的试题,为后续工作中测评工具的开发提供参考。

(二)启示

本次分析结果还带给笔者更多启示。一方面,原题在测量中并不能起到诊断或巩固作用。如第7大题(包括7-1至7-5共5小题)是做过的原题,在测量中发现,7-3和7-5题是过度拟合,而7-2和7-4的outfit

猜你喜欢
区分度估计值信度
《广东地区儿童中医体质辨识量表》的信度和效度研究
一道样本的数字特征与频率分布直方图的交汇问题
浅谈试卷分析常用的几个参数及其应用
图形推理测量指标相关性考察*
统计信息
2018年4月世界粗钢产量表(续)万吨
浅观一道题的“区分度”
科技成果评价的信度分析及模型优化
单维参数型与非参数型项目反应理论项目参数的比较研究*
耳鸣残疾问卷中文版的信度和效度检验及其临床应用