陆念 王晓军
现代测量理论为实现地理核心素养的有效测评提供了测量模型基础。地理核心素养的培养应该落实在日常教学中,而地理核心素养的日常测评则落脚于地理诊断性试卷。依据地理新课标对学生地理核心素养的评价建议和要求、地理核心素养在实际教学中的测评情况,从现代测量理论的视角出发,利用Rasch模型对地理诊断性试卷进行定量评价,对地理核心素养的科学测评进行探索,试图为核心素养评价、诊断性试卷优化提供一定的帮助和参考。
一、理论基础
Rasch模型是丹麦数学家拉希(Rasch)在20世纪60年代基于IRT所提出的模型。Rasch模型可以将人的参数(能力)和项目参数(难度)放在同一个纬度上来进行比较。
Rasch模型可以测算出被试在每一项目上的具体表现,地理核心素养的载体就是不同情境的试题,不同试题项目正确与否又间接反映地理核心素养的水平高低。因此,从理论上讲,Rasch模型可以较好地满足现代地理核心素养定量测评的要求。基于Rasch模型设计的Winsteps软件,具有能对试题项目进行单维性检验、拟合度分析、信效度检验等优点,对诊断性试卷质量评价、核心素养水平及发展状况评估能提供较好的指导作用。
二、诊断性试卷中地理核心素养体现
从项目反应理论的观点来看,个体的作答反应可以反映出个体真实的行为表现。试题本身很难直接测量出核心素养水平,但可以通过选择测试内容、创设情境等来考查学生在不同情境中综合运用地理概念、知识、思维模式、探究方法与技能解决地理问题的能力,分别达到了何种程度与水平等。因此,通过学生的作答反应可体现其地理核心素养水平。
参考地理新课标中的“测试内容、试题情境、地理学科核心素养水平划分”等维度,对某中学高三年级第一学年期中地理考试试卷进行梳理与分析,构建本次诊断性试题的命题情境、考查内容、核心素养及水平考查框架(见表1)。
三、研究数据与方法
本次研究数据来源于某全日制高中高三全体选考地理学生第一学年期中考试的地理成绩数据,样本数量共计为731份。选择题共15道,共计45分,主观题共4道,每道主观题分值不一,共计55分。
根据学生的主观题得分,使用评分量表对学生的考试成绩进行分类。
最后使用Office Excel将处理后的评分数据制成表格,再用Rasch软件Winsteps3.72.3进行分析。
四、Rasch模型检验结果与分析
(一)试题的单维性分析
单维性检验的目的是检验评估数据能否被单一Rasch纬度充分解释。当项目标准残差系数值在[-0.4,0.4]之间时,表示对应项目符合单维性要求,Rasch模型能够对其进行准确的分析。大部分试题都在可接受范围[-0.4,0.4]内,只有项目A(第6题)和项目a(第2题)这两个项目没有通过,超过了标准范围,需要单独分析。总体上本次测试满足Rasch单维性检验,可以进行进一步分析。
(二)模型数据拟合程度分析
使用Rasch模型进行分析时还需考虑数据与模型的拟合情况。Outfit MNSQ和Infit MNSQ这两个指标分别表示标准残差的均方和加权后的残差均方,Outfit MNSQ和Infit MNSQ的取值若在[0.7,1.3]范围内,则表示数据与模型拟合。本次测试的学生与试题的MNSQ值(表4)均在[0.7,1.3]范围之间,表明测试试题与Rasch模型充分拟合,测试结果具有可信性。
(三)信效度分析
信度数值越接近1说明信度越高,分离指数越大说明区分度高。本次期中地理考试测验试题信度和试题分离指数(表3)分别是1、39.09,本次测验试题信度高,区分度好,说明本次测试能够反映学生真实水平且能够很好地对不同水平的学生加以区分。
效度主要考察指标包括单维性、模型-数据拟合情况、学生能力和项目难度的分布。数据单维性和拟合程度表现较好,且通过Winsteps软件生成的项目-被试图发现,项目难度跨度范围较大,且分布较为均匀,整体覆盖了被试的能力范围,试题结构基本效度合理。
(四)试题数据分析
Rasch模型可以把学生考试的原始分数转换为Logit分数,将学生水平放在等距量尺上进行比较。为了便于统计,将个体与试题的原始对分数值转换为[0,100]范围内(表4),转换后不影响统计结果。
试题的拟合数据范围为[0.7,1.3],说明试题与模型拟合较好。试题的难度范围为[46.81,58.73],跨越范围较大,表明试题难度能与不同水平的学生进行匹配;模型误差范围为[0.15,0.4],测量误差很小,在模型可接受范围之内;在点-测量(PTME corr.)方面,第1、2、7、9、11、12、13题的值小于0.3,说明这几道试题的区分度较低。
学生的能力测量平均值为45.6,试题难度平均值为49.63,试题测量值略大于学生测量值,说明本次测试对学生来说略难。最难的试题为E、B、A1(第19题、第16题、第1题),最简单的试题为D、A6、A9(第18题、第6题、第9题)。
(五)结果讨论
由数据分析可知,未通过单维性检验的试题是第2题与第6题;难度过高的试题是第1、6、9题;区分度较低的试题是第1、2、7、9、11、12、13题。通过观察学生在各个项目中异常表现,不仅可以揭示学生在该地理情境表现不好的原因,还能为未来教学提供一定的方向。
五、结论
由以上Rasch模型定量分析可知,该诊断性试卷具有良好的信度和区分度,能较好地反映学生地理核心素养水平,试卷总体质量较好。
试题难度偏高,学生整体得分低于项目难度,部分项目水平和被试能力不能完全对应,说明本套试题在命题和组卷上还存在问题,应结合学情对部分难度较大、区分度较低的试题酌情替换或优化,以便更全面地考查与评估学生的能力。
在试题命制中,通过学生在创设的不同情境中的作答反应可以反映出学生的能力水平,不仅可以直观反映学生的核心素养水平、具体知识掌握情况,还能将不同能力学生放在同一尺度上进行比较,一目了然对比学生差异。结果分析表明,本套诊断性试卷对于学生地理核心素养的测量是合理的。
(作者单位:济南大学 水利与环境学院)