心理测量在高风险考试分析中的应用*

2020-05-06 05:18袁淑莉
贵阳学院学报(社会科学版) 2020年2期
关键词:主观题方差中考

何 壮,袁淑莉,余 水,任 敏

(贵阳学院 教育科学学院,贵州 贵阳 550005)

如果一个测验的结果对接受测验的个体、群体或单位意义重大,则该测验可称为“高风险考试”或“高利害测验”(High-stakes Test)。中考是义务教育阶段的重要考试之一,考试目的是衡量学生是否达到毕业标准,同时考试成绩也是高中阶段学校招生选拔的重要依据,是典型的高风险考试。为了保证高风险考试试题的质量,西方国家普遍要求试题开发者提供有力的心理测量学方面的证据。[1]

新一轮课改对中考命题提出了更高的要求:中考命题应当起到导向性作用。这种导向性不仅体现在知识层面,更体现在能力水平和价值观层面。对试卷和考试结果的分析,不仅可以获得有关考题质量的信息,还能获得具有导向价值的信息,更可以了解考试对学生能力的要求,为调整教学提供参考。

随着心理测量理论的发展,以项目反应理论(Item Response Theory, IRT)为代表的技术已经逐渐成为考试数据分析的主流。与经典测量理论(Classical Test Theory, CTT)相比,项目反应理论具有能力参数与项目难度参数配套、参数等距、参数不变性等优势。[2]以最常用的Rasch模型为例,Rasch分析将被试能力和题目难度定义在同一量尺上,方便被试能力和题目难度之间的比较,同时还克服了CTT题目难度受抽样影响、原始数据之间不等距的缺陷。在对考试数据的分析中如果能够综合两种测量理论进行分析,得出的结果将更有实用价值。

由于大规模高风险考试对数据的保密要求较高,国内高风险考试的分析最常见的是英语等级考试的相关研究。中考、高考、研究生入学考试等社会影响更大考试的研究还很少,可参见赵守盈等对研究生入学考试客观题的分析。[3]而对中高考等高风险考试整套试卷进行分析的研究还非常少。笔者拟以中考化学模拟考试数据为例,介绍Rasch模型为代表的现代测评理论在这一领域的应用。

一、研究方法

1.数据来源

数据来自东部某市,共有47636人参加了当次考试,研究所用到的数据是化学考试的全部数据。试卷包括6个客观题、7个主观题,满分60分。客观题(1—6题)每题2分、主观题(7—13题)分数从5至9分不等。

2.数据处理

对考试数据的分析理论以IRT为主,CTT作必要补充。数据整理及CTT分析使用SPSS 22软件,IRT分析使用Winsteps 3.7软件,参数估计选用Rasch模型,参数估计过程中将试题的平均难度设定为Rasch量尺的零点。分析得到的主要结果包括:学生能力参数、学生能力分布、试题难度、拟合指数、测验信息量。

3.单维性检验

单维性是IRT使用的前提条件之一。本研究中,单维性是指考试过程中只有化学知识一种潜在能力起决定作用,可以忽视其他因素对考试结果的影响。Rasch中常用模型解释的方差与未解释方差的关系来判断数据是否单维。[4]参数估计结果发现,由题目所解释的方差为38.6,占总方差的39.2%。模型未解释方差为13。由学生所解释的方差为46.8,占总方差的47.6%。对未解释方差进行主成分分析,首因子所解释的方差为1.5,占总方差的1.5%。这表明学生作答过程中“化学能力”对整个考试过程起主导作用,其他因素对考试的影响不大。这说明考试数据是单维的,可以用Rasch模型分析。

4.数据—模型拟合

Rasch理论认为:只有实际数据与模型预测值相拟合时测量的结果才是客观准确的,分析得到的结果才有实际价值。Rasch分析中主要的拟合统计量称为加权均方拟合统计量(Infit MNSQ),拟合指数为1,说明实际数据与模型预测完全拟合。拟合指数在[0.6,1.4]范围内最好。[5]题目的Infit MNSQ>1.4说明实际数据与模型预测值间存在随机偏差,称为不拟合(Under fit);Infit MNSQ<0.6说明实际数据间差异小于模型预测值,称为过度拟合(Over fit)。不论是过度拟合还是不拟合都会对测量的效果产生影响。表1的分析结果显示多数题目拟合都在Rasch理论要求的范围之内,但第3题和第6题的拟合较差,属于不拟合。题总相关系数也能用于评价题目的拟合,这两题的相关系数在所有题目中也是最低的。这表明这两个题目的命题质量相对较低,与整套题目测量目标的一致性较低。

表1 数据—模型拟合

二、数据分析与讨论

1.学生能力与试题难度分布

47636名学生平均32分,标准差15分,及格率46%。Rasch模型可以根据学生在每个题目上的作答情况为每名学生估计出一个能力。该能力与原始成绩不同,具有等距的特点,这种特点可以通过下面的例子来理解。

在实际的教学工作中,低能力学生提高几分比高能力学生提高同样的分数要容易得多。例如:将学生成绩从30分提高到40分比较容易,但从90分提高到100分却困难得多。原始分数看似等距,但却不能体现这种差异。Rasch的能力分数就解决了这一问题。以此次考试的数据为例:同样相差1分,在高分端原始分数58分与59分的学生能力分别为6.167和7.155,能力相差0.988;在低分段,原始分数18分与19分的学生能力分别为-1.201和-0.725,能力相差0.476。同样是1分的差距,在高分端所体现的能力差异就大于低分段,这与教育的实际情况更相符。所以,Rasch分数才是真正的等距数据,对学生能力的分析以Rasch能力分数为基础才更加科学。本次考试学生能力分布的峰度(Kurtosis)为-0.012。峰度接近于0,学生能力分布呈正态分布。

图1为学生能力与试题难度分布图。图左侧以#代表学生,越靠近上方学生能力越高。图右侧为题目的难度分布情况,越靠近上方题目难度越大。最左侧的一列数字为Rasch量尺,以Logit为单位。量尺的零点为所有题目的平均难度。

当题目难度与学生能力相当时,题目的测量效果最好。即高难度题目更适用于测量高水平学生,低难度题目测量低水平学生时误差更小。从图1题目与学生的分布关系来看,高难度题目较少,能力大于3的学生附近没有与之相对应的题目。这部分学生有可能答对全部题目,出现“天花板效应”。这就影响了对优秀学生能力的测量。

图1 学生能力与试题难度分布图

2.客观题项目分析

试卷共有6个客观题,均为四选一的选择题。客观题以考察基本知识为主,难度在[-2.42,0.71]之间,为中低难度水平。最难的题目为第6题,难度0.71。该题考察学生从图像获取信息的能力,要求学生分析给出的几张图表,结合坐标轴标注的信息回答问题。考察的是初中化学学习的重点内容,学生需要掌握读图和相应的化学知识才能正确作答。学生在这一题目上的表现也最差,只有48.4%的学生回答正确。最简单的是第2题,难度为-2.09,有88.1%的学生回答正确。题目选择了与环保相关的材料,考察的是初中化学最基础的知识。客观题难度处在中、低水平,符合客观题命题特点和要求。另外,从知识点和价值观两个方面起到了导向作用,符合当前考试命题选材体现价值观引导作用的要求。

表2 客观题分析结果

3.主观题项目分析

主观题可以测量学生对某个知识点的理解、迁移以及应用知识解决问题的过程。与客观题相比,主观题考察范围更广,考察结果更具外部效度。[6]此次考试中共有7个主观题,均以等级方式计分。

主观题分析使用了分部计分模型(Rasch-Masters Partial Credit Model, PCM)。[7]PCM分析得到的参数称为阈值参数(Threshold Parameter),对于有n个得分的题目,存在n-1个参数。阈值参数其实是两个相邻等级的选项特征曲线(Category response curves, CRC)之交点。

以第8题为例,满分为8分,理论上可以有0至8分共九种得分的可能。图2为该题各选项的特征曲线。横轴为Rasch量尺,纵轴为得分的概率。A至H点为相邻两条曲线的交点,如点H为7、8分两条曲线的交点,H点对应到Rasch量尺上的值为1.65。在该点右侧代表8分的曲线位置最高,在该点左侧代表7分的曲线位置最高。这表示当学生能力大于1.65时,得8分的概率最高;当学生能力在[0.90,1.65]区间内时(点G和点H所对应的区间),得7分的概率最高。这些交点对应的能力值就是该题目的阈值参数。每两个阈值之间有一条曲线的位置最高,代表能力在这一区间内的学生得到这一分数的概率最大。

阈值参数应当是从左至右递增的[8],但第8题却出现了阈值顺序错乱的现象。A点对应的能力为-0.9,大于B点所对应的能力值-1.1。从图形上看能力在[-1.1,-0.9]区间内的学生得1分的概率还不及得0分的概率。出现这种情况的原因可能是阅卷教师对0分和1分的评分标准掌握较差,或者评分标准在这两个分数的使用上表述不明,这都将影响测评的结果。对主观题的阈值参数进行整理后发现,除第8题的0、1得分外,第7题的3、4得分和第13题的4、5得分也出现了上述现象。

图2 第8题选项特征曲线

从例子中不难看出,两个阈值之间的距离不宜太小,整个阈值的分布也应当越宽越好,这样才能更好地区分不同能力水平的学生。主观题中阈值宽度最大的是第11和12题,最小的是第13题。该题考查的内容均为基础知识,将多个基础知识整合后命题是当前考试的一种重要命题形式。该题目考查的知识点是溶液中溶质的计算方法、分子式化学方程式的书写、质量守恒定律等。这种学科内的综合的考查方式有利于引导学生重视对所学化学知识进行整合,建立起知识内联系,培养对化学知识的概括、归纳、判断以及对化学知识的迁移运用能力。

表3 主观题分析结果

各题目的第一个阈值可以看作是学生“能否得分的临界点”,以第7题为例:学生能力高于-1.58,则有可能高出越多,得分越高,因此-1.58可以作为学生“能否得分的临界点”。这一临界点对应的能力值越小,说明学生在该题上得分越容易。由表3可以发现,第10题和第12题得分最容易,这两个题考查的内容均为基础的化学实验,这表明中考对实验相关内容的考查注重基础知识的掌握。与学生“能否得分的临界点”相对应,最后一个阈值参数则称为学生“得满分的临界点”。该点对应的能力值越高表明该题目得满分越难,只有高水平的学生才有可能得到满分。从表3中可以发现,得满分难度最高的是第11题。该题要求学生根据提示内容写出化学反应的方程式、配平方程式,之后在此基础上回答一系列问题。在这一题目上获得高分需要学生掌握题干中所描述的化学反应和配平公式等多个知识点。这些知识对学生能力都有很高的要求。

值得一提的是第10、12题的第一个阈值对应的能力很低,同时最后一个阈值对应的能力很高。这表明中考对实验知识的考查不仅注重基本知识的掌握,同时也试图通过实验题拉开学生之间的得分差距。实验知识是初中化学学习的重点,是高中阶段学习的基础,因此中考非常重视对实验技能的考查,利用这部分知识区分学生能力,为高中选拔优秀学生提供了重要参考,同时也起到了引导化学教学重视实验的导向作用。

4.测验信息量

信息量是IRT中表示测量精度的指标,信息量越大测量误差越小。整套测验的信息量如图3。测验的最高信息量Imax=10.81,信息曲线的峰值点对应的能力值为0.32,表明测验对能力在该水平附近学生的测量精度最高。中考作为选拔性考试,参加考试的学生人数很多,学生的能力水平差异很大。能力很高的学生肯定可以达到入学要求,能力很低的学生则肯定会落榜。与这两类极端能力水平的学生相比,一套好的试卷更应当精确区分能力在中等水平的学生。化学试卷测量精度最高的能力范围在0.32附近,符合了这一命题思路。

图3 测验信息量

三、总结与建议

项目分析及信息量分析结果表明:学生能力与题目难度基本匹配,但高难度题目较少,导致对极高能力的优秀考生测量误差较大。以全市前1000名考生为例,他们的能力在[4.24,8.55]之间,测量的误差在[0.73,1.89]之间,测量误差较大。所以在选拔优秀学生时,对这些学生再进行难度更大的第二阶段测试,如发挥学校自主招生环节的作用,才能准确评估他们的能力。

选择题分析结果表明:命题的内容选择和难度分配比较合理,符合客观题题型的特点和以往的命题传统;主观题数据分析结果表明:题目难度评分细则的设计或在阅卷环节未予明确,导致教师在阅卷过程中出现评分误差,对评分的客观性、公平性有一定的影响。建议在阅卷环节组织教师对评分规则进行评审、集中学习,增加修订和试评环节。

以中考为代表的大型选拔性高风险考试,在命题时首先追求考试的效率,题目不宜过长,所以才会出现压缩分值、多个科目合卷的情况,如中、高考中的文理科综合考试。这就造成了对能力水平处在Rasch量尺两端的学生测量精度较低的现状,可能会造成考试结果的不公平。解决效率与公平的问题可以通过多阶段测试的方法,如在入学后再根据学生成绩,分组进行更有针对性的考试,得到较为准确的学生能力参数,这样才有利于对不同能力水平学生的培养,真正实现因材施教。

猜你喜欢
主观题方差中考
浅谈“立体几何主观题”的复习备考
浅谈高中政治“认识类”主观题答题技巧
极坐标方程主观题考点分析
因式分解中考都考啥
高考政治主观题对学生思维能力的考查
概率与统计(2)——离散型随机变量的期望与方差
方差越小越好?
计算方差用哪个公式
伴你走进“旋转”中考园
方差生活秀