基于经典测量理论的初中数学试卷质量分析

2014-07-08 08:59李倩倩
考试周刊 2014年36期
关键词:难度区分度信度

李倩倩

摘 要: 本文利用南宁市某中学2013年秋季学期数学期末考试成绩,在经典测量理论(CTT)范畴下探讨了该次期末考试数学试卷的信度、效度、难度、区分度和成绩分布情况,结果显示,该试卷信度高、难度适中、区分效果好、知识覆盖面广,试卷质量较高。

关键词: 经典测量理论 信度 难度 区分度

一、引言

教育测量与评价是教育研究领域中重要的组成部分,是学科教学活动中科学管理的有效手段。《国家中长期教育改革和发展规划纲要(2010-2020年)》明确把提高教育质量作为教育改革发展的核心任务,并多次强调与教育质量的监测和评价相关的内容[1]。显然,在当前教育制度下,各种笔试仍是一种重要而有效的教育质量定量评价方式。试卷质量自然影响对教育质量的正确评价,因此,针对笔试试卷的质量分析显得尤为重要。

试卷质量的分析一般是利用经典教育测量理论(CTT: Classical Test Theory)和项目反应理论(IRT:Item Response Theory)进行分析。

经典测量理论又称为真分数理论,假定观察分数X与真分数T线性相关,即CTT的数学模型为X=T+E,其中,随机误差E服从均值为零的正态分布。该理论最重要的四个指标正是反应试卷是否真实可靠、准确有效、难易适中、鉴别力强的信度、效度、难度和区分度等测验质量指标[2]。当然,由于其比较依赖样本、信度估计精度不高、难度和被试水平没有定义在同一参照系上,同时,无法回答总分相同的考生的真实能力有无差异等问题,该理论也存在一定的局限性[3]。

项目反应理论是一种新兴的心理与教育测量理论。该理论的前提假设非常严格,主要包括单维性假设和局部独立性假设[4]。主要方法是在利用参数模型的基础上,利用项目特征曲线、试题信息函数进行探讨,同时利用EM算法,用边际极大似然估计方法寻找项目参数的一致估计[5]。

本文主要利用南宁市某中学2013年秋季学期数学期末考试成绩,在经典测量理论(CTT)范畴下探讨该次期末考试数学试卷的信度、效度、难度、区分度和成绩分布情况。通过试卷“四度一分布”了解试卷质量,并反馈教学效果情况。

二、基于CTT的试卷质量情况分析

1.成绩分布情况

一般而言,一份好的试卷考试的成绩都服从或近似服从正态分布,因此,考试成绩的正态性是考察试卷质量的一个首要指标。检验正态性的方法很多,常见的是利用直方图和卡方检验、K-S检验。从参加本次考试的872人中随机抽取387人的成绩进行检验,结果如图1所示:

图1 学生成绩的直方图

正态分布的K-S统计量显著性概率P值为0.095>0.05,因此,这次考试学生成绩服从正态分布。

2.信度

中学试卷中,选择题分数可简化为0,1得分情况来解释,解答题和填空题可以看成非0,1记分的项目。因此,选择题信度主要采用折半信度[斯皮尔曼-布朗(Spearman-Brown)公式、卢隆(Rulon)公式、弗拉纳根(Flanagan)公式]和库德-理查逊(Kuder-Richardson)信度(K-R20、K-R21公式)进行分析[7]。填空题和解答题为非0、1记分的项目,采用克龙巴赫系数进行统计,结果如表1所示。

表1 试卷信度分析结果

结果表明,每种方法计算的选择题信度都接近0.7,信度系数处于尚可使用范围之内。研究表明,对于标准化的大型测试题目信度要求一般要在0.9以上,而学校期末考试的信度在0.6以上即可接受[1]。选择题、解答题的克龙巴赫系数为0.905,可以认为填空题和解答题的信度非常好,综合考虑,试卷整体信度是可信的。

3.效度

效度(validity)是指测验结果的有效性或准确性,即通过测验能够正确测量出它所要测量的属性的程度[5]。测量的效度的种类很多,其中基于专家和教师对试题与所涉及的范围进行符合性判断的逻辑判断法的内容效度使用较多。内容效度是指测验内容对所要测验的全部内容的代表性程度。但一次考试很难包含学生所学课程的所有内容,因此只能选择具有代表性的试题进行考核,来了解学生的知识技能掌握情况[8]。

根据测量的目标与内容的双向细分表,经过该校7位一线数学教师(其中高级教师4位,中教一级2位,中教二级1位)不记名反馈信息来看,本次考试所设计的试题覆盖了所要测内容的主要方面,考查目标清晰明确,题型和分数结构合理恰当,总体符合考试大纲和教学要求。

4.难度

试题难度是反映考题难易程度的指标,一般而言是按照答对人数的百分比确定的,是衡量试卷质量的最主要的数量性指标,简单来说可以利用测验分数的分布情况和特征进行观测,例如考察测验分数的全距、零分、满分、众数、平均分数等相关指标进行定性的判断,也可以根据不同的情况,利用有关公示进行精确计算。

一般而言,难度的取值范围在[0,1]之间,取值越大,难度越小。难度在0.7以上的为比较容易的题,在0.4-0.7为中等难度的题,在0.4以下的则为较难的题或是难题。在实际教学中试卷难度水平的选择,应取决于测验的目的和试题的形式。如果测验是用于区分学生水平,那么应该将试题或试卷的难度系数控制在0.5左右,各试题难度值在0.2-0.8,同时各题平均难度值在0.5左右是比较适宜的[5]。

对于采用0,1记分的选择题,用通过率P、平衡猜测的校正公式CP和极端分组法计算各个试题的难度。

表2 选择题的难度

对于非0,1记分的填空题、解答题和总分,用难度系数和极端分组法计算各个项目的难度。

表3 填空题、解答题的难度

结果显示,就选择题而言,三种计算方法的计算的难度差异不大,整体趋势较一致,从三种公式的难度均值看,第1、2、5、6、7、8、9属于难度较小的题目,3、4、10、11、12属于难度中等偏上的题目,其中第4题难度最大,10,11,12三题难度也较大,选择题总体难度为0.767,属于比较容易,从试题编排上看,除个别题目外,整体趋势是容易的题型放在前面,中等难度试题放在题型中间,较难试题放在题型后面,较合理。

对填空题和解答题而言,题目难度显然大于选择题,填空题总体难度均值为0.499,难度中等,解答题总体难度均值为0,472,属于中等偏难程度,8道解答题的难易程度也和题目顺序基本一致,越难的题目越在后面,符合数学试卷的一般规律。

从考试成绩来看,难度系数为0.548,综合选择题、填空题、解答题三种类型的难度均值,整张试卷难度均值为0.579,和总分难度系数接近,因此,可以判定该份试卷总体难度适中。

5.区分度

区分度是反映试题效用的一个主要参数,同时也是试题对考生实际水平的鉴别能力,将不同层次的考生区分开来的统计量。若试题的测试结果是水平高的学生答对或者得高分,水平低的学生答错或者得低分,则认为试题的区分能力强。一般而言,区分度在0.4以上为最佳效果,在0.3~0.39为合格,修改会更好,在0.2~0.29为勉强,仍需耍修改,区分度在0.19以下为差,必须淘汰[6]。

对于0,1记分的选择题,利用极端分组法、点二列相关计算各个试题的区分度。

表4 选择题的区分度

对于连续记分的主观性试题填空题、解答题和总分,用极端分组法和相关法计算各个项目的区分度。

表5 填空题、解答题以及试卷的区分度

注:试卷区分度是将各题区分度进行加权平均计算的。

结果显示,对于选择题而言,总体看来,整个选择题中大部分题目的区分度都在0.4以上。通过极端分组法和点二列相关系数计算的区分度在大部分题目中相差不大。极个别题目有明显差异,主要在于两种方法考虑的视角不一致,就第1题而言,极端分组法的区分度指标0.093,是利用高分组和低分组之间差异进行计算的,两者差异很小,说明该题无论是高分组还是低分组都能完成,就区分能力而言属于应该淘汰的题目,但正是由于该题目在高低分组中完成率都较高,和总分的相关性自然就大,因此,点二列相关法计算出来该题的区分度较高。两种方法计算的试卷区分度均在0.6以上,说明该试卷区分能力强,区分效果佳。

三、有关结论

事实上,该次试卷为全市统一考试题目,从一定程度上说属于“较大的标准化”考试题目。从上述分析可知,本次考试成绩的分布直方图并未凸显畸形特征,基本上呈正态分布,单峰,稍微右偏。就四度而言,填空题、解答题的信度很好,但选择题的信度适中。常见的提高测验信度主要有以下方式:一是适当增加试题量;二是提高质量,试题难度要适中,区分度大;三是调整试题编排顺序,尽量做到先易后难。

测验的效度采用学科专家通过逻辑分析法进行分析的,根据测量的目标与内容的双向细分表,了解到试题覆盖了所要测内容的主要方面,考査目标清晰明确,题型和分数结构合理恰当,总体符合考试大纲和教学要求。

试题的难度较合理,大部分选择题难度偏低,其中第4、10两题难度最大。而最后一道解答题的难度系数则过大。这和数学试卷利用最后一题作为压轴题有密切关系。

试题的区分度方面反应较好,但选择题第1、2题和解答题最后一道题在两种计算方法中差异很大。可能的原因在于第1、2题属于难度很低的送分题,因此区分度也不高,最后一道压轴题属于难度最大,很多学生放弃作答,因此存在这方面的问题。

四、结语

考试是衡量教学效果的必要手段。随着统计学及经济计量学边缘的不断扩张,对于教学结果的评价越来越依赖于科学的理论和方法。教育评价技术方法中教育测量理论就是应用教育统计学方法实现的,成为测评学生能力、考核教育效果的重要措施。利用SPSS测度考试的难易度、区分度、信度、效度等指标,不仅可以直观、便捷分析考试结果,发现考试中的重要信息和规律,还可以为教学效果评估提供重要的考核指标和模式。目前在教育教学及科研领域,人们采用科学的测评方法测度试卷科学性的尝试并不多,尤其是一些规模较小的考试,这不利于教学质量和教师素质的提高,亦不利于考试学研究者开启新的研究视域。应该加强对试卷科学化测度的研究及实践,使考试这一重要的教学环节日益走上科学化和规范化的轨道。

通过试卷质量分析,不仅可以了解试卷情况,更可以利用试卷科学性测评的方式了解教师的教学效果,同时也可以通过建立试题库、制定命题双向细目表等方式,提高试卷质量。

参考文献:

[1]《国家中长期教育改革和发展规划纲要》关注教育质量监测[N].基础教育质量监测信息简报,教育部基础教育质量监测中心,2010,1.

[2]郭熙汉,何穗,赵东方.教学评价与测量[M].武汉:武汉大学出版社,2008.

[3]杜洪飞.经典测量理论与项目反应理论的比较研究[J].社会心理科学,2006(6):15-17.

[4]Christine DeMars.Item Response Theory[M].London:Oxford University Press,2010.

[5]何穗,吴慧萍.基于教育测量理论的中学数学试卷质量评价研究[J].考试与招生,2012(08):49-53.

[6]Robert L.Ebel.Measuring Educational Achievement [M].Englewood Cliffs,N.J., Prentice-Hall,1965.

[7]吴慧萍.基于教育测量理论的中学数学试卷质量评价研究[D].华中师范大学硕士学位论文,2012.

[8]洪冉.用数理统计方法分析试卷质量[D].华中师范大学硕士学位论文,2012.

对填空题和解答题而言,题目难度显然大于选择题,填空题总体难度均值为0.499,难度中等,解答题总体难度均值为0,472,属于中等偏难程度,8道解答题的难易程度也和题目顺序基本一致,越难的题目越在后面,符合数学试卷的一般规律。

从考试成绩来看,难度系数为0.548,综合选择题、填空题、解答题三种类型的难度均值,整张试卷难度均值为0.579,和总分难度系数接近,因此,可以判定该份试卷总体难度适中。

5.区分度

区分度是反映试题效用的一个主要参数,同时也是试题对考生实际水平的鉴别能力,将不同层次的考生区分开来的统计量。若试题的测试结果是水平高的学生答对或者得高分,水平低的学生答错或者得低分,则认为试题的区分能力强。一般而言,区分度在0.4以上为最佳效果,在0.3~0.39为合格,修改会更好,在0.2~0.29为勉强,仍需耍修改,区分度在0.19以下为差,必须淘汰[6]。

对于0,1记分的选择题,利用极端分组法、点二列相关计算各个试题的区分度。

表4 选择题的区分度

对于连续记分的主观性试题填空题、解答题和总分,用极端分组法和相关法计算各个项目的区分度。

表5 填空题、解答题以及试卷的区分度

注:试卷区分度是将各题区分度进行加权平均计算的。

结果显示,对于选择题而言,总体看来,整个选择题中大部分题目的区分度都在0.4以上。通过极端分组法和点二列相关系数计算的区分度在大部分题目中相差不大。极个别题目有明显差异,主要在于两种方法考虑的视角不一致,就第1题而言,极端分组法的区分度指标0.093,是利用高分组和低分组之间差异进行计算的,两者差异很小,说明该题无论是高分组还是低分组都能完成,就区分能力而言属于应该淘汰的题目,但正是由于该题目在高低分组中完成率都较高,和总分的相关性自然就大,因此,点二列相关法计算出来该题的区分度较高。两种方法计算的试卷区分度均在0.6以上,说明该试卷区分能力强,区分效果佳。

三、有关结论

事实上,该次试卷为全市统一考试题目,从一定程度上说属于“较大的标准化”考试题目。从上述分析可知,本次考试成绩的分布直方图并未凸显畸形特征,基本上呈正态分布,单峰,稍微右偏。就四度而言,填空题、解答题的信度很好,但选择题的信度适中。常见的提高测验信度主要有以下方式:一是适当增加试题量;二是提高质量,试题难度要适中,区分度大;三是调整试题编排顺序,尽量做到先易后难。

测验的效度采用学科专家通过逻辑分析法进行分析的,根据测量的目标与内容的双向细分表,了解到试题覆盖了所要测内容的主要方面,考査目标清晰明确,题型和分数结构合理恰当,总体符合考试大纲和教学要求。

试题的难度较合理,大部分选择题难度偏低,其中第4、10两题难度最大。而最后一道解答题的难度系数则过大。这和数学试卷利用最后一题作为压轴题有密切关系。

试题的区分度方面反应较好,但选择题第1、2题和解答题最后一道题在两种计算方法中差异很大。可能的原因在于第1、2题属于难度很低的送分题,因此区分度也不高,最后一道压轴题属于难度最大,很多学生放弃作答,因此存在这方面的问题。

四、结语

考试是衡量教学效果的必要手段。随着统计学及经济计量学边缘的不断扩张,对于教学结果的评价越来越依赖于科学的理论和方法。教育评价技术方法中教育测量理论就是应用教育统计学方法实现的,成为测评学生能力、考核教育效果的重要措施。利用SPSS测度考试的难易度、区分度、信度、效度等指标,不仅可以直观、便捷分析考试结果,发现考试中的重要信息和规律,还可以为教学效果评估提供重要的考核指标和模式。目前在教育教学及科研领域,人们采用科学的测评方法测度试卷科学性的尝试并不多,尤其是一些规模较小的考试,这不利于教学质量和教师素质的提高,亦不利于考试学研究者开启新的研究视域。应该加强对试卷科学化测度的研究及实践,使考试这一重要的教学环节日益走上科学化和规范化的轨道。

通过试卷质量分析,不仅可以了解试卷情况,更可以利用试卷科学性测评的方式了解教师的教学效果,同时也可以通过建立试题库、制定命题双向细目表等方式,提高试卷质量。

参考文献:

[1]《国家中长期教育改革和发展规划纲要》关注教育质量监测[N].基础教育质量监测信息简报,教育部基础教育质量监测中心,2010,1.

[2]郭熙汉,何穗,赵东方.教学评价与测量[M].武汉:武汉大学出版社,2008.

[3]杜洪飞.经典测量理论与项目反应理论的比较研究[J].社会心理科学,2006(6):15-17.

[4]Christine DeMars.Item Response Theory[M].London:Oxford University Press,2010.

[5]何穗,吴慧萍.基于教育测量理论的中学数学试卷质量评价研究[J].考试与招生,2012(08):49-53.

[6]Robert L.Ebel.Measuring Educational Achievement [M].Englewood Cliffs,N.J., Prentice-Hall,1965.

[7]吴慧萍.基于教育测量理论的中学数学试卷质量评价研究[D].华中师范大学硕士学位论文,2012.

[8]洪冉.用数理统计方法分析试卷质量[D].华中师范大学硕士学位论文,2012.

对填空题和解答题而言,题目难度显然大于选择题,填空题总体难度均值为0.499,难度中等,解答题总体难度均值为0,472,属于中等偏难程度,8道解答题的难易程度也和题目顺序基本一致,越难的题目越在后面,符合数学试卷的一般规律。

从考试成绩来看,难度系数为0.548,综合选择题、填空题、解答题三种类型的难度均值,整张试卷难度均值为0.579,和总分难度系数接近,因此,可以判定该份试卷总体难度适中。

5.区分度

区分度是反映试题效用的一个主要参数,同时也是试题对考生实际水平的鉴别能力,将不同层次的考生区分开来的统计量。若试题的测试结果是水平高的学生答对或者得高分,水平低的学生答错或者得低分,则认为试题的区分能力强。一般而言,区分度在0.4以上为最佳效果,在0.3~0.39为合格,修改会更好,在0.2~0.29为勉强,仍需耍修改,区分度在0.19以下为差,必须淘汰[6]。

对于0,1记分的选择题,利用极端分组法、点二列相关计算各个试题的区分度。

表4 选择题的区分度

对于连续记分的主观性试题填空题、解答题和总分,用极端分组法和相关法计算各个项目的区分度。

表5 填空题、解答题以及试卷的区分度

注:试卷区分度是将各题区分度进行加权平均计算的。

结果显示,对于选择题而言,总体看来,整个选择题中大部分题目的区分度都在0.4以上。通过极端分组法和点二列相关系数计算的区分度在大部分题目中相差不大。极个别题目有明显差异,主要在于两种方法考虑的视角不一致,就第1题而言,极端分组法的区分度指标0.093,是利用高分组和低分组之间差异进行计算的,两者差异很小,说明该题无论是高分组还是低分组都能完成,就区分能力而言属于应该淘汰的题目,但正是由于该题目在高低分组中完成率都较高,和总分的相关性自然就大,因此,点二列相关法计算出来该题的区分度较高。两种方法计算的试卷区分度均在0.6以上,说明该试卷区分能力强,区分效果佳。

三、有关结论

事实上,该次试卷为全市统一考试题目,从一定程度上说属于“较大的标准化”考试题目。从上述分析可知,本次考试成绩的分布直方图并未凸显畸形特征,基本上呈正态分布,单峰,稍微右偏。就四度而言,填空题、解答题的信度很好,但选择题的信度适中。常见的提高测验信度主要有以下方式:一是适当增加试题量;二是提高质量,试题难度要适中,区分度大;三是调整试题编排顺序,尽量做到先易后难。

测验的效度采用学科专家通过逻辑分析法进行分析的,根据测量的目标与内容的双向细分表,了解到试题覆盖了所要测内容的主要方面,考査目标清晰明确,题型和分数结构合理恰当,总体符合考试大纲和教学要求。

试题的难度较合理,大部分选择题难度偏低,其中第4、10两题难度最大。而最后一道解答题的难度系数则过大。这和数学试卷利用最后一题作为压轴题有密切关系。

试题的区分度方面反应较好,但选择题第1、2题和解答题最后一道题在两种计算方法中差异很大。可能的原因在于第1、2题属于难度很低的送分题,因此区分度也不高,最后一道压轴题属于难度最大,很多学生放弃作答,因此存在这方面的问题。

四、结语

考试是衡量教学效果的必要手段。随着统计学及经济计量学边缘的不断扩张,对于教学结果的评价越来越依赖于科学的理论和方法。教育评价技术方法中教育测量理论就是应用教育统计学方法实现的,成为测评学生能力、考核教育效果的重要措施。利用SPSS测度考试的难易度、区分度、信度、效度等指标,不仅可以直观、便捷分析考试结果,发现考试中的重要信息和规律,还可以为教学效果评估提供重要的考核指标和模式。目前在教育教学及科研领域,人们采用科学的测评方法测度试卷科学性的尝试并不多,尤其是一些规模较小的考试,这不利于教学质量和教师素质的提高,亦不利于考试学研究者开启新的研究视域。应该加强对试卷科学化测度的研究及实践,使考试这一重要的教学环节日益走上科学化和规范化的轨道。

通过试卷质量分析,不仅可以了解试卷情况,更可以利用试卷科学性测评的方式了解教师的教学效果,同时也可以通过建立试题库、制定命题双向细目表等方式,提高试卷质量。

参考文献:

[1]《国家中长期教育改革和发展规划纲要》关注教育质量监测[N].基础教育质量监测信息简报,教育部基础教育质量监测中心,2010,1.

[2]郭熙汉,何穗,赵东方.教学评价与测量[M].武汉:武汉大学出版社,2008.

[3]杜洪飞.经典测量理论与项目反应理论的比较研究[J].社会心理科学,2006(6):15-17.

[4]Christine DeMars.Item Response Theory[M].London:Oxford University Press,2010.

[5]何穗,吴慧萍.基于教育测量理论的中学数学试卷质量评价研究[J].考试与招生,2012(08):49-53.

[6]Robert L.Ebel.Measuring Educational Achievement [M].Englewood Cliffs,N.J., Prentice-Hall,1965.

[7]吴慧萍.基于教育测量理论的中学数学试卷质量评价研究[D].华中师范大学硕士学位论文,2012.

[8]洪冉.用数理统计方法分析试卷质量[D].华中师范大学硕士学位论文,2012.

猜你喜欢
难度区分度信度
《广东地区儿童中医体质辨识量表》的信度和效度研究
浅谈试卷分析常用的几个参数及其应用
图形推理测量指标相关性考察*
浅观一道题的“区分度”
基于SPSS软件的高校学生课程考试成绩定量分析
财务会计下的难点及对会计工作的影响
构建以问题启迪思维的数学高效课堂研究
科技成果评价的信度分析及模型优化
单维参数型与非参数型项目反应理论项目参数的比较研究*
耳鸣残疾问卷中文版的信度和效度检验及其临床应用