教育测量理论在试题库建设中的应用研究

2015-12-09 17:11:39杨峰袁天然

教育教学论坛 2015年30期

杨峰袁天然

摘要：试题库系统的推行已成为高校教学的一个重要环节，结合试题库建设现状及教学成绩的统计、测量原则，展开教育测量理论、试题、试卷三者关系的初步探讨，总结提高试题库建设效率的有效途径和方法。实践证明，该理论探讨能有效推动教考分离。

关键词：试题库；教育测量理论；试题；试卷

中图分类号：G642.0 文献标志码：A 文章编号：1674-9324（2015）30-0196-02

随着信息技术的快速发展和广泛应用，试题库系统逐渐成为高校计算机辅助教学的一种有效方式。受考试制度及传统题库建设经验的限制，现有试题库系统往往不能深度挖掘试卷、试题，也不能发挥试卷和试题的诊断及评价功效[1]。怎样在现代试题库系统建设中引入先进的教育测量理论，兼有二者的优势[2]，用先进理论引导先进技术，保证试题库建设充分适应现代教学理念的发展趋势，切实促进教学，已成为现代试题库建设发展过程中必须重视的问题。

一、教育统计与教育测量理论

有效地进行教育测量是我们建设试题库的目的所在[3]。教育测量要遵循教育规律，它的理论基础就是教育统计与教育测量理论[4]。教育测量的最主要的任务准确测量测试者的水平，尽量降低测量误差。为保证考试更加科学化，就要利用教育测量，而教育测量的研究对象正是命题、阅卷、分析、评价等考试工作的全过程。

考试是目前测量教育水平的最直接方式，期间涉及到教育统计的概念及理论。教育统计的目的主要用来检测教育的科学性，从而探索教学现象的各种规律及特征，其主要通过统计学的方法和理论研究教育现象及本质[5]。

试卷是目前考试执行的主要形式，其测量结果决定考试的质量[6]。试卷设计的科学与否，成为教学工作中不可忽视的重要一步，其最能客观反映教师的教学水平及学生的学习效果，也正是本文所要研究的重中之重。

二、教育测量理论在试卷质量评价中的应用

组卷，即在设定的组卷策略下，借助已经存在的试题库随机或人为选取合适的测试题形成一份或多份（有的学校要求A/B卷）符合测试要求的试卷。从教育理论角度考虑，衡量试卷质量的基本要素主要包括以下两个方面，即信度和效度。

1.信度。信度指的是测量结果是不是满足稳定性要求。随着测量类型的不同，不论是物理测量还是教育测量，即使面对同样的测量对象，其所得的测量结果几乎不会全部相同[7]。因为每次的测量结果总会受两大因素的影响，即被测对象的实际发挥水平及测量过程中难以避免的误差。

通过以上定义，不难发现信度包含实际考试过程中随机误差对其影响作用，两者成反比关系。影响信度的主要因素包括四个方面：（1）接受测试者个体难免有不同程度的差异，这是导致信度真分数参差不齐的主要原因所在。（2）试卷本身题目的多少，试卷的长短，会导致考试得分受试题抽样偶然性影响，相对地，适当提高试卷的中题目的数量对信度有正比例的影响。（3）试卷内容性质的相同与否，对信度成正比例影响关系，即内容性质不同或相差较远的试卷信度一般偏低，反之则信度较高。（4）试卷的难度，在考试的难度过高或过低时，分数分布呈偏态分布。

2.效度。效度，即测量是否有效及其有效程度，也就是此次考试实际测出的与其要测量的特性的接近程度[8]。如果所要测的特性被准确地测量，就认定此次测量的效度是高的。主要从以下几个重要因素分析对效度有重要的影响：（1）类似于信度，考试内容性质的共同与否，对效度成反比例影响规律，即试题间的内容一致性越高，效度就会越低。（2）应考者之间的差异性，期间的差异性会导致真分数差异性的对应变大。（3）试卷的长度，同样类似于对信度的影响，即适当提高試卷的中题目的数量对效度有正比例的影响。

三、教育测量理论在试题质量评价中的应用

试题是组成试卷的基本元素，试题的质量对试卷质量的影响较大。如何根据教育测量理论探索影响试题质量的主要因素是本部分的主要研究内容。

1.难度。难度一词的含义众所周知，具体到本文就是指应考者解答题目或完成要求时的困难程度，主要分为相对值及绝对值。相对难度也称为统计难度，是统计应考者测试后的试卷通过统计分析方法计算出的难度。绝对难度也叫认知难度，与被测试者的实际水平没有关系。

难度共有三个特点，即相对性、计量性和区间性。相对性是建立在不同的考试及不同应试对象的基础上统计的[9，10]。具体来说，若应试者的水平不同，即使相同的试卷，测试统计后的难度值也不会相同。计量性是指难度是一个可以具体量化的指标。在分析、计算考试的难度时，往往只是基于感性的、模糊的、没有准确理论依据的判断，但在经典测量理论中，难度被定义为具体的指标，具体数值的计算是通过数学统计方法计算而得的。区间性即难度永远介于0至1之间的闭区间内，其是连续变化的，在难度值为0时，说明试题越容易；反之亦然。

在统计考试结果中，往往同数学统计图来表示。若统计图显示考试结果呈正态分布，则说明试卷的难度趋于中间。当统计结果显示为负偏态分布规律时，说明试卷偏难，且测试分数偏低。当统计结果显示为正偏态分布规律时，说明试卷偏简单，且测试分数偏高[11]。

2.区分度。试题的区分度主要为了鉴别应试者的实际学习能力，主要为了区别被测试者。为了有效区分不同学习水平的学生的学习能力，往往要求区分度越高越好。测量专家把区分度这一指标作为考试是否有效的重要量度，并作为评价项目质量、筛选项目的主要指标与依据[12]。试题的区分度越好，说明试题对应考者有较强的考察及测试能力。

区分度计算往往采用分组法，主要分为以下三步完成：

Step1：分组。将所有被试分为三组，分组顺序参考总分顺序排列。从最高分开始的前25%定义为第一组；相对地，从最低分开始后25%定义为第二组；余下的50%为第三组。

Step2：统计。采用数学统计方法计算每个试题的具体得分率，其中第一组、第二组得分率用符号PH、PL表示。

Step3：计算。计算公式为：D=PH-PL。

例如，表1为计算上海电力学院2013—2014学年第一学期《工程力学》期末试卷中的试题区分度计算。

从表1的统计结果不难看出，第2题和第4题的区分性能较好，第1题和第3题分别偏向极值。由计算公式可知：从理论上说区分度同难度一样，也是介于0到1之间的一个数，难度越低或难度越高的试题区分度都低。

四、小结

本文通过对教育测量基本原理和方法的运用，将影响试卷的因素加以分析研究，分别从信度、效度探讨了影响试卷的影响因素，试题作为试卷的基本组成元素，主要从难度和区分度两个重要影响因素进行阐述，探讨了两者对试卷的影响作用，为试题库结构设计和算法的实现提供理论依据和重要支持。

参考文献：

[1]冯雪花，王慧玲.教考分离管理模式的思考[J].中国教育技术装备，2014，（2）：96-98.

[2]辛涛.新课程背景下的学业评价：测量理论的价值[J].北京师范大学学报：社会科学版，2006，（1）：56-59.

[3]吴承祯，何丽华，林立群，等.试卷质量分析方法及其应用[J].中国林业教育，2008，（3）：26-30.

[4]李·斯·舒尔曼，黄甫全，王娜智者.教学活动中的知识生长[J].教师教育学报，2014，（4）：44-58.

[5]范明虎，孙斌.通用试题库管理系统的设计与实现[J].计算机工程与设计，2007，（9）：2185-2188.

[6]赵德成.减负背景下的评价与考试改革[J].北京师范大学学报：社会科学版，2014，（4）：23-29.

[7]李业刚，高成琳，李红玲，等.高校试卷质量分析系统的研究[J].山东理工大学学报：自然科学版，2008，（04）：57-60.

[8]袁东华.高校试题库、试卷库建设问题的思考[J].黑龙江教育（高教研究与评估），2013，（4）：77-78.

[9]杨永，梁金钤.基于B/S模式的通用试题库系统的设计与实现[J].計算机工程与科学，2009，（04）：143-146.

[10]曾一，冉忠，郭永林.试题库中自动组卷的算法及试卷测评策略[J].计算机工程与设计，2006，（16）：3024-3028.

[11]杨峰.基于遗传算法的试题库管理及自动组卷系统的研究[D].山东农业大学，2008.

[12]周文举.基于遗传算法的自动组卷系统研究与实现[D].山东师范大学，2006.