Bookmark法在基于标准的教育考试中设置划界分数的应用

2014-07-05 09:19王晓华

中国考试 2014年7期

王晓华

1 引言

基于标准教育考试的目的是判断参加测验考生是否具备某种技能、掌握某种知识，以及具备这种知识和技能的熟练水平。由于考试获得的结果是考生的考试成绩，因而必须根据考试大纲中对知识和能力熟练程度等第的描述，将其映射到某次具体考试的成绩上。这样一个映射的过程就是标准设置，标准设置中获得的该等第分数下限就称为该等第的划界分数。依据划界分数就可以方便地对考生做出分类决策，如高等教育自学考试和课程结业考试需要将考生划分为合格和不合格两类，以便决定学生是否达到课程的学习要求，如果被划为不合格，学生需要重修课程，再次参加考试；而学业水平考试需要做出更多的分类，如优秀、良好、合格和不合格，或者A、B、C、D和E等等第，以便根据课程的表现性标准对学生的学业水平做出评价。

然而，我国基于标准的教育考试的分类标准比较混乱，存在诸多争议，其科学性也受到质疑[1]。就高等教育自学考试和课程结业考试来说，传统上都是以60分作为划界分数，低于60分为不合格，高于等于60分为合格。至于60分以下的内涵究竟是什么，为什么59分就不合格，60分以下的问题在哪里，以60分为划界分数的分类误差是多少，谁也说不清。现在各省市实施的学业水平考试大多也是以百分位分数作为分类的依据，这实际上采用的是常模参照考试的做法，本质上是将学生的表现与其他学生进行比较，完全违背了基于标准的教育考试的初衷。

国外欧美发达国家基于标准的教育考试一般都是根据考试的结果，采用“标准设置”的方法对学生进行分类决策。所谓“标准设置”是按照规定的程序和方法来设定表现类型或学业水平边界（即划界分数）的过程。规定程序和方法的目的就是要保证“标准设置”确定的划界分数有效、经得起检验。这个规定的程序和方法包括[2]：①确定标准设置的方法；②准备或熟悉表现类型或学业水平描述；③组成“标准设置”专家小组；④对参与“标准设置”的专家进行培训；⑤向“标准设置”专家提供相关的反馈信息；⑥评价和记录过程的有效性。其中，“标准设置”专家小组的任务是要依据自己的专业判断，将学业水平的定性描述，转换为考试的连续分数量表上具体的划界分数的位置。

Bookmark法是近年来特别是在美国的K-12教育评价中得到广泛应用的标准设置方法。与Angoff法基于经典测量理论所不同的是Bookmark法是基于项目反应理论，在进行专家评价之前，需要进行大量的项目反应分析和计算。由于项目反应理论在我国考试机构或其他基于标准的教育考试的执行机构尚未得到很好的掌握和应用，因而我国熟悉和掌握Bookmark标准设置方法的人不多，实际应用较少，国内在这方面的研究文献也比较少见。

Bookmark法的优点在于评判专家进行评判的次数比Angoff法要少得多，对评判专家也相对比较容易，而且适用性好，既适合于客观题，也适用于主观题。特别是在题量很大的考试中，Bookmark法优势明显[3][4][5][6][7][8]。

2 Bookmark法的基本原理和实施程序

2.1 基本原理

Bookmark法是采用项目反应理论（IRT）对试题进行项目反应分析，将试题按照项目反应理论难度从易到难排列，每道试题放置一页，组成像书一样的题册，然后邀请有关学科专家以考试试题材料的难度参数值为基础，按照试题册的顺序讨论每道题目，判断等第中最低能力的考生答对所讨论题目的概率是否在2/3以上，如果低于2/3，则评判专家在相应的题目上放置书签，以此作为设置划界分数的依据，从而确定一个或多个划界分数。

Bookmark法的理论依据是将项目反应理论的题目难度跟被试特质水平定义在同一度量系统上，题目难度跟被试水平可直接比较。更重要的是，IRT描述了考生答对概率跟被试特质水平之间的定量联系。当某测验确能恰当代表某一特质领域时，考生在该领域掌握的百分比就是他在该测验全部题目上期望分数的平均数。

作为以IRT为基础的方法，当不同测验的样本来自同一总体时，Bookmark法能将多个测验的题目放在同一题目手册中排序，然后合并为一个测验，达到为多种类型的测验设置单一划界分数的目的。此外，Bookmark法能够在一次测验中设置合格、良、优等多重划界分数线。

2.2 实施程序

Bookmark法的标准设置可以分为两个阶段，第一个阶段称为评判前的准备阶段，这个阶段需要运用项目反应理论对试题进行分析，获得试题的难度参数、考生的能力参数（量表分数）以及能力参数与原始分数转换对照表；运用项目反应理论模型分析计算正确应答或获得相应分数的概率为2/3时所要求的能力值；准备标准设置用的按照试题难度排序的试题册和书签记录表。第二个阶段是评判专家执行标准设置过程，获得划界分数的阶段，包括对评判专家进行培训、执行第一轮标准设置、计算划界分数、反馈第一轮标准设置结果、执行第二轮标准设置等。

3 实例研究

某市2011年统考的高等教育课程《高等数学》的试卷结构如表1所示。

从表1可以看出，试卷中题型分为四种：单项选择题、填空题、计算题和证明与应用题。试卷总题量为25道，满分为100分。

3.1 第一阶段评判前的准备

3.1.1 运用项目反应理论获得试题参数和考生能力参数

表2所示为采用两参数项目反应理论模型计算获得的试题区分度和难度参数，选择题和填空题（1～15题）要么得分，要么不得分，因而它们只有一个难度等级。而主观题（16～25题）可能的得分为1～6分，相应的有六个难度等级，而且难度随着得分增加而增大。

表1 高等教育课程《高等数学》试卷结构

表2 试题区分度和难度参数值

由于划界分数最后仍然是以原始分数表示的，并且评判专家对考生的能力参数（量表分数）不大习惯，因而需要将能力参数和原始分数相互转换，进行一一对应。我们将获得的考生能力参数和对应的原始分数输入计算机，利用SPSS软件进行线性回归，获得的转换方程如式（1）所示：

式（1）中Y代表原始分数，L表示量表分数。利用转换方程可以制作原始分数与量表分数的对照表。表3所示即为原始分数1～100分与相对应的量表分数的互换关系。

3.1.2 计算正确应答或获得相应分数的概率为2/3时所要求的能力值

在Bookmark法中，对于每道客观试题，评判专家需要判断最低能力考生做出正确应答的概率；而对于主观试题，则需要判断考生获得某一分数或更高分数的概率，如果该概率等于或低于某一确定的概率值，那么就可以将书签放置在这道题的位置，这一确定的概率值就称为Bookmark法的决策规则。有研究表明对于两参数项目反应理论模型，最佳决策规则是将概率值确定为2/3。在Bookmark法实践中，目前多数都将决策点定为2/3。因而本研究也将决策规则中的概率值定为2/3。

表3 原始分数与量表分数（考生能力参数）互换表

按照2/3决策规则，令

根据式（3）中考生能力参数θ与区分度a、难度参数b之间的关系式，可以计算出考生正确应答概率为2/3时所需要的能力值。

主观题采用的是两参数部分评分模型：

式（4）中，i表示试题号，mi为该题的满分，ai为该题的区分度，δis为该题的步骤难度，j表示考生的等级分数。由式（4）可以计算出考生在主观题上获得各个等级分数的概率为2/3时所需要的能力值。

表4即为按照式（3）和式（4）计算得出的考生获得试题相应等级分数在决策点为2/3的时候所要求的能力值。表中，16-1的意义是表示考生在第16题获得1分，其他以此类推。

3.1.3 准备试题题册

试题题册是Bookmark法中评判专家依据的主要工具，它由一系列的试题页组成，对于客观题，每个试题页包含一道试题的信息；而对于主观题，每个试题页包含一个分数步骤的信息，即对于主观题，若满分为6分，就相应地有6个试题页。图1所示为客观题试题页所包含的信息。

图1 客观题试题页所包含的信息

图1中，第一行“试题15”为该试题在考试试卷中的题号；第二行为试题的难度参数；第三行为对试题做出正确应答的概率为2/3时所要求的能力值；接下来是试题、参考答案、试题考核的知识点以及试题的认知层次；最后一行是该试题页在试题册中的页码。

表4 试题在决策点2/3处所要求的考生能力值

图2 主观题试题页所包含的信息

图2所示为主观题试题页所包含的信息。第一行“试题17-3”中17仍然是该试题在考试试卷中的题号，其后的数字“-3”代表该试题页说明的是获得3分分数等级的信息；第二行表示的是该分数等级或应答步骤的难度参数；第三行表示的是考生在该试题上获得3分的概率为2/3时所要求的能力值；接下来是试题、参考答案、试题考核的知识点以及试题的认知层次；最后一行是该试题页在试题册中的页码。

3.2 第二阶段评判专家执行标准设置

3.2.1 评判专家的组成

评判专家由10位数学系的教师组成，他们来自某市的四所大学，其中，教育部直属重点高校两所，某市市属高校两所。他们都曾经或者正在教这门课程，对考生相对比较熟悉。有部分教师参加了命题阶段的工作，对命题的思路和过程比较了解；还有部分教师参与了考后的评卷工作，对考生的答题情况也比较了解。

3.2.2 培训

专门召开培训会议对评判专家进行培训，主要内容有：

（1）明确本次Bookmark法标准设置的目的是获得优秀、良好、合格和不合格四个等第的划界分数

（2）熟悉《高等数学》课程考试大纲、试卷、答案及评分参考、试题的考核内容和认知层次。

（3）介绍试题册中的内容、含义以及试题的排序规则。特别是客观试题的难度或主观试题的分数等级难度以及考生对客观题做出正确应答概率为2/3，或者在主观题上获得某等级分数的概率为2/3时，所要求的能力值。

（4）讲解项目反应理论的难度、能力参数、区分度等概念。

（5）说明Bookmark法的决策规则和书签记录表的使用，以及在评判中不能肯定放置书签时应该遵循的问题解决程序。

3.2.3 执行Bookmark法标准设置程序

本次标准设置一共进行了两轮。

（1）执行第一轮标准设置

①评判专家从试题册第一试题页开始，逐页判断合格水平最低能力的考生对该试题做出正确应答的概率或者获得相应等级分数的概率是否落在2/3以下，如果回答是否定的，那么进入下一试题页进行判断；否则，就将书签安放在本页，并在书签记录表中填写相应的试题页页码。

②确定合格等第的划界分数后，接下来逐页判断良好水平最低能力的考生对后面试题页的试题做出正确应答的概率或者获得该试题等级分数的概率是否落在2/3以下，如果评判专家认为不会低于2/3，那么进入下一页判断；否则，在相应的试题页安放书签，并在书签记录表中记录试题页页码。

③同理，在试题页中放置优秀等第的书签，并记录试题页页码。

④收集和统计评判结果，获得初始划界分数。如表5所示。

表5列出了每个评判专家确定的试题册中代表优秀、良好、合格等第下界的试题页页码。需要指出的是划界分数是书签安放页的上一页标注的能力值，如果书签安放在第25页，则划界分数采用的是第24页标注的能力值。这是因为评判专家安放书签的某一试题页表示该评判专家认为该等第最低能力的考生做出应答的概率或者获得等级分数的概率不足2/3，而之前的试题页都大于或等于2/3。划界分数表示的是等第最低能力的考生做出正确应答或获得等级分数的概率应大于等于2/3，因而该等第的下界分数应取安放书签的上一页标注的能力值。

表6列出了以量表分数和原始分数表示的评判结果的描述性统计量。量表分数描述性统计量包括评判专家评判结果的平均值、中数、标准差、最高值、最低值以及平均值上下移动一个标准差时的划界分数；原始分数也给出了对应的描述统计量。在表6中，如果采取平均值作为划界分数，则合格、良好、优秀的划界分数分别为41.06分、55.85分和75.52分。

⑤反馈和讨论统计信息。

第一轮评判结束后，向评判专家反馈在确定三个划界分数的过程中，安放书签的页码范围，评判专家可以据此比较自己安放的书签页码与其他专家安放的书签页码的差异。一般要求评判专家在下一轮评判中，在第一轮安放了书签的页码范围内调整评判。

另外，将表5和表6所包含的信息完整地反馈给评判专家，比如以量表分数表示的划界分数范围与以原始分数表示的划界分数范围的对应关系；比较平均分与中位数表示的划界分数，哪一个更合适？每一等第的标准差是否合适？

表5 《高等数学》课程考试标准设置第一轮评判结果

表6 第一轮评判中以量表分数和原始分数表示的评判结果描述统计量

经过讨论，评判专家认为：以平均分表示的划界分数比较符合实际；各等第的标准差偏大，需要进一步缩小。

（2）执行第二轮标准设置

第二轮标准设置的过程与第一轮基本相同，第二轮标准设置评判专家的评判结果统计如表7所示。由表7可见，采取平均值作为划界分数，则合格、良好、优秀的划界分数分别为44.95分、56.75分和79.64分，最终可取三个划界分数分别为45分、57分和80分。按照这个划界分数，不合格、合格、良好和优秀各等第的人数比例分别为55.1%，19%，20.5%和5.4%。

表7与表6相比较可知，在第二轮评判中，评判专家的评判在各个等级上的标准差都有所降低，这说明评判专家的评判更趋于一致，且各等级的划界分数都有所提高。

4 结束语

我国传统上以60分、70分、80分和90分作为合格、一般、良好和优秀的划界分数，而不管考试考了什么？考试的难度如何？尽管这种传统的划分等第的方法操作方便，但缺乏科学依据，没有说服力，也严重损害了考试的效度和信度。

在我国目前大力推行基于标准的学业水平考试的情况下，停止采用传统的、粗糙的等第划界方法，转而在考后采取科学的方法进行标准设置已经势在必行。事实上，“标准设置”已经成为教育测量界公认的对学生进行分类决策所必需的过程，其测量学特征可以保证分类决策依据高质量的数据，并保证数据是以系统、可重复、客观、可检验的方式组合和呈现。

表7 第二轮评判中以量表分数和原始分数表示的评判结果描述统计量

Bookmark法是一种比较新的重要的标准设置方法，在国外已经得到较为广泛的应用。然而在国内的考试机构中，掌握这种标准设置方法的人不多，研究文献和实际应用也较少。因而本文开展这方面的应用研究具有十分重要的价值和意义。

[1] 雷新勇.学业标准——基于标准的教育改革必须补上的一环[J].上海教育科研，2009（6）：15-18.

[2] 雷新勇.基于标准的教育考试——命题、标准设置和学业评价[M].上海：上海科学技术出版社，2011.

[3] 陈梦竹，张敏强.Bookmark法设置划界分数的研究述评[J].心理科学，2009，5（17），102-110.

[4] 何惧，等.Angoff法及其衍生方法在资格考试合格线设定中的比较研究[J].中国考试，2007（6）：23-26.

[5] 余嘉元.Angoff方法有效性的检验研究[J].教育研究与实验，2008（1）：54-57.

[6] 催丽娟，赵鑫.用安戈夫（Angoff）方法对网络成瘾的标准设定[J].心理科学，2004，27（3）：72l-723.

[7] 汪存友，余嘉元.调和Angoff法在设定执业医师资格考试分数线中的应用[J].中国考试，2011（10）：38-43.

[8] 汪存友，余嘉元.关于两种Angoff法比较的模拟实验研究[J].心理科学，2010，33（1）：159-161.