创新试题分析

2015-07-05 12:11孟汇涓KirkBeckerJoyMatthewspez

中国考试 2015年1期

孟汇涓 Kirk Becker Joy Matthews-López

1 引言

创新试题（Innovative item）泛指那些在机考中利用计算机的功能特点来完成纸笔考试不易完成的测试任务的试题，其创新性可以体现在以下几个方面（Parshall,Harmes,Davey&Pashley,2010）：

（1）测试结构（Assessment structure）：包括单一试题和试题组。单一试题可以分为两类，选答题（如对错题、单选题、多选题、排序题、匹配题、热点题）和应答题（如填空题、简答题、应用题、作文题），试题前后之间没有关联性。而试题组中的试题类型可以是上面提到的任一种或几种的组合，但它们之间是有联系的。常见的试题组包括场景任务题或模拟环境操作题。组中试题的结构可以是设置好的，即所有考生都按照一个顺序回答一样的试题；它们也可以是松散的，试题的顺序和内容会根据考生答题情况的不同而不同。

（2）答题行为（Response action）：指考生如何应答问题，包括他们的动作和使用的设备。在纸笔考试中，最常见的答题行为是用铅笔在答题纸上涂圈；而在机考中，最常见的答题行为是用鼠标选择答案和用键盘输入文字或数字。此外，鼠标也可以用来拖拽选项、播放音频或视频、打开补充信息和操作计算器等。除此之外，机考中还可以使用语音识别软件和麦克风来采集甚至评判考生对口语表达一类试题的回答。

（3）试题使用的媒体（Media inclusion）：传统的试题表述大多以文字为主，图像为辅；而机考试题中对图像的使用超越了以往纸笔考试中单一的静态表述功能。考生可以直接在图像上进行选择、拖拽、旋转、缩放等操作。同时，创新题型开始了对音频、视频和动漫的使用，这些新媒体为命题人员提供了更加直接有效的表达方式，也拓宽了考试可以涵盖的内容领域。

（4）答题时需要的人机互动（Interactivity）：这里的互动是指试题对考生答题行为的反应程度。虽然机考中的单一试题里面可以加入基本的互动，比方说题目中图片热区对鼠标移动的反应，或填空题对考生填入的文字或数字形式上的限制。创新题型的互动，更多的是应用在前面提过的场景或模拟试题组中，例如在一个情境中有大量的信息和不同工具，考生需要分析试题，选择性地使用相关资料或工具来完成任务；而计算机则需要根据考生在每一步的回答作相应调整，选择下一道试题。完成任务、解决复杂问题的这一过程包含了很多真正意义上的人机互动。

（5）试题的复杂性（Complexity）：指考生回答问题时需要考虑使用的元素，其数量的大小和种类的多少。如果一道试题里包含很多种类的信息（如文字、图像、表格等），它们同时分布在计算机屏幕的不同区间，考生需要综合分析这些信息才能应答试题。那么，在考查内容同等的前提下，这道题的复杂性高于那些信息集中、元素单一的试题。

（6）试题的仿真度（Fidelity）：是指当考查内容包含现实世界中的人、物、场景时，试题是否能够真实准确地复制这些实际事物和情境。提高试题的仿真度，意味着考试主办方在时间和费用上的投入加大。因此只有当这种付出能够增加测试效度时它们才有意义。

（7）试题的评分方法（Scoring method）：指如何将考生的回答转换为分数。传统的纸笔考试需要很多人工操作的步骤，花费时间长，并且容易出错。在计算机考试中，绝大多数单一试题实现了自动评分。而那些场景或模拟题组，如果对人机互动有较高要求，则需要使用复杂的方法才能实现自动评分。这类评分方法的实施面临很多挑战，如设计、计算、编程、花费以及分数的效度和解读。

以上就是Parshall等人在创新题型理论中对“创新”设定的7个维度，它们可以帮助命题人员在设计试题时考虑得更全面、更具体，从根本上提高试题质量。

很多考试主办方喜欢使用创新试题。他们认为，比起传统的、以文本为基础的单项选择题，这类试题能够更直接真实地考查更多更广的知识和技能（Parshall,Spray,Kalohn,&Davey,2002），更有效地测量高层次、复杂的认知、分析以及解决问题的能力（Huff&Sireci,2001）。同时，它们还可以增加考生的兴趣（Strain-Seymour,Way,&Dolan,2009），减少一定的阅读量（Kumar,White,&Helgeson,1993），降低可猜对试题的数量（Huff&Sireci,2001），从而提高考试分数的效度。

虽然测量专家为创新题型的撰写提供了具体的指导（Parshall&Becker,2008;Parshall&Harmes,2009;Sireci&Zenisky,2006），但是目前在绝大多数考试中，创新试题所占的比例都很小，主要原因有：一是做试题的费用，比起传统的单选题，使用多媒体或虚拟场景的试题成本高出许多；二是对考查内容的覆盖，在一定的时间范围内，考生可以回答的单选题数量通常多于设计复杂的创新题（Joidin,2003），因此对于考查范围广、内容多的测试，为了保证测试效度，单选题是更为适合的选择；三是对创新试题的分析，因为在考试中这类试题的比例很小，很多考试主办方不知道该如何分析这些试题，为命题人员提供怎样的反馈信息，所以本文旨在通过具体实例，介绍几种常见的、低成本的创新题型的数据分析，以更好地帮助命题人员了解试题表现。本文未涵盖复杂的、仿真的场景或模拟试题组，因为在这类试题中使用的单题题型基本上还是文中介绍的几种，它们更多需要考虑的是设计、预测和评分方法，而这不在本文阐述范围之内。

2 创新题型介绍

多选题、排序题、填空题和热点题是目前在机考中使用频率最高的4种创新题型。其实，这些题型并不是什么新鲜事物，传统的纸笔考试中对它们都有不同程度的使用，但计算机技术赋予这些题型更多的功能变化，拓宽了考查内容的范围，考生的答题体验也更贴近现实生活中的自然反应。

2.1 试题基本形式

2.1.1 多选题（Multiple-choice multiple-response）

多选题和单选题形式相仿，只是答案中选项的个数不再限定为一。试题中的答题指示可以告诉考生答案中选项的个数，或只告诉他们选择所有符合条件的选项。下面的例题使用的是后者，也是在实际考试中更为常见的情况，这样的指示可以减少考生猜测行为对分数的影响。

多选题例题：

药剂师为病人准备他克莫司口服药时应该提供哪些服药指导信息？（选择所有适用的选项）

A.避免活病毒疫苗 □

B.避免葡萄柚和葡萄柚汁 □

C.如果服药时错过一剂，下次剂量翻倍 □

D.服用此药时不要饮酒 □

E.需要监控药物水平 □

2.1.2 排序题（List ordering）

排序题要求考生将试题中提供的信息或步骤按顺序排列，如比较三角函数大小，或将几个句子组合成一段逻辑顺畅的文字。排序题可以单选题的形式出现，在选项中列出不同顺序，如：选项A：B-A-C-D；选项B：A-B-C-D，等等，但在这种形式下，可测试的排序数量有限，也不方便考生答题。机考中的排序题通常使用拖拽技术，就是考生用鼠标点住选项，依次将它们移动到相应的位置。这种题的指示需要非常清晰，如果是数量上的排序，考生要知道是从大到小，还是从小到大。同时，如果考生群体的计算机水平参差不齐，在考试开始之前应该将回答排序题时所用的拖拽方法演示清楚，以确保考试公平。

排序题例题：

将以下外用皮质类固醇按效力从高到低排序。（必须使用所有选项）

单击鼠标左键选中，拖拽，并排列答案选项。

未排序选项排序选项氟轻松0.05%醋酸氢化可的松1%丙酸卤倍他索0.05%糠酸莫米松0.1%

2.1.3 填空题（Fill in the blank）

填空题可分为文字题和计算题，对这类试题，考生的回答往往会和标准答案有些许形式上的出入，例如英文中的大小写，词语之间的空隙，以及数字的精确程度。如果命题人员事先设定的答案没有把考生答案中可能出现的这些细微差异考虑进来，可能会影响计算机评分的准确性。因此，命题人员在试题中需要清楚地告诉考生填入文字或数字的格式，就像下面例题中显示的那样。同时，机考系统开发人员可以在自动评分系统中实施一定程度的格式微调，如四舍五入或删除多余的空格，等等。

填空题例题：

灰黄霉素口服混悬液包含125毫克/5毫升。医生为一个病人开出服药两周，每天两次250毫克计量的药方。这个方子需要配多少毫升的灰黄霉素？（答案必须是数字，并近似到整数。）

2.1.4 热点题（Hot spot）

热点题要求考生用鼠标点击试题提供的图像上或文字中符合条件的区间或词语，可以是单选题，也可以是多选题。比起以往使用ABCD选项的试题，考生回答热点题时不需要重复理解选项中的信息，而是在试题内容上直接操作，答题行为更加自然。

热点题例题：

在下面图片上找出在HIV生命周期中马拉韦罗发挥作用所在之处。（选择图中的文字选项，左击鼠标。如要改变答案，可移动光标，选择其他文字选项。）

2.2 样本数据

表1是机考中不同试题的常规样本数据，共5种，包括传统的单选题（作为参照）和前面介绍的4种题型。多选题的数据中，答案选项没有固定个数，可以选一个，也可以把所有选项全部选中。排序题的数据中，包括试题中的所有选项，它们在数据中的位置反应了考生对选项的排列顺序。填空题的数据最直观，就是考生输入计算机的答案，可以是数字，也可以是词语。与纸笔考试相比，机考中的填空题可以保证考生填入的内容完全符合答案的格式要求。热点题的数据和单选题差不多，也是考生选择的选项，但除此之外多了两个数字，它们是考生点击热点区间时鼠标对应的图片上的横坐标和纵坐标。

表1 5种题型样本数据

通常在考试一个周期结束后，负责考试分析的工作人员会对所有的试题进行分析，把表现不好的试题找出来，由命题人员从试题考查的内容、逻辑、答案、选项以及试题写作的不同方面来审查这些试题，看看需不需要修改，如何修改。因为分析结果是决定试题表现好坏的第一步，使用科学的方法计算试题统计指标，确定合理的评估标准，以及为命题人员提供详细的反馈信息对于提高试题质量、发展考试题库至关重要。

2.3 分析结果及反馈信息

试题分析的常用统计指标是难度和区分度。以下例题选自美国某行业资格考试，都是预测题，即不算分的题目。每道题的原始分值为1。难度就是答对的考生人数除以考生总人数。对应试题的每一个选项或选项组合，分析中提供选择这个选项或选项组合的考生人数、占所有考生的比例、区分度和考生的平均分4个指标。试题的正确答案后面带一个星号，它对应的选择比例就是试题的难度。答案的区分度一般说来应该是正值，至少在0.2以上，而其他错误选项的区分度应该是负值，因为成绩越低的考生，越容易选这些迷惑选项。同时，选择正确答案的考生平均分应该最高。如果很多高分的考生都选择某个错误选项，那很有可能它里面含有正确的内容；它后面会带一个箭头，作为备选答案供命题人员查看。

2.3.1 多选题数据分析

表2是一道正确答案为ACD的多选题的选项组合分析结果。数据列出了考生回答的19个不同的选项及选项组合（表中只列出平均分最高的4个）。从选择比例来看，50.2%的考生选择AC，区分度0.24,考生平均分最高；而正确答案ACD，只有5.3%的考生选择（试题难度为0.053），区分度是0.04，考生平均分也略低。从数据分析结果来看，选项组合AC完胜正确答案ACD，选项后面带了一个箭头，说明需要命题人员仔细审查试题及答案。

表2 多选题选项（组合）分析结果

当试题数据中选项组合过多的时候，命题人员不容易找出试题表现不好的根源所在，这时分析单独选项会有帮助。如表3所示，正确答案中使用的选项A和选项C没问题，选的人多，区分度也不错，对应的考生平均分也很高；而选项D每一项指标都不尽如意。因此命题人员要仔细分析选项D，考察考生把它排除在答案之外的原因。这种单独选项分析在备选答案和正确答案差异较大的时候格外有效。

表3 多选题选项分析结果

2.3.2 排序题数据分析

表4是一道排序题的分析结果。这道题的正确答案是B-A-D-C，只有5%的考生这样排序，区分度也仅有0.1。虽然这组考生的平均分最高，但因为人数很少，统计指标的稳定性不如平均分第二高的B-D-A-C，有近40%的考生这样排序，区分度也是正确答案的2倍。因此，这道题的正确答案有可能是B-D-A-C，需要命题人员分析试题。

表4 排序题排列顺序分析结果

除了这些常规的统计结果，表5提供了一些额外的分析，即每个位置上不同选项的表现。表5中的P1到P4，对应的是每个选项在位置1至位置4的表现。在位置1，B本身是正确答案，各项统计结果显示B都是最高，因此B排在第一位不存在异议。在位置2，备选答案D的表现明显好于正确答案A，选D的区分度是正值，选A的区分度是负值。位置3的结果同样存在这样的问题，备选答案A的表现明显好于正确答案D。位置4的结果与正确答案吻合。因此位置2和位置3的选项可能存在问题。

表5 排序题位置-选项表现分析结果

在此基础上，继续对相连两个位置（位置1和位置2、位置2和位置3、位置3和位置4）的排序结果进行分析，见表6。结果显示，B-D、D-A、A-C的数据要好于B-A、A-D、D-C的结果。分析结果再次表明，命题人员提供的正确答案有可能存在问题。

表6 排序题位置-选项表现分析结果

在这个例子中，因为需要排列的步骤只有4个，正确答案和备选答案的区别又很小，只是中间两个步骤的位置变化，所以这些分析与常规分析的结果相比，并没有提供太多额外的信息。如果排列步骤的数量比较多，正确答案和备选答案的排序又非常不同，这样的分析可以帮助命题人员理清选项之间的逻辑关系，迅速发现问题所在，从而有效地修改试题。

2.3.3 填空题数据分析

考生对填空题的回答通常是五花八门，很难一一分析，因此只有当正确答案表现不好时才需要对数据进一步查看，找出可能的答案。如表7中的例题，只有13.6%的考生填写的是正确答案，有35.4%的考生给出的结果是40，与其对应的区分度也很好，这一组考生的平均分也最高。因此需要命题人员再次确认正确答案的数值。

表7 填空题数据分析结果

2.3.4 热点题数据分析

表8是一道热点题的分析结果。该题共有11个选项（A～J，Z），B是正确答案，Z是所有选项之外的地方。有21.9%的考生选择正确选项B，区分度只有0.1，同时答对的考生平均分104分，排在第2位。在其他备选项中，选A的考生平均分最高，区分度也最高；选择D的考生也不少，占了总人数的1/4，它的区分度是负值，平均分也比较低，说明这个迷惑选项吸引了一批低分考生。此外，有30.1%的考生选择了Z。因为选项过多，为给命题人员提供更为直观的反馈信息，采取了图1的选项坐标分布图。

表8 热点题选项数据分析结果

图1 热点题选项坐标分布图

对照前面提过的这几个选项来看，答案B在左上角，而Z的坐标上下环绕B，所以也许考生以为他们选的是B，实际上他们点击的都是周边的无效地段Z。选项D和正确答案B泾渭分明，却吸引了不少低分考生，因此这是一个不错的迷惑项。另一个迷惑项A和正确答案B相离甚远，却吸引了近10%的成绩不错的考生，命题人员需要在试题审查会议上找出其原因。总之，使用坐标分布图，命题人员很容易发现有疑问的选项问题所在，并作相应的修改。

3 创新题型总结

3.1 统计指标的特点和差异

题型之间的差异不仅表现在题目本身的形式和考查的侧重点上，同时也反映在试题分析的各项统计指标上。表9是文中提到的美国某行业资格考试从2009年到2014年7月所有预测题的分析结果总结。

从表9可以看出，预测题总数4041道，其中单选题数量最多，占76.1%；排序题数量最少。在这5种题型中，考生在填空题上花费的时间最长，多选题需要时间最短。从试题难度上来说，单选题最简单，多选题最难，排序题和热点题的难度居中。就区分度而言，填空题最好，多选题最差，这是因为难度高的试题考生猜测成分多。最后一列的题目通过率，是指试题通过预先设定的统计指标（难度和区分度）的百分比，它们能否进入题库还需要命题专家综合判断决定。在这5种题型中，多选题因为难度大、区分度低，通过率最低，填空题的通过率最高。这种结果和预期是一样的，因为填空题无法猜测，所以它的试题质量比较容易保证。

3.2 统计指标的年度总结

一般来说，随着命题人员写题技巧的提高和考生对新题型熟悉程度的加深，创新题型的统计指标可能会发生变化，因此，对每种题型统计指标年度之间的纵向评估可以帮助考试主办方进一步了解并更好地使用创新题型。

表10是对单选题的分析，可以用来作为其他题型表现的参照。总体来说，单选题数量呈下降趋势，答题时间和试题难度虽然没有显著变化，但区分度略微降低，导致2012年至2014年的题目通过率下降5～6个百分点。

表9 5种题型统计指标总结

表10 单选题统计指标年度总结

多选题是从2010年开始进入到考试中的，试题数量在2012年大幅度增长，见表11。总体来说，除第一年外，试题难度、区分度和通过率基本比较稳定，但考生答题时间略有增加，考虑到这类试题的数量较大，对考试时间可能会有影响，命题人员需要审查试题，找出原因，是试题阅读量增大，还是试题本身更加复杂。

排序题题型比较新，从2011年才开始使用。试题数量很少，见表12，年度之间的统计结果比较没有太大意义。

表13是对填空题的分析，这类试题的数量在2010年到2012年达到高峰，2013年开始下降。答题时间从191秒减少到170秒左右，试题难度明显下降，反映考生对这种题型的逐渐适应。

热点题的数量很少，每年都不到10题，见表14。如果不考虑2010年（只有两题），这类试题的难度有所下降，区分度有所提高。

以上就是对各种题型的跨年度分析总结。从中可以看出，试题通过率总体呈上升趋势，说明命题人员的命题水平有所提高，同时，也说明考生对创新题型日渐熟悉，这一点从填空题的答题时间变化上看尤为明显。考试主办方在使用创新题型初期要非常谨慎，充分考虑评估这类试题对题目质量和答题时间的影响，控制它们在试卷中的数量，让不同年度的考生之间成绩依然具有可比性。

表11 多选题统计指标年度总结

表12 排序题统计指标年度总结

表13 填空题统计指标年度总结

表14 热点题统计指标年度总结

总之，对于创新题型，数据分析需要根据题型特点加以调整，丰富分析报告中关于试题表现的内容。全面细致的反馈意见可以帮助命题人员更好地了解考生行为，更容易发现试题选项逻辑上的漏洞，更有效地修改表现不好的试题，以及在撰写同一类型的新题时避开常见误区，提高试题通过率，以降低考试主办方命题方面的成本。同时，高质量的试题可以最大程度地减少创新题型对考生的影响，从而确保考试公平。

[1] Parshall,C.G.,Harmes,J.C.,Davey,T.,&Pashley,P.Innovative items for computerized testing[M]//W.J.van der Linden and C.A.W.Glas(Eds.),Elements of adaptive testing.New York:Springer,2010:215-230.

[2] Parshall,C.G.,Spray,J.A.,Kalohn,J.C.,&Davey,T.Practical considerations in computer-based testing[M].New York:Springer-Verlag,2002.

[3] Strain-Seymour,E.,Way,W.D.,&Dolan,R.P.Strategies and Processes for Developing Innovative Items in Large-Scale Assessments[C]//Research Report.Iowa City,IA:Pearson Education,2009.

[4] Kumar D.D.,White A.L.,Helgeson S.L.Effect of HyperCard and traditional performance assessment methods on expert-novice chemistry problem-solving[C]//Paper Presented at the Annual Meeting of the National Association for Research in Science Teaching.Atlanta,Georgia,1993.

[5] Huff,K.L,&Sireci,S.G.Validity Issues in Computer-based Testing[J].Educational Measurement:Issues and Practice,2001(20):6-25.

[6] Parshall,C.G.,Becker,K.A.Beyond the technology:Developing innovative items[C]//Paper presented in bi-annual meeting of the International Test Commission.Manchester,UK,2008.

[7] Parshall,C.G.,&Harmes,J.C.Improving the quality of innovative item types:Four tasks for design and development[J].Journal of Applied Testing Technology,2009(10):1-20.

[8] Sireci,S.G.&Zenisky,A.L.Innovative item formats in computer based testing:In pursuit of improved construct representation[M]//S.M.Downing and T.M.Haladyna(Eds.),Handbook of Testing.Mahwah,NJ:Lawrence Erlbaum,2006:329-347.

[9] Joidoin,M.G.Measurement Efficiency of Innovative Item Formats in Computer-based Testing[J].Journal of Educational Measurement,2003(40):1-15.