试题编制过程中的三十个技术细节

2014-06-09 01:40JorgTobiasKuhn奥地利张若仪王海东
教育测量与评价 2014年10期
关键词:多选题题干选择题

Jorg Tobias Kuhn(奥地利) 张若仪 王海东

试题编制过程中的三十个技术细节

Jorg Tobias Kuhn(奥地利) 张若仪 王海东

本文对考试命题过程中需要注意的若干技术细节进行了系统总结,概括出有关试题内容、样式风格和选项设计等3大方面的30个技术细节问题,并佐以实例说明。

试题编写;注意事项;题干;刺激材料;选项

在心理与教育测量中,试题(item)一词指的是用来构成测试和评价的独立任务或问题。试题编写(itemwriting)一直被认为是大规模测验和评价的关键部分。[1]良好的试题编写活动,要求具有准确实用的考试蓝图、训练有素经验丰富的命题人员、清晰明了准确无误的试题编写指南、详细的标准化审查程序、对经验数据合理有效的分析等,此外,还需要试题编写者和项目管理者之间不断的交流以及相互监管。

为了编写出科学的、高质量的试题,命题人员需要完全理解测试目标和相关的心理测量结构,[2][3]并在测试目标的基础上,制定命题蓝图。命题蓝图是命题人员在编写试题时用作指导的模板或者试题标准说明书。接下来,就是以指南或者以“基于规则”的试题编写。[4]有指导的试题编写活动是科学和艺术的结合。然而,命题本身又是一项具有高度创造性的活动。对试题编写者的训练和提供试题编写指南,不应削弱编写者的创造性。它们应该为试题编写者提供程序上的知识和指导。

在本文中,我们根据已有的研究成果和多年的实践经验,整理归纳出试题编制过程中需要注意的30个技术细节。命题人员只有在工作中谨慎把握好这些技术细节,才有可能命制出高质量的试题。

一、关于试题内容

1.每道试题都要反映测验蓝图中的内容

题目应该具有尽可能高的结构效度,并且应该尽可能地贴近并充分反映测验结构的预定内容。测验计划把题库中的试题依据不同性质进行合理分类。测验计划以及其转化为试题的能力,可以被看作结构效度的核心方面。例如,阅读理解题按计划是用来测量精读的,可当一道阅读题通过简单地浏览文章就可以回答时,它就不符合命题计划的要求。

2.避免琐碎信息

当题干材料中包含一些琐碎内容或题目整体上有琐碎信息时,就会产生不利影响,因为这些题干材料可能不会反映预期的测验结构,而且,这些题干材料过于简单可能会使测试者失去做题的动力。在这里,关键的问题是,什么是琐碎信息?琐碎信息是考生在未来的学习和语言获得中最不重要的部分,它们只需考生简单地回忆和认知活动即可掌握。只要这些琐碎内容不是详细地体现在命题蓝图和测试说明中,命题人员就应该把它们的数量减到最少。

3.保持每道试题内容上的独立性

常常有这样一种倾向,命题人员在一道试题里提供的信息有助于考生正确解答后面的题目,特别是在相同刺激材料的一组试题里,例如同一段阅读理解之后的几道问题。那么,命题人员应该尽量在命题中避免这种倾向,因为善于应考的考生会发现并利用这一点。图表1有这样一个例子[5]。如果试题1的正确答案是C,那么善于应考的考生就会在试题2中选B,因为B是唯一没在试题1中出现的答案。

图表1 试题内容的独立性以下问题来自故事《伊巴拉的石头》

4.如果试题中刺激材料引用的是现成的,则要注明资料来源

如果现有试题的刺激材料不是命题人员自己创作出来的,而是从别处借用来的(报纸、书、其他资料上的文章或图片),命题人员必须在题目下方完整地提供这个资料的出处(作者姓名、时间和刊物、出版社、页码、网站等)。

5.避免偏颇观点和其他不适当内容

试题中不能使用那些具有偏颇观点的刺激材料。有争议的或者敏感性的话题材料会引起误解,最好避免编入试题中。例如,与死亡、灾难、宗教等有关的信息性刺激材料是不合适采用的。

6.避免陷阱题

Roberts总结了几种被学生认为是陷阱试题的情况,[6]如试题编写者蒙蔽和误导测试者的题目、有琐碎信息的试题、选项差别极其微小的试题、有粉饰词语或有很多无关信息的试题、有多个正确答案的试题、过于模棱两可的试题,等等。

Withers在一段文字中简洁地提到[7]:

我们的目标始终都应该是,那些认真做题的或者已掌握相关技能的学生,能够在考试中有良好表现。尽量选择那些学生可能会误解或容易犯错误的材料或题目,或者是那些学生在学习该课程中的重点和难点,但要确保它们是普遍性的和重要的内容,不要仅仅是偏题怪题,也不要仅仅是你为粗心者设下的一个陷阱。

任何情况下都应该始终避免陷阱题。Haladyna在图表2中提到了一些典型的陷阱题例子[8]。

图表2 陷阱题示例

二、关于试题风格和样式

7.校订和复审试题

校订和复审是试题编写过程中关键的一部分。然而,所有的校订都应该在现场测试之前完成。因为在试题布局或结构构建中,即使很简单的改变也会给它的参数带来实质上的影响。例如,干扰项的相似性,会使得其他可能的题目不断变化,并使题目难度大幅度提高。[9]Haladyna区分了统计校订和内容校订。[10]内容校订指的是在信息性刺激材料中所做的改变,而统计校订指的是在多项选择题选项中的改变。从Haladyna的观点和经验来看,统计校订对题目影响很大,因而这些题目在进入题库前要经过预先调查和复查。

8.使用正确的语法、标点符号、大小写和拼写规则

题目中的语法错误、标点错误、大写错误和拼写错误等,会导致实质上的不利影响,即使是在低风险的测验中也要尽量避免。首先,这些错误被界定为粗心错误,并且总体来说会让人对整个测试及其目的产生一种消极的看法。其次,受考试影响产生心理焦虑的测试者,会被这些错误分散其注意力。[11]总体来说,没有经过有效校订的测验会有更多的“统计干扰”,并且会以一种潜在的非系统的方式影响测试者的表现。

9.把每一道题的阅读量减到最小

题目中的文字应该尽可能简洁,特别是关于题目的操作部分(如题干、选项等)。在相同的时间内,有更多文字的较长题目相对于比较短的题目所提供的信息要少。即使是在考察长篇阅读能力的测试中,信息性的刺激材料也应该尽量缩短。通过在相同时间内提供更多有效可靠的题目,信度和效度这两个主要的心理测量指标能够得以扩大,从而提高测验的质量。

10.保证题干的指向清晰

一个清晰而不模棱两可的题干是非常必要的,因为它会让测试者明白他们应该怎么做。一些题目质量低的原因是因为题干的指向不明。图表3展示了一个指向不清晰题干的示例[12]。

图表3 不清晰的题干和清晰的题干

11.试题的中心思想应包含在题干中,而不是在别的地方

无论是从测试公平性还是从试题质量的角度,试题的中心思想应该在题干部分被明确呈现,而不是出现在选项中。对于考生来说,题目的意图应该在首次阅读题干时就能够明确地领会。题干中没有中心观点的题目(例如,只提供一个单独的词或者一个不完整句子的一小部分),总会给考生增加记忆负担,因为这些题干会给试题引入含混的因素。图表4分别展示了没有中心观点和有中心观点的题干例子。

图表4 没有中心观点和有中心观点的题干

然而事情也不绝对。在很多示例中,在题干中加入不完整的句子比加入完整的句子更合适。比如,如图表5所示,选项中有过分的冗余赘述。在这个示例中,选项里给出很少的词并且已经把题干中题目的意图陈述得更清晰,这时就需要一个没有中心观点的题干。总的来说,题干部分应该明确地表达题目意图。

图表5 题干中完整的和不完整的句子

12.避免对题目的过度粉饰

题目中可能会包含与题干中提到的问题完全无关的词语或者句子。它们被加进题目中是为了使题目看起来更显得真实。然而,只有从无关信息中筛选的相关信息属于被测量内容的一部分时,多余信息才可以加入到题目中。在除此之外的其他情况中,过多的粉饰都应该被避免。图表6展示了一个被粉饰的题目和一个简洁明了的题目[13]。

图表6 繁冗多余的题干和清晰简洁的题干繁冗多余的题干

清晰简洁的题干

13.小心使用幽默

在测试题中,命题人员要小心使用幽默用语。尽管幽默可以帮助学生降低在学习中的紧张和不安,但在测试中常会带来不适当情况。首先,题目中的幽默内容会束缚干扰项的范围。其次,题目中的幽默会导致学生对待该考试的态度不够认真严肃。再次,幽默用语会模糊题目的目的。作为一般性的指导意见,只有在不影响题目的理解以及不会在实质上分散考生注意力的情况下,幽默用语才可以使用。图表7展示了一道由于使用幽默语言而导致测试目标模糊的试题[14]。

图表7 由于使用幽默语言而模糊了题目意图的试题

14.题干中陈述要正面,避免负性用语(如“不是”“除了”)

很多调查都显示,在题干中采用负面用语会对考生的表现有不利影响。负性词语会导致考生不能理解题干的含义。[15]此外,负性词语会被考生仔细阅读,从而增加他们的阅读和记忆负担。如果一道题目中一定要用到负性词语,就应该把它们清晰标注出来,例如,把它们印成大写或粗体形式。

15.语言要尽量简洁

听力和阅读测验的目的,是对学生这些方面的技能提供一个准确的测量。在此情况下,题干和选项中的词语应该尽可能简单易懂。毕竟,信息性刺激材料要测量的是听力和阅读的技能。题目的难度不应该是来自其复杂的选项设计。例如,Abedi曾经就什么样的语言在测试中是恰当的,提出过一些指导性建议[16](参见图表8)。

图表8 测试中应使用什么样的语言

三、关于答案选项

16.尽可能多地编写出可用选项(多选题、匹配题)

Rodriguez的研究结果发现,[17]在教育测验的多项选择题中,有两个好的干扰项就足够了。正如Halanyda等人提到的,[18]通常很难找到超过两个以上的功能良好的干扰项,特别是在较短的信息刺激材料中。考虑到会减低答题的猜测情况,选项多会更好一些,但只有在它们没有被粉饰的时候,特别是在没有增加阅读负担的情况下。易于辨认的干扰项价值有限,同时,大量的干扰项会对考生内容的记忆有不利影响。[19]对于编制多项选择题的一般建议是:首先编写出尽可能多的选项,然后从中选择出最好的一些,纳入最终试题设计;在听力和阅读的多项选择题示例中,每道多项选择题都应有三个干扰项;干扰项的数量和猜测题目答案有关,多一些选项会减少猜测因素的影响。

17.确保只有一个选项是正确的(多选题)

即使对于富有经验的命题专家来说,偶尔也会在多项选择题中同时出现两个正确选项或者没有正确选项的意外情况。通常情况下,这种失误会在试题复审环节被发现。

18.答案选项要与题干的语法结构一致

题干和选项要在语法上保持一致。如果题干中语法表明正确答案是关于一个女性或是负数的,确保所有的选项都是女性或负数。否则,不一致的干扰项会被考生最先排除。

19.答案选项不能比题干还长

有信息性刺激材料的题干,应该包含能够正确得出答案的所有相关信息。在选项中不宜出现额外的数据。(参见图表9)

图表9 题干和选项的适宜长度

20.题目中的正确选项/句子应随机分布(多选题、判断正误题)

考试过程中,考生会很快发现正确答案出现的位置规律,并且会适应这种题型。因此,在多项选择题中随机安排正确选项的位置、在判断正误题中随机放置正确的句子,就十分重要。随机性比平衡(例如,每个选项在每一个位置出现的频率均等)更有优势,因为测试者有一种避开正确选项在两端位置的趋势。[20]然而,如果考生受惠于符合逻辑的或数字顺序的放置位置,那么这个顺序要被选出来而不该随机安排。

21.如果可能的话,把选项按逻辑的或者数字的顺序排列(多选题)

如果题目允许,多项选择题的选项应该以逻辑的或数字的顺序呈现。在此种情况下,不应该要求考生在偶然放置的选项里“找”出正确答案。例如,图表10展示了一道在数字顺序允许的情况下,正确的和错误的排列选项的题目。

图表10 选项的逻辑和数字排列顺序

22.保持选项相互独立,含义不要有重叠(多选题)

在含义上有重叠的选项是不正确的,因为如果不小心就会使题目包含两个正确选项,而且可能会迷惑考生。而且,它们可能会使得善于应付考试的人即便不看题干也能发现正确答案。[21]图表11展示了一个有重叠含义选项的题目。

图表11 选项意思重叠

23.使选项在内容和语法结构上保持同质性(多选题)

在多项选择题中,在内容和语法结构上差别大的选项会给考生以找出正确答案的线索。举例来说,如果选项在其特征上有区别,一般最特别的那个是正确选项。图表12解释了这一点[22]。由此看来,各选项在特征和语法结构上应该尽可能保持同质性。

图表12 题目选项的同质性

24.选项长度要大致相同

在新编写的多项选择题中,当题目问到具体的信息时,最长的选项总是正确的。在这样的情况下,善于应付考试的人会选择最长的那个。因此,选项应该在长度上大致相同。

25.慎重使用“以上选项都不对”(多选题)

带有短语“以上都不对”的选项会促使考生使用排除法,而不是积极主动地去解题。即使这个短语不会影响到题目的心理测量学属性,[23]也应该尽量少地使用。因为从题目中遗漏正确选项和暗示具体的解题方法,都是没好处的。

26.避免使用“以上选项都对”(多选题)

带有“以上所有选项都对”的选项应该在试题中避免。它暗示有多个选项是正确的,这就与“只有一个选项正确”的通常指示相矛盾。此外,它会使考生使用应试技巧,即如果他们发现在四个选项的多项选择题中,三个选项中两个都是正确的,他们就会自动推断出要选“以上所有选项都对”的选项,而不会再去考虑第三个选项。

27.选项措辞要积极,避免使用负性词语如“不是”(多选题)

在题目中使用负性的词语会增加考生错选的几率,因为他们可能会忘记曾出现的负性词语,或者有意识地跳过它。如果在题目中不可避免地用到负性词语,那就需要在测试说明中明显地标示出来,比如,使用大写或者粗体字形式。

28.避免对正确选项做出提示

在题目中需要避免以下几种对正确答案做出暗示的情况,[24][25]依次是:避免使用具体的限定词(总是、从不、完全、绝对、只有);避免同义词联想,如与题干完全相同的选项或与题干有同义词的选项;避免语法的不一致暗示正确选项;避免成对选项给考生提示正确答案;避免明显错误、滑稽的选项或者语句。

29.使干扰项或句子看似正确,具有干扰性(多选题)

多项选择题的干扰项(或者判断正误的句子),对于那些技能或能力较低的考生应具有一定迷惑性(看起来像是正确答案)。干扰项的质量是多项选择题质量的决定因素。设计出有迷惑性的干扰项并不容易,但对于那些有一定经验且了解考生的命题人员来说也不是难事。有迷惑性的干扰项可以以实验为基础(如考生出现的典型错误)收集,或者依据一个固定的有关评估能力或技能的认知模式。考生的典型错误对于试题编写很有用,并且可以通过分析简答题时收集到。

30.建构一个指定题目的标准答案/评分细则(简答题)

为了使得简答题的评分更为客观,命题人员必须编制好一个预先界定的评分规则(也叫评分细则或者标准答案)。这是一个不断重复的程序,命题人员首先确定几个可能被评为满分的正确答案,同时也确定几个可能的错误答案。在对试题进行现场试验之后,要在经验数据(例如,测试者的真实回答)的基础上进一步修改标准答案。有时候,命题人员不能确定一个有迷惑性的、可能正确的答案如何评分,就有必要增补一种新类型(部分正确的答案)。然而,这也可能暗示着题干部分需要进行修改。

[1][5][8][10][12][13][22]Haladyna,T.M.Developing and validating multiple-choice test items(3rd ed.).Mahwah, NJ:Erlbaum,2004.

[2][14][21]Case,S.M.,&Swanson,D.B.Constructing written test questions for the basic and clinical sciences(3rd ed.).Philadelphia,PA:National Board of MedicalExaminers, 2002.

[3][7]Withers,G.Itemwritingfortestsandexaminations. Paris:UNESCO International Institutes for Educational Planning,2005.

[4]Irvine,S.H.,&Kyllonen,P.C.(Eds.).Item generationfortestdevelopment.Mahwah,NJ:Erlbaum,2002.

[6]Roberts,D.M.Anempiricalstudyonthenatureoftrick questions.Journal of Educational Measurement,1993(30):331~344.

[9]Ascalon,M.E.,Meyers,L.S.,Davis,B.W.,&Smits,N. Distractor similarity and item-stem structure:Effects on item difficulty.AppliedMeasurementinEducation,2007(20):157~170.

[11][15][18][25]Haladyna,T.M.,Downing,S.M.,& Rodeiguez,M.C.A review of multiple-choice item-writing guidelines for classroom assessment.Applied Measurement in Education,2002(15):309~334.

[16]Abedi,J.Language issues in item development.In S. M.Downing&T.M.Haladyna(Eds.),Handbookoftestdesign. Mahwah,NJ:Erlbaum,2006.377~398.

[17]Rodriguez,M.C.Constant equivalence of multiplechoice and constructed-response items:A random effects synthesisofcorrelations.JournalofEducationalMeasurement,2003 (40):163~184.

[19]Butler,A.C.,Marsh,E.J.,Goode,M.K.,& Roedinger,H.L.Whenadditionalmutiple-choiceluresaidversus hinder later memory.Applied Cognitive Psychology,2006 (20):941~956.

[20]Attali,Y.,&Bar-Hillel,M.Guess where:The positionofcorrectanswersinmultiple-choicetestitemsasapsychometric variable.Journal of Educational Measurement,2003 (40):109~128.

[23]Knowles,S.L.,&Welch,C.A.A meta-analytic review of item discrimination and difficulty in multiple-choice items using“none-of-the-above”.Educational and PsychologicalMeasurement,1992(52):571~577.

[24]Fuhrman,M.Developing good multiple-choice tests andtestquestions.JournalofGeoscience Education,1996(44):379~384.

责任编辑/王彩霞

G449

A

1674-1536(2014)10-0049-06

本文由张若仪、王海东依据奥地利国家教育研究所Jorg Tobias Kuhn博士的英文报告《Item Writing Guide:E8 Listening and Reading》加以编译整理而成。

张若仪/四川大学外国语学院英语系学生。

王海东/教育部考试中心副研究员。(北京 100084)

猜你喜欢
多选题题干选择题
数字算式
单项选择题狂练
多选题解题策略
数列选择题精选精练
例说速解选择题的几种有效方法
提纲挈领 拨云见日
十种妙招握在手 破解选择题无忧
在阅读题干中寻求解题锁钥
掌握方法 有效答题
EpiData和SPSS在调查问卷多选题处理中的联合应用