选择题的设计原则、常见问题与建议

2024-07-17 00:00:00林敦来罗正清李威峰
英语学习 2024年6期

引言

选择题(multiple-choice items或MC)作为选择应答型试题(selected-response items)中的典型代表,从20世纪20年代开始就成为大规模标准化考试的主流题型(Fulcher,2014)。在施测和评分阶段,选择题有突出的优势,例如在较短的时间内,测试者就可以收集到大量的测试数据,覆盖较广的考查内容。而在评分阶段,运用机器很容易就能实现准确无误的评分,因此在国内各大型的英语考试中,选择题仍占据重要的地位。初中英语学业水平考试(以下简称“中考英语”)同样运用大量的选择题来收集数据。在本文中,笔者将首先阐述采用选择题开展测试的四个方面的问题考量,介绍一个经过验证的选择题命题原则框架,并以此框架评价中考英语试题中选择题的常见问题和改进建议。最后,本文从效度角度讨论中考英语试题中选择题的运用和建议。

命题中关于选择题适用性的几点考量

Jones(2021)认为,命题者在考虑选择题的适用性时应思考四个问题。第一个问题是选择题本身的性质问题。一般认为,选择题有天生的缺陷,就是它难以避免猜测问题,而且选项个数越少,猜对的可能性越大(Jones,2021)。仅仅看考生的最终选择,我们无法了解他们答对或者答错的原因。如果是因为猜测或者排除错误答案而答对,很明显测试分数解释和使用的效度就会受到威胁。但是,Rodriguez(2005)的研究发现,除非时间赶不及了,考生基本不会做完全盲目的猜测。Rupp et al.(2006)发现,考生在用尽其他所有的策略后才会启用盲猜策略。Currie & Chiramanee(2010)则发现,在一项语法测试中,只有6.7%的正确答案是通过盲猜获得的。当然,有策略地猜测也会对分数解释和使用的效度构成威胁,因此在选择题的命题中要尽量避免留下漏洞。

第二个问题是关于选择题的构念效度的问题。Hughes & Hughes(2020)认为,语法选择题不太能够证明考生运用语法结构的能力,也就是说,考生能选对答案,但是却不一定能够在口语和写作中正确运用语法结构。这就涉及构念效度的问题。从这个角度来说,选择题仅仅能测量识别能力,却几乎不能用来测量口语和写作等产出性能力。从这个意义上说,选择题很难测量高阶思维能力。但是,选出正确答案也不一定是简单识别的结果。大部分选择题可以被看作是提出问题并提供一系列可能的解决方案,而这个过程需要复杂的认知(Jones,2021)。因此,选择题虽然不太能测试产出性技能,但也不仅仅可用于测量被动知识。设计良好的选择题可以考查较为高阶的思维能力。

第三个问题是关于选择题选项个数的问题。Haladyna(2004)建议运用尽可能多的选项,但是似乎也可以有限制。Rodriguez(2005)综述了跨度80年的27项研究,得出三个选项就足够的论断。命题人员应主要考虑以下三个方面的问题:1. 试题信度和题目区分度通常会随着选项个数的增加而增加,但是从两个选项到三个选项,信度和区分度提高明显,而超过三个选项后,两者提高得就很少了,增加第三个干扰项的效果不明显。2. 在实践中,第三个干扰项撰写难度非常高。3. 三个选项的选择题比四个选项的选择题需要的做题时间减少,因此更好的策略应该是增加题量,收获更高的信度。Lee & Winke(2012)比较了三个选项、四个选项和五个选项的语言测试,发现三个选项的测试题难度低,但在区分度和信度方面与其他两类测试题未见明显差异。Seinhorst(2008)也未发现三个选项和四个选项的语言测试题在难度、信度和区分度方面的差异,且三个选项的测试题比四个选项的测试题减少9%的施测时间,因此他认为,三个选项的测试题为测试者收集更多的证据提供了条件。

第四个问题是关于选择题的适用范围的问题。虽然选择题有很强的灵活性,可测试的能力范围很广(Green,2017),但是在其适用性方面仍需做较多的思考。例如在阅读理解试题中,要测量文本的内部逻辑结构,采用让考生排序打乱的文本的题型会更加合适。在特定信息搜寻能力方面的考查可用简答题。段落大意的考查则适用选择题,因为在评分方面,如果让考生直接产出,很难判断答案是否足够精准,而当考生直接抄写文章的部分内容作为答案时,就很难判断考生是否真正理解了原文。如果对原文进行有深度的释义,则能够用选择题来测量考生概括大意的能力。另外,在难度方面,选择答案和产出答案对测试的结果有影响。选择答案的难度明显会低于产出答案的难度。Currie & Chiramanee(2010)比较了产出答案和选择答案在测量语言知识时的异同,并通过问卷调查的方式开展研究,发现超过25%的考生依靠部分知识答对选择题,而接近25%的考生通过排除法获得答案。由于产出答案的题目中不存在选项支撑或干扰,因此不同题型所考查的构念是否相同,仍需进一步的研究。

经过验证的选择题命题原则框架

题目命制的质量是收集测试分数解释和使用效度证据的重要来源之一。Haladyna & Downing(1989a,1989b)对教育测量学教材和命题原则开展了广泛的研究,后期Haladyna et al.(2002)将研究更新,并最终由Haladyna & Rodriguez(2013)进行完整的论述(见表1)。表1的命题原则适用于选择应答型试题,也同样适用于指导选择题的命题。本节将对该原则进行必要的解释。

表1. 基于验证的选择题命题原则(Haladyna & Rodriguez,2013;林敦来等,2022)

在内容方面,要严格按照多维细目表的规划,每个题目只能测试一个内容和一种认知。在中考这样高利害的考试中要杜绝使用陈题,要用崭新的内容来测试学生,避免死记硬背。在多维细目表设计中,要注意选择核心的内容进行考查,并保证题目之间的内容相互独立,不互相提醒。在选择题中要避免测量答案因个人观点不同而不同的情况,也要避免偏题怪题。

在格式方面,建议选项应垂直排列。遗憾的是,在目前的中考英语试题中,我们可以看到密集的横向排列选项,这会给考生带来很大的心理负担。

在风格方面,要细致编辑和校对题目,避免任何语法、标点等语言和规范问题,并确保在选择题的题干和选项中没有生词。要严格控制题目的阅读量。例如在阅读理解题中,要避免选择题的题干和选项的词数达到阅读文本本身的词数。

在题干编写方面,要注意题干的含义要明确,避免使用“What do you know from the text?”等空问题。题干的撰写应尽量采用完整的问句,增强考生与试题之间的互动感。题干不应有否定输入,以防过度增加考生的认知负担。

关于选项的撰写,表1已有清晰的论述,在此不再赘述。

中考英语选择题设计的问题与建议

在本节,笔者将根据近年来的中考英语命题评估经验,结合表1的选择题命题原则,分析中考英语命题中的突出问题及改进策略,以期为命题人员提升中考英语命题质量提供参考。

1. 内容方面

在内容选择上,主要存在两方面突出问题。一方面,部分试题存在单个题目测试的内容超过一个的问题,影响其构念效度。另一方面,部分试题测试内容过于宽泛,导致构念不清晰。要避免类似问题,命题人员在命题时应科学规划多维细目表,明确目标测试构念,并严格依照细目表进行命题。以下结合具体示例进行说明。

(1)单个题目测试的内容超过一个

[例 1 ]

— As I know, your friend Jeff is very humorous.

— Yes. He is _______ person I know.

A. funnier B. the funniest

C. more serious D. the most serious

(参考答案:B)

该题既考查了funny与serious的词义辨析,又考查了形容词最高级的使用。这打破了单个题目与考点之间一一对应的关系,影响了构念效度。在本题中,如将选项改为funny、funnier、the funniest三个选项,考查内容就可以聚焦于形容词最高级的使用,提升构念效度2。

(2)测试内容过于宽泛

[例2 ]

Which one of the statements below is a fact according to the passage?

A. Gan Yu is a hero like Lei Feng.

B. Zeng Qiangfei is warm-hearted.

C. Lei Feng’s hometown is in Hunan.

D. Edginton is a “foreign Lei Feng”.

(参考答案:C)

该题出自一篇阅读理解,文章介绍了不同文化背景、不同年龄段的几个人的志愿服务故事,生动说明雷锋精神历久弥新。但该题目设置过于宽泛,未能指向所要聚焦的信息和技能,考生作答时不仅需要搜寻整篇文章信息,根据文章表述进行推断,还需要判断该信息属于事实(fact)还是观点(opinion),导致题目构念不清晰,作答困难。若将题目限定于某一人物的具体细节,则可明确测试构念。

2. 风格方面

在题目风格上,主要存在两点突出问题。首先,部分题目表述不当,题干或选项中存在超过被试水平的词汇或表达。命题人员应当严格依照《义务教育英语课程标准(2022年版)》(教育部,2022)的要求进行命题,使用符合要求的语言知识。若题目所包含的语言知识超标,则会阻碍考生理解题目,进而影响作答。在选择题命题中,不论是题干还是选项,都应使用符合考生当前认知水平的词汇与表达,确保作答不被构念不相关的因素影响。其次,部分选择题过度渲染情境,增加了考生作答时的阅读量。命题人员在创设情境时,应尽可能使用简洁的语言,避免冗余。以下结合具体示例进行说明。

(1)表达超过考生水平

[例3 ]

The best way for him is a kidney transplant. Many members of the family _______ to be matched (匹配) with him.

A. volunteered B. refused

C. hated D. announced

(参考答案:A)

[例4 ]

What did we mainly use single bamboo drifting for in ancient times?

A. A kind of sport.

B. A way of dance.

C. A form of traditional art.

D. A type of transportation.

(参考答案:D)

在以上两道例题中,例3的干扰项D. announced和例4的正答选项D. A type of transportation.均不属于《义务教育英语课程标准(2022年版)》要求掌握的语言知识。

(2)过度渲染情境

[例5 ]

A best friend is a person _______ is always there when you need him or her. As the saying goes, “A friend in need is a friend indeed.”

A. whom B. whose C. who

(参考答案:C)

在本题中,考生依据第一句“A best friend is a person _______ is always there when you need him or her.”即可作出选择;而题干又增加了第二句的谚语,看似是使情境更加丰富,实则是情境的过度渲染,造成了题干繁冗。建议删除第二句,保留必要情境即可。

3. 题干编写方面

在题干编写上,最突出的问题在于采用否定表述,增加了考生作答时的认知负担。Haladyna et al.(2002)指出,在题干中使用否定词语会对学生及他们对此类题目的反应产生负面影响。当出现使用否定措辞的题目时,学生往往较难理解题目含义,或是容易在作答时忘记反向思维,造成不必要的认知负担。要改进此类题目,一方面可以尽可能规避否定措辞;另一方面也可考虑将题型改为多项判断题(multiple true-false items),将原选项则转化为新的题目(Harasym et al.,1993)。以下结合具体示例进行说明。

[例6 ]

The mother albatross can do all the following things EXCEPT _______.

A. dive into water

B. reach faraway places

C. stay in air in windy weather

D. give birth to one baby every year

(参考答案:D)

[例7 ]

What can NOT passengers experience in the C919? 3

A. Comfortable seats. B. Clear screens.

C. Different kinds of foods. D. Exciting activities.

(参考答案:D)

例6和例7的题干中分别出现了EXCEPT、NOT这样的否定表述。要改进此类题目,一方面可以规避否定措辞。以例6为例,建议将题干改为“What can the mother albatross do?”,同时对应调整选项。另一方面,可以采用多项判断题,例如将例7进行如下改编:

What can passengers experience in the C919? Mark A if true or B if false.

① Comfortable seats.

② Clear screens.

③ Different kinds of foods.

④ Exciting activities.

4. 选项撰写方面

最后,在选项撰写上,主要存在三点最为突出的问题。第一,部分选择题答案不唯一,影响题目的科学性。第二,部分试题选项之间存在重叠,增加了考生作答时的阅读量。第三,部分选项设置不科学,存在答案泄露的情况,主要体现在选项间长度差异大、个别选项过于荒诞、选项内容不同质、干扰项干扰能力太弱等方面。以下结合具体示例进行说明。

(1)答案不唯一

[例8 ]

What’s possibly the best title for the passage?

A. An unbelievable behavior.

B. An unforgettable experience.

C. Misjudgment in the mirror.

D. Payment at the toll station.

(参考答案:C)

本题出自一篇阅读理解,文章讲述了作者一次在收费站被前车司机代付通行费后深受感动,从而决定延续这种善举的故事。在一次代付车费时,作者起初因在后视镜中看到后车司机愤怒的神情而有所犹豫,但在支付费用后,这位司机向他热情地表示了感谢,这让作者意识到不应急于对他人作出判断。该题为主旨大意题,参考答案C概括了作者误判了后车司机这一情节,但结合文章主要内容,B选项和D选项也具有一定的正确性,无法完全排除。在命题时,可以通过严格落实审题环节来避免这一情况。

(2)选项之间存在重叠

[例9 ]

What can we do if we feel disappointed?

A. We can go to bed.

B. We can call our friends.

C. We can walk on the playground.

D. We can write down our problems.

(参考答案:D)

在例9中,四个选项均包含“We can”,造成不必要的冗余。选项之间的重叠部分无疑增加了考生的阅读量。要使这一题目更加简洁,可以将选项中的“We can”均删去,不影响本题表意。例如将该题进行如下改编:

What can we do if we feel disappointed?

A. Go to bed.

B. Call our friends.

C. Walk on the playground.

D. Write down our problems.

(3)答案泄露

[例10 ]

Which of the physical actions in singing can lead to your happiness?

A. The control of the lungs.

B. The filling of the stomach.

C. The increase of the voices.

D. The movements of the mouth and the body.

(参考答案:D)

在例10中,与其他选项相比,正确答案D选项长度较为突出,一定程度上增加了考生通过猜测作答正确的概率,降低了题目的效度。要想避免这一情况,应通过调整措辞尽可能保证各选项长度基本一致。

[例11 ]

What did scientists suggest people do before bed to sleep better?

A. Sleep an hour earlier.

B. Jump into bed.

C. Have a warm shower.

D. Set a time clock.

(参考答案:C)

在例11中,题干为“为了改善睡眠,科学家建议睡前做什么?”。B选项jump into bed(跳上床)明显不合适,此时学生无需阅读原文即可排除这一选项。

[例12 ]

She also to clean the house. When she finished her work, she felt happy to see the house much cleaner than before.

A. forget B. helped C. failed

(参考答案:B)

[例13 ]

— The food in the restaurant is great, isn’t it?

— Yes, it’s fine. I just don’t like the environment. The music is too .

A. talented B. useful C. noisy D. beautiful

(参考答案:C)

例12和例13呈现了选项不同质的情况。在例12中,三个选项的语法结构不一致(一个动词原形,两个动词过去式),根据上下文时态,动词原形可以被轻松排除,未能发挥干扰项作用;在例13中,四个选项的情感色彩不一致(一个负面,三个正面),根据题干中的“don’t like”,即可选出负面情感选项,并不需要对上下文情境进行仔细分析。因此,在命题时,应当注意各选项间保持同质,避免答案泄露。

[例14 ]

How do you know where to go?

A. By inviting a guide.

B. By asking people on streets.

C. By calling the Treasure Find team.

D. By following the directions from the app.

(参考答案:D)

本题出自一篇阅读理解,文章介绍了一款名为Treasure Find的游戏。题目考查细节理解,但在原文中未出现A、B选项的相关信息,完全不具备干扰能力,不能有效考查学生的理解能力。要提升干扰项的干扰能力,应当确保每一个选项都有可能合理。以本题为例,可在答案出处的上下文选取其他细节并改写为干扰项,起到一定程度的干扰作用。

结语

选择题作为中考英语最常见的题型,其质量的提升对中考英语分数解释和运用的效度有极其重要的影响。《义务教育英语课程标准(2022年版)》在评价理念中明确了在语篇层面考查核心素养的要求(教育部,2022)。命题人员在运用选择题题型时首先要摒弃传统上在单句层面考查语言知识的做法。设计良好的选择题对中考英语的难度调控也能起到积极的作用,避免出现难度过大而难以满足检验初中英语课程目标基本达成情况的测试目的。本文中论述的三个选项的优势应落实在中考听力理解方面的考查,部分省份也可以考虑在阅读理解中采用三个选项的做法。如有必要,可将通过三个选项的设计节省出来的篇幅和考试时间用于增加几道高质量的选择题,从而进一步提高内容覆盖面和考试信度。限于篇幅,本文仅讨论了经过验证的选择题的命题原则,建议命题者参阅更多语言测试相关的论著,如Green(2017)、Hughes & Hughes(2020)等,以磨炼选择题命题技术。此外,命题人员应充分认识选择题可能带来的不良反拨效应,用良好的设计引导一线教学,避免大量的课堂时间被浪费在培训学生寻找漏洞、猜测命题意图上,切实发挥好选择题在核心素养测试中应有的作用。

1 本文系中华人民共和国教育部课程教材研究所“初中学业水平考试命题质量研究”(项目编号:JCSZDXM2022009)的研究成果。

2 这里仅讨论选择题本身的设计问题。测查语言知识的单项选择题因其缺乏足够的语境,与《义务教育英语课程标准(2022年版)》的理念不相符,不建议在中考英语命题中采用。

3 更自然的表达应为“What can passengers NOT experience in the C919?”,此处保留了原始题目的说法。

参考文献

Currie, M. & Chiramanee, T. 2010. The effect of the multiple-choice item format on the measurement of knowledge of language structure [J]. Language Testing, 27(4): 471—491.

Fulcher, G. 2014. Multiple-choice items [EB/OL]. (2014-03)[2024-05-04]. https://languagetesting.info/features/mc/items.html.

Green, R. 2017. Designing listening tests: A practical approach [M]. London: Palgrave Macmillan.

Haladyna, T. M. 2004. Developing and validating multiple-choice test items (3rd ed.) [M]. Mahwah, NJ: Lawrence Erlbaum Associates.

Haladyna, T. M. & Downing, S. M. 1989a. A taxonomy of multiple-choice item-writing rules: Applied measurement in education [J]. Applied Measurement in Education, 2(1): 37—50.

Haladyna, T. M. & Downing, S. M. 1989b. Validity of a taxonomy of multiple-choice item-writing rules: Applied measurement in education [J]. Applied Measurement in Education, 2(1): 51—78.

Haladyna, T. M., Downing, S. M. & Rodriguez, M. C. 2002. A review of multiple-choice item-writing guidelines for classroom assessment [J]. Applied Measurement in Education, 15(3): 309—333.

Haladyna, T. M. & Rodriguez, M. C. 2013. Developing and validating test items [M]. New York, NY: Routledge.

Harasym, P. H., Doran, M. L., Brant, R. & Lorscheider, F. L. 1993. Negation in stems of single-response multiple-choice items: An overestimation of student ability [J]. Evaluation & the Health Professions, 16(3): 342—357.

Hughes, A. & Hughes, J. 2020. Testing for language teachers (3rd ed.) [M]. Cambridge: Cambridge University Press.

Jones, G. 2021. Designing multiple-choice test items [A]. In P. Winke & T. Brunfaut (eds.). The Routledge handbook of second language acquisition and language testing [C]. New York, NY: Routledge: 90—101.

Lee, H. & Winke, P. 2012. The differences among three-, four-, and five-option-item formats in the context of a high-stakes English-language listening test [J]. Language Testing, 30(1): 99—123.

Rodriguez, M. C. 2005. Three options are optimal for multiple-choice items: A meta-analysis of 80 years of research [J]. Educational Measurement: Issues and Practice, 24(2): 3—13.

Rupp, A. A., Ferne, T. & Choi, H. 2006. How assessing reading comprehension with multiple-choice questions shapes the construct: A cognitive processing perspective [J]. Language Testing, 23(4): 441—474.

Seinhorst, G. 2008. Are three options better than four: Investigating the effects of reducing the number of options per item on the quality of a multiple-choice reading test [D]. Lancaster: Lancaster University.

教育部. 2022. 义务教育英语课程标准(2022年版) [S]. 北京: 北京师范大学出版社.

林敦来, 高淼, 刘森, 等. 2022. 中国初中英语教师评价素养量表研究[M]. 长沙: 中南大学出版社.

作者简介

林敦来 北京师范大学外国语言文学学院副院长、教授、博士生导师。

罗正清 北京师范大学外国语言文学学院博士生。

李威峰 浙江大学教育学院博士生,浙江省教育厅教研室初中英语教研员,浙江省英语特级教师。