汉语测试中多项选择题的命题技术探究

2012-01-28 13:09王佶旻
中国考试 2012年5期
关键词:题干效度语料

王佶旻

汉语测试中多项选择题的命题技术探究

王佶旻

多项选择题是客观化语言测验的主要形式,在语言教学和学习中担当了重要的角色,但要使用好这种题型的前提是能够很好地掌握命题技术。本文探讨了编写多项选择题的技术与方法,包括语料的选择和处理以及题干和选项的编写技巧,并提出了效度领先的命题基本原则。

语言测验;多项选择题;效度

1 多项选择题及其构成要素

多项选择题是1915年由美国人弗雷德里克·凯利(Frederick Kelly)首次提出并使用的(Spolsky,B.,1995)。这种测验方式允许大规模测试,评分快捷、简易,只要把一个镂空的模子套在答案上就行了。这种题型的发明影响了整个教育制度,对语言测验的发展也起到了很大的推进作用。如今,多项选择题已经成为客观化语言测验的主要形式,在语言教学和学习中担当了重要的角色,但要使用好这种题型的前提是能够很好地掌握命题技术。就像Hea⁃ton(1975)说的那样:“在某些方面,多项选择技术之于测验,恰如透视法之于绘画:只有真正能够欣赏并掌握了这些技术的人,才能摆脱它强加给你的束缚,你才能从中发现新意并改进测验技术”。因而探究多项选择题的命题技术是提高试题质量,保证测验效度的有效途径。

多项选择题(这里只讨论多选一的形式)由两部分组成,前一部分叫“题干”(stem),后一部分叫“选项”或“备选答案”(option/response/alternative)。选项一般有三到五个不等,其中一个是正确答案(key),另外的几个叫“干扰项”(distracter)。 干扰项的作用是干扰那些水平不高的被试,起到迷惑的作用,所以有人也称之为“迷惑选项”。此外,语言测验一般都是由语言材料来呈现的,这种以语言来考查语言能力的测量方式是语言测验的显著特点,因而在命题过程中,我们还要关注语言材料的选择和使用的问题。

2 语言材料的选择和处理

语言材料(语料)是编写题目的前提和依据,测验所使用的语料,无论是一个词语还是一篇长文章,对编写题目都是十分重要的。可以说,选好语料是编制试题过程中的第一步,也是关键的一步。

2.1 语料的选择

我们知道,题目从工具层面直接影响到测验的效度,因此在命题过程中始终要考虑的是题目是否考查了想要考查的东西,也就是测验的效度问题。为此在语料的选择中要遵循以下几个原则:

2.1.1 广泛性

语言测验的最终目的是要测查出学习者在广泛的社会生活、工作和学习中运用语言的能力,因此语料的选择首先要保证题材的广泛性,所涉及的方面可以包括经济、历史、地理、家庭、文学文化、科技、教育、文艺、体育等社会和个人生活的大多数领域。这一原则也体现了测验公平性的要求。由于被试的专业背景和兴趣爱好各不相同,如果语料的题材过窄,必然影响到考试内容的覆盖面。这样,熟悉某一领域的被试就会获益,从而导致对其他被试的不公平,测验的公平性直接影响到测验的效度。

因此应当选择一般性语料,如报纸、通俗(非专业)杂志、电视、广播、广告等大众传媒。一般性语料是指没有特定的受众范围、具有较高流行度的语言记录。一般性语料不包括体裁特征和作者个人风格非常特殊的文学作品、科学技术文献、商业和法律文书和理论专著等。

2.1.2 良好的内容倾向

良好的内容倾向是指语料所涉及的内容、观点积极或中性,没有消极的、反面的观点,即没有可能在政治、宗教信仰、民族、性、毒品等方面在考生群体或亚群体中引起敏感反应的内容。对敏感性问题还需要做出以下说明:①敏感仅对考生群体或考生亚群体而言,对考生以外的任何个人或群体,不存在敏感问题。敏感性问题也不是对任何一个个体而言的,比如小猫、小狗、兔子,可能是很多人喜欢的动物,但也不排除个别考生“怕带毛的动物”。②敏感性问题是有争议的问题。如两性/同性/双性关系,而没有争议的问题不是敏感性问题,如偷窃、贪污、受贿等,不能把对消极现象的批评看成是消极现象或“暴露社会阴暗面”。另外,一些小毛病不是敏感性问题,如自私、怯懦、贪财、嫉妒、狭隘、趋利避害、自我中心等。③语言功能要求不属于敏感性问题。某些语言功能,如反对、命令、强迫、警告、恐吓、愤怒等等功能项目不属于敏感问题。

2.1.3 规范性

规范性包括语料的正确性、得体性和通用性。

正确性是指语料应当是规范的现代汉语,不能出现语法、用词、文字书写和标点符号上的错误。同时,语料所使用的语言(包括在语音、词汇、语法以及各种表达等方面)应该是标准的汉语普通话,而非任何一种汉语方言。汉语作为第二语言的能力测验是以现代汉语普通话为标准的,因此要避免出现地域方言词、社会方言词和行业方言词。

得体性是指语料在语言使用上的合理性和可接受性。

通用性指的是语料的体裁和语言风格应该是一般性的、通用性的。除非特殊需要,一般的外语水平测验都要避免采用作者个人风格明显的文学作品(如诗歌、戏剧等),这两种文学体裁的语言风格不适合成为考试的语料;而专业性的论文、报告或者科学论著等也不适合选做一般性的语言测验的语料。如果所编写的题目出现对特殊的技术术语或者专业术语的考查,考生的表现就会因为缺乏某方面的专业知识而受到影响。

2.1.4 公平性

考试要追求公平性,这种公平性需要通过试题来保证,因此在选择语料时就要充分考虑到公平性,这在外语测验中尤为重要。要保证公平性就要注意以下几点:①语言材料尽量避免使用只有某个特定民族或文化背景的人所熟悉的场所、人物或事件;②避免试题语言材料直接表示或暗示对任何一种文化或民族习惯的评价;③尽力保证语言材料和试题内容对各种文化背景下的两种性别都不存在偏见,如“粉底液”有可能带有性别差异;④避免介绍只有特定人群才有的知识;⑤避免过于专业化的情景和内容。

2.1.5 信息量丰富

好的语料应该是信息量大、层次丰富的语料。实际上在命题过程中我们常常发现,许多语料字数虽然不少但出题很困难,这其中的原因就是语料的内容层次不丰富,信息量小。选取信息量丰富的语料,对命题者来说可以多层次、多角度进行开掘,比较容易多出题、出好题。对考生来说,这样的语料,可以考查他们在不同层次上的理解能力。

2.1.6 真实性

真实性是指从真实的自然的语言材料中选取语料,而不是由命题人员自己编写语言材料。语料的真实性是测验效度的需要。我们知道,测验的最终目的是考查出被试在真实的语言环境中的实际语言交际能力,真实的语料是真实的语言环境的组成部分,因此在测验中让被试接触真实的语料有利于提高测验的效度,增加测验分数的可推广性。

2.2 语料的处理

选择适当的语料之后,常常需要对语料作一些必要的处理,这些处理包括修改语法、词汇、文字和标点使用上的错误。在进行语料处理时要注意以下两点:①为了保证测验的真实性,所选语料原则上应保持原貌,尽量不做内容上的添加、删改和编辑,更不能随意编写语料;②为了保证测验的真实性,也为了保持语料原有的层次和内容,不能将长篇语料压缩成提纲。实际上,语料的真实性是测验效度的需要,测验界也越来越重视这个基本原则,比如新托福考试在命题原则中就特别重视语料的真实性,所选语料全部来自美国大学校园的真实语言环境。

3 题干的编写原则与方法

3.1 题干的作用与形式

题干的作用是把问题简明扼要地提出来,被试可以从题干中获得如何答题的全部信息。根据题型的不同,题干的形式也有所不同,大致有以下三种:

1)一个有待补充的陈述,比如,例1:根据本文我们知道张立是一位:A.教师,B.医生,C.律师,D.记者。

2)一个完整的陈述,比如,例2:跟你说话简直是对牛弹琴!A.你没资格跟我说话,B.你一点都听不明白,C.你也太不懂音乐了,D.你不要弹琴给牛听。

这样的题目中,选项大多是对题干的说明和解释。

3)一个完整的问题,比如,例3:李晓桐最喜欢的颜色是什么?A.蓝色,B.红色,C.黄色,D.白色。

3.2 编写题干的技术与方法

第一,题干应尽可能多地包含试题内容。凡是题目中共含的因素、重复性的词语(如相同的叙述或修饰成分)都应该放在题干中,而不要在选项中重复使用,以使选项尽可能精练,比如,例4:根据本文,成人最好:A.每天睡6小时,B.每天睡8小时,C.每天睡10小时,D.每天睡12小时。

这个题目的问题在于题干中没有包含所有共含的因素和重复性的词语,使得选项过于冗长,降低了效率,可以改为:根据本文,成人最好每天睡多少小时?A.6小时,B.8小时,C.10小时,D.12小时。

不论是题干还是选项,都应力求不重复一个词,不多用一个字,编写题目时,措辞需反复推敲。这一点不仅是经济的原则,更是测验效度的需要。因为测验要考查的是考生对语料的理解,而不是对题干和选项的理解,冗长烦琐的题干和选项只会增加考生不必要的阅读负担,从而威胁到测验的效度。

第二,尽量避免采用非常规方式的提问,比如以否定的方式提问,像下面这个题干,例5:作者没有提到下列哪一条原因?这些非常规的提问方式造成思维上的困难,而这种思维上的能力不是我们要考查的能力。再者,非常规的表达还会设置没有必要的圈套,造成某些考生由于粗心大意而答错题,从而增加随机误差,降低考试的信度。

第三,设计题干时要留足余地,使题目具有一定开放性。具体方法是题干只使用特指问句,不用是非疑问句、正反问句和选择疑问句,举个例子说明。例6:宣纸的制作艺术历史长不长?A.很长,B.不长,C.不太长,D.有点长。这个题目的选项即使凑出了四个,也显得非常勉强,更重要的是,这类选项因为缺乏有效的干扰,并且互相之间构成了暗示,而增加了猜中概率,降低了选项的有效性。修改的方法是使用特指疑问的方式,拓宽选项的内容和相互独立性。

第四,题目与题目之间应有相对的独立性,避免相互依赖,相互包含或相互暗示。不能使考生因为会做第一个题目便自然会做下一个题目,或因为不会做这个题目便也不会做另外的题目。这一条原则主要针对阅读理解或听力理解中的段子题,即根据一段文章,回答几个连续的问题。比如,对同一段阅读材料,要避免重复考查同样的要点,举个例子来说明。例7:这个故事发生在什么时间?A.上午,B.下午,C.晚上,D.夜里。后面又有一个问题:作者交代了事情的:A.原因,B.结果,C.时间,D.地点。显然,C正确,否则前面那个题就不会那么问了。

第五,要避免考查常识性问题。因为题目如果是常识性问题,那么考生就不需要听懂或读懂就可以回答出来,题目的有效性就得不到保证了,比如下面这个阅读理解题目。例8:猫头鹰通常在什么时间出来活动?A.上午,B.中午,C.下午,D.晚上。众所周知,猫头鹰是昼伏夜出的动物,这是一个常识问题,因而此题考查的是常识还是语言的阅读理解能力就不得而知了。

总之,在编写题干时要记住一条总的原则:题目要有效地考查出你打算考查的东西。比如,在阅读理解测验中,你想考的是学生对阅读材料的理解水平怎么样,而不是考查学生理解你问的那个问题的水平怎么样。一个好的题干,应当保证所有人都能理解你问的是什么。

4 选项的编写技术与方法

在一个题目中,如果说题干是刺激物,那么选项就是反应物,多项选择题的选项在编写时应尽量模仿考生可能产生的反应,使题目具有更好的真实性。具体而言有以下一些方法。

第一,保证正确答案的正确性和唯一性,这一条看起来简单,但要真正做到,也不是那么容易。李筱菊(1997)在谈及英语多项选择题的命题方法时也首先提出了答案唯一性的原则。下面的例题就有多个正确答案。例9:__多数的江南小镇一样,周庄得坐船去才有味道。A.像,B.如,C.似,D.又。

第二,避免题目内部的相互暗示。在编写题干时我们要注意题目间的暗示,在编写选项时则要注意避免题目内的暗示。题目内暗示就是选项之间的暗示,有以下几种不同的情况。

1)四个选项中某一选项与其他选项意义相反,或者由三个积极(消极)意义、一个消极(积极)意义的选项组成。比如,例10:作者认为那个人怎么样?A.很善良,B.很残忍,C.很漂亮,D.很勇敢。在四个选项中只有B是消极意义的选项,这样就会吸引一部分考生选择B作为正确答案。

2)四个选项中有意义相同或相反的选项,比如,例11:如果不用于运输,即使修建了道路,也不会产生经济效益,这些地区还会回到贫困中去。A.办法,B.回报,C.方案,D.过程。选项A与C意义相同,考生如果知道的话,会立刻将这两个选项排除掉,相当于只有两个有效选项,考生猜对答案的概率增加为50%。再比如,例12:男:这女人真是,怎么把孩子一扔了之呢?女:女人太难了,她一定也有难处才这样做。问:女的对孩子的妈妈是什么态度?A.嘲笑,B.同情,C.厌恶,D.鼓励。选项B与C意义相反,暗示其中有一个是正确答案。

3)选项在形式上长短不一或者没有按数值大小顺序或其规律性排列。多项选择题的选项长度应尽量相等,不要有的长,有的短,长短不齐的选项可能会给被试造成暗示,含有数字或具有某些规律的选项要按数值大小顺序或其规律性排列。比如,例13:过去的就让它过去吧,现在说什么也来不及了。问:说话人是什么意思?A.你说晚了,B.对过去的事不要太在意,C.让他去吧,D.去得晚了。

选项B因为明显过长,会吸引一部分考生。为了避免考生利用或误用暗示,选项长短应尽可能一致,保持选项长短一致的技巧有拆字、填字等,选项即使无法相同,也要按照字数多少的顺序排列。

第三,确保干扰项的干扰能力。每个干扰项都应该似是而非,具有一定的迷惑作用。干扰项应该是精心设计的,而不是随意拼凑。如果有一个干扰项没有人选,它就是个无效选项,四选一的题目如果有一个无效选项,猜对这个题的概率就由25%上升为33%了。干扰项的难度一般不要比正确选项大,因为干扰项的难度大于正确选项,就可能把水平高的被试也迷惑了,其结果是题目的区分度降低。要编写出真正具有一定迷惑作用的干扰项,必须充分利用语料中包含的各个要点或难点,仔细揣测考生可能会在哪个环节上出现问题以及这一点是不是与预定要测量的语言能力紧密相关,做到有根有据地编写干扰项。

第四,阅读理解和听力理解试题的备选答案应尽可能回避语料中原有的措辞,特别是正确答案应该换一个说法,看下面这个例子。例14:“连丽如平易近人,一点名演员的架子也没有。”问:这句话告诉我们,连丽如怎么样?A.没有名,B.很一般,C.不摆架子,D.不是演员。这个题目本来要考查的要点就是“平易近人”和“没有架子”的含义,但由于正确答案C没有避开原文中“架子”一词,考生当然会倾向于选择C。在这种情况下,可以把“不摆架子”换成另一种说法,如“很谦虚”等。

第五,所有选项难度应该大体相当,这一点在考查词汇的题目中尤其重要。比如,例15:看着刚刚成材的树林被滥砍乱伐,谁不心疼啊!A.可惜,B.着急,C.愤慨,D.失望。干扰项C是纯粹的书面语,难度明显大于其他答案,很可能会吸引较多的高水平考生,或让水平较低的考生“望而生畏”,使题目区分度降低。可以改成“生气”一词,使选项的难度平衡。同样,如果在四个选项中有一个明显偏易,也会造成同样的后果。

当然,主观判断选项的难易有时很不准确,这时我们就要依靠题目分析。题目分析能提供这方面信息,如果哪个答案区分性很差,很可能是这个答案迷惑性过强(太难了),使水平高的考生误入圈套。

第六,所有选项(特别是词汇试题的答案)应尽可能涉及同一类事物、活动或同一领域。四个备选答案不管是近义、类义或是反义,在意义上总应有某种内在联系,而最好不要风马牛不相及。比如,例16:最近几年来,我们的对外贸易有了很大发展。A.外边,B.外地,C.外国,D.外汇。A、B、C说的都是地点,而D却是指一种货币,显得有些不合群,可以改成“外部”。除了注意各选项的相关性,还应特别强调保持词性的一致,如果有三个答案是名词,而只有一个是形容词,很容易造成不必要的暗示。特别是在语法测验中,应严格避免词类不一致的现象。

第七,除了测验特殊语法点的题目外,其他测验题目的选项放到题干里时都要合乎语法,也就是说,每一个选项在语法上都应该是可替换的。下面的这道阅读理解题就有不可替换的问题。例18:根据本文,我们知道“莉莉”是一只:A.鸟,B.狗,C.猫,D.鱼。选项D在名量搭配上是错误的,语法好的考生马上就能将它排除,降低了此题测量阅读能力的效力。

第八,选项尽量不要用“上述三个都不是”,“都没有”等说法;不要用“从不”、“总是”、“所有”等表示范围太广的词语。

第九,正确答案在选项中的位置不应固定,应做到出现频率相等,出现顺序随机。比如,不能把大部分的正确答案都放在选项“C”的位置上,应使其均匀分布,以减少猜测对测量精度的影响。

5 结语

语言测验质量的好坏,在很大程度上取决于命题技术,一个好的题目就像一件精美的艺术品一样,是需要精心雕琢的。多项选择题是语言测验中最常用的一种题型。它使用方便,评分客观,对语言测验的标准化和客观化起到了积极作用。但同时这种题型固定的格式又使得命题受到了较大的束缚,因而探究多项选择题的命题技巧就显得十分重要。在命题过程中每一步都必须考虑到所测的因素是否有利于提高测验的有效性,这是命题技术中最重要的东西,称为“效度领先”的原则,这一原则在其他题型的命题过程中同样适用。

[1]Spolsky,B.Measure Words[M].上海:上海外语教育出版社.1995.

[2]Heaton,B.Writing English Language Tests.Longman.1975.

[3]李筱菊.语言测试科学与艺术[M].长沙:湖南教育出版社.1997.

Studies on How to Write Multiple-choice Items in Chinese Language Testing

WANG Yimin

Multiple-choice test is the main form of objective testing,and it plays an important role in language teaching and learning.In order to make this kind of test more useful,we should know how to write multiple-choice items.This paper discusses the techniques and methods on how to write multiple-choice items,including how to select language materials and how to write item stems and options.Finally we make a proposition that test validity is the main factor people should consider when writing a test item.

Language Tesing;Multiple-choice;Validity

G405

A

1005-8427(2012)05-0039-6

本研究得到教育部人文社科重点研究基地重大项目“汉语作为第二语言的能力标准”以及北京语言大学青年自主科研支持计划资助项目“汉语口语测试标准体系研究”(中央高校基本科研业务费专项资金)的支持。

北京语言大学

猜你喜欢
题干效度语料
数字算式
基于归一化点向互信息的低资源平行语料过滤方法*
效度验证模式系统整合与效度研究发展策略
《广东地区儿童中医体质辨识量表》的信度和效度研究
慈善募捐规制中的国家与社会:兼论《慈善法》的效度和限度
提纲挈领 拨云见日
对外汉语教学领域可比语料库的构建及应用研究
——以“把”字句的句法语义标注及应用研究为例
掌握方法 有效答题
国内外语用学实证研究比较:语料类型与收集方法
复杂图形测验对区分阿尔茨海默病与非痴呆的诊断效度