利用“多选奖惩法”限制多项选择题中的猜测因素

2013-12-29 00:00:00谷青松
考试周刊 2013年14期

摘 要: 多项选择题是客观测试中应用最广的一种题型。近年来对多项选择题的批评似乎有增无减。在这种基于“单选奖励法”的多项选择题测试中,猜测因素对测试结果的影响不可忽视。为了有效限制多项选择题中的猜测因素,本文提出“多选奖惩法”的命题新方法,并从设计思路、评分办法、应用举例、综合评价四个方面对其进行了具体介绍。

关键词: 多项选择题 猜测因素 单选奖励法 多选奖惩法

一、有关多项选择题的争议

多项选择题是客观测试中应用最广的一种题型。它由题干(stem)和选择项(option、response或alternative)两部分组成。选择项中有答案(answer、correct option或key)和干扰项(distractor)。针对如何设计多项选择题,J.B.Heaton(2000:28-30)曾提出六大原则,其中第一条规定“每道题应只有一个正确答案,不能出现两个或两个以上答案”。在多项选择题测试的评分中,选中答案得分,选中干扰项不得分,但不扣分。由于这种测试客观性强,信度高,加上可以通过机器阅卷节省大量时间、人力和物力,因此被广泛应用于各种语言类和非语言类的测试。

多项选择题是人们追求测试科学性的产物,给语言测试带来了天翻地覆的变化。在一定意义上可以说,语言测试成为一门学科与多项选择题的产生有密切关系(王振亚2009:99-110)。然而,近年来对多项选择题的批评似乎有增无减。首先,多项选择题只要求应试者选择答案,而不用生成任何答案,应试行为难以体现交际能力,因此,多项选择题的效度值得怀疑。其次,多项选择题测量的是分立的知识点或能力点,往往忽视语境作用,难以构成实际的语言运用能力。再次,多项选择题测试中存在猜测因素,这在一定程度上影响测试的区分度,背离测试的目标。多项选择题虽然优点很多,但缺点很明显。可以说,多项选择题就如同烫手的山芋,使试题编写人员爱也不能,罢也不能(李窖2007:219)。

二、多项选择题中的猜测因素不可忽视

争议归争议,多项选择题还是顶住压力,依然是语言测试中的重要手段之一。事实上,语言运用能力不但可以通过直接性测试(如写作、口试等)进行测量,而且可以通过多项选择题这种间接性测试进行测量,并且语言运用能力是可以分解的,这是多项选择题继续存在的重要理由。

然而,就像任何一种测试题型都不会十全十美一样,多项选择题也会有这样那样的不足之处。对多项选择题来讲,猜测因素的存在是一个不可忽视的弱点。多项选择题测试中的猜测包括盲目猜测和根据不完全知识排除干扰项的猜测,不管哪种猜测,都会不同程度地给测试结果增加“水分”,降低测试的区分度。多项选择题设计的初衷是鼓励猜测,但鼓励的并不是盲目猜测。实际上,只要多项选择题默认和鼓励猜测,这种客观测试就肯定比主观测试存在更多的“运气”成分。

笔者曾经在班上做过一个实验。先让每个学生在没有题目的情况下,随意写出20个多项选择题的答案,五个一组,如“ADCDB、BCDBA、DACAD、BCACD”,收上来。然后,剔除当中“不太真实”的答案,如全选A、B、C或D的,或者某一组全选A、B、C或D的。接着,从这些答案中任意挑一份作为正确答案进行批改,记录成绩,重复做几次,记录成绩。最后,对多次记录下的成绩进行统计,结果如下:

从表1可以看出,五次成绩平均得分的均值为4.37,与20道多项选择题的概率得分5很接近,说明盲目猜测的结果从整体上“很不理想”,属意料之中;但是,10~15分人数平均占全班人数4.14%,说明“运气好”的学生还是“大有人在”;5~10分人数平均占全班人数27.24%,接近三分之一的学生的得分大大高于概率得分5,说明盲目猜测在多项选择题测试中的影响不容忽视。

为了提高盲目猜测的成功率,在测试中更好地发挥“死题复活”的作用,笔者曾经向考生推荐一个合理利用猜测手段的有效办法:在听力或完形填空等多项选择题测试中,先将有把握的选出来,其他没把握的“死题”则全部选有把握的选项中最少选的那一项。值得一提的是,考生成绩越好,这种方法越管用,因为对这些考生来讲,有把握选项的准确率会更高些,而没把握的题有可能成为“死题”,其“复活”的概率自然会高些。

考试中借助盲目猜测通过考试的例子并不鲜见。在大学英语四、六级考试的监考中会经常见到这样的情形:有的考生在放听力时根本就不戴耳机,通过盲目猜测一通胡选之后直接往下做题;有的在完形填空来不及做的情况下也是采取盲目猜测的办法。正是依靠这种盲目猜测法,不少考生竟然“顺利过关”。有位准备考艺术类研究生的学生英语基础很差,临近考试曾找笔者给“把脉、支招”,笔者随即“下了一味猛药”:抓住主观题,放弃客观题。该生考前拼命背下20篇大、小作文的优秀范文,认真研读历年真题的翻译解析,熟悉与翻译有关的常考句型,考试中把重点放在翻译、写作两道主观题,客观题则以盲目猜测为主。考试结果为48分,达到所要求的分数线,可谓皆大欢喜。

有人会说,上面的例子显得过于极端,毕竟是少数。但是,猜测因素只要存在就会影响考试的公平。多年来,多项选择题之所以深受考生的“青睐”,就是因为在多项选择题这种客观测试中,猜测依然是考生能顺手抓住的那根“救命稻草”。在各类测试中,多项选择题一直占有很高的比例,一是阅卷方便,二是命题资源丰富。那么,在多项选择题成为主打题型的今天,为了保证考试的公平,有没有办法对测试中的猜测因素加以限制呢?

三、从“单选奖励法”到“多选奖惩法”

根据评分特点,我们可以把目前多项选择题的测试方法称为“四项单选奖励法”。由于选中干扰项不扣分,客观上给考生留下猜测的自由,势必有损考试的公平。为了限制这种“单选奖励法”中的猜测因素,笔者在此推出“多选奖惩法”,利用惩罚手段限制多项选择题测试中的猜测因素。“多选奖惩法”有两个主要特点:一是正确选项的数目不定;二是选中错误选项要扣分。以下从设计思路、评分办法、应用举例、综合评价四个方面具体介绍该方法。

1.设计思路

传统的“单选奖励法”只奖不罚,无法回避自由猜测,而“多选奖惩法”改变设计思路,奖罚结合,利用扣分的办法限制猜测的自由。基于“多选奖惩法”的试题选项中,正确答案可有可无,可以是一项,可以是多项,还可以全部都是,反过来,非正确答案也可有可无,可以是一项,可以是多项,还可以全部都是。这样,每个选项都可能成为扣分的对象,选中正确答案的概率无法用传统的方法量化,很大程度上限制了自由猜测。设计“多选奖惩法”的另外一个思路是,选项中正确答案与非正确答案的数量可以相等,也可以不等,这样,命题者可以通过增加(减少)正确答案的数量降低(提高)试题的难度。最后,每题的选项可以从传统的四项改为五项(不宜超过五项),以此增加测试信息的总量,更全面地反映考生的实际水平。

2.评分办法

基于“多选奖惩法”的测试评分办法遵循“选对给分、选错扣分”的总原则。在报道分数时,可以采取实际计分的办法,也可以采取分段计分的办法。以选项中正确答案数和非正确答案数各为100的试题为例。该试题中每个正确选项为1分,每个错误选项为-1分,这样,最高得分为100,最低得分为-100,全选得分为0。报道分数时,把0分和负分都计为0分,正分则可以参考下面两种办法:

表2中的实际计分办法注重考生的实际得分。表3中的分段计分办法类似雅思考试的评分办法,侧重反映考生处于何种档次,奖惩更具人性化,凸显“多选奖惩法”的设计理念。

及格分是评价考生是否通过考试的重要标准。那么,基于“多选奖惩法”的测试如何设定及格分呢?“多选奖惩法”测试的及格分与全套试题正确选项和错误选项的数量直接相关,因为这两类选项的数量比例关系会影响试题的难度,而合理的及格分应该考虑试题的难度。笔者设计了这样一个公式:

P=TN[1-(F-T)/(F+T)]

公式中,T=正确选项数量的总和;F=错误选项数量的总和;N=及格分与满分的比率(可以根据情况设定,通常可以恒定为60%);P=及格分。在传统的多项选择题测试中,可以把及格分P简单地等同于TN。但是,在采用“多选奖惩法”的多项选择题测试中,如果把P简单地等同于TN,就会忽视正确选项和错误选项的数量比例关系给试题难度带来的影响,因此,利用[1-(F-T)/(F+T)]可以调节N的大小,从而调节P的高低。

从表4中可以看出,在试题选择项总量不变的情况下,随着正确选项数量的增加(错误选项数量相应减少),及格分P的值逐步增加,充分反映了试题难度的变化。

3.应用举例

多年来,笔者一直通过应用验证“多选奖惩法”在限制猜测因素方面的实际效果。

首先,以1989年12月大学英语四级考试中的完形填空为例。试题原文如下:

The United States is well-known for its network of major highways designed to help a driver get from one place to another in the shortest possible time. 71 these wide modern roads are generally 72 and well maintained,with 73 sharp curves and many straight 74 ,a direct route is not always the most 75 one.Large highways often pass 76 scenic areas and interesting small towns.Furthermore,these highways generally 77 large urban centers,which means that they become crowded with 78 traffic during rush hours, 79 the “fast,direct” way becomes a very slow route.

However,there is 80 always another route to take 81 you are not in a hurry.Not far from the 82 new “superhighways”,there are often older, 83 heavily traveled roads which go through the countryside. 84 of these are good two-lane roads;others are uneven roads 85 through the country.These secondary routes may go up steep slopes,along high 86 ,or down frightening hillsides to towns 87 in deep valleys.Through these less direct routes,longer and slower,they generally go to places 88 the air is clean and the scenery is beautiful,and the driver may have a 89 to get a fresh,clean 90 of the world.

先让学生不看原文对表5中的选择项进行盲目猜测,统计结果与表1中的数据基本吻合。接着,向学生推荐前面提到的“死题复活法”,合理利用猜测,最终结果让大家都很振奋,平均得分达到14.68,超过及格分(12分)2.68,说明学生的整体水平达到了及格要求。然后,笔者采用“多选奖惩法”,对该试题进行重新设计:

The United States is well-known for its network of major highways designed to help a driver get from one place to another in the shortest possible time. 71 these wide modern Roads are generally 72 and well maintained,with 73 sharp curves and many straight 74 ,a direct route is not always the most 75 one.Large highways often pass 76 scenic areas and interesting small towns.Furthermore,these highways generally 77 large urban centers,which means that they become crowded with 78 traffic during rush hours, 79 the “fast,direct” way becomes a very slow route.

However,there is 80 always another route to take 81 you are not in a hurry.Not far from the 82 new “superhighways”,there are often older, 83 heavily traveled roads which go through the countryside. 84 of these are good two-lane roads;others are uneven roads 85 through the country.These secondary routes may go up steep slopes,along 86 cliffs,or down frightening hillsides to towns 87 in deep valleys.Through these less direct routes,longer and slower,they generally go to places where the air is clean and the 88 is beautiful,and the driver may have a 89 to get a fresh,clean 90 of the world.

经过重新设计的选择项中,正确选项是32项,错误选项是48项,在及格分与满分的比率为60%的情况下,及格分应该是15.36。做题前提示学生,每道题的正确选项数为0、1、2、3或4,选对一项得1分,选错一项扣1分。先让学生进行盲目猜测,记录下各自的结果,然后让学生抛弃传统的猜测办法,“理性”地选择,并记录下各自的结果。统计结果表明:这次靠盲目猜测已经行不通了,多数学生的得分竟然是负值,平均得分自然也是负值,场面之惨烈可想而知;学生“理性”选择后,平均得分虽然变为正值,但是只有9.28分,低于及格分(15.36分)达6.08分之多,说明学生的整体水平与及格要求相差甚远。

从这个例子可以看出,由于猜测因素的存在,传统的“单选奖励法”难以真实反映考生的实际水平,而“多选奖惩法”有效限制了猜测因素,测试结果要真实得多。

再以2004年硕士研究生入学考试政治试题中的多选题为例。该题中每小题选项的个数不一样,有四项的,也有五项的,而且多选、少选和错选均不得分,在测量考生对考查内容掌握的准确度上达到了极致,难度陡然上升,难怪很多考生在这道题上得分很低,甚至得0分者也比比皆是。2004年多选题的答案是:16.ABCD、17.ABDE、18.BD、19.BCD、20.DE、21.BC、22.ACD、23.AB、24.ABCDE、25.ABCDE、26.ABCE、27.BDE、28.ABC、29.ABCD、30.ABCDE。从A、B、C、D、E在答案中的分布情况可以看出,盲目猜测几乎行不通,这主要归功于该题的评分办法。那么,由于猜测因素可以忽略不计,是否可以说这种多项选择题已经很公正、很合理呢?笔者认为,该题型虽然在测量考生对考查内容掌握的准确度上具有优势,但是,由于评分办法过于苛刻,因此考试结果未必能反映考生的实际水平。其中有这样一道题:

做这道题时,考生一般很容易排除C,但是要把ABDE都选中才给分是不是太苛刻了,难道选ABD、BDE、ADE、ABE、AB、BD、DE等的考生就对此题所考查的内容都“一无所知”了吗?就不应该得到“应有的”奖励吗?笔者仔细分析了每小题的题干、选项和答案,并设想如果采用“多选奖惩法”的评分办法评分,结果肯定就会大为“改观”,因为全部多选题中正确选项的数量总和为51,占全部选项(73)的69.86%。该结果虽然在体现准确度上效果会相对差些,但是能够真实反映考生掌握的信息总量,似乎更接近测试的真正目的。当然,如果采用“多选奖惩法”重新设计整个多选题,则不能只是简单地改变评分办法,还要调整正误选项的数量比例关系,如可以通过规定“正确选项少于或等于错误选项”限制猜测因素。

4.综合评价

利用“多选奖惩法”设计多项选择题的优点主要在于:这种测试可以有效限制做题过程中的猜测因素,体现考生的实际水平,从而增加测试的效度,提高测试的信度,加大测试的区分度。另外,这种多项选择题可以通过任意增加选择项(如四项变五项)加大测试的信息量,从而更全面地考查考生的实际水平,在语言测试中,尤其适用于测试词汇、语法这类分立的语言知识点。还有,这种多项选择题也可以通过机器阅卷,同样具有评分和测试的经济性。

诚然,利用“多选奖惩法”设计多项选择题肯定会遇到一些实际问题。首先,在每个考点的命题和整套试题的设计上“多选奖惩法”面临的挑战会比“单选奖励法”多得多。其次,“多选奖惩法”在解读测试结果方面还缺乏系统而有力的标准。再次,“多选奖惩法”是否会增加考生的心理负担、是否会因此影响测试的结果……这些问题还有待探究。

四、结语

通过对多项选择题的分析研究,本文指出,在这种基于“单选奖励法”的多项选择题测试中,猜测因素对测试结果的影响不可忽视,从而提出“多选奖惩法”,旨在有效限制多项选择题中的猜测因素,使测试真正体现出考生的实际水平。实际应用表明,“多选奖惩法”能有效限制多项选择题中的猜测因素。

在多项选择题的命题中,全面推广“多选奖惩法”肯定会遇到一些困难和阻力,所要走的路还很漫长。笔者希望能与程序设计爱好者、有志于考试研究的同人,特别是对本文提出的“多选奖惩法”感兴趣者进行合作,让“多选奖惩法”在测试中一展身手,发挥其应有的作用。

参考文献:

[1] Heaton,J.B.,Writing English Language Tests,Beijing:Foreign Language Teaching and Research Press,2000:28-30.

[2]王振亚.现代语言测试模型[M].保定市:河北大学出版社,2009:99-110.

[3]李窖.烫手的山芋——英语测试中的多项选择题[J].科学创新导报,2007(33):219.