论英语测试中公式评分法猜测修正效果

2012-12-11 08:00柳鑫淼
关键词:评分标准选择题受试者

柳鑫淼

(中国劳动关系学院 英语教研室,北京 100048)

多项选择题作为教育测量的主要题型之一被广泛应用于各类学科的测试中.多项选择题通常由题干和备选答案两部分组成,受试者从多项备选答案中选出一个最合适或正确的选项.多项选择题具有评分客观、阅卷高效、答案简明等诸多优势,这些优势在结构主义测试阶段备受推崇,但人们对其测试效度的质疑却一直存在[1].多项选择题的潜在弱点之一是难以规避猜测因素的影响,即受试者在不知道或不确定正确答案的情况下也可以凭借猜测而答对部分题目,这易使测量准确性受到影响.正如Glass和Wiley所指出的,几乎所有参与多项选择测试的受试者都会不同程度地进行猜测[2].国外学者针对这一现象进行了大量的研究,试图通过修正多项选择测试来降低受试者的猜测概率.例如,Prihoda等研究了病理学专业考试中应用公式评分法后的猜测修正效果,发现公式评分能够提高测试的效度[3].国内有少数学者探讨了多项选择题的修正方法和效果.如孙惠超探讨了多项选择题评分标准对猜测误差的影响,利用概率分析对目前广泛采用的评分标准进行了比较,认为"全或无"的评分标准更能有效降低猜测误差,提高教育测量的科学性[4].但是,国内外鲜有专门针对英语测试中多项选择题修正效果的研究.本研究对英语听力考试中多项选择题评分标准这一因素进行探讨,用实证研究对比了"答对的给正分,答错的给负分,不答不得分"的公式评分法与国内通用的"答对得分,答错不得分"评分标准的有效性,旨在降低听力考试多项选择题的猜测概率方面给命题人员提供实证参考.

一、公式评分法在多项选择测试中的应用

自20世纪初开始,公式评分法(formula scoring)逐渐受到教育测量学界的关注,并在诸多国家的教育测试和市场调查中得到广泛应用.路易斯.瑟斯顿(Louis Thurstone)指出,公式评分是一种较为直观的评分方法,答对得到全部分数,答错从全部分数中按比例扣分[5].公式评分法旨在降低因猜测而产生的测验分数的随机性.这种评分标准可概括为:对于有 C个备选答案的选择题,回答正确得1分,回答错误扣除1/(C-1)分,不回答记为0分.公式评分法可以用以下公式加以表示[6]:

其中FS是受试者修正后的得分,R是受试者作出正确回答的数量,W是作出错误回答的数量,C代表每个题目的备选答案数量.公式评分可以应用在备选答案数量不同的各类多项选择题中.以具有3个备选答案的多项选择题为例,按照修正后的评分标准,在受试者对考题进行猜测时,猜到正确答案并获得2分的概率为1/3,猜到错误答案并被扣除1分的概率是2/3,因此受试者通过随机猜测方式所获得分数的估算值为(1/3)X2+(2/3)X(-1)=0,也就是说,受试者通过猜测方式获得额外分数的预期值为零.相比之下,按照传统评分标准,受试者在不知道正确答案的情况下,通过猜测方式每题仍有可能获得分数的估算值为(1/3)X2+(2/3)X0=2/ 3,因此受试者选择猜测的可能性会更大.此外,公式评分鼓励受试者在多项选择中进行排除,以10道具有3个备选答案的题目为例,若受试者能够排除其中一个选项,则受试者作出正确选择的可能性为50%,答对题目5道,答错题目5道,那么受试者通过猜测最终可得到的分数是5X1-5X(1/2)= 2.5,高于随机猜测的得分.可见,公式评分法并不是要求受试者彻底放弃猜测,而是鼓励受试者在备选答案中作出排除,毕竟,能够准确排除部分选项也是受试者判断力的体现.猜测决定的过程实际上是博弈的过程,受试者在权衡失分成本和得分收益后才会决定是否进行猜测.由此可见,公式评分法修正的不是所有猜测,而是受试者的随机猜测.公式评分标准是否能够有效促使受试者在不知道正确答案的情况下放弃猜测?下文将实证检验这一评分标准和传统评分标准相比在校正猜测方面的有效性.

二、实验研究

1.实验设计

由于简答题能够极大降低甚至消除受试者的猜测概率,因此本实验假定简答题更能反映受试者的实际听力水平,简答题得分更接近于代表受试者实际水平的分数.分别用公式评分标准和传统评分标准计算选择题的得分,用简答题分数作为衡量两种评分标准有效性的标尺.通过计算得分分布散点图、均值差距和组内相关系数3种方式验证选择题和简答题得分的一致性.

研究通过4次测验考察多项选择题猜测校正的评分标准的有效性,共设计4套试题,其中A卷包括25道多选题(从3个备选项中选择一个正确答案),按照两种不同评分标准标记成A1卷、A2卷.两套试题题目完全相同,但A1卷采用传统评分标准,正确答案得2分,错误答案不得分;A2卷采用公式评分标准,正确答案得2分,错误答案扣1分,不选答案计0分.在试卷上方用清晰的字体注明评分标准,并在测试前口头告知两组受试者.B卷为25道简答题,每题2分,受试者回答出关键词即视为答对,若受试者回答中包括两个及以上关键词,以第一个为准,不设置额外加分项目.将B卷得分视为更接近受试者实际听力水平的标准.同样分成B1和B2两组试卷,但试卷内容和评分标准完全相同.

参与实验的受试者是北京市某高校80名英语专业一年级学生,分成A组(40人)和B组(40人),其中A组为对照组,B组为实验组.测试于2010年12月在学校语音实验室进行,A组和B组同步进行听力测验,A组完成A1、B1卷,B组完成A2、B2卷.为避免受试者长时间听力引起的疲劳对实验效果的影响,听力测试的时间限定为约30分钟.

2.数据分析

采集4组得分数据后,将A1、B1卷得分和A2、B2卷得分全部换算为百分制,以便进一步比较和分析.首先,利用SPSS软件分别对对照组和实验组得分进行描述性统计分析,计算两组数据的最大值、最小值、平均值和标准差.描述性统计分析结果如表1所示.

表1 修正前后多选、简答测验得分的描述性统计数据

从表1中可以得出,A1卷的平均分为72分,B1卷的平均分为64.575分,两者相差7.425分,而A2卷的平均分为70.135分,B2卷的平均分为66.85分,两者仅相差3.285分,实验组的平均分差值低于对照组平均分差值4.14分,单尾检验显示实验组选择题与简答题得分的一致性显著高于对照组的一致性(p=0.015).也就是说,运用公式评分法对多选题进行猜测修正后测试得分更接近于修正前的测试,测试有效性明显增加.

散点图是回归分析中数据点在直角坐标系平面上的分布图,能够更加直观地观察到两个变量间的相关性,图形显示两组数据都具有线性分布趋势.图1为实验组和对照组测试得分分布的散点图,实线为拟合线性回归直线,代表每组A卷和B卷分数分布的实际线性关系,虚线是代表理想契合程度的均等线,当分数沿均等线排列时A卷得分和B卷得分相等,为理想的完全契合状态,实际散点越靠近均等线分布,表明A卷和B卷得分的一致性越高.回归直线和均等线越接近,两组试卷得分的一致性也就越高.下面通过数据比较对照组和实验组的回归直线与均等线间的一致程度.分别对数据进行线性回归分析,结果如表2所示.

图1 对照组和实验组测验得分散点图

表2 对照组与实验组回归系数

将表2中回归数据代入直线方程,可得到对照组的线性回归方程 y=28.615+0.672x,实验组的线性回归方程 y=16.826+0.797x.两组数据中,各回归系数的T检验显著性水平都小于0.05,即各回归系数在0.05的显著性水平上都通过了检验,因此可拒绝H0假设,A1与B1卷分数、A2与B2卷分数之间均具有直线关系.

比较发现,对照组回归直线在 y轴上的截距(28.615)大于实验组回归直线在 y轴上的截距(16.826),对照组回归系数(0.672)小于实验组回归系数(0.797),实验组的回归系数0.797更接近于均等线的斜率值1,说明实验组回归直线与均等线更加契合,对照组回归直线的偏离程度更大.也就是说,A2卷和B2卷得分的一致性高于A1卷和B1卷得分的一致性.运用公式评分法的测试结果更接近于考生的真实水平,所得出的结论和上文均值对照的结果一致.

下面使用组内相关系数来进一步测算两组得分的一致性.组内相关系数是衡量和评价观察者间信度(inter-observer reliability)和复测信度(test-retest reliability)的信度系数指标之一,等于个体的变异度除以总的变异度,故其值介于0到1之间,0表示不可信,1表示完全可信.一般认为信度系数低于0.4表示信度较差,大于0.75表示信度良好.皮尔森相关性系数在这里并不适用,因为它的测算对象是关联度,而此处主要的目的是比较两次测试结果与简答题分数的一致性.一致性较高者就意味着更接近简答题分数的评分标准,也就是信度更高的评分标准.经SPSS软件测算,常规组单一测量和平均测量组内相关系数分别为0.705和0.827,实验组的单一测量和平均测量组内相关系数分别是0.788和0.882,平均测量相关系数相差0.055,单一测量相关系数相差0.083,均显著高于常规组的组内相关系数.测算结果表明,实验组两组测试得分信度系数更高,选择题和简答题得分的相对一致性更高.这也就意味着实验组多选测验的结果更能真实反映受试者的实际听力水平.

三、结 语

本研究通过实证研究对比了公式评分和传统评分在听力多选题猜测修正方面的有效性.研究发现实验组的组内相关系数显著高于对照组的组内相关系数,均值差距明显小于对照组,散点图的得分分布也表明实验组得分一致性更高.由此可见,英语听力测试中采用公式评分标准可降低猜测概率,使成绩更接近受试者的实际水平.采用公式评分法时,受试者在博弈过程中需要权衡选错答案的失分成本,有效规避了受试者误打误撞的侥幸心理,作出的选择也能够反映受试者的真实听力水平,有利于更加科学有效地测试语言水平.需要指出的是,任何一种评分方法在具备优势的同时都不可避免地具有一定的局限性[7].公式评分操作较为烦琐,人工计分工作量较大,且容易出现误差,通常需要采用计算机阅卷,这就需要测试人员在选择评分方法时考虑测试环境是否具备相应的硬件条件.

[1]潘之欣.语言测试中的多项选择题型[J].外语界,2001, 84(4):67-74.

[2]GLASS V G,WILEYD E.Formula scoring and test reliability[J].Journal of Educational Measurement,1964,1(1): 43-45.

[3]PRIHODA T,PINCKARD R,MCMAHAN C,et al.Correcting for guessing increases validity in multiple-choice examinations in an oral and maxillofacial pathology course[J]. Journal of Dental Education,2006,70(4):378-386.

[4]孙惠超.多项选择题评分标准对猜测误差的影响[J].零陵学院学报,2003,24(5):131.

[5]THURSTONE L L.A method for scoring tests[J].Psychological Bulletin,1919,16(7):235-240.

[6]FRARAT R B.NCME instructional module:formula scoring of multiple-choice tests(correction for guessing)[J]. Educational Measurement:Issues and Practice,1988,7 (2):33-38.

[7]DAVIS F B.A note on the correction for chance success [J].Journal of Experimental Education,1967,35(3):43-47.

猜你喜欢
评分标准选择题受试者
基于DOPS评分表细化体格检查评分标准的应用研究*
涉及人的生物医学研究应遵循的伦理原则
涉及人的生物医学研究应遵循的伦理原则
单项选择题狂练
涉及人的生物医学研究应遵循的伦理原则
数列选择题精选精练
例说速解选择题的几种有效方法
涉及人的生物医学研究应遵循的伦理原则
永远的格纹
初高中英语作文评分标准初探