大学英语配对口语测试中评分员倾向对评分行为的影响

2012-05-08 09:10:05史天化

大理大学学报 2012年2期

关键词：外向一致性偏差

史天化

（福建工程学院外语系，福州 350108）

大学英语配对口语测试中评分员倾向对评分行为的影响

史天化

（福建工程学院外语系，福州 350108）

多面Rasch模型（MFRM）被运用来分析大学英语配对口语测试中评分员倾向对评分宽严度和一致性的影响。采用SPSS和MFRM分析4名有经验的评分员对10对考生的评价数据，结果表明不同性格特征的评分员在宽严度方面存在差异，内向的比外向的评分员更严格；而内、外向评分员在自身一致性方面没有明显的差别。

多面Rasch模型；配对口语评分；评分倾向

在语言测试领域，对口语评分的研究一直是口试研究的重点之一。我国外语教学中很多考试也都包含口语测试部分，以检查考生口语表达能力。其中，评分的信度如何，评分是否合理、公平等问题是语言教学和测试研究的重点课题之一。目前，口语研究多侧重于3人以上的小组测试模式，比如Berry〔1〕，Ockey〔2〕等，很少有对双人配对口语测试中个性因素对评分影响的研究。本研究以英语在中国高校作为一门重要公共必修课为背景，结合新建应用型本科院校的特点，以某工科院校非英语专业大学生为实验对象，对双人配对口语测试中评分员倾向对评分影响进行实证研究。

一、相关研究

在过去二十多年里，国外诸多学者专家们，如Iwashita〔3〕，Orr〔4〕，Lyn May〔5〕，等等，就不同配对模式，学生外语水平，性格情感特征，学生学习风格偏好与学生性别，专业及母语类型等因素对口语产出产生的影响进行了一系列的研究。相比国外，国内在外语教学中的口语测试和口语测试领域的研究都要晚得多。目前影响最广的大学英语四、六级考试和高校英语专业四、八级考试长久以来并不包含口语测试部分，直至1994年英语专业四级考试才开始进行录音口试试点（文秋芳〔6〕），1999年大学英语四、六级考试才开始有条件的口语测试（考生笔试成绩达到一定分数才有资格参加）。而在口语测试领域，研究课题主要来自国外研究的启发和国内口语测试的实践，包括测试形式（盛越，管博〔7〕），口试真实性（邹申〔8〕）以及大学英语口试（熊敦礼等〔9〕）和英语专业四级考试（文秋芳）的效度等。

二、研究问题

口语评分属主观性评分，往往通过让考生完成一项指定任务，展示其在问题解决中的推理、判断和表达等方面的技能，然后评分员依据既定的标准对考生的表现进行综合评定。其中，评分者的个人特征，如知识背景、经验阅历、情绪高低、疲劳程度以及性格特征等都会对评分的信度、效度产生影响。这就是测试中所谓的评分者偏差。Skehan〔10〕提出，在配对口语中，口语评分是多重因素互相影响的结果，这些因素包括考生之间、任务特点、评分标准以及评分员等。如图1所示，examiners（评分员）和task characteristics（任务特点）会影响到受试的performance（表现），而评分员又按照评分标准进行评分，最终得出考生的口语成绩。虽然图型很简单，但是在实际操作过程中却很复杂。

依据Skehan的口语评分模型，本研究要探讨的研究问题是：①内、外向评分员在配对口语测试的评分过程中评分宽严度是否有差异？②内、外向评分员能否保持自身一致性？

图1 Skehan口语评分扩展模型

三、研究设计

（一）实验对象

共有20名学生参加该实验，年龄为19～21岁，系福建某学院一年级学生，从3个工科专业中随机挑选出来。考生任务设计按照学院期末口语考试模式。首先，考生2人1组，共10组，接着从12个备选题目中抽取试题，准备3分钟，然后要求考生依据题目要求在3～5分钟时间内完成口语对话。考生的口语产出全部通过计算机口语考试系统自动录音。20名考生的音频文件全部转写为文本文件。

（二）评分

评分员是4位具有副教授职称，有口语评分经验的大学英语专业教师。其中性格偏内向和外向各2人，其内、外向人格倾向和特征事先经“艾森克人格问卷量表”检测。评分员依据语言准确性和范围，话语的长度和连贯性，语言灵活性和适切性以及两人的交互等5个方面对20名考生进行评分。

四、结果和讨论

本实验采用SPSS和Rasch模型（Linacre〔11〕）对数据进行分析。Rasch模型可以看作是包含考生能力和项目难度层面的双层模型。该模型是丹麦数学家Rasch提出的，以其统计上的优点和参数估计的便利性而著称。多面Rasch模型可以独立估计评分者宽严程度、考生能力和项目难度等，校正主观评分中各因素对评分结果的影响，提高评分结果的信度。以上因素在模型中都被设定为独立的参数，以logits（洛基量尺）作为单位。本研究采用此模型，分析在配对口语测试中评分员性格特征对评分宽严度和一致性产生的影响及评估员的评分偏差问题。

（一）评分者的宽严度与一致性

根据表1，第三列为评分宽严度（使用洛基量尺），大多数学者认为评分严格度在-2～+2之间是可接受的范围。

表1 评分者宽严度Facets估计

表1显示，4位评分员的评分严格度都在可接受范围。其中评分者D的logit值为-0.39，是最宽松的评分者，评分者B的logit值为0.88，是最严格的评分者。评分者B和D之间的差异为1.27个logits。第五列为内适合度均方，反映评分员评分行为自身一致性的信息。通常Rasch模型容许评分者的一致性在一定范围内波动，但是某个评分者如果波动的幅度过大，则说明该评分者评分稳定性差，缺乏一致性。通常专家们认为在0.8～1.2之间是可接受的（Davies〔12〕等）。Fit（适合度）值小于0.8或者大于1.2都表示该评分者在评分过程中没有能够正确地使用评分标准，缺乏自身一致性。从表1中看出，评分员A的Fit值小于0.8，则表明该评分员在评分过程中小于模型预期的变化幅度。也就是说该评分者在评分过程中使用了安全策略，自身表现出过度的一致性，未能对考生作出很好的区别和区分；而评分员C的Fit值为1.44，说明该评分员评分的变异性大于模型预期的变异程度。表明该评分员在评分过程中变异过大，自身缺乏一致性。因此，评分员A和C都缺乏自身一致性；而评分员B和D的Fit值处在0.8～1.2之间，其自身一致性较好。第六列为标准差（Standard Error），是评分者宽严度估计值的标准差，0.10表明了该估计值的精确程度。

（二）评分偏差

表2列出了4位评分者的评分与考生实际口语能力之间的偏差。由于篇幅所限，在此只列出前五位和最后五位。

表2 偏差分析

表2中第三列为模型对考生能力的预估，第四列是考生的所得分数，第五列是模型经过分析后得出的考生应得的分数，第六列为均值，第七列是偏差值，第八列是误差，最后一列是显示偏差度的Z分数。偏差度的可接受范围是-2～+2，大于+2表示该评分员评分时过于严格，比如评分员A在评价五号受试时，偏差度的Z分数为2.07，表明该评分偏差较大，属无效评分。除此以外，其他的评分都是在统计上有意义的分数。从表2中可以看出，前五位考生的期望值均大于观察值，说明这5位考生的实际能力均高于他们的实际得分，即评分员评分过于严格。而后五位的期望值均低于观察值，评分员过于宽松。以19号考生为例，模型对该考生的能力评估为0.32，而实际分数为3分，这一分数比模型对该考生预期的分数2.7高，这表明评分员D在评分时有些宽松，存在偏差。

总之，评分员的性格特征会对评分过程产生影响，通常内向的比外向的评分员更严格，而在评分一致性上，内、外向的评分员并没有表现出明显的差别。

五、结语

本研究在配对口语评分中引入多面Rasch模型，分析了内向和外向评分员在评分过程中的评分偏差、宽严度及一致性问题，为以后口语测试中评分员的培训提供借鉴和依据，进而为倾向于犯不同类型的评分者偏差的评分员提供有针对性的培训和反馈。不过这个问题还需要从评分员评分过程中的认知方面作进一步探讨，详细地了解评分员在口语评分过程中关注的那些具体评分标准以及一些非评分标准相关的信息。因此，以后研究中可以采用有声思维等方法从信息处理的方面继续深入研究。

〔1〕Berry V.A study of the interaction between individual personality differences and oral performance test facets〔J〕. Unpublished doctoral dissertation，2004（1）：25.

〔2〕Ockey G J.Is the oral interview superior to the group oral?〔J〕Working Papers on Language Acquisition and Education，2009，17：165-167.

〔3〕Iwashita N.The validity of the paired interview in oral performance assessment〔J〕.Melbourne Papers in Language Testing，1998（5）：51-65.

〔4〕Orr M.The FCE Speaking test：using rater reports to help interpret test scores〔J〕.System，2002（30）：143-154.

〔5〕May L.Assessment of oral proficiency in EAP programs：A case forpairinteraction〔J〕.Language and Communication Review，2009（9）：13-19.

〔6〕文秋芳.英语口语测试与教学〔M〕.上海：上海外语教育出版社，2000.

〔7〕盛越，管博.配对形式在口语考试中的作用：从剑桥第一证书口试看配对形式的作用〔J〕.兰州铁道学院学报：社会科学版，2000，19（5）：130-131.

〔8〕邹申.试论口语测试的真实性〔J〕.外语界，2001（3）：74-78.

〔9〕熊敦礼，陈玉红，刘泽华，等.大学英语大规模录音口语测试研究〔J〕.外语教学与研究，2002，34（4）：283-287.

〔10〕Skehan P.A cognitive approach to language learning〔M〕.Oxford：Oxford University Press，1998：172.

〔11〕Linacre J M.A User's Guide to FACETS：Rasch-Model Computer Program〔M〕.Chicago：MESA Press，2005：59-61.

〔12〕Davies.Dictionary of Language Testing〔M〕.Cambridge：Cambridge University Press，1999.

（责任编辑党红梅）

Influence of Rater Orientation on Rating in Paired Oral Test

SHI Tianhua
（Department of Foreign Languages,Fujian University of Technology,Fuzhou 350108,China）

Many-Facet Rasch Model（MFRM）was adopted to investigate whether rater personality types had observable effect on the severity and internal self-consistency of rating.Four experienced raters and 10 paired candidates were selected and evaluation data were analyzed by SPSS and MFRM.The results showed that raters with different personality types had rated differently: introverted raters were more severe than extroverted ones;and in terms of the self-consistency in rating,there were no significant difference between them.

Many-Facet Rasch Model;paired oral scoring;rating bias

G642.475

1672-2345（2012）02-0040-04

2010年福建工程学院教育科学规划课题（GB-K-10-18）

2011-12-10

史天化，讲师，主要从事语言测试和二语习得研究.