朱 燕 祁 颖 张 宁
(北京城市学院 北京 100083)
影响口语测试评分的因素分析*
朱 燕 祁 颖 张 宁
(北京城市学院 北京 100083)
本文旨在研究口语测试中影响评分的因素,包括语言因素与非语言因素影响两个方面。本研究结果对口语测试的评分员如何更好地把控评分标准有一定的启示。
语言因素 非语言因素 差异性
在语言测试领域,对口语评分的研究一直是口试研究的重点之一。然而口语测试的实施非常困难,它难就难在语言既是测试的目标又是测试的工具[1]。因为英语口语测试的评分是主观的,因此评分差异是不可避免的。一些语言及非语言因素,例如评价标准和个人喜好,都可能会影响他们的评分结果。本文以一次大学英语应用能力口语测试(TEP Oral)的数据为样本,旨在对影响其评分的因素进行分析研究。
北京市属12家高校联合申请的教学改革项目“三位一体市属高校大学英语教育改革模式研究”,目标是构建一套“测试-教学-资源库”三位一体的、具有综合性、体系化和前瞻性的大学英语教育改革模式。本项目已经研发了一套具有高信度和效度的大学生英语口语测试模式——大学英语应用能力口语测试(简称TEP),并在北京市18所高校成功推广该测试的《指南》已由国内知名出版社出版。该模式作为一项教育测试,具有教学检查性、教学指导性和教学形成性的功能,是大学英语课程体系建设的重要组成部分。
1.理论研究
语言测试研究中对评分员和评分方法的研究是一个重要的组成部分。目前,大量的口语测试研究都基于此展开,如:评分员在口试中对语言功能和话题的选择[2];评分员在口试中的提问及提问的方式[3];评分员在口试中根据受试的水平调整自己语言的程度和方式[4];以及评分员的性别对口试结果的影响[5]等。而国内学者的研究主要集中在以下三个方面:评价的可靠性,任务的有效性,以及录音口语能力测试。
2.研究问题
在口语测试中,评分员会表现出不同的倾向性并受到多种因素的影响,评分员中受评分方法和评分标准影响的同时还会受自身背景的影响,如:性别、年龄、教学经验及评分经验的影响。本研究旨在探讨哪些因素会影响其评分。
诸多因素中,由评分员主观评分引入的误差是影响考生最后得分最为直接的因素。口语测试评分,需要评分员在观察考生表现的基础上依据评分标准进行主观判断[6]。因此,评分员在口语测试中不仅是考试操作实施环节中的一部分,更是决定分数含义的重要环节,评分的准确性和一致性是决定考试信度甚至是效度的最为重要的因素之一。在影响因素方面,笔者着重分析了语言因素和非语言因素。前者包括交际效果、内容和组织、语法和词汇、语音语调、流畅性和可理解性;后者则包括任务完成情况、对考生的第一印象、考生的自信程度、考生之间的沟通以及身体语言等。
本次研究样本为参与TEP口语测试的评分员。参与本次研究的评分员共18名,其中男性5名,女性13名。所有评分员均为高校的英语教师,在测试前进行培训并全部合格。测试前对所有评分员随机分配了主副考官职责,在测试过程中,主考官负责提问及与考生交流,最后根据考生表现给出一个整体分数,而副考官则全程不参与交流,根据测试评分标准进行分项打分。测试后所有评分员均完成了调查问卷的填写并对部分评分员进行了访谈。
本次测试的考生是随机从7个专业进行选取,笔者对测试结果进行统计发现,专业差异对考生成绩的影响不显著。女性考生的成绩均值略高于男性考生,差异不明显。因此,笔者在测试结束以后,笔者对评分员进行了问卷调查。问卷的第一部分对评分员的基本信息进行了采集,包括性别、年龄、专业、教学经验和口试评分经验。问卷的第二部分则涵盖了可能影响评分的语言因素和非语言因素。问卷结束以后,又对部分评分员进行了访谈,以期发现问卷调查可能遗漏的问题。
1.评分员基本情况
在所有的18位评分员中,女性13名,男性5名,大部分评分员的年龄在30到40岁之间,另有一人低于30岁,一人高于50岁,两人介于40到50岁。9名评分员的专业为语言学,5名为文学,还有4名为其他专业。大部分评分员有五年以上的教学经验,所有评分员都有口语测试的评分经验。
2.语言因素
在问卷调查过程中,笔者要求所有评分员根据以下六种因素对其评分的影响程度进行排序:交际效果、内容与组织、语法与词汇、语音语调、流利程度、可理解性。
对九位采用整体评分法的主考官而言,影响因素排名前三的分别是:交际效果、可理解性和流利程度。这一结果表明主考官更加注重考生的整体表现。而采用分项评分法的副考官则认为以下三项影响最大,依次为:可理解性、语法与词汇、内容与组织。这表明副考官更注重评分标准里所列举的项目。从而这一结果也表明,评分方法的差异对评分也会产生一定程度的影响。所以,在设计评分标准的过程中,设计者必须准确把握各评分项的权重,以期能得到更为全面和客观的评分。
3.非语言因素
对于影响评分过程的非语言因素,问卷包含五个方面:任务完成情况、对考生的第一印象、考生的自信程度、考生之间的交流和考生的身体语言。调查结果显示,所有评分员均认为排序前三的影响因素为:任务完成情况、考生之间的交流和考生的自信程度。这表明在非语言因素方面,采用整体评分法的主考官和采用分项评分法的副考官之间没有显著差异。这一结果表明非语言因素对采取不同评分法的评分员没有产生明显的差异性影响。
4.补充性访谈
问卷调查结束以后,笔者对部分评分员进行了访谈。其中一名评分员指出,评分员在测试中的身体和心理状态可能会影响测试结果;有四名员指出评分员的性格,内向和外向性格的不同会在把握评分标准的松紧程度上有差异;有两名评分员指出,评分员的评分经验对评分的影响也不容忽视。
综合考虑以上因素,笔者发现在评分过程中,评分员很容易受各种语言与非语言因素的影响,从而造成评分从差异,因此评分员在测试过程中必须准确地把握评分标准,尽量避免其他因素的干扰。
有些因素,如评分员的情绪和身体状态,是不可控的。因此,测试机构必须对可控因素有一个很好的把握,如制定一个更详细和明确的评分标准,以缩小评分员之间的差异;加强对评分员的培训和测评,以提高评分员的素质并淘汰不合格的评分员。对于影响测试分数的因素和实际测试过程中这些因素所造成的影响,笔者认为可以开展进一步的研究。
[1]Bachman,L. F. Fundamental Considerations in Language Testing. Oxford:Oxford University Press,1990.
[2]Brown,A. & T. Lumley. Interviewer variability in specific purpose language performance tests [J].Language Testing,1998(1):43-64.
[3]Brown,A. Interviewer variation and the co-construction of speaking proficiency [J]. Language Testing,2003(20):1-25.
[4]Ross,S. Accommodative questions in oral proficiency interviews[J]. Language Testing,1992(9):173-186.
[5]O’Loughlin,K. The impact of gender in oral proficiency testing [J]. Language Testing,2002(19):169-192.
[6]Myford. C. M. & E. W. Wolfe. Strengthening the ties that bind:improving the linking network in sparsely connected rating designs. TOEFL Technical Report TR-15:Princeton. NJ:Educational Testing Service,2000.
1.民促京津冀一体化项目——“京津冀一体化背景下英语口语应用人才培养模式研究子项目”;2.北京市教委重点、委托、联合项目“三位一体市属高校大学英语教育改革模式研究”(2014-lh03)