英语专业本科口译测试的效度与信度研究

2018-03-20 08:06邬姝丽

英语知识 2018年1期

邬姝丽孟钊古明

(中国矿业大学，北京)

1.引言

准确客观地评估口译质量是口译测试非常重要的一项任务。对于英语专业口译考试的评估，许多学者做过研究。刘和平教授(2005)在《口译理论与教学》一书中提出了编写口译教学大纲。厦门大学英语系陈菁先后于2002和2003年在《中国翻译》发表两篇关于口译测试的重要因素和口译测试的具体操作的论文。对口译评估步骤以及口译测试的真实性提出了建议。近年来，随着英语专业本科阶段口译课的开设呈大幅上升趋势，且日趋稳定，很多学者也开始关注口译的质量评估。冯建中(2005)对国内部分高校所做的口译考试进行了研究，发现大部分高校的口译考试内容的合理性欠缺，选材量不足，评分具有主观性，即口译测试的信度和效度都不高。浙江大学的刘银燕和张珊珊(2009)设计了“口译测试评分表”，详细列出评分项以及分数的分配值。以上学者的研究主要是细化评分标准，指出了评分因素，但并没有涉及口译测试中信度和效度所涵盖的具体内容。卢敏、刘琛(2007)等就全国翻译专业水平考试英语口译试题命制一致性进行了研究，其中对口译试题的信度和效度的具体内容进行研究，对于本文的研究有一定的参考性。

2．Bachman和 Palmer的信度与效度以及交际语言测试理论

任何语言测试都要回答两个问题，即信度和效度的问题。它们是语言测试中两个最重要的概念，是关乎考试的测量结果分数是否稳定和考试内容是否准确合理。Bachman和Palmer(1996: 19-38)提出语言测试有用性原则，包括信度、效度、真实性、互动性、后效作用以及可操作性，其中信度和效度是最重要的两个指标。任何一次高质量的考试必须确保高信度和高效度。信度是指测量结果的一致性或测量结果的可靠性。为了提高分数的稳定性和可靠性，一份试卷需要足够的题量，考试的实施也要科学合理(包括考试时间的分配、考试指令)，教师的评分需尽可能公正。信度高说明试卷分数比较真实地反映了学生的实际水平。效度是一份试卷是否测量了所要测量的内容或试卷是否成功实现了测试目的，它检验测试结果能否准确反映学生的实际水平。效度能够体现测试的准确性和有效性，它包括构想效度、内容效度和表面效度。构想效度是指试卷是否按照语言学习理论和行为来测量某些具体的特征，检验口译测试的构想效度就是检验口译测试试卷是否与口译测试理论和口译教学大纲一致。内容效度是指一份试卷是否测量了所要测量的内容，它包括试卷内容的相关性和试卷样本的代表性。表面效度是指从表面和外观就能判断出一份试卷是否在测试所要测试的知识或能力。笔者认为，口译测试的真实性也是口译效度的一个重要指标，将其放在表面效度这个维度进行分析。

口译是一种涉及诸多知识层面的跨文化交际行为(钟述孔，1991)。口译测试是交际语言能力测试，它所遵循的原则是交际语言测试理论原则。交际法语言测试理论是Lyle Bachman(1990,1996)提出的具有较大影响的测试理论。Bachman(1990: 81-110)认为语言测试应包括语言能力、策略能力和心理生理机制三部分。语言能力又细分为组织篇章能力如词汇、句法、衔接、组织等和语用能力如言语知识和社会语言知识。策略能力是一种综合运用已有知识解决问题的一种心理能力。该理论的重要意义在于将语言的使用看成是一个动态过程，重视语言在具体语境下的交际。口译恰恰是一种语际间的解释行为，口译的思维过程是原语听辨与理解，经过瞬间记忆、转换和表达的过程，是一种以传递信息意义为目的的交际过程。口译的性质和其思维过程决定口译的交际能力应包括知识能力、技能能力和心理能力。因此，交际法语言测试理论对口译测试理论具有指导意义。

3．测试设计

本次测试采取问卷调查的方式进行，有来自全国105所高校的口译教师参与微信填写。问卷采用五度量表，按完全不符合到非常符合这种递升方式排序。共设计21道有关信度和效度的问题。信度涉及试题本身信度和评阅人信度。效度包括构想效度、内容效度和表面效度。

这些口译教师所属类型及人数分别是：文科类16人，理工科30人，外语类8人，师范类9人，综合类42人。具体所在学校的比例请看下图。

4．问卷调查结果分析

本文所探讨的效度包括内容效度、构想和表面效度。信度分为内部信度和外部信度(阅卷人信度)。下面作者就每一部分数据进行分别讨论：

4.1 构想效度

在口译测试中，构想效度是用来检验口译试卷设计是否与大纲相符合。试卷效度与相关理论的主要方面一致性越高，说明试卷的构想效度越高。口译教学大纲是指导口译测试的参考标准，口译试题应体现大纲所规定的相关口译能力。检验口译测试的构想效度就是检验口译测试试卷有没有参照口译测试理论或大纲规定的口译能力要求。

本研究中问卷所涉及的试题来源(问题1：口译试题是否来自试题库)，大纲参考 (问题5)，口译技能(问题6)以及文化知识考察(问题8)是关于构想效度的。研究结果表明口译试卷的构想效度较高，所采用的五度量表中，每一道题的均值分别是3.02、4.09、4.12和4.02，综合起来构想效度的均值为3.85，这说明所调查的高校英语专业的口译试题的构想效度虽然不是百分百令人满意，但至少口译试题与口译大纲所规定的口译技能及口译理论相符或口译试题参考指标与口译大纲相符。这一结论是令人满意的，说明在口译测试日益发展的今天，口译测试越来越规范，口译理论和技能越来越受到重视。

4.2 内容效度

口译测试的内容效度体现在口译试题的覆盖度和得体性，具体来说就是口译试题的命题难度、语篇长度、话题覆盖面以及英译汉和汉译英试题所占的比例。本问卷所涉及的内容效度包括问题2(口译试题是否包括英译汉和汉译英各两段)、问题3(每段试题的字数在200—300之间)问题4(我的口译试题考虑了难易度)和问题7(我的口译试题包括不同场合的话题)。分析结果表明，每部分的均值分别是4.42、3.75、4.08和4.04，每部分的均值都高于平均分2.5，综合起来内容效度的均值为4.07，接近五度量表最高值5，这表明所调查的各高校的口译试卷的内容效度很高，口译试题测量了所要测量的内容，试题覆盖面合理，考察的内容全面，所截取的内容具有代表性。简言之，题量和难度控制得不错。英译汉和汉译英各两段，每段字数控制在200—300之间，这能全面和均衡地考察学生的口译能力。在难易度方面，试题过难或过易都不能反映学生的真实水平。试题过难会让学生产生畏惧情绪，太易则缺乏挑战性，不能进一步激发学生的学习兴趣。研究结果表明，高校英语口译老师对试题的难易度和区分度掌控得不错。对于成绩测试来说，基于本校的口译考试大体考了要考的内容。

4.3 表面效度

表面效度除了指考试内容与口译相符之外，笔者认为另一个测量口译表面效度的指标则是口译测试形式，即口译测试的真实性。它是交际法语言测试的一个重要指标。Bachman和 Palmer(1996)把真实性定义为“ 既定语言测试任务的特征与目标语言使用任务的特征的一致性”，换句话说，应试者应试时所需完成的任务类似于现实生活的交际情景所需完成的任务。一致性越高，真实性越高。本问卷设计了这一点，问题11口译测试是否是在多媒体教室录音进行的。问卷统计表明该题的均值为4.3，这表明大部分高校口译考试是在多媒体教室进行录音，考察学生的基本口译知识和能力。口译测试的形式必须试用于口译场合。此均值从另一方面表明了大多数高校的口译考试的真实性差。陈菁(2002)认为“那种戴耳机听录音，然后录下译文的做法无法全面客观地测试出应试者的知识能力、口译能力和心理能力。测试时应试者必须在接近真实的交际情境中如记者招待会、商务谈判、参观访问、电话口译等完成交际任务”。陈菁(2003: 67)甚至提出模拟真实的口译场合，学生轮流进场考试，这样可以测量学生的心理能力和公共演说能力。虽然这一提法具有挑战性，因为目前实施这种真实情境的口译考试对于绝大多数高校难度大，但这是我们应该努力实现的目标，至少口译测试的形式尽量接近真实。口译教学是应尽可能在测试时营造口译现场或让学生直接参与口译真实活动。

4.4 内部信度

口译课程测试信度是指口译课程测试结果是否稳定可靠。即口译课程测式的成绩是否真实地反映出学生的实际口译水平。口译课程的测试由口译试题本身的信度和评阅信度两部分构成。试题本身是否可靠取决于试题的长度(测试时间)、题目要求是否准确清楚、录音间隔是否合理。本问卷关于信度的测量包括以上三个方面的问题，即试题字数、试题的覆盖度、考试指令和录音间隔。调查结果表明，除了试题字数不够外，其他三项的信度都很高。刘和平(2005)提出，每段材料的口译时间为3到5分钟为宜，每分钟160—200个字，也就是说三分钟至少480个字左右。蔡小红(2007)也提出“原则上语篇长度必须超过人记忆语言的能力，即2分钟以上”。而我们的调查研究发现，绝大多数高校的口译试题虽然包括英译汉和汉译英各两段，但字数不够，大多在200—300之间，亦即不足22分钟。这样一来，文章长度不够，在陈菁(2003：67)看来，时间不足就无法衡量学生的交际能力，特别是语篇和运用能力。”问卷调查结果显示这道题的均值为3.75，因此，增加考试试题的长度是提高信度的一种有效方式。其他三项信度的构成部分分别是实体的覆盖度、考试指令和录音间隔。统计分析显示，这三部分的均值分别是4.42、4.23和4.34，总体均值是4.33，这一均值数值表明这部分的信度很高，具体来说实体的覆盖面广，包括英汉和汉英各两段，与国家级考试如全国翻译专业资格口译考试以及上海市英语中高级口译岗位资格考试的试题覆盖面大体一致。明确的考试指令会确保考生熟悉题型和测试技术，考生不会因为题目歧义而造成理解偏差。合理的段落之间的停顿便于给考生足够时间整理笔记和录音，这样学生就不会因为停顿时间太短而不能充分发挥自己的口译能力。Heaton(2008：162)指出，为了提高信度，使测试任务产生的分数更加可靠，更能体现学生的实际口译能力，在测试时应选取足够的测试样本，提供相同的施考条件。Hughes(2003)更详细地列出确保信度的几点：选取足够的行为样本；不允许考生有太多的选择自由；题目无歧义；指令清晰明白；让考生熟悉题型和测试技术；提供相同无干扰的施考条件。参照Hughes以及Heaton提出的确保信度的有效手段，高校英语口译教师大体上在试卷设计时考虑了提高分数稳定性的方法。但他们忽略了一项最根本的保证，即试卷的长度，因为只有足够的样本才能真实反映出考生的口译能力，对此各高校应给予重视，并进行改进。

4.5 阅卷人信度

信度的另一个维度是评分信度，它指阅卷者在多大程度上保证考试结果的可靠性。这与考试的公平性有直接关系。Weir(2005)就评分标准提出如下主要要求：(1)提供详细的评分标准；(2)通过号码而非名字识别考生；(3)使用多人独立评分。关于口译测试的评分标准，许多学者撰写论文提出对口译评分标准进行各种量化，引入不同的参数和权重。比如杨承淑(2000)将口译评分标准划为：忠实占50%，表达占30%，语言占20%。刘和平(2001)的标准为反应速度占15%，理解占35%，表达占35%，心理素质占15%。陈菁(2003)则把口译测试标准定为知识能力占35%，技能占50%，心理能力占15%。这些学者提出的评分准则从微观层面设定评分标准。本文暂不考虑详细的评分标准，主要讨论的是与信度有关的评分标准和评估方式，如是采用整体评分法还是分析评分法，是形成性评价还是终结性评价。除此之外，我们特别关注高校口译教师在评阅学生时的公平性，所以设计了三个与此相关的问题，即是否匿名阅卷(问题12)、是否采用二人以上共同阅卷(问题13)、教师阅卷时是否会因学生生病等因素影响对学生的评价。下面作者就评阅信度分别进行分析和讨论。

是否匿名阅卷的均值为3.50，共同批阅的评分值为3.08；提供详细的评分标准这部分的均值是4.18；不会因为学生的个人因素(如紧张，生病等)影响对其客观评判的均值是4.12。相比较而然，匿名阅卷和多人阅卷的均值偏低一些，在所用的五度量表中居中，这说明这一部分还需加强，以便保证考试结果的稳定性以及考试的公平性。提供详细的评分标准均值在4以上，说明高校口译教师意识到这种详细的评分标准可以保证评分的稳定性和一致性，这也就确保了高信度。不受学生个人因素影响的评分体现了评分的公平性。

笔者多次参加人事部全国翻译专业资格考试的口译阅卷，了解口译评分方法主要是分析法与整体印象法的结合，其中分析法占的比重大。此研究参照人事部口译评分标准，设计了五个与评分方法有关的问题，即在口译评分中，从整体上把握学生的口译水平(综合法)；在评分时考虑口译能力的各个要素，如语言能力、流利程度、技能能力等(分析法)；在课程评价时只采用终结性评价方式；在课程评价时只采取形成性评价方式；在课程评价时采用终结性和形成性评价相结合的方式。从评分标准看，数据显示，高校口译教师在口译评估时整体评分和分析式方法这两种方法各占50%，综合法的均值为4.24，分析法的数据平均值为4.25，这两个数据几乎相等。这与标准的国家级口译水平考试在评分方法上有所不同，笔者认为这也许是高校口译成绩测试的一个特点，也是这次研究的一个新发现。

从评估方式看，我们设计了四个题目，为了是得到一个比较全面的答案。这四个问题分别是：(18)我给学生成绩时会考虑到平时的训练量；(19)在课程评价时我只采用终结性评价方式；(20)在课程评价时我只采取形成性评价方式；(21)在课程评价时我采用终结性和形成性评价相结合的方式。调查结果，单独一种评价方式并不是高校口译考试的主要方式，问题19和20的均值(2.64；3.02)都低于终结性和形成性评价这种相结合的方式(均值为4.37)，这一结果恰好与问题18的均值比较接近(均值4.03)，这两个数值进一步表明高校口译考核的特点即采用形成性与终结性相结合的方式，将学生平时口译训练量计算在期末考核中，体现了高校口译测试独特的一面。笔者赞成这一做法，因为高校口译测试与国家标准化口译考试不同的地方在于高校口译考试是成绩测试而非一次定终身的水平测试。口译学习是一个循序渐进的过程，成绩测试如果将口译学习过程考虑在内，不仅会激发学生平时的学习积极性，也会照顾大多数学生，笔者认为这一评估过程也体现了口译评估的科学性和公平性，是提高口译信度行之有效的办法，值得提倡。

5．结论

本研究从口译效度和信度两个方面探讨高校口译测试与评估的核心问题。与以往的本科翻译专业口译教学的测试与评估不同，它突破了常规的理论描述或是单纯的口译评估量化分析。采用问卷调查这一实证研究方法，涉及全国多所开设口译课的高校。得出的结论也与以往的研究不同，虽然发现了一些问题，也表明了高校口译教学测试与评估的进步，口译测试与评估正逐步科学化，口译测试的信度和效度都有改进。我们需要进一步提高表面效度即口译考试的真实性，此外，测试的整体信度较高，无论是内部信度还是评阅信度。不过内部信度方面需增加试题长度，保证足够的试题量，这样才能真正测量出学生的口译实际能力和水平。在评阅信度方面，适当进行匿名阅卷和多人阅卷，有利于更好地保证分数的公平和可靠。值得一提的是，高校口译评估方式较为合理，采用形成性与终结性相结合，这也是公平性与科学性的另一种表现。

[1]Bachman, L.1990.Fundamental Considerations in Language Testing[M].Oxford: OUP.

[2]Bachman, L.& A.Palmer.1996.Language Testing in Practice[M].Oxford: OUP.

[3]Heaton, J.2000.Writing English Language Tests[M].Beijing:Foreign Language and Research Press.

[4]Hughes, A.2003.Testing for Language Teachers[M].Cambridge: Cambridge University Press.

[5]Weir, C.2005.Language Testing and Validation: An Evidencebased Approach[M].New York: Palgrave Macmillan.

[6]蔡小红.2007.口译评估[M].北京:中国对外翻译出版公司.

[7]陈菁.2002.从Bachman交际法语言测试理论模式看口译测试中的重要因素[J].中国翻译,(1):51-53.

[8]陈菁.2003.交际法员原则指导下的口译测试的具体操作[J].中国翻译,(1):67-71.

[9]冯建中.2005.论口译测试的规范化[J].外语研究,(1):54-58.

[10]刘和平.2001.口译技巧——思维科学与口译推理教学法[M].北京:中国对外翻译出版公司.

[11]刘和平.2005.口译理论与教学[M].北京:中国对外翻译出版公司.

[12]刘银燕张珊珊.2009.英语专业本科口译教学结业测试设计与评估方法探索[J].外语研究,(4):74-78.

[13]卢敏刘琛巩向飞.2007.全国翻译专业资格(水平)考试英语口译试题命题一致性研究报告[J].中国翻译,(5):57-61.

[14]杨承淑.2000.口译教学研究——理论与实践[M].台湾:辅仁大学出版社.

[15]钟述孔.1991.实用口译手册[M].北京:中国对外翻译出版公司.