英语口语测试的信度和效度研究

2011-08-15 00:47秦明星

武汉船舶职业技术学院学报 2011年5期

秦明星

（郑州科技学院，河南郑州 450064）

英语口语测试是检测学生口头交际能力的重要方式，它能最直接地反映一个人的外语基本水平，同时又对教学有很强的反拨作用。因此近年来语言测试日趋注重对口语能力的评价，许多大规模的英语考试已经增加口试，并且口试与笔试分开的时间间隔也越来越短。如托福口试在托福考试实施了18年后于1981年推出。中国的CET考试在开考13年后于1999年增加CETSET考试。1999年开始实施的PETS考试，在推出时就已包括了口试部分。

英语口语测试是对学生进行英语综合能力测试中最直接的方式，是检测学生语言输出的重要手段。而口语测试的信度与效度的把握则是测试成功与否的关键。因此，对英语口语测试的信度和效度进行分析，保证试题设计的科学性，判分的可行性与可靠性，有利于使口语测试准确地反映学生的实际口语能力，进而提高其对口语教学的正向反拨作用。

1 测试的信度和效度基本内涵

如果我们想阐释一次特定的考试成绩是否正确反映了学生的语言能力，那么在设计和使用测试时，Bachman［1］（1990）信度和效度是首要关注的特征。Lado［2］（1961）提出测试必须满足两个条件：信度与效度。Bachman［3］（1996）把信度定义为“测试的一致性”。美国心理研究协会［4］（1985）认为效度是我们根据测试分数所作的推断或结论如何有意义、恰当以及有效的程度。信度和效度是语言测试的两大属性，是评估语言测试最为关键的两个质量指标。信度表示测量结果的内部一致性的程度。考生在同样能力下的不同测试结果非常接近，这样的测试即称为有信度。信度是继效度后衡量考试质量的另一个重要指标，任何考试只有可靠才能有效。因此，信度是效度的必要前提。考试效度是衡量考试质量最重要的标准，是考试最基本的出发点。语言测试界对考试效度的传统定义是“考试是否或多大程度上测试了测试者想要测试的内容”。一个测试只有具有要准确测量的内容时，才能称得上有效度。根据现代语言测试理论，质量合格的测试首先测试的信度与测试的效度有着密切的关系。一般说来，只有信度较高的测试才能称得上有效度。根据现代语言测试理论，质量合格的测试首先要有效度和信度。

测试的信度与测试的效度有着密切的关系。一般说来，只有信度较高的测试才能有较高的效度，但信度较高不能保证效度一定较高。测试的信度主要涉及到试题本身的可靠性和评分的可靠性这两个方面。试题本身是否可靠主要取决于试题的范围、数量、试题的区分度等因素；评分是否可靠则要看评分标准是否客观、准确，评分过程是否一致。测试效度可通过对学生进行访谈或问卷调查的方式，了解他们对测试的态度、反映和感觉，依此修正测试项目，以获得较高的效度。

2 英语口语测试的信度研究

英语口语测试信度是指口语考试结果的可靠性和稳定性。所谓英语口语考试的信度是指同一个口语测验（或相等的两个或多个测验）对同一组考生施测两次或多次，其结果的一致性程度。也就是说，考生多次参加英语口语考试，如果每次得到近乎一样的分数，那么可以认为该测验的信度是高的；如果每次分数忽高忽低，说明该测验可靠性不够、信度低。

例如，我们可以这样来检验测试的信度：使用同样一份试卷，在两种不同的场合、环境中，在较短的时间间隔内，施与同样的学生，如果测试结果基本吻合，那么证明该测试是有信度的。一份试卷的测试结果如果缺乏信度，就没有使用价值，同时也减弱了考试的公正性。当然，要完全消除不一致性也是不可能的，我们能做的是尽量把影响不一致性的不利因素控制在最低程度，以便于提高测试信度。信度主要是看学生的分数是否稳定，如果分数忽高忽低，就说明信度不高。信度是受许多因素影响的，比如测试的时间、环境、学生的健康状况、对题目的理解等等。例如不同的环境对听力测试的影响是很大的，那些靠近喧闹街道教室里的学生是很难将注意力放在听力材料上去的；再如，炎热的夏季，把测试放在中午2：00左右就可能使很多学生昏昏欲睡，当然就不能发挥正常水平了。这些都严重影响着测试的信度。但也并非说测试的信度是完全客观的，教师可采取一些办法尽可能使题目的覆盖面大，使其具有代表性；再比如，尽量使试卷的评分客观一些。评分时至少有两名以上的评分者，尤其是在口语测试的评分中，更应该尽量公平一些。只有这类不利因素对测试的影响越小，测试的信度才能越高。

3 英语口语测试的效度研究

英语口语测试的效度是指测试是否考查了测试者想要测试的语言方面的内容，考生所考的成绩是否合理地说明了该考生的语言能力。作为衡量学生英语水平的一种尺度，考试必须具有效度。英语口语测试的有效性研究应该从有效性的各种方面来进行，实际上这些方面也是评估有效性的有效方法。衡量英语口语测试效度包括几个方面：内容效度、结构效度、卷面效度、一致效度、应答效度等。其中内容效度和构想效度往往是重点考察的方面。

（1）内容效度

Henning［5］（1987）认为内容效度指“测试内容是否充分代表和综合了测试的有效性”。内容效度主要研究试题的内容与命题理念的关系，也就是说，试题的内容能在多大程度上测试出考生的口头表达能力。主要指试题与所要考查的语言知识、技能或语言能力的相关性、代表性，与考生的合适性。一般来说，一项测试的内容效度越高，就越能精确地了解所要测试的内容，并产生较好的正面反拨效应。内容有效性是由语言学家或者测试专家等“专家”进行判断的。换句话说，在英语口语试题用于检测或专业考试之前，它的有效性必须首先由可信的、权威的专家来鉴定。他们的判断基于是否遵循考核大纲以及是否所能客观反映测量目标。按这种方式，测试设训者将为测试的有效性提供内容上的证据。这种有效性的衡量听起来非常简单，但需验证的方面比我们原来设想的更加不明确，更有争议，或许更复杂。对于这种困境，在于测试有效性是相对而非绝对的。如果内容效度有其自身的问题，那么，测试设计者需要为测试效度收集其它类型的证据：结构效度、卷面效度、一致效度、应答效度等。

（2）结构效度

Bachman ＆ Palmer［2］（1996）试卷质量的关键，是指我们把一项测试成绩作为要测试的能力或结构的指示物对它所能进行解释的程度。结构效度是一个动态的过程，根据测试成绩所作的解释永远不能说是绝对有效的，它只是一个相对的概念。讨论测试效度必须与具体的测试目的相结合，否则是没有意义的。对于某些测试理论家，结构效度是测试效度的一种形式，它实质上是评定测试在多大程度上有效地基于其基础理论，即，测试是否成功地应用了理论。1990年，Bachman建议一个包括三个组成部分的语言交流能力的框架结构：语言能力，策略能力和心理——生理学联合机制。如果我们将Bachman的框架作为设计英语口语考试的基础理论，那么在设计题型的时候，我们不得不考虑这些组成部分，并且测试之后，我们也不得不证实英语口语测试的内容是否满足CLA框架的要求。

（3）其它效度

卷面效度指测试的表面可信度或公众接受度。例如，一项测试是测试受试者的发音能力，但在测试中并没有读的测试项目，这项测试则被认为缺少表面效度。一致效度指学生的自我评价与其考试成绩存在着一定差距，原因在于一些学生过度自谦而另一些则自信心膨胀。应答效度指测试结束后，有必要了解考生对选项的反应。考生考试过程中解题的原因是检测测试的重要指标。因此，目前人们非常有兴趣了解考生在英语口语测试中的测试行为和思考过程。

到目前为止，已从内容效度、结构效度、卷面效度、一致效度、应答效度等几个方面对英语口语测试的有效性加以阐明。必须注意的是有效性是一个单一的概念，为容易理解而把它分开到不同的部分中。更理想地是，一个高效的英语口语测试应该在所有方面令人满意。但是现实中，不是所有方面都能达到有效。英语口语测试的有效性研究是一个永恒的主题，如何改进其有效性是所有测试理论家和专家努力探索的课题。

英语口语测试是为英语教学服务的。英语教学的任务是培养学生实际运用英语的能力，口语测试的任务则是正确评价学生实际运用语言的能力。口语测试作为英语教学过程中的一个重要环节，只有保证其信度与效度，才能公正、合理地反映出考生的真实口语水平，对英语教学才能产生积极的促进作用。

1 Bachman，L.F.Fundamental Consideration in Language Testing［M］.Oxford：Oxford UniversityPress.1990.

2 Lado，R.Language Testing［M］.Longman.1971.

3 Bachman，L.F，＆Palmer A.S.Language Testing in Practice［M］.Oxford：OUP.1996.

4 Heaton，J.B.Writing English Language Tests［M］.London：Longman.1988.

5 Henning，G.A.Guide to Language Testing：Development，Evaluation and Research［M］.Beijing：Foreign Language Teaching and Research Press，2001.