英语水平考试效度研究初探

2009-08-05 08:55张朝霞
考试周刊 2009年25期
关键词:构念英语水平效度

张朝霞

摘要: 考试效度指考试对考试构念进行测量的有效程度,效度研究指的是为解释考试分数而收集效度证据的过程。英语水平考试旨在测量考生的英语语言水平,本文以公共英语等级考试PETS-5为样卷,以考试题目和语言能力等级关系量表(Linking Test Questions to Task Statements)为工具,采用专业人士的分析评判为主要研究方法,收集基于考试内容的效度证据,对英语水平考试的效度研究方法进行了初步探索。

关键词: 英语水平考试 PETS-5 考试效度 效度研究

《教育与心理测试标准》(以下简称《标准》)是教育与心理测验领域的权威性文献,体现了考试领域的行业标准。该文献认为考试的效度是编制和评价考试过程中最关键的因素,是一个统一的概念,代表了测试对构念(construct)进行测量的有效程度[1]。自新版《标准》1999年颁布以来,新的效度观和效度研究方法已经成为教育与心理测量的研究中心之一,但在语言测试方面此类研究尚不多见。与此同时,我国英语考试改革趋势内在需要新的考试研究方法。英语水平考试主要用于测量学生的语言能力,基于内容的效度证据证明考试内容是否以有效的语言观为依据,考试结果在多大程度上可以解释考生的语言能力及与语言能力相关的心理特征,效度证据收集方法主要来自于对考试所测量的各部分内容的逻辑分析和专家评价。本文采用美国教育考试服务中心(ETS)的研究人员研制的用于测量英语水平考试效度的考试题目和语言能力等级关系量表(Linking Test Questions to Task Statements)为研究工具[2],以2006年公共英语等级考试PETS-5为样卷[3],通过专业人士的分析评判,收集基于内容的效度证据,以考查目标考试对于考生语言能力进行测试的有效程度,即目标考试究竟测试了构成考生语言能力的哪些因素,从而探索英语水平考试基于内容的效度证据的效度研究方法。

一、考试效度

语言测试中的效度理论来自教育与心理测量学,效度理论发展可以分为三个时期:单一效度观时期、分类效度观时期和效度整体观时期[4]。单一效度观认为效度是指一项测试是否测量了它所要测量的东西;而证明效度的典型的方法是:“在多大程度上这项测试与其它有效且可靠的语言测试相关。”[5]分类效度观认为效度是“从测验所作出的推论的适当性或合理性的程度,反映已有证据可以在多大程度上支持根据测验分数所做出的推论”。按其证据的不同来源分为三种:构念效度、内容效度和标准效度。长期以来,这种关于效度的定义和分类,一直是教育与心理测量学界研究效度的基本框架。

效度整体观的概念最初由Messick提出,即“效度证据和理论依据在多大程度上支持基于测试分数的其它评估方式所做出的推断或采取的行动是充分和适当的,对这个问题的综合评价性判断就是效度”[6]。新版《标准》确立了构念的核心地位,明确了效度研究的对象是测试分数的解释和适用,而不是测试本身。效度成为关于测验分数的特定解释所得到的支持程度,来自累积的证据或理论。该解释是测试应用的基础。所谓测试解释,是关于测试所要测量的构念(construct)或概念(concepts)的解释,所有的分数都被视为对构念的测量。构念不再是效度证据的三种来源之一,而是用来定义效度。即效度指某测试对构念进行测量的有效程度,而构念则被定义为测试所要测量的概念或特征(the concept or the characteristic that a test is designed to measure),构念成为教育与心理测量中最重要、最核心的概念之一。

考试效度的研究指的是为解释考试分数提供科学依据而收集效度证据的过程。效度证据分为五类,即基于内容的证据(evidence based on content)、基于反应过程的证据(evidence based on response processes)、基于内部结构的证据(evidence based on internal structure)、基于与其他变量之间关系的证据(evidence based on relations to other variables)和基于测验结果的证据(evidence based on consequences of testing)。其中,基于内容的效度证据指的是和考试内容本身有关的证据,即证明考试内容的代表性即考试构念的证据。测试的效度依赖于测试的精心编制,更依赖于编制测试的理论基础。对于语言水平测试来说,测试的理论基础即构念就是测试意欲测量的相关语言水平和能力。

二、语言能力

当代语言学理论认为语言能力指的是语言交际能力(communicative language competence)。社会语言学中的语言功能、语言变异和社会文化原则,功能语言学中的系统功能原则以及语用学中的言语行为原则等为语言交际能力理论的产生提供了理论根据。

交际语言能力模式可以追述到Hymes的交际能力说以及在此基础上Canale和Swain在上世纪80年代初提出的交际能力理论模式[7]。现行的交际语言测试模式是90年代初美国应用语言学家Bachman提出的语言能力观。他认为语言能力就是把语言知识和语言使用的场景特征结合起来,创造并解释意义的能力,即语言交际能力[8]。该能力是由语言知识和一系列元认知策略组成,这两部分又可分出许多次类别。构成语言能力的各部分在具体的语言使用场合下,相互作用,相互影响,不可分割。

本文以Bachman的交际语言能力模式为基本理论框架,对英语水平测试所考查的语言能力进行检验,探索目标考试是否测试了相关的语言能力。

三、水平考试的效度研究

(一)全国英语等级考试(PETS-5)

全国英语等级考试(Public English Testing System,简称PETS)是教育部考试中心设计并实施的全国性英语水平考试体系。根据考试大纲,PETS考查的能力是建立在“交际语言行为模式”上,认为语言交际需要是掌握外语的目的,将语言能力分为“接受”、“产出”、“互动”能力。PETS考试根据各种情景和任务,在特定主题和话语下,结合相关的语言行为进行教学或考查,题型有:客观性试题——多项选择、选择配对等;半客观性试题——改错、填空、简单概括等;主观性试题——短文写作、翻译、口试等。

PETS共有五个级别,PETS-5是最高级。通过该级考试的考生,其英语水平基本满足在国外攻读非英语专业硕士研究生或从事学术研究工作或在国外从事专业和管理工作的需要。试题由笔试试卷和口试试卷组成。笔试试卷(140分钟)分四部分:听力、英语知识运用、阅读理解和写作。口试试卷(15分钟)分三节考查考生的口语交际能力。本文中采用教育部考试中心2006年发行的全国英语等级第五级考试大纲中的样题为目标试题进行研究。

(二)试题联系评估等级量表(Item Linking Rating Form)

美国教育考试服务中心2004年的研究报证明了通过试题联系评估等级量表(Item Linking Rating Form)用来收集基于内容的证据,进行有效的语言水平考试效度研究的可行性。该量表把语言能力按其表现形式分为若干微技能,主要采用专家评价方法,对试卷题目和各个微技能之间的相关性作出判断,从而确定试题在内容方面对英语语言水平测试的效度,是本文采用的主要工具。

(三)实施过程

专家评判是收集基于内容的效度证据的主要方法之一,来自北京师范大学和北京外国语大学的36名外国语言学及应用语言学专业硕士研究生应邀对目标试题进行了评价。所有参与人员都有十年以上英语学习和两年以上英语教学经验,熟悉英语测试领域的相关理论知识。中国著名英语测试学专家邹申认为,“专家”并不是学衔意义上的专家,而是“有较丰富的相关领域的知识或经验的专业工作者”[9]。本研究参与评判人员符合此要求,他们的评判是可靠的。本次共发出量表36套,收回36套,其中用于数据分析的有效量表30套。

四、数据分析

把有效量表的数据输入SPSS11.0可以得到每个试题和某一语言技能中所描述的微技能的相关系数的评判平均数,该平均数反映试题和这种语言技能或微技能的相关程度。下表中黑体部分平均数等于或大于1.50(≥1.50),代表的相关程度为基本相关。相关程度平均数反映该目标试卷的测试理论根据,即该试题测试了什么样的语言知识和技能。单元格中所标注的就是考生可以通过该目标测试所展示出来的语言水平知识和技能。

表中每行显示了目标试卷中某个试题所测试的语言技能的数量,每列显示的是成功测试某项技能的试题的数量,整个表格反映了目标试卷中各个试题和欲测技能之间的相关关系。

(注:表中黑体部分≥1.50)

从表一中可以看出,所有的听力试题至少与2项语言技能相关;10项听力技能中有7项至少和一个测试试题相关。其中第一项(理解事实性信息和细节)和第六项(理解主要观点和支持性信息)在所有的听力试题中得到体现。

听力没有测试到的语言技能有:第二项(理解说话人口头指示的任务及其期限);第九项(理解语言各交际功能之间的差异,如提议、建议、指点或警告等)和第十项(识别说话者的态度信号,如语调、幽默和讽刺等)。

(注:表中黑体部分≥1.50)

从表二中可以看出,所有的阅读试题至少与1项语言技能相关;11项阅读技能中有8项至少和一个测试试题相关。其中第一项(通过跳读或略读的方式,找出并理解文章中明确陈述的信息)在所有的阅读试题中得到体现。

阅读部分未能体现的阅读技能包括;第二项(找出并理解表格、图表等非叙述性材料中的信息);第三项(根据上下文确定单词的意思);第五项(阅读并理解和课堂练习或考试有关的书面指令)。

表三表明PETS-5的写作部分可以充分测试所有相关写作技能。

从表四中可以看出,口语部分测试了全部9项相关语言技能,其中第二项(评价性常规口语表达)、第四项(意义协商:使用话语加工策略评价交际的有效性,并根据实际情况做出必要的调整)和第六项(话语轮交替:理解每个说话人应该什么时候说,说多长时间)分别在两项口语任务中体现,而另外6项技能则在所有口语任务中均得到了很好的体现。

六、讨论

综上所述,全国英语等级考试第五级的听力和阅读部分每个试题都测试了某一项听力技能,但从整体上来看,阅读和听力试题不能涵盖所有的相关语言技能。而写作部分和口语部分的试题则几乎测试并涵盖了所有的相关技能。也就是说,从考试内容看,PETS-5的听力和阅读部分的试题不能够成功测试出所有的听力和阅读能力,试题的代表性也不够充分;而写作和口语部分的试题则能够反映考生应有的写作和口语水平。

另外,试卷中的第二部分是英语知识运用,其目的在于“不仅考查考生对连贯性和一致性等语段特征的辨识能力,还考查考生对用于一定语境中规范的语言成分的掌握,这些规范的语言成分主要是词汇和语法结构”。这一部分内容特殊,属于语言知识的考查,是构成语言实际运用能力的基础,不适合用上述工具进行分析评判。笔者曾就此问题请教于教育部考试中心PETS考试体系的设计者和相关专家,鉴于英语在中国作为外语学习(EFL)的社会环境和中国特有的学习文化,笔者认为对此问题的讨论当另作研究。

本文是对语言水平测试效度研究的一个初步尝试,在整个试验过程中还存在着很多这样那样的问题。期待着在以后的研究中能够不断改进,促进测试研究的科学化和规范化。

参考文献:

[1]AERA,APA,& NCME.Standards for Educational and Psychological Testing[M].Washington,DC:AERA,1999:9.

[2]Rosenfeld,M.,Oltman,P.K. & Sheppard,K.Investigating the validity of TOEFL:A feasibility study using content and criterion-related strategies[J/OL].2008.08.10.http://www.ets.org/Media/Research/pdf/RM-04-03.pdf.

[3]教育部考试中心.PETS-5考试大纲[M].北京:高等教育出版社,2006.

[4]孙晓敏,张厚粲.效度概念演进及其新发展[J].心理科学,2000,(1):234-235.

[5]Lado,R.Language Testing[M].New York:McGraw-Hill,1961:321.

[6]Messick,S.Validity[A].In R.L.Linn(ed.).Educational Measurement(3rd edition)[C].New York:Macmillan,1989:13.

[7]Canale,M.& Swain,M.Theoretical bases of communicative approaches to second language teaching and testing[J].Applied Linguistics,1980,(1):1-47.

[8]Bachman,L.F.Fundamental Considerations in Language Testing[M].Oxford:Oxford University Press,1990:683-686.

[9]邹申.语言测试[M].上海:上海外语教育出版社,2005:196.

猜你喜欢
构念英语水平效度
自我构念在认知和情绪加工中的作用及其生理机制
慈善募捐规制中的国家与社会:兼论《慈善法》的效度和限度
英语深读教学读思言模型构念与实践研究
句子教学——提高学生英语水平的奠基石
通道形式与英语水平对大学生英语听力成绩的影响
中国大学英语考试能力构念三十年之嬗变
被看重感指数在中国大学生中的构念效度
外语形成性评估的效度验证框架
英语水平
复杂图形测验对区分阿尔茨海默病与非痴呆的诊断效度