高燕
(山西大学外国语学院,山西太原 030006)
口试类型对考生表现的影响
高燕
(山西大学外国语学院,山西太原 030006)
在Bachman的测试方法层面理论中,有很多因素会影响到考生最终的表现,而任务类型就是其中之一,因而也就构成了测试结果的一个误差来源。本次研究正是基于这个理念,试图研究任务这一因素对考生(区分男女)的口语表现,即对成绩造成的影响,并努力找出适合于考生的任务类型。本研究选取了某高校2006年研究生入学考试的英语口语测试中的三种任务为研究目标,对考生在这三个任务上的表现进行了定性和定量的研究。
测试方法层面理论;任务类型;口语表现
在语言测试中,如果某一因素影响测试结果达到一定程度,但却与被测能力不相干,那么它就成了一种造成测试误差的来源,而且应该被消除掉。因此语言测试的一个重要目标就是研究哪些因素特征会对受试者的表现造成较大的影响。本次研究把“任务”这一特征作为研究的对象,以Bachman的测试方法层面理论(Test Method Facets)为基础,探讨了2006年研究生入学考试的英语口语测试中的三种任务类型(口语问答、讨论和口头阐述)差异对考生表现产生的影响,并且分性别进行讨论。
根据Hymes(1967)、Chomsky(1965)、Canale andSwain(1980)等人关于语言能力的理论,以及Bachman提出的交际语言能力构成因素模式(Bachman,1990)和Bachman&Palmer的补充模式(Bachman and Palmer,1996:62),可以总结出影响口语真实成绩的三大要素。它们分别是:待测的语言能力与知识,测量这些能力与知识的方式方法和语言能力之外的个体特征。而对于语言测试研究者而言,一个非常具有可操作性的方面就是第二个层面,即测量这些能力与知识的方式方法,所以迄今有大量关于这方面的研究,包括Bachman(1990)的测试方法层面理论(TMF),Skehan(1998)的框架理论,此外还有Brown(1989)、Freedle and Kostin(1993)等等的理论。其中较为突出的要数Bachman的TMF理论。
具体来说,Bachman的TMF理论把语言测试方法分为五个方面,包括语言测试环境、测试说明、考生接收到的输入特征、考生基于输入所做出的输出特征以及输入与输出之间的关系。其中每个方面又包括了不同的内容。测试环境包括对地点、设备的熟悉情况、人员、测试时间和周围环境;测试说明包括测试结构、测试时间以及试题前关于做题程序、正误标准的说明;输入特征包括输入形式(输入模式、渠道、速度等)和语言特征(长度、命题内容、结构和语用特征);输出特征除了包括和输入一样的方面以外,还特有输出限制一项,指对考生所做的回答在渠道、形式、组织结构、命题和行为特征以及时间长短上的限制;输入与输出的关系包括交互的、非交互的和适应性的关系。
这一框架是Bachman集聚了Savard(1968)、Cohen(1980)等众多人的研究成果所提出的一个全面的并且全新的框架,它融合了关于现代语言特征最前沿的观点,他认为该框架可以用于描述现存语言测试,设计新的语言测试,对语言测试进行有效性检验及形成语言测试研究的新理论等四个方面。
之后Bachman和Palmer应用该理论时稍有发展,但两者基本一致。
本次研究选取了某高校2006年研究生入学英语口语测试中的三个任务,现在我们将对这三个任务予以分析。它们分别是口语问答、讨论和口头阐述。在口头问答中,考官将会用两分钟的时间询问考生一些关于考生本人的生活、工作或学习等简单问题,以期帮助考生放松,并开始习惯讲英语。接下来是一个四分钟的讨论,要求考生就所抽到的话题,阐述自己的观点,或与搭档争执,或取得一致意见,并最终能够下一个结论。这一部分考察两位考生的交际能力。最后一个任务是口头阐述,要求考生就一个话题做出为时四分钟的阐述,这主要考察考生的连续表达能力。
本次实验研究内容是某高校2006年研究生入学考试英语口语测试中的三个任务类型,分别是回答问题、讨论和口头阐述。针对这三个任务,作者抽取了一个考场中的任意30名考生的口语成绩进行了方差分析和相关性分析。由于考生进入各个考场是随机安排的,所以保证了30名考生对此次参加考试的所有考生具有代表性,另外30名考生的评分者始终保持不变,是两位有一定教学经验的女性,并且她们在考试之前接受了统一的评分培训。
之后,作者进行了定性研究,即:从该考场的30名考生中又分别抽取6名男生和6名女生,采用回顾式访谈的形式询问考生对考试中三个任务的看法。而且,此次访谈所得数据要和参加考试的部分考生所答的问卷得到的数据进行三角论证(Lynch,1996)。每次访谈持续10分钟左右。得到数据之后,作者将对它进行重组、编码、精炼和转译,试图用该研究得到的数据来解释定量研究得到的结果。
参与定量研究的考生共有30名,其中男13名,女17名。将其口语成绩输入SPSS软件,可得出如下的统计结果(每一项任务满分为5分):
表1 描述性统计结果(应变量:分数)
表2 方差分析结果
a R Squared=.175(Adjusted R Squared=.125)
b.Computed using alpha=.05
c.Dependent Variable:score
图1 男女考生成绩线性图
该结果显示:第一,考生在完成回答问题、讨论和口头作文这三项任务中,性别差异不显著(Sig.>. 005)。尽管女生成绩总体要比男生好(见图1,细线为女生成绩线,粗线为男生成绩线),但是他们在各个任务上的差异基本一致。即,不存在某一项任务适合女生而不适合男生或反之的情况。但是这一结果一定要在样本选取数量大于30以上,即大样本的情况下才成立。其次,任务差异对考生成绩的影响是显著的(Sig.=.003),而且可以看出在这项试验中,任务差异的影响是产生考生成绩差异的最大因素(Eta2 task=.131>Eta2 gender=.043>Eta2 gender*task=.006)。具体来看,图1中显示任务1与任务2和任务3的差异较大,而任务2与3的差异较小;在任务1与2之间,细线条斜率略大于粗线条,即任务1与2的差异对女生造成的影响略大于男生,而同理任务2与3之间,细线条斜率略小于粗线条,即任务2与3的差异对女生的影响略小于男生,但这种差异总体来讲是不显著的,也就是说当样本足够大时,两线条是近似平行的。
此外,该试验的相关性分析还显示:任务1与2之间的相关性很高,在99%的水平上达到了.952,但任务1与3,任务2与3之间几乎没有什么相关性,分别是.123和.273。因此可得出结论:总的来讲,回答问题任务完成得好的考生也能在讨论任务中取得较好的成绩。
此后,笔者作了定性研究,通过回顾式访谈得到了5名男生和5名女生的有效陈述,并将其转写、归纳和整理,结果发现考生的陈述主要集中在对任务的喜好程度、熟悉程度和难易程度等三个因素上(见表3)。
表3 三个任务在容易程度、受欢迎程度、熟悉程度方面的统计结果
此定性研究结果可归结为:任务1,回答问题是最简单也是最熟悉的任务,而任务2,讨论是最陌生的,但也是最受欢迎的一个任务,任务3,口头阐述可以说是这三个任务当中既难也不受欢迎同时也不熟悉的一种任务类型。笔者认为正是由于这三个任务具有了这些特征,才使得考生在这三个任务上的得分有了较大的差异,即,在任务1上得分最高,次之任务2,最后任务3。但是并不能就此决定任务1或2是最好的,或最适合考生的任务,因为我们并不能权衡出这些任务的三个因素中哪一个是最重要的,也很难找一个平衡点,此外其他试验中很可能还有很多其他的因素起着作用。
关于造成这三个任务在这三个因素上差异的原因,正是本文在第二部分提到的Bachman的TMF理论对三个任务特征的分析所得出的结果。该分析发现这三个任务的特征大体趋于一致(包括背景,测试时间,输入的渠道、形式、语言、长度、语言的特征,输出的渠道、形式、语言、速度,输出语言的语法特征等),但也存在一些差异,具体来说包括:与第一个任务相比,第二个任务要求两人参与;从
输入来看,话题较为新颖;在输出的回答上,要求考生根据自己的观点就所选的话题做出4分钟的扩展性的回答,长度略有增加,语言成了连贯的对话,因此它的语用特征也就不仅仅包括传意和启发,而且具有想象性的交流似的特点;此外,输入与输出的关系范围也较广,言语较为间接,因为考生的回答还包含输入以外的大量信息(Bachman&Palmer,1996:56)。而第三个任务,口头阐述,除了具有上述差异外,参与者又变成了一个人,因而在语用功能上没有交流,但输出仍旧是扩展的连贯的言语,并且输入与输出的关系是非交互性的(Bachman& Palmer,1996:57)。作者认为,就该试验而言,正是这些任务的特征差异造成了考生成绩上的差异。
经过定性和定量分析之后,我们已对这三个任务有了全面的了解。回答问题是这三个任务中最容易最熟悉的但同时也是最不受欢迎的任务类型。原因涉及到考题的输入形式固定、话题单调,要求考生作出的输出长度较短、内容受限、缺乏连贯、语用特征贫乏等特征,并且输入与输出的关系虽是交互的,但范围狭窄,几乎没有发挥的余地。而讨论任务则不同,它在难易程度和熟悉程度上都是居中,但却是最受欢迎的一个类型。这是因为,首先它要求两个考生同时参与,这就增加了形式的新颖性,由于是抽取话题进行讨论,因此输入的形式多样,话题不可预测,同时输出长度增加,内容扩展,连贯,言之有物,话语中可以含有多种语用特征,而且输入不再对输出有严格的限制。这些特征符合了考生年轻、喜欢新颖的事物,容易扩展性思维等特点,因而大受欢迎。第三个口头阐述任务被认为是最不熟悉也是难度最大的类型。它与讨论任务的特征基本相近,但是在语言特征的功能上缺乏交际性,输入与输出的关系是非交互的,也就是说,考察了考生单独的、连续四分钟的表达能力。这无疑增加了考题的难度,因此它的受欢迎程度居中。
正是由于上述这些特征,考生在这三个任务上的得分如下:回答问题任务得分最高,并且与其他两个任务得分差异较大;讨论和口头阐述任务得分较低,但相差不多;讨论任务得分略高于口头阐述任务。
至此,我们可以得出如下的结论:一方面,任务类型差异确实是影响考生口语表现的一个因素。具体来说,本次实验中这三个任务的差异导致了考生最后得分的差异,并且是造成分数差异的最大因素。另一方面,这些任务并没有性别倾向,即,不同性别的考生在这三个任务上的差异基本一致。至于差异的原因,本文将它归纳为上述的受欢迎程度、容易程度、熟悉程度以及各自任务的特征,但是不能就此认为其中的某一个是最适合考生的任务类型,因为我们很难平衡这三个因素,只能根据具体的考试来决定采用哪一个任务。此外还有一些其他的因素会对任务的选取产生影响。
随着基于任务的语言测试(TBLA)逐渐成为热点,本研究也试图对任务的具体特征研究做出一点贡献,希望能对口语测试和教学的研究提供借鉴。
[1]Hymes,D.H..Models of the Interaction of Language and Social Setting[J].Journal of Social Issues,1967,23,(2):8-38.
[2]Chomsky,N.Aspects of the Theory of Syntax[M].Can,Mass.:MIT Press,1965.
[3]Canale,M,Swain,M.Theoretical Bases of Communicative Approaches to Second Language Teaching and Testing[J]. Applied Linguistics,1980(l):1-47.
[4]Bachman,L.F,Palmer,A.Language testing in practice[M]. Oxford and New York:Oxford University Press,1996.
[5]Skehan,P.A cognitive approach to language learning[M]. Oxford:Oxford University Press,1998.
[6]Brown,J.D.Cloze item difficulty[J].JALT Journal,1989(11):46-67.
[7]Freedle,R,Kostin,I.The prediction of TOEFL reading item difficulty,implications for construct validity[J].Language Testing,1993(10):133-170.
[8]Savard,J-G.A proposed system for classifying language tests.In Upshur and Fata(eds.),Problems in Foreign Language testing[J].Language Learning Special Issues,Ann Arbor,Mich:Research Club in Language learning,1968(3):67-174.
[9]Cohen,A.D.Testing Language Ability in the Classroom[M]. Rowley,Mass:Newbury House,1980.
[10]Lynch,B.K.language program evaluation;theory and practice[M].Cambridge:Cambridge University Press,1996.
[11]韩宝成.语言测试的新进展:基于任务的语言测试[J].外语教学与研究,2003(5):352-358.
(编辑 杨乐中)
H319.9
A
1673-1808(2015)06-0114-04
2015-09-23
高燕(1979-),女,山西榆次人,山西大学外国语学院,讲师,硕士,研究方向:英语语言测试。