(浙江工业大学 外国语学院,浙江 杭州 310023)
长期以来,语言测试工作者研究的核心是如何提高测试的信度与效度,以客观、精确地测量考生的语言能力。二十世纪七十年代中期,国际语言教学界兴起了一场轰轰烈烈的交际语言教学运动,学界提出了“语言交际能力”(communicative competence)和“交际语言能力”(communicative language ability)培养的新理念。受其影响,以做事测试(performance test)为主的交际语言测试(communicative language testing)逐渐推行。同时,随着批判语言测试(Critical Language Testing)的兴起,测试的社会维度日益受到关注,语言水平的构念也随之发生了变化。研究的范式开始从单一的心理测量实证研究扩展到更广泛的定量与定性相结合的综合研究,对于信度和效度的理解也上升到了新的高度。Messick(1989)在统一效度理论模式中引入了测试的社会性概念,提出:(1)测试设计者语言能力的构念以及在实施测量过程中的某些方面的侧重会反映其社会文化价值;(2)考试在特定的社会环境中发生并对结果使用的教育和社会环境产生影响[1]。继Messick后,Bachman(1990)基于Canale and Swain(1980)[注]①Canale ,Swain对“交际语言能力”的研究资料参见:Canale ,M. and Swain,M. Theoretical bases of communicative approaches to second language teaching and testing[J].Applied Linguistics, 1980,(1):1-47.、Canale(1983)[注]②Canale对“交际语言能力”的研究资料参见:Canale,M. From communicative competence to communicative panguage pedagogy[A]. J.C.Richards & R.W. Schmidt.Language and communication[C].London: Longman Press,1983.2-27.以及Hymes(1972)[注]③Hymes对“交际语言能力”的研究资料参见:Hymes,D.H. On Communicative Competence[A]. J.B.Pride & J.Holmes.Sociolingistics. armondsworth[C].UK:Penguin Press, 1972.269-293.对“交际语言能力”的阐述,构建了二语语言交际能力模式,将“社会语言适切性”(sociolinguistic appropriateness)纳入二语交际语言能力的一个组成部分[2]。2006年,McNamara和Roever全面系统地从语言测试理论和实践论述述语言测试的社会性,具体阐述了测试公平性、分数的使用以及语言测试在社会中的用途等,以口语能力测试和语用能力测试为例讨论了语言能力的社会维度及其测量,强调语言能力包括语用能力,语言在交际中的使用受情景因素影响, 进一步明确定了语言能力社会维度的定义和范畴[3]。McNamara和Roever的著作问世将语言测试的社会维度研究推向了高潮。
从此,做事测试社会维度的研究成为了热点。
口语测试为做事测试的一种,形式多样,主要为半直接(考生根据要求录音、考官根据录音评分)、直接(面试)两种。目前最常见的是面试:一名考官面对一名考生的一对一形式、两名考官面对两名考生的配对形式(paired format)或两名考官面对两名以上考生的小组形式(group format)。配对(组)口语测试中两名考官承担不同的任务:一名考官按照考试要求向考生提问、引导考生完成考试任务并对照口试评分量表对考生的各项口语能力进行评估,另一名考官不参与提问,主要任务是充当评分员,对照口试评分量表评估考生的各项口语能力。国际知名的大型英语水平测试中雅思(IELTS)口语测试采用一对一形式,剑桥第一证书(FCE) 采用配对形式,我国的大学英语四、六级口试(CET-SET)采用的是配对延伸形式。近年来,受二语习得理论发展以及课堂教学实践理论影响,配对(组)口试作为测试语言交际能力的最直接形式越来越被广泛采用。
社会学家Goffman (1964)认为面对面的口头交际具有鲜明的社会性,它遵循一定的规律、有内在的社会文化法则,规律和法则通过语言作为载体来体现[4]。面对面互动中交际双方通过共同承担责任、协同构建交际秩序、完成交际任务。由此,互动交际中的话语及其产生的效应并非预先设定、更不是某一方单独的贡献。互动中意义的构建并非仅仅取决于对话者的努力,听者的配合和贡献同等重要。配对(组)口语测试属互动交际范畴,是考官和考生、考生和考生之间面对面互动的一种测试形式,融入了非考试状态下对话交际的元素,被认为是考生展示真实交际事件中的不同交际能力的考试[5]。毫无疑问,配对(组)口语测试具有双向互动(interaction)的特性。因此,考试过程中主体的互动具有社会/行为学的意义即个体之间的共同行为构成共同表现的基础[6]。考官与考生、考生与考生之间的各方面表现相互影响,期间有诸多因素对考生的行为和表现起作用。换句话说,这种特定情景下的口试具有较强的社会性,考生不再是一个个孤立的个体,考试过程中的交际参与者已构成了“一个社会的世界”,被试所得的考试分数并非就是其个人语言能力的反映,而是交际互动者共同构建的语言能力反映。对这类考试成绩的解释显然就是对一种社会行动的解释。已有研究表明,考生的性别、性格、母语背景、考生之间的熟悉程度、对话者语言水平等均为影响因素。
口语测试的目的主要是测试考生运用某种语言进行口头交际的能力。鉴于面对面的口头交际带有的鲜明社会属性和配对口试的社会性,传统的以语法、词汇等语言使用准确性为主的语言水平构念已无法全面反映个体语言交际的真实能力。同样,基于传统语言水平构念的评分标准难以体现考生成功从事口语交际的水平。配对(组)口语测试中考生的语言水平构念必须包括语用能力和社会语言文化能力。为提高考试的信度和效度,保证分数的诠释性,语言测试工作者必须重视将考试作为一种社会行动研究,运用微观分析方法,深入分析“互动交际”的本质,从不同的但又互补的视角诠释考生最后所得分数的意义[6],从而完善考试设计的构念、为教学提供正面的反拨。
传统的语言测试效度研究侧重考试结果的分析,主要范式是基于心理测量的实证研究。研究者通常运用先进的统计学方法如多层面Rasch模型、概化理论、结构方程模型等来研究语言测试的信度和效度。20世纪后半叶,受二语习得研究交际能力培养的转向的影响,语言能力的构念开始变化,交际语言测试开始兴起。随后,受批判语言学和社会语言学影响,批判语言测试研究推行。语言测试学领域开始关注测试过程的研究,测试社会维度研究得到重视。因受后现代主义批判理论研究范式的影响,语言测试研究方法开始转变,定性研究方法或定量与定性结合的混合方法逐渐被采用。
配对口试过程研究主要采用社会学的定性研究方法——会话分析。会话分析源于民族方法学,它既是民族方法学的继承又是对民族方法论在专业方向的拓展和延伸,是一种精致地、经验性地、形式化地描述社会行为之细节的自然的观察学科[7]。会话分析学反对通过假想的例证研究人们言语行为的规则,反对社会学常用的访谈、问卷调查、人种志法等研究,批评心理学领域理论先导的试验方法。会话分析学追求建立自然、可观察的社会(科)学,认为社会科学的对象应该是可观察的行为。会话分析的研究目的是明确说明交际者创造社会有序性的方式和方法。Heritage (1984)认为Sacks的会话分析研究基于以下三个假设[8]:(1)人们的日常交际会话是有组织的,并非杂乱无章、无章可循。(2)交际行为是以语境为导向的。一方面语境制约人们的交际行为,话语是顺应语境的产物;另一方面,任何话语都能构建、影响和制约语境。(3)以上两个特点存在于交际的细节中,研究者在分析话语时不能放弃任何细节。话语并不仅适用于日常会话研究,它对于交往中的谈话(talk-in-interaction)序列组织的关注也适用于日常会话之外的其他交际方式或语体[7]。
CET-SET为配对(组)口语测试,以面对面的口语交际形式呈现。尽管因众多因素如考试的高风险、考试环境等的交互作用,这种交际形式不能完全等同于自然会话,但仍然在Goffman(1983)所谓的交际秩序(interaction order)下进行。因此这种交际秩序具有分析性,“其可取的分析方法便是微观分析”[9]。应用语言学界的知名学者已通过研究发现会话分析对于检验测试效度的必要性和重要性: Shohamy 认为会话分析应是研究口语测试中互动本质的工具[10],Fulcher通过实践证明口试的构念效度可以通过话语分析来验证[11]。van Lier 在研究中发现口语交际过程错综复杂,要考察语言学习者的口语交际表现必须从对话交际研究的过程着手,用微观分析的方法探索口语互动过程中产生的话语本质[12]。Lazaraton在博士论文中率先运用会话分析开展口试效度研究,获得了丰富的定量分析无法检测到的效度证据[13]。近十年来,除信度仍主要采用先进的统计学方法研究外,配对(组)口试效度相关研究转向以定性和定量相结合或以定性方法开展,话语分析成为收集效度证据的有效方法。借鉴民族方法学的社会学研究方法,研究者首先将考试过程完整地录音录像,依据国际学术界公认的转写系统将口试参与者(考官、考生等)的会话完整地转写成文字,通过逐轮的(turn-by-turn)会话分析,探索会话互动中影响话语产出和口试成绩的因素。十余年的研究表明,会话分析测试过程效果良好、启发深刻。通过会话分析,我们才有可能辨析交际者(尤指考生)通过语言运用(performance)展示自己的语言能力(competence)、剖析交际者之间受互动情景影响共建语言能力的过程。分析所得到的大量信息和证据弥补心理测量的缺陷,是可信的效度检验方法[14]。
口语测试反映的是考生和考官共同构建的语言能力(joint construction of performance),这一特点对于口语测试效度极具挑战性。而研究测试环境下的交互交际社会特征对口语测试效度不失为一个有力的理论支撑。由多个直接参与者的口试交互交际看似微观但蕴藏着多个宏观社会学相关范畴的问题。最近十几年中,国内外学者已开展了针对配对口试的效度研究(Davis[注]①Davis,L. The influence of partner proficiency in a paired oral assessment[D]. St Paul: America University of Minnesota,2007.28.,2007;Davis[注]②Davis, L. The influence of interlocutor proficiency in a paired oral assessment[J]. Language Testing,2009,(26):367-396.,2009;Lazaraton[注]③④⑤Lazaraton,A. A qualitative approach to monitoring examiner conduct in CASE[M]. Cmabridge: Cambridge University Press,1996.18-33. Lazaraton, A. Interlocutor support in oral proficiency interviews: The case of CASE[J]. Language Testing, 1996,(13):151-172.Lazaraton,A. A qualitative approach to the validation of oral language tests[M].Cambridge: Cambridge University Press,2002.1-6.,2008)。 主要的效度研究尤其是关于考试社会性相关的效度研究有如下几个方面:
1.构念效度研究。构念效度指的是测试中的表现与基于能力或构念理论所作出的预测之间的一致性(Bachman, 1990)。研究构念效度主要是验证测试能够测量到理论上的构想或特质的程度。因口语测试的特性,国内外大规模口语测试包括配对(组)口语测试、口语面试等在考试设计构念中都会包含语用能力和社会语言文化能力等要素,但迄今为止仅有少数相关的实证研究构念在任务和考生考试表现中的实现情况。换言之,任务(即测试的题型、每个题型下的题目、考试设计的活动等)是否能使考生展示构念预设的能力、考试过程中考生的表现是否与考试设计者的意图吻合缺乏研究。就配对口测试而言,国内外共有两个典型的构念效度实证研究。He & Dai(2006)基于17 万字的大学英语四、六级口语测试语料库,运用定量和定性相(会话分析)结合方法分析小组讨论活动中考生运用交互语言功能的情况。通过对48个小组讨论的分析,发现考生之间交互性较低, 考试大纲中列出的诸如支持或挑战对方观点、修改、劝说、继续交谈、意义协商等交互语言功能运用频率低,有的甚至为0。该研究表明了大学英语四、六级口语测试小组活动中交互语言功能构念的不充分代表性(construct underrepresentation)[15]。Galaczi(2013)针对剑桥口语测试中的考生间互动交际任务部分进行了研究[16]。她主要通过定量和定性(会话分析)混合方法研究不同英语水平考生在剑桥英语配对口试中表现的互动交际能力(interactional competence),发现实际考试中考生表现出的互动交际能力超过评分标准中描述的范畴,证明已有评分标准互动交际能力描述不够充分。Galaczi提出:互动交际能力是个广义的概念,它包括话轮内部和话轮之间的主题发展(topic development),比如发起主题、回应等,也包括话轮转换策略和积极聆听(active listening) 。 Galaczi的研究结论是:无论在课堂教学中还是在考试设计中,我们对互动交际能力的理解不能仅限于一些互动交际特征层面,还应将会话聆听者的支持策略(listener support strategies)、话轮转换策略等等纳入互动交际能力范畴 。
2.对话者效应研究。“对话者效应”是口语测试的研究焦点之一。因配对(组)口试中考官参与互动的频率极低,对话者效应研究主要围绕考生进行。在互动交际责任共同承担 、意义共同构建的配对(组)口语测试中,对话者(即配对考生)的语言水平、互动交际能力、性别、年龄、性格等都是影响考生表现的因素。考生间的交互具有双向互动特性(McNamara,1997),考试使用者较难从考分中推断个体考生的口语水平,考试分数其实是交互者共同构建的结果。同辈考生交互效应随之成为研究该口试效度的焦点。
不同背景和身份的考生配对或配组共同完成口语测试任务时,其口语水平表现方式、方法和程度会相互影响[14],已有会话分析研究发现:不同语言水平考生配对后,水平高的考生控制整个交互过程而水平低的几乎无法平等地进行交际[17];配对考生之间的熟悉度影响考生句子结构、词汇的使用与选择[18],当考生与朋友配对时,语言精确度、所得的分数明显高于其与陌生人配对时[19]。剑桥第一证书口试录音(像)资料分析显示:配对考生之间互动交际采用的话语策略以及交互的总体模式与其口语考试“互动交际(IC)”部分的得分密切相关:对话双方自始至终非常配合的小组IC中位数分别为4.5/5和4.25/5;而对话双方缺乏交互、以各自陈述为主的小组获得的IC中位数较低,分别只有3. 45/5[20]。Berry(2004)研究考生外向程度对考试成绩的影响,协方差计算(ANCOVA)发现:外向(n=78)和内向性格的(n=85)受试与平均外向程度高的配组时口试分数较高,而内向型受试与平均外向度低的配组后口试分数比预期差(Ockey,2009)。 Ockey(2009)运用综合人格调查问卷和周密的配组方法,考察日本225名英语专业学生性格特征与口试分数的关系,发现:自信考生的口试分数受其组员的自信程度影响,而自卑考生口试分数与其组员自信程度无关[21]。楼荷英(2013)对大规模口语测试小组讨论活动中考生的表现进行了深入研究,发现在配组口试的环境下,考生的性格与其互动能力表现无关。此外,也有零星的研究表明考生的焦虑程度、学习背景等特点对考试表现有一定影响[22]。
为数不多的配对(组)口语测试对话者效应研究中最值得一提的是Lazaraton and Davis开展的研究[23]。他们认为考生通常将多种身份带入开始中,而这些身份随环境的变化而变化。研究中Lazaraton and Davis将社会学的身份理论、语言测试的社会性理论为主要理论框架,运用会话分析的微观视角, 研究分析剑桥ESOL’s FCE和PET配对(组)口语测试中考生定位其“语言水平身份”的过程、验证真实考试中考生的话语特征与最后得分的关系。Lazaraton and Davis从配对(组)口语测试的社会视角出发,将考生的语言水平确定为一种社会身份,通过转写口试录像材料、分析每组对话中考生的交互过程,考察考生所带入的身份在互动交际过程中是否变化、如何变化、考生是否“共同构建”语言水平等,最后对照考生已得的口试分数与会话分析发现的“拟合度”。该研究最后得出的结论是:考生的语言水平随着配对对象的语言水平及其在互动中的发挥和激活程度而动态变化。在配对(组)口语测试环境下,考生的语言水平身份通过配对互动交际展演、认同、重新构建,身份定位过程可以通过会话分析全面呈现,考生的会话特征(discourse features)与其所得的口试分数紧密相关。该项研究跨学科且视角新颖,其研究发现不仅填补语言测试社会维度研究方面的空白从而引起高度关注,而且会对拓宽今后语言测试界的研究思路产生显著作用,对促进应用语言学跨学科研究具有深刻的意义。
总体来说,关于配对(组)口语测试社会性的研究尚在起步阶段,已有研究多数具有样本小、缺乏代表性等特点,对同一问题的研究结果各异。基于大规模考试的样本分析缺乏,基于大规模考试样本且揭示交互过程中对话者(interlocutor)的行为与分数的关系的研究仅有两项,并且都是针对同一项考试——剑桥第一证书(FCE)进行[20][23]。在中国,类似研究仍为个位数。
配对(组)形式不仅在交际语言教学课堂中越来越受欢迎,而且正成为口语测试的主要形式之一。但该形式在国外口语测试中已使用二十多年,其效度研究尤其是实证性研究仅始于二十一世纪初,有许多效度相关的维度尚无研究报道。随着配对(组)口试形式越来越多地运用在国内外高风险测试中如雅思(IELTS)、剑桥口语证书考试、大学英语四、六级口试、公共英语等级考试(PETS),考试的效度势必会不断引起利益相关者(stakeholder)的高度关注。而对于此类考试,要尽量保证测试结果的诠释性、保证考试的效度,口试社会视角的研究必不可少。
随着语言测试研究领域范式的多元化和语言测试社会维度研究的进一步深入,研究者将完善建构主义研究范式——民族志研究( ethnographic studies) , 并将这种方法与基于后实证主义研究范式的定性研究相结合。今后,研究者不仅充当一个立场中立的外部观察者,而是更加贴近研究对象、以一个“局内人(insider)的身份开展研究。因此,会话分析将成为分析和揭示口语测试具体过程微观细节重要的、必不可少的工具和研究方法。通过精致的会话分析,语言测试研究者挖掘考生互动中的话语特征、获得实证主义研究难以提供的大量信息,用来检验评分的正确性和合理性、收集考生口语能力表现的特征,从而丰富验证测试效度的证据。
然而,如上文所述,配对(组)口语测试的社会视角研究仍然处于初始阶段,许多只是尝试性研究。为充分验证配对(组)口试的效度,完善其考试设计,以下几个方面将是今后研究的主要方向:(1)基于大样本、深入研究高风险、大规模考试中配对(组)口试的社会视角研究。研究的考试将不局限于国际性的英语水平考试,各国具有规模效应的口语测试都有可能作为研究对象,同时,样本将不再局限于英语作为外语的日本学生、在欧美留学的中国学生等,将扩大到参加各类考试的受试。我国的大学英语四、六级口语测试、公共英语等级考试因样本的规模、考生的英语学习背景、考生英语学习的环境等方面的特点都将是值得研究的对象。与此同时,研究也将延伸到除英语以外的其他语种口语测试中。(2)配对(组)口试相关的构念研究。口语能力的构成要素迄今为止众说纷纭。考试开发和设计时的构念差异直接影响评分量表描述,从而影响评分的客观性和公平性。目前,口语能力构念主要基于理论研究,研究表明真实考试过程中考生表现的口语能力与设计构念存在明显差异[15-16]。因此,有必要通过微观分析语料归纳考生的互动交际特征、影响交际的语境因素,通过大量真实考试语料分析收集口语能力构念证据弥补偏重理论研究形成构念的缺陷。(3)考生特质如性别、年龄、熟悉程度、性格、母语背景等方面对于考试表现及其最后成绩影响将继续成为研究的重点。现有研究数量少、规模小、结论迥异,不足以证明考生某个特质对考试过程中的表现的真实影响。在已有相关研究基础上,扩大研究规模、拓展研究领域,开展与心理学、社会学等学科的交叉研究将成为必然。
此外,受批判语言测试的进一步影响,口语测试与其他测试一样,将置于更加广阔的社会政治语境中,对测试后效(consequences)的反思不再局限于反拨效应(washback),而是重新审视测试中渗透的权力与控制,测试所具有的社会价值、政治功能等[24]。考试的测试后果、道德和公平性等社会问题也将成为研究的热点。
参考文献:
[1] Messick,S.Validity in Educational measurement[M].New York:American Council on Education & Mcmillan,1989 .13-103.
[2] Bachman,L. Fundamental considerations in language testing[M].Oxford:Oxford University Press,1990.81-107.
[3] McNamara,T.& Roever,C. Language testing: The social dimension[J].Language Learning,2006,(2):1-291.
[4] Goffman, E. The neglected situation[J]. American Anthropologist,1964,(66):133-136.
[5] Brown,A. Interviewer variation and the co-construction of speaking proficiency[J]. Language Testing,2003, (1):1-25.
[6] McNamara,T.F. “Interaction” in second language performance assessment: Whose performance?[J].Applied Linguistics,1997,(18):446-465.
[7] 于国栋.会话分析[M].上海:上海外语教育出版社,2008.4,30.
[8] Atkinson, J. M.& Heritage.Structures of social action:Studies in conversation analysis[M]. Cambridge: Cambridge University Press,1984.1-15.
[9] Goffman,E. The interaction order[J].American Sociological reviewing ,1983,(8):1-17.
[10] Shohamy,E. Discourse Analysis and Language Testing[J].Annual Review of Applied Linguistics,1991,(11):115-131.
[11] Fulcher, G.Test of oral performance: The need for data-based criteria[J]. EST Journal,1987,(41):287-291.
[12] van Lier, L. Reeling, Writhing, Drawling, Stretching, and Fainting in Coils:Oral Proficiency Interviews as Conversation[J]. TESOL Quarterly,1989,(23):489-508.
[13] Lazaraton, A. A conversation Analysis of Structure and Interaction in the Language Interview[D]. Los Angeles :University of California at Los Angeles,1991.65-90.
[14] McNamara, T. Discourse and assessment[J].Annual Review of Applied Linguistics,2002,(22): 22-43.
[15] He, L. & Dai, Y.A corpus-based investigation into the validity of the CET-SET group discussion[J]. Language Testing,2006,(3):370-401.
[16] Glaczi, E. Interactional competence across proficiency levels: How do learners manage interaction in paired speaking tests?[J]. Applied Linguistics,2013,(30):1-23.
[17] Iwashita,N. The validity of the paired interview format in oral performance assessment[J].Melbourne Papers of Language Testing,1998,(2):51-65.
[18] Norton, J.The paired format in the Cambridge speaking tests[J]. ELT Journal,2005,(59): 287-297.
[19] O’Sullivan,B. Learner acquaintanceship and oral proficiency test pair-task performance[J].Language Testing, 2002,(19):277-295.
[20] Galaczi,E. Peer-peer interaction in a speaking test: The case of the First Certificate in English examination[J]. Language Assessment Quarterly, 2008,(5):89-119.
[21] Ockey, G. The Effect of Group Members’ Personalities on a Test-taker’s L2 Group Oral Discussion Test Scores[J]. Language Testing ,2009, (2): 161-186.
[22] LOU He-ying. The relationship between test-takers’ personality and their interactional competence——A mixed approach[D]. Hangzhou:Thejiang University,2013.56.
[23] Lazaraton.A. & Davis.L. A Microanalytic Perspective on Discourse, Proficiency, and Identity in Paired Oral Assessment[J].Language assessment Quarterly,2008,(4):313-335.
[24] 何莲珍,吕洲洋.语言测试研究的新视角:批判语言测试[J].浙江大学学报(社会科学版),2013,(6):164-173.