近二十年汉语口语测试研究综述

2022-12-29 09:50:53马赟鹤

青海师范大学学报(社会科学版) 2022年1期

马赟鹤

(北京外国语大学中国语言文学学院，北京 100089)

一、引言

语言测试是通过评价被试行为抽样而推测其语言能力的过程，与人们对语言的认识与语言教学密不可分，其演变过程反映了人们对语言能力认识的变化。Spolsky(1995)将语言测试分为三个主要发展阶段：前科学测试阶段(pre-science testing)、心理测量—结构主义测试阶段(psychometric-structuralist testing)、心理语言学-社会语言学测试阶段(psycholinguistic-sociolinguistic testing)，体现了语言观从“知识说”到“技能说”、再到“交际能力说”的转变。20世纪末，随着任务型教学法的发展，基于任务的语言测试也随之兴起，从关注语言能力到关注语言使用能力的转变促成了测试的转向。

作为语言能力最直接的外化表现，口语能力测评的重要程度不言而喻，但却被认为很难以一个高信效度的方式度量，原因在于口语的本质是动态的、嵌入语境的，同时以不同的形式(独白、双人对话、多人讨论)存在于不同情景中。测试特征、对话者特点、评分方式等相关因素会影响考生表现，进而影响考生的分数。随着汉语作为第二语言教学的兴起，汉语口语能力的评价亟需一系列基于不同使用目的和需求的、高信效度的测试体系。我们统计了近20年来发表在期刊上的汉语口语测试相关研究，从口语能力界定、测试信效度、测试评分等不同方面对其进行整理与综述。

二、理论基础

开发和使用语言测试的最基本要求就是对语言能力有清晰明确的界定，不科学的语言能力观将会对测试效度产生不良影响(Bachman，1990；David，1989)。就语言测试研发来说，对语言能力的认识与界定是其根本。Hymes(1972)将社会文化因素融入对语言能力的认识，提出了面向语言使用的“交际能力(communicative competence)”，主要包括语言能力(language competence)与社会语言能力(sociolinguistic competence)。这一观点虽然存在定义不清、没有对应理论框架模型的缺点(陈宏，1996)，但却为后来的交际语言能力理论发展奠定了基础。Canale & Swain(1980)用语法能力(grammatical competence)精确了Hymes(1972)中提到的语言能力(linguistic competence)，并将语篇能力(discourse competence)纳入了理论范围，但仍存在体系内部松散、四种能力交互关系不明所带来的可操作性弱的缺憾(韩宝成，2000)。Bachman(1990)在吸收前人理论的基础上提出了由语言能力(language competence)、策略能力(strategic competence)和心理生理机制(psychophysiological mechanism)三部分组成的交际语言能力(communicative language ability)，CLA模型。其中语言能力包含篇章知识和语用知识；策略能力是一种心理能力(mental capacity)，通过运用语言知识与现实世界相勾连；而生理心理机制则是交际时所涉及到的神经和心理过程。三者之间分工合作、连接紧密，把涉及到交际过程的各种因素都融入其中，是“语言测试史上的里程碑”(Skehan，1992)。

从测试方法来看，直接口试和半直接口试是使用较为频繁的形式，二者各有所长。雅思口语考试和OPI(Oral Proficiency Interview)都是经典的直接口试，评分标准和水平等级非常完备。HSK口试则是典型的半直接口试，考生只会接触到测试指导、讲话提示等刺激，不会直面考官。直接口试更适用于分级考试或课程测验，可模拟更真实的交际情境，但存在可行性差、评分信度不高的缺点；而半直接口试虽然更适合大规模标准化测试，但是却牺牲了部分交际真实性(Stansfield，1991；柴省三，2003)。

三、相关实证研究

(一)口语能力

当人们认为语言运用成为语言学习的最终目的，交际语言能力就成为核心部分(Hymes，1970，1972)。根据Bachman提出的交际语言能力框架(CLA)，语言能力、策略能力和生理心理机制都应该是口语能力的组成部分。CLA的能力分项不同于结构主义思想下的能力分项(如考察口语能力划分为声调、发音、流利度)等，前者是认为语言的本质是交际工具，而后者则认为语言是一套符号系统。这种能力分项的改变体现了对语言认识的不断深入。

刘颂浩等(2002)通过对比汉语学习者与汉语母语者在图片描述任务中的信息点覆盖数量和语言表达形式来推测交际策略的使用和语言水平之间的关系，发现学习者语言水平越低，就越倾向于采用减缩策略，而水平越高，就越倾向于采用成就策略；从语言形式上看，水平越高的学生越倾向于采用复杂的语言形式。但作者认为这些差别不足以作为划分口语水平的方式，原因在于区分程度不够，没有统一简明的标准。

汉语口语能力测试的发展正在经历着语言能力认识的转变。王佶旻(2002)在探讨客观化评分效度时使用了发音、语法、流利性分项评分和总体评分两种模式。在结论部分，她探讨了将口语水平定义为发音、语法、流利性三个维度是否科学的问题，她意识到这是关于“语言能力究竟是单维的还是多维的”的问题，关键在于分项评分的基础是仍旧是结构主义思想，而总体评分更倾向于将语言当作一个整体，不可划分。

在后续研究中，王佶旻(2008)重新思考口语能力的本质，将口语能力定义为“在口头渠道运用语言的能力”，并构建出了以“听-说模式的口语表达能力”和“独白模式的口语表达能力”为子模式的口语能力测验的理论模式，短语、句子、语段成为表达的三种形式，两种子模式与三种形式相互作用。作者对275名初级汉语学习者进行半直接式口语测试，“听-说模式”渠道通过快速问答和图片比较进行验证，形式以短语、句子为主，“独白模式”渠道通过听后重复和看图说话模式进行验证，形式以句子、语段为主。经过探索性因素分析和验证性因素分析发现实验数据与理论模型拟合程度良好(NFI、CFI、NNFI、GFI、AGFI均大于0.9)。通过与Rivers和Temperley(1978)、Littlewood(1981)、Bygate(1987)所提出的三种语言能力模型进行对比，发现区分双向互动与单项表达共存是其共同之处，这与作者所提出的“听—说模式”与“独白模式”不谋而合。这种双向模式的建立体现出了作者逐步摆脱了结构主义思想的限制，但仍未针对语言的交际属性提出相应的能力模式。

随着任务型教学法在对外汉语教学实践中的广泛应用，王佶旻(2013)从区分情境模式、语言表现和交际策略三个方面入手描写学习者的口语能力，尝试建立与欧洲语言共同参考框架(CEFR)相匹配的语言能力框架，并以中级口语能力量表为例展示了构建过程。这个量表展现出了任务型测试的特征，采用的描述语更注重对“能做(can do)”的表述，展现出了语言能力观的发展。

邹鹏(2016)分析了OPI口语能力评价量表，发现其对于语言能力等级评估标准包括“总体任务与功能”“语境及内容”“准确性”和“语言类型”多个方面。面对当前汉语口语教学仍旧停留在“语音”“词汇”“语法”层面的情况，作者指出引入新的能力评估标准将对口语教学产生正面的反拨作用。他将OPI测试流程与口语课堂教学过程对应起来，强调通过教师的角色转换刺激学生的语言输出，同时培养交际能力，提供符合语言使用情景的反馈。

对于语言能力的认识会影响语言教学与语言测试。从语言学习的最终目的来看，重视交际语言能力的培养才是最有效的方式。学界对于口语能力的认识正在朝着正确的方向转变，在教学实践和测试构念中皆有所体现。《新汉语水平考试大纲HSK口试》中就指出“新HSK是一项国际汉语能力标准化考试，重点考察汉语非第一语言的考生在生活、学习和工作中运用汉语进行交际的能力”。

(二)测试任务

任务型测试是因任务型教学法测量学生完成目标能力的需求而兴起的，它更强调测试方式及评价标准的真实性，以确保学习者能够使用语言而非仅仅知道一些规则和词汇。语言测试对决策起到重要的支撑作用，因此要重视任务与现实之间连接关系，同时也要处理好任务理念与语言测试之间的接口问题。Bachman & Palmer(1996)提出了“语言使用任务(language use task)”，是指“在特定场景下人们运用语言实现某一特定目标或达到某一特殊目的的活动”，这一定义强调了语言使用、特定场景和特定目标三个方面。同时，Bachman & Palmer指出他们所提的“任务”既可以指测试环境下的语言任务，也可以包括用于教学、生活等各个方面的语言任务。这个定义突出了测试任务的真正意义——来源于现实交际，反映现实需求。

任务型测试还存在着许多问题，如在测试控制条件内哪些任务和相关语言使用情景能够被充分模拟、评价测试表现的真实性标准、评价任务表现时的评分员信度、构念表征和难度等级视角下的任务可比性、作为测试设计基础的任务的普遍适用性和衍生限制以及创制、任务型测试的可行性和经济性问题。但这些问题不仅仅存在于以任务型测试中，评分员信度、难度可比性等问题在大多数主观性测试中都存在，因此不能因为这些问题就否认以任务型测试对于真实语言使用能力表现抽样和评价的优点。目前，汉语学界对于任务型教学法的研究正在如火如荼地展开，但是与之配套的语言测试的研发和使用却稍显不足。相关研究主要关注任务体裁、任务编制与任务难度。

任务难度有别于传统的题目难度，它不能用计算统计难度的公式进行计算，需要采取新的方法(Davies et al.，1999)。为更好地衡量任务难度，王佶旻(2013)编制了包含35条能做描述、7条口语交际策略和10条语言表现评价标准在内的中级口语能力量表，采用多级积分的Rasch模型(RSM)来估算描述语的任务难度，得出其所设计的由52条描述语所组成的量表信度、区分度很高。

聂丹(2012)基于话语体裁对任务难度的影响建立了体裁难度量表。作者认为叙述、描写、说明、议论体裁四分法不足以“反映题材内部认知活动的复杂类型”，因此将四大体裁与认知目标分类相结合进行难度排序，通过感知调查与实际问答两种方式制定了体裁难度5级分数量表：“叙述、描写”难度值为1，非常容易；“说明—类举、说明—比较”难度值为2，比较容易；“说明—阐释”难度值为3，一般；“议论—测评”难度值为4，比较难；“议论—论说、说明—决策”难度值为5，非常难。但我们认为作者对于体裁的划分仍然不够详细。Eggins & Slade(1997)将口语体裁分为主题明确的语块体裁和无固定主题的闲谈体裁，其中语块体裁对应的是聂丹(2012)所提到的以口语模态呈现的书面体裁，对于闲谈体裁，作者却没有涉及。可能由于作者是通过对C.TEST面试型口语测试任务进行抽样分析，受限于试题的类型数量，但这也反映出测试研发阶段的不足之处。

翟艳(2012)针对任务型教学理念和模式提出了新的口语测试方案。她以意义原则、目的原则、真实性原则、做事原则、信息交流原则和结果原则6个原则为根本依据，概括出了任务型语言测试的动态、双向、主动、明晰、自由、多维的6个形式特征，制定了“以任务为载体、以互动为交流方式”的测试形式及评分方法，考察以往试题的任务特征，形成了包含热身、进入、展开、结束和反馈4个步骤的任务型口语测试。作者指出，目前大多数口语试题仍然停留在结构主义影响下的语言测试的阶段，需要面向新的教学理念、教学需求不断改进测评方式。

王爽、王佶旻(2020)分析了TOEIC口语考试，认为“以证据为中心”的评价模式(evidenced-centered design，ECD)框架下的领域分析、领域建模、概念性评价框架、评价执行和评价发布5个层次指导了TOEIC口语考试研发的整个过程，同时其口语任务设计及模型框架为实际操作提供了固定范式。基于此，作者对汉语口语测试进行了反思，提出口语能力的界定和细化是任务设计的基础，在设计时要考虑汉语的特点；同时任务设计一定要注重与口语能力构想的关联性，详尽列出子能力的证据来源，在任务具体化过程中要体现出任务特征，使命题和评分更有逻辑。

基于交际语言测试相关理论，郭修敏(2017)为凸显小规模直接口试交际性、互动性、真实性的优势，对汉语口试命题及施测过程提出改进的建议。她认为应该对题目进行调整，剔除“朗读”等单项表达型试题，增加“角色扮演”类试题，保留“回答问题”类题型，在整个口试过程中要既包含交际性口试、又包含结构性口试；同时要改进“口头报告”题型，控制话题的综合性及难易程度；要改变评分制度，重视口语测试成绩对与教学的正面反拨作用，重视对学生的口语交际能力的培养。

(三)测试评分

作为测试记录本身和解读的依据，测试评分为测试研发者和利益相关者提供用来解读考生语言能力最基础、同时也是最显著的信息(Bachman，2010)。从评分方法上看，口语测试评分可分为主观评分和客观评分，前者主要包含分项等级评分和总体等级评分，后者主要包括0/1评分和机器评分。在自动信息处理技术成熟之前，口语测试主要采用主观评分的方式，但随着相关技术的成熟，一些考试开始采用客观化评分的手段，以减少评分员误差对于测试信度的影响、提高测试效率及经济性(郭修敏，2017)。对于主观性考试，评分员在评分中起到了关键性作用，需要依据评分标准对考生表现进行解释。因此，阅卷人评分误差将会对测试信度产生影响(赵琪凤，2012)。

柴省三(2003)从评分一致性和准确性两个维度对HSK(高等)口试评分标准进行研究。为考察组间一致性，作者请四组评分员对20名学生的口试样本进行评分，计算共时组间与组内的肯德尔和谐系数W值，发现组间组内评分结果有较高一致性；为考察历时一致性，作者请四组评分员间隔6个月为相同的40名考生进行评分，两次评分结果相关系数较高，均达到显著相关水平。为考察分类一致性，作者将40名被试的客观题评分与其口语评分进行频数分析，最后发现两个结果基本符合正态分布，但口语评分结果区分度不够明显，呈现出“中央趋势”。该研究表明HSK(高等)口试评分信度符合标准化考试的要求。

赵琪凤(2012)采用概化理论中随机单面嵌套r：p设计的G研究与随机单面嵌套r：p的D研究两种计算方法考察了六种不同题型组合下测试员评分信度情况。G研究结果表明只评议论性话题能够更好地体现测量目标，D研究结果显示，综合评价三类题目的测量信息信度最高，只评价议论性话题紧随其后，信度最低的组合为综合朗读和问答一评分。实验验证了评分信度会受到题目类型的影响，作者指出说明与议论性题目能够更好地区分高水平学生，在教学实践中要加大议论、辩论类题目的练习。

为摆脱主观评分的局限，王佶旻(2002)对问答、重复句子、口头评价三种题型分别采用0/1制评分、总体等级评分与分项(发音、语法、流利性)客观化评分进行打分，将原始数据转换为非线性T分数后进行信度检验和效标关联效度检验。信度检验结果表明，两种评分标准均具有较高的评分信度。可能受到参与者异质性程度低影响，效标关联效度检验中0/1制评分、总体等级评分与HSK总分的相关性均低于分项客观化评分与HSK总分的相关性。对于构念效度的检验，作者采用多种成分多重方法(Multicomponent-Multimethod，MCMM)考察五种评分方法的构念效度，发现构念效度由高到低排序呈现问答>重复句子>口头评价。

为减少评分员误差，郭修敏(2016)试图通过构建评分员培训体系提高测试信度。作者构建了评分员培训体系的步骤，并对比接受过培训和未接受培训的两组评分员评价分数与考生其他学业成绩的相关性，发现受训组严厉度上升、评出的口语成绩与效标的相关程度更高，评分更能准确有效地反映考生的口语能力。因此，该培训体系能够达到较为理想的效果，能够减轻评分者误差。

(四)效度研究

效度定义的发展经历了从单一概念到种类概念、再到整体概念的历程，构念效度的提出将各种分类效度加以整合，形成科学、融合的观念。对于语言测试研发及其效度验证，Bachman(2005，2006，2010)提出了测试用途论证框架(Assessment Use Argument，AUA)，展现出鲜明的完整效度观。测试的开发和解释与使用都需要5个步骤：(基于测试任务的)考生表现、测试记录(分数、描述)、(语言能力的)解释、决策、后果。AUA框架从自上而下和自下而上两个方向分别实现了测试的开发和验证过程，每一步骤互为结论、互为理据。从整个框架来看，每一步骤都是不可或缺的一部分，都会对整个测试产生重大影响。但汉语口语测试效度验证的理念仍然停留在分类效度层面，整体效度观还没有形成。

赵琪凤(2011)为了提高考试效率、精简考试题目，探讨了高等汉语水平考试口试题目类型和题目数量的效标关联效度。作者将考生的客观题、听力题及作文得分作为内部效标，将平时成绩、教师评分和排序作为外部效标，考察六种处理水平下口试试题得分和考生实际的口试得分与内、外效标之间的关联效度，发现六种处理水平下口试试题得分均与内部效标有较高关联，但除了处理五(只评朗读和问答第二题，给出口试得分)外，其他水平与外部效标相关性都不高，所以作者认为只考察朗读和问答题2足以有效地评价考生的口语水平。

北京大学和培生公司(Pearson)联合开发了自动化汉语口语考试(Spoken Chinese Test，SCT)，李晓琪、李靖华(2014)从测试信度、内部结构和外在效标三步对SCT的有效性进行了检验。由于SCT属于计算机化口语考试，不存在评分员误差，作者就通过对测试评分进行了历时信度评估，发现总分与子分数信度均较高。从内部结构看，作者将五个子能力的相关性做了描述统计，表明语言表达形式(发音、声调、流利度)与语言表达内容(词汇、语法)之间关联系数较低，但是两方面内部关联系数较高，且通过主成分分析法发现存在一个主要因素，即汉语口语表达能力。作者还将OPI与HSK口试作为外在效标，发现三者成绩显著相关，说明它们考察的是同一特质变量。最终验证了SCT测试的有效性和可靠性。

(五)测试参与者

作为语言测试中的重要角色，测试参与者特征对于测试的影响也值得关注。王佶旻(2007)扩充了Bachman & Palmer(1996)提出的在第二语言测验中应该考虑的6类个人背景因素，分析了留学生性别、年龄、学习目的、国别、母语背景、教育背景、职业背景、华裔家庭背景8类个体背景因素与口语测验表现之间的关系，发现年龄、国别和华裔家庭背景3项对口语测验表现有显著影响，青年组、欧美学生组、华裔学生组各分测验表现均优于其他组别组学生；而性别、学习目的、受教育程度和母语背景5项因素对口语测验表现无显著影响。

四、结语

从结构主义思想到重视语言的交际功能，再到任务型教学法的兴起，语言测试也发生从结构主义语言测试到交际语言测试再到基于任务的语言测试的转向(文秋芳，1999；韩宝成，2003)。对于汉语口语测试的研究涵盖了口语能力、测试任务、测试评分、测试参与者与效度研究，但仍存在可以继续探索之处。

首先，教学中的形成性评价关注不够。Bachman & Palmer(2010)将课堂语言测试分为隐性模式和显性模式两种。隐性模式主要指“评价—决策—教学—评价—决策—教学”等步骤循环进行的形成性评价，教师会通过测试做出决定调整自己的讲授、解释、重复来促进教学。显性教学模式主要用来进行以诊断为目的的形成性评价和以判断能力水平为目的的总结性评价。课堂中的测试为语言教学起到了重要的支撑作用。在汉语口语测试研究中，主要关注的都是大规模、高利害测试，对于课堂中为语言教学服务的形成性评价研究重视程度不够。其次，对直观的测试评分关注较多，对评分解读关注较少。作为决策信息来源的一体两面，测试评分和评分解读的受关注程度却并不均衡。而作为AUA框架的中间环节，评分解读起着承上启下的重要作用，如果不能根据合理的解读做出决策，测试的意义将会大打折扣，因此还需要继续关注这一环节。