《Routledge语言测试手册(第一版)》(编者为Glenn Fulcher和Fred Davidson,出版于2012年)深入剖析了语言测试的理论和方法,并针对效度验证、测试设计与开发和试测等方面提供了实践建议。随着语言测试领域研究的发展,该学科的热点话题已从单一属性,如信效度研究,拓展至社会、政治、文化等多维度。近十年来,除效度验证、构念及反拨作用等受到持续关注的议题外,测试开发、专门用途英语、诊断性评估、语言评价素养及自动评分技术等新兴领域也受到了特别关注[1]。在此背景下,《Routledge语言测试手册》(第二版)由Glenn Fulcher和Luke Harding共同编著,于2022年出版。该书集结了51位测试学各领域的学者专家,由1至3位作者撰写每章内容,不仅全面介绍了语言测试领域的热点议题,也对外语教、学、评方面的研究和实践具有重要启示。该书适合语言测试研究者、语言教师、学习该方向的学生、测试管理者、开发者及其他利益相关者研读。本文介绍各章主要内容,并分析该书特色及不足之处,展望其对我国语言测试研究理论和实践的启示。
一、内容简介
全书共分为10个部分,每个部分包含3-5章内容,共36章。
第一部分主要探讨了语言测试的效度问题(第1-3章)。第一章的主题为效度的概念。Carol A. Chapelle和Hye-won Lee回顾了测试效度的概念。效度最初是指测试是否测出了意图测量的能力,逐渐过渡到对分数的解读和使用这一多维概念。进入21世纪,Michael T. Kane提出基于论证的效度观(argument-based validity),将效度视为证据和理论能够支撑对测试分数的解读以满足预设的测试使用用途的程度,使效度这一领域的重心从“概念”转到“验证”,对语言测试领域影响深远。这反映出学者对效度认识的三个阶段:分类效度观、整体效度观和基于论证的效度观。第二章的主题为有效性论证。Michael T. Kane系统介绍了基于论证的效度验证方法。该方法分为两个过程,一个为解释性论证(the interpretation/use argument),旨在明确分数的用途和解释;另一个为效度论证(the validity argument),即对解释性论证阶段提出的用途和解释进行全面评估,以证明其有效性。第三章的主题为语言测试中的预测与推测。Steven J. Ross强调了预测效度的复杂性。当通过测试分数来预测被试未来表现时,结果往往具有滞后性,分数与未来结果之间的即时联系难以直接观测。因此,在进行预测效度研究时,可采用纵向研究法,通过长时间的追踪和观察,准确了解分数与未来结果之间的关系。
第二部分为语言测试运用的重要议题,重点讨论其社会属性(第4-6章)。第四章的主题为语言测试的社会维度。Richard F. Young分析了语言测试的社会影响,包括对国家声望的维护、语言标准的维持,但在多元文化背景下,社会主流群体和亚主流群体的话语语用具有差异性,测试可能会忽视亚主流群体的语用特征,所以语言测试在一定程度上也会抑制语言多样性。第五章的主题为专门用途语言测试。Carol L. Moder和Gene B. Halleck以航空英语测试(aviation English testing)为例,就语言工作者如何开发和设计专门用途语言测试进行了阐述。该章指出,测试工作者应当熟知社会政策和被测领域的语域特点,从而明确测试设计和决策所产生的社会反响及政治影响。第六章的主题为移民和国籍语言测试。Antony J. Kunnan对人类移民现象、语言政策和国籍政策进行了综述,并以美国公民入籍考试为例,探讨了移民现象和语言政策及测试之间的关系。
第三部分探讨了课堂测评及其反拨作用(第7-11章)。第七章的主题为课堂测评。Janna Fox、Nwara Abdulhamid以及Carolyn E. Turner阐明了语言发展、师生在课堂上的角色转变和科技进步对课堂测评的定义及实践有着不同程度的影响。目前,课堂测评逐渐和诊断性测试相结合,形成一种新型的测评方式:基于课堂的诊断测评(classroom-based diagnostic assessment)。教师可根据课堂诊断测评的结果为学生提供更加科学、系统且具有针对性的指导。第八章的主题为反拨作用。Liying Cheng和Nasreen Sultana首先回顾了反拨作用模型的发展历程,其次指出了效度验证与反拨作用的紧密联系,还说明了近10年来反拨作用研究的三项重要变革:地理范围的扩大、测试和教育背景的联系以及概念和理论框架的多样性。第九章的主题为评估低龄学习者。Yuko G. Butler指出,在评估低龄外语学习者时,不仅要考虑外部环境因素(全球化趋势和科技发展),还要考虑学习者内部因素(认知能力和年龄)。第十章的主题为动态测评(dynamic assessment)。Marta Antón和Próspero N. García概述了动态测评和语言学习之间的联系、研究角度和方法。该章指出,动态测评根植于维果斯基的认知发展理论[2],以最近发展区(zone of proximal development)为核心。同时,动态测评还受到了20世纪20年代和30年代欧美心理学的影响。第十一章的主题为诊断测评(diagnostic assessment)。Eunice E. Jang和Jeanne Sinclair介绍了诊断测评在课堂中的应用,包括诊断测评的特点、反拨作用和诊断结果的使用,并以社交软件Whatsapp为例,介绍了其在诊断测评中的应用。
第四部分聚焦四项语言基本技能的测评(第12-15章)。第十二章的主题为口语测评。Fumiyo Nakatsuhara、Nahal Khabbazbashi和Chihiro Inoue回顾了20世纪初到21世纪口语测评的发展历程,详细论述了口语测评任务构念、测试方式、评分模型及主要研究方法。第十三章的主题为听力测评。Elvis Wagner首先介绍了听力测试形式的转变,即由分离式测试到交际性测试或综合性测试,并就二语听力测评领域的重点话题(互动式听说和真实语料的使用等)和研究方法(经典测试理论、回归分析和项目反应理论等)进行了详细介绍。第十四章的主题为写作测评。Ute Knoch指出写作测试的最早纪录可追溯至中国历史上的西周时期(公元前1046-公元前771),该测试用来选拔官员,并论述了写作测试如何收集证据、评分及解释和使用分数。第十五章的主题为阅读测评。Tineke Brunfaut讨论了阅读的定义、构念、如何测评阅读能力、影响阅读准确率的因素和测评方法。
第五部分聚焦语言测试设计和实施中的重要方法及原则(第16-19章)。第十六章的主题为测试说明。金艳以高风险测试和中低风险测试(课堂测试)为例,解释了测试说明(test specification)在测试中所发挥的作用:作为测试开发和设计的蓝本(blueprint),它不仅影响了测试目的、构念及设计,为“测什么”以及“怎样施测”提供了指南,还为效度验证提供依据。第十七章的主题为以证据为中心的语言测试设计(evidence-centered design)。Chengbin Yin和Robert J. Mislevy从目标域、概念性评价框架的设计及主要研究方法等方面详细介绍了以证据为中心的语言测试设计。第十八章的主题为测试调整。Jamal Abedi探讨了在测试时如何为英语为非母语的学习者进行调整,如增加考试时间、使用定制词典或简化语言等,并介绍了在调整后如何确保信效度的方法。第十九章的主题为评分员和面试官培训。Larry Davis指出,评分员确保分数的准确性、可靠性和公平性绝非易事;同时,详细介绍了直接影响分数解释和效度的三个因素:评分员的筛选、培训和评分表现。
第六部分聚焦项目和任务的编写方法及原则(第20-22章)。第二十章的主题为试题编写和命题者。Dongil Shin探讨了四种主要的试题编写方法:心理测量法(psychometric approach)、真实测评法(authentic approach)、系统测评法(systematic approach)和批判测评法(critical approach)。心理测量法追求客观化和标准化,以多项选择题、判断正误和匹配题为主,但往往忽视语言的实际使用能力;真实测评法旨在评估学习者的语言应用能力,但面临评分标准主观和测试实施困难等问题;系统测评法使用证据中心设计等框架来增强测试的有效性论证,并从社会政策角度审视测试的负面影响,关注测试的误用问题。本章还探讨了命题者的具体工作,指出命题不仅是一个创造性的过程,还涉及许多烦琐的决策和编辑任务。第二十一章的主题为编写复合型任务。Lia Plakans从任务特征和构念等角度介绍了复合型任务,并从需求分析、明确构念、任务类型、文本选择、指令措辞和评分标准这六个维度为开发和设计复合型任务提供了思路。第二十二章的主题为应试策略和任务设计。Andrew D. Cohen指出,应试策略分为测试管理策略(test-management strategies)和测试智慧策略(test-wiseness strategies):测试管理策略是指被试借助考试形式的某些特点更有效地做出回答;测试智慧策略是指被试没有经历一定语言、心理和认知加工过程,利用测试题的特点得到答案。本章还介绍了应试策略对任务设计和效度验证的启示。
第七部分为原型测试(prototyping)和现场测试(field tests)(第23-25章)。第二十三章的主题为新题型原型化。原型化是指在实施测试设计之前对新的材料进行测试以评估其适用性。Susan Nissan和Elizabeth Park指出原型测试样本量的大小取决于问题数量和性质,同时还要考虑时间、成本和资源等实际因素。第二十四章的主题为前测试(pre-operational test)。前测试是指在测试正式实施之前,收集证据以支持关于测试分数使用和解释的有效性主张的系统过程。Benjamin Kremmel、 Kathrin Eberharter和Franz Holzknecht以TOEFL和TOEIC为例来说明新题型原型化过程中如何完善测试构念、任务类型和评分标准。第二十五章John Read以词汇测试为例,全面具体地展示了词汇测试应如何试测、演化及推广。
第八部分为语言测试的测量理论(第26-29章)。第二十六章的主题为经典测试理论(classical test theory)。James D. Brown指出尽管新的测试理论和方法不断涌现,如项目反应理论(item response theory)和概化理论(generalizability theory),但经典测试理论仍然是语言测试领域的基础及重要组成部分。第二十七章的主题为项目反应理论和多面纳什测量模型(multi-facet Rasch measurement)。Gary J. Ockey指出项目反应理论旨在评估个人的潜在能力,将可观测到的测试表现与看不见的潜在能力联系起来。该理论有三种模型,分别是单参数模型(single parameter model)、双参数模型(two⁃parameter model)以及三参数模型(three⁃parameter logistic model)。考生在测试中的表现不仅取决于能力和项目难度,还取决于其他因素,如评分员和评分标准,多面纳什模型应运而生。该模型用来衡量评分员的宽松程度和评分一致性、修正由评分员造成的评分差异及检测考生能力,评分员和项目难度等因素间存在的交互效应。第二十八章的主题为信度和可靠性(dependability)。Xun Yan和Jason Fan指出信度常用于常模参照测试,指测试在多大程度上受测量误差的影响或分数在多大程度反映了考生的能力,与测量误差相关。可靠性通常用于标准参照考试,指被试在多次测试中获得等级的一致性,与分数的解释和一些外部标准有关。第二十九章的主题为成绩测试的评分。Evelina D. Galaczi和Gad S. Lim针对评分的要素,即任务、评分标准、评分员的决策方式、人口统计背景及评分经验等进行了详细叙述,并对量表开发及自动评分技术的可行性进行了探讨。
第九部分为信息时代的语言测试技术(第30-32章)。第三十章的主题为效度和成绩测试的自动评分。席小明讨论了自动评分技术在二语成绩测试中的使用和效度验证,并指出分数的使用决定了效度验证的优先等级。第三十一章的主题为计算机辅助测试。Yasuyo Sawaki指出,计算机辅助测试的优点是提高效率,创新任务设计和考试模式及统筹教学、学习与评估。作者还论述了虚拟现实技术和多媒体在语言测评中的应用以及计算机辅助口语测试的可行性。第三十二章的主题为语料库语言学和语言测试。Sara T. Cushing将语料库应用于语言测试领域,介绍了语料库的基本定义、类型、分析工具和方法,并且论述了语料库在语言测试开发和验证中的用途。
第十部分为语言测试中的道德、公平性和政策性问题(第33-36章)。第三十三章的主题为道德和公平性。F. Scott Walters从理论和实践的角度论述了道德和公平在语言测试中的表现和应用。第三十四章的主题为语言能力标准。Bart Deygers指出语言能力标准主要包括三种,分别是教育绩效指标(educational performance indicators)、语言能力框架(language proficiency framework)和大规模测试(如TOEFL和IELTS)。教育绩效旨在对相关政策产生影响;语言能力框架旨在衡量二语能力,即基于特定标准考生所具备的能力。作者以大规模考试TOEFL和IELTS为例,阐述了两者在制定语言能力框架方面的作用。第三十五章的主题为测试开发和实施的质量管理。Nick Saville和Sarah McElwee指出质量管理包含质量控制(quality control)和质量保证(quality assurance)。质量控制侧重于检测测试的开发、设计、评分和培训等环节是否符合规定的标准;质量保证聚焦于监测和调整的过程。该章以课堂测评和大规模考试为例,阐述了测试中质量管理的适用性。在本书最后一章中,编者Luke Harding和Glenn Fulcher总结了贯穿本书的四个主题:科技的作用、测学结合、语言测试的复杂性和社会属性。同时指出,未来测试的发展方向需聚焦于“效果驱动”(effect-driven)原则,强调测评应为考生和社会带来积极影响。
二、特色与不足
《Routledge语言测试手册》(第二版)具有以下特色。
第一,兼具科学性与人文性。科学性体现在测试构念的界定、效度验证、任务设计与编写、试测流程以及评分标准的制定。人文性则体现在以人为本,重视“人”这一主体。课堂测评聚焦于以评促教、促学。具体来说,测试帮助教师了解学生的现实情况,并针对现状进行教学;测试促使学生学会批判性思考,最终达到自主学习的效果。高风险测试要考虑到被试不同的教育背景和语言使用规范等。虽然ChatGPT的发展引发“人工智能替代论”[3-4],但Yuko G. Butler强调教师角色的不可替代性。教师应利用科技进行反馈和个性化评估。教师所需要解决的问题是如何正确且高效地利用这些信息来支持学生的学习。因此,教师要正确认识自身,找准角色定位[5]。
第二,话题全面且与时俱进。本书共十个部分,每一部分着眼于不同的议题,涵盖了语言测试领域的核心话题。不仅从微观层面上对语言测试领域的话题,如效度、项目开发和设计、语言能力测评及课堂测评等,进行了详细介绍,还将其置于更宏观的社会背景中,例如聚焦国家语言政策、公民身份和语言测试之间的关系,探讨测试的道德或公平性等问题。横向来看,每章都在某一时间段介绍了该领域的发展状况及未来发展方向。纵向来看,每个时间点之间并不是孤立存在的,厘清了语言测试领域的概念、理论及实践的发展脉络。
第三,理论更深和应用更广。与第一版相比,第二版著作在内容的更新扩展、概念的明晰化、跨学科视角的融合方面更加完善。首先,内容更新扩展。新增了“语言能力测评”部分,全面涵盖说、听、写、读四种语言技能。每章都从基本概念、发展历程、评估方法及应用场景入手,深入探讨了语言技能测评的研究现状。这一变化不仅为读者提供了全面的理论框架,还有助于更准确地理解语言技能评估的核心要素,为预测未来发展方向提供了坚实的理论基础。这一更新反映了语言教学和测试领域的最新发展,强调了语言能力测评在语言测试中的重要地位。其次,课堂测评概念的细化。第一版中,Carolyn E. Turner简单地提出了终结性评价和形成性评价[6]。第二版则进一步细化了终结性评价和形成性评价的概念,清晰界定了两者的功能和应用场景:终结性评价主要在学习周期结束时测量学习成果,而形成性评价则贯穿于学习过程,注重提供及时反馈,以支持学习的可持续性进步。此外,新增了对以测促学策略的深入探讨,包括对学习的评价(assessment of learning)、为学习的评价(assessment for learning)和作为学习的评价(assessment as learning),不仅阐释了它们各自的特点和作用,还强调了学生在评价过程中的主体地位。最后,应用价值增强。语料库与语言测试相结合,在命题、效度验证和教学等方面具有较强的应用价值。Alderson首次提出语料库在语言测试中的应用[7],丰富了语言测试领域的理论和实践基础。但在第一版中,只是在索引部分提及了语料库,文章中并未涉及具体内容。第二版则详细阐述了语料库在语言测试领域的应用。语料库用于收集与实际语言使用相符的测试内容,分析学习者语料库有助于识别不同水平学习者的常见搭配模式,为命题者提供参考。语料库还可用于效度验证,为测试内容和方法提供档案,帮助解决比较、评分及标准制定等问题,提高测试效度。此外,语料库的应用为课堂教学和评估提供了理论实践基础,加深了教师和学生对语言习得、发展、教学、学习和评估的理解,为教学和学习提供了实际依据。
本书虽然在理论和实践上反映了语言测试领域的热点和研究趋势,亦存在一些不足之处。首先,本书在内容安排上存在欠妥之处。第八部分的主题为语言测试的测量理论,但其中的第29章主题为成绩测试评分,与该部分的主题并不完全契合。评分与任务、评分标准和评分员的决策方式等因素有关,第19章的主题为评分员和面试官培训,因此安排在第19章后更为恰当。此外,第八部分未对概化理论进行详细介绍。其次,尽管本书设有专栏探讨科技在语言测试中的应用,但未涉及居家语言测试这一新兴趋势带来的挑战和机遇。居家语言测试并非现有纸笔考试或网络考试版本的简单转化,其在考试技术、考试安全、考试公平、考试伦理等诸多方面都面临着独特的挑战[8]。研究该类测试有助于为教育评估提供更加全面和有效的解决方案,推动语言教育领域的进步和发展。最后,近年来,全球化背景下多语言测试和评估领域迅速发展[9],但本书的焦点主要聚焦于英语测试,未涵盖非英语语言测试和多语言环境的测试理论与实践。
三、启 示
该书对我国语言测试研究具有以下启示。第一,本书强调语料库与语言测试研究的接口。但目前国内对于语料库在语言测试领域的应用不够重视,同时因大规模考试的风险性和机密性导致信息难以获取,考试设计方面的研究与国外研究相比存在差距[10-11]。对此,可根据实情,将语料库应用于课堂测评等低风险测试中,以提高课堂测评的效率。效度验证方面的研究亦较为匮乏,多以验证评分量表效度和任务效度为主[12-13],研究深度和广度尚需加强。研究者们可选取具有代表性的语料库如英语国家语料库(British National Corpus)和美国当代英语语料库(Corpus of Contemporary American English)对评分标准进行效度验证。第二,该书强调了语言测试在语言教学和评价中的重要性,并提供了丰富的理论和方法。目前,科技在我国教学评价中的作用尚未充分发挥,需转变评价观念,构建符合中国特色社会主义的多元评价体系,以评促教促学。教学评一体化不仅限于课堂,还应扩展至学校和社会[14]。为此,应以形成性评价为核心,构建融合质性评价和量化评价的电子成长档案。由学生、教师、家长、学校、教育管理部门以及用人单位协同合作、相互配合[15],构建多元评价体系。
参考文献:
[1] 张培欣,范劲松,贾文峰.国际语言测试研究热点与趋势分析(2008-2018)[J].外语教学与研究,2021,53(04):618-627.
[2] Vygotsky L S,Cole M. Mind in Society:Development of Higher Psychological Processes [M]. London:Harvard University Press,1978.
[3] 王天平,李珍.智能时代教师技术焦虑的形态、动因与对策[J].电化教育研究,2022,43(10):110-115.
[4] 郭顺峰,李光,邹红军. ChatGPT引发的“以人为师”合法性危机与应对——基于技术批判理论视角[J].电化教育研究,2023,44(11):28-35.
[5] 钱鹏雁,陆道坤.ChatGPT冲击下教师的角色危机与重塑[J].继续教育研究,2024,(01):25-31.
[6] Turner C. E. Classroom Assessment [M]. // FULCHER J.,DAVIDSON F. The Routledge Handbook of Language Testing. New York:Routledge,2012:65-78.
[7] Alderson J. C. Do Corpora Have a Role in Language Assessment [M]. // Thomas J. A.,Short M. H. Using Corpora for Language Research. London:Longman,1996:248-259.
[8] Isbell D R,Kremmel B,Kim J. Remote Proctoring in Language Testing:Implications for Fairness and Justice [J]. Language Assessment Quarterly,2023:1-19.
[9] De Angelis G. Multilingual Testing and Assessment [M]. PA:Multilingual Matters,2021:1.
[10] Choi I C,Moon Y. Predicting the Difficulty of EFL Tests Based on Corpus Linguistic Features and Expert Judgment [J]. Language Assessment Quarterly,2020,17(1):18-42.
[11] 邹绍艳.语料库在语言测试中的应用:回顾与反思[J].中国海洋大学学报(社会科学版),2016,(06):109-114.
[12] 李迪.语言测试公平性检验量表研制与效度验证[J].外语界,2021,(01):88-95.
[13] 姜秀娟.英语教师证书考试文学素养测试任务效度研究[D].北京:北京外国语大学,2021.
[14] 吴晗清,高香迪.“教·学·评”一体化理念偏差与实践困境及其超越[J].教育科学研究,2022,(02):54-58.
[15] 刘建达,杨满珍.试论外语考试的中国式现代化[J].中国考试,2023,(02):11-18.
(责任编辑:吴茳)