陈艳龙
(盐城工学院 外国语学院,江苏 盐城 224051/扬州大学 文学院,江苏 扬州 225009)
20世纪70年代以来,研究者对语言测试与评估的研究呈现爆发式的增长(Skehan,1988),这种趋势并未因进入21世纪而衰减;反而因新研究主题的不断涌现,变得更加多样化和深入。《Routledge语言测试手册》(以下简称《测试手册》)就是在这样的背景下诞生的,它是Routledge出版社规划出版的“应用语言学手册系列”丛书之一。《测试手册》为该系列的第十本,由Fulcher和Davidson任主编。该书涵括了当今语言测试学几乎所有的重要研究主题,阅后可以一窥学科发展的全貌。整个框架设计力图使读者阅后能够全面把握语言测试学科的研究对象、范围、方法、操作以及未来发展。
第一部分为效度。效度是语言测试设计和研究的中心,决定着经验证据和理论论证对测试分数解释的支持程度。本部分共三章,从理论到实践对效度概念进行了重新梳理和检验。第一章“效度的概念”对效度进行了综述并总结了效度检验的四种方法。语言测试的所有研究都与效度及验证过程有关,但效度概念却不易掌握,不同的研究者有不同的认识,不同的效度框架所指也不一致。第二章“效度论点的表述”阐述了解释性论点的概念及其在论证效度本质中的作用。Kane认为相较于测试得分,我们更应看重得分的解释。Kane提出建立一个灵活的框架来验证实验的过程,这种方法方便参考、解释留有余地,避免了对验证过程的过渡简化的解释。第三章“设计调整中的效度问题”论及语言测试与评估中过程的优化问题。调整指对测试进行变动或修改以对被试者可能遇到的和测试内容无关的不利遭遇做出补偿。人们对效度和实践相结合存在不同的争论,因为任何形式的调整改变都会降低与测试构念无关因素的影响。
第二部分为课堂评价及后效。本部分共五章。语言测试除了为考生提供更多的教育机会、更好的就业流动性以及更多的就业机会外,也经常用来提供教学反馈,帮助诊断教与学需要改进之处。本部分论述了研究和测试目的多样性以及利用测试来帮助学习者学习语言。第四章“课堂评估”认为课堂测试异于传统的规范测试,是不同的测试范式,对其开展研究还缺乏清晰的计划。第五章“后效作用”探讨了语言测试的影响。20世纪90年代,语言测试对教学的影响逐渐引起了研究者的关注。Wall和Alderson(1993)第一次向学界抛出了“后效作用是否存在”的问题,此后数十年她一直致力于此主题的研究并得出了一些有趣的结论:首先,语言测试不是某种变化的单一因素,诸如:教师的态度和信仰等一直影响后效研究的结果;其次,对后效作用的大多数研究因针对具体的测试和环境而难以复制。第六章“评估低龄学习者”。作者认为提高学生的语言评估质量首要的且最好的做法是将课堂教师培养为成绩评定者。作者还概括了“欧洲语言共同参照框架”对欧洲的低龄语言学习者正在产生的影响。第七章“动态测试”是全书中唯一探讨一种具体测试技巧的文章。动态测试既是一套实践技术组合又是从根本上理解语言测试的理论基础。第八章“语言课堂中的诊断性评估”对语言课堂中的测试理论和技术进行了论述。
第三部分语言测试的社会应用。本部分共四章,探讨了一些公认的语言测试应用:如判断行业从业者的语言水平、临床诊断语言交际障碍症的发展程度等。第九章“设计专门社会用途语言测试”(Moder&Halleck)就航空语言测试做了深入剖析,明确指出普通英语测试不适用于评价高风险的工作场所的语言能力。语言测试被用来判断个体在工作环境中使用语言进行交流的能力以减少风险。在航空英语中,这种决策性风险更加高企,因为飞行员和空管人员没有足够的语言交流技能将会造成灾难性的后果。第十章“交际障碍语言测试”探讨了非主流的语言测试。交际障碍从轻微症状到严重的自闭症,对于个体的交际具有持久的影响。第十一章“移民和国籍语言测试”对人类迁徙、国籍政策以及对此形成影响的历史变迁和紧张关系做了综述,在此基础上研究语言测试如何与这些现象发生联系。第十二章“语言测试的社会维度”探讨了语言的社会功能,评述了话语理论、语言类型、语言测试用途以及规范性思维,最后对未来进行了推测。
第四部分为测试规范。测试规范是关于测试的正式文件,规定考试内容和方式(邹申,2005:41)。测试规范的形势和发展构成了测试设计过程中决策的历史以及决策背后的理据,是构建解释性论点的重要部分。本部分三章内容反思了语言测试开发的原动力,探讨了测试项目、测试任务和测试项建立的生成模板及测试开发者在测试研究中的作用。第十三章“测试规范和标准参照评价”。测试标准是测试的设计“蓝图”,是任何测试开发方法的基本要素。本章通过标准参照测试对测试规范进行了探讨并说明了如何使用规范作为中心工具来进行测试设计。第十四章“语言测试循证设计”介绍以证据为中心的语言测试设计的关键原理、构成以及应用。“循证设计”是应用于教育测量设计和实施的概念框架,其中心是提供测试设计决策的证据,而证据要为测试得分的意义解释提供支撑。第十五章“成绩考核中的观点、证据和推理”探讨了成绩考核所面临的挑战以及在将效验理论作为论据所面临的问题、成绩测试中的域分析、测试难度的评估、任务型测试的评价标准。
第五部分为编写试题项和任务。本部分三章揭示了语言测试试题编制者面临的复杂理论和实践问题,探讨了考生对测试项的反馈。第十六章“考试项编写和出题者”分析了语言测试中通常被视为极其直接明了的部分——编写测试项和测试任务;建立了四种测试项编写法:心理测量法、系统法、真实法和批评法;揭示了试题编制者的现实处境。第十七章“编写综合项”探讨了测试中复合构念及其在综合任务项中的体现以及围绕得分的解释问题。第十八章“应试策略和任务设计”。Cohen提出的根本问题是“什么是与测试构念有关的和无关的差异?如果考试使用某一策略完成测试项或测试任务,施测者又如何判断特定的技能是否全部得到测量?”这一问题是贯穿全篇的主线。Cohen详细地记录了30多年的策略研究及发现,并做了综合和总结;对最为常见的“口头汇报”技术进行了剖析,最后列出建议研究的主题及给予考生的忠告。
第六部分原型测试和现场测试。本部分三章探讨了测试设计和开发中的关键问题——如何保证设计的测试项和测试任务引出考生的真实回答,并且这种回答要与测试者希望得分所代表的意义直接相关,和测试者希望做出的决策相关?怎样从原型测试中发现问题,逐步调整,然后把可行的想法应用到大规模的试验中去,直至最终的现场测试。第十九章“新题型的原型化”探讨了原型测试及与其密切相关的概念“可行性”。可行性指的是用来获取与测试构念有关的信息而设计的测试项或测试任务在多大程度上是可以实现的,可以用来评分的。第二十章“前操作测试”包括调查性的试验测试和现场测试。试验测试是通过小规模的抽样测试来评估测试的各个组成部分能否发挥其效用,而现场测试是最后的大规模试验,是保证一切都按照设定的目标来进行的试验,两者的目的都在于收集及分析获得的数据以支持最终的测试效度。第二十一章“词汇测试试验”是语言测试试验的范例,介绍了测试试验的实施过程。
第七部分为测量理论和实践。本部分五章是语言测试中最具技术含量的领域,主要介绍了当前使用的主要测量模型,这些模型用来获得通过对测试项或测试任务的回答而产生的得分。一些是纯粹统计数据;另一些则需要按照交际任务的完成情况进行人工判断。第二十二章“经典测试理论”是语言测试中最古老的心理测量工具包。经典测试给测试开发者提供了一个可以近距离观察单个测试项相对整体测试得分分布情况的手段,有利于提高测试的信度和测试构念的精确性,与其他语言测试技术相比有其优越性。第二十三章“项目反应理论”探讨了测试项分析的当代主流派别:测试项反应理论,演示了目前最为广泛使用的测试项反应理论模型的基本公式是怎样通过三维参数测试项分析来对测试资料进行深入剖析的。此外,文章还分析了拉什模型对语言测试产生的巨大影响。第二十四章“信度和可靠性”全面地探讨了心理和教育测试中一些古老的概念,包括语言测试的得分一致性,深入研究了心理测量技术。第二十五章“语言测试成绩的可推广性”对概化理论及其工具和技术进行了全面而详细的介绍,对普通测量技术在语言测试场景中的应用作了论述。第二十六章“成绩测试打分”从历史和哲学的角度对评分量表制定中的问题和方法进行了探讨,对量表开发的具体技术细节进行了分析,对广泛关注的方法进行了论述。
第八部分管理和培训(。本部分四章内容围绕测试过程展开,这不仅包括与施测相关的仪式,而且包括测试质量保证以及测试过程准备,对施测者和评分者进行培训。此外,还有技术手段在语言测试中越来越多的应用——基于计算机的考试和自动评分等。第二十七章“测试产出和施测过程的质量管理”聚焦大型国际测试委员会在高风险的测试运作过程中的系统管理和监管经验,认为好的施测过程是效度论据的一部分,对操作过程不同阶段的质量管理可以减少甚至消弭可能引起对得分意义假设的不同解释的可能性。第二十八章“施测者和评分者的培训”认为人与人之间以及人群中的差异不可避免,虽然自动评分可以消除这种差异,但是有些情境需要评估真实的语言使用情况,施测者和评分者就必不可少,否侧测试构念就无法充分体现。本章从建构主义的角度论述了这种差异,探讨了这种差异应该被视为有害的还是可取的关键问题。第二十九章“语言测试中的技术”对现有的不同类型的基于计算机的测试以及这些测试的使用语境进行了探讨。第三十章“效度与成绩测试的自动评分”论述了自动评分系统的效度问题,认为自动评分应该基于测试效验的坚实基础之上。
第九部分伦理和语言政策。本部分的四章从不同的视角探讨在语言测试中的伦理和公正概念以及语言测试在语言政策框架内如何实现公正、平等的问题。第三十一章“伦理准则和意外的影响”探讨了伦理准则的概念。专业机构颁布成套的规章以规范成员行为,目的在于帮助员工做出道德抉择。作者认为这些专业机构起草规章的目的在于平息公众对于测试可能误用的担忧。第三十二章“公平性”对重要的概念定义进行了描述,尤其是Kunnan(2009)的测试语境框架和Xi(2010:27)对公平的讨论,文章还探讨了公正性与效度的区别问题。第三十三章“标准化测试”。标准是语言测试开发与得分解释的基础,是一个不断进化的概念。本章论述了欧洲语言共同参考框架和美国外语测试委员会的两种主要标准文件的不同起源,并列出不同的标准以帮助读者思考标准的意义。第三十四章“语言测试与管理”)讨论了在语言管理中使用语言测试来达到与其并不相称的政策目标问题并探讨了测试可能存在的误用。
伴随着大型语言测试在全球范围内的开展,如托福、雅思等,研究者对语言测试与评估的探索越来越多。但作为一门年轻的学科,语言测试因为集体记忆的历史短暂、缺乏重复的研究,并且许多研究“并非基于既知的基础之上”(Fulcher&Davidson 2012),这给有志于此的研究者带来了困惑。《测试手册》是语言学和应用语言学专业研究生、语言教师及专业研究人员难得的参考书和工具书,便于检索和参照。该书具有如下特点:
第一,内容全面、论点新颖。主题覆盖了语言测试与评估学科几乎全部领域,但是研究者并没有耽于对旧概念和旧范式的介绍,而是努力向读者展示学科最新、最前沿的发展情况。通过对一些重要学科概念的简短回顾,研究者迅速将笔触转向这些概念的最新发展。这些重要概念有效度、信度、可靠性、后效作用、测试规范、原型测试、现场测试、测试伦理等。内容有对语言测试的重要研究方法和技巧的探讨,帮助读者学以致用,具有可操作性。
第二,测试构念、逐步形成。通过浏览其他手册及类似的关于语言测试/评估的参考书可以得出测试学在测试构念的重新形成过程中正处在一个关键节点上。当前的一些著作如《剑桥二语测试指南》(Coombe,Davidson,O’Sullivan & Stoynoff,2012)以及《语言测试指南》(Kunnan,2013)坚持了语言能力构成的划分,只不过在后者中这种划分包括读写能力、语用能力以及综合能力。Shohamy(2008,xvi)在《语言和教育百科全书》的《语言测试和评估》卷的引言中解释:为了显示语言的多样性和语境的差异性,需要多重视角对语言进行审视而不是单从明确的技能划分来看。《测试手册》证明了Shohamy描述的语言测试构念和方法合流的趋势。通过不同的方法和论路径探讨语言测试构念的本质是大有裨益的。可以说测试构念在测试学各个层次上的探讨对于形成Messick(1989)所架构的统一效度的概念(包括效度构念范围内的社会影响)是有必要的。
第三,确立边界、建构体系。概念繁多是众多年轻的学科共同特征,这一方面显示学科的活力和张力,另一方面也给学习者及研究者带来困惑。因此,有必要重新审视这些概念,将其纳入合适的理论体系。本书各章的文献回顾部分为读者重新梳理了关键性的概念。重要的学科概念的梳理为学界掌握日新月异的语言测试与评估学学科边界,厘清不断涌现的研究主题的发展脉络提供了参照;对学科最新发展的权威论述不仅是对学科边界的确认,而且也为学科的未来发展确立了方向。此外,《测试手册》把众多的研究主题、概念进行分门别类,为建立系统的语言测试与评估学学科做出了贡献。
第四,理论实践、交相辉映。《测试手册》通过将测试学领域的理论和实践相结合来实现其为教师、学生、研究者服务的价值。这一点从九大部分的设置以及各个部分所含章节的内容即可看出。虽然部分主题或篇章可能偏重理论探讨,另外部分可能偏重实践操作,但是作者及编者都考虑到了两者平衡的问题,全篇三十四章主题都能紧扣具体的研究和实践问题来探讨理论。纯粹的学理讨论固然可以追根溯源、廓清概念,但是对于迫切希望得到语言测试实践指导的教师则鲜有教益,反之亦然。《测试手册》几乎涵盖了语言测试学领域的所有主题并提供了相关的研究资料。
[1]Fulcher,G.and Davidson,F.(Eds.).The Routledge Handbook of Language Testing[G].London and New York:Routeldge,2012:2.
[2]Shohamy,E.and Hornberger,N.(Eds.).Encyclopedia of Language and Education,Second Edition,Volume7:Language TestingandAssessment[Z].New York:Springer,2008:xvi.
[3]Xi,X.How do we go about investigating test fairness?[J].Language Testing,2010,27:147-170.
[4]邹申.语言测试[M].上海:上海外语教育出版社,2005.