语言测试的新标杆

2018-07-09 08:36王聪颖

赤峰学院学报·哲学社会科学版 2017年8期

关键词：述评

王聪颖

摘要：Bachman L.F.和Palmer A.S.都是响誉世界的当代应用语言学专家和语言测试专家，二人在语言学领域成绩斐然。《语言测评实践——现实世界中的测试开发与使用论证》是二人合作的又一全新力作，是语言测试领域最新、最前沿成果之一。在该书中，作者提出测试使用论证（AUA）这一新概念，并以此为框架，对语言测试开发进行论证，并制定了世界中语言测试开发的流程与规范，这对于指导语言测试开发具有重要意义，同时也将对语言测试领域产生深远的影响。

关键词：语言测试；测试使用论证；述评

中图分类号：H0 文献标识码：A 文章编号：1673-2596（2017）08-0093-03

一、内容概要

《语言测评实践：现实世界中的测试开发与使用论证》这本书是2016年暑期我参加外语教学与研究出版社（以下简称“外研社”）举办的“外语教学中的测试与评估”研修班上获得的。拿到这本书之后，我感觉如获至宝。这本书是外研社推出的“全国高等学校外语教师丛书”系列丛书之一。本书的作者Lyle Bachman和Adrian Palmer都是蜚声中外的应用语言学专家，他们的测评思想独到、影响深远。本书也是继1990年出版的《语言测试要略》、1996年出版的《语言测试实践》等书之后，Bachman本人在语言测试领域的又一力作，将对语言测试领域产生深远影响。

本书大体分为四个部分：第一部分是简介，这部分独立成章，主要介绍本书的目的、撰写源由及语言测试的意义等。第二部分包括第二章至第五章。这部分重点阐释语言测试开发与使用的理论基础。第二章讨论了语言测试开发和使用过程中的一些重要概念和议题，如语言测试（language assessment）的本质等。本章还提出了本书的核心概念——测试使用论证（Assessment Use Argument），AUA框架的内容贯穿语言测试理论架构建构及实际开发运用整个过程，这是重中之重。第三部分是测试使用及论证，包括第六章到第十二章，这部分内容涉及语言测试开发和使用的总体规划、初步设计、构建测试AUA框架、测试结果预期及评价反馈、语言测试产品使用及影响。第四部分从第十三章到二十一章，介绍如何在现实世界中进行实际开发和使用测试产品，包括对现实世界的资源分析评估、设计方案的撰写、测试任务的编制、考生作答记录、测试蓝图的撰写、测试指令的撰写、试测及改进、测试开发及实施资源的调度等方面。

二、语言测试和语言能力

什么是“语言测试”？任何术语的使用都要有特定的背景和条件，语言测试也不例外。关于“语言测试”这个概念，作者采用了“language assessment”，因为在作者看来，没有必要过分纠缠于“assessment”、“measurement”、“test”等概念的差别，它们本质上意义都是相同的，都有“收集信息并做出判断”之意。如果一定要区分的话，作者认为，“评价（evaluation）”是“测试（assessment）的一种使用方式”，因为“评价”是基于信息做出有价值的判断和决定，并且收集信息、做出决定（decisions）是语言测试的主要目的。

语言测试是一种测量，那么，语言测试测量的是什么[1]？什么是语言能力？在本书中，作者进一步说明，语言能力（language ability）是语言使用者创造和解释语篇的能力。语言能力包括语言知识（language knowledge）和策略能力（strategic competence）两部分。语言知识是在位于语言使用者记忆中的用以表达或理解话语的信息域，由语言组构知识（organizational knowledge，由语法知识和语篇知识所构成）和语用知识（pragmatic knowledge，由功能知识和社会知识）构成。策略能力是指在语言使用和其他认知活动中能够起到管理功能的高度有序的元认知策略，包括目标设定（goal setting）、评价（appraising）与计划（planning）能力。语言使用体现了使用者的语言能力。语言使用（language use）指个体对话语意义的表达与理解，或某一特定的情境中一人或多人之间对于意义的动态协商。当互动中涉及两个或更多的人，这种互动被称作“往复性（reciprocal）语言使用”，而只涉及一个语言使用者的情景被称作“非往复性（non-reciprocal）语言使用”。互动性是语言使用的本质。按照互动中是否涉及语言使用任务也可以将互动的类型分为两种：语言使用者特质之间的互动称为内在互动（internally interactive）、使用者特质与语言使用任务（情境）特征之间的互动视为外在互动（externally interactive）。在语言使用者特质中，除语言能力特质外，还包括个人特质（personal attributes）、话题知识（topical knowledge）、情感图式（affective schemata，如对某些特定话题的看法等）以及认知策略（cognitive strategies，即语言运用过程中执行元认知策略时所使用的具体策略）。

语言使用离不开特定的场景，这就涉及到使用域的概念。目标语言使用域（target language use domain）是指除测试任务本身之外的需要被测者完成语言使用任务的特定的情景。语言使用也离不开具体的语言使用任务，本书中的语言使用任务（language use task）是指在特定的情境中个人为实现特定目标而使用语言完成的具体活动（activity）。與此对应的目标语言使用任务（target language use task）是指在特定的情景中，个人为实现特定目标使用语言完成的活动。测试是通过考生完成语言测试任务的具体表现来推测考生完成目标语言使用域任务的表现，近而对其语言能力做出解释。目标语言使用域的任务不同，语言使用者的表现可能会有所差异，因为任务的具体特征会对语言使用者的表现会带来影响。所以，我们要考虑目标语言使用域的范围，以目标语言使用域的任务为参照设计和改进测试任务。另外，在本书中，描述语言特征的框架与Bachman在1990年提出的“任务特征框架”（task characteristics）基本相同，包括“情境特征”、“任务说明特征”、“任务输入特征”、“任务期望作答反映特征”、“任务输入与期望作答反映之间的关系”五大方面及各自的具体要素构成。

三、语言测试的AUA框架

人们都希望测试的结果能给相关的利害者（测试的开发者、使用者、决策者以及个人、团体组织等潜在的利害人）带来积极的影响。但是，如何证明这一点呢？也就是怎样证明语言测试的科学性、合理性和可靠性？这需要对其进行“论证”（justify），为此，作者提出了测试使用论证（Assessment Use Argument，以下简称“AUA”）。

语言测试的AUA框架是测试理论的架构，是语言测试的理论基础，能够有效地指导实际测试开发及使用。AUA有两大用途：第一，指导测试开发，例如做出改进已有的某个测试的决定；第二，指导测试使用，例如，做出录取录用的决定、做出某个学习课程的分层决定等。教学与测试是相生相伴的，语言教学与学习中的测试决策（decisions）可以是形成性的，也可以是总结性的。测试的一个主要目的是收集信息并用于决策，那么这些决策一定对测试的“利益攸关者（stake holders）”带来影响。我们希望所做出的决定对于教学和学习带来“有益影响”（beneficial consequences）。那么，我们怎样能够评价测试开发的题目是科学、有效的，并且能够带来积极正面的影响呢？这就需要对AUA框架进行论证。测试论证（Assessment Justification）是阐述AUA构架并且收集证据证明其架构的过程。这里，作者以哲学家Stephen Toulmin（1958，2003）的推理模型为理论依据：一个论证（argument）是由事实（data）推导结论（主张，即claim）的过程；一个主张（claim）包括一个有明确主体（entity）的命题，并且规定了主体的一个或多个属性。理由是用来推导出主张的命题，因此，推导过程应以理由（warrants）作为支撑。理由自身也要有相关证据（backing）加以证明。推理的可靠性取决于证据的可靠性和反驳（rebuttal，指理由不成立情况下的声明）是否成立。AUA体系中，主张（claim）是有关测试“结果”的各类声明（statements），由测试结果（outcome）（如影响intended consequences，决策decisions，解释interpretation与测试记录assessment records）以及描述这些结果质量的“属性quality”（如公平性fairness）所组成。AUA中的理由指针对主张质量属性延伸出的更为详实的声明，反驳指否定主张的声明。根据作者的观点，我们在设计开发语言测试的过程中，要采用自上而下的方式，测试结果的“影响”决定我们所做的“决策”，“决策”与做出的测试“解释”有关，“解释”直接取决于“测试记录”，而“测试记录”直接与被测试者的测试表现相关，这样，“影响”、“决策”、“解释”、“测试记录”、“考生作答表现”之间开成了一个环环相扣、层层推理的过程。每一次推理都需要论证，下一推理过程的“主张”成为上一推理过程的“事实”，由此开成一个“事实-主张”的推理机制。AUA框架将测试论证引入测试开发和使用过程的各个环节，使得整个过程更加科学、规范、严谨，测试产品也更有说服力和可信度。

在书中，作者用了大量的篇幅来介绍如何在理论上构建AUA测试框架。围绕语言测试的预期影响，作者指出，应主要考虑的问题有两方面：第一，测试和决策应带来哪些“有益”：（beneficial）的影响；第二，明确相关利害关系人。支撑影响主张的理由有两类：一类涉及测试使用所产生的影响；一类涉及决策制定所产生的影响。在构建与“决策”有关的主张时，应阐明下三个问题：（1）决策的具体内容；（2）相关的利害关系人；（3）决策者。支撑测试影响的“理由“需要考虑以下三方面：（1）决策的制定要与当前的教育体系、社会价值观和相关的法律法规相一致（values sensitivity）；（2）要充分认识和评估错误的积极影响和消极影响的严重性（seriousness）；（3）分数的划定要确保公平性（equitability）。另外，作者同样花费了很长的篇幅探讨了语言能力“解释”的问题。关于“解释”主张的理由涉及五方面：第一类与语言测试的参照体系（理论支撑）有关，搞清楚构念的定义，对于测试的解释有意义（meaningfulness）；第二类与考生的作答条件有关，也就是对于语言能力的解释要做到公平、公正、没有偏颇（impartiality）；第三类与语言测试的任务类型有关，即测试任务是有代表性和概括性的（generalizability）；第四类指语言测试的决策和解释之间的相关性（relevance）；第五类指语言能力的解释的充分性（sufficiency）。对于与“测试记录”有关的主张、理由的构建方法，主要需要关注的问題是测试记录的一致性（consistency），理由的阐释涉及考试实施、评分、培训等环节。

四、总结

这本书是语言测试领域最新、最前沿的成果之一，十分难得。相较以往的阐释，本书中即有理论支撑，又系统地介绍了如何具体操作，对于指导测试开发意义重大。文章概念清晰，论证严谨，举例丰富，是语言测试学习者和研究者的营养大餐。作者独辟蹊径，提出了一个非常重要的概念——测试使用论证（AUA框架），从一个全新的角度解释语言测试，进一步发展深化了语言测试的理论，将语言测试的研究推向一个新的高度。随后，作者以AUA框架为纲领，从语言测试的理论建构到实际操作再到最后总结反馈，逐步展开，娓娓道来，的确使读者深受启发。贯穿语言测试整个过程的AUA框架，同时服务于测试开发与使用，高屋建翎地概览了语言测试的全貌，对于学习者从全局上把握语言测试具有重要意义。另外，本书提出了一些新的语言测试相关的“术语”，例如，针对语言能力的“解释”的“标准”或“原则”，作者提出了“意义性（meaningfulness）”、“无偏性（impartiality）”、“概括性（generalizability）”、“关联性（relevance）”、“充分性（sufficiency）”，这与过去很长时间以来，测试学界流行的“信度”、“效度”、“真实性”、“交互性（interactiveness）”[2]这些术语不同，是Bachman基于AUA框架对于语言测试的新解释，也是对测试理论的推进和发展。

参考文献：

〔1〕李筱菊.语言测试科学与艺术[M].长沙：湖南教育出版社，2001.

〔2〕Bachman， L. F.2008.Fundamental Considerations in Language Testing.Shanghai： Shanghai Foreign Language Education Press.

（责任编辑王文江）