TOECI 口语考试任务设计及其对汉语口语测试的启示

2020-07-21 00:44王佶旻

考试研究 2020年3期

王爽王佶旻

语言测验中的变量有三个：语言能力、刺激和反应[1]。语言测验通常使用一定的刺激物，即测验任务，得到被试的反应，也就是被试的答案。语言能力的属性以及使用测验任务在多大程度上测到了想要测验的能力是语言测评研究者关注的重要问题。任何测量都存在误差，语言测验也不例外，使用测量任务得到语言学习者能力的反馈，这个过程是复杂的，包含许多的程序和步骤，每一步的小误差都会增大最终结果的误差。因此，语言测量研究者想要获得语言能力的证据，就需要从语言测验的整个过程进行考虑，包括测验对象和测验任务实施等。

语言测试开发需要确定测试的对象是什么，根据对语言能力定义的不同常常可以分为两种模式：以能力构想为中心和以情景任务为中心。而TOEIC 口语考试是基于“以证据为中心”的评价模式（evidencedcentered design，简称ECD 模式）设计的，ECD 模式以寻找证据为中心任务，每部分层层相关和递进，将整个评测过程统一起来，形成完成的测评框架。本文将对TOEIC 口语考试的任务设计模式进行介绍，并在此基础上探讨其对汉语口语测试的借鉴价值。

一、口语测试开发问题

在口语测试开发的初始阶段，对口语能力的界定是至关重要的，它还会影响后期的任务形式、评分方式等。通常对语言能力有两种定义方式：一种是“现实法”，它会确定实际语言应用的特例构成的范围，这个范围里的应用特例被认为是特定语言行为的表现[2]；另一种是“成分法”，这种方法在语言测试发展历史上占有重要的地位，它会把语言能力分为若干个子能力。

在口语测试开发过程中，“现实法”会根据之前确定好的特定口语行为表现进行任务设计和评分方式设计，由于其特点通常会采用总体等级评分，但是这种评分方式对评分员的要求很高，评分信度通常难以保证[3]。“成分法”则以口语能力的构想为中心，由于口语能力是不能直接观察和测量的，仍旧需要设计任务对口语能力进行测量，然后根据这些任务进行推断，因为口语能力会被分为某些确定的成分，如准确性、流利度，准确性会使用每个T-unit 的错误个数[4]等，流利度会使用停顿次数以及平均语流长度[5]等作为量化的客观指标。

“现实法”将特定的口语行为表现作为其评价指标，但无法推断被试在其他口语任务上的表现；“成分法”将口语能力作为重点，在评分方式上量化了各种指标，但操作复杂，常因为忽略实际情景而受到批评。两种方式各有利弊，可以根据不同的考试目的选择不同的定义方法，但无论是哪种方法，都需要设计测试任务来进行口语测量，而TOEIC 的口语考试设计将这两种方式结合起来，能更好地完成口语测试。

二、TOEIC 口语考试设计框架

TOEIC 口语考试是基于“以证据为中心”的评价模式，即ECD 模式设计的。ECD 模式是由Mislevy，R.J.等人于1997-1999 年在主持美国教育测量服务中心（Educational Testing Service，ETS）工作时提出的一项新的系统性评价设计研究项目，旨在开发评价设计框架，已被广泛用于教育评价中。TOEIC 口语考试是在GRE 等考试之后使用ECD 模式进行开发设计的，在先前经验的基础上，其口语考试设计更加清晰明确具有代表性。

1.TOEIC 口语考试设计基础

ECD 模式产生的背景，一方面是认知科学和学习科学的发展，促使我们对学习者的知识、技能等有了更深的认识；另一方面是统计模型的发展使得测验能应用基于概率的推理，这样能够涉及观察变量、具体情境以及与推论之间的推理链条。

其理论基础来自Mislevy 对教育评价中推理和证据之间问题的看法。他认为，教育评价的对象是学生的知识、技能和成就，评价的过程可以看成是“基于证据进行推理”的过程，教育评价就是希望从学生所说和所做或做出的特定事物中推理出更广泛的知识和能力推论[6]的过程。总体来说，ECD 模式是基于证据对学习者的知识、技能等进行推理的模型框架。

Mislevy 等人还认为，评估确实可以收集复杂的数据来建立对复杂学生模型的基本推断，并衡量复杂的学习或评估复杂的程序，但这是建立在从观察到推理的全部推理链之上的，因此需要一个更加结构化的框架来提供通用术语和设计对象，使评估设计更为明确，并将设计元素与实际评估中固有的过程联系起来，这样的框架不仅使评估的基本证据结构更加明确，而且使评估的操作要素更易于重复使用和共享[7]。ECD 评价模式就是从构想的建立到分数的发布建立的有层次和结构的框架。

ECD 模式框架分为5 个层次，分别是领域分析、领域建模、概念性评价框架、评价执行和评价发布[8]。ECD 模式能够使测试开发者重点针对语言能力和任务以及它们之间的关系，5 个层次包含了测试开发的整个阶段，每个层次都互相关联，层层推进。

考试研发设计的第一阶段是领域分析，包括对评估领域的已知内容的初步综合，主要侧重这些问题：在该领域取得成功的重要技能、知识和能力是什么？在哪些实际情况中学习者会使用这些技能、知识和能力？

第二阶段是领域建模，这一阶段要将第一阶段领域分析收集的信息细化，用来指导接下来的与语言能力相对应的任务设计，包括三个相互关联的部分：熟练程度范例-对考生能力要求的实质是什么？证据范例-考生表现中的哪些可观察特征会提供数据来支持这些能力构想？任务范例-什么类型的任务能够让考生提供证明他们熟练性的证据？

第三个阶段是概念性评价框架（CAF），在前两个阶段的草图基础上，它会提供评估操作要素的具体细节以确定最终的蓝图，包括5 个关联的模型：学生模型、证据模型、任务模型、呈现模型和组合模型。概念性评价框架提供了一个正式的框架，用于指定要衡量的知识和技能、观察的条件以及支持预期推断而收集的证据的性质。

第四个阶段的评价执行就是具体执行评价工作，包括创建CAF 结构中描述的评价部分，例如编写任务、呈现任务、拟合测量模型、细化评分规则和提供实例、编程模拟、自动评分算法、收集反应、分析反应等。评价都需要一些程序，通过这些程序来挑选题目、运行考试、报道分数以及交流反馈。

最后一个阶段是评价发布，是通过交付系统形成的，包括呈现程序、反应程序、总结评分程序、活动挑选程序和任务/证据组合库。它描述了评估所需的学生、证据、任务等以及它们如何协同工作。

整个框架从语言能力构想到最终成绩发布是一个具有逻辑的完整的系统，其中概念性评价框架是整个框架的核心，可以说是整个框架的缩影，包含了语言能力构想、任务、评价标准等几个考试的核心问题以及它们是如何互相作用的。领域分析和领域建模是进行测试开发的前期理论性定义阶段，概念性评价框架是将这些能力更加详细化地落到实际操作上。TOEIC 的口语任务设计一方面与理论性定义阶段相关，一方面又关乎评价执行和评价发布最后两个阶段，口语设计也遵循ECD 模式这种层层递进的过程，每一步都有明确的步骤。

2.TOEIC 口语任务设计

TOEIC（Test of English for International Communication），又被称为托业考试，用于测试母语非英语人员在国际性环境中的日常英语能力[9]。TOEIC 考试虽然在20 世纪就已研发和实施，但最开始只有阅读和听力测试部分，不包括口语和写作测试。2005 年，ETS 与来自日本（IIBC）和韩国（YBM/Sisa）的业务成员进行探讨，决定增加TOEIC 系列的口语和写作测试，并在考试设计方面做出要求，如希望可以有更多的等级；在考试时间方面，口语和写作的时间约为90 分钟。

ETS 在开发TOEIC 的口语和写作测试之前已经将ECD 评价模式应用于托福考试中，鉴于此经验，在研发中要考虑平行试题形式的开发，而且必须有详细的任务规范，这些规范能够使命题者更加明晰口语能力和任务之间的关系，这也能够使口语的理论性定义在实际操作中得到充分体现，做到理论性定义与操作性定义的统一。最终研发者确定了任务设计分析实施步骤，TOEIC 口语任务设计与ECD 模式的框架对应情况如表1[10]所示。

表1 基于ECD 设计的TOEIC 口语任务设计

TOEIC 口语任务设计首先按照领域分析和领域建模阶段，对口语能力的整个理论和测试任务进行回顾，最后形成TOEIC 的口语能力构想以及对子能力的要求，列出与对应子能力相关的证据来源，以及影响任务难度的特征和评判标准。在此基础上，构建了有具体细节的任务模型，用来形成测试任务的模板，包括测量的内容摘要和任务模型，具体见表2。

表2 TOEIC 口语任务模型框架

任务模型由四部分组成，包括固定元素、变量元素、评分标准或题目以及变体。固定元素指的是在该任务的不同实例中保持不变的一类任务的各个方面。例如要求测试者完成任务的内容，以及任务组件的顺序和时间等。TOEIC 口语测试的固定元素包括刺激材料的确切长度；刺激、准备和反应的确切时间；并准确说明提示的性质。变量元素指的是可以在该任务的不同实例之间更改的任务类的方面，例如文本或主题的类型等，还包括这些元素的可能变体集。评分标准规定了评估考生回答的程序和标准。变体会定义好任务范围和特定主题区域或文本类型或任务框架定义的任务示例。

一旦创建了任务设计和任务模型框架，命题专家就可以根据内容专业知识和业务要求商定标准评估框架，这样可以维持同一类任务的多种变体的产生，有助于在测量某种口语子能力时，不会轻易被其他内容干扰。

三、对来华预科口语能力测试的启示

1.对汉语口语能力构想的启示

任务设计与能力构想紧密相关，在进行任务设计之前要明确口语能力构想。汉语与英语口语不同，在语音、语调、语气停顿等方面有着本身的特点，因此在汉语口语考试设计时要注意汉语的特点。

由于汉语口语水平考试的测试目的不同，在构建汉语口语能力构想时也不同。以商务汉语口语测试为例，与普通的汉语水平口语不同，商务汉语口语具有专业化、职业化的特点，其词汇和语法等方面都有自己的特征，如语体相对较为正式、表现形式包括独白和对话两种[11]。因此不仅要考虑基本的口语交流能力，还需要对考生的商务汉语口语能力进行分析。在此分析基础上，确定想要衡量的口语能力是被试 “能够有效地在日常和商务交流中通过汉语进行口语交流的能力”。还可以对更详细的商务汉语口语子能力进行要求，例如可以在特定的语境中谈论某事的能力可以细分为考生能够选择适当的语言进行日常的社交和商业交流（如产品介绍、回答用户的咨询等）。

对口语能力的界定和细化能够为接下来的任务设计等工作提供更好的帮助，而接下来的实际操作性工作也会进一步验证或者修正理论。

2.对汉语口语任务设计的启示

口语任务设计是连接语言口语能力理论和最终分数呈现的桥梁，并与两者息息相关，因此口语任务设计要在统一的结构框架中综合考虑这些因素。

在领域建模阶段，要根据口语能力构想和子能力进行任务设计，这些设计包括要列出相关证据的真实世界任务，例如在汉语口语能力的任务中，要求考生根据一些书面信息询问或者回答汉语教师或其他人提出的问题；还包括确定可能影响任务难度的特征，这些特征包括汉语阅读和听力材料的特征，这些特征是刺激口语能力表现的不同来源；确定评估任务性能的标准，例如汉语口语的清晰度和节奏、连贯和衔接等，这些都是在进行最初的任务设计时要考虑的部分。

在任务设计时还有一个重要的步骤就是尽可能多地列出每种子能力要求的证据来源，支持判断子能力所需的观察，这可以用来判断任务的适当性。传统设置任务的方法是建立语言使用者需要的任务列表，从中选择一些有代表性的任务，但是这些依赖特定领域中专家的知识、经验、技巧，具有较强的主观性，缺乏实际的证据来支持测验题目和所要测量的心理结构之间的关系[12]。因此，在进行汉语口语任务设计时，应该结合汉语本身的知识以及认知心理的任务，提取子能力对应的汉语口语表现行为。另外，由于口语测验任务是基于证据来源这样的设计特点，受试者在某个技能或知识上的强弱能够通过每项任务体现出来，学生和教师就能够有针对性地强化，进而促进学生的学习和教师的教学。

基础的任务设计完成后就需要将这些任务具体化，使用任务模型能够将任务的特征展现出来，使命题以及评分更具逻辑性。汉语口语命题者可以根据任务模型中要求的固定不变的任务性质选择真实的口语材料，在这个前提下可以选择不同类型和主题的文本。固定的任务性质决定了评分的规则，那么每一项任务采用总体等级评分还是分项客观指标评分或者其他方式就有了依据。

想要知道汉语口语水平测试在多大程度上测到了想要的口语能力，测验任务是关键。口语测验任务可以分为开放式任务和架构式任务[13]，初级的汉语水平学习者口语又可以分为“听-说”模式和口语独白模式[14]，从中可以看出测验任务由于本身特点以及语言水平等相关因素具有复杂性，TOEIC 的口语任务设计提供了一个具有逻辑的框架，对汉语口语测试的开发具有重要的参考价值。