《听力测试设计：实用方法介绍》评介

2020-01-10 19:56:41孙桐

考试研究 2020年4期

孙桐

一、引言

听力理解测量是一项复杂的技术，优质的任务设计是测试效度的重要保障（Field，2013），是听力测试开发和使用过程中的核心问题。尽管21 世纪以来，学界已围绕听力理解理论模型、听力理解策略、相关效度验证框架、特定任务特征及后效作用等话题开展了一定数量的研究（Buck，2001；Field，2008；Rost，2002，2011；Vandergrift and Goh，2012；Geranpayeh and Taylor，2013；Wagner，2014；Goh and Aryadoust，2016），但尚未有文献针对听力测试设计与开发的实践技术提供全面且深入细致的指导。针对这一空缺，Rita Green 凭借多年语言测试设计开发及培训的经验，撰写了《听力测试设计：实用方法介绍》（Designing Listening Tests：A Practical Approach）一书，介绍听力测试设计的科学原则、方法、步骤和流程，由 Palgrave Macmillan 出版社于 2017 年正式发行。该专著针对听力测试的设计与开发进行了全面系统的介绍，搭建了理论和实践之间的桥梁，为语言测试的开发者、使用者及研究人员的工作带来了便利。本文将介绍这一著作主要内容，总结其主要特色及不足之处，并提出改进建议。

二、内容简介

该著作共分七章，每章分别由一个简洁的问题作为标题引导，各章编排以严谨的逻辑顺序完整呈现了听力测试设计与开发的重要理念、步骤和程序等相关内容。第一章为全书引言和对听力测试开发流程的简介。第二章和第三章分别从测试设计细则（test specifications）和语音文件的开发利用等方面细致讲解了任务设计之前的准备工作。第四章和第五章详细介绍了不同听力测试任务类型设计中的注意事项、方法与原则：首先收集总结相关理念，其后通过实例分析，展示任务设计实践。第六章和第七章聚焦于听力测试的结果分析和使用方法，包括对听力任务试测及改进的探讨，以及测试分数的报告和解读方式。

第一章名为 “听力测试涉及哪些问题（What is involved assessing listening?）”，是该书的引言，言简意赅地介绍了听力测试的基本问题，作为其余章节的基础。作者首先追随听力理解研究的最新成果，基于Field（2013）的理论模型探讨了听力理解过程的本质和特点。其后，分别从听力的目的、听者特征、听觉输入的特点以及口头和书面用语的差异等方面介绍了听力理解的多样性。在此基础上，该章总结了影响听力理解难度的主要因素，包括与语音材料的性质、信息加工的复杂性、听力输入、听力任务、收听环境以及说话者和听者自身相关的一系列特征。最后该章解释了听力的用途及听力测试的重要意义，并在小结中完整介绍了听力测试开发的循环性流程。该流程从测试开发者培训、试题设计的准备工作开始，直到测试实施后的结果分析，共16 个主要步骤，各步骤之间存在较为错综复杂的联系。

第二章名为 “测试设计细则有何助益（How can test specifications help?）”，全面介绍了 “测试设计细则” 的概念、涵盖的内容及使用原因，并在小结中为读者提供了普适的测试设计细则模板。这一章开篇指出，测试设计细则应在测试正式设计之前撰写，它是考试设计的纲领、规划和蓝图，在测试开发全程中都发挥着关键作用。随后描述了听力测试设计细则中应包含的各方面信息，包括测试目的、考生特征、测试构念、听力材料以及任务设计等方面的详细规划。作者指出，测试设计细则是听力测试质量的重要保障，有利于构念界定的明确性、任务与测量目标对应的合理性，还可有效促进测试开发团队的合作成效。最后，第二章以一个表格（表2.6）作为测试设计细则的模板，并将该章主要内容在表中作了总结。

第三章名为 “如何开发声音文件（How do we exploit sound files?）”，详细讲解了帮助听力测试科学选材的 “语篇制图（textmapping）” 技术。该章在介绍了 “语篇制图” 技术的缘起之后，对这一概念进行了界定，并描述了其基本特征。语篇制图是测试开发中对音频材料或文本内容集体意义构建的系统性流程。在听力测试中，语篇制图必须以音频文件为分析和判断的基础。参与者应将自己视为真实语境中的听者，而非测试设计者，并在收听语音文件后根据特定要求汇报自己真实理解的内容。对于每个独立的听力语篇，测试开发者需要至少与3 位工作人员合作，并确定大多数人对特定内容理解一致，该材料才能进入任务设计环节。其后，这一章详细探讨了三种不同的语篇制图流程，分别基于测量主旨要义（gist）、细节性信息（specific information and important detail，简称SIID）以及主要观点和支撑性细节（main ideas and supporting details，简称 MISD）的听力材料。这三种流程虽然在细节上有所差异，但都涵盖五个主要步骤：（1）合理选材并组织相关人员；（2）介绍语篇制图的目的和具体任务要求；（3）播放听力录音并记录听者收集的信息；（4）整理、分析相关信息，并以表格归纳多数人共同理解的意义；（5）根据语篇制图分析的结果，决定听力材料是否直接进入任务设计环节。第三章进一步指出，某些首次无法通过的听力材料，可以改变测量目标，并重复语篇制图的流程。在进行结果分析前，测试开发者还可调查听者对听力材料的难度、话题适切性及语篇长度等方面的感受，作为材料适用与否的辅助性证据。

第四章名为 “如何设计听力任务（How do we develop a listening task?）”，主要介绍听力测试试题编写中的实用方法和原则。这一章首先介绍了一种制作 “任务名片（task identifier）” 的实用方法，以便收集有关任务的重要信息。其后，探讨了任务设计中需重点考虑的因素，包括任务说明、测试方法、听力材料、输入和输出形式、外观设计以及评分等多个方面的问题。作者重点总结了听力测试中常见任务类型如多项选择题（Multiple Choice Questions）、简答题（Short Answer Questions）和多项匹配题（Multiple Matching）的特点，并详尽列举了任务编写的各个方面及同行审查（peer review）中的注意事项，为试题设计的实践工作提供了实用参考。

第五章名为 “何谓优质的听力任务（What makes a good listening task?）”，对一系列典型的听力测试任务设计进行了细致的评析。该章共选择了八个听力任务，涵盖了第四章中提及的多项选择题、简答题和多项匹配题全部三种任务类型。前三个任务为不同形式的多项匹配题（问题与答案的匹配、图片匹配题和句子首尾匹配），任务四和任务五为问答形式的简答题，任务六为填空类简答题，任务七为图片选择题，任务八是四选项的多项选择题。对于每个任务，作者主要从语音文件和任务特征等方面对其设计进行评价；对于任务特征，从听力能力（listening behavior）、测试方法的适切性和外观形式等三个方面分别评析。最后，该章总结了一个合格的听力任务所具备的五种特征：任务构念的有效测量、清晰明确的任务说明、合理的测试方法、适切的选材以及合适的语音材料。

第六章名为 “如何知晓听力任务的效果（How do we know if the listening task works?）”，详细介绍了听力测试试测阶段的实践工作。这一章首先指出了试测的重要意义，并讨论了其对测试开发各个环节以及任务设计不同方面的益处。其后，详细说明了听力测试试测准备和实施过程中需注意的问题。最后，介绍了试测结果的处理方法。在讲解数据分析的用途之后，作者列举了试测需汇报的量化指标（作答频率、区分度、信度和难度系数等），并讲解了基于数据分析结果的不同决策（测试项目的弃用、改进及存档）。

第七章名为 “如何报告分数并设置合格标准（How do we report scores and set pass marks?）”，主要介绍了听力测试分数汇报和标准设定（standard setting）的方法与原则。该章首先介绍了测试分数报告的不同形式和主要方法。其后，对标准设定的概念、意义及过程进行了详细的讲解。所谓标准设定是测试通过科学的方法和流程设立其分数线的过程，该章以CEFR 中的听力水平等级为参照标准，描述了对相关人员进行培训的方法以及设定分数线的操作程序。此外，这一章介绍了 “测试人员会议（stakeholder meetings）”，作为在条件有限的情况下，标准设定的另一种形式；还建议以提供任务样例和网站建设等形式，作为标准设定的补充性信息的来源。最后，该章还简明地论述了测试结束后项目分析的必要性，并指明了相关的统计方法。

三、主要特色

《听力测试设计：实用方法介绍》是学界首部系统全面地介绍听力测试设计与开发的著作，为听力理解研究、听力教学及测评的理论和实践之间搭建了桥梁。在现有的经典著作中，Buck（2001）对听力测试的理论和实践进行了综合性介绍，Rost（2002，2011）和 Field（2008）主要关注听力理解过程的本质以及听力教学中的重点问题，Vandergrift和Goh （2012）聚焦于听力测试中的元认知策略，Geranpayeh 和Taylor（2013）的著作则围绕听力测试的 “社会认知效度验证框架（Socio-Cognitive Validation Framework）” 进行。这些著作虽然或多或少地包含了听力测试研发的问题，但从未面面俱到、细致入微地讲解过测试任务设计和开发的步骤、流程及原则。 Rita Green 的著作填补了学界对听力测试设计与开发实践性指导的空缺，使得众多语言测试开发人员、研究者、教师以及教材开发者能够遵循系统规范的流程，设计出高质量的听力测试任务。相关程序按照其逻辑顺序，贯穿于全书各章节中，具体步骤经过串联，形成了一套清晰、严谨、精密的循环性的流程（见著作1.7.1 小节），便于读者学习参考。

该著作的具体内容也独具特色，主要体现在听力材料的选择、多样化的任务设计和全面的典型案例分析等三个方面。首先，对于听力测试的选材，该著作在第三章中主张以 “语篇制图” 的方法，尽可能还原真实的听力理解语境，并通过征求大多数听者的统一解读方式，科学严谨地判断候选语音材料是否适合测量选定的听力技能。这一轮筛选注重听力材料的真实性和实用性，可以为后续的任务设计环节节省时间和精力，是著作中的一大亮点。其次，该著作还对不同任务类型在设计方法和原则方面的差异进行了细致的辨析和探讨。第四、五两章中，听力任务被分为三个主要类别，分别为多项匹配题、简答题和多项选择题。特别值得称赞的是，听力多项匹配题在该著作中被视为独立的任务类型，其独有的特色也得到了充分重视，这比起认为该任务类型是 “多项选择题的一种变体” 的传统观点（Elliott and Wilson 2013：166）无疑是一种进步。再次，针对三个主要类别的听力测试任务，该著作在第五章中以八个鲜明生动的任务实例分析，展示了丰富多彩且科学严谨的任务设计，彰显了语言测试的科学与艺术。这些任务用途广泛，在不同水平的标准化测试、听力教学、课堂评价以及教材开发中都可应用。

四、有待改进之处

这一专著当前内容为2017 年发行的第一版，难免存在一些不足之处，有待在未来版本中不断改进。本文在此提出四个针对细节性内容的建议。

首先，该著作中涵盖的测评形式和内容尚且比较局限，现实中的听力测试任务设计开发往往较之更为复杂。例如，听力测试中的视觉元素研究当前颇受关注，学界一直在探索视频和图片辅助型听力任务的理论价值及应用效果（如 Batty，2015；Suvorov，2015），相关研究反映了听力评价研究的一种未来发展趋势（Wagner，2014）。遗憾的是，视觉元素虽然在Green 的著作中有所涉及，但并未作为重点深入探讨（Yang and Wu，2017）。建议该著作在未来版本中详细介绍听力测试的配套视频、静态照片及图表等内容的设计方法和使用原则。

其次，该著作对多项匹配题的设计原则和任务特征的部分认识还有待商榷。第四章中提到匹配任务在试测中应设置干扰项，以避免 “完美匹配（perfect matching）” 的情况（Nitko and Brookhart，2011），降低考生以排除法猜对答案的可能性。但在多项匹配题任务设计的实践中，干扰项的设置主要针对每个选项只能使用一次的匹配任务，而对于每个选项可使用不止一次的情况，干扰项的设置就并非是必需的。如CPE 听力测试2013 年以前曾经使用的 “三项匹配题（3-way matching）”，全部项目共享三个可允许多次选择的共同选项（Boroughs，2003；Elliott and Wilson，2013）；以及 FCE 测试“阅读和语言运用” 部分沿用至今的段落匹配题，实质上是一种 “四项匹配题（4-way matching）”，比三项匹配题多一个选项，同样不设干扰项（孙桐，2019）。此外，第五章任务三的句子首尾匹配题（名为A Diplomat Speaks）中，由于很多句子开头和结尾的语法结构和内容差别较大，可能会导致考生容易根据题干和选项的内容猜对答案，这一问题必将损害该任务的效度。新版著作可考虑改进任务设计或更换案例。

再次，该书对 “简答题” 的分类似乎有欠精准，因其囊括了直接回答问题以及句子填空等多种形式。在一些标准化听力测试中，简答题的界定十分明确具体，如 Field（2013）、Elliott 和 Wilson（2013）都将Green 所指的“简答题” 称为“建构性作答方式（constructed response format）” 的任务，包括 “ 句子及摘要填空题”、“图表填空题” 和 “笔记填空题” 等类别。在 IELTS 中，“简答题” 仅限直接以简短的文字回答问题的任务，独立于与另外几种填空任务（Cambridge English Language Assessment，2016）。因此，建议该书选用 “建构性作答方式” 这一概念，或对 “简答题” 的概念及分类做出明确、清晰的阐释。

最后，第二章末尾处提供的测试设计细则模板内容太过笼统，真实性有限。建议使用一个标准化听力测试的实例，并置于附录中。此外，可考虑在表格中总结详细的任务特征，并呈现具体任务与测试构念之间的对应，如此可增强内容的指导性。

五、结语

作为首部全面系统介绍听力测试设计开发的著作，该书虽然存在不足之处，但其重要价值不容忽视，可为标准化听力测试、听力课堂测评设计与应用、听力教材开发以及听力测试学术研究提供理论支持和实践指导。可将该著作作为重要参考，评价和反思我国听力测试设计与开发的实践工作，提高测试开发者和使用者的评价素养，促进相关领域的发展。