薛梅
2020年6月30日,中央全面深化改革委员会第十四次会议审议通过的 《深化新时代教育评价改革总体方案》中,首次提出“四个评价”——“改进结果评价,强化过程评价,探索增值评价,健全综合评价”。这是未来一段时期指导教育评价改革的纲领性文件。2018年教育部教师工作司就明确提出,出台“全面深化新时代教师队伍建设改革的意见”,大力提升教师专业素质能力和深化教师管理综合改革。教师测评素养是教师职业能力的重要组成部分。当前我国教师的测评理念存在一定偏差,测评知识有一定缺失,测评技能较低[1],加强教师测评素养迫在眉睫。在此背景下,Hughes《外语教师测试手册》(Hughes,A.2003:Testing for Language Teachers.2nd edition.Cambridge:Cambridge University ISBN:0 521 48495 2)推介恰逢其时。
《外语教师测试手册》由剑桥大学出版社授权外语教学与研究出版社在国内出版,是外研社和人教社联合推出的“剑桥英语教师丛书”中的一册,十余年来已经重印了10次,成为语言测试方面的经典之作。本书用浅显易懂的语言全面介绍了语言测试的基本理论和方法,对于尚未接触测试领域的语言教师来说是非常有价值的参考资料。
作者简明通俗地描述了信度(reliability)、效度(validity)、反拨作用(washback)等测试相关定义,对如何实际设计和实施反映这些测试要点的语言测试提出了建议,并提供了测试听说读写四项技能的具体技巧。
虽然这本书的初衷是为从事中等教育以上工作者而写的,但也有许多内容涉及到其他教育级别的教育情况。第二版又增加了专门介绍儿童语言能力测试的章节,以及有关测试技巧的章节,如综合能力的测试以及统计分析和建立题库数据库。书中所有例子都是关于英语作为第二语言的测试,但是测试技巧却可以推广到其他语言的测试。
全书由十四章构成,前两章简要讨论了测试与教学的关系。在第三章,Hughes描述了四种常见的语言测试方式,即:水平测试(proficiency tests)、学业成就测试(achievement tests)、诊断性测试(diagnostic tests)和分级编班测试(placement tests),并简要解释了每种测试所适用的条件。作者还比较了按照不同方法分类的几组测试:直接测试和间接测试(direct and indirect tests)、分立式测试和综合式测试(discrete point and integrative tests)、常模参照考试和标准参照考试 (norm-referenced and criterion-referenced tests),以及客观测试和主观测试(objective and subjective tests)。每种测试类型的解释和举例对语言测试的初学者都很容易理解。Hughes强调了一个观点,即教师和教育机构无论是测量输入性语言技能(阅读和听力)还是产出性语言技能(写作和口语),都应该尽可能采用直接测试而非间接测试方法。直接测试要求学生直接运用要测试的技能或能力,测试结果能够直接反映考生某一方面的语言能力,而间接测试指测试结果不能直接反映所要考查的语言能力,但是可以让测试人对考生语言能力有可判断的依据。作者认为,间接测试的首要问题在于难以确定所测试的样本是否真正体现了所要测量的语言能力。
在第四章,Hughes概述了四种效度:内容效度(content validity)、效标关联效度(criterion-related validity)、构念效度(construct validity)和表面效度(face validity)。作者认为,对语言测试,尤其对高风险的语言测试,应该运用定量和定性的研究方法进行效度验证,以确保实际测量的内容精确反映要测量的内容。但是,作者承认他描述的几种类型的效度验证过程,由于时间和资料上的限制,是很难甚至是不可能应用到教师自己的课堂上的。作为补偿,Hughes对教师出题的测试的效度验证提供了几条建议:
(1)制定清楚明了的考试规范。
(2)如采用间接测试,则尽可能多地采用具有典型性的测试范畴的样本。例如测试语法,语法知识是有关目标语言结构的全部知识,所包含的内容很多。语法测试能够做到的只是按照语言教学大纲,把语法分成很多个单项,然后从中取样用来测试。
(3)如有可能尽量使用直接测试。
(4)只对那些被测试的要素评分。
(5)确保考试的信度。
在第五章的开头部分,作者阐述了信度的概念和怎样测量信度。作者讲到了许多测量信度的方法,包括重测信度(the test-retest method)、副本信度(the alternative forms method)和分半信度 (split half method)。 Hughes还简要解释了真分数(true score)、测量标准误(standard error of measurement)和项目反应理论(Item Response Theory)的概念,以及怎样在语言测试中运用这些理论来测定信度。在该章的末尾部分,作者列举了几个供考试开发者遵循的原则,以促进应试者的表现和不同评分员之间评分的可信度,其中包括:排除那些不能很好区分学生成绩好坏的项目,以及让参加考试者熟悉考试形式和考试中应用的技术。
第六章主要涉及建立积极的反拨作用的建议,重申了前几章提到的问题。在第七章,Hughes详细叙述了建立有效的和可信的语言测试的十个步骤。前三个建议不仅适用于大规模考试,也同样适用于教师自己出题的小规模考试;而后七步尽管在实际操作中对大规模考试项目更加可行,但是从理论上讲是适用于指导教师自行出题的。
(1)提出问题,即要考什么和为什么要考?
(2)制定考试规范,即考试内容、方式、和预期的成绩等级。
(3)编写和通过同事的反馈来调整考试题目。
(4)在操母语者中进行非正式的试测。
(5)在非母语学习者中进行试测。
(6)对试测结果进行定量和定性分析。
(7)校准评分等级。
(8)效度验证。
(9)为应试者和考务人员编写考试指南手册。
(10)对考务人员进行考务培训。
在第八章,作者介绍了四种可用于测试一个以上语言技能的常见的试题类型:多项选择题、正误/是非判断题、简答题和填空题。尽管多项选择题具有减轻评分压力的优点,但是Hughes还是不主张出题者采用这种方式。他认为,设计高质量的多项选择题是很困难的,其次,可用于这种测试形式的材料也有限。他认为正误/是非判断题实际上是只有两个选择项的多项选择题,因此很容易造成应试者在测试中猜到答案。他认为简答题和填空题是很有用的考试题型。对各种题型优缺点的讨论是本书中很有价值的部分。
第九到第十三章介绍了写作测试、口语测试、阅读测试、听力测试以及语法和词汇测试的技巧与注意事项。介绍写作、口语和听力测试的四个章节有着相似的模式。首先,作者举例说明要测试的内容和技能。例如,在介绍口语测试的章节中,Hughes列举了测试规范的几个因素,即实际操作(考官提问、被试陈述、考官出具评分报告)、测试类型(如,讨论)、受众(对话者或听众)、话题、以及方言、口音和文体。作者还列举了可测试的更具体的口语技能,如表达喜好、进行比较和引起谈话。Hughes着眼于考试内容和能力的实际操作,其目的是为了鼓励试题开发者在设计试题时首先弄清楚他们到底要考什么,随后作者对发展试题的效度和信度提供了建议并举实例说明。例如,关于测试写作能力,Hughes有如下建议:
(1)提供尽可能多的单独的任务;
(2)只测试写作能力,不涉及其他;
(3)对应试者做出限定,使用有明确要求的任务并提供有限的选择。
作者列举的写作任务有:填写申请表、写一张明信片和根据一系列图片描述一个故事。尽管每一章节所举的考试题目都不是特殊的创新题型,但是却为读者提供了测试写作、口语、阅读和听力常用的题型。 在设计题目时使用真实材料的问题上,Hughes建议在测试考生与操母语的人进行交流的能力时,应该使用真实的阅读材料和语音样本。作者的测试真实性观点贯穿于全书,他认为某个语言测试题采用的内容和方法应该与测试的目的一致。最后,在写作和口语测试章节,Hughes对评分提出了建议,即制定评分指导语并实施评分。作者举例说明了分析评分法(analytic scoring)和整体评分法(holistic scoring),对建立评分登记做了分步骤的详细解释,并建议对评分者进行培训,讨论了怎样给予应试者反馈。
Hughes在第十三章中专门叙述了对语法的测试,作者关于语法测试的建议包括:
(1)选择典型的语法结构的样本作为测试对象;
(2)保证测试项目所用的语言是自然的;
(3)避免题目出现一个以上的答案。
在第十四章,作者提出对综合语言能力进行测试的三种经济的考试方法,即完形填空、C-tests和听写。虽然Hughes没有提供支持观点的实验数据,但还是对自己的观点做出了如下推理:“一种语言技能的表现通常能够合理地预测另一种技能,因为虽然写作与口语有不同之处,但是它们也有很多共同特征,最明显的是它们都测量了语法和词汇。”作者随后举例说明了这三种考试方法并讨论了每种方法的优缺点。
本书还提供了关于数据统计分析的附录。作者首先运用出版社网站上给出的数据资料解释了统计学基本概念,如算术平均数、中位数、众数、全距和标准差。然后,解释了运用多种统计手段计算试题内部信度的过程。附录部分还介绍了项目分析理论(item analysis),其中包括区分度指数 (discrimination indices)和Rasch分析。
作为一本为尚不熟悉语言测试的教师而写的入门书,《外语教师测试手册》有很多优势:对语言测试基本概念的介绍富有条理性,简明易懂,易于让初学测试的人接受,所举的实例也演示了怎样将理论运用于实践,所建议的测试方法是分步骤介绍的,在每一章的末尾部分都涉及了相关的学习活动并列出了建议的阅读文献。其显著特点主要体现在:
其一,理论与实践结合较好。几乎每个章节的模式都是简单介绍了基本理论后,以更大篇幅详细介绍如何将理论运用于实践,所提建议也都具有很强的可操作性。如,有些建议涉及到考试方法,有些建议是分步骤介绍的。在第七章,Hughes详细叙述了建立有效的和可信的语言测试的十个步骤。分步骤描述了试题开发过程后,作者列举了两个实例演示怎样将这十个步骤应用到实际语言测试中去。Hughes提供的这种分步骤的过程描述为不熟悉试题开发的人员的工作奠定了基础。在写作和口语测试章节,作者对建立评分登记做了分步骤的详细解释,讨论了怎样给予应试者反馈。
其二,作者重点讨论了测试与语言教学、语言学习的关系。在第一、二章,作者指出发展测试学的重要性不仅体现在准确地测量学生的语言能力,还体现在促进积极的反拨作用,即给语言学习带来有利影响。Hughes提出,为了鼓励积极的反拨作用,语言教师应该“测量那些你所要鼓励发展的语言能力”,他在整部书中都强调了这一观点。在第六章中还提出了如何创造测试良好反拨作用的建议,这对于读者正确处理好教学与测试之间的关系十分有益,可以帮助读者认识考试和教学之间的“伙伴”关系。
其三,本书涉及到语言教学技能的各个方面。不同于一般语言技能测试书籍只涉及到听说读写四个方面,本书全面介绍了听、说、读、写、语法、词汇等各方面的测试技巧和所应测试的能力。本书以大约三分之一的篇幅介绍了写作测试、口语测试、阅读测试、听力测试以及语法和词汇测试的技巧和注意事项,每一章都包含了大量很实用的有关语言技能各个领域测试试题设计的指导方针和建议。尤其是在第十三章,针对人们对语法和词汇测试的分立性,即作为单独技能进行测试的有用性的质疑,作者阐述了语法测试与词汇测试的意义,认为这两部分知识也是交际能力的一部分。
其四,本书的实用性强。在附录中讲解对考试结果进行分析所用的统计方法时,把统计学的专业术语降低到最低程度,将复杂的统计学知识限制在最基础的算术范围,统计的操作可以在计算器上完成,从而方便教师参考使用。同时,考虑到某些教师对统计方法有特殊的需求,作者特意在阅读书目中列举了有关统计方面的书。
当然,本书也存在一些不足。首先,书中有些章节在结构上的编排还可做一些改进,例如可在每章的末尾增加回顾本章节具体观点的小结部分,这样有助于把淹没在文章中的重要信息提炼呈现给读者。其次,书中建议的方法更适用于大型考试,对于那些想为他们的课堂设计小规模考试的教师来说实用性稍差一些。另外,本书虽然强调了交际测试的理念,但是没有提到测试社会语言能力的具体方法,而社会语言能力却是交际语言能力中的重要因素。最后,虽然本书包含关于数据统计分析的附录,解释了运用多种统计手段计算试题内部信度的过程,但在笔者看来仍然稍显简略,如果事先不具备统计学知识,读者可能无法运用书中的介绍,根据自己的数据实际计算出考试的信度。虽然附录让读者对几种统计分析有了基本了解,但是附录本身不能为读者提供实际运用这些统计分析的信息。
瑕不掩瑜,尽管具有局限性,Hughes的《外语教师测试手册》对于试图了解语言测试基本概念的语言教师来说依然是非常有用的资料。