闵尚超
对测试效度的验证是语言测试领域永恒的主题,众多专家学者也相继从不同角度提出了不同的理论与方法,试图帮助测试开发者与使用者进行效度验证。但是,以往的这些理论均过于笼统抽象,在实践中可操作性不强。而Bachman与Palmer在其新著《语言评估实践》一书中正式提出的“评估使用论据”(assessment use argument)方法则弥补了这一不足。在该书中,作者将其近几年一直倡导的“评估使用论据”方法运用于具体的评估实践中,首次实现了对具体的评估进行效度验证指导,突破了以往的效度验证理论仅在理论上有所指导这一局限,对语言测试理论与实践的发展做出了重要贡献。
全书共分为四大部分。第一部分提出了语言评估开发和使用的理论框架。作者首先厘清了几个相关术语,指出在本书中对测试(test)和评估(assess)这两个概念不做严格区分。作者接着介绍了贯穿本书的核心理论——“评估使用论据”。该理论主要基于Toulmin(2003)的“论据结构模型”(argument structure model),并在该模型上有所拓展和创新。其论证结构由五个部分组成,即,主张(claim)、理由(warrant)、依据(backing)、反证(rebuttal)以及数据(data),其中,主张为其理论框架的核心部分。通过四条主张,“评估使用论据”能有效地描述评估后效(consequences)、决定(decisions)、解释(interpretations)、评估记录(assessment records)以及考生表现(test taker's performance)这五者之间的线性循环关系。该部分还概述了语言使用和语言能力的本质、语言使用任务的特点、如何证明对语言评估任务的使用是合理的,等等。作者认为,对语言使用本质的了解能够帮助我们更好地理解如何把评估结果概推到某一具体语言使用场景;对语言能力本质的了解则是不可缺少的,因为语言能力是所有语言评估考查的对象;语言使用任务特点框架则为我们证明语言评估中的任务与现实生活中考生需要完成的任务具有一致性提供了一个衡量标准;向评估相关者证明对语言评估任务的使用或者根据评估结果所做的决定具有合理性是评估开发者和使用者的基本责任,而最好的证明方法则是采用“评估使用论据”。
第二部分引用多个实例全面介绍了构建“评估使用论据”的全过程。“评估使用论据”的四条主张具体为:(1)评估后效以及决定对所有评估相关者均具有益性(beneficence);(2)根据评估所做的决定考虑了已有的教育观念、社会观念以及法律要求,并且该决定对所有评估相关者均具有公平性(equitability);(3)对所考查的能力的解释具有意义性(meaningfulness)、公正性(impartiality)、概推性(generalizability)、相关性(relevance)以及充分性(sufficiency);(4)在不同的评估任务、不同的评估程序中,不同的考生群体的评估记录具有一致性(consistency)。该理论框架提供了步骤式的方法,明确指出,如果研究者是设计评估,则应该从第一条主张开始,即,先探讨使用该评估是否对社会具有有益性,然后再依次证明第二条、第三条、第四条主张;如果研究者是对评估进行解释和使用,则应反向而行,即,从第四条主张开始,先证明考分的一致性,然后再依次证明第三条、第二条以及第一条主张。为了详细阐述这四条主张以及支持各主张的理由在整个评估开发和使用中是如何发挥作用的,作者采用一项低风险形成性评估和一项高风险终结性评估作为例子,详细探讨了如何在具体的评估中,通过给出相关理由来证实主张的正确性,从而向评估相关者证明该评估的开发与使用都是合理的。同时,该部分指出,从具体操作实践的角度看,语言评估的开发与使用可分为五个阶段:初始计划(initial planning)、设计(design)、操作(operationalization)、试测(trialing)和评估使用(assessment use)。这五个阶段总体呈线性发展趋势,但每个阶段之间又相互影响。具体而言,在初始计划阶段,评估开发者根据一系列原则,做出选择,决定是修改已有评估还是重新开发新的评估;在设计阶段,评估开发者研制设计说明,其主要作用是指导接下来的操作、试测和评估使用;在操作阶段,评估开发者研制设计蓝图(blueprint),并根据该蓝图进行命题,然后把已命好的题目组织成一项完整的评估;在试测阶段,评估开发者对一群受试进行试测,收集信息,分析并完善评估;在评估使用阶段,评估使用者根据考生的评估记录做出决定。
第三部分探讨在真实世界中开发与使用语言评估的过程。由于评估相关者与评估场景的可变性、现实生活中的不确定性以及资源的有限性,评估开发者和使用者在实际操作中需考虑现实情况,有时不得不采取折中的办法。该部分描述了真实世界中开发和设计语言评估项目的每个具体步骤,包括研制设计说明、设计评估任务、记录考生在评估中的表现、制订命题细则、准备考试指令、收集反馈信息等。同时,作者把“评估使用论据”贯穿于现实世界中开发与使用语言评估的具体步骤中,从而实现了理论与实践在现实世界中的结合。该部分也讨论了开发语言评估过程中合理分配和管理资源的问题。作者指出,资源包括人力资源、物力资源以及时间。资源分配以及管理在评估开发过程中起到非常重要的作用,因为它决定了整个评估的开发是否具有可行性。最后,作者强调评估开发者和使用者有责任保证评估的使用方式、根据评估所作的决定以及评估后效对所有评估相关者都具有公平性。
第四部分提供了三个不同的评估开发项目实例,即,幼儿园英语学习者口语与写作评估、大学英语阅读分级评估/豁兔评估(placement/exemption)、大学基础汉语口语评估。前两项评估为贯穿全书的两个主要例子,即前文所提到的一项低风险形成性评估和一项高风险终结性评估。作者再次详细提供这两项评估的整个开发过程,目的在于给读者参与实践的机会,帮助读者更好地理解不同评估在开发过程中所需考虑的不同方面,最终使读者掌握如何在语言评估开发与使用过程中灵活地运用本书中提供的“评估使用论据”方法。
本书是Bachman与Palmer继1996年推出《语言测试实践》后的又一大力作。1996年的《语言测试实践》以“测试有用性理论”(test usefulness theory)为框架,主要关注语言测试的开发过程以及分数解释,而本书则以“评估使用论据”为框架,其关注重点也不再局限于语言测试开发过程或分数解释,而是拓展到语言测试的使用。同时,作者在本书中,对Bachman(1990)以及Bachman与Palmer(1996)中提出的语言使用模型进行了修正,语言使用任务特点框架进行了完善,探讨了现实世界中面临资源的有限性时如何开发和使用测试,并且明确指出了测试开发者和使用者在测试开发与使用的各个阶段各自应承担的主要责任和次要责任。
本书的最大贡献在于第一次系统地提出“评估使用论据”这个理论框架。作者在本书中正式提出这个框架前对其进行了九十次修改,足见作者的用心。该理论的提出对语言测试领域的巨大贡献在于:
(1)以往的理论只是简单地列出语言测试的各个重要属性,如,Messick(1989)的“整体效度观”中的四项、Bachman与Palmer(1996)的“测试有用性理论”中的六项、Kunnan(1997)的“测试公平性理论”中的五项,均没有阐述其各个属性之间的关系,似乎表明这一系列属性的简单相加就等于其所提倡的“效度”、“有用性”以及“公平性”。而“评估使用论据”则是通过具体的主张和理由把各个重要属性有机地联系起来,从而弥补了这一不足。
(2)以往的理论要么关注测试开发,如Mislevy等(2003)的“基于证据的方法”(evidence-centered design),要么关注测试使用,如Kane(2006)的“基于论据的理论”(argument-based theory),而没有探讨测试开发以及测试使用之间的关系。而“评估使用论据”不仅同时关注两者,并且通过提供一个强大的理论框架以及一系列操作步骤,实现了对两者的有机联系。
(3)以往的理论均没有明确区分测试使用中的“决定”和“后效”这两个概念,而是把两者混为一谈,不利于进行效度验证时更清楚地寻找各自的论据。而“评估使用论据”对这两个概念进行了细分,并且详细阐述了两者之间的关系。
(4)以往的理论主要源于定量主义的传统,关注效度的心理计量层面,而忽略了定性方法对测试效度验证所能带来的巨大益处。而本书通过“评估使用论据”指出,除量化的考分以外,质性的描述也应作为考生能力体现的证据,从而有利于把通过定性方法、自然主义方法以及记录片方法等收集到的证据作为评估使用论据的一部分,突破了以往过度偏重于定量测量的做法。另外“评估使用论据”把测试的公平性(fairness)、问责制(accountability)等效度的社会层面概念也融入到了其框架范围中。
(5)以往的理论主要以信度、效度、真实度、后效等核心概念为基础,但是这些概念均存在界定过宽或过窄的问题,如,信度这一概念在过去的研究中常被研究者有意识或无意识地等同于Cronbachα系数,间接导致了对影响一致性的其他因素(如,考试说明、施测步骤等)的忽略。换句话说,信度这一概念不足以概括所有影响一致性的因素,存在定义过窄的问题。而“评估使用论据”不再沿袭过去的这一系列概念,而是采用“一致性”取代“信度”,“意义性”和“概推性”取代“构念效度”,等等,从而能够更好地指导研究者在进行效度验证时采用多方面的证据。
诚然,本书也存在一定的不足之处。第一,作者在探讨测试后效时忽略了测试开发和使用的政治环境。而事实上,测试与政治的关系密不可分,Shohamy(2001)甚至认为考生是特定政治环境下的政治对象(political subjects)。本书如果能够深入挖掘语言测试的政治层面,其所倡导的“评估使用论据”这一理论体系将更加完善。第二,作者在“评估使用论据”中,采用“相关性”、“充分性”以及“概推性”这三个概念取代了传统的“真实性”。虽然从理论上看,对“真实性”的细分有利于更清楚地指导研究者寻找相关证据进行效度验证,但是这三个概念本质上并不存在区别,只是一个度的问题。所以在实际效度验证操作中,支撑这三项的证据很可能为同一数据,因此会导致整个论证过程存在赘述的问题。第三,作者完善后的语言知识框架仍忽略了语言的政治功能与伦理功能。而事实上,由于各国历史文化传统的差异性,对语言的本质以及作用的理解是千差万别的。如,中国的《论语》中提到“一言兴邦,一言丧邦”,“君子一言以为知,一言以为不知”,分别强调了语言的政治功能与伦理功能,这与西方认为语言是用来改变他人行为的观点是截然不同的。所以,本书关于语言功能的观点是否能放之四海而皆准还有待商榷。