Toulmin推断模型在考试效度论证中的应用

2012-01-03 09:21陈宁

中国考试 2012年4期

陈宁

陈宁

Stephen E.Toulmin是20世纪下半叶最有影响的哲学家之一。他创立的实用推断模型已被应用于众多领域，包括教育和心理测量。在介绍Toulmin推断模型的基础上，本文着重阐释了基于推断的效度论证及Toulmin模型在效度论证中的应用（以新托福的效度论证为范例）。最后，为推动相关工作在我国的开展，文章提出了3点建议：（1）重视考试的效度论证；（2）积极尝试运用Toulmin模型开展考试效度研究；（3）以效度论证推动考试改革。

Toulmin推断模型；效度论证

Stephen E.Toulmin（1922—2009）是 20世纪下半叶最有影响的哲学家之一。1958年，他提出了实用推断的主张，并据此创立了“六要素推断法”，即Toulmin推断模型（以下简称“Toulmin模型”）（Toul⁃min,1958）。半个多世纪以来，Toulmin模型在众多领域得到了卓有成效的应用，显示了广阔的应用前景。20世纪90年代，Kane（1992）把该模型引入教育和心理测量中的效度论证，为效度论证提供了一个较为科学的思路和框架。

1 实用推断与Toulmin模型

1.1 实用推断

实用推断源于与形式逻辑截然不同的两个基本观点：

1.1.1 理据同样需要证明

形式逻辑中的三段论武断地认为，前提本身毋庸置疑，不需要证明，而Toulmin认为，很多时候，导出结论的理据本身并非不言而喻，同样需要证据来支持。

1.1.2 观点在先，证明在后

形式逻辑认为，推断是通过推理导出新的观点，而实用推断认为，推断是在推理过程中验证和筛选既有观点，或者说，首先要给出一个感兴趣的观点，然后提供该观点正确的理由。

由此可见，传统的形式逻辑是绝对主义的纯理论推断。相比之下，实用推断反映现实，更能满足实际需要，是Toulmin模型的理论基础。

1.2 Toulmin模型的基本内容

基于实用推断的主张，Toulmin认为，推断是由素材（grounds）、依据（warrant）、声明（claim）、支撑（backing）、限定（qualifier）及反驳（rebuttal）6个要素组成的。这6个要素以及它们之间的内在关系构成了Toulmin模型，如图1所示。

图1 Toulmin推断模型

推断即由素材推导出声明，推导遵循依据。素材、声明和依据是Toulmin模型中的三个基本要素。

支撑支持依据或证明依据成立。在获得充分的证据之前，依据只是一种假设。

表明声明强度的词语被称为限定，如“或许”、“可能”、“大多”、“一般情况下”等。

有的情况下，依据不成立，进而推断也不成立。这种情况被称为“反驳”。

在有些推断中，支撑、限定或反驳不是那么显著或重要，被称为Toulmin模型中的备择要素。

例1：他多年工作在教学第一线。凭经验，他认为，一般情况下，高考数学成绩好的学生大学数学也会学得较好。

上面这段话包含着一个推断。“大学数学也会学得较好”是推断的结论，即声明。这一结论的基础是相关学生“高考数学成绩好”，此所谓素材。由“高考数学成绩好”推导出“大学数学也会学得较好”是“凭经验”，此所谓依据。

说他有经验，证据或支撑是“他多年工作在教学第一线”。“一般情况下”是对声明的限定；与此同时，它所隐含的“特殊情况”则会使结论不成立，此所谓反驳。

例2：（全模型回归方程和逐步型回归方程）都是在0.99水平下显著，表明X与Y之间的线性关系是极显著的，即大学变量与高考变量的线性相关关系极为显著……因此，利用高考成绩和回归方程可以较好地预测大学一、二年级的学习成绩。

上面这段话选自一个关于大学学习成绩与高考成绩关系的实证研究（高晶、陆仲伟，1994）。这段话包含着一个推断：高考成绩X是素材，大学一、二年级的学习成绩Y是声明，联结二者的依据是表明它们存在显著的线性相关关系的两个回归方程。

依据的支撑是用多元统计中的回归分析进行的实证研究。“较好地”是对声明的限定。方差分析表明，大学成绩变量与高考成绩变量的线性相关关系极为显著，但个别情况下仍可能显著偏离这种线性相关关系，此谓反驳。

实际上，Toulmin模型凸显了推断的证明功能及推断者的责任：提出声明的同时，推断者有责任说明声明的来龙去脉，并在声明受到挑战时进行辩护，也就是说，要“把它做好，并证明它是站得住脚的”（Toulmin,1958），而这正是考试效度论证要做的。

2 基于推断的考试效度论证

2.1 效度和效度论证

要理解基于推断的考试效度论证，首先要准确理解教育评价中的两个重要概念——效度和效度论证。

关于效度和效度论证，《教育与心理测量标准》（APA,AERA,&NCME,1999）开宗明义：

效度指的是证据和理论支持测验的意向性用途所必然要求的测验分数解释的程度。因此，开发和评估测验时，效度是最根本的考量。效度论证过程涉及累积证据，为的是给意向性分数解释提供一个合理、科学的基础。评估的是意向性用途所要求的测验分数解释，而非测验本身。

这段话清楚地表达了以下几层含义：第一，效度直指测验结果的解释和使用。第二，效度不是一个测验的静态属性，而是关于测验成绩解释和使用的合理性的动态观点。第三，一个测验质量如何，关键是看成绩解释和使用在多大程度上是合理和有效的。第四，归根结底，效度论证就是要论证解释和使用测验结果的合理性。第五，为效度论证，要累积证据。效度论证的过程就是开发、收集、使用相关证据的过程。

可是，“效度是简单的，效度论证会是困难的”（Kane,2009），实践中，如何为效度论证累积证据，累积哪些，累积多少，是必须面对的现实问题，而基于推断的效度论证为较好地解决这些问题提供了一个科学的框架。

2.2 基本构想

基于推断的考试效度论证的基本构想是：为了论证测验分数的意向性解释和用途的合理性，就要分析分数的意向性解释和用途所包含的支持性推断，进而论证推断的合理性。为论证推断的合理性，就要开发、收集相关理论和实证证据——既包括支持性的，又包括反驳性的。最终，把推断及相关证据整合成一个连贯的、令人信服的整体，就是效度论证。“通过把效度论证的努力聚焦于解释和用途中所固有的推断和假设，效度论证者可避免两个极端：一个是使用一些方便但有限的证据来源来证明一个雄心勃勃的解释和用途的合理性，另一个是承担一个不堪重负的要求——收集每一种可能的证据。”（Kane,2009）

2.3 推断和证据的种类和数量

效度被定义为对测验分数的意向性解释和用途的评估。从这个意义上讲，不管是在种类还是数量上，效度论证所需要的证据和推断都取决于测验分数的意向性解释和用途。如果分数的意向性解释简单直接，基本停留在对被观察表现的直接归纳上，效度论证所需要的推断和证据就很少，甚至根本不需要什么推断和证据。反之，分数的意向性解释超越被观察表现越远，效度论证所需要的推断和证据就越多（Kane,2009）。譬如，如果语文老师报告学生能够认读一千个特定的汉字，这个结果就可能被如数接受。如果该结果被用来证明学生的语文学得好，我们可能首先要问：语文学得好的标准是什么？为什么这些特定的汉字适合用作这个年龄和性别的学生甚至是学生总体的语文水平的量尺？可是，如果这些汉字的认读情况被用来证明学生的数学性向，我们就会置之不理。总之，在效度论证中，瞄准分数的意向性解释是至关重要的。

2.4 不同推断之间的关系

一般说来，大规模标准化测验分数的意向性解释和用途要包含若干个推断。各推断按一定次序逐级递进。也就是说，每一个推断的成立都是后一推断得以推进的基础。宣称一个意向性解释和用途有效，就意味着该论证是连贯的，所包含的推断和假设都被证明是成立的（Kane,2006）。相反，任何一个推断不成立，后续推断都不可能成立，进而分数的意向性解释和用途就是不合理的、无效的。

3 基于推断的效度论证的应用——以新托福为例

新托福考试（又称“托福网考”，英文简称TOEFL-iBT）是应用Toulmin模型开展效度论证的典范，下面作简要介绍。欲了解细节者，请阅读Chapelle,Enright&Jamieson（2008）。

3.1 6 级推断

如图2所示，指向分数解释（学术英语水平的证明）和使用（以英语为教学媒介的大学遴选国际学生的依据之一）的新托福考试的效度论证依次跨越领域描述（domain description）、评估（evaluation）、概化（generalization）、解释（explanation）、类推（extrapo⁃lation）和使用（utilization）6级推断。

3.1.1 领域描述

领域描述指的是，在分析目标领域（北美高等教育环境中的英语语言运用）（素材）的基础上，确定测验领域（听、说、读、写各语言技能及代表性任务），以准确获取分数解释的对象——考生在题目上的可观察表现（observable performance）（声明）。该推断的依据是，相关的可观察表现反映了目标领域的代表性情景中所需要的知识、技能和能力。

三项工作构成对依据的支撑：（1）应用语言学专家辨明了学术领域的典型任务；（2）应用语言学专家辨明了学术任务所要求的语言能力；（3）制定了题目模板（task shells）

3.1.2 评估

评估要得出的结论是，相关的观察表现（ob⁃served performance）（素材）被赋予了精确的观察分数（observed score）（声明），其依据是，观察表现得到合理评估，观察分数反映了目标语言能力。

三项工作构成了对依据的支撑：（1）专家们制定了评分标准；（2）专家们制定了题目作答模式；（3）对题目、各分项技能测验及相关分数进行了实证分析。

3.1.3 概化

概化连接的是精确的观察分数（素材）与一致的预期分数（expected socre）（声明）。该推断成立的依据是，观察分数是平行题目、试卷上及不同评分人间预期分数的准确估计。

五项工作构成了对依据的支撑：（1）实证研究表明，题目数量是合适的；（2）实证研究表明，题目结构是合理的；（3）选定了最佳评分策略；（4）制定了标定和等值方案。

3.1.4 解释

解释要得出的结论是，预期分数（素材）准确反映了目标构念（target construct）（声明），其依据是，预期分数的取得归因于目标构念。新托福的目标构念是学术英语水平。

四项研究结果构成对依据的支撑：（1）对题目作答过程和结果的研究表明，试题的设计是合理的；（2）与其他考试的相关度及因素结构（factor structure与期望相符；（3））考试成绩与英语学习的关系与期望相符。

3.1.5 类推

类推连接的是目标构念（素材）和目标分数（target score）（声明）。该推断的依据是对学术英语水平的评价反映了现实中语言运用的质量。

依据的支撑是：研究显示，考试成绩与课业安置情况、学生自评及教师评判是正相关的。

3.1.6 使用

使用连接的是目标分数（素材）与考试使用（声明）。也就是说，该推断的结论是：考试分数反映了考生间差异，这些差异使得高等教育机构能够确定合格分数，并在各自确定的合格分数的基础上做出相关决定（录取及课程建议）。这也是整个新托福效度论证的结论。该推断的依据是：从托福考试获得的有关英语运用质量的估值对协助录取、课业安置以及指导英语教学是有用的。

三项工作构成了依据的支撑：（1）制作材料并面向社会举行了信息发布会，仍需更多支撑。（2）制作材料并面向考试使用者举行了信息发布会，以帮助他们确定合格线，仍需更多支撑。（3）第一阶段的反拨研究已经完成，仍需更多的反拨研究。

新托福的开发大致经历了理论探究、制定框架、设计试题、设计分项技能测验、设计完整考试、考试定稿、最后分析7个阶段。各阶段任务不同，但均围绕这6个推断逐步深入地推进考试开发和效度论证。

3.2 关于限定与反驳

实际上，在新托福的效度论证中，各级推断的声明隐含着明确的限定，即总体上，各推断基于研究而得出的结论令人信服。尽管如此，对其中所隐含的不确定性，我们仍然要有一个清醒的认识。

图2 新托福的效度论证

3.2.1 确定相对的，不确定是绝对的

任何研究都有一个一般的假设，即不受无关因素干扰，或者说“其他条件均等”，而现实世界的纷繁复杂足以让这些“其他”足够不相等，进而构成例外（Kane,2009）。新托福的效度论证包含大量的理论和实证研究，无关因素的干扰及相应的例外自然是存在的，只是这些干扰和例外不具备显著意义罢了。

3.2.2 效度论证是一个不断深化和完善的过程

本文所介绍的新托福的效度论证是在考试开发过程中完成的，这决定了其局限性。实考数据将更为丰富和真实，将确认、充实或修订先前的论证。正如Chapelle（2008）所指出的，在新托福效度论证的最高级推断——使用中，要确信考试成绩得到了切实合理的解释和使用，仍需更多的支撑——仍需做更多的宣传，仍需获取更多的反馈，仍需做更多的反拨研究。

4 思考与建议

4.1 重视考试的效度论证

在效度的定义上，从测验本身延伸至测验的使用（包括使用的后果），不仅是测量研究者视野的拓展，更是测验开发者责任的担当。效度论证既是考试质量的求证，也是考试质量的说明。正因为如此，Chapelle（2008）提出，不仅要有面向专业人士或业内人士的专业版的效度论证报告，还要有面向诸如考生、家长等非专业人士的大众版的效度论证报告。只有这样，才能更好地保障公众的权益。

4.2 积极尝试运用Toulmin模型开展考试效度研究

由于缺乏科学的框架作指导，在证据获取上，传统的效度论证很容易产生随意性——选择易于取得的，放弃难于取得的；选择支持意向性结论的，放弃挑战意向性结论的。这样的效度论证主观、片面，很难服人。新托福考试成功应用Toulmin模型开展基于推断的效度论证，论证过程科学、严谨，值得借鉴和学习。

4.3 以效度论证推动考试改革

从本质上讲，考试改革都是某种形式的效度论证驱动的结果。

托福考试成绩是大学环境中英语运用水平的证明，因此成为英语国家的大学录取国际学生时的依据之一。自20世纪60年代诞生至今，托福考试一直引领着测量实践的潮流。然而，就是这样一个考试，它也是在应对挑战中不断地进行修订、革新。由于仅考查听、读不足以全面反映考生的英语应用水平，1979年，ETS推出了考查写的TWE（Test of Written English）考试。1986年，ETS又推出了考查说的TSE（Test of Spoken English）考试。听说读写都已涵盖，但考试的内容和形式仍不足以充分反映大学校园英语使用的实际，加之面对更具交际性的剑桥雅思（IELTS）考试的竞争，这才有了新托福项目，才有今天集听说读写于一身、更具交际性、更能反映考生学术语言水平的新托福。

反观国内历次考试改革，又何尝不是潜在的效度论证驱动的结果。以高考为例，全国统一高考制度的确立为社会大众提供了一条统一的进步通道，但在旧托福清一色选择题的影响下，加之要解决命题的随意性、评分的主观性和昂贵的考试成本等一系列问题，20世纪80年代中期，我国掀起了一波标准化考试的浪潮。一时间，选择题似乎成了无所不能、无所不包的万能题型。可是，过分倚重选择题所带来的弊端很快显现；人们反思，要考查求异思维和创新能力，除了主观题别无选择。于是，从20世纪90年代起，主观题的分量逐渐增加，主客观题的比例渐趋合理，科目内及科目间综合运用能力的考查成为高考的重要内容之一。

毫无疑问，高考内容和形式的改革为人才选拔提供了更加科学的依据，可问题是，它仍然是唯一的依据：对大学而言，千校一卷；对学生而言，命悬一线；对考试本身而言，它仅服务选拔。一句话，单一的考试承载了过多的功能和超重的使命。一方面，一次考试，准确是相对的，误差是绝对的，却还被过度使用——考试成绩本只能证明学生的学习成绩和学习能力，却无形中被当作所有能力的化身；另一方面，考试仅用于选拔，效能较低。正因为这些问题，才有《国家中长期教育改革和发展规划纲要（2010—2020）》中“分类考试、综合评价、多元录取”的高考改革思路，也才有用多元评价改造单一考试的宏伟构想。

[1]American Educational Research Association,American Psycholog⁃ical Association,&National Council on Measurement in Educa⁃tion.Standards for educational and psychological testing.Wash⁃ington,DC:American Psychological Association.1999.

[2]Chapelle,C.,Enright,M.,&Jamieson,J.Building a validity argu⁃ment for the Test of English as a Foreign Language.New York:Routledge.2008.

[3]Chapelle,C.A.,Enright,M.K.&Jamieson,J.M.Test score inter⁃pretation and use.In C.A.,Chapelle,M.K.Enright&J.M.Jamie⁃son,(Eds.),Building a validity argument for the Test of English as a Foreign Language(pp.1-25).New York:Routledge.2008.

[4]Chapelle,C.A.The TOEFL validity argument.In C.A.,Chapelle,M.K.Enright&J.M.Jamieson,(Eds.),Building a validity argu⁃ment for the Test of English as a Foreign Language(pp.1-25).New York:Routledge.2008.

[5]Kane,M.An argument-based approach to validity.Psychological Bulletin,1992：112,527-535.

[6]Kane,M.Validation.In R.Brennan(Ed.),Educational measure⁃ment(4thed.,pp.17-64).Washington,DC:American Council on Education and National Council on Measurement in Education.2006.

[7]Kane,M.Validating the interpretations and uses of test score.In R.W.Lissitz(Ed.)The concept of validity(pp.39-64).Charlotte,NC:Information Age Publishing,Inc.2009.

[8]Kunnan,A.Fairness and ethics in language assessment:Course readings:TESL 567A.Los Angeles:California State University.2003.

[9]Toulmin,S.E.The uses of argument.Cambridge:Cambridge Uni⁃versity Press.1958.

[10]http://www.philosophyol.com/pol/html/25/n-10325.html.

[11]高晶，陆仲伟.高考成绩与大学学习成绩的回归分析[J].丹东师专学报，1994（1）.

Toulmin’s Argument Model and Its Application in Test Validation

CHEN Ning

Being one of the most influential philosophers of the latter half of the 20th century,Stephen E.Toulmin created the practical argument model,also known as Toulmin’s model,which has been used in multiple areas,including educational and psychological measurement.Based on an introduction of the model,the article focuses on an explanation of an argument-based approach to validation and exemplified application of the approach with New TOEFL.In the end,with an aim to improve the practice of test validation in China,suggestions are made in terms of a)placing more importance in test validation,b)trying using Toulmin’s model in test validation,and c)promoting assessment reforms through test validation.

Toulmin’s Argument Model;Test Validation

G405

1005-8427(2012)04-0015-7

教育部考试中心