王萌萌
(北京外国语大学,北京市 100089)
2003年,Bachman在Kane提出的“基于论证的验证模式”(Argument-based Approach to Validation)基础之上,提出了“测试使用论证框架”(Assessment Use Argument,简称AUA)。2005年,Bachman提出AUA框架应分为“测试效度论证”和“测试使用论证”两个阶段。2007年,Bachman和Palmer使从测试表现到测试效果和反向的两条推论链条形成补充,其双向流动性将测试的开发、解释或使用结合起来。Bachman和Palmer在2010年对AUA进行了全面阐释,根据韩宝成等(2013)的观点,“测试有用性论证概念与测试使用论证框架的提出绝非传统效度理论或验证模式的重新命名,而是对其进行的扬弃。”对测试进行解释和使用时,应按照受试在测试中的表现、记录、对于受试语言能力的解释、决策、效果顺序逐步推理。在推理过程中,应论证测试具备AUA框架中的一系列质量属性。
从2000年开始,美国教育考试服务中心(Educational Testing Service,简称ETS)着手对托福考试进行改革。2005年,ETS在全球推出了新托福考试,通过互联网进行(即Internet-based Test,缩写为IBT)。改革的主要目的在于使托福成绩的解释更加清晰明了,且要有理论依据,从而促进对考试的合理使用。ETS在Mislevy、Kane等人的理论基础上,提出了托福解释性论证的推理链条。与Kane的解释性论证不同的是,托福的论证链条中引入了“目标语言使用域描述”、“对全域分数的解释”以及“测试使用”,这和Bachman在2005年修订的框架有相似之处。在ETS完成新托福改革之后,AUA框架又进一步发展深化,根据更加全面的AUA推理过程来评价新托福考试,可以找出对该框架中的主张形成支持或反驳的证据,使对测试的解释和使用有理有据,同时也为未来优化测试的设计开发过程提供启示。以下将针对框架内的四项主张展开论据搜集和论证。
根据AUA框架,可以从考生完成测试任务的表现作为出发点,论证“测试记录具有一致性”这一主张,即测试分数在不同的测试任务、测试流程和受试群体中能保持一致性。
AUA框架可以提供一系列理由来支持这一主张。比如针对“同一测试中不同任务的得分具有内部一致性”这一理由,ETS对新样卷进行了Cronbach Alpha系数的计算,证明听力和阅读部分的内部一致性较高,写作与书面测验的老托福(Paper-based test,简称PBT)相似,但是口语的内部一致性低于预期(Chapelleet al.,2008)。基于框架中的“不同评分者对同一任务的评分具有一致性”这一理由,ETS对写作和口语的不同评分者的评分进行了相关分析,发现写作评分的内部一致性低于新托福改革之前的写作考试(Test of Written English,简称TWE)。
通过一致性的分析,新托福考试的样卷的听力、阅读、写作的内部一致性证据支持了相关理由,但是口语部分较低的内部一致性构成了反驳,口语部分的试题设计要做出相应改动。另外,写作评分者信度低于之前的标准化考试,也对一致性主张构成了反驳,为了保证评分者信度,ETS要对写作的评分者进行进一步的培训,保证其评分的公正、合理。
AUA框架中的主张之一是受试的表现能够代表测试拟测的语言能力,对受试测试表现的解释要符合五条标准,相应的理由如下:
1、理由一:要保证基于语言理论或教学大纲的解释的意义性
ETS按语言技能分别对听力、阅读、口语和写作的能力框架进行了修订。关于测试的语言能力理论依据,ETS借鉴了Canale、Swain以及Bachman的交际能力理论,认为托福考试理论构念中的语言能力包括语言知识(语法、社会语言、语篇知识)、策略能力和语言使用的语境等元素(Chapelle et al.,2008)。
2、理由二:要保证该解释对于所有受试具有公平性
ETS要保证托福考试的形式和内容不偏袒任何受试,测试任务的内容所包含的文化和语言信息对所有受试都是恰当的,所有受试都是机会均等的。
ETS开发了语料库,对语料进行了标记和分析,结果证明大量语料中的语言差异在于所属语域的不同,而不因学科门类和研究层次的不同而有显著差异,这为对不同学科专业的本科生、研究生具有公平性提供了有力证据。此外,与美国文化相关的语料过多也可能对受试造成冒犯,产生不公平不公正的后果(Chapelle et al.2008)。ETS在开发新托福考试时考虑到了应该回避以上这些消极因素。
3、理由三:保证解释对目标语言使用域具有概括性
ETS为保证测试任务特点与目标语言使用域中的任务有对应性,征求了重要利益相关人的看法,分别对不同学科专业的学生和教师进行了问卷调研,评估测试任务是否具有概括性、是否符合目标语言使用域中任务的特点等等。问卷调查得出了一系列结论:某些任务在目标语言使用域中并不那么重要,比如在听力测试中的判断听力材料是否跑题。然而某些任务尤为重要,比如听懂并理解材料的大意或其中支持性的观点,阅读并理解文章大意等等(Chapelle et al.,2008)。这些结论构成了支持理由的证据,证明了某些测试任务的概括性,同时证明了最终框架内容的合理性。
4、理由四、理由五:保证解释与所做决策具有相关性和充足性
为了保证解释与所做的决策具有相关性和充足性,ETS在官方指南(2006)中为决策者提供了托福PBT、托福CBT(computer-based Test)、托福IBT成绩对照表、与测试结果相关的百分等级对照表、如何设定测试标准的指导手册和相对应的语言能力的描述。在考试之后,ETS的分数报告不再只限于报告考生的英语水平和各单项语言技能成绩,还会提供一个诊断性报告让考生和接收院校了解考生的英语语言学习情况。这为接收院校合理地解读成绩,做出录取、分班、调整教学等决策提供了相关且充足的证据,也为学生了解自身语言能力并作出语言学习的正确决策提供了相关且充足的参考信息。
AUA框架中的主张之一为:均衡性和价值敏感性应体现在基于分数的决策上。即决策对于不同的受试群体来讲是均衡的,不受种族、性别的影响,要与教育和社会价值观及法律要求相吻合。
针对残疾人士,比如听力障碍的受试,ETS也提供了保障手段,他们可以申请选择不进行口语和听力测试,或者申请提供手语翻译。然而笔者认为,这正是摆在测试设计者面前的一道难题。首先,对于缺乏某些技能的测试试题的设计要合理,保证这些试题和其他形式试题具有一致性,保证对所有受试具有无偏性。其次,由于残障人士的特殊需求,测试时间和方式这两个变量也要进行合理调控,这两个变量是否会影响测试成绩和最后的决策还有待进一步研究。针对分数线设置和决策制度是否与其他受试一致,如何才能保证决策符合社会价值观和法律要求,截至目前ETS没有进行具体的阐释和论证。
AUA框架表明,使用测试和决策的效果应对利益相关人具有受益性。托福IBT考试的设计者对测试使用的有益性进行了相关的研究。测试结果严格进行保密,受试将在考试结束后15个工作日后查询成绩,同时会收到寄送的成绩单附件,成绩单中会对受试的各部分表现做出评价,官方指南相对应的语言技能的各级别能力的描述可以为考生提供有益的反馈。此外,针对语言教师,官方指南中的口语和写作部分提供了样题、不同得分的受试的回答实例、评分者的评语和话题清单。这些措施都具有受益性,可以帮助利益相关人有效地提高学习、教学和管理,并使利益相关人对测试结果有合理的认识和评价。
然而,由于新托福考试的目的之一是划定分数线并做出决策,某些培训机构培训学生“走捷径”,比如借助考试策略猜测答案等等,经过错误培训的考生在通过考试在国外学习时会遇到很多语言障碍,接收院校还要重新对学生进行再次培训,从而对测试的权威性和合理性产生怀疑,这一现象的存在对于测试的受益性构成了反驳。如何才能合理地设计试题避免消极的后效、对接收院校和参加过考试的学生进行进一步的追踪调研是ETS在将来需要面对的课题。
[1]Bachman,L.F.Constructing an Assessment Use Argument and Supporting Claims about Test Taker-assessment Task Interactions in Evidence-centered Assessment Design [J].Measurement:Interdisciplinary Research and Perspectives,2003(1):63-65.
[2]Bachman,L.F.Building and supporting a case for test use[J].Language Assessment Quarterly,2005(2):1-34.
[3]Bachman,L.F.Justifying the use of language assessment.http://www.oxford.co.kr/2007_oxford_day/ppt/bach2.pps.2007a,2007.
[4]Bachman,L.F&Palmer.Language Assessment in Practice:Developing Language Assessments and Justifying Their Use in the Real World[M].Oxford:OUP,2010.
[5]Chapelle,C.A.&Enright,M.K.&Jamieson,J.M.Building a Validity Argument For the Test of English as a Foreign Language TM[M].New York:Routledge,2008.
[6]Kane,M.An argument-based approach to validity[J].Psychological Bulletin,1992(112):527-535.
[7]Kane,M.Book review:Language Assessment in Practice:Developing Language Assessments and Justifying Their Use in the Real World[J].Language Testing,2011(28):581-587.
[8]韩宝成,罗凯洲.语言测试效度及其验证模式的嬗变[J].外语教学与研究,2013(3):411-425.
[9]美国教育考试服务中心.新托福考试官方指南[M].北京:世界图书出版公司,2006.