张允 高存
摘 要
高考英语写作测试虽深受业界关注,但仍有必要进一步规范测试开发程序。Bachman和Palmer提出的测试使用论证为考试任务的设计和传统意义上的效度检验提供了行动依据,以该框架指导高考英语写作考试任务的开发,可以科学规划任务设计程序,清楚认识任务开发过程中所需要完成的各项工作,同时也有利于收集测试合理化论证所需要的证据。
关键词
高考英语测试 写作考试任务 测试使用论证 测试开发
任何测试的使用都会对受众造成影响,所以,必须对测试使用进行合理化论证,以确保根据分数所做出的决策是公平的、产生的后果是有益的。[1]因此,一项好的写作测试远不止是简单地想出一个话题让学生去写,尔后根据我们的判断来对写作样本进行排序[2]。周群指出,我国高考现有考试设计缺少教育和心理测量理论指导,设计过程流于行政化程序,考试设计开发结果缺少质量保障[3]。高考英语在一定程度上也存在类似问题,其写作测试虽深受业界关注,但仍有必要进一步规范测试开发程序。鉴于此,本文将结合Bachman和Palmer提出的测试使用论证(Assessment Use Argument,简称AUA)探讨如何科学规划高考英语写作考试任务开发程序,以期为高考英语测试的整体效度论证提供合理化依据。
一、写作能力的界定
写作研究分为三大类,以文本为中心的研究视写作为文本产品,主要考虑在创造文本时可以利用的语言或修辞资源;以作者为中心的研究主要探讨在面临写作任务时优秀作者的行为,以寻求构建能够更好地帮助学习者习得这些技能的方式;以读者为中心的研究则将写作情境特征上升到文本最终能够达到的目的,认为作者选择话语的目的是与他人交往,其呈现个人观点的方式主要是为了方便读者理解[4]。这些研究从不同角度对写作的性质进行了阐释,其中涉及语言知识、交际目的、策略能力、修辞能力、情境以及体裁等多个因素,在设计测试任务时需要将这些因素结合起来才能更好地把握写作行为的全貌。总之,写作本质上是一个交际行为,仅仅掌握书面英语规范不足以确保交际的顺利进行[5]。写作是写作环境(如写作目的、目标读者等)与作者为完成写作任务、满足读者需求所采取的行动之间的一种磋商,其表述的清晰性和观点展示的有效性取决于作者聚焦、组织信息的能力以及正确使用语言规范的能力。
二、写作考试任务开发的理论依据
Hughes认为,在测量产出性语言技能时,直接测量更容易操作。[6]然而,“直接测量”这一表述本身并不确切,如同所有的心理测量、语言测试,不管是采用多项选择的形式,还是要求考生进行短文撰写,提供的信息都只是关于某一内在特质的间接指标[7],因此可以说语言测试从未对语言行为背后的真实能力进行过直接测量[8]。事实上,行为并不等同于能力,如果考生表现较差,其原因不一定是语言能力欠缺,也可能是情绪低落、对任务话题不够熟悉或者没有准确理解考试任务[9]。所以,仅仅因为某种试题不是多项选择题、就机械地选用它的做法是不明智的。
1.AUA框架
AUA框架为测试开发提供了新视角,更为传统意义上的效度验证提供了可付诸实践的理论模式[10],可作为高考英语写作考试任务开发的行动依据。根据该框架,测试合理化论证过程包括两个相互关联的活动:清楚表述AUA声明(claim),以支撑“后果”和“考生表现”间的联系;收集支持AUA声明的相关证据(见图1)[1]。
图1:AUA框架[1]
AUA借鉴了Toulmin提出的实用推理模型,采用“数据→声明”的推理机制。[11]在整个推理链中,上一推理做出的声明成为下一推理需要的数据。比如,最基层推理依靠的数据是“考生表现”,而推理得出的声明包括“测试记录”和相关质量属性,在下一个推理过程中,测试记录则成为推理依靠的数据,以此类推。Toulmin的实用推理模型还包括另外两个元素,即理由(warrant)和反驳(rebuttal)。反驳指挑战或拒绝声明中所含质量属性的陈述,反驳能否成立需要通过相关证据来证实。理由指阐释声明中一个或多个质量属性的陈述,同样需要通过相关证据来证实。
测试开发包括两个平行的过程,即测试合理化论证过程和测试生产过程。[1]测试合理化论证是为了使测试的预计使用合理化。测试生产过程包括策划、设计、操作和试测,目的在于生产测试产品。将两者相结合才能确保能够使用测试来达到期望的目的。总之,测试开发者的首要责任是使决策者信服测试记录具有一致性,基于测试的解释有意义,不存在偏见,具有概括性、相关性和充分性,同时开发者还必须了解需要做出的决策,以及测试使用期望带来的后果[1]。
2.考试任务的开发
操作阶段的重心是开发考试任务,包括两个阶段,即确定任务开发的具体情境和撰写相应的考试任务说明[1]。任务开发的具体情境主要有三种:(1)目标语言使用任务特征需要经过调整后方可用作考试任务说明;(2)目标语言使用任务可直接用作考试任务;(3)不存在目标语言使用范围,需要依据构念定义和考生特征来设计考试任务。
为确保对所测能力的解释具有概括性,需要界定和描述目标语言使用范围,并从中选取任务以作为考试任务开发的基础。Millman和Greece提出可以从两个维度对教育测量进行分类:所要做的推理类型(例如个人成绩、个人水平或群体成绩)和推理所适用的范围(例如所要做的推理是关于内容知识的掌握程度、认知或思维能力的获取、抑或是将来某个场景中的表现行为)。[12]在语言测试中,推理所适用的范围即为目标语言使用范围,包括一系列的任务或刺激、观测条件以及对反馈做出评价的原则[13]。该范围可大致分为两类:教学范围和真实生活范围。[1]前者的界定主要取决于推理类型,一项测试如果是用来检验考生对所学课程的掌握情况(即个人成绩或群体成绩),界定其目标范围就需要依据教学大纲、课程专家的判断和具体授课情况;如果是用来检验考生是否达到了规定的入学要求(即个人水平),则需要依据需求分析(例如调研胜任大学低年级学习的基本要求)。真实生活范围的界定则主要依据需求分析,例如衡量考生是否具备某一领域对外语能力的基本要求时,需要重点考虑该领域对外语能力的具体要求。
考试任务说明主要包括以下几个部分:考试构念的界定、考试任务的环境特征(如考试任务的时间分配)、任务输入和输出特征以及输入和输出的关系、记录考生行为的方式和任务作答指示。[1]撰写考试任务说明有助于在测试开发过程中采取防范措施以尽量减少不相关的因素,这样可以使推理更可靠、决定更公正。[14]一般来说,一项考试的风险性越大,其考试任务说明应该越详细。
三、高考英语写作考试任务的设计
1.关于考试任务的开发
目标语言使用任务模板通常需要经过调整才能用作考试任务说明[1],这一点同样适用于高考英语写作考试任务的开发。高考英语测试的目标范围是高校英语教学,包括大学英语教学和专业英语教学。因此,在开发写作考试任务前需要对高校英语教学中典型的写作任务进行调研,以确定其主要特征。
任务特征主要包括三部分内容,即情境、文本材料和测试量规。[15]NAEP写作框架将写作任务开发指南分成三个部分,即话题、交际目的和目标读者。从这三个方面对目标任务进行调研实际上就是在探究任务的情境特征。Jamieson等人将语言使用任务的话题分为学术话题、课堂相关话题和课外话题[15],其中高考英语写作测试所涉及的话题主要是后两种。话题也就是写作的题材,其选择是否恰当会直接影响考生的行为表现。写作任务的话题必须贴近考生的生活实际,因此选题既要参考对目标语言使用范围的调查,又要考虑考生对所选话题的熟悉程度。调研交际目的是为了确定写作的体裁。体裁可按照形式和功能来划分,从形式上可分为书信、实验报告、和议论文等,而从功能上既可以按照交际功能分为描写、邀请和致歉等类别,也可以按照话语模式(discourse mode)分为叙述、描写、说明和议论[2]。写作体裁在很大程度上取决于概化域,即考生在考试外将不得不完成的写作任务类型[2]。根据NAEP写作框架,在K-12、高等教育以及职业场所中,最常见的写作目的是说理(to persuade)、解释(to explain)和传达(to convey experience)。董曼霞等研究发现,高考英语写作测试考查最多的体裁是应用文和说明文,未曾涉及议论文。[16]因此,有必要在充分调研的基础上增加对说理性体裁(即议论文)的考查。此外,展示读者意识是最重要的写作技能之一[17],写作,作为一项社会行为,通常是为了和他人交流思想,写作的成功与否取决于作者能否满足读者的阅读需求。因此,在设计写作考试任务时要充分考虑目标语言使用情境中典型的目标读者,并在写作提示中予以明确。
对于独立性写作(independent writing),如现有高考英语测试中的书面表达题,文本材料指作答提示,而对于综合性写作(integrated writing),如读写结合题,文本材料则指所提供的阅读或听力文本。无论采用哪种形式,其目的均是为了测量考生的写作能力,因此需要控制文本材料的难度,以免听力或阅读能力影响到写作能力的发挥。现有的高考英语书面表达题用汉语提供作答提示,可以很好地避免因为看不懂提示而无法答题的情况。然而,对于一些省份采用的读写结合题,所提供的阅读材料的难度和长度是否适当目前尚缺乏实证研究的支撑,这涉及到考试效度的检验。
测试量规主要包括三个参数:问题、作答形式和评分标准[15],其中与写作测试相关的是作答形式和评分标准。高考英语写作测试中常见的作答形式有建构性作答(constructed response,即书面表达题)和有限性产出作答(limited production response,即改错题和读写结合题)。相比之下,书面表达题效度较高,测量也较准确,但是需要制定合理的评分标准和严格的评分程序才能确保评分的可靠性。此外,为了确保对所测能力解释的概括性,对考生作答的评价方式应该与目标语言使用范围中对类似任务作答的评价方式保持一致。[1]因此,评分标准的制定在一定程度上依赖于对目标范围的调查。此外,不管采用整体评分法还是分析性评分法,评分标准制定的出发点均是考试构念。由于现有考试缺乏对考试构念的明确界定,其评分标准主要关注对语言知识的考查,虽提及语言运用能力,但由于没有明确观测语言运用能力的具体维度,因而不具备可操作性。修订现有评分标准,首先需要将考试构念细化为具体的考核指标,使其具有可操作性,然后参照NAEP写作测试的做法,围绕观点发展、观点组织和语言运用等三个方面制定具体的评价维度,以便突出对语言运用能力而不是语言知识的考查。
从以上分析可以看出,对目标语言使用任务特征的调研主要包括情境特征和评价方式两部分内容。确定了目标语言使用任务的特征,接下来的工作是撰写考试任务说明。考试任务说明的第一项是考试构念的界定。界定考试构念也就是对所要测量的语言能力进行描述,其依据可以是课程大纲、需求分析、语言能力理论或者几项内容的综合[1]。根据Bachman的交际语言能力模型[1][7],语言能力包括语言知识和策略能力。写作测试不仅涉及考生的语言知识(如语法、词汇和修辞知识),还涉及其策略能力(如设定写作目标、评价任务需求和可用内在资源以及规划文章的组织结构)[1]。因此,在确定高考英语写作测试的构念时,需要调研完成目标语言使用任务需要哪些方面的语言知识和策略能力,具体可参照Rosenfeld等人的做法从内容、组织、进展和语言等四个方面以任务说明的形式对高校英语写作学习中的典型任务进行调查,并在此基础上将考试构念细化为具体的声明,以使其具有可操作性[18]。除了考试构念,在撰写任务说明时还需要明确考试任务的环境特征、任务输入和输出特征以及输入和输出的关系、记录考生行为的方式和任务作答指示等内容。
2.关于测试的合理化论证
根据周群的观点,改变现有写作测试仅仅参照中学课程标准命题的做法,把高校需求作为命题依据,可以提高考试的构念效度,进而有利于高校选拔合格新生。此外,将考试构念细化为可以操作的具体指标,并改变现有评分标准主要关注语言知识的做法,不仅可以更加有效地测量考生的书面语言运用能力,而且可以更好地指引中学英语教学,改变重知识轻能力的现状。
前文提到,不同的研究与教学途径对写作性质的认识不同,因而也会影响考试构念的界定。调研高校需求,可以充分了解高校任课教师对写作能力的理解和认识。
此外,根据对目标语言使用任务特征的调查,选择贴近学生生活的话题,避免对部分考生不利的话题,可以确保测试的公平性。参照目标语言使用任务特征来设计考试任务,并使考试评价方式与目标范围中对类似任务作答的评价方式保持一致,可以确保对所测能力的解释具有概括性。同时,依据需求分析来设计考试任务并对考生行为进行充分取样(如根据交际目的不同设计两个书面表达任务),可以提高对所测能力解释的相关性和充分性。
另外,通过制定严格的评分程序(包括评分员培训),可以确保评分的可靠性和测试记录的一致性。
总之,对测试内容、形式和取样方式做出的所有决定都是效度证据的重要组成部分[19],因此,开发高考英语写作考试任务的过程也是收集支撑AUA声明的相关证据的过程。高考英语写作测试虽然只是高考英语科目考试的一部分,但是其开发过程可以为整个考试的合理化论证提供证据支持。
四、结语
作为一项高利害考试,高考英语测试的任务设计如果不合理,必然会造成巨大的负面效应。AUA框架将测试生产过程和合理化论证过程结合在一起,目的是为了实现测试的使用能够带来有益后果。将该框架作为写作考试任务开发的理论依据,可以科学规划任务设计程序,清楚认识任务开发过程中所需要完成的各项工作,同时也有利于收集测试合理化论证所需要的证据。事实上,AUA框架同样适用于听力、阅读和口语考试任务的开发。用该框架指导高考英语测试改革,可以使命题程序规范化、科学化与合理化。
参考文献
[1] Bachman,L.& A.Palmer.Language Assessment in Practice[M].Oxford:Oxford University Press,2010.
[2] Weigle,S.C.Assessing Writing[M].Cambridge:Cambridge University Press,2002.
[3] 周群.基于效度的中美大学入学考试开发比较研究[J].中国高教研究,2010(11).
[4] Hyland,K.Teaching and Researching Writing[M].Harlow:Pearson,2009.
[5] Cumming,A.,et al.TOEFL 2000 Writing Framework:A Working Paper.Princeton,NJ:Educational Testing Service,2000.
[6] Hughes,A.Testing for Language Teachers[M].Cambridge:Cambridge University Press,1989.
[7] Bachman,L.Fundamental Considerations in Language Testing[M].Oxford:Oxford University Press,1990.
[8] Brown,J.D.Testing in Language Programs:A Comprehensive Guide to English Language Assessment[M].New York: MacGraw-Hill,2005.
[9] Carr,N.T.Designing and Analyzing Language Tests[M].Oxford: Oxford University Press,2011.
[10] 韩宝成,罗凯洲.语言测试效度及其验证模式的嬗变[J].外语教学与研究,2013(3).
[11] Toulmin,S.The Uses of Argument[M].Cambridge:Cambridge University Press,2003.
[12] Schmeiser,C.B.& C.J.Welch.Test development[A]. In Brennan,R.L.(ed.).Educational Measurement[C].Washington,DC:American Council on Education,2006.
[13] Kane,M.Content-related validity evidence in test development[A].In Downing,S.M.& T.M.Haladyna(eds):Handbook of Test Development[C].Mahwah,NJ:Lawrence Erlbaum,2006.
[14] Fulcher,G.Assessment in English for academic purposes:putting content validity in its place [J].Applied Linguistics,1999(2).
[15] Jamieson,J.M.,S.Jones,I.Kirsch,P.Mosenthal & C.Taylor.TOEFL 2000 Framework:A Working Paper.Princeton,NJ:Educational Testing Service,2000.
[16] 董曼霞,高晓莹,杨志强.高考英语全国卷书面表达题历时分析与研究(1989~2011)[J].教育测量与评价,2011.(10).
[17] Harris,M.What does the instructor want?In Sullivan,P.& H.Tinburg(eds.).What is College-level Writing?[C].Urbana,IL:NCTE,2006.
[18] Rosenfeld,M.,S.Leung & P.K.Oltman.The Reading,Writing,Speaking,and Listening Tasks Important for Academic Success at the Undergraduate and Graduate Levels.Princeton,NJ:Educational Testing Service,2001.
[19] Downing,S.M.Twelve steps for effective test development[A].In Downing,S.M.&T.M.Haladyna(eds).Handbook of Test Development[C].Mahwah,NJ:Lawrence Erlbaum,2006.
[作者:张允(1977-),男,山东金乡人,天津商业大学外国语学院副教授,北京外国语大学中国外语教育研究中心在读博士;高存(1979-),女,山东郓城人,天津商业大学外国语学院副教授,天津师范大学文学院在读博士。]
【责任编辑 陈国庆】