关于高考英语写作考试改革的思考

2017-07-07 18:47高存张允
教学与管理(理论版) 2017年6期
关键词:考试改革高考英语

高存+张允

摘要:在历届高考英语考试改革中,写作一直是人们关注的焦点之一。经过不断的改革,高考英语写作考试的合理性得以提高,但是现有考试设计依然存在一些较为突出的问题。本文从考试构念的界定、任务开发、评分设计和促学作用等四个方面对高考英语写作考试改革中应该重点关注的问题进行了探讨,指出要想真正提高高考英语写作考试的正面反拨作用,必须在这几个方面有所突破。

关键词:高考英语 写作考试 考试改革 促学

回顾我国高考英语改革之路,从上世纪八十年代末开始启用书面表达题,到九十年代中期开始增加短文改错题,再到近年来短文改错题的逐步退出,以及阅读表达题和读写结合题的出现,高考英语写作考试任务设计的合理性逐步提高。但是,现有考试仍存在一些较为突出的问题,如没有明确界定考试构念、评分标准中虽然提到了语言运用能力,但对于什么是语言运用能力并没有进行任何解释,进而“忽略了对学生知识运用、问题分析以及思维创新等能力的考查”[1],这些均证实了高考英语考试中也存在“主观题考试结果可解释性低,考试总分不能完全表征考生学科素养等问题”[2]。此外,由于在考试设计中未能充分吸收国内外二语写作教学的优秀研究成果,使得考试任务的设计和评分标准的制定与二语写作教学的有效途径相脱离,这一点在很大程度上削弱了中学英语写作教学的正面指引作用。这些问题均应在本轮高考改革中得到有效解决。

一、考试构念界定

本文所说的构念不是指某一语言能力模型的构成部分,而是用于统称一项考试所要测量的多种语言技能或能力,这些技能或能力可能来自某一语言能力模型,也可能出自其他材料,如课程教学大纲。这样,考试构念便取代测评框架,成为考试说明撰写的基础。不论是开发新的考试形式,还是对一项考试进行效度论证,均要明确界定其考试构念,即所要考查的能力。然而,對于写作考试开发者和研究者来说,构念界定是一个比较棘手的问题。

由于对写作质量缺乏统一认识,因此界定写作考试构念较为困难[3]。写作考试以及对好的作文的断定在很大程度上受到背景的影响[4]。Cumming认为,高利害大规模国际写作考试必须为考生提供统一的写作背景[5]。首先,为了确保考生机会均等,构念的操作背景要统一,所测构念不能对任何特定人群有偏见,也不能给具有某些特定能力或知识的人群带来优势。其次,高利害考试要确保考生表现之间的可比性,考生的分数或基于分数的解释不应受到考试地点、考试时间和试题版本的影响。因此,在界定考试构念时要充分考虑背景因素。总之,构念效度比考试内容的相关性和真实性更为重要,而要确保构念效度,必须对核心构念进行清楚界定[5]。

考试构念的界定不仅会影响考试任务开发,而且还会直接影响到考试后效。Fulcher和Davidson指出,如果没有关于考试构念的详细信息,任课教师只能在课堂活动中盲目照搬考试任务。相反,如果考试构念界定得清楚,任课教师便能够理解考试任务所期待的考生表现,以及在此基础上所做的关于考生具体语言能力的判断,一旦他们拥有了这些概念工具,便能够创造性地开发多种课堂教学活动来帮助学生提高考试所要测量的交际语言能力,这才是考试促学的关键[6]。

为了确保考试的效度,考试构念的界定要有一定的依据。根据Bachman和Palmer对构念界定的描述,界定二语写作考试构念,可以依据课程大纲、围绕目标语言使用任务进行的需求分析,或者某二语写作能力理论,也可以将三者结合起来考虑[7]。具体选择何种依据,须根据考试规模、用途等因素来定。Bachman和Palmer不主张从任务表现和“技能”角度界定考试构念,认为这两种方式会给评分和分数解释造成困难,相反,他们提倡借助语言能力的构成来界定[7]。采用这种界定方法,不仅须明确有待考查的具体语言知识,而且须决定考试构念是否涵盖策略能力和话题知识。如果涵盖,则须处理好语言知识和策略能力、写作能力和话题知识之间的关系[7]。

国际大规模外语考试对写作考试构念均有明确的界定。比如,TOEFL 2000写作考试构念是“就多种一般性话题阐明和交流观点,写出有一定长度且有组织的书面文本以表达和支撑基于个人知识和经验的个人观点,并同时考虑预期读者的知识”,以及“连贯组织和准确表达学术材料的内容和结构,以展示能够理解阅读材料和讲座中关于某一学术话题的关键思想以及链接文本信息时所采用的修辞关系,如论断/反驳、问题/解决方案和建议/反建议”[8]。相比之下,我国高考英语考试尚缺乏对于写作考试构念的明确界定,仅指出写作题考的是考生的书面表达能力,对于什么是书面表达能力,以及该能力的具体构成并没有明确论述。为了提高写作考试命题的科学性以及不同考试任务之间的一致性,同时明确写作能力培养目标,亟需参照国际大规模外语考试,从认知角度对书面表达能力进行明确界定。

二、考试任务的开发

考试任务是考试构念的操作化,是诱发和收集考生表现的工具。任务设计的合理与否是一项考试成败的关键。根据Bachman和Palmer对考试任务开发情境的描述,大规模考试任务的开发一般有两个途径:如果存在目标语言使用域,最常见的方法是改编目标语言使用任务,即调整部分任务特征;否则,则须根据考生特征和构念界定来创造假想的目标语言使用域和目标语言使用任务,并在此基础上设计考试任务[7]。无论何种情况,在考试任务开发过程中均须考虑考试内容的相关性、取样的充分性以及考试任务的真实性和公平性。

Haladyna和Rodriguez提出了基于论证的试题效度验证方法(an argument-based approach to item validation),并列举了为验证试题效度进行的解释性论证(interpretive argument for item validation)须回答的16个问题,这些问题涉及目标域的类型、目标域的组织方式、概化域的组织方式、概化域和目标域的一致性、试题类型的选取、试题开发方式、评分标准、试题内容、每道试题的认知需求、试题的编排、试题的时效性和有效性、试题的公平性以及试测等诸多方面的内容[9]。对这16个问题的回答就是为试题的效度验证收集必要证据的过程。

与我国高考英语考试不同,国际大规模外语考试均围绕考试任务开发做了大量研究。比如,为了给TOEFL iBT考试任务的开发提供依据,Rosenfeld等人调查了完成北美大学学习中典型语言使用任务必须具备的语言能力[10]。Cumming等人则根据对TOEFL考试任务类型的批判,从内容效度、真实性和与教育的相关性等方面对新版TOEFL所考虑的原型任务(prototype tasks)进行了调查[11]。Uysal结合专家判断对IELTS考试任务和目标任务的匹配程度,以及考试内容的相关性和代表性进行了验证[12]。Moore和Morton则通过比较从目标域中收集的学生作文和IELTS考试作文,对IELTS学术写作任务的真实性进行了论述[13]。这些研究为考试任务设计的合理化论证提供了强有力的支撑。相比之下,国内关于高考英语写作考试的研究尚停留在对考试试题内容和设计的讨论上,尚未触及对目标语言使用任务的考查。而一旦缺乏对目标语言使用任务的描述,考试内容的相关性和取样的充分性便难以保证。

三、考试评分设计

Weigle介绍了三种主要的写作评分方式,其中首要特质评分在二语考试中并没有得到广泛应用,其优点是能够提供关于考生能力的详细信息,缺点是没有统一的评分标准,每一个写作任务均须开发相应的评分标准,因此实行起来耗时耗力。相比之下,整体评分得到了广泛的应用,它的优点是评分快捷,缺点是无法给考生提供有用的诊断信息,同时分数有时难以解释,因为评分员在给出相同分数的时候所关注的语言点可能有所不同;分项评分的应用也较为广泛,与整体评分相比,它能够提供更多有用的诊断信息,评分更为可靠,更加有利于评分员培训,更适合评价二语学习者,但其缺点是评分耗时长,况且如果最终仍然是提供一個总分,那么分数合并后分项评分提供的大量信息便会丧失。此外,有经验的评分员可能会首先采用整体评分法给出总分,然后再相应地给出分项分[14]。

整体评分和分项评分在大规模外语考试中均有所应用,比如TOEFL iBT采用的是整体评分,而IELTS则采用分项评分。选择何种评分方式与考试的目的密切相关。Weigle提倡根据Bachman和Palmer提出的考试有用性框架[15]来综合判断。如果实用性更为重要,则可选用整体评分;如果信度和构念效度更为重要,选用分项评分则更为合适。Bachman和Palmer明确提倡采用分项评分,他们首先从分数的解释、评分时的等级分配以及各观测点之间的比重三个方面对整体评分的主要问题进行了论述,然后指出,设计评分标准时应该从考试构念出发,为构念界定中的每个语言能力构成分别设计评分尺度[7]。这样评分有两个优势,一是方便考试开发者提供对所评语言能力的详细描述,使得考试使用者能够清楚地了解考生的优缺点,二是有利于了解评分员在评价语言使用样本时的具体行为[7]。

目前,我国高考英语写作采用的是整体评分法,其中的一个考虑是,参加高考的人数众多,采用整体评分可以提高评分效率。但是采用整体评分难以对评分员的评分过程进行监控,评分结果的可解释性低,无法提供具体的反馈信息。在高考英语考试实行一年两考后,如果能够根据第一次考试表现给考生及时提供诊断信息,将在很大程度上提高考试的促学作用。因此,改变过去一直采用整体评分的做法,设计分项评分方式应该是高考英语写作考试开发中的一项重要工作。

四、考试的促学作用

Huot认为,Messick和Cronbach的效度观均要求有效的写作考试程序对写作教学和学习产生正面影响[16]。然而,任课教师对写作考试行为常持怀疑态度,原因是这些考试未能反映一些价值观,而这些价值观对于理解人们如何学习阅读和写作非常重要[16]。因此,有效的写作考试首先应吸纳关于写作教学和学习的学术文献,其次应该把考试的使用纳入考试效度论证中。如果一项考试的使用目的脱离了相关写作教学理论基础,那么它便是测量写作能力的无效方式[16]。

Montee和Malone也认为,效度论证应该拓展到对考生和其他利益相关者的影响以及如何对考试结果进行解释,因此,考试开发者必须开发分数报告,以清楚明白地呈现考试结果[17]。然而,在心理学和教育测量中,一个困惑人们已久的问题是如何对考生所知或所能进行描述[18],这是对考生或考试结果使用者提供信息反馈的关键。研究表明,如果诊断性考试能够使目标教学集中加强对个体学生需求和优点的关注,便可以有效地促进语言发展[19],而为了达到这一目标,考试反馈内容和提供反馈的方式至关重要。

国际大规模外语考试均高度关注考试的促学作用。ETS明确指出,TOEFL iBT的目标使用之一便是给有效的英语教学和学习方法提供支持,比如引入口语考试和综合考试任务等历次改革的出发点均是为了促进创造和使用与交际教学联系更为紧密的备考材料和备考活动[20]。ETS还为课程协调人、学术主管和任课教师提供了专门的指导手册,手册中不仅描述了交际英语教学和TOEFL iBT设计之间的关系,而且还提供了模拟考试任务和课堂教学活动建议[20]。除此之外,ETS还将考试的设计理念和模拟材料与教材出版商进行分享,以帮助他们给英语学习者提供适当的学习材料[20]。IELTS也编写了教师手册,对考试任务、构念、评分标准、分数解释等内容进行了详细介绍,并明确指出IELTS考试结果的报告方式有利于任课教师了解学生哪些方面的语言技能仍有待提高,以便他们能够给学生设定清楚的学习目标,此外手册还针对教学技巧和备考材料的选择提出了具体的建议(British Council,IDP:IELTS Australia,and Cambridge English Language Assessment 2015)。与TOELF iBT和IELTS相比,我国高考英语考试在促学方面所做的努力还远远不够。

根据上述分析,高考英语写作考试开发的三个关键环节是考试构念界定、考试任务开发和评分设计。如图1所示,考试构念的界定须同时考虑的因素包括高中英语课程标准、高校英语教学需求和二语写作能力理论。而开发考试任务时,一方面要重点参照高校低年级写作教学中典型的写作任务,另一方面也要考虑考试所要体现的二语写作教学理念,是结果法(product approach)、过程法(process approach)还是体裁法(genre approach)?这与考试的促学效果密切相关,同时还会影响评分标准的制定。评分设计包括评分标准的制定和评分程序的设计,其中制定评分标准时既要参考考试任务特征和考试构念,同时还要依据专家判断、评分反馈和师生反馈等因素。除了上面三个环节外,还要考虑如何给考生和任课教师提供反馈信息,这是实施一年两考后须重点考虑的问题之一。

作为一项大规模高利害考试,高考英语考试近年来受到了公众前所未有的高度关注,“降低分值”、“退出高考”和“实行社会化考试”等呼声曾一度不绝于耳。这些呼声充分反应出,高考英语考试依然存在一些较为突出的问题,其中最为突出的便是对中学英语教学和学习的负面反拨作用。造成这一问题的一个关键因素是,高考英语考试的开发主观性较强,尚缺乏科学的程序指导。实行“一年两考”可以在很大程度上降低高考英语考试的利害程度,但是要真正提高高考英语考试的正面反拨作用,还须在考试的开发上下功夫。为了抛砖引玉,本文讨论了高考英语写作考试任务开发中的几个关键环节,这些环节对考试的促学作用均起着重要的影响,然而却是我国高考英语写作考试开发中的薄弱环节。

参考文献

[1]韩守玉.中美大学入学考试英文写作评分标准的对比——基于SAT与中国高考的比较[J].西南农业大学学报:社会科学版,2011(11).

[2] 周群.基于效度的中美大学入学考试开发比较研究[J].中国高教研究,2010(11).

[3] Hamp-Lyons,L.Second language writing:Assessment issues[A].In Kroll,B.(ed).Second Language Writing:Research Insights for the Classroom[C].Cambridge:Cambridge University Press,1990.

[4] Crusan,D.Assessing writing[A].In Kunnan,A.J.(ed).The Companion to Language Assessment [C].West Sussex:Wiley Blackwell,2014.

[5] Cumming,A.Assessing L2 writing:Alternative constructs and ethical dilemmas[J].Assessing Writing,2002(2).

[6] Fulcher,G.& Davidson,F.Language Testing and Assessment:An advanced resource book [M].London/New York:Routledge,2007.

[7] Bachman,L.& Palmer,A.Language Assessment in Practice:Developing Language Assessments and Justifying their Use in the Real World[M].Oxford:Oxford University Press,2010.

[8] 韓宝成, 张允. 高考英语测试目标和内容设置框架探讨[J]. 外语教学与研究, 2015(3).

[9] Haladyna, T.M. and Rodriguez, M.C. Developing and Validating Test Items [M]. London/New York: Routledge, 2013.

[10] Rosenfeld,M.,Leung,S.& Oltman,P.K..The Reading,Writing,Speaking,and Listening Tasks Important for Academic Success at the Undergraduate and Graduate Levels.(TOEFL Monograph Series Report No.21).Princeton,NJ:Educational Testing Service,2001.

[11] Cumming,A.,Grant,L.,Mulcahy-Ernt,P.& Power,D.E.A Teacher-Verification Study of Speaking and Writing Prototype Tasks for a New TOEFL?(TOEFL Monograph Series Report No.26).Princeton,NJ:Educational Testing Service,2005.

[12] Uysal,H.A critical review of the IELTS writing test[J].ELT Journal,2010(3).

[13] Moore,T.& Morton,J.Authenticity in the IELTS Academic Module Writing Test:A Comparative Study of Task 2 Items and University Assignments(IELTS Research Reports Vol.2)[M].Canberra:IDP IELTS Australia,1999.

[14] Weigle,S.C.Assessing Writing [M].Cambridge:Cambridge University Press,2002.

[15] Bachman,L.& Palmer,A.Language Testing in Practice. Oxford:Oxford University Press,1996.

[16] Huot,B.Toward a new theory of writing assessment[J].College Composition and Communication,1996(4).

[17] Montee,M.and Malone,M.E.Writing scoring criteria and score reports[A].In Kunnan,A.J.(ed).The Companion to Language Assessment [C].West Sussex: Wiley Blackwell,2014.

[18]Carroll,J.B.Test theory and the behavioral scaling of test performance [A]. In Fredericksen,N.,Mislevy,R.J.and Bejar,I.(eds.).Test theory for a new generation of tests[C].Hillsdale,NJ:Lawrence Erlbaum,1993.

[19] Fox,J.D.Moderating top-down policy impact and supporting EAP curricular renewal: Exploring the potential of diagnostic assessment[J].Journal of English for Academic Purposes,2009(1).

[20] ETS.Validity Evidence Supporting the Interpretation and Use of TOEFL iBTTM Scores(TOEFL iBT Research Insight Series 1,Vol.4)[R]. Princeton,NJ:Educational Testing Service,2011.

[作者:高存(1979-),女,山東郓城人,天津商业大学外国语学院副教授,博士;张允(1977-),男,山东金乡人,天津商业大学外国语学院教授,北京外国语大学在读博士研究生。]

【责任编辑 王 颖】

猜你喜欢
考试改革高考英语
高考英语语法填空的“三严三实”
基于应用型人才培养的食品基于应用型人才培养的食品
《PLC技术及应用》高职课程考试改革探索
注意书写 常抓基础 多背文章 增强语感
语法翻译法对高考英语艺术生复习探究
高考英语社会化考试的影响分析及对策研究
一张动物学试卷的思考