从使用论证框架角度探讨大学英语学业测试

2018-08-27 03:23戴瑜李廉

文教资料 2018年8期

戴瑜　李廉

摘要：学业测试是大学英语教学活动中必不可少的基本环节和重要步骤，已有的学业测试不断暴露出越来越多的问题。文章依据Bachman的“测评使用论证”（AUA）理论的论证链条，论证大学英语学业测试的解释和运用过程。以中国矿业大学徐海学院为例，从测评表现、解释、决策和使用后果四个方面收集各种相关证据，对学业测试进行使用论证，找出其中主张构成支持或反驳，探寻当前大学英语学业测试中存在的问题，以提高测试的效度和信度，加强其对教学的反拨作用。

关键词：测评使用论证大学英语学业测试

一、引言

英语测试是英语教学中一个不可或缺的重要环节，可以用来衡量学生英语的掌握程度和使用能力。按照目的及用途，语言测试分为：素质测试，水平测试，成绩测试和诊断测试。从理论上讲，大学英语学业测试属于成绩测试，它是针对受试者经过一段时间学习或专门训练后达到的熟练程度的测试，目的在于考查学生一学期的学习情况是否达到教学大纲的要求，多用于阶段性测试。任何一种测试都是由目的决定其性质的。大学英语学业测试的目的在于，检测学生整个学期的学习效果是否达到教学大纲要求，并且诊断教学过程中教与学出现的问题，为今后教学提供反馈意见。

学业测试中学生的测试表现很大程度上决定了考生的学绩认定、毕业要求等决策，测试质量及结果非常重要。Bachman和Palmer于2010年提出的“测试使用论证”（Assessment Use Argument，AUA）框架包含了测试的使用，将考生的测试行为表现和特定的考试效果衔接起来，更加关注测试使用所带来的影响和后效。该框架要求测评者从测评表现、解释、决策和使用后果四个方面收集各种证据，以保证测评分数和测评使用的合理性[1]。本研究以中国矿业大学徐海学院（以下简称该院）为例，在AUA框架下的这四个方面调查当前大学英语学业测试的状况，探寻当前考试中存在的问题，以提高测试的效度和信度，加强其对教学的正面反拨作用。

二、测评使用论证介绍

Bachman和Palmer[2]于2010年推出新著《語言测评实践：现实世界中语言测评的开发与使用论证》，书中全面阐述了在现实条件下开发和使用测试的基本原则，提出的AUA框架系统指导语言测评的设计、开发、使用解释和所做决策的合理性。该框架包括两个方向的推理过程。对测试进行解释与使用论证时，要按照考生的测评表现、测评记录、测评解释、测评决策和测评效果的顺序推理，而反方向的推理过程则是测评的开发过程。这五个环节之间的关系是逐层推理、紧密联系的，每一层都需要经过“主张-证据”论证，上一轮推理过程的“主张”经过理据与反驳的验证即成为下一轮推理的“证据”，其中测试表现本身不需要论证，只是为测试论证过程提供证据[3]。

在AUA框架中Bachman对每个环节（除测试表现）的质量属性有明确界定。首先，测评记录要具有一致性，要求测试记录在不同的测试任务和不同测试流程过程中保持一致，测评记录在不同考生之间保持稳定一致。其次，测试解释有意义性、无偏性、概化性、相关性和充分性，要求学生的受试表现在这几个方面符合测试预期要测的语言能力。然后，决策要实现公正性和价值敏感性，不仅要考虑现有群体价值和相关法律要求，而且要对所有利益相关者公正。最后是测评效果具有善益性，要保证对全部利益相关者有益，这正是构建AUA框架的目的所在[2]。

三、大学英语学业测试论证

本文以中国矿业大学徐海学院为例，在AUA理论框架下，对该院2014级学生（共计1962人）第一至第四学期的大学英语学业测试进行使用论证，此论证过程始于AUA框架的“测试记录”，终于框架的“决策”，收集各种证据，通过论证每一环节的相关主张、理据和反驳，分析该学业测试的使用是否合理，发现现阶段该院学业测试中存在的问题及根源。

1.测评记录的一致性

根据AUA理论框架，相同的测试，若测试对象是相同的，那在不同场合得出的分数应该是一致的[2]128。分数的一致性是必需的，如果它们不能相对一致，则该测试就不能给我们提供预期的相关能力信息。对该院2014级学生参加的二年级第二学期大学英语学业测试调查发现，虽然是教师集体阅卷，但对主观题设定的评分标准过于笼统，例如大外部该组负责人统一写作的评分标准，一般水平给予9分左右，较高水平给予12分-13分，较低水平给予6分-7分，但并没有将这些不同水平的标准细化，导致阅卷的评分尺度难以把握。并且由于工作量的问题，学业测试都采用单人评分的方式，无法保证评分的信度。对作文阅卷部分使用极端分组法D=PH-PL检验评分结果的区分度[4]，其中PH和PL分别为高分组（前27%）和低分组（后27%）的得分率之差，结果显示作文评分结果的区分度仅为0.26，低于一般标准0.3的区分度，需要改进。区分度不理想不仅不利于鉴别学生之间在写作能力上的差别情况，还会影响该次考试各项之间的相关性，从而影响整个测试内部一致性。通过学业考试的写作部分一致性的分析，发现其内部一致性较低证据构成了反驳。

通过对授课老师的问卷调查显示，老师对学生课堂表现的评分依据有很大差别，有的老师根据学生课后作业完成量，课堂活动的参与度，课堂听写、随堂训练的表现和出勤率评分，个别老师仅以出勤作为唯一依据。由于大学英语学生数量多、水平分布不均，在课堂训练内容设计和执行上，很难保证它们的统一性、连贯性和系统性，并且教师对学生课堂表现的评价主观性较强，导致学生的平时成绩不能准确地反映学生的语言能力。

2.测试解释的有意义性及概化性

AUA框架中测试解释主要关注对考生受测能力的解释，学生的受试表现能够符合测试预期要测的语言能力，本文从以下两个方面探讨论证。

（1）测试解释的有意义性

按照Bachman的观点，测试解释的意义在于测试记录要能够为利益相关者提供与受测语言能力有关的可理解信息。其证明理据为一：所测试的语言能力是基于课程教学大纲（course syllabus），目标语言使用域的需求分析等信息；其二：测试表现以预期的语言能力构想为基础，测试记录可以被解读为测试能力的指示器[2]118。

大学英语学业考试所测的语言能力要与现行的教学大纲和学院制定的培养方案相符。教育部在2007年修订后的《大学英语课程教学要求》（以下简称《要求》）中对大学英语教学目的指导性的要求是：“培养学生英语综合应用能力，特别是听说能力，使他们在今后学习、工作和社会交往中能用英语有效地进行口头和书面的信息交流，”[5]并将大学阶段的英语教学要求分为一般要求、较高要求和更高要求这三个层次。该院作为独立学院，以培养“应用性、复合型人才”为目标，英语能力培养目标与《要求》一致，并在教学大纲内按照难度逐级递增的结构设计，对每个学期学生在听力、阅读、口语、写作、翻译、词汇量等方面做了具体要求。

对该院2014级学生在2014年-2016年参加的四个学期的学业测试的试卷进行分析发现：四个学期试卷的难度系数没有递增的表现，有个别学期与上一学期相比甚至下降了，与教育部和该院大学英语课程教学大纲中从低到高的要求不相符。测试中有些试题的要求没有达到大纲规定的教学要求。以2014级学生在二年级第一学期学业测试的听力部分内容为例。试卷中的听力测试的短篇听力部分的语速不到120词/分钟，而大纲则要求学生本学期听力要求的语速达到每分钟160词。

四个学期的学业测试的试卷内容均由听力、阅读、选词填空、句子翻译和写作等部分组成。听力部分的体裁包括日常谈话、国内外英语广播或电视节目等；阅读理解部分的体裁是国内外大众性英文报刊上发表的一般话题，工作、生活中常见的应用文体材料。与教学大纲设定的“今后学习、工作和社会交往”中的信息交流能力的培养相符。听力理解和阅读理解测试的不仅是学生英语语言知识，在一定程度上还涉及学生确定目标策略能力和制订计划策略能力等[10]，与Bachman所提出的交际语言能力模型相符，但测试中这两项的部分篇章选自多年前的大学英语四六级真题或模拟题，内容和信息与当前不相符，导致学生对语篇的理解在一定程度上产生偏差，当然也与学生目标语言使用域（Target Language Use域，以下简称TLU域）的能力需求（即学生毕业以后真实工作环境对他们的需求）不相符。在期末试卷中基于词汇和语法运用综合能力的测试主要反映在选词填空和句子翻译部分，基于学生需求分析的问卷调查显示，这两项内容不能满足学生的目标情景需求和学习需求。此外，写作部分测试还包括常见应用文的书面表达，就一般性的主题能表达个人观点的要求，这些内容没有实现相关专业的专业信息内容的测试，对专业主题内容写出文章摘要和大纲能力的测试，与学生目标语言使用域的语言能力需求有出入。

（2）测试解释的概化性

受测者在语言测试中的表现提供了其语言能力相关的信息，Bachman在AUA框架中提出对测试任务中语言能力解释要能反映其TLU域的语言能力构想，即概化能力，语言测试任务与目标语言使用任务在任务特征的各个方面相一致就是测试解释的概化性主张[2]120-122。

本研究中所有考试均包括“选词填空”项，该项测试任务是分别从15个单词组成的词库和10个词组组成的词库中为25个句子选择形式和词义均符合的选项，这项任务的内容选自于该年级学生本学期课堂讲授的内容，目的是考查学生对课堂任务的参与度和完成效果。然而这种考查模式与真实语言交际场景相差甚远，且部分学生在考前采取死记硬背的方式，对这一项的分值统计结果显示，这一项在每学期有32%-37%的学生可获得满分，当然不符合真实语言使用任务，概化性程度较低。与此项类似，学业测试中的句子翻译同样是选取课堂教授的内容，并给考生划定复习范围，考生可以通过突击背诵的方式答题。分值统计结果显示，学生在此项目上获得满分的比例较高，具有较低概化性。

3.决策的公正性

AUA框架中的下一层的“主张—数据”中的数据基于以测试为基础的解释，主张则要求做出的决策要考虑对受其影响的利益相关者的公正性[2]116-117。

测试的使用和依据对测试结果的解释所做出的决策要与群体价值和相关法律相符，这就意味着在进行决策前要仔细和严格考虑现有教育、群体价值和相关法律要求[1]。显然该院的学业测试符合教育部门和学校的要求，保证所有参加测试的学生享有同样受测机会，公平的考试分组，统一的考试时间，不受种族、性别的影响。对四个学期期末试卷仔细研究，没有发现试题内容违反社会价值观和相关法律要求，测试方式和时间对所有学生而言是一致并合理公平的。

按照Bachman的观点，设定相关考试内容，要对比课程教学大纲和考试规范（test specifications），并且在考前告知学生考试的内容基于课堂内容的哪些部分，教师需确保这些内容在课堂上讲授过，都是支持上述理据的支撑依据。考查该院四个学期的学业测试，试卷里所包括的与课本相关的内容中，听力、词汇、翻译部分的分值分别为10分、25分和10分。在期末考试前，该级别小组对试题所包括的课本内容讨论筛选，确定所占比重及具体内容和考查的形式，再将这些信息在考前通知学生。对教师的问卷调查显示，所有授课教师都保证了这些操作的实现。可见在这个层面上测试对于所有学生是相对公平的。

4.测评效果的善益性

AUA框架中的测试效果，要保证对全部利益相关者都具有善益性。通过学业测试为了得到什么有益的效果，有谁可从中获益，测试设计的起点应着眼于测试应带来的有益结果，包括宏观的后果——对社会、教育机构的影响，和微观的后果——教学、学生本身的影响，收集可靠证据证明测试的合理性并建立起测评结果与决策、结果解释之间的框架联系[2]106-108。

按照Richards（2001）的观点，课程设计的内容和过程应包括六个环节：需求分析、对教学环境的分析、教学目标的设定、教学大纲的设计、教材的开发和修订、课程评估。教育部的《教学要求》（2007）指出“全面、客观、科学、准确的评估体系对于实现教学目标至关重要”，作为教学阶段结束时对学生的终结性评估的学业测试，其考试内容直接与课程设立的交际目标相关，其考查的结果为教学评估提供重要依据，不仅保证教师获得教学反馈信息，帮助教师改进教学管理管理、提高教学质量，而且有助于学生调整学习策略、改进学习方法。该院的学业测试在统一阅卷后及时在学校教学网络系统中登记成绩，之后学生可登录查詢各自的成绩。但是成绩提交后，对于学生测试内容的各分项表现没有做出合理评价，缺少相应的语言能力的描述和各自达到的能力等级描述。

学业测试的主观题（如翻译和写作）可以比较准确反映学生的语言综合能力和交际能力，但评估教师的有效性可能会达到消极效果。如前所述，教师在阅卷中的评分员信度不高，导致学生获得分数与实际语言能力之间产生偏差，这种偏差会直接影响考生的学分、奖学金等高利害事项，对学生的学习过程和后续过程产生不利影响。这些未预期的消极后果是对测试后果有益性的重要反驳。

四、结语

大学英语学业测试是英语教学终结性评价的主要形式，试题命制的质量对于使测试达到理想的信度和效度有着十分关键的作用，不但关系到学生的学习成绩的好坏、教师的教学水平的高低，而且涉及学生的学习信心、自我评价和教师的职业成就感等问题[6]。学习者是否达到了大学英语课程教学要求及课程标准对于语言能力的要求，是学业测试考查的关键。以中国矿业大学徐海学院的2014级学生四个学期的英语学业测试为例，运用Bachman的AUA框架论证其效度，发现目前学业测试中存在如下问题：1）考试和评估不兼容，目前“综合性”测评体系下的课堂评估和学业考试的效度不属于同一维度，实际上是两个不同的评价系统；2）考试的内容和方法不符合语言测试学标准，缺乏合理的理论效度设计、合理的难度和区分度、较高的信度、分数解释和报道机制；3）测评内容和教学目标不一致；4）评分标准笼统、测评结果不稳定、评分员差异大等技术方面问题。

参考文献：

[1]徐启龙.AUA框架——语言测评理论的新发展[J].外语电化教学，2012（1）：37-41.

[2]Bachman， L. F. & Palmer， A. S.. Language Assessment in Practice [M]. Oxford： Oxford University Press， 2010.

[3]韩宝成，罗凯洲.语言测试效度及其验证模式的嬗变[J].外语教学与研究，2013（3）：411-425.

[4]Anderson， J. C. & Gerbing， D. W.. Structural Equation Modeling in Practice： A Review and Recommended Two-step Procedure[J]. Washington： Psychology Bulletin， 1990（103）： 411-423.

[5]中华人民共和国教育部高等教育司.大学英语课程教学要求[Z].上海：上海外语教育出版社，2007.

[6]潘之欣.从AUA理论看CET考试改革[J].外语测试与教学，2014（4）：1-9.

基金项目：江苏省高校哲学社会科学研究项目“应用型大学英语分级分类测评体系构建”（编号：2016SJA740043）。

通訊作者：李廉