大学英语课程测评体系使用论证

2018-05-06 18:07李廉戴瑜

文教资料 2018年2期

李廉戴瑜

摘要：基于6所高校大学英语课程测评的数据记录，在测评使用论证框架（AUA）下，对课程测评的质量和使用进行论证。以数据为起点、图尔敏逻辑模型为形式，依次论证测评记录、测评解释意义、测评决策和测评后效的主张及反驳理据。论证结果发现，课程测评解释在构念效度这个核心问题上的主张成立，但在分数内部一致性、评分员一致性、决策依据逻辑性和后效等方面形成了较强的反驳。在分析数据和反驳的基础上，提出提高课程测评质量和使用逻辑的建议。

关键词：测评使用论证大学英语期末考试过程评价

一、引言

教育部高教司颁布的《大学英语教学指南》（2017）把目前全国的大学英语课程定位为“目标课程”，其课程目标全面涵盖了语言能力的构成和目标，并指出应构建大学英语课程“校本评价与其他多样化评价相结合”的综合评价体系和“共同基础测试与其他多样化测试相结合”的综合测试体系。刘建达（2015；2016）主张在《中国英语等级量表》的标准体系下，大学英语的测评应综合课程内评价和外部评价，校本英语测评和共同测试共同构成完整的大学英语评价体系；建立一个准确、公平、高效的大学英语测评体系非常重要。

目前我国大学英语课程测评体系主要由期末考试、过程评价两部分组成。大学英语课程测评具有大规模、高利害测评的特征，其结果影响到毕业、推免研究生、评优/奖、反馈学科发展信息、筛选学科人才等诸多工作，如果其本身设计合理、稳定、权威，则有助于促进上述工作进入良性循环。若其设计不合理，自身质量不过关，则测评结果不足以准确、全面地反映学科建设和人才培养的质量，难以为学科建设中的决策提供信息支持。对当前大学英语测评的质量进行论证，对于教师和教学管理人员认识、改进测评体系，促进教学改革尤为重要。

二、文献综述

1.测评使用论证

Bachman和Palmer（2010）在《语言测评实践：现实世界中语言测评的开发与使用论证》一书中以效度理论家Kane（2002；2006）的效度论证模型为蓝本，提出测评使用论证（AUA）框架，论证语言测评质量与使用的合理性（justification）。在AUA框架中，对测评的使用论证包括五个环节：受试者的测评表现、测评记录、测评解释、决策和后效，诸环节的合理性是逐层推理的过程，每一次推理都需要论证，全部环节的论证结果汇总为测评的论证结论。

AUA框架对的论证模式为“用事实推导结论”：对每个环节的合理性设定一个“主张”，作为推导结论。该主张要有理据（warrant）做支撑，理据的成立需要“验证”（backing）为支撑，验证的基础是测试中的“数据”（data）。主张是否成立取决于以上推理过程的完整性与可靠性。与此同时，论证人员基于证据对主张进行反驳论证（rebuttal）。反驳与理据是主张的正反两面，用于否定主张。如果反驳成立，则影响主张的合理性。因此，在测评的开发和完善工作中，开发人员需要尽可能削弱反驳及其证据的发生。

具体地说，测评记录环节的主张最关注测评记录的一致性，其论证理据和验证过程主要涉及分数的内部一致性、组间一致性、测试及分数收集环境、评分信度等问题；解释环节是论证的核心环节，主要论证分数的解释意义是否与测试构念相符，这也是传统效度验证的核心问题（李筱菊 2001；Fulcher，2012），本环节同时关注分数无偏性、任务特征、解释的充分性等；在决策和后效两个环节，AUA框架把决策和测评利益相关人员联系起来，阐明决策的价值观和公平性，同时对决策如何影响利益相关者进行论证。考生的测评表现仅作为初始数据，不参与论证。

2.语言测评的效度和信度

测评的论证过程中必然涉及其效度和信度属性。效度问题是语言测评的核心问题，对效度的研究即从测评结果取得证据，以此推断被试的语言能力及其差异的过程。根据获取证据的途径不同，效度可以分为内容效度、效标关联效度和构念效度三大类，其中以构念效度为核心。

构念效度是由美国心理学协会（1954；1985）在《心理测量与诊断技术的技术建议》中首次提出，并于1985年明确认定构念效度是测评的效度三种证据来源之一。“构念”指语言能力的心理结构，是对人的被测试语言能力的虛拟阐述，用来描述或预测人的语言能力的组成结构。Messick（1989）的效度整体观认为，构念效度揭示了效度的实质，是效度的核心内容，此理论被众多知名语言测试学家（Kane，2002；Mcnamara，2006；Weir，2010）所公认。

判断一个语言测评的质量，信度也是一个重要指标，主要用来衡量测评记录的稳定性、一致性的情况。一个高信度的语言测评，对于同一组被试反复测量，其结果应该基本不变。内部信度一致性是一种常见的测评信度指标，一般使用克隆巴赫α系数计算。

三、大学英语课程测评使用论证

本研究组于2013年-2017年对江苏省6所普通本科高校29次大学英语学业期末考试、过程评价、测评决策及后效反馈进行调研，采集分数记录，利用问卷和访谈对学生、教师和系部主任收集后效反馈。每所高校有效学生样本组数为997至5256不等，教师评分员样本数164人次。在AUA理论框架下，对调研对象的大学英语课程测评进行使用论证，从测评记录、意义解释、决策及其后效等环节对其“合理性”进行论证，对各环节的主张及构成要件同时进行正面论证和反驳论证，分析该学业测试的使用是否合理，对被试学生是否公平，对利益相关者是否提供充分的善益性。

1.测评记录论证

在AUA理论框架中测评记录的主张为：在不同的测评任务、流程和对象中的记录稳定、一致。理据主要包括：对所有考生执行标准化的测评程序；测评项目之间分数内部一致；同一评分员的评分结果内部一致；评分员之间评分内部一致。

在6所高校师生中通过问卷和访谈调研测评程序，结果发现：在期末考试环节，6所高校对所有学生均执行学校统一的测试时间、环境、评分流程和标准，无明显偏差，学期之间保持连续一致。过程评价的评价方式和内容表现出明显差异：4所高校以课堂评价和网络自主学习测验为主要形式，1所高校以课堂评价和阶段测验为主要形式，1所高校仅使用课堂评价。在课堂评价内容上，所有高校均由教学大纲统一规定评价项目，但无高校采用统一的评分标准。

采用克隆巴赫α系数对调研范围内29次期末笔试得分数据的内部一致性逐一检验，结果表明6次考试的内部一致性系数介于0.6-0.8，属于正常教育测量标准范围（王孝玲 2015）；23次笔试部分内部一致性系数介于0.35-0.6，对本论证环节的主张构成明显的反驳证据。

对评分员一致性的论证：在受调研的每次测评中随机抽取8名评分员，选取每名评分员的100个评分记录，用皮尔逊积差相关系数计算其一致性。结果如下：以0.7为信度系数合格阈值，在口语测试中，评分员一致性达标组数为22组，合格率22%；写作测试达标81组，合格率70%；过程评价达标34组，合格率29%。数据统计结果对测试记录主张构成强反驳论证。从评分过程和评分员的调研中可知，反驳理由主要包括：评分量表操作性不强、缺乏统一的评分员培训、没有高校设置试评分验证和等值机制。

2.测评解释论证

AUA框架中测评解释的论证主张为：对考生的能力解释有意义、无偏、概化、相关、充分。其主要理据包括：测评记录在统计学意义上充分符合测评的构念目标；测评的任务特征符合测评真实性原则；测评解释意义与决策逻辑相符。

对测评分数意义的解析主要从内容效度和构念效度两个方面实现。在内容效度上，对测评任务特征和考点进行分析和专家判断，衡量其是否符合测评目标。在构念效度上，使用因子分析等统计手段对测试构念进行降维提取。

对29次期末考试的91篇阅读理解测试进行统计分析，其语篇长度范围在270个-360个单词，话题涵盖社会、文化、科技、教育等，体裁包括说明、议论和记叙三种，符合《大学英语教学指南》的要求，亦与所在高校的教学大纲相符。符合本环节论证理据。但对于具体专业（如消防工程专业）的学生来说，统一的、偏人文类的测评任务并不能反映其目标语言使用域（Bachman，2010），构成了一定程度上的反驳论证。

对调研范围内的全部115篇阅读测试（包括阅读理解和长篇阅读）的考点和试题内容进行统计分析，发现其内容效度参数（文体、语言复杂度、内部信息关系、文化特征）比较全面地覆盖了阅读的策略能力、语言能力、语篇能力和社会语言能力四个构念维度（Alderson，134-136）。虽然每个学期的考试题数量有限，不能包含所有阅读构念，但从四个学期的完整教学周期统计，较好地实现了测试构念全面覆盖。对得分明细进行探索性因子分析，提取公因子并参照阅读构念的内容逐一认定试题的测量目标，分析结果与上述分析吻合，支持解释意义的主张和理据。

Buck（2001）从语言知识（语法、语篇、语用、社会语言）和策略能力（认知、元认知）两个维度定义听力构念，并具体解释为语音知识、信息定位、局部/整体理解和推断能力。依照此标准对全部88个听力测试分项进行上述相同的验证，内容统计和因子分析结果均显示听力上的解释主张和理据得到全面的支持。

在论证分数的解释意义与决策的逻辑关系时，受调研的课程测评表现出非常明显的反驳证据。课程测评的使用者为教师和教学管理人员，他们把学生的期末考试和过程评价分数合成一个总分数，基于这个分数和学生的排序情况做出不同类别的决策。但在统计和论证中发现，全部29次过程评价的内容均包括出勤、课堂参与等学习策略因素，这与期末考试的测试构念属于不同类型，两者得分的皮尔逊积差相关系数仅为0.14-0.34，属于极低水平。教师和管理人员把两部分成绩简单加权合成，各自污染了对方的测试效度，不符合测量统计逻辑。此外，阅读、听力、写作和听力各项属于不同的语言能力特质，使用绝对分值简单相加，计算出的考生排名也受到了类似的干扰（张厚璨，2004），不符合决策需要。

3.测评决策和后效论证

AUA框架对测评的决策主张：基于测评解释结果做出合理公平的决策。其主要理据为：决策谨慎、符合社会价值观；设置分数线；分数是相关决策唯一的依据。

后效主张为测评的后效对于利益相关者是善益的。其主要理据为：测评结果表达及时、清晰易懂；测评让利益相关者均受益。

受调研高校均以60分为明确的分数线，高于60分即为合格，低于60分为不合格。相应的决策为不及格的学生要补考或重修，不及格成绩将对其奖学金和毕业有直接影响。在对67名教师、12名教研室负责人的访谈和问卷调查中得知，絕大多数教师和所有教学管理人员都认为自己主要从学生的最终成绩单上判断其英语水平。但基于测评解释论证的结果可知，在受调研的29次课程测评中，其分数解释意义均增加了出勤、课堂参与等态度、学习策略内容，形成了“分数是相关决策唯一依据”的反驳论证。

课程测评的一个重要功能是为教学提供反拨作用（亓鲁霞，2006），针对教师的67份有效调查问卷结果显示，全部受调研的教师认为自己“未能依据课程测评成绩中有效改变未来的教学计划和内容”，12名受访的教研室主任中10名也肯定了这一结果。受调查的418名学生中233人认为“课程测评不能促进我更加努力地学习英语”，占比56%，持肯定态度的仅为80人，占比19%。96%的学生表示希望得到各分项测评分数及其意义描述。以上结果在决策和后效论证上形成了较强的反驳证据。

四、总结和建议

在AUA框架下，对6所高校的29次大学英语课程测评在测评记录、解释、决策和后效层面进行使用论证，结果表明：由于课程测评较多使用了信效度较高的CET测试题，使得在构念效度这个核心问题上的主张成立，保障了测评内容质量。此外，在测试流程标准化上得到了积极性的论证结果。但在期末考试内部一致性、评分员一致性、决策依据逻辑性和决策对教学、学习的后效等方面，反驳证据明显强于理据，主张被大幅度削弱，主要原因分别为测评结构缺乏统一规划；考试与评价不同质；测评决策逻辑性弱。测评开发者和使用者有必要做出相应的改进，因此对大学英语课程测评的开发和使用提出如下建议：

1.基于全面、标准的英语能力等级量表作为测评规划和开发的依据，在整体教学大纲的框架下，合理规划考点，使用学业水平测试代替语言知识为主的结构主义测试方法。《欧洲共同语言框架》（CEFR）和教育部高教司即将颁布的《中国英语等级量表》可以为效度设计和实现提供内容和等级基准；在能力量表框架内开发主观测评项目等级制评分标准，进行统一连续的评分员培训，在测评内容和评分标准层面上保障主观评分项目的效度，同时进行必要的主观题评分验证和等值处理，确保评分的公平稳定。

2.以构念效度为出发点，设计与期末考试同轨、通衡、互补的过程评价内容，区分测评体系中语言能力因素与学习策略因素，从而在分数解释和决策中区分对待，防止效度污染。改进分数计算和使用方法，使用分项标准分计算测评总分，可以减少测评项目异质性带来的计算误差。

3.建议成立专门的测评分析部门，分项报道成绩，以质量报告形式解读分数分布、对比和发展趋势，发布教学使用建议，使测评结果提供更加充分的解释信息和决策数据，成为教学方法和教学管理中的重要依据。同时建议增强测评的权威性和决策逻辑性，调动学习积极性。

参考文献：

[1]American Psychological Association. Technical Recommendations for Psychological Testing and Diagnostic Techniques[J]. Psychological Bulletin，1954，51（2：2）：1-38.

[2]American Psychological Association. Standards for Educational and Psychological Testing[M]. Washington， DC：APA，1985.

[3]Alderson，J.Charles. Assessing reading阅读评价[M].北京：外语教学与研究出版社，2011.

[4]Bachman， L.& A. Palmer. Language Assessment in Practice： Developing Language Assessments and Justifying Their Use in the Real World[M].Oxford：OUP，2010.

[5]Buck G. Assessing listening[M]. Cambridge： Cambridge University Press， 2001.

[6]Hughes， Arthur. Testing for Language Teachers[M]. Cambridge： Cambridge University Press， 2000.

[7]Kane M. Validation. In： Brennan RL， ed. Educational Measurement， 4th edn[M]. Westport， CT： American Council on Education/Praeger，2006：17-64.

[8]Kane M. Validating High-Stakes Testing Programs[J]. Educational Measurement Issues & Practice， 2010， 21（1）：31-41.

[9]Kane， M. Validating score interpretations and uses[J]. Language Testing 2012， 29： 3-17.

[10]Messick， S.Validity[A]. In R. Linn （ed.）. Educational Measurement （3rd edition） [C]. Washington， D.C.： American Council on Education， 1989.

[11]McNamara， Tim. Validity in Language Testing： The Challenge of Sam Messicks Legacy[J]. Language Assessment Quarterly， 2006， 3（1）：31-51.

[12]李筱菊. 語言测试科学与艺术[M]. 长沙：湖南教育出版社， 2001.

[13]刘建达. 中国英语能力等级量表研究成果报告[C]. 广州：第一届语言测试与评价国际研讨会，2015.

[14]刘建达. 中国英语能力等级量表研究成果报告[C].杭州：第二届语言测试与评价国际研讨会，2016.

[15]亓鲁霞. 论考试后效[J]. 外语与外语教学， 2006（8）：29-32.

[16]王孝玲. 教育测量[M]. 上海：华东师范大学出版社， 2005.

[17]张厚粲，徐建平. 现代心理与教育统计学·第2版[M]. 北京：北京师范大学出版社， 2004.

[18]教育部高等教育司.大学英语课程教学指南[Z]. 上海：上海外语教育出版社，2017.

基金项目：中国外语教育基金项目“基于iTEST 的大学英语‘同轨测评体系构建与使用论证（项目编号：ZGWYJYJJ2016A14）；中国矿业大学教学成果培育项目“标准化、交际型大学英语测试方法改革研究”（项目编号：2015YB39）。