大学英语分级测试垂直量表体系构建的可行性探析

2016-05-14 01:39关宁陈福明

黑龙江教育·高校研究与评估 2016年6期

关宁陈福明

摘要：文章从垂直量表化的内涵与特点出发，结合当前大学英语分级教学现状，提出了大学英语分级测试垂直量表体系的构建思路，并分析了其构建的可行性。

关键词：大学英语；垂直量表；分级测试

中图分类号：G640 文献标识码：A 文章编号：1002-4107（2016）06-0054-02

近几年来，为响应大学英语改革的号召，全国各高校如火如荼地展开大学英语分级教学模式，然而这其中不乏一些铩羽而归的高校。究其失败的原因，很多是因为缺乏一套有效的测试评价体系。针对不同级别、不同水平的学生，如果仍采用传统的“一刀切”式测试方法，其测量结果的有效性和公平性显然都是不能令人信服的。针对这样的问题，引入心理测量学研究领域中的垂直量表化方法，建立垂直量表体系，能够为解决大学英语分级教学的测试评价问题提供思路。

一、垂直量表化的内涵与特点

垂直量表化，又称垂直等值或跨级别量表化，是将不同级别的被试者在构念（construct）相同而难度不同的测试中获得的分数放到一个共同的整体性量表中，由此，在某一特定主题测试中被试者阶段性的进步能够得以追踪并可供实施测试者进行比较[1]。

Holland和Dorans将两场测验中得到的分数进行相互转换的过程称作链接，而链接有三大类：预测（predicting）、数值校正（scale aligning）和等值（equating）。预测是最早的分数链接形式，其目的是使来自于其他预测变量的因变量或标准变量的分数预期误差最小化；数值校正的目的是将不同测试中获得的分数转换到一个共同的量表上；等值对需要链接的测试要求最为严格，其目的是在两种形式的测试之间建立联系，使每个测验中的分数都可以被看作是出自同一测试的分数，以满足实际应用的需求。其中垂直量表化是归属于第二大类数值校正中的[2]。

设计垂直量表体系时，基本做法是使相邻组之间有共同的测试项目，称之为锚题，以此为基准建立共同量表。建立共同量表的方法有经典测试理论（CCT）和项目反应理论（IRT）等，若选用IRT方法，第二个要考虑的问题就是量表校准方法的选择：第一种方法是通过同时校准测试形式的项目和人员参数以及共同项目；第二种方法是单独校准不同测试形式的参数，然后使用某种数值链接方法将它们放到同一个量表上。其他需要考虑的问题包括：共同项目集合的长度，基准年的选择和选用的计算机软件等。

二、大学英语分级教学现状

2003、2007年我国教育部相继推出了大学英语教学改革相关文件《大学英语课程教学要求（试行）》和《大学英语课程教学要求》，其中根据学生入学时的不同英语基础情况，对大学英语教学提出了三个层次的要求，即一般要求、较高要求和更高要求，分类指导和因材施教是改革的核心思想[3]。分级教学正是在这种改革大背景下应运而生的大学英语教学的具体改革措施。

从最早的改革实施至今已过去10年多，按照文件要求，全国大部分学校已经开始实施分级教学模式。但是由于各地情况不同，实施的具体情况也相应地有着各自的特点。当前争议的焦点主要存在于分级后对学生学习情况进行检验的测试评价体系方面。改革初期，很多高校还处于迷茫的状态，为了方便起见，有的高校在期末测试时，对不同级别的学生仍采用同一测试，这就难免会让人对测评的公平性产生质疑。实施分级教学比较久了的学校开始针对不同级别设计不同难度的试卷，以提高考试的公平性；但是这也存在相应的问题：不同级别的学生在不同难度的试卷中得出的分数如何进行比较？当前在我国，很多学校的考试分数直接影响到学生的评奖评优、入党以及未来申请出国读书等学生的切身利益，因此迫切需要建立起一套客观、科学和有效的测试评价体系。

三、大学英语分级测试垂直量表体系构建的思路

构建大学英语分级测试垂直量表体系一个总的思路是：在不同级别的试题设计中加入可供链接的相同题，即锚题，其次需考虑建立共同量表的方法及选用的计算机软件等问题。

（一）锚题设计

锚题设计中要考虑的基本问题是，要在哪部分题中设计锚题。当前大多数高校对学生的学习情况测评仍采用笔试形式，而笔试试卷中分为客观题和主观题两种，客观题通常包括听力和阅读，主观题通常指翻译和写作。主观题，尤其是写作题，是展现一个语言学习者能力的最佳渠道，对于A级学生来说，写作题要设计的足够有深度，以此能看出他们对语言掌握的高度；但若把给A级学生设计的写作题拿来用作锚题，对于C级学生显然挑战过高，同样，对于A级的学生来说，B级的写作题目似乎也太过平庸，无法展现出其作为最高级别英语学习者的水平。同时也有研究表明，将客观题选作锚题，在后期的数值计算过程中误差明显小于主观题[4]。

（二）建立共同量表的方法

前面提到建立共同量表的方法主要包括经典测试理论和项目反应理论两种。Loyd 和 Hoover 在1980年首次系统的提出在垂直量表体系中使用项目反应理论中的Rasch 模型，许多后期的研究显示，在数据与模型适合良好的情况下，使用Rasch模型建立起的垂直量表体系比起经典测试理论下的模型，如百分位数等化法等表现更佳。相比于经典测试理论，项目反应理论方法不单单是在理论上具有更优的性质，同时在实际应用上具有更强的功能。

接下来就要考虑校准方法的选择，项目和人员参数以及共同项目参数，究竟选择同时校准还是分别校准比较好？Hanson和Beguin发现，正确的指定了模型以后，同时校准通常比分别校准能得出更优的结果，Kim和 Cohen（2002）指出，对于多项分类数据来说，通过同时校准所得到的真正的多元项目反应理论模型参数值恢复比起分别校准加之链接项目和能力参数的值恢复更具有连贯性和准确性，尽管这两者的差别非常细微[5]。

在量表建立的过程中，由于涉及多种计算，不可以有半点疏漏，各种计算机软件的选用也就显得尤为重要，这一点有学者做过详细的论述，如在不同的阶段选择何种软件，软件的获取渠道等都有详细说明，笔者在此不再赘述[6]。

四、大学英语分级测试垂直量表体系构建的可行性

为评估英语学习者的进步情况而建立相应的垂直量表体系，这种做法在美国是有先例的。2002年美国布什总统签署了《不让一个孩子掉队》法案（No Child Left Behind，简称NCLB），其主要目标是缩小幼儿园至12年级（相当于我国的高中）之中各年级学生之间由于拥有参差不齐的教育资源所造成的成绩方面的差距，让每个学生都能享受到高质量的教育。法案中有一项要求各州每年从英语听、说、读和写四个方面对英语学习者的英语语言能力进行测试评估，相应地得出学生的进步情况，并以综合性报表向联邦政府汇报。其中最为清晰有效地监测学生进步的方法即是将不同年级的评估结果放到一个共同的量表中进行衡量。

显然不同年级的学生不可能使用相同形式的测试，应对不同年级或者不同年龄段的孩子设计出适应其各自发展阶段的试题。想要将处于不同发展阶段、不同年级学生的测试结果放到同一个量表中，最好的办法就是使用垂直性量表。其具体的操作思路是：首先WIDA（世界级教学和测试公司）将幼儿园至12年级的学生分为五个测试群，然后从听说读写四个方面入手设计试题，遵循不同题型的特点相应地加入锚题。其中建立共同量表的方法选择的就是项目反应理论方法，相应的校准方法选择的是同时校准方法。

前面对于垂直量表体系的基本理论、我国大学英语分级教学的基本情况、构建体系的大体操作思路和一个实际应用案例作了简单介绍。诚然，针对不同的分级教学情况，构建出的体系也不可能是完全相同的，各个高校还是要根据自身的情况，吸取前人经验，因地制宜，开发出适合自己学校情况的体系。

以笔者所在学校为例，哈尔滨理工大学自2014年秋季学期开始实施大学英语分级教学模式。其基本做法是按照一次分级考试后的成绩排名，在各个学院内部，将学生分成A、B和C三个级别进行教学，在教学内容的深度和广度上区分三个级别的教学。改革过去了一年多，现在各位教学者面临的最大问题便是如何对学生学习成果进行评价，当前的做法是，期中和期末测试仍采用同一套试题，但适当加大平时分的比例（平时、期中和期末分数比例由1：1：3改为2：1：2），对不同级别的学生，采用不同的平时分计算方法，A级要求最高，B级次之，C级最低，以此来调整期中期末“一刀切”造成的不公平问题。但在实际操作中，教师在给平时分时表现出的主观性又会对分数的可信度造成一定影响。所以在哈尔滨理工大学要建立的垂直量表体系主要是针对平时分部分的，让原本可以人为决定的、较为主观的分数量化成可以计算和衡量的客观分数，是哈尔滨理工大学要解决的首要问题。

为实现公平性的原则，在大学英语分级测试中构建垂直量表体系是十分必要的，而具体的理论指导思想和前人经典案例又证明了这种做法的可行性。未来需要投入更多研究的部分一是各高校具体测评的方法，二是通过何种途径，在英语教学领域培养出可以将心理测量学知识和大学英语教学紧密联系起来的人才。

参考文献：

[1]Dorans N J，Pommerich M，Holland P W.Linking and

Aligning Scores and Scales[Z].New York，U.S.：

Springer Verlag，2007：17.

[2]Davier A A v.Statistical Models for Test Equat-

ing，Scaling，and Linking[Z].New York，U.S.：Springer，

2011：22.

[3]教育部高等教育司.大学英语课程教学要求[Z].北京：

外语教学与研究出版社，2007：1.

[4]陈丽.垂直量表化对大学英语分级教学测评体系弊端的

解析[J].西安外国语大学学报，2014，（6）.

[5]Kenyon D M，MacGregor D，Li D Y，Cook H.G.Issues

in vertical scaling of a K-12 English language

proficiency test[J].Language Testing， 2011，（3）.

[6]黎光明，张敏强.IRT测验等值流程化操作思路的构建

[J].中国考试，2012，（11）.