全国硕士研究生英语入学考试(NETEM)效度验证

2011-11-02 07:58:48方秀才

淮北师范大学学报(哲学社会科学版) 2011年3期

关键词：入学考试效度试题

方秀才

(淮南师范学院外语系，安徽淮南 232001)

全国硕士研究生英语入学考试(NETEM)效度验证

方秀才

(淮南师范学院外语系，安徽淮南 232001)

全国硕士研究生英语入学考试(非英语专业)(简称NETEM)实行全国统一考试，目的是测量学生的语言能力，为高等学校和科研机构择优选拔人才提供依据。对于这项重要的考试，相关文献却很少验证其效度。本研究在作者研究该项考试阅读理解部分效度的基础上，通过组织测试实验和发放调查问卷，运用定量、定性相结合的方法进一步验证该项考试完型填空和写作部分的效度，从而实现对该项考试各个部分进行效度检验。根据验证结果，文章为完善该项考试提出建议。

全国硕士研究生英语入学考试(NETEM);效度;效度验证;语言测试

一、文献综述

语言测试的目的是提供一种科学的工具，通过对学生语言运用的抽样，对学生的语言能力进行客观、准确、公正的评价。Bachman认为，一个有用的测试必须具备六个品质，即:信度、效度、真实性、交互性，后效作用和可行性[1]17。其中，效度指的是根据所设想的测试使用目的，(所收集的)证据和(依照的)理论支持测试分数解释的程度……效度是一个统一的概念，即只有构念效度这一种效度，而不是传统上的多种概念。笔者认可统一效度之说，但同时认为传统上的多种效度概念却为我们验证效度收集证据时提供了角度，因此本文在效度检验环节仍然使用这些概念。效度验证的过程回答了一项测试是否很好的履行了它设计时所应达到的检测任务，是衡量测试质量最重要的方式和途径。

对于国内的英语考试，杨惠中＆Weir C．把实验研究、问卷调查、座谈会和内省法心理研究等方法结合起来对CET的结构效度、内容效度、同期效度和预期效度以及表面效度进行了研究[2];邹申等从内部效度(internal validity)和外部效度(external validity)对TEM进行了效度验证[3]。他们在中国开创对效度的研究先河之后，人们开始重视对外语测试试题效度的研究，其中有邹申，周越美＆张艳莉[4]及金艳[5]等。

“全国硕士研究生入学统一考试是为高等学校和科研机构招收硕士研究生而设置的。其中，英语实行全国统一考试。它的评价标准是高等学校非英语专业优秀本科毕业生能达到的及格或及格以上水平，以保证被录取者具有一定的英语水平，有利于各高等学校和科研机构在专业上择优选拔”[6]。该考试卷面满分为100分，从2005年以后，该考试题型一直未有变动，主要有三大部分构成:完型填空、阅读理解和写作，各占比重10%、60%和30%。历年的NETEM考试大纲明确写明“本考试对课程和教材不作统一规定”，因此它不是检验教学成果的成就测试，而是一项参照考试大纲设计的水平测试，那么该考试能在多大程度上对考生水平做出检测呢?它的效度到底有多高呢?上述文献却很少触及NETEM的效度，这和该考试的社会意义、影响并不相称。

近几年，国内出现了一些相关研究，方秀才以2005年硕士研究生英语入学考试为主要对象，研究了该项考试阅读理解部分的效度[7];郭庆民评述了2006年该试题阅读理解部分的命题[8];张怡则对该项考试翻译进行了效验;论证阅读理解部分的内容效度。综览国内这些文献，作者发现它们都是对该测试的某个部分进行了效验，不能完全反映整个考试的效度，而且都忽略了该项考试另外两个重要组成部分即完型填空和写作部分的效度检验。本研究在作者对NETEM阅读理解部分效度检验的基础上进一步对考试的完型填空和写作进行效验，从而完成对该项考试的效度全面检验。针对存在的问题，文章为完善该项考试提出建议。

二、研究方法

(一)调查对象

参加测试实验和问卷一回答的是从中国科学院研究生院2007级在读硕士研究生一年级中随机抽选的两个班级共55名学生。为了保证实验的有效性，在授课老师的支持下，本次实验的成绩记做他们英语课程平时成绩的一部分。

(二)实验设计

1．实验材料

实验材料包括2008年NETEM完型填空及写作部分的考试真题、答题纸、问卷、被试同期参加的硕士学位英语考试试题。本次调查问卷均采用Likert五点量表选项。

2．实验问卷的设计

问卷包括两个问题，要求考生判断完型填空和写作部分对于检测大纲所规定的相应能力的合适程度，结果用来分析表面效度。为了更好地得到被试对于试题的主观评价，问卷直接穿插到试题的两个部分之前，要求被试浏览完题目即对问卷问题做出回答，问卷中两个问题如下:

Question 1:在你浏览完Section I后，你认为“该部分不仅考查考生对不同语境中规范的语言要素 (包括词汇、表达方式和结构)的掌握程度，而且还考查考生对语段特征(如连贯性和一致性等)的辨识能力等”吗?

( )A．能很好检测 B．能较好检测C．能一般检测 D．难以检测E．很难检测

Question 2:在你浏览完Section II(Part A＆B)后，你认为该部分能“考查考生的书面表达能力”吗?

( )A．能很好检测 B．能较好检测 C．能一般检测 D．难以检测E．很难检测

3．实验解说词和考试指令的设计

实验解说词阐明该实验的目的和性质，考试指令重点规范考试的进程和回答问卷的顺序，要求学生严格执行，否则视为无效问卷。

(三)实验步骤

研究人员组织的测试实验在两个班同时进行，耗时80分钟，所有同学完成试题的回答。50位同学按要求回答了问卷中第一个问题，46位同学回答了第二个问题。被试同期参加的硕士学位英语考试的试卷制作、考试安排都按国家级考试进行，信度效度都较高，这次的学位考试是在测试实验后一周内进行，保证了它们的同期性。从两类考试中我们获得的数据除问卷信息外，还包括55位被试在考研试题完型填空的分数、应用文和大作文的单项分以及他们在学位英语考试中取得的完型填空和作文的分数。

(四)实验结果

问卷第一个问题有50位被试作答，统计如下:

表一:2008年NETEM完型填空题型对问卷中所列能力检测合适性

问卷第二个问题有46位被试作答，统计如下:

表二:2008年NETEM写作题型对问卷中所列能力检测合适性

表三:被试在测试实验及学位英语考试中的完型及写作单项分原始数据一览(因版面省略)

三、统计分析及效度检验

Ingram把表面效度定义为“一项测试的表面可信度或该测试被大众接受的程度”[9]。从表一可以看出，只有48%的被试认为该题型能很好或较好地“不仅考查考生对不同语境中规范的语言要素(包括词汇、表达方式和结构)的掌握程度，而且还考查考生对语段特征(如连贯性和一致性等)的辨识能力等”，其中还有12%的被试认为这种题型难以或者很难检测考试大纲规定要检测的能力。从表二可以看出，有近61%的被试认为写作部分的两种题型能很好或较好地“考查考生的书面表达能力”，只有4%的被试认为这两个部分难以检测该能力。

根据Alderson，Clapham＆Wall的论述，尽管表面效度多是一些“外行”人群对某一项测试的评价，自身可能欠缺依据，但他们更相信，如果被试认为某项考试表面效度较高，被试就更可能最大程度地发挥自己的能力和水平，更合理地答题，进而影响该项考试的应答效度(response validity)[9]172－175。甚至很多交际测试学家认为表面效度是最重要的效度种类之一[10]160。一项考试只有具有较高的表面效度考生才会乐意接受，否则考生就会抵触，这必然会影响考生水平发挥，也就无法对学生的能力进行有效的检测。另外，表面效度欠佳的测试也必然会招来社会各界更多的指责，难以长期的执行下去，研究生入学考试是全国性的统一考试，应该得到社会各界的广泛认可，保持其相对稳定性意义重大。统计数据表明，现行的英语入学考试完型填空部分的表面效度并不是很高，写作部分的表面效度相对较高。根据方秀才的研究，这和这两个部分采用主观和客观题型息息相关，因此，可以尝试编写主观试题来检测完型填空这种客观题型试图检测的语言能力，提高该部分试题的表面效度。

我们是通过组织试验发放问卷来探讨这两个部分的表面效度的，调查群体有限。为了获悉社会(主要是考生)对整个入学考试的评价(如考试的难易程度)，作者从一些主流网站获得相关信息，如下图所示:

图一:网络对2008年考研英语难度调查

从图一可以看出，参与这三大网站调查的60%左右的被试都认为当年的英语入学考试太难、很难或较难，主流网站对于其他年份实施的英语入学考试的调查结果也很相似。一门被认为很难的考试是难以得到被试广泛欢迎的，这种印象也势必影响该考试的表面效度。

内容效度指试题的内容(包括内容相关性和内容覆盖面)对于考试规范和考试大纲中规定的欲测内容检测的代表性和合适程度[9]173－176。对该效度的取证一般有两条方法:专家检测和考试规范的对照。聂建中和赵秀红通过分析高考英语试题完形填空部分的考点效度来衡量该部分的试题质量，他们认为“完形填空的考点效度就是对完形填空题在考点删除的合理性方面提出的效度要求”[11]54。因此，我们通过分析每个题项的考点和比对考试大纲来验证该部分的内容效度。分析结果如下:2008年考研英语完型填空试题20题有17题考核词汇层次知识，具体为词义辨析题13题，词义搭配题4题;3题考核语段的连贯性和语义的逻辑性。我们还注意到这20题中没有考核语法知识的题项。类似于聂建中和赵秀红的分类，2008年考研英语完型填空试题中只有3题考核语篇层次的高档题，比例仅占15%，而考核单词、词组层面的中低档题有17题，比例高达85%。他们的研究得出以下结论:“完型填空题的特点和优势就在于它的综合功能和语篇功能……删词 (设置题项)时应考虑尽量地把制约考点的范围扩大，使语境层次提高。这样才能使试题的效度提高……否则完型填空就失去了它的综合考查的意义”[11]56。综上，2008年考研英语完型填空试题的考点分布很不合理，对于词汇层面的中低档题的考查比例过大，而对于语篇层面的高档题考核不够，导致内容效度较低，使得完型填空综合考查的功能无法很好体现。

对于写作题目的设计，Heaton认为，呈现给学生的考题必须定义清楚、意图明确，这样才能激发学生动笔去写，而且写作任务应该保证考生有话可写[10]137。笔者研究发现我国影响较大的全国性英语考试都将写作作为最重要的主观题来增加考试的表面效度，但写作部分自身的效度研究却没有得到足够的重视。笔者也没有发现对硕士研究生英语入学考试的写作部分效验的相关文献。笔者通过对照考试大纲来对这一部分的内容效度进行检测。结果发现从2005年大纲及题型更改以来写作的第一部分即应用文写作内容效度较高。和历年该部分的试题一样，出题意图清楚，写作要求清晰明确。如2008年题目首先介绍了写信的缘由，其次统一了信件的内容(道歉、解决方法)，最后要求了字数、署名等相关信息。指示性语言浅显易懂，保障了考生对考题意图的把握。情景贴近生活，考生有话可写，便于应用文写作水平的发挥。

写作的第二个部分要求考生根据提示信息写一篇160－200字的作文，大纲中列举的提示信息的形式有:主题句、写作提纲、规定情景、图、表等。然而近五年的考试无一例外地通过漫画图片来提示主题，根本没有用到大纲中提及的其他提示方式，可以说试题的设计并没有很好的遵守大纲，试题内容效度欠佳。近五年的大作文要求考生首先 describe the drawing briefly，再 explain its intended meaning，然后give your comments(参见08年真题)，尽管历年试题该部分措辞稍有差异，但意图统一。笔者仔细研究了这五次考试的漫画提示图，结果发现05和08年漫画较容易看懂、易于描述 (describe the drawing briefly)，象征意义(its intended meaning)明显，考生也容易给出评论(give comments)，然而另外三年的试题中的漫画很难读懂(尤其以09年真题中的漫画为典型)，更别说体会其象征意义了，这样考生会无从下笔，题目无法很好检测考生的写作水平，势必影响该部分的构念效度。另外，写作为主观题型，人工阅卷的信度也势必影响该部分的效度。

标准相关效度指的是测试分数和已被认可的能够反映学生能力的标准之间的关系，包括同期效度即同期和短时间间隔内两种测试的一致性关系和预期效度即某一测试的表现对其后测试表现的预示关系。研究生英语入学考试和硕士学位英语考试的考试大纲、试卷结构、题型设置及受试群体的英语水平非常相近，根据Bachman和Heaton对于平行测试的定义，可将它们视为平行，笔者通过这两类考试的相关性检验来验证研究生英语入学考试的标准相关效度 (本研究只验证同期效度，预期效度可通过对被试在07年研究生英语入学考试成绩和这次的学位英语成绩相关性检验来验证，因无法获取相关数据未能检测)。

笔者将表三中的数据分6项(考研完型分、考研作文总分、考研完型作文总分、学位完型分、学位作文分及学位完型作文总分)输入SPSS 12．0软件，并将两组对应分数依次进行3次相关性检验(如考研完型分与学位完型分)，结果参见下表:

表四:研究生英语入学考试及硕士学位英语考试完型填空、作文单项分及两项总分的相关性

统计学及教育测量学中相关性检验证明理论假设的最宽松的要求是α≤0．05，而从结果可以看出，这三次检验的significance level远远大于这个数值，可以认定这6项分数两两之间均不存在有意义的相关。因此我们得出如下结论，即:研究生英语入学考试完型填空及作文试题的同期效度很低，通过考生在该考试中的表现来衡量他们的英语水平并不是特别合适。

结论

从上文效验结果可见，NETEM完型填空部分表面效度、内容效度、同期效度较低;写作部分表面效度较高，同期效度较低;写作第一部分内容效度较高，第二部分的内容及构念效度较低，以漫画作为题目指示的方式不够明确，不能很好地检测考生的写作能力。笔者结合前期研究成果，对改进NETEM效度提出以下建议:(1)明确考试大纲中的表述，确保对各项能力的检测比重，这样才能更好地规范试题;(2)保持对欲测能力测试平衡，不断增加对高层次英语综合能力的检测，并增加检测的区分度;(3)可以尝试综合检测读、写、译能力(听说能力在复试中检测);(4)适当增加效度较高的主观性试题的比重，同时保障较高的阅卷效度;(5)切实做好考后的统计分析工作，并保证数据分析的结果应用到大纲和试卷的改进过程中;(6)不断对该项考试进行效度验证，找到问题，改进考试。

[1]BACHMAN，L．F．Fundamental Considerations in Language Testing[M]．Oxford:Oxford University Press，1997．

[2]杨惠中，WEIR，C．Validation study of the National College English Test[M]．上海:上海外语教育出版社，1988．

[3]邹申等．TEM考试效度研究 (TEM Validation Study) [M]．上海:上海外语教育出版社，1997．

[4]邹申，张艳莉，周越美．阅读测试中题目类型、策略与分数的关系－TEM4考试阅读项目的答题效度研究[J]．外语与外语教学，2002(5):19－22．

[5]金艳．高级英语阅读测试的开发和效度研究[M]．上海:上海外语教育出版社，2002．

[6]教育部考试中心．2008年全国硕士研究生入学统一考试英语考试大纲(非英语专业)[Z]．北京:高等教育出版社，2007．

[7]方秀才．2005年全国硕士研究生英语入学考试(NETEM)阅读试题效度验证初探[J]．中国考试，2005(12):36－39．

[8]郭庆民．2006年硕士研究生入学考试英语试题阅读理解部分评述[J]．中国考试，2006(7):15－17．

[9]ALDERSON，J．C．，CLAPHAM，C．＆WALL，D．Language Test Construction and Evaluation[M]．Cambridge:Cambridge University Press，1995:172．

[10]HEATON，J．B．Writing English Language Tests[M]．London:Longman Group UK Limited，1988．

[11]聂建中，赵秀红．高考英语完形填空的效度分析[J]．教育理论与实践，2005(3):54－56．

H310．4

2095－0683(2011)03－0114－04

2011－04－06

2008安徽省教育厅人文社科项目“全国硕士研究生英语入学考试效度研究”(2008sk321)

方秀才(1979－)，男，安徽枞阳人，淮南师范学院外语系讲师，硕士。

责任编校秋晨