TEM-4测试信度实证研究
——以2006—2011年TEM-4试题为例

2014-03-23 03:17:54田文燕

五邑大学学报（社会科学版） 2014年4期

田文燕

(五邑大学外国语学院，广东江门 529020)

一、国内语言测试信、效度研究现状

评估语言测试的主要标准有：信度( reliability)、效度( validity)和可行性(包括难易度、区分度、可操作性、可重复性、有益的反拨性、分数的可解释性、经济上的可承受性等)，其中信度与效度是极其重要的两个标准。一个测试如果失去信度与效度，其他标准便无从谈起。信度概念是从普通计量学引入语言测试的，称测试的可靠性或一致性(consistency)。笔者选取2001—2011年国内10种语言类CSSCI期刊《外语教学与研究》、《外国语》、《外语与外语教学》、《外语界》、《现代外语》、《外语教学》、《解放军外国语学院学报》、《外语学刊》、《外语研究》、《中国外语》，其中有关信度和效度研究方面的文章共计36篇。从总体上看，其研究的数量呈上升趋势(见图1)。

图1 2001—2011年国内10种语言类CSSCI期刊有关信度和效度研究论文数量图

笔者依据该领域研究的具体内容，将该36篇文章分为3大类：语言测试效度研究的文章有22篇，占总数的61%；信度研究的文章仅有6篇，占总数的17%；信、效度均涉及的文章有8篇，占总数的22%。

36篇文章中, 对口语测试(机考口试)信度及效度研究是最受关注的。口语测试作为一种产出性试题, 能够对考生的语言能力进行直接的测试，如果设计合理, 能对教学起到很好的反拨作用。但是用于大规模的考试时, 很难保证评分的一致性和准确性。因此, 长期以来, 口语测试常被排斥于大规模语言测试之外。随着社会的发展, 对英语口语能力的要求以及对此能力进行有效的测量的要求也越来越高，有更多专家如：金艳、郭杰克、蔡基刚、庞继贤、陈婵、黄永红、吕长竑、王海贞、鲍晓英、文秋芳等对其信、效度进行了研究。在语言测试的主观测试题的效度与信度的研究越来越受到重视的同时，其客观测试常用题型的效度研究也受到学者的关注，如何勇斌对听力测试的研究[1]、徐清平和张延续的“语法与词汇” (Grammar and Vocabulary) 的研究[2]、郭丽的完型填空的研究[3]、邹申、杨卫健对阅读理解的研究[4-5]等。随着计算机和网络技术的飞速发展，语言测试的介质(medium)也在逐渐发生变化，出现了由基于计算机的语言测试(CBLT)取代传统的基于纸笔的语言测试(PBLT)的趋势，对计算机化语言测试的信、效度的研究随之引起研究者的关注。

综上，近十几年来有关语言测试效度的研究颇丰，但也存在一些不足：1.对该领域研究内容不够均衡。口语测试由于受到主观评分的影响，其信度较低，从而影响了效度。因此，口语测试的信度、效度受到了语言测试专家们的极大关注，有关该测试信度、效度研究的文章也是最多的，占了近三分之一。但笔者认为，我们同样不能忽略对其他测试部分信度、效度的研究，只有各个部分的信度、效度提高了，测试的整体信度、效度才会提高。2.对目前所关注的形成性评价以及教师自行设计的期末测试的信度、效度研究重视不足，所统计的文章中只有2篇。形成性评价以及教师自行编制的期末试题对教学会产生直接的反拨作用，因此，应更多关注形成性评价以及教师自行设计的期末测试的信度、效度研究。3.从所发表的文章来看，对测试信度的研究明显偏少，只有6篇。其中一篇是对信度计算模式的探讨，另5篇均是从评分员角度对测试的信度的研究。笔者认为，对于大规模、高风险测试有必要进行试题的信度研究，以保证测试的公平性。

二、研究设计

(一)语言测试信度研究

信度研究的种类大致有二：一是试题的信度(test reliability)研究；二是评分员信度(scorer or rater reliability)研究。目前，国内的语言测试信度研究基本上是从评分员角度所进行的，研究发现：考官的严厉度、任务难度、评分标准和量表等因素都可能产生一定的测量误差，从而导致考生的成绩差异[6-10]。笔者拟从受试角度研究TEM4试题所导致的受试成绩的差异。

(二) 研究问题

本研究试图回答以下问题：1.2006-2011年6年的TEM-4试题是否存在一致性和稳定性?2.6年的TEM-4试卷主观题部分和客观题部分是否存在一致性？3.2006-2010年5年的TEM-4的学生成绩与2011年TEM-4学生成绩是否存在一致性和稳定性？

(三)研究材料和研究对象

1. 研究材料：2006-2011年连续6年的TEM-4的试题。本考试除写作及短文听写部分为主观试题外，其余都采取多项选择题形式。

2.研究对象：从某校英语专业09级(二年级) 97名学生当中抽取一个自然班(24名学生)作为样本。该校新生分班时考虑到多种因素，如：性别、地域、高考总分及英语单科成绩等因素，因此，选择一个自然班作为研究对象可排除样本的不均衡因素。选择二年级学生为研究对象，主要考虑的是他们自身的特点：二年级学生即将参加全国英语专业四级考试，对他们多次进行四级模拟考试，从心理上他们不会有抵触和反感；相反，在考试中他们会积极作答，以检验自己的水平，积累自己的考场经验。因此，在这一层次上抽样，具有十分重要的意义。

(四)研究步骤

2011年英语专业四级考试是在4月16日进行。模拟考试具体考试时间为每周周二(3月1日、3月15日、3月22日、3月29日、4月5日)下午2:30 — 4：45，共135分钟。学生答题过程完全按照英语专业四级正式考试步骤进行：每位学生都发有答题卡，考场放音设备均提前进行检查，短文听写及听力部分学生戴耳机进行。考试前告诉学生这五次模拟考试成绩会计入平时成绩，要求学生认真作答。为了提高测试的信度，考前并未告诉学生所用的是四级真题，而且所用的试题年份也都进行刻意调整，所采用的顺序是：2007年试题(3月1日)、2006年试题(3月15日)、2009年试题(3月22日)、2008年试题(3月29日)、2010年试题(4月5日)。同时，为让学生考有所获，对考过的每套试题在同一周周五早上进行统一讲评。

(五) 研究数据收集

试卷回收后，客观题部分用阅卷机统一批阅。为了降低评分偏差对测试信度的影响，主观题部分(短文听写和写作部分)由各个自然班基础英语课任课教师批阅，阅卷前阅卷教师认真学习专业英语四级短文听写和写作部分的评分标准。具体收集数据见表1和表2，其中表2中24名学生2011年TEM4的成绩来源于TEM4考试中心。

表1 24名学生2006—2010年TEM4 主观题成绩

表2 24名学生2006—2010年TEM4 客观题成绩、总分及2011年TEM4成绩

三、数据分析与讨论

(一) 2006—2011年6年的TEM-4测试成绩

为了考察这六年的TEM4试题是否存在一致性和稳定性，笔者运用SAS(Statistic Analysis System)统计分析软件，对24名学生2006—2011年的总成绩进行了统计分析，结果如图2和表3所示。

图2 2006—2011年TEM4学生成绩显示图

表3 24名学生2006年—2011年TEM4成绩名次表

从图2中可以看出，6条曲线的波动是一致的，这说明学生6次整体成绩表现出了一致性和稳定性。从表3的统计结果上也可以看出，S1、S2、S13、S21、S22这几名学生的几次考试成绩均居前列，S4、S7、S14、S19、S20这几名学生的历次成绩名次几乎没有太大的波动；24名学生2006—2010年的几次模拟考成绩与2011年的TEM4成绩基本上是一致的，几次成绩具也有极强的相关性。从以上分析可以看出，2006—2011年TEM4的试题具有较高的信度。

(二) 2006—2011年6年的TEM-4测试成绩分析

从图2上看，6条曲线虽然波动一致，但最高的一条曲线与最低的一条曲线却有较大的差距。从语言学习的理论和实践上看，在一个多月的时间内学生的成绩不可能有大幅度的波动，因此，笔者做了如下统计：

表4 2006年-2011年24名学生成绩难度值、集中量数、离散量数统计表

从表4可看出，学生在一个多月内TEM4的成绩由2006年的平均分56.6到2011年的66.2，有接近10分的提升。从数据分析上有以下原因：1.2006年及2010年主观题短文听写难度较大，其中2006年难度值为0.40，2010年难度值为0.49，这是造成2006年、2010年短文听写平均分过低的主要原因；2.从离散量数全距上看，2006年全距为27，2010年为30，全距过大也是2006年及2010年平均分较低的原因之一；3.从统计的标准差来看，2006年标准差为6.0729，它的离散程度也较大。综上分析，2006年、2009年试题总体较难。为了避免抽取样本过小，笔者调取该校历年TEM4过关率的数据，其中2006年为85.71%、2007年为97.85%、2008年为96.92%、2009年为84.38%、2010年为92.08%、2011年为81.63%。全国高校TEM4过关率的统计为：2006年为55.42%、2007年为59.07%、2008年为61.83%、2009年为58.62、2010年为56.01、2011年为53.63。无论是该校还是从全国的TEM4过关率的统计数据，都与笔者对试题难易度分析结果相吻合。

四、结论

通过从受试角度对2006—2011年TEM4试题以及对所采集的数据分析、研究，本文对拟解决的三个问题做出以下解答：

1.2006-2011年6年的TEM-4试题是否存在一致性和稳定性? 研究表明，2006—2011年试题从整体上看具有一致性和稳定性。从图2和表3看，24名学生的成绩出现高度一致，尤其是S1、S2、S13、S21、S22这几名学生的几次考试成绩均居前列，S4、S7、S14、S19、S20这几名学生的历次成绩名次几乎没有太大的波动，因此，可以说2006—2011年TEM试题具有较高信度。

2.2006-2011年6年的TEM-4试卷主观题部分和客观题部分是否存在一致性？从表4看，2006年、2010年的短文听写部分的难度明显高于其他年份，难度值分别为0.40、0.49，这是造成这2年短文听写平均分过低的主要原因；与其他年份相比，2006年写作部分也较难，难度值为0.66。因此，从某种程度上说，TEM4主观题部分的难度缺少稳定性和一致性。而2006—2011年的客观题部分，从最低客观题平均数为32.5(2007年)，到最高38.5(2010年)，最高和最低之间只差6分，学生客观题部分成绩呈现出稳定性和一致性，因而TEM4客观题部分信度较高。

3.2006-2010年5年TEM-4的学生成绩与2011年TEM-4学生成绩是否存在一致性和稳定性？从表3可以看出，24名学生2006—2010年的几次模拟考成绩与2011年的TEM4正式考成绩基本上是一致的。从表4中也能看出，学生2006—2010年的几次模拟考总分平均分除了与2006年有较大出入外(相差近10分)，其他年份与2011年正式考的总分平均分并没有太大的波动(相差4.7分)。这说明2006-2010年5年的TEM-4的学生成绩与2011年TEM-4学生成绩是否存在一致性和稳定性，学生TEM4的考试成绩具有较高信度。

根据以上研究结果，本研究对目前TEM4提出 3点建议：1.TEM4考试属于尺度参照性标准化考试，而非选拔性考试，因此，为了保证考试的公平性，应注意考试难度的一致性，忌难度忽高忽低。尤其是短文听写和写作部分，这两部分分值较大，更应有一定的稳定性。2.TEM4考试的目的是全面检查已学完英语专业四级课程的学生是否达到教学大纲所规定的各项要求，考核学生运用各项基本技能的能力以及学生对语法结构和词语用法的掌握程度，既测试学生的综合能力也应测试学生的单项技能。笔者认为对英语专业学生来说，“说”的能力是很重要的一项技能，该项测试应尽早纳入所有参加TEM4所有考生考试范围中，避免在教学中对学生各项技能的训练有所偏颇。3.为了使TEM4考试体现其权威性，真正起到评估教学质量、推动校际交流学习的作用，建议进一步完善考试题型和方式。应多考虑体现英语专业特色和应用能力的测试题型，以对低年级学生的良好学风和学习方法的培养以及对教学起到正确的引导和促进作用。

参考文献：

[1]何勇斌.听力测试的构想效度及其实现[J]. 外语教学, 2005(3): 72-74.

[2]徐清平，张延续. 英语专业四级考试“语法与词汇”内容效度分析[J]. 外语研究, 2004(2): 57-59.

[3]郭丽. 集库式完型填空效度研究[J]. 中国外语, 2010(4): 70-76.

[4]邹申，张艳莉，周越美. 阅读测试中题目类型、策略与分数的关系——TEM4考试阅读项目的答题效度研究[J]. 外语与外语教学, 2002(5): 19-22.

[5]杨卫健. 英语专业四级考试阅读理解测试的答题效度验证[J]. 外语教学, 2011(6): 53-56.

[6]何莲珍，张洁. 多层面Rasch模型下大学英语四、六级考试口语考试(CET-SET)信度研究[J]. 现代外语, 2008(4): 387-398.

[7]张森，于朋. 大学英语四级考试作文网上评阅信度保障研究[J]. 外语界, 2010(5): 79-86.

[8]刘建达.评卷人效应的多层面Rasch模型研究[J]. 现代外语, 2010(2): 185-193.

[9]李航. 基于概化理论和多层面Rasch模型的CET-6作文评分信度研究[J]. 外语与外语教学, 2011 (5): 51-56.

[10]肖维青. 翻译测试的评分员信度研究——TEM8翻译项目评分员问卷调查记略[J]. 外语学刊,2011,(6): 115-119.

TEM-4测试信度实证研究——以2006—2011年TEM-4试题为例