李传益
高校英语专业四级考试效度组间检验
李传益
效度是衡量所开发的语言测试质量的最重要的指标和核心,测验效度检验需要多角度多方法积累证据。本文从一个侧面,即运用不同被试群体组间分析检验的方法考查了高校英语专业四级考试(TEM4)的效度,并用调查问卷形式考查了不同高校英语专业学生对TEM4效度所持态度是否存在差异。从考查结果来看,本研究证实了TEM4能有效区分英语能力水平不同的考生,具有区分效度。调查问卷结果也显示,不同院校英语专业学生对TEM4效度所持的态度基本一致。
高校英语专业四级考试;不同考生群体;效度组间检验;调查问卷
作为一种基本的测评手段,语言测试开发和使用要考虑的首要问题不仅仅在于测试结果是否是可信的,或者我们根据测试结果做出的解释以及决策是否是有效的,还在于“测试是否准确地测到了它想测的内容”(Hughes,1989;Henning,2001),或者说在多大程度上测出了语言学习者的语言能力,这就涉及测试的效度问题。效度即有效性,它是衡量所开发的语言测试质量的最重要的指标和核心。如果一项测试具有较高的信度,但是并没有测到它应该测量的内容,因而就不能准确地反映学生实际运用语言的能力,其效度就不高。近年来,随着我国英语教育事业的发展,许多高校都设立了英语专业教学点,作为检验英语教学质量的高校英语专业四级考试(TEM4)的权威性也在不断增强,比如,考生人数急剧增加,规模几乎是以前的十多倍(戴炜栋,张雪梅,2011),2010年英语专业四级考试人数达到约27万,参考学校从最初的155所增加到827所(邹申,陈炜,2010);许多学校将TEM4成绩作为英语教学绩效的证明,并与教师的晋升挂钩,不少的用人单位也将TEM4证书与学生能力等同并以此招贤纳才,学生将通过TEM4看成是就业的敲门砖。因此,TEM4已经成为一项高风险的考试。虽然自TEM4开考至今,考试大纲历经多次修订,考试的性质、构念领域、任务要求、分数权重等都发生了较大变化,考试的科学性、命题的规范性、施测的合理性以及分数解释的公正性都得到了较大幅度的提高,但研究TEM4组间效度的文献还不多见。因此,运用不同被试群体组间分析检验的方法对TEM4这样的大规模标准化语言测试的效度进行研究是非常有必要的。
效度检验的内容归纳起来主要有内容效度、内部结构效度、被试(评分员)反应过程、测试分数与其他外部变量之间的关系以及有关测试后果的检验(APA,1999)。要检验一个测验是否具有效度需要从多个角度多种方法积累证据。有些方法是实证性的,涉及搜集数据和使用公式,有些方法则是非实证性的,比如,常识(Henning,2001)。一般来说,效度检验方法主要包括专家审查、因素分析、分测验之间或题型之间或题目与分测验之间的相关检验、效标关联效度检验、被试组间比较分析检验、问卷调查以及综合分析(meta-analysis)等。不同内容的效度采用不同的检验方法,这些方法可以从不同的侧面和角度证明测验是否有效。
本研究主要解决两个问题:
1)考查TEM4能否有效区分不同院校英语能力水平不同的考生?
2)考查不同院校英语专业学生对TEM4效度的看法是否有差异?
参加本实验研究的被试为本校(二类省属院校)2008级参加了2010年TEM4的60名考生以及武汉市某知名高校(综合类一类大学)2008级参加了2010年TEM4的60名考生。
本文主要采用组间比较分析方法来检验TEM4的效度。因为不同院校学生的英语水平是不同的,不同群体的考生同时参加某一个相同的考试,其成绩的差异性能为测试的效度提供证据。如果其成绩能够反映考生之间的能力差异,则说明该测试具有较高的效度,反之,则说明该测试区分度差,效度不高。另外,我们还设计了一份调查问卷来考查不同院校学生对TEM4效度所持的观点是否存在差异。
先分别从英语能力水平不同的考生群体中随机抽取60名考生作为样本,参加2010年的TEM4考试,再分别计算他们的平均分、标准差,并进行平均数差异的显著性检验以考查不同考生群体的英语能力水平是否存在差异。如果他们的成绩存在差异就能为TEM4的有效性提供支持证据。在这里我们将选用独立样本平均数差异t检验,因为当总体呈正态分布,总体方差未知时,要用t检验来检验差异,其目的在于由样本平均数之间的差异来检验各自代表的两个总体之间的差异。由于本研究中两个样本大小相等,所以我们选择公式,其中(张厚粲,徐建平,2003)。本研究中的t检验由SPSS18.0运行计算。
为了进一步考查不同院校英语专业学生对TEM4效度的看法,我们还设计了一份调查问卷,具体题目为“根据这次考试,你认为TEM4各部分(听写,听力理解,完型填空,语法和词汇,阅读理解,写作)试题能否考出你的真实水平?”选项为:A.能真实反映我的英语水平;B.基本能真实反映我的英语水平;C.不知道;D.不太能反映我的英语水平;E.根本不能反映我的英语水平。
H0:u1=u2此次实验中不同考生群体的TEM4成绩不存在显著差异。
H1:u1≠u2此次实验中的不同考生群体的TEM4成绩存在显著差异。
在进行t检验之前,我们要进行方差齐性检验,这是因为独立样本的数据不成对,即使两个样本的大小一样时,两组数据也不存在对应关系,因而不可能有对应值的差,只能以两个样本方差共同对总体方差进行估计。其公式为(张厚粲,徐建平,2003)。根据该公式,得到F=1.58。查F值表可知,在分子和分母自由度df均为59时,其值为1.67。因为1.58<1.67,所以,其方差齐,这样我们就可以进行平均数差异的t检验了。
根据SPSS18.0的运行结果,t=14.7。对结果进行双尾检验,查t表,当自由度df=2n-2=118时,t=3.373(P=0.001)。由于 3.373<14.7,即t0.001 表1 本研究中不同院校学生对TEM4效度所持的观点见表1。其中,TEM4各部分及试卷整体第一行的数据为本校学生对TEM4效度的态度统计,第二行的数据为武汉市某知名高校学生对TEM4效度的态度统计。 从表1可以看出,两所院校的学生对TEM4各部分效度的态度从高到低的排列顺序为写作,听写,完型填空,阅读理解,听力理解以及语法和词汇。其中,对写作部分效度所持的态度最积极,而对语法和词汇部分效度所持的态度最消极:两所院校中分别有72.6%和78.7%的学生认为TEM4写作能够或者基本能够真实反映他们的英语水平,认为该部分不太能或者完全不能反映他们的英语水平的学生分别只有15.8%和9.8%,持“不知道”态度学生的占11%~12%;两所院校中只有43.5%和43.7%的学生认为语法和词汇部分能够或者基本能够真实反映他们的英语水平,而认为该部分不太能或者完全不能反映他们的英语水平的学生增加到21.2%和22.1%,持“不知道”态度的学生所占比例在TEM4各部分中也是最高的,约为35%。这符合学生学习外语的规律:一般来说,学生学习外语产出性或综合性技能(如写作、听写和完型填空)总是要难于学习各项接受性技能(如阅读、听力、语法和词汇)。其中,学生对语法和词汇部分效度所持的消极态度也表明,该部分单独作为考试的一个项目已经显示出其劣势,因为它不涉及语篇知识,鼓励猜测,而且对学习者还具有消极的反拨作用,如英语学习者在学习英语时会花费大量的时间孤立地记忆单词以应对该部分的测试而忽略了对英语综合技能的培养,这也不符合《大纲》中所规定的考核学生综合运用各项技能的能力。而且,由于现行的TEM4中已经有“完型填空”项目,其测试目的已包含了“语法和词汇”项目想要考查的内容,因此TEM4研发者可以考虑删去“语法和词汇”部分。 另外,两所院校的学生对TEM4试卷整体效度的评价也是积极态度多于消极态度的。 为了考查不同院校英语专业学生对TEM4效度的看法是否有差异,我们同样进行了独立样本t检验(见表1,双尾检验,在0.01水平显著),从检验结果可以看出,这两所不同院校英语专业学生对TEM4效度所持的态度不存在显著差异。或者说,他们对TEM4各部分及试卷整体效度所持的态度基本一致。 20世纪以来,我国英语教育事业发展突飞猛进,各高等院校的英语教学改革成果凸显,学生的英语水平逐年提高。作为英语专业基础阶段教学水平的一种考查手段,TEM4自施测以来就受到了高度关注,有关其效度的研究也在不断深入。随着TEM4的不断完善,它在检查高校英语专业教学大纲的执行情况,促进教学改革,推动科研创新以及选拔人才方面都发挥了不可磨灭的功勋。但是,这项考试能否像开发者当初所期望的一样真正测到它应测的内容,或者说能否真正测出考生的水平,这是至关重要的。因为一个测验只有具备了较高的效度,测验使用者和决策者才能正确地、恰当地解释和使用该测验的分数,开发出来的这个测验才有意义。鉴于此,本文从一个侧面,即运用不同被试群体组间分析检验方法和调查问卷的形式考查了TEM4的效度。从考查结果来看,本研究证实了TEM4能有效区分英语能力水平不同的考生,具有区分效度。而且,调查问卷结果显示,不同院校英语专业学生对TEM4效度所持的态度基本一致,它能说明当前英语专业基础阶段的学生对TEM4效度的评价。同时它也帮助我们了解到TEM4试卷存在的不足,比如,TEM4“语法和词汇”部分的效度明显不如其他项目。但效度研究并不能仅仅停留在对已施测的考试层面上,它还应着眼于考试未来的发展,尽量从多角度、采用多样化的方法为一项考试的可持续性发展提供依据,让考试能真正调动学生学习的积极性和能动性,而不是成为他们的负担,也让考试真正起到评估教学效果、检查教学质量、指导教学工作的作用。从这个意义上说,测试效度研究工作是永无止境而又任重道远的。 [1]American Psychological Association.Standards for Educational and Psychological Testing[M].Washington D.C.:American Psy⁃chological Association.1999. [2]Henning,G.A guide to Language Testing:Development,Evalua⁃tion and Research[M].Beijing:Foreign Language Teaching and Research Press.2001. [3]Hughes,A.Testing for Language Teachers[M].Cambridge:Cam⁃bridge University Press.1989. [4]戴炜栋,张雪梅.英语专业教学测试、英语专业教学发展及教学质量监控体系[J].外语测试与教学,2011(1):14-25. [5]张厚粲,徐建平.现代心理与教育统计学[M].北京:北京师范大学出版社.2003. [6]邹申,陈炜.回顾与展望——写在英语专业四、八级考试开考20周年之际 [J].外语界,2010(6):9-18. A Study on TEM4 Validity Based on Different Test-takers LI Chuanyi Validity is the most important and primary concern in test developing.The process of validation involves accumulating evidence,empirical and non-empirical,from different aspects and by applying different methods to provide a sound scientific basis for the developed test,the high stake one in particular.So the author in this paper conducted an empirical study on TEM4 validity by using the TEM4 scores of the different test takers from different universities in 2010 and on whether or not the different test takers from different universities have different attitudes towards TEM4 validity by applying a questionnaire.Based on the statistics,the paper came to the conclusion that TEM4 can discriminate the different test takers and that the different test takers from different universities hold the same attitude toward TEM4 validity. TEM4;Different Ttest Takers;Validity Test;Questionnaire G405 A 1005-8427(2012)08-0011-5 本文为2011—2013年校级教研课题(2011B036)和2012年湖北省教育厅人文社科课题阶段性成果(2012G380)之一。 湖北科技学院3.3 不同院校学生对TEM4效度所持态度分析
4 结论