英语专业综合英语期末考试的效度研究

2014-07-31 20:28陈玉莲
荆楚理工学院学报 2014年3期
关键词:构念期末考试效度

陈玉莲

(广东外语外贸大学南国商学院 英语语言文化系, 广东 广州 510545)

英语专业综合英语期末考试的效度研究

陈玉莲

(广东外语外贸大学南国商学院 英语语言文化系, 广东 广州 510545)

文章在回顾了语言测试效度理论和研究的基础上,运用定性和定量分析的方法检验了某校英语专业综合英语期末考试的效度。研究结果表明,该综合英语期末考试的试卷有较好的表面效度,但是内容效度不够,考试的分数也存在构念表现不足的现象。文章认为,要提高综合英语期末考试的效度,施教者和试卷设计者应该熟悉英语专业综合英语教学大纲和测试大纲,了解测试理论,摆脱专业四级水平测试的束缚,结合教学实际不断创新。

综合英语期末考试;表面效度;内容效度;构念效度

一、引言

语言测试经历了一个漫长的发展过程。从不同的角度来看,语言测试可以被分为不同类型。从测试的目的出发,一般把语言测试分为四类:水平测试、成绩测试、诊断测试及潜能测试[1]。笔者在对2003年至2012年间发表在国内一些著名核心期刊上有关英语测试研究的论文进行统计分析时发现,英语测试研究的对象开始出现了多样化。研究者不再只是关注类似于CET4、CET6、TEM4、TEM8这样的全国统一的水平测试,而开始关注考生们在日常学习过程中频繁接触的阶段性测试和期末测试。水平测试与成绩测试的区别在于:水平测试考查考生对语言的掌握,而成绩测试往往是为了检测考生在一门特定的课程或大纲指导下的学习结果[2]。这一类的成绩测试针对性强,个别性突出,是学生完成四年本科教育的一个非常重要的教学环节,对教学起着不可低估的反拨作用[3]。因此,有必要加强对教学过程中各课程测试的研究。

新的《高等学校英语专业教学大纲》把英语专业课程分为了英语专业技能、英语专业知识和相关专业知识三大类型[4]。综合英语则是一门专业技能课,是英语专业本科一、二年级初级阶段的专业必修课,是培养和提高英语基本技能的重要课程。该课程的目的是传授系统的语音、语法、词汇、篇章结构、阅读技巧等基础语言知识,训练听、说、读、写、译等基本的语言技能,培养学生初步运用英语进行交际的能力,同时指导学习方法,培养逻辑思维的能力,为进入高年级的学习打下坚实的基础。由此可见,综合英语课程承担着培养和提高学生综合运用英语能力的重任,对知识储备的全面性、教授方式的多样性,以及内容衔接的灵活性都有很高的要求。如何针对新大纲的要求,进行英语教学,并如何有效地对学生的学习效果进行检验,是一个值得探讨的问题,这也正是本文的研究目的所在。

二、 语言测试的效度

效度是评价一项测试质量的重要标准。没有效度的测试不能称其为测试,效度的重要性可见一斑[5]。针对效度的定义和分类,不同时期不同学者提出了不同的看法。美国心理学会认为效度是据考试成绩所做出的推论的恰当性、意义性和有用性,并提出了效度的四种类型:预测效度、共时效度、内容效度和构念效度。Lado认为效度本质上是一种关联,表明测试与测试目标的关联程度[6]。Heaton指出,测试效度可分为表面效度、内容效度、构念效度和实证效度[7]。Messick则提出了整体效度概念,且认为构念效度是整体效度概念的核心,其他效度都是用来支持其作为整体效度的证据[8]。之后,为了解决效度验证的具体实施问题,Bachman & Palmer提出了语言测试有用性框架,即测试的有用性=信度+构念效度+真实性+交互性+影响力+可行性[9]。该框架使语言测试界充分意识到了构念、构念效度及测试后果的重要性[5]。

鉴于成绩测试的性质,成绩测试的表面效度、内容效度和构念效度显得至关重要。表面效度指试卷到了使用者手上,其表面和内容,是否使受试者觉得它是一次有效的考试,一次的确是考它应考的能力的考试。Heaton认为,如果测试对其他老师、测试的被试以及成绩核对人而言,看起来是适合的,那么它就至少具有了表面效度[7]。表面效度可以迅速提供学生和老师对考试的意见和看法。缺乏表面效度的测试,是不被接受的,甚至会引起受试的反感,不在测试中表现出自己真实的水平。但是仅仅依靠表面效度是不能解释测试的效度的。内容效度能帮助评判测试是否充分有效得测试了应该检测的技能和行为[10]。换言之,内容效度是指测试是否考了考试大纲规定要考的。另外,构念效度则能反映出考试分数在多大程度上能代表我们想要测量的能力或构念。

综上所述,鉴于综合英语课程在英语专业课程中的重要性,有必要对该课程期末考试试卷进行效度分析,以期能给予任课教师和试卷设计者正面的反拨作用,发现存在的问题,进行更正,并努力设计出有高效度的试题。

三、综合英语期末考试效度分析

(一)试题选择和数据收集

综合英语课程一共持续四个学期,每个学期期末都会有一次测试来检验考生是否掌握了他们在课堂上的所学,并测试考生在该课程学习过程中发展起来的语言知识和语言技能。本研究选择了2013至2014学年上学期的综合英语三期末试卷作为分析的对象。试卷一共有六项内容:语法词汇、完形填空、阅读理解、翻译、句子释义和作文。考试时间为120分钟。相关授课教师认为测试没有涉及听力与口语部分,主要是因为该学期学生有专门的听力课与口语课,以及测试时间的关系。英语专业翻译与传媒方向192名学生参加了此次测试。作者用Excel表格登记了他们的名字、班级、学号、授课教师姓名以及每个考生在试题每一部分的得分作为原始数据便于全面分析。同时,研究分析过程中主要使用了Excel 和SPSS 17.0统计软件。

(二)综合英语期末考试的表面效度

综合英语期末考试旨在测试考生对语法、词汇、篇章结构、阅读技巧等基础语言知识的掌握,以及在课程学习过程中获得的听、说、读、写、译等基本的语言技能。在试卷的六类题型中,翻译、句子释义以及语法词汇题三部分基本上是直接测试课堂上讲授过的内容,其他部分则是测试在该课程学习过程中发展起来的语言技能。可见,该测试具有较高的表面效度,正如Hughes所言“一项测试如果看上去测试了它想测试的内容,那么就具有表面效度”[11]。

(三)综合英语期末考试的内容效度

刘润清认为,一般可从三个方面来检验某次测试的内容效度:1)测试内容是否和测试目标相关; 2)测试内容及试题是否具有代表性; 3)测试内容是否符合代表对象[1]。

对综合英语期末考试而言,其内容相关性是不难界定的。综合英语课程的开发依据是教学大纲原则或标准,考试也是从课程本身选择测试内容或界定测试标准。所选取的试卷中客观选择题和主观产出题的分数比例为60%和40%(见表1)。在这六道题目中,翻译、句子释义以及语法词汇题是直接从学过的课本单元中提取出来的。试卷中测试内容和课堂所教内容直接关联与非直接关联的比例为49%和51%(见表2)。因此,测试内容与测试目标是足够相关的。

表1 试卷主客观题的分数比例

表2 测试内容与教学内容的关联比例

然而一项测试如果其内容覆盖面不充分、不典型的话,有再高的内容相关性也无多大意义。测试内容的代表性如何直接影响测试效度的高低。评估考试题目取样的代表性,要看试题的样本是否充分全面体现了要考查的全部内容。从形式上看,此次综合英语期末考试的试题涵盖了读、写、译,试题的类型包括客观选择和主观产出题。试卷的题型设置和英语专业四级考试的题型设置相差不大,同样包括了30道语法词汇题、一篇20道选题的完形填空,四篇共含20道选择题的阅读理解文章和一给定话题的议论文写作。从内容上看,这些题目中,只有语法词汇题包含了一部分与已经教过的单元内容完全相关的基本的语法词汇知识,其他三大道题目与教学内容和要求没有任何的相关性。完形填空的文章在题材上,丝毫没有涉及教材内的教学内容;阅读理解的四篇文章在体裁和题材上也比较随机。作文题目的话题虽然和校园生活相关,但是也不是依据该学期的教学要求或相关的内容题材和文章体裁。另外两大题翻译和句子释义的考查内容虽然直接源于课堂教学,但是也导致了学生在考试前去进行死记硬背,甚至在很多老师眼里,这两类题型是典型的送分题。换言之,研究涉及的综合英语期末测试只是把语法、词汇、阅读、写作等各种题型集中了起来,并没有真正检测到学生的语言运用综合能力,不能对学生的语言运用水平做出客观的评价。因此,从试题的代表性以及内容与测试对象是否相符合两方面来讲,其内容效度是不够的。

(四)综合英语期末考试的构念效度

构念效度能反映出考试分数在多大程度上能代表我们想要测量的能力或构念。Messick曾指出分数的解释和相应的构念效度有两种情况:1)构念表现不足,即构念中的某些重要特征被遗漏,测试分数不能通过该构念得到充分恰当地解释;2)构念不相关,测试分数可能因为这些与测试目的不相关的构念而被曲解,从而影响效度[12]。那么究竟综合英语期末考试的构念效度如何呢?考试的各题目之间是否相关?考试的构念中包含了几个因素?下文将针对这些问题进行统计分析。

1.总分正态分布检验

为了有效地对期末考试问卷进行统计分析,笔者首先对192名考生的成绩分数进行了正态分布检验。图1 为考生在综合英语期末考试中的总分的正态分布检验直方图。表3 为总分的单个样本K-S检验结果。从图1中可以看出根据直方图绘出的曲线很像正态分布曲线。表3的K-S检验中,Z值为0.493,P值 (sig 2-tailed)=0.964>0.05。因此数据呈近似正态分布。

均值=71.20标准偏差=7.863N=192图1 综合英语期末考试的总分成绩分布直方图

表3 综合英语测试总分的单样本K-S检验

2.各题目之间及与总分之间的相关性分析

题目之间的相关性分析对检测试题的效度非常重要。运用SPSS17.0对综合英语期末考试各题目之间以及各题目与总分之间进行相关性分析,其结果如表4所示。

表4 各题目之间及与总分之间的相关性分析

注:**在0.01水平上显著相关,*在0.05水平上显著相关。

从表4可以看出,试题的各题目之间体现了一定的相关性。其中第二大题完形填空与其他各大题之间呈显著相关,与第一大题词汇语法的相关系数最高,达到了0.359。第四大题翻译与其他各题目之间也呈显著相关,与第五大题句子释义的相关系数最高,达到了0.380。第一大题语法词汇、第三大题阅读理解、第五大题句子释义分别和第六大题写作的相关性相对较弱,尤其是句子释义与作文之间的相关系数仅为0.044。这表明作文考查的语言能力与语法词汇、阅读理解和句子释义考查的语言能力是大不相同的。所有大题与总分之间均呈现出了非常明显的相关,其中词汇语法与总分的相关系数最大,相关性最为明显,达到了0.800。Alderson 等曾表示因为总分是对语言能力的综合测量,根据经典测量理论,子项目和总分的相关值可被预期达到0.7或者更高[13]。这表明在这六大道题目中,语法词汇对总分的解释能力是最强的,而其他题目与总分间的相关系数均未达到0.7,解释能力最弱的则是作文部分,其与总分的相关系数为0.305。这样的结果可能是因为语法词汇部分在试卷中所占的比例最大(30%),而且大部分的词汇语法题都是源自课本和练习册,考生在这类题型上表现的能力就较强些。作文所占的比例虽然不是最小,但是由于作文考查到了语言知识的词、句、段落、篇章各个层面的知识,而且话题源自课外,所以考生在这部分上的表现也相对差些。

综上,从题目之间的相关性和题目与总分的相关性来看,综合英语期末考试试卷的内部结构一致性较理想,但仍然有待提高。

3.综合英语期末考试的因子分析

从统计学的角度看因子分析的目的是寻求变量基本结构、对变量进行分类、简化观测数据、用少数的变量解释研究复杂的问题。因子分析的基本原理是用少数几个抽象的因子,去描述多个指标或者因素(原变量)之间的联系,将相互之间关系比较密切的变量归为同一个类别之中,每一类变量就变成了一个因子。进行因子分析的前提是原变量内部一致性高、原有变量存在较强的相关关系。在对综合英语期末考试进行了相关性分析后,已经发现了各大题间存在较强的相关关系,再对其进行因子分析,能帮助进一步弄清楚各题之间的联系,了解试题究竟检测了考生哪些方面的语言技能。

从表5能看出,KMO检验的系数为0.719>0.6,Bartlett球形检验的卡方值为133.444,P=0.000<0.001,满足因子分析的前提条件。

表5 KMO和Bartlett球形检验

从表6可以看出,所有6个原始变量中,作文的共同度最高,为0.881,提取的因子解释了原有变量方差的大部分,超过80%,信息缺失少。其它5个原有变量中,语法词汇和翻译的共同度超过了0.5,提取的因子解释了原有变量方差的一半,信息缺失较多。完形填空、阅读理解和句子释义的共同度则低于0.5,提取的因子解释了原有变量方差的小部分,低于50%,信息缺失量很大。

表6 公因子方差

表7显示,6个因子中特征值大于1的因子有两个,特征值为2.193和1.029。这两个因子能解释的方差百分比是36.557%和17.142%,一共能解释6个变量中53.699%的方差。

表7 解释的总方差

从表8可以看出,主成分分析法提取了两个主要因子,其中因子1在语法词汇、完形填空、翻译和句子释义四个部分的负荷都高于0.6,可以把它看作是语法词汇知识以及其在句子和语篇中的运用能力。因子2在作文部分的负荷较大,为0.888,因此可以把因子2确定为写作能力。这表明目前的综合英语期末考试的构念主要包括两个因子:语法词汇知识以及其在句子与语篇中的运用能力和写作能力。这与英语专业教学大纲以及英语专业四级考试大纲中的要求一致。但是大纲中要求的阅读能力并没有得到充分体现,且总分中有约46%的方差没有被提取的公因子所解释,考试的分数中存在构念表现不足的现象。

表8 被提取的因子成分矩阵

四、结语

综合英语期末测试是英语专业学生学习过程中必不可少的一部分。从上述分析来看,综合英语期末考试的表面效度较高,内容效度和构念效度则都呈现出不足,有待改善。在与笔者访谈的过程中,任课教师和被试对综合英语期末考试提出了自己的看法。譬如,一些被试的学生认为,翻译与句子释义题没有什么技术含量;考查语法词汇基础知识的方式很单调等等。那么如何才能提高综合英语成绩测试的效度呢?笔者以为以下几点尤其重要。第一,试题设计者应该非常熟悉英语专业综合英语教学大纲和测试大纲,切实弄清楚测试的目标究竟是测试分割开的独立的语言技能还是在培养学生的综合能力;第二,施教者和设计者对测试的理论要非常了解,能够选择正确的测试方式和题型去实现对目标的测试;第三,英语专业基础阶段的学习要摆脱专业四级水平测试的束缚,要培养学生外语技能也要鼓励学生学习多领域内的专业知识;第四,综合英语期末考试的内容和形式上不能老是遵循过去的老模式,或者直接从已有的题库中抽取现题,一定要结合教学实际不断创新。

[1] 刘润清,韩宝成.外语测试和它的方法[M].北京:外语教学与研究出版社,2000.

[2] Henning G.A Guide to Language Testing Development Evaluation and Research[M].Beijing:Foreign Language Teaching and Research Press,2001.

[3] 钱冬梅.浅谈综合英语成绩测试中的效度及存在问题[J].国外外语教学,2004,(3):8-12.

[4] 高等学校外语专业教学指导委员会英语组.高等学校英语专业英语教学大纲[M].北京:外语教学与研究出版社,2000;上海:上海外语教育出版社,2000.

[5] 韩宝成,罗凯洲.语言测试效度及其验证模式的嬗变[J].外语教学与研究(外国语文双月刊),2013,(5):411-425.

[6] Lado,R.Language Testing[M].London:Longman,1961.

[7] Heaton,J.Writing English Language Test [M].London:Longman,1975.

[8] Messick,S.The Once and future issue of validity:Assessing the meaning and consequence of measurement [C]//In H.Wainer & H.Braun (eds.).Test Validity .Hillsdale,N.J.:Lawrence Erlbaum,1988:33-45.

[9] Bachman,L.& S.Palmer.Language Testing in Practice[M].Oxford:Oxford University Press,1996.

[10] Richards.Longman Dictionary of Language Teaching and Applied Linguistics[M].Beijing:Foreign Language Teaching and Research Press,2002.

[11] Hughes,A.Testing for Language Teachers[M].Cambridge:Cambridge University Press,1989.

[12] Messick,S.Validity[C]//In R.Linn(ed.).Educational Measurement(3rd edition).Washington,D.C.:American Council on Education,1989:13-103.

[13] Alderson,J.C.Language Test Construction and Evaluation[M].Cambridge:Cambridge University Press,1995.

[责任编辑:寸晓非]

2014-04-11

广东外语外贸大学南国商学院教改项目:对南国商学院英语专业综合英语期末考试效度的调查与反思

陈玉莲 (1982-),女,重庆人,广东外语外贸大学南国商学院英语语言文化系讲师,硕士。

G642.474

A

1008-4657(2014)03-0083-05

猜你喜欢
构念期末考试效度
向着期末考试,冲刺!
期末考试
自我构念在认知和情绪加工中的作用及其生理机制
期末考试
慈善募捐规制中的国家与社会:兼论《慈善法》的效度和限度
英语深读教学读思言模型构念与实践研究
中国大学英语考试能力构念三十年之嬗变
十年
被看重感指数在中国大学生中的构念效度
外语形成性评估的效度验证框架