大学英语期末考试效度的实证研究
——以合肥工业大学为例

2021-01-13 10:30唐莹莹
关键词:效度总分听力

唐莹莹

(合肥工业大学 外语学院大外部,安徽合肥230009)

“校本”是教育领域常用的词汇,意思是以学校为本,郑金洲认为它包含三个层次的含义:一是为了学校;二是在学校中;三是基于学校[1]。校本大学英语期末测试是一项标准参照的课程学业成绩测试,由本校教师自主命题,考察学生英语语言能力,检测学生是否掌握课程目标规定的知识与技能,检测教师教学是否达到教学目标。校本考试是外语教学中必不可少的环节,是评价教师教学效果的有效手段。合肥工业大学大学英语课程设置时长为两年,学生共参加四次校本考试,每次参与人数近5 000人,在此数据基础上进行采样分析,开展课程测试效度研究,真实呈现课程教与学的薄弱环节,为校本教学改革提供数据支撑及理论依据。

语言测试的效度指的是“证据和理论支持考分解释的程度”[2],虽然效度有多种分类,“但它首先意味着语言测试的效度可以从不同的方面去说明,去验证”[3],验证的过程就是寻找和收集各类效度证据的过程,如内容效度、结构效度、预测效度和表面效度,甚至信度都是效度证据的一部分。而测试内容效度的分析、测试内部结构效度的因子分析和相关性分析、测试与其它测试之间外部关联分析以及不同被试群体之间成绩差异分析等都是收集效度证据的方法。

一、研究设计

(一)研究的问题和工具

本研究采用定量分析的方法,运用IBM SPSS 21.0统计分析工具,收集合肥工业大学2019年7月二级大学英语期末考试的数据,分析考试信度、难度、考试各部分成绩的相关性及不同被试群体成绩差异,以此为基础,研究验证本次考试的效度。

(二)考试的内容与形式

本次测试对象为2018级大学英语二级学生,他们在入学分级考试后被编入一级班,现已进行了一年的大学英语学习。测试时长为120分钟,满分100分,试卷命题由大外部和任课老师分工完成,听力理解试题由大学外语教学部(简称“大外部”)确定,其他试题由任课老师拟定,均交由教研室主任审核后确定试卷内容。客观题由计算机批改,主观题由两位老师评阅,一人评分一人复核,对有异议的成绩,由两位老师审议核定最终分数,以确保成绩的准确性。测试试卷内容构成情况如表1所示。

本次测试客观题占总分的65%,内容主要包括五个方面:一是听力理解,均为多项选择题,未设置听写和回答等语言产出性题目。二是篇章匹配,将篇章文末的句子与篇章段落相匹配,考查学生的篇章理解能力。三是阅读理解,这是传统题型,测试内容与社会生活密切相关,考察学生阅读信息的获取能力。四是翻译,题型为五个独立互不相关的单句,考查学生掌握所学词汇和句子结构情况。五是写作,写作范式为提纲式三段文章,考查学生掌握英语写作基本规则情况及主题句写作能力。

二、研究结果

(一)数据统计分析结果

参加本次考试的学生总数为3 611名,获得有效数据考生数为3 024名。信度是效度验证的重要证据,首先对3 024名考生的成绩进行信度计算,得出Cronbachα值为0.752,显示本次考试信度较理想。单样本Kolmogorov‐Smirnor正态检验结果显示本次考试各部分成绩及总分为正态分布,各部分K‐S的检验Z值分别为:听力3.01,篇章匹配17.28,阅读理解3.65,翻译7.91,写作8.27,总分3.45,P=0.000。为研究本次考试学生成绩的分布情况,对考试数据进行描述统计,计算各部分的均值、标准差、峰态系数、偏态系数,得到总分均值M=64.15,标准差SD=11.61,难度系数为0.67,显示考试总体难度适中且稍偏易。考试成绩分析结果如表2所示。

表1 2018级大学英语二级考试的内容与形式

表2 考试成绩描述性统计结果及难度分布(n=3 024)

从各部分成绩的描述性统计结果来看,学生得分最高的为篇章匹配M=9.19,SD=1.37,难度系数0.92表明该题几乎没有难度,考生平均得分已超过该题总分90%以上,显示这项测试未能有效测量学生的阅读技能。学生得分最低的为阅读理解M=15.18,SD=4.57,难度系数为0.50,平均得分为该题总分的50%。学生的听力成绩M=13.68,SD=4.13,平均得分为该题总分的55%,高于阅读理解成绩,这超出了我们的预期。一般情况下,我国学生英文阅读理解能力强于听力理解能力,出现这种情况应该和题目难度有关,但也说明现在学生很重视听力技能的练习,“聋子”英语的情况有所改善。翻译和写作的难度系数达到了0.71和0.77,说明题目略偏易,教师判分标准可能较宽,也可能学生对写作话题比较熟悉,表达比较充分,而翻译题部分来自课文内容,学生对所学词汇和结构记忆清晰,也易得分。本次试卷五部分中,篇章匹配难度系数超过0.9,翻译和写作难度系数超过0.7,这两部分着重考查学生语言运用能力,偏易试题不能准确有效地考查出学生能力。一份高质量的试卷,难度系数高于0.7或低于0.3的试题不宜过多,否则难以考查学生实际语言能力。

(二)考试的结构效度

“结构效度是测试对所假定的语言能力理论模型的体现程度”[4],即考试的原则理论效度,是各种效度的根本,其核心是显示分数意义及能够被解释为语言能力的标志。常用的实证方法是,通过计算组成测试各部分之间的相互关联性检验测试结构效度的高低。杨惠中和Weir通过研究得出,在语言测试中试题各部分之间的相关系数在0.3和0.7之间是合适的,如果两个部分之间的相关系数太低,则说明两者考查的是完全不同的能力,而太高则说明这两部分考查的是相同的能力[5]。

本次结构效度的分析采用定量方法,即分析试卷各部分与总分及各部分相互之间的相关系数。分析结果显示,考试各部分之间以及各部分和总分之间的相关都在0.01水平上显著,其相关系数Pearson’sr计算结果如表3所示。

表3 各组成部分的相关矩阵(n=3 024)

从表3的相关系数可以看到考试各部分与总分的相关系数在0.47~0.78之间,根据经典测试理论,“各部分和总分的相关系数可能被期望达到0.7或更高,因为总分是对语言能力的综合测量”[6]。在各部分与总分的相关中,阅读理解与总分的相关系数最大r=0.78,相关性最高。其次为听力r=0.71,相关性显著,但是篇章匹配、翻译和写作与总分的相关性虽然也在0.01的水平上显著,但相关系数都低于0.7,表明这些测试部分对总分的解释有贡献,但没有达到经典测试理论所期望的指标。这表明,阅读理解和听力对总分的解释力最强,而篇章匹配的解释力最弱。

Alderson等人认为,不同题型所考核的语言能力不同,各部分的相关系数不应太高,也不应太低,在0.3~0.7之间是合适的,这与杨惠中和Weir的研究结论相一致。本次考试各部分之间的相关系数没有超出r=+0.7,表明本次考试未出现相同能力测试,其中听力和阅读理解、阅读理解和翻译及写作的相关系数达到+0.3,翻译和写作的相关性最高r=0.50,都在合适的范围之内。但是听力与各部分以及篇章匹配与各部分之间的相关系数较低r=+0.2(只有听力和阅读理解的相关系数r=0.37),这种较低的相关性说明它们和其它各部分考查的语言能力有较大差异,而篇章匹配与所有各部分的相关系数都较低,与总分的相关性只有0.47,表明这部分试题的测试内容没有达到课程教学目标的要求,有待修订和提高。

(三)不同群体之间的考试成绩差异

为了解不同性别、不同专业背景的学生在考试分数上是否存在显著差异,我们采用SPSS中的方差分析。方差分析是用于检验两组或者两组以上样本的均值是否具备显著性差异的一种数理统计方法。在进行分析之前,先将考生按性别分成两组,合肥工业大学是以工科见长的学校,3 024名考生中女生为475人。Levene’s Test对性别方差齐性检验结果为P=0.141,表明方差为齐性,对男女生成绩进行单因素方差分析,结果显示,男女生的总分差异显著F(1,3023)=15.445,P=0.000,如图1所示。

图1 男女生总分差异图

各部分得分上,男女生在听力F(1,3023)=10.96,P=0.001、阅读理解 F(1,3023)=6.774,P=0.009、篇章匹配F(1,3023)=5.571,P=0.018、翻译F(1,3023)=5.900,P=0.015 和写作 F(1,3023)=5.112,P=0.024的考试成绩上存在显著差异,通过对各部分成绩均值的计算,女生成绩每项皆高于男生成绩。这一结果表明,传统语言教学观所认为的女性具有语言学习的先天优势是不争的事实。那么经过两年英语学习,男生会有怎样的提升值得我们做进一步的跟踪研究。

另外,抽选了仪器、机械、电子、管理和思政五个不同专业1 128名(男女生混合)考生成绩,通过对数据的单因素方差分析,探讨此变量是否造成不同专业考生成绩显著差异。选择这五个专业是考虑到思政专业代表文科,管理专业包括工商管理、会计学、电子商务等,可以将其看作商科,在以工科为主的学校,这两个专业比较有特点,可使样本具有多样性。Levene’s Test检验结果P=0.103,方差分析结果显示五个不同专业的考生在总分F(4,1127)=4.808,P=0.001上成绩差异显著,如图2所示。

图2 不同专业方差分析图

方差分析结果表明,五个不同专业的考生在听力F(4,1127)=1.346,P=0.251、篇章匹配F(4,1127)=2.881,P=0.022、阅 读 理解 F(4,1127)=1.946,P=0.101三个部分的考试成绩上不存在显著差异,但是翻译F(4,1127)=15.227,P=0.000和写作F(4,1127)=4.518,P=0.001这两部分成绩差异显著。数据分析结果表明,不同专业学生在综合语言运用能力上差异较大。

从图2的总分均值图可看出,思政专业学生成绩显著高于其它四个专业学生,但商科(管理专业)学生成绩在五个专业中最低,这是没有预料到的。在合肥工业大学英语教学中,管理专业学生外语学习表现一直良好,而机械专业学生英语基础相对薄弱,成绩不理想,但此次测试成绩大幅提高,仅次于文科的思政专业,测试结果与教师的一般认识存在巨大反差。因而,坚持收集全校规模的期末考试结果数据并加以分析,对不同专业学生英语学习状态和变化情况形成全面认知,有助于教师发现问题,有针对性地调整教学安排,提高教学质量,从而更好地完成教学任务。

三、结论及建议

根据对合肥工业大学2018级大学英语二级期末考试学生成绩的分析研究,笔者对校本英语教学及测试提出以下几点思考及建议:

第一,测试试题难易程度应适中。学业成绩测试不是确定学生的水平层级,而是了解学生语言知识与技能的掌握情况,检查教学效果是否达到预期目标。因而试题的难度应适中,标准差值应小一些,不能太大。本次测试试题整体标准差值是11.61,说明考生分数分布范围较广,水平差异较大。这给予我们如下启示:首先,校本考试设计要契合学生语言能力实际状况。依照课程内容或教学大纲制定考试命题细则,确保试题难易适中,不偏离考生实际语言能力,使考试更好地为教学提供积极正面的反拨作用,以改进教学,提高教学质量。其次,日常教学中阅读理解与听力训练需待加强。本次考试阅读理解部分学生得分不理想,在以后教学中应加强学生阅读技能训练和批判性思维的培养,同时多关注学生的听力学习情况,掌握学生的实际听力理解水平,观察学生成绩的变化情况,对教学作出进一步调整。最后,命题教师理论素养有待提升。命题人(这里特指大学英语教师)是考试质量控制环节中最重要的一环,他们除了符合专业能力要求外,还应具备测试科学知识,学校或院系应对教师进行专门培训和考核,使命题人在测试理论的指导下,有组织地进行考题的统一设计和生产,使学业成绩测试具有规范性和科学性。

第二,加强校本测试体系的建设。语言测试是科学研究的对象,我们应重视校本测试体系的建设,充分发挥测试指挥棒的作用,让学生在考试中真正学会运用各项语言技能,把考试设计成有积极反拨效度的考试,以外部因素激发学生内在学习动机,培养学生英语自主学习和终身学习能力。作为教师应该学习必要的语言测试知识,掌握基本的测试研究方法,应意识到每次考试不仅仅只是将分数提交给学生,而应该将考试的各类数据收集起来,对数据进行整理、计算、分析和解释,通过对考试的相关研究获得新的发现,获取有价值的信息,不断完善下一阶段的教学与学业考试。

第三,根据方差分析结果开展分层教学。男女生和不同专业学生之间考试成绩的差异不容忽视,本次参加测试的是分级后被编在同一级别的考生,且经过一年大学英语课程学习,但是他们各项语言能力差异仍然较大,成绩离散度较高,这使得课堂教学难以很好地照顾到不同水平的学生。笔者建议在经过一年的学习后,根据考试分数将成绩差异较大的学生重新划分再组合,对基础薄弱的学生着重补缺补差,加强语言知识的教学。对成绩较好的学生,教学重点则应调整为进一步提高他们的语言水平,重视学生产出性语言能力的培养,提高学生语言的综合运用能力。

本次针对合肥工业大学的一次期末测试数据进行统计和分析,在一定程度上对考试的效度进行了研究,大学英语测试和大学英语教学相互联系、相互影响,对教学产生积极的反拨作用,是检测教学质量的一种有效手段。因此对校本英语测试进行多角度多层次的全面研究是很有必要的。

猜你喜欢
效度总分听力
第59届IMO团体总分前十名的代表队及总分
Beep test评估11~15岁少年游泳运动员有氧能力的效度研究
Units 1—2 听力练习
Units 3—4 听力练习
Units 5—6 听力练习
Units 7—8 听力练习
谈高效课堂下效度的提升策略
巧用模型法提高科学课堂教学的效度
一年级下册期末考试
一年级下册期末复习题