大学英语水平测试Rasch模型分析

2015-09-23 16:15郭恒达
读与写·教育教学版 2015年9期

摘 要:Rasch模型作为一种概率模型,可以有效地对项目的难度和学生个体的水平进行估算。根据原始数据建立线性测量结构可以帮助我们发现项目间、学生能力间、项目和学生能力之间的关系。本文以贵州师范大学国际教育学院2014级HND项目学生为例,运用Rasch模型软件WINSTEPS进行了分析,发现测试基本符合测量目的,个别项目虽然测量指标超出或没有达到理想的取值范围,但其设置有积极意义,应予以保留。

关键词:Rasch模型 大学英语水平测试 HND学生

中图分类号:G642 文献标识码:A 文章编号:1672-1578(2015)09-0039-02

1 引言

随着我国经济的发展,社会和企业对人才的要求也相应提高。理论基础扎实、实践能力过硬的人才在激烈的职业市场竞争中备受欢迎。在此背景下,中国留学服务中心与苏格兰学历管理委员会合作,把HND(Higher National Diploma,英国高等教育文凭)项目引入中国。该项目因其课程质量高,教学理念先进,管理体系严格,学术能力和职业发展并重,得到了世界上110多个国家的认可。由于该项目是中外合作办学,为学生将来进入国外大学留学深造做准备,因此它对学生们的英语水平提出了较高的要求。而英语水平测试(Proficiency Tests)作为了解学生英语水平的重要形式,为进一步的教学计划提供了参考,它对于英语考试研究也有着重要的意义。因此,如何对英语水平测试质量进行准确、全面的分析就显得尤为重要。

Rasch模型是丹麦数学家乔治·拉什(George Rasch)提出的一种数学概率模型,它可以同时估计测试的项目难度和学生个体的能力水平。正确运用Rasch模型对学生进行评估,可以更深入地帮助教师理解学生的英语水平,为下一步的教学提供有力的参考。Rasch模型可以根据学生水平测试所获得的原始数据来评估项目的难度和学生的个人能力水平,建立起项目难度和学生个人能力水平的关系,并把它们放在同一个等距水平的量尺上进行对比,使量尺上的单位距离具有同等的意义和价值。与此同时,Rasch还可以对水平测试项目的难度分布,项目得分和测试总分之间的关系,以及测量目标进行准确的分析,这些为分析测试质量提供了一个全新的视角。

近年来,许多专家学者运用Rasch模型对不同的主题进行了深入的分析。赵南、董燕萍(2013)利用多面Rasch模型对交传测试进行了检验,指出分项评分标准能够显著地区分被试的口译水平。刘红云等(2010)使用多面Rasch模型,对初二学生语文学绩测试评分员标准进行了研究,发现大部分评分员内部一致性和外部一致性良好。刘建达、杨满珍(2010)对写作测试中误差来源,评卷质量,评卷人信度进行了多面Rasch模型分析。彭康洲,邹申(2012)用Rasch模型和验证性因子分析分析了词汇和语法项目作答反应对构念效度的影响,发现词汇和语法测试属于彼此相关但又相互独立的两个构念测试。

2 研究方法

2.1研究对象

贵州师范大学国际教育学院2014级HND项目大一学生。

2.2 数据来源

贵州师范大学国际教育学院2014级HND项目大一学生英语测试成绩。数据总量为124,剔除无效数据1个,实得有效数据123个。

2.3 数据处理

首先使用统计软件SPSS 15.0预处理所得数据,之后用Rasch模型分析软件WINSTEPS 3.74进行模型分析。

3 结果与分析

3.1样本校学生成绩描述统计

图1是该校学生的成绩分布图。通过对图1的分析不难发现此次考试学生对知识的掌握程度一般偏上,成绩呈正偏态分布(=.20),少部分学生成绩位于均值以上。

3.2 样本校学生成绩Rasch分析结果

图2中,纵轴左边是学生能力分布,纵轴右边是项目的难度分布。从上到下,学生的个人能力水平不断提高;相应地,项目难度也随之增大。学生与学生之间的距离越远,表示他们的能力水平相差越大;同理,项目间的距离越远则表示其难度水平相差也越大。图2中,测试项目和学生能力都几乎呈现出正态分布。其中,样本校学生能力水平宽度占了约5.1个logit,而测试项目的难度水平宽度占了约4.6个logit,说明学生能力水平略高于测试项目的难度水平。另外,改图还体现出该次测试中有许多项目的难度水平比较接近。

表1是样本校Rasch模型项目信息(部分)。在对项目难度和学生个人能力水平进行评估之后,Rasch模型继续估计学生在每一个项目上答对的概率,并与观察分数进行对比,得到两者之间的差异,并用之来估计原始数据与理论模型的拟合程度。Infit MNSQ和Outfit MNSQ是Rasch模型研究通常报告的两个拟合度指标。其中,Infit MNSQ是加权后残差的均方,Outfit MNSQ为标准残差的均方。如果Infit MNSQ和Outfit MNSQ的值为1.0,则表示数据和模型完全拟合;取值范围在0.5~1.0之间表示数据与模型拟合良好;如果Infit MNSQ和Outfit MNSQ值大于2.0,就可以说明学生回答项目的方式和项目的设定方式出入较大;小于0.5则说明项目未能准确区分学生间的能力水平差异或学生间答题差异较小。Rasch S.E.为Rasch模型的标准误,说明测试在考察学生能力水平时误差的大小。Correlation是相关系数,表示项目和测量目的之间的拟合程度;较高的相关系数可以说明项目与测量目的拟合良好,能够体现测试要考察的目标。

表1表明,全体项目的参数大体都在可接受范围内,表示数据与模型拟合良好。此外,除项目15之外,全部项目都呈正相关。其中,第7、15、39的相关系数分别为0.04,-0.03和0.04,表明在实际测试中学生正确作答改项目与其能力水平关系不大。15题甚至出现了负相关,说明一些能力水平比较高的学生在此项目上的正确率甚至没有一些能力水平低的学生猜测得出的结论准确。15题原项目为:A: Are you really sure that you are not going to come to my apartment for a drink with our friends? B: _____, if you truly insist. 选项为:A. All right then. B. It depends. C. I dont care. D. Not at all. 通过分析,我们可以知道,该题正确选项为A。成绩前十位的学生中竟然有七位在该项目上做错,说明此题有一定难度。其中,在全部学生中,B选项的选择率高达34.96%,可能是学生没有正确理解“It depends.”的意义,误以为“It depends.”意为“定下来了”之意。经试后访谈得知,学生中流传着“如果不会,就蒙C”的“诀窍”,这在一定程度上也造成了该题相关系数偏低且呈负相关,Infit和Outfit MNSQ值超出正常范围的结果。再以项目7为例,它的Infit MNSQ值为1.18,Outfit MNSQ值为1.64,两项指标均在1.0之上。该题原题为We ____ very early the next morning, so we got packed the day before. 选项为:A. were leaving; B. have left; C. had left; D. leave。本题考查过去将来体的用法,但有54.47%的学生错误地选择了C项。这说明许多能力水平较高的学生反而做错了该项目。因此,该项目在区分学生能力水平时的误差较大,但该项目设计得比较巧妙,通过“从句或分句为过去时,主句往往选择过去完成体”这一看似正确的形式,其实巧妙地考察了学生对于过去将来体的掌握情况。因此,虽然该题的相关系数较低,Infit和Outfit MNSQ值超出了可接受范围,该题也应该保留。它对于学生全面、细致地学习时态知识及解题具有积极的反拨作用。根据Rasch模型分析结果,可以推断测试是否有效考察了学生能力、项目难度同学生个人能力之间的差异大小,由此调整项目内容或用其它合格项目来替代,以此提高我们测试的信度和效度,但对于一些有积极意义的项目,即使一些测量指标超出或低于可接受的范围也应予以保留。

图3中,每个气泡代表一个项目,气泡的大小与Rasch标准误大小成正比,而气泡的左右位置则表示每一个项目Outfit MNSQ值的大小。在理想的情况下,每一个气泡都应该趋近图的中轴位置,并且不应该发生重叠。从图中我们可以得知,几乎所有的气泡都位于[0.5,1.5]这个取值范围,表明原始数据与理论模型拟合良好,项目基本达到了测试目的。图3中部分气泡重合,表明测试项目难度水平比较接近或测试内容区别不大。21号项目的Outfit MNSQ值接近于1.5,因此有必要对该项目进行进一步的探讨。从图3中还不难发现,项目3、7、19、21、49对于估计学生能力水平时误差较大。图2显示,3、19、49属于比较容易的项目,7、21属于比较难的项目。结合表1中关于样本校Rasch模型的标准误信息不难判断,过于难和容易的项目在评估学生能力水平时都会出现比较大的误差。

4 结论

本研究利用Rasch模型对样本校的测试数据进行了分析。结果表明,本次测试基本符合其测量目标,但其中有个别项目需进一步考察,以提高测试的信度和效度;而个别项目虽然测量指标超出或没有达到理想的取值范围,但其设置对于培养学生正确、细心区别相近考点、形同义不同等知识点有积极意义,因此应予以保留。Rasch模型能够对测试项目的难度和学生个体水平进行估计,根据原始数据建立线性测量结构,从而帮助我们发现测试项目之间、学生能力之间、测试项目和学生能力之间的关系,精确地揭示水平测试对学生个人英语能力水平评估的准确度,从而为我们完善项目提供合理依据,从而使得测试有更强的针对性。英语水平测试作为考察学生英语水平的重要手段,为英语的教学和科研的科学化做出了应有的贡献。充分利用Rasch模型不仅可以更加有效地检验和改善英语水平测试,而且可以为教育研究者和教师科学评价测试质量以及学生的能力水平提供有力的指导。因此,我们有必要掌握Rasch模型,利用该模型对英语水平测试进行全面的分析,对测试本身及其分数作出公正、客观的评价。

参考文献:

[1]赵南,董燕萍.基于多面Rasch模型的交替传译测试效度验证[J].解放军外国语学院学报,2013,01.

[2]刘红云等.学业水平测试中作文评分误差的多面Rasch分析[J].心理科学,2010,04.

[3]刘建达,杨满珍. 做事测试评卷中的质量控制[J].外语电化教学,2010,01.

[4]彭康洲,邹申.TEM4语法词汇项目的构念效度研究——基于Rasch和CFA模型的分析[J].外语与外语教学,2012,06.

作者简介:郭恒达,男,山西太原人,贵州师范大学国际教育学院教师,硕士。