刘春红
基于CTT和IRT的意大利语试题质量研究*
刘春红
(北京语言大学 培训学院,北京 100083)
文章基于经典测量理论和项目反应理论,运用项目分析技术和测验等值技术,对2010~2016年意大利语初级考试试题进行难度及区分度分析,并将IRT与CTT的难度及区分度进行比较,然后采用垂直等值法分析不同年份间考题的稳定性。最后,文章结合二语习得理论与意大利语学科特点,提出完善试题难度及区分度的方法。作为国内首例意大利语试题质量研究,文章可为意大利语考题的编制、建立和健全意大利语等级考试题库提供有益的实践尝试。
经典测量理论(CTT);项目反应理论(IRT);国家公派留学意大利语考试;意大利语初级考试
考试质量分析是教育测量领域中的一项重要工作,它不仅可以帮助教师了解学生真实可信的学习成果,为日后的教学工作提供参考,也为以后修改试题、建立试题库和实施标准化考试提供支撑。北京语言大学出国留学人员培训部下属意大利语教研室是国家公派留学意大利语考试的唯一指定命题单位,其试卷质量直接关系到评测结果的可信度和有效性,直接影响对学生学习成果和教师教学效果的评价。
经典测量理论(Classical Test Theory,CTT)和项目反应理论(Item Response Theory,IRT)是当前测量领域里的两大理论。CTT以真分数理论为核心假设,采用线性数学模型建立了题目和能力分析的一系列指标[1]。IRT的理论假设是建立在数学统计理论的基础上,采用了非线性的概率形式,构建作答反应的概率模型[2]。而基于两种测量理论的等值研究是分析不同年份试题质量稳定性的重要方法。规范化考试都会要求不同年份的试卷质量保持稳定,否则会造成评测结果不公平。等值分析在不同测验之间建立转换关系,把所有不同形式测验的分数都转换到同一分数系统上[3]。
本研究从试题质量分析和测验等值两个方面进行研究,利用经典测量理论和项目反应理论,分析试题的难度和区分度,并比较分析结果。然后结合语言学及二语习得理论,进行试题的错误分析。最后通过测验等值分析,比较不同年份受测者能力水平的变化。
本研究以经典测量理论和项目反应理论为理论基础,采用BILOG-MG 3.0软件,对2010~2016年意大利语初级考试的609份试卷中455道0-1计分的试题进行了难度和区分度分析。下面给出了不同年份的难度分布情况(如图1所示),这里难度采用通过率来表示。可以看到,历年试题的难度总体上呈正态分布,说明试题质量比较稳定。
接下来用相关法来刻画区分度。一般来说,区分度指数大于0.3,试题便可以接受[4]。2010~2016年可接受试题占总数的百分比汇总如表1所示。表1显示,历年试题的区分度总体呈良好状态,但2010年试题的区分度偏低。
图1 历年意大利语初级考试试题难度分布图
表1 历年区分度汇总表(CTT)
IRT模型原理不同于CTT,本研究采用IRT双参数项目反应模型,利用BILOG-MG 3.0,计算出每道题目的难度和区分度,并将其与CTT的难度和区分度进行比较。下面以2015年试卷中26道0-1计分的填空题为例进行说明。首先,本研究计算出这26道试题中CTT和IRT的难度值、区分度。然后,本研究分别绘制了CTT和IRT下的难度关系、区分度关系的散点图。
图2 CTT和IRT下的难度关系
图3 CTT和IRT下的区分度关系
图2是CTT和IRT下的难度关系图,其相关系数为-0.96,呈负线性相关。由于CTT难度采用通过率刻画,所以通过率(难度)值越大,相应的IRT的难度值越小。图3是CTT和IRT下的区分度关系图,两者呈正线性相关,其相关系数0.7。由此可以看出,两种理论计算的项目难度和区分度方法虽然不同,但两者有很强的关联关系。
语言学家Selinker提出的中介语假说理论认为,语言错误是语言习得过程中的自然现象;而Corder[5]指出了语言错误(Error)与语言过失(Mistake)的区别:语言错误来源于学生在没有熟练掌握目标语情况下的语言能力欠缺,语言过失来源于记忆流逝、口误、疲劳以及紧张和激动等心理因素。本研究集中分析考生的语言错误,基于对7年来考生作答数据及意大利语的学科特点,结合错误分析理论,分析如下:
错误率高的试题难度大,通过率低。考生的错误分为语际干扰和语内干扰,其中语际干扰来源于语言的负迁移,由于受到母语的影响,学习者未能掌握目的语的规则而造成语际错误;语内干扰错误指考生在学习目的语规则时,不能完整地应用、充分理解规则而导致语内错误,过度类推是造成语内错误的主要原因之一[6],例如:
2014年选择题第3题:
Andiamo al mare, _______ anche tu?
选项:hai、vieni、vai、venite
答案:vieni
本题考查的是动词andare和venire的特殊用法,由于汉语和意大利对“来”和“去”的判断标准不同,汉语中的“来”和“去”是以说话者地点为中心来区分的,但是在意大利语中,如果有第一人称和第二人称的靠拢就要用venire(“来”)[7],该题的汉语意思是“周六我们去海边,你也去吗?”这里有第二人称单数(你)向第一人称复数(我们)的靠拢,所以要用vieni(“你来”)。本题的难度大,考生受汉语的负迁移容易造成语际错误,是一道高区分度、高质量的试题。
2013年填空题第7题:
Questo palazzo ha sei piani e l’ultimo piano si chiama il____ piano.
答案:quinto
本题的难度来源于文化负迁移造成的语际干扰,因为汉语中的“第六层”对应意大利语中的“第五层”,所以要用序数词quinto(“第五”)。这也是一道难度大,区分度高的试题,既考查了语言知识,又考查了文化知识。
2011年选择题第2题:
Parlo abbastanza bene ____ giapponese.
选项:l’、不填、lo、il
答案:il
本题是一个多知识点交叉试题,同时考查了定冠词、名词和动词的特殊用法,考生如果没有完全掌握定冠词的用法,不了解giapponese的词性,不知道动词parlare的特殊用法就会出现错误。所以,本题难度大,区分度高,是一个高质量的多知识点交叉试题。
2014年填空题第7题:
Luca non ____ riuscito a trovare il suo zaino.
答案:è
本题考查的是动词riuscire在直陈式近过去时中的变位,该动词是意大利语初级词汇中的难词。本题语法知识点不难,但词汇难度提高了试题的难度和区分度。
2013年选择题第1题:
Loro sono una bella ____.
选项:copia、coppia、copie、coppie
答案:coppia
本题考点是形近词辨析,copia的意思是“复印件”,coppia的意思是“一对夫妇”,本题的汉语意思是“他们是一对很般配的夫妇”,所以要选coppia。本题的句子结构很简单,但是利用形近词辨析提高了试题的难度和区分度。
2012年选择题第3题:
Linda ha mangiato ____.
选项:bene、buono、buona、bella
答案:bene
本题考查的是bene和buono的区别,bene和buono两个形容词都有“好”的意思,但词性不同,bene是副词,buono是形容词。该题目想表达的汉语意思是“琳达吃得很好”,“好”用来修饰动词“吃”,需要一个副词而不是形容词,因此要用bene。虽然本题的句子结构简单,出现的也都是初级高频词,但是单词词性辨析提高了试题的难度和区分度。
2010年选择题第3题:
Maria porta sempre gonna ____.
选项:breve、corto、corta、brava
答案:corta
本题的考点是同义词辨析和名词形容词的性数一致,考生知道breve和corto都有“短”的意思,但含义有所不同:breve指两端之间的距离小,多用来形容文章、讲话、路程、假期等无形的事物或现象所延续的时间短暂;形容物体长度短则要用corto。本题的汉语意思是“玛利亚经常穿短裙”,所以要用corto,但是意大利语的形容词要和所修饰的名词保持性数一致,所以答案是corta,和阴性单数名词gonna保持性数一致。虽然本题句子结构简单,但是同义词辨析提高了难度和区分度。
意大利语初级考试侧重考查学生的基本语法和文化知识,而以上分析中考察的语法点、词汇和句子结构并不复杂,但是出题人利用上文所提到的各种方法有效提高了试题的难度和区分度。但是,这并不意味着难度越高,区分度也越高,例如:
2014年选择题第8题:
In America lunedì è il ____giorno della settimana.
选项:primo、secondo、terzo、quarto
答案:secondo
本题的考点是序数词的用法,题目的汉语意思是“在美国周一是一星期中的第几天”,考生受汉语文化的负迁移,容易选择primo(“第一”);但在美国,一个星期始于周日,也就是说周一是一周中的第二天,而不是il primo giorno(“第一天”)。该题的难度高,但是区分度很低,因而106位考生只有2位答对了,通过率仅为1.89%。因此,不能一味地增加难度,而不考虑学生的整体实际水平,造成出题成本高,但是区分度低,有效性低。
总之,上述分析结合语言学及二语习得理论,借助于语言错误理论和学习者错误分析,佐证了CTT和IRT理论在试题质量分析中的科学性,也为出题人提供了科学的出题依据,使考题的难度、区分度更好地与学生的实际能力相匹配。
为了保证考试的公平性,历年的试题应该在难度和区分度上基本一致;但为了考试的保密性,又要控制相似考题的重复率,而且即使出题人主观认为不同年份的试题难度和区分度基本一致,实际上的考试结果也会与预期值有一定的偏差,这一难题必须运用“等值”技术来解决[8]。测验等值有不同的方法,按不同的标准可以将等值分为以下几种:①按理论依据分类,可分为经典理论等值与项目反应理论等值;②按等值水平分类,可分为测验分数等值和项目参数等值;③按测验和受测者之间的差异是否显著,可分为水平等值和垂直等值。水平等值是指在试卷难度和考生能力分布差异不显著的情况下进行的等值,而垂直等值是在差异显著情况下的测验等值[9]。本次研究采用垂直等值进行分析。
下面以2015年和2016年的试卷为例进行等值分析,具体采用锚测验法。锚测验法的原理是:锚题分数相同的受测者,他们在原测验上的分数被认为是等值的[10]。作为标准化考试,不同年份的试题要避免完全重复,这为选定锚题带来了困难。作为意大利语的初级考试,知识点和语法点的介绍有限,试题专家在组卷时,将不同年份中包含相同知识点或语法点的试题给出专家预估难度值,经考生实测后,保留预估参数和实测参数一致的试题,在保留试题中将知识点或语法点相同且预估难度值一致的两题视作锚题,2015年和2016年试卷中满足这样条件的锚题最终确认为13道,并计算两年试卷中答对相同锚题数的考生试卷平均分,如表2所示。
表2 2015与2016年试卷中答对相同锚题数的考生试卷平均分对比
图4 2015年与2016年平均分数散点图
表3 成绩统计表
本研究以经典测量理论和项目反应理论为指导,采用项目分析和测验等值方法,对2010~2016年这7年的意大利语初级考试试题进行了质量分析。经典测量理论和项目反应理论下的试题难度的分析结果一致性很高,说明历年考试的试题质量比较稳定。经典测量理论下的测验等值和项目反应理论下的分析结果均显示:各年学生的能力水平差异没有发生显著性变化。
意大利语作为非通用语种(俗称小语种)[11],有其自身的学科特点,其等级考试质量分析要结合语言学、二语习得理论和自身的学科特点来加深理解考题的难度及区分度,以更科学、准确地评估试题的信度和效度,从而更有针对性地编制意大利语考试试题。
非通用语种是当前我国外语教育的重要组成部分,非通用语种的发展关系到国家的世界影响力和话语权[12]。意大利作为古代丝绸之路的终点和“一带一路”海上丝绸之路的交汇点,“其重要性不言而喻,共同发展的前提离不开双方的充分了解和良好的沟通,全方位的交流需要语言铺路。”[13]作为唯一的国家公派留学意大利语命题单位,如何提高测试的科学性、准确性、系统性、动态性、保密性来保持测试的权威性,还需要做更深入的研究。
[1]Bock R D. A brief history of item response theory[J]. Educational Measurement,1997,(4):21-33.
[2]于忠跃.基于CTT和IRT比较的视觉空间推理测验编制[D].杭州:浙江师范大学,2015:87.
[3](美)约瑟夫·M·瑞安著.杜承达,谢小庆译.基于经典测量理论和项目反应理论的等值与连接——等值设计和经典测量理论等值程序[J].考试研究,2011,(2):83-95、11.
[4]李勇,田添.理想试题模型及试题质量的量化标准——基于经典测量理论[J].考试研究,2014(5):54-59、44.
[5]冯艳宾,马洪超.关于经典测量理论和项目反应理论中难度和区分度的探讨[J].中国考试,2012,(4):10-14.
[6]赵宇霞.本科法语专业初学者语言错误分析及教学对策[J].法国研究,2016,(4):93-100.
[7]贾冠杰,乔良文.英语专业硕士毕业论文的语言错误分析研究[J].外语界,2014,(3):63-69、96.
[8]吴炜.纠错反馈策略与语言错误类型对学生纠错质量的交互影响[J].当代外语研究,2015,(7):47-52、75.
[9]谢小庆.对15种测验等值方法的比较研究[J].心理学报,2000,(2):217-222.
[10]一帆.测验等值的类型和方法[J].教育测量与评价(理论版),2015,(6): 51.
[11]曹文娟.锚测验难度参数方差特征对测验等值误差的影响研究[J].南昌:江西师范大学,2013:40.
[12]申霄.“一带一路”建设语言培训问题及建议[J].语言教育,2017,(4): 2-6.
[13]巴英龙.从小语种人才荒现象浅谈一带一路背景下小语种人才在区域经济合作中的重要性[J].经贸实践,2017,(19):29-30.
Analysis and Research on the Quality of Italian Language Test based on CTT and IRT
LIU Chun-hong
Drawing upon the Classical Testing Theory (CTT) and the Item Response Theory (IRT), and using item analysis techniques and test equivalence techniques, the research analyzed the difficulty and discrimination of the items extracted from preliminary Italian tests from 2010 to 2016. Then, a comparison on the difficulty and discrimination between IRT and CTT was carried out, and the stability of items was analyzed by using vertical equivalence techniques.Finally, combined the second language acquisition theory and the characteristics of the Italian language, strategies for improving the difficulty and discrimination of the test items were proposed. As the first domestic research on quality analysis of Italian test, this article could serve as a useful attempt to provide empirical basis for the preparation, establishment and improvement of the item bank construction of Italian language test.
classical testing theory (CTT); item response theory (IRT); national public Italian test; preliminary Italian test
G40-057
A
1009—8097(2018)08—0072—06
10.3969/j.issn.1009-8097.2018.08.011
本文受北京语言大学校级项目“中央高校基本科研业务费专项资金”(项目编号:16YJ090002)的资助。
刘春红,讲师,博士,研究方向为语言学与应用语言学、翻译学,邮箱为liuchunhong@blcu.edu.cn。
2018年3月21日
编辑:小西