留学生接受性和产出性词汇量测试的信效度检验

2018-01-05 09:17刘书慧
吉林省教育学院学报 2018年11期

刘书慧

摘要:为了評估留学生HSK五级汉语词汇量,本研究设计了测试接受性和产出性词汇量套题,通过逻辑分析和统计软件对试题项目难度、区分度、信度和效度进行了一系列的分析得出,测试套题难度整体适中,整体区分度接近良好,产出性词汇量的测试区分度良好,试卷整体具有较高的信效度,可以用来诊断留学生HSK五级的接受性和产出性词汇量水平。

关键词:汉语词汇量;接受性;产出性

一、引论

研究者和语言教师都认为词汇知识的发展对语言学习起着关键作用,从词汇教学的角度看,教师为了使课堂教学的指导更有针对性,有必要了解各学习阶段的留学生汉语词汇知识的掌握状况。词汇知识一般分为广度知识和深度知识,前者指学习者词汇量的大小,后者指学习者对词汇语音(口语、书面语)、含义、词性、搭配、联想、近义词的掌握。研究表明,学习者词汇量的大小与阅读理解、写作、听说以及整体语言水平都存在着一定的关系,因此本研究试图设计一份汉语词汇量测试套题,为有效全面地评估本科三年级留学生词汇量提供准确的测评工具。

(一)国外研究者对词汇量研究方法的探究

研究者对词汇量的测试方法可谓风格迥异,按照被试的回答方式(expected response)可以分为判断、选择、填空和写作四种形式。(1)判断题是以Meara等研究者设计的Eurocentres Vocabulary SizeTest为代表,在词表里对认识的词划勾,这种词汇量测试方法的问题在于学习者容易过高估计自己的词汇知识,而研究者又无法证实学习者的回答是否可靠。(2)选择题使用广泛的是Nation设计的Vo.cabulary Levels Test,从5个词频等级(2000,3000,5000,10000和大学词汇)中各选出目标词18个,根据解释要求从36个选项中选出相应的18个词。(3)填空题则是由Nation和Laufer设计更新的Vocabu.1ary Levels Test(Productive),每个词频级别有18个题目,根据字母提示写出单词完成句子。(4)通过写作文测试词汇量需要借助Vocabulary Profile软件,可以显示作文在各个词频等级中使用单词的数量。

以上四种词汇量测量方式中,(1)和(2)测量的是能理解的接受性词汇量,(3)和(4)测量的是产出性词汇量,即可理解并应用的词语。根据提示填空又被称为可控制的产出性词汇,作文测试了自由产出性词汇量;按照有无语境提示,(1)和(2)是不依赖语境或去语境的词汇量测试,(3)和(4)是依赖语境的词汇量测试,也可分别称为分离式和综合式测试。词汇测试的构念,按照语言测试领域的当前趋势,应采用交互式理念来定义,也就是能够在有意义的语境中使用词汇,而不只是能够呈现分离的词汇,因此,本研究接受性词汇量的测试题型是有语境的词语选择题,产出性词汇量测试采用可控制产出性测试形式,根据拼音提示完成句子。

(二)国内对留学生汉语词汇量的研究

国内对汉语词汇量的研究不是很多。钱旭菁、张和生和吴思娜通过词语识别、翻译、释义法测试了初、中、高级留学生接受性词汇量。另外,还有一些学者对产出性词汇量作了研究,任春艳、王晓慧、黄立和钱旭菁等的研究结果显示词汇的复杂度和词语偏误率与作文的总成绩显著相关。孙晓明则通过实验解释了学习者接受性和产出性词汇机制的差异。尽管目前的研究对汉语词汇习得和教学作出了一些贡献,但仍有不足:一、国内对于接受性词汇量的研究方法较多采用识别法,就是在词表里对认识的词划勾,这种词汇量测试方法的问题在于学习者容易过高估计自己的词汇知识。相比较而言,选择题或匹配题的测试结果更可靠,但缺点在于缺少真实的语境;二、就产出性词汇量测量方法而言,Laufer在研究中发现学生在自由表达中更愿意使用一些常用词语(由于石化现象或避免出错),所以在自由表达中显示的词汇量与学生的可接受性词汇和可控制性词汇量都不相关,这表明自由表达如写作并不能有效测出学生实际掌握的词汇量,而可控制产出词汇才能真正体现学生掌握词汇的宽度;三、国内对第二语言汉语的词汇量研究大都分为接受性或产出性,但实际上他们是学习者习得词汇过程的两个阶段,所以只有同时从两个角度评估才能全面了解学习者掌握的词汇量现状。

因此,本研究试图设计一套测试学习者接受性和产出性词汇量的测试套题,接受性词汇量测试采用有语境的选择题,产出性词汇量测试采用可控制的完词填空题型,并从题目质量、试卷内容、试卷内部结构和与外部变量之间的关系三个方面验证测试的效度,为有效全面评估本科三年级留学生词汇量提供准确的测评工具。

二、研究方法

(一)研究对象

被试为国内某大学汉语系46名本科三年级留学生(男20,女26),年龄在18-22岁之间,来自印尼、泰国、俄罗斯、越南、塔吉克斯坦等国。研究是在三年级上学期进行,被试均已学习1年半或2年汉语。

(二)词汇量测试套题

本次研究设计的HSK 5级词汇量测试套题包括两部分:接受性词汇量和产出性词汇量测试,共36题,测试时间为25分钟。第一部分有三组词语,每组6个目标词作为选项,完成6个句子,三组共18个句子。:

第二部分可控制产出性词汇量测试由18个完词填空的句子组成,例如:

根据提示的拼音写出词语完成句子,词语由1个字、2个字或3个字组成。

评分标准为答对一道题得1分,答错一道题得0分,满分36,将评阅结果输入Excel表,建立数据库,测试结果使用SPSS21.0进行T检验、相关分析和回归分析等。

三、研究结果和分析

(一)题目质量分析

(1)HSK五级词汇量测试结果

从表1可以看到,词汇量测试套题的平均分是30.54分,正确率84.83%,第一部分接受性词汇量平均分16.46,正确率91.44%,第二部分产出性词汇量平均分14.09,正确率78.28%,两部分的均值相差2.37,差异显著(p<0.01)。偏度<0表示得分大部分高于平均分,第一部分有20人满分。结果显示,可识别理解的词语多于可使用的词语,心理语言学研究表明词汇的产生过程要比其理解过程复杂得多,产出目标词所需的信息也多于理解该词需要的信息。

(2)试題项目难度和区分度

从表1可以看出测试套题的整体均值为30.54,难度为0.85。作为标准参照考试,整体难度适中,第一部分测试接受性词汇量,而且题型为多项选择题,难度较低,所以成绩略高可以理解。第二部分要求考生根据提示的拼音写出词语,考生不仅要理解词的意思,还要知道词语的用法和书写,难度高于第一部分,所以这部分难度符合题目的设计。

题目整体区分度ID是0.29,接受性词汇量部分是0.23,产出性测试部分0.38,根据Ebel题目区分度的标准,第二部分的区分度良好(0.30~0.39),而第一部分和整体题目的区分度尚可,因为第一部分的题目比较容易,难度较低,所以导致这部分区分度较低,但接受性词汇量是词汇量测试的重要部分,所以这部分题目可以保留。

(二)词汇量测试套题信度检验

本套词汇测试套题的整体信度a系数为0.87,第一部分0.81,第二部分0.83,比较可靠。影响信度的因素有试卷长度,如果整套试卷信度达到0.9,那么需要试题数量应该是75题,也就是还需要增加39个题目;试卷难度也会影响信度,第一部分接受性词汇量测试的难度较低,分数差异很小,区分度也比较低,因此都影响了整体信度。

(三)词汇量测试套题效度检验

(1)试卷内容

本研究设计的词汇量测试套题的题目和测试方法都具有较高的效度。本次测试的36个词语从《国际汉语教学通用课程大纲》(2014)中规定的HSK五级1300个词汇表中每隔22个抽取一个,共抽取60个词汇(只包括名词、动词、形容词),两部分各30个词。经试测,删除区分度<0.1的题目,测试套题只保留36个题目,两部分各18个题目,抽样比例占2.8%,具有代表性;套题句子都是在“汉语教材语料库”通过查询目标词命制,结合难度相应的教材选择合适的句子作为题目,然后通过“汉语文本指南针”检测套题文本难度级别并根据提示修改超纲词语。最终套题文本难度级别整体为2.64,属于HSK4级,第一部分难度均值3.11,属于HSK五级(三组的难度范围3.10~3.12),第二部分难度均值为2.17,属于三级,试卷文本的难度等于或低于目标词汇的难度,因而被试不会因为语境难度大于目标词而影响对句子的理解,从而保证了试卷的内容效度。

本套题的测试方法也具有较高的效度,第一部分目标词出现在左边,需要完成的题目在右边,这种题型结合了Nation设计的VLT,右边句子的形式与学习者日常遇到的阅读情境相似,要求学习者通过识别词语的意思并作出选择。第二部分可控制产出性词汇量使用的完词填空题型,在Nation、Laufer和任春艳的研究中都显示了较高的效度。因此,本词汇量测试套题从词汇的代表性,文本的难度和测试方法上都体现了较高的内容效度。

(2)试卷内部结构分析

用相关分析计算接受性和产出性词汇量与总分之间的相关程度,结果显示如表2。第一部分的接受性词汇量和第二部分的产出性词汇量水平相关系数r值为.445”(p=0.002),呈显著中度相关,这表明两部分既有联系又有一定的独立性,是测量词汇量的两个不同方面。第一、二部分与总分的相关系数分别为.756”和.922”(p=0.000),呈现显著中度和高度相关,这表明词汇量测试项目的内部一致性较高,而且第二部分的产出性词汇量成绩与总分相关程度更高,这表明产出性词汇量水平对学习者的整体词汇量水平贡献更大。

(3)试卷分数与其他外部变量关系分析

从表2词汇量测试与HSK五级语法的相关可以看到,第一部分接受性词汇量水平与语法呈低度相关,r值为.468”(p=0.001),第二部分产出性词汇量和套题与语法成绩呈中度偏低显著相关,r值分别为.581”和.626"(p=0.000),显示了词汇量测试与语法测试的区别性较好;词汇量水平还与期末写作考试成绩低度显著相关,r值为.389”(p=0.001);但是研究显示词汇量大小与阅读水平没有关系,这个结果与预期不同,原因还需进一步探索。以上词汇量水平与语法和写作成绩的相关分析显示了词汇量测试具有较高的结构效度。

四、结论

词汇是语言学习的基础,汉语词汇量测试能够有效帮助汉语教师组织课堂词汇教学,提高整体教学效果。本研究设计的HSK五级词汇量测试套题既包括接受性也包括产出性词汇量的测试,比前人只测试其中一部分的设计更全面。另外,在借鉴前人研究的基础上,创新性地设计了接受性词汇量的测试题型,为研究词汇量测试提供了新的视角。通过逻辑分析和统计软件对试题项目难度、区分度、信度和效度进行了一系列的分析得出,测试套题难度整体适中(IF=0.85),试卷整体区分度接近良好(ID=0.29),产出性词汇量的测试区分度良好(ID=0.38)。试卷整体信度系数为0.878,比较可靠。试卷内容(词汇代表性、文本难度和测试方法)、内部结构和结构效度方面的分析都表明,该试卷设计较为合理,具有较高的信度和效度,可以用来诊断留学生HSK五级的接受性和产出性词汇量水平。

本研究的局限性在于,首先研究对象的样本较少,在经典测试理论中影响项目的难度;其次,词汇量测试可以按照HSK各级别的词语分别制定不同级别的词汇量测试套题,这样可以更全面地诊断学习者的词汇量水平;最后,本研究设计的接受性词汇量测试还应进一步探讨其结构效度,可以通过访谈,或者有声思维的方式研究这部分考试方法的结构效度。