兰 娟
教师自行构建校内英语听力题库的有效性研究——以保山学院为例
兰 娟
(保山学院 外国语学院,云南 保山 678000)
建立高信度和效度的试题库,有利于保证测试安全。出于教学和研究需要,各个学校往往结合自身实际自行构建试题库。试题库的有效性检测,成为各个学校都会面临的问题,笔者以所在的保山学院为例,从校本英语专业听力测试题库中随机抽取出来五套听力试卷,基于对其测试结果的分析,以测试学的专业手段对该试题库的有效性做出了科学评估。
听力测试;试题库;信度;效度
建立试题库对语言测试有很多好处,最显著的就是以较少的时间精力投入,即可让构卷者制作出多套较高质量的平行试卷。因此,国内外很多大型高风险测试,如托福考试、大学英语考试、大学汉语考试等都充分利用了试题库组卷的方式;同时,一些大学也纷纷致力于试题库建设。但是,在各类研究中,笔者很难发现针对英语专业学习者听力测试题库的研究;另一方面,作为一名多年从事听力课程教学的教师,笔者深深体会到此类试题库建设的必要性。因此,笔者及团队自行构建了符合所在院校实际教学情况的英语专业听力测试题库,并希望通过一系列的实验和研究验证其有效性,以为广大高校解决此类问题提供一种方式。
根据《高等学校英语专业教学大纲》的要求,结合笔者所在学校的实际情况,笔者初步建构了英语专业听力测试题库。题库中同时包括了选择类答题方式和建构类答题方式两种题型10项不同类别的听力测试任务,共计1266道试题。2010年,王建忠等人针对试题库中题量与考试中试题量的关系进行了研究,建议试题库中题量与考试中抽取的试题量比例为30:1。而笔者构建的试题库题量与预测听力试题题量比例为26:1,基本能够满足抽取试题的需求。
试题库构成详细情况如下:
表1.试题库题型题量构成情况一览表
题型单词辨音响应评价释义识别对话篇章复合式听写总结/提纲总量 短长选择题正误判断题简答题 每套试题抽取量1010101023111149 理想题库量3003003003006090303030301470 实际题库量21220127130066120363830221266
为了对试题库进行量化效度研究,笔者在EasyPaper 4.0软件的辅助下从试题库中抽取了5套试题分别发放给英语专业一、二年级的学生。依据Henning(2001:128)的建议,每套试题的受试者都达到了100人以上。试题构成情况如下:
表2.抽取试题的构成情况
部分测试一测试二测试三测试四测试五 Phonemic Discrimination510000 响应评价50000 释义识别1010101010 对话短对话10107810 长对话00110 篇章正误判断(篇)11 111 选择(篇)02 222 简答(篇)20000 复合式听写(篇)01011 总结/提纲0101 总量3334 22 2325
五套试题的构成差异是由其针对的不同受试者决定的。测试一和测试二的测试对象是英语专业一年级的学生,因此,测试重点是音素、结构的识别和短对话、短篇文章的理解。而测试四、测试五和测试六的测试对象为英语专业二年级的学生,测试重点强调长短对话、篇章的理解以及记笔记的能力。
五套测试题满分均为100分,最长的一套测试音频材料时长为43分钟,最短的一套为30分钟。针对同一测试样本的测试在语速相似,每一道选择题后都有15秒的间隙,间隙的长短与大学英语等级考试或英语专业等级考试等高风险测试一致。
五套测试均在语音室环境进行,测试对象的基本情况如下:
表3.受试者基本情况
测试样本一(一年级)样本二(二年级) 一二三四五 受试者男生1111131416 女生9999111110114 合计110124124130
测试结束后,笔者使用SPSS软件对测试结果进行了分析。
(一)信度
信度被看做是一项优秀测试的必要但不充分条件(Bachman,1999;Davies et al.2002;Moss,1994)。Henning(2001:74)认为信度检测的是测试实施之后受试者分数的准确性、一致性、可靠性、以及公平性,换句话说,一套信度较高的测试,不管受试者是谁或者测试了多少次,所得到的结果都是稳定且一致的。
1.外部信度。在测试设计中针对同一个样本进行了平行试卷的测试,外部信度可以通过计算测试结果的相关系数进行验证,测试结果相关性越高,则信度越好,相关系数是一个在+1到-1之间的数值,+1意味着绝对正相关,-1则代表了绝对的负相关,0表示两个变量没有关系(杨端和,2004:278)。因此,笔者针对测试一和测试二,测试三和测试四,测试四和测试五,测试三和测试五四组数据,采用皮尔逊相关系数分析公式,进行了相关性分析,分析结果如下:
表4.测试一与测试二相关性分析
ONETWO ONEPearson Correlation1.739(**) Sig. (2-tailed)..000 N110110 TWOPearson Correlation.739(**)1 Sig. (2-tailed).000. N110110
** Correlation is significant at the 0.01 level (2-tailed).
表5.测试三、测试四和测试五相关性分析
THREEFOURFIVE THREEPearson orrelation1.527(**).590(**) Sig. (2-tailed)..000.000 N118118118 FOURPearson orrelation.527(**)1.514(**) Sig. (2-tailed).000..000 N118118118 FIVEPearson orrelation.590(**).514(**)1 Sig. (2-tailed).000.000. N118118118
分析结果表明,测试一与测试二的相关系数为0.739,测试三与测试四的相关系数为0.527,测试三与测试五之间的相关系数为0.590,测试四与测试五之间的相关系数为0.514。张厚粲等(2004)指出,当两个变量之间的相关系数大于0.4,这意味着这两个变量之间有较强的正相关。因此,可以判断,本项研究中的四组数据之间的正相关都是成立的。进一步分析的话可以看出,四组数据的相关即使在显著水平为0.01时依然是显著的。因此可以推断,从试题库中提取的五套试题都具有较强的外部信度。
2.内部信度。内部信度体现了一套完整的测试试题中各个部分之间的内部一致性,也就是说,一套测试题中的不同任务是否测试了同样的构念。内部信度的计算可以采用克伦巴赫阿尔法系数计算公式通过SPSS进行运算。运算结果如下:
测试一:
Reliability Coefficients 5 items
Alpha = .6629 Standardized item alpha = .7618
测试二:
Reliability Coefficients 5 items
Alpha = .7709 Standardized item alpha = .7762
测试三:
Reliability Coefficients 4 items
Alpha = .5924 Standardized item alpha = .6090
测试四:
Reliability Coefficients 4 items
Alpha = .5165 Standardized item alpha = .5047
测试五:
Reliability Coefficients 5 items
Alpha = .6355 Standardized item alpha = .6248
杨端和(2004:278)建议,在进行内部信度相关性检验的时候,0.60应该被视为临界值,也就是说,当一套测试的信度系数大于0.60时,这套测试卷可以被视为具有较强的实用性。在本项研究中,通过克伦巴赫阿尔法系数运算,五套测试卷的标准信度系数平均值为0.6553,这一平均值大于0.60,由此可以判断,五套测试的内部信度是可以接受的。但是,当分别看这五套测试时,标准信度分别为0.7618,0.7762,0.6090,0.5047和0.6248,测试四的标准信度系数低于0.60,仍然存在一些问题。但是,正如Henning(2001)和Bachman(1999)所指出的,测试的信度会受到很多因素的影响,例如测试的长度、测试项目的区分度等等,因此针对测试四的信度还需要在日后从这些方面进行进一步地探讨。
(二)效度
1.表面效度和内容效度。表面效度和内容效度是语言测试效度的两个基本证据。一些测试专家,如Henning,Bachman等,倾向于把它们看做一组同义词;也有一些专家把这两者区分对待。根据测试专家的观点,表面效度指一套测试在表面上看起来有没有测试了它计划要测试的东西(Davis et al.2002:59;Heaton,2000:160;Henning,2001:94)。因此,当进行表面效度验证时,构卷人、受试者、专家等大众的看法都可以作为参考。尽管这样的证据看起来很主观,它同样可以为构卷提供快速且有用的参考。内容效度虽然也包含一些主观的评判,但强调评判需要在专家评判的基础上,或是量化分析的基础上进行(Heaton,2000:160;Henning,2001:95;Shepard,1993)。
本项研究中,在实施听力测试之前,笔者向本学院的三位英语资深听力任课老师详细介绍了五套试卷的构成,包括试卷的组成部分、内容、时长、分值、停顿等细节,并同时请三位教师请他们就五套测试的内容与课程教学大纲进行比对,从而对五套试题的表面效度和内容效度做出评价,看五套试题是否能够达到测试的目的。三位专家均认同了五套测试卷的表面效度和内容效度。
2.构念效度。构念效度假设在语言能力和语言习得过程中构念的存在(Heaton,2000:161),它同样是效度验证的重要证据。就技能测试的效度而言,Guerrero(2000)建议检验构念效度时可以通过对一套试题进行基本的统计分析,来了解其试卷内部一致性,各组成部分之间的一致性和试卷与其它测试的关系。
在本项研究中,由于试卷内部一致性和试卷与其它测试的关系在1.1和1.2中已经进行了探讨,因此,笔者从试卷内部组成部分的一致性角度对五套试题的构念效度进行检验。检验结果如下:
Correlation Matrix of Test One
ONE TWO THREE FOUR FIVE
ONE 1.0000
TWO .3691 1.0000
THREE .3412 .5435 1.0000
FOUR .3197 .3599 .5093 1.0000
FIVE .3947 .3144 .3385 .4104 1.0000
Correlation Matrix of Test Two
ONE TWO THREE FOUR FIVE
ONE 1.0000
TWO .2150 1.0000
THREE .2220 .4837 1.0000
FOUR .3513 .4728 .3724 1.0000
FIVE .3862 .4914 .5130 .5874 1.0000
Correlation Matrix of Test Three
ONE TWO THREE FOUR
ONE 1.0000
TWO .2758 1.0000
THREE .2989 .3147 1.0000
FOUR .1805 .3027 .3090 1.0000
Correlation Matrix of Test Four
ONE TWO THREE FOUR
ONE 1.0000
TWO .3361 1.0000
THREE .0890 .0488 1.0000
FOUR .2236 .3471 .1737 1.0000
Correlation Matrix of Test Five
ONE TWO THREE FOUR FIVE
ONE 1.0000
TWO .2329 1.0000
THREE .2411 .0099 1.0000
FOUR .3775 .2545 .0004 1.0000
FIVE .5524 .1926 .1204 .3351 1.0000
从以上数据中可以看出,相关性最差的是测试五的第三和第四部分,相关系数低至0.0004,而相关性最好的是测试二的第四部分和第五部分,相关系数达到了0.5874。而从五套测试的整体情况看来,可以说构念效度并没有预期的那么理想。首先,就测试一而言,数据显示各项相关系数值均高于0.20,这也就是说,测试一内的各个部分之间有一定的联系,在第二部分和第三部分,第三部分和第四部分,以及第四部分和第五部分之间的相关系数都高于0.40,可以被看做是具有相关性的。然而,在第一部分和其它部分,第二部分和第四、第五部分,第三部分和第五部分则几乎不相关。与测试一相似的是,测试二中的第二和第三部分,第三和第五部分,第四和第五部分可以被看做相关,而其它部分几乎不相关。在测试三、测试四和测试五中的内部关系问题更大,只有测试四中的第二和第三部分,测试五中的第一和第五部分可以被看做相关,而其它部分的相关性都非常低,更有甚者,有一些部分直接不相关,如测试四的第一和第三部分,第二和第三部分,测试五的第二和第三部分,第三和第四部分。
尽管从数据中无法判定从试题库中抽取的测试卷内的各个部分测试了同样的构念,但是,还是可以做出以下两个推断。第一,某些英语听力课程中所要求培养的听力技能,其发展是独立的,这在测试分析中它们和其它技能的关系里可以体现出来。例如测试五中第三部分与第五部分相关性非常弱,由此可以推断,学习者理解对话的能力发展与概括总结能力的发展是各自进行的。其次,英语听力课程中要求的某些听力技能,其发展是互相促进的,也就是说,某一技能的发展会同时带动另外一项技能的改善。例如,在测试五中第一部分和第五部分的相关系数为0.554,由此可以推断,单词和句子听写的能力发展与概括总结能力的发展密切相关。
但就测试的信度和效度这两项基本要素而言,从该教师自行构建的听力测试题库中随机抽取出来的五套试卷的质量是基本令人满意的。从信度上来看,即使是在0.01的显著性水平上,五套试题的外部信度都非常理想,而五套试题的内部信度平均值达到了0.66,这一数值也超过了0.60的临界值,在分别讨论这五套试题时,只有测试四还有待进一步的分析。就效度而言,在表面效度和内容效度这两项形成性测试中较为关键的效度证据方面,五套试题都是理想的,然而所测试的构念方面,每套试题内部各个部分的一致性并不理想,笔者推断这可能是由于英语听力课程中所要求的各项技能的发展各有特点,有些技能的发展相互依赖,相互促进,而某些技能的发展各自独立这一原因造成的,而这一观点的验证,需要深入听力课堂教学中。
在本项研究中,笔者从信度和效度两个方面对教师自行构建的英语听力测试题库进行了有效性验证,从这一角度证实了英语听力测试试题库的可靠性和实用性。但是,听力测试题库的构建是一个动态的、长期的过程,要想真正使其在教师日常的形成性测试中发挥其作用,首先还需要对试题库中的试题难易度、区分度进行深入的项目分析,以保证试题项目的质量;其次还需要对试题库进行不断的扩充,以满足试题抽取的需要;再次,由于听力测试不单需要文本试卷,还需要配套音频的这一特点,还需要加强适用于英语听力试题库的软件的开发。
[1]Bachman,L.F.Fundamental Considerations in Language Testing[M].Shanghai:Shanghai Foreign Language Education Press,1999.
[2]Davies,A.Three heresies of language testing research[J].Language Testing,2000,(20):355.
[3]Gueerrero,M.D.The unified validity of the four skills exam[M].Applying Messick’s framework.Language Testing,2003,(17):397- 421.
[4]Heaton,J. B.Writing English Language Tests[M].Beijing: Foreign Language Teaching and Research Press,2000.
[5]Henning,G.A Guide to Language Testing:Development,Evaluation and Research[M].Beijing:Foreign Language Teaching and Research Press,2001.
[6]Moss,P.A.Can there be validity without reliability[J].Educational Researcher,1994,(2):5-12.
[7]Shepard,L.A.Evaluating test validity[J].Review of Research in Education.1993,(19):405-450.
[8]王建忠,等.考试系统中题库量与试题量的关系研究[J].计算机应用研究,2010,(2):611-613.
[9]杨端和.语言研究应用SPSS软件实例大全[M].北京:中国社会科学出版社,2004.
[10]张厚粲,徐建平.现代心理与教育统计学[M].北京:北京师范大学出版社,2004.
(责任编校:张京华)
2016-11-12
保山学院2014年立项校级质量工程项目“专业英语听力教学团队”(项目编号14B001TJ)。
兰娟(1982-),女,云南保山人,保山学院外国语学院讲师,研究方向为语言测试与评价。
H319
A
1673-2219(2017)01-0128-05