高考语文模考试卷题型结构的多元概化分析

2016-05-14 19:09陈维何壮赵守盈

教学与管理(理论版) 2016年6期

陈维何壮赵守盈

摘要：以X市某校高考语文模考试卷为例，分别以两类题型结构（主、客观题与阅读题和表达题）为划分，用多元概化理论深入分析高考语文模考试卷，结果发现：此次模考语文测验试卷的测量信度处于较低水平；主、客观题在题量和分值设置上不尽完善，而阅读题和表达题的设置则相对合理；增加主观题或表达题的数量能使测验的信度提高得更快。

关键词：高考多元概化分析语文概化系数

一、问题的提出

高考作为国内重要的大规模考试之一，其试卷的命题、实施、评卷、分数标准和统计分析等内部因素构成的科学性，以及试卷如何较为全面、精确地考察不同考生的学科能力，保证考试的公平性，一直是心理与教育测量所关注的焦点问题。然而，传统测量理论（Classical Test Theory，简称CTT）对试题的信度、效度、难度和区分度等参数的分析严重依赖于参加考试的学生，其分析结果往往只能评价此次考试，不能对试卷内容所包含的信息进行推广，是一种教育资源的浪费[1]。另外，CTT无法从宏观方面评价试卷质量，不能保证试卷的结构合理、各类题型比例设置恰当。而避免上述缺陷的方法就是利用多元概化理论（Generalizability Theory，MGT）分析试卷[2]，为促进各类考试的科学化提出一些合理的建议。如：胡谊等人用MGT分析高考历史试卷，结果发现主观题和客观题之间的得分相关较大，测量信度好；两组试题实际方差贡献比例与命题赋分比例存在较大差异，需要进一步改进[3]。汪顺玉等人分析了CET-6数据，发现总体信度较高，但各部分相差较大，词汇和语法最高，而阅读理解则最低[4]。孙莉等人则分析了语文模考试卷的内容设置，发现试卷总体信度处于中等水平，精度较高；而现代文、古代诗文和语言文字等各方面对全域总分方差分量比例与初始命题赋分比例一致，内容设置较合理；而提高各因子样本数量的两倍，可提高到较为理想的测验信度[5]。关丹丹等人分析了课标后高考数学试卷，发现数学考试的总体测量精度较好，达到了选拔性考试的要求；解答题的测量精度较高，三种题型的实际贡献与所占分值比例基本持平[6]。张敏强等人分析了英语测验中阅读理解的精确性，发现增加阅读篇数或题目数量，以及两者的相互补偿均可以提高测量的精度[7]。

基于上述分析，本文拟用MGT分析高考语文模考试卷的题型结构，包括区分考生语文能力的测量信度，估计出题型结构上各因子的测量精度及对测验总分所作的实际贡献，并通过分析各因子对总分方差贡献的比例及其在试卷分值上所占比率的比较，判断试卷结构设置是否合理。最后，通过各题型中题目数量的变化来探讨它对试卷信度的影响，旨在为改进测验的质量提供一定的实证依据和理论建议。

二、方法

1.数据来源

以X市高考前一次模考为例，鉴于各高级中学有关成绩的保密性，采取方便整群抽样的原则，以X校为例，共获取语文成绩654份。

2.试卷分析

试卷为2014年高考前的一次模考语文卷。题型结构分为两种类型——一是主、客观题，二是阅读题和表达题，其结构完全依照高考的大纲要求设置。题型见表1，数字为原试卷题号，括号里为该大题的小题，11与12题为二选一的选做题，故统一分析。

3.概化设计及统计处理

鉴于试卷题型结构的不同分类，故将其分别进行多元概化分析。其中，概化设计均选用多元pxi的随机测量模式，以学生（p）为测量目标，项目（i）为测量侧面，p和i假定完全随机，且有交叉关系。以原始数据为基础，在IBMSPSS22.0中进行整理及数据格式转换，拟在mGENOVA中进行基于题型二因子的多元概化分析。

三、结果与讨论

1.G研究

结果发现，在I类题型上被试效应在客观题上的方差分量为0.01690，而在主观题上的方差分量仅为0.06887，表明主观题的影响较大，而客观题上的影响则较小。两因子间的协方差分量为0.02624，远低于一般标准0.08，表明本次语文考试中，考生在主观题和客观题的得分顺序并不一致，即本次试卷中，主、客观题在预测考生的语文能力方面区分度并不理想，不适合用来作选拔考试。典型相关系数为0.76909，处于高相关水平。项目效应的方差分量在客观题上为1.17630，而在主观题上为171.18987，表明考生在客观题上的误差相对较小，但在主观题上误差则非常大。另外，被试与项目交互效应的方差分量均较小。就II类题型来说，被试在阅读题的方差分量为0.04415，而在表达题上的方差分量为0.04764，分量数值差异相对较小，表明阅读题和表达题的影响相差无几。两因子间的协方差分量为0.02466，这与I类题型分类一样，表明考生在阅读题和表达题的得分顺序并不一致。两者典型相关系数为0.53764，处于中等相关水平。项目效应的方差分量在客观题上为2.02049，而在主观题上为294.64651，表明考生在阅读题上的误差相对较小，但在表达题上误差则非常大。

2.D研究

结果显示（表2）：在I类题型上，主观题和客观题的全域方差分量均较小，但主观题的分量大于客观题。主、客观题的概化系数分别为0.44和0.08773，前者的概化系数达到了中等水平，但后者则非常低，表明本次考试中，单凭客观题的分数来衡量考生水平是很不可信的，这与该因子的题目数量较少、总体分值较低都有关系。在II类题型结构上，阅读题和表达题的全域方差分量亦都较小，两者相差不大。两者的概化系数分别为0.34093、0.16963，两者都不高。

3.各题型因子的方差贡献率

依据题目所占分值计算权系数，结果显示（表3）：各类题型分值的贡献比例与它们对全域方差的贡献比例很不一致。I类题型中，主观题的方差贡献很大，占了90.09%，远高于其所占的分值比例78.67%；而客观题仅占9.91%，远低于其分值比例。主观题对总分的作用比较大，而客观题对总分的影响较小，表明客观题和主观题在题量和分值设置上有待进一步改善。在II类题型中，阅读题和表达题对全域方差的贡献比例与它们所占的分值比例基本处于持平状态，表明阅读题和表达题无论在题量和分值的设置方面均合理。

4.各题型因子题目数量对测量精度的影响

为了研究改善测验的方法，可通过改变各题型的题目数量来观察测量信度的变化特点，限于篇幅和便于讨论，每类题型仅考虑3次每次增加5个题目的变化。

结果显示（表4）：当各题型题目数量为1时，其概化系数，即测量信度分别为0.07161和0.04663，这对于高考这类大规模的考试肯定不予以接受。但是，无论是I类题型还是II类题型，增加各题型的题目数量均能提高测验的信度，表中2倍和3倍模式给予了体现，这与传统测验理论中通过增加测验的项目数量提高信度是相一致的。不过，无论哪类题型，单一增加客观题或者阅读题的题目数量，其测验信度与原来的信度相比提高都不大。如果增加主观题或者表达题的题目数量，其信度就会有明显的提高。

四、结论

本研究通过多元概化理论分析了高考语文模考试卷的题型结构，得出了以下结论：（1）本次语文模考测验的测验信度较低，这对于选拔性的能力测验来说是无法接受的。（2）客观题对测验总分的贡献远低于它所占的分值，而主观题则相反，即主、客观题型在题目数量和分值的设置上不尽完善；而阅读题和表达题的题目数量和分值设置则相对合理。（3）增加各题型的题目数量可提高测验的信度，但增加主观题和表达题可以使总分的测验信度提高得更快。

参考文献

[1] 漆书青.现代测量理论在考试中的应用[M].武汉：华中师范大学出版社，2003.

[2] 杨志明，张雷.测评的概化理论及其应用[M].北京：教育科学出版社，2002.

[3] 胡谊，顾春梅.高考历史试卷的多元概化理论研究[J].心理科学，2007，30（5）.

[4] 汪顺玉，席仲恩.复杂结构语言试卷信度的多元概化理论分析——以CET-6数据为例[J].重庆大学学报：社会科学版，2008，14（6）.

[5] 孙荪，余嘉元.高考模考语文试题的多元概化理论研究[J].江苏技术师范学院学报：自然科学版，2009，15（2）.

[6] 关丹丹，任子朝.应用概化理论评价课标后高考数学试卷[J].数学通报，2009，74（11）.

[7] 张敏强，刘淑桢，黎光明.概化理论在英语阅读精确性研究中的应用[J].教育测量与评价：理论版，2010，3（9）.

【责任编辑白文军】