试卷评价理论的比较研究

2015-03-29 07:12:08梅松竹

淮北师范大学学报(哲学社会科学版) 2015年2期

梅松竹，冷平

（淮北师范大学 a.教育学院；b.数学科学学院，安徽淮北 235000）

教育，是培养人的活动，教育的成效如何需要进行评价。评价原指对客体满足主体需要程度的判断[1]，教育评价则是系统地、有步骤地从数量或性质上描述儿童的学习过程与结果[2]，并判断是否满足个体发展和社会发展需求的程度。教育评价是教育测量的深化和发展，它属于价值判断，强调科学性与综合性，是定量和定性相结合的活动[3]。教育评价的范围十分广泛，几乎涵盖了教育的所有因素。近年来，关于考试的评价逐渐升温，特别是在“高利害”考试的环境下，试卷命制的科学性、合理性和规范性成为考试相关利益人评议的焦点。当前，试卷评价的理论主要有经典真分数理论（Classic True Score Theory，CTT）、概化理论（Generalizability Theory，GT）和项目反应理论（Item Response Theory，IRT）。此三种理论源于西方，我国教育界虽然对其进行了充分的借鉴和发展，但仍然存在着“误用”“滥用”“非用”等乱象，这无疑不利于我国教育评价的健康发展和教育公平的顺利实施。因此，在教育评价国际化和现代化的背景下，在我国基础教育改革的当口，厘清试卷评价理论的本质属性及其适用范围，理性选择恰当的评价理论，谨防陷入试卷评价的误区，可谓当务之急、必要之举。

一、CTT、GT、IRT比较研究

CTT是历史上第一个教育与心理测量理论，也是最基础、最根本的测量理论，GT和IRT是为了克服CTT在信度和效度方面的不足而分别发展起来的现代测量理论，三者在诸多方面有所不同，比较如下：

1.理论基础

CTT的理论基础是随机样本理论，即随机抽取足够数量的试题样本和被试样本，进行测评和统计分析，它弱化个体间差异，强调总体表现水平，具有诸多不可避免的缺陷，但是发展至今仍具有旺盛的生命力，因此堪称经典测量理论。GT从考试的外部和宏观角度入手，继续沿着随机样本理论的思路，关注考试的外部效度，重点讨论测量条件和测量结论推广及其应用范围之间的关系，以及测量误差及其来源的问题，改变了真分数固定不变，测量误差只是含混不清的随机误差，测验信度就是计算相关系数等传统看法[4]。GT将考试看作是对考生进行观测的一般样本，将试卷看作是一个由无数试题组成的全域的一个样本，它只假设平行试题来自同一全域。GT是一种评价行为测量的可靠性或信度的统计理论，它扩展了真分数理论，但并不包含真分数理论的所有特征。与GT相比，IRT从考试的内部或微观角度入手，放弃随机样本理论的思路，转而关注考试的内部效度，采取数学建模和统计调整的方法，重点讨论考生的能力水平与试题之间的关系，它将被试对试题的应答看作是考生的特征和试题特征的函数，假定被测在某道试题上的表现只依赖于某一潜在特质或能力，并且被测在该题上的表现与其测量的特质之间是单调增函数的关系[5]。IRT将原始分数转化为能力参数和难度参数的做法，是对CTT的一大改进，克服了样本依赖性的弊端。由此可见，CTT、GT、IRT的理论基础各异，但并不具有包含和从属关系，GT和IRT只是在某种程度上完善了CTT，满足了现代教育测量与评价的精度和多样化的需求。

2.对“分数”的理解

CTT认为测验分数X是由真分数T和随机误差E组合而成。真分数，又称为无误差分数，在概念上它是假设对同一试卷（或不同试卷）多次重复测量后得到的平均分，它是一个单独的参数，并假定考生的每个观察分数都可以用来估计这个参数。CTT将真分数看作是考生的特征，将随机误差分数看作是考试的特征。GT的焦点不是真分数，而是全域分数，它将被测称为测量目标，将影响和制约测量目标的各种因素称为侧面，如教师侧面、试题侧面，而评分教师和试题则构成了相应侧面的一个条件，所有这些侧面的总体构成可接受的观察全域，考生在某个侧面或某些侧面的所有条件上的平均得分叫做全域分数。GT研究随机侧面和固定侧面，关注观测分数在随机侧面上可以被概化的水平及其信度。IRT放弃了测验的原始分数，将被试对于试题的某种反应概率与此题目的特征联系起来，进而确定考生具有怎样的能力水平才能够做出正确的应答。IRT用一组数学模型来估计模型参数，如考生的能力（或特质）参数、试题难度参数，并将其定义到同一量标之上，可以直接进行比较。IRT主要是为了获得试题的特征参数，确定考生具有什么样的能力水平才能够对试题做出正确的应答，以及试题对什么能力水平的学生具有良好的区分能力，进而判断试题是否有质量问题。因此，不管是“全域分数”，还是“能力参数”，都与真分数的概念非常接近，但是它们的计量单位不同，所具特征也有所差异。

3.模型假设

CTT是基于桑代克（E.L.Thorndike）的“凡客观存在的事物都有其数量”和麦考（W.A.McCall）的“凡有数量的东西都可以测量”这一可测性假设提出的[6]。1950年，古丽科森（Harold Gulliksen）提出了CTT的三个假设，即受测者总体的误差分数的平均数为零、受测者总体的真分数与误差分数的相关为零、受测者参加的两次独立测验的误差分数相关为零[7]。CTT假设是标准化考试的重要的理论基础和技术支柱，是考试公平和评分公正的前提条件，在实际考试中发挥着巨大的作用。GT改变了CTT误差因素的假设，关注样本的代表性及概化推测，它有两个基本假设——观察样本具有代表性、样本容量足够大，可以控制抽样误差[8]。也就是说，GT假定受测者的特定测量能概化到更广泛的测量领域中去，不同侧面对概化程度都会产生影响，通过扩大样本容量来减少抽样时的系统误差。GT的假设将不同来源的测量误差区别开来，并确定其效应，研究不同变量对整卷测量效果的影响，这是对CTT假设的一大改进。IRT有三个强假设，即假定考生对于试题的解答只由唯一潜在特质或能力来解释，并且针对在潜在特质量表上的某一点的受测者子体而言，对所有试题的应答是相互独立的，即单维性和局部独立性。单维性假定表明决定考生对试题应答的能力只有一种，局部独立假定表明任何一道试题都不会给另一道试题提供线索。单维性和局部独立性不是等价概念，项目独立有可能测验是多维的，测验单维项目局部独立却不一定成立。在实际测量时，单维性和局部独立性往往难以满足，还需要进一步验证或修改试题以满足此假设。IRT还假定所有试题没有猜测因素，即试题特征曲线仅反映出被试的应答表现与其测量特质之间的单调递增关系。

4.测量误差

CTT认为测量误差是观察分数与真分数之间的假设差别，它是随机的和不可预测的，在概念上不同于系统误差。系统误差往往是有规律的且是可以预测的，它可能是因为难度不等值的两套试卷引起。当参加测试的两个群体水平相当时，做难度较小的试卷的平均分通常会高于做难度较大的试卷的平均分，而且这种结果显而易见，是可以事先预测到的。测量误差的来源主要包括三个方面：测量工具、测量目标和施测过程。显然，CTT并不区分这些误差来源，而是将它们统一看成笼统的、含糊不清的随机误差，因而估计的测量误差总是偏大，误差分析单位定义太笼统，揭示的信息相对较少，获得的考生群体和考生的真分数误差较大[9]。GT改变了CTT无视误差区别的做法，将误差分为系统误差和随机误差，并重点关注了误差的来源，包括被试之间水平差异、评分差异、测量内容差异、平行测验之间差异、不同施测环境差异、不同体力状况差异、初试与复试的差异以及被试临场发挥不当的差异[10]。GT将不同来源的测量误差区别开来，进一步评价不同变量对整卷测量效果的影响，所获得的概化全域的分数较为准确，为改善测验、提高试卷质量提供了大量有用的信息。IRT虽没有严格区分误差来源，但是它从模型本身入手力图减小不必要的误差，根据测验精度和试卷组成的不同，分别设计了Rasch模型、logistic模型及其改良形式，并引入难度参数、区分度参数和猜测度参数，采用迭代法计算参数，再对模型和数据的拟合程度进行检验和修正，以减小测量误差。在IRT中，当获得了能力参数的极大似然估计值之后，便可以对被试的能力参数估计值的精度进行估计，而且考生能力参数的估计值的标准误与试卷长度和质量密切相关，试卷越长，或试题区分度参数越大，或试题猜测参数越小，或试题难度参数与考生实际能力水平越接近，标准误都将越小，而且项目反应模式还提供了利用信息函数来评价试题和试卷的质量的方法，这与CTT中测量的标准误差不变是不同的。

5.模型验证

在CTT中，由于施测者真正关心的是真分数，而不是观测分数。因此，如何在二者之间建立一种有效联系，就显得特别重要。由于无法得到真分数和所有可能的观测分数，所以CTT采用平行测验的方法，将两套平行测验分数之间的关系定义为信度系数，以此来验证模型的可靠性。此处，平行测验需要满足两个条件，即每个受测者在该测验的两种形式上的真分数相同，两种形式的误差方差相等。基于平行测验的定义，可以得到两套平行测验的观察分数之间的信度系数。实际上，完全平行测验的获得并非易事。若考虑在不同场合对同一组受测者进行同一形式的测试，则还需要判断场合的变化、被测认知水平的变化及记忆的作用对测试的影响，通常用稳定系数来表示这个变化。若考虑在同一场合对相同受测者实施内容相同但形式不同的测试，那么平行试卷的命制就尤为关键，通常用等值系数来表示平行试卷的关联程度。稳定系数和等值系数都有可能低估理论上真正平行测验的信度系数。

类似于经典测量理论中的信度系数，GT用概化系数来刻画观察分数与全域分数之间的相关关系，以此来判断测量结果可以概化到全域分数的程度。定义概化系数的常用方法是用全域分数方差与观测分数方差期望值的比值来表示，根据测试情形的不同，有不同的概化系数计算公式，如不同评分者给每个受测者评分，每个受测只有一名评分者的情形下，其概化系数为σ2p/(σ2p+σ2i+σ2δ)。对于测量的精度，GT使用可靠性指数ϕ来刻画，并将其定义为（其中，ϕp是指考生p的考试结果被有效概化的可靠性指数，σ2p是考生 p自身的分数变异，σ2Δ则包括了全部的系统误差和随机误差的变异）。GT用方差分析法来全面估计出各种方差成分的相对大小，既能估计出主效应，也能估计出交互作用的效应，并能对各估计值的大小进行直接比较。

相比之下，IRT对考试结果和模型的拟合性检验更为全面和细致，它从模型假设检验、模型性质检验和模型预测能力检验三个方面进行[11]。模型假设检验包括单维假定检验和等区分度假定检验，前者可采用因素分析法，后者可以计算各试题与总分的点二列相关系数。模型性质检验又包括试题参数不变性检验和考生能力参数不变性检验，前者可以在所有被测中随机抽取两个子群体，分别估计试题参数，然后检查其线性相关程度；后者采用两组难度不同的试题对同一考生群体施测，估计两组能力参数，并检验其线性相关程度。模型预测能力检验主要采用试题和考试的信息函数来表示考生能力水平估计值的测量精度。为了充分验证模型对考生能力水平估计的精度和可靠性，IRT定义了试题信息函数，根据试题提供的信息量的大小来判断试题的优劣。考生能力水平与试题难度参数越接近，试题提供的信息量越大；试题区分度越大，试题提供的信息量越大，但是区分度很大的试题也只能在一定的能力水平范围内可以提供较大的信息；试题猜测度越小，试题提供的信息量越大，猜测度较大的试题增加了考生正确应答的偶然性，基于偶然性的考试结果所提供的信息就有可能存在较大的偏差。

6.样本依赖性

在CTT中，考生能力参数严重地依赖于试题样本，试题难，则得分低，反之则高；试题参数也严重地依赖于考生样本，考生的平均水平会影响试题的难度，考生个体的差异程度也会直接影响试题的信度和区分度水平。CTT对于样本的依赖性使得抽样误差会明显改变测评的结果，以及相应的统计论断和教育决策。GT对于样本也有一定的依赖性，试题抽样的代表性以及对于全域的覆盖程度将直接影响到概化系数。为此，GT采用扩大抽样样本容量，减小抽样误差的方法来提高整个模型的信度水平。IRT对考生能力水平的估计与考试采用试题无关，对试题参数的估计与考生样本无关，考生的能力参数与试题的难度参数统一到同一量标上，可以直接对比，也可以直接估计考生能力参数估计值的精度，这一点是CTT和GT无法比拟的。

7.应用去向

CTT自诞生之日起，便得到了广泛的应用，它对心理和教育测量领域的理论和实践都产生了巨大的贡献，虽然它有明显的缺陷，但是仍有不凡的效用，特别是为标准化考试奠定了理论基础，并且这种影响一直持续到当今，并将继续发挥作用。1950年，古丽科森（Gulliksen，1950）出版了《心理测量的理论》，首次使用公理化的方法系统地总结了标准化考试的原理和方法，这标志着CTT走向成熟。GT最重要的应用是概化推测，即根据观察的分数推测概化全域的分数，因而常常被用作交叉设计和嵌套设计，通过控制某些侧面，观察其它侧面对于考试结果的影响，从而找到控制误差的方法，为测验内容、测验方式的设计提供了有价值的信息，并作出最佳决策设计。IRT在教育领域的应用更为广泛，其一是指导测验编制，其二是指导计算机自适应测验系统的开发，其三是将测量导向与认知心理学相结合。在指导测验编制的过程中，IRT不但可以提供全卷的信息量和标准测量误差，而且能够提供每一道试题或评分项的信息量和标准测量误差，因此提供考试信度和标准测量误差的信息最为完全，IRT还为因人（被试）实施测提供了可能。IRT通过项目特征曲线还可以预测被试在其他项目上的正确反应概率，提高了试题库特征参数的完备性及题库管理的可控性，对于基于标准的测验的试题开发具有重要效用。

8.优势

CTT的模型构造简单、浅显易懂，所用公式及其计算并不复杂，模型参数估计具有概念上的直观性，不需要严格的拟合检验，统计结果对于分数的解释相对直观、清晰，因而容易为一线教师所接受。GT区别不同来源测量误差，关注不同侧面对整卷测量效果的影响，所获得的概化全域分数较为准确，为改善测验、提高试卷质量提供了有用信息，但由于需要利用方差分析等数学工具，导致很多一线教师理解困难。IRT提供考试信度和标准测量误差的信息最为完全，通过项目特征曲线还可以预测被试在其他项目上的正确反应概率，提高了试题特征参数的完备性，测验编制具有主动性和可控性，不需要严格的平行测验来评估测验信度，因而在技术层面具有一定的优越性。

9.局限性

CTT对考生能力参数估计的精度不够高，用测量信度和标准误来估计所有考生的能力参数，这一做法显然没有考虑考生个体的差异，因而是不恰当的；信度估计所依赖的平行测验的假设在现实中往往难以满足；试题难度定义在考生样本上，考生能力参数定义在试题样本上，二者不属于同一参照系，因而无法统一，也难以判断二者是否匹配，不利于测验工作的改进；另外，由于使用了配对或标准化技术和随机化技术，使得测量条件的完全一致性难以满足，进而制约了测验结果的可拓广性。GT并未改良经典测量理论的微观结构及其项目参数系统，只是更多地从整个测验的宏观结构及其与外部测验条件的关系上作了深入的计量分析，因此，经典理论在其自身框架下的一些主要局限性依然存在[12]。而且，GT模型结构比较复杂，统计计算也相当繁杂，需要借助统计分析工具方可解决此类问题，这也是不利于GT广泛推广的一个重要因素。IRT依赖于更强的假设，模型结构复杂、计算量偏大，对信息技术的依赖性较强，项目参数的获得需要合适的样本量，而且被试的能力分布范围要广，如果不能满足此要求，则会影响模型结果的精确性，也很难检测出模型与数据之间的偏差。此外，项目反应模型并没有对考试的效度问题提供独到的见解。

二、启示与建议

CTT、GT、IRT既有广泛联系，又有显著区别，它们各有利弊，三者分别展示了不同的试卷评价理论框架和参数表征，为研究者和应用者提供多样化的选择。

1.根据研究需求的不同，选择不同的评价理论

每一位研究者对试卷评价都有自己独特的需求或希望获得的报告形式，而不同的试卷评价理论正是为个性化的需求提供了自由选择。如果研究者关注的是整卷的统计指标、总量指标、相对指标和平均指标，那么CTT将是最佳选择，它可以提供试卷的信度、效度、难度、区分度、偏度、峰度、均值、众数、中位数、标准差、分布图表或曲线等方面的信息，呈现出直观的或经验性的统计数据和报表，有助于非专业人士的理解。如果研究者侧重于测量的信度及其验证，那么GT将是理想选择，它可以提供概化系数、可靠性指数、误差分类等信息，全面考量影响考试分数的多个侧面，可以进行交叉设计和嵌套设计等方面的试题开发。如果研究者偏向测量的效度及其检验，那么IRT将是不二之选，它可以提供信息函数、参数验证等信息，易于对不同群体的正确应答的预测及全面的误差分析。

2.根据研究精度的不同，选择不同的评价理论

CTT、GT和IRT在误差处理方面有着明显的不同，因而产生了不同的测量精度。如果研究者对测量的精度要求不高，那么就可以直接选用CTT，它并没有严格区分误差的类别和来源，而且弱化了个体间的差异，强调样本总体表现水平和整卷效果，因而统计结果是宏观而粗糙的。如果研究者对测量精度有稍高要求，特别是希望区分不同的误差来源对测验结果的影响，那么就需要选用GT了，它将误差分为系统误差和随机误差，并考查误差的来源，重点关注被试的生理、动机、兴趣、注意力、情绪、答题速度、受训情况、测验技巧，以及考试的物理环境、监考者状态、意外干扰、评分计分和分数转换等环节所产生的误差。如果研究者对测量精度有更高的要求，希望考查试题设置和呈现方式对不同群体的“偏见”或功能差异，那么就可以选用IRT，因为它以更加精确的数学模型和函数表达式来呈现难度参数、能力参数及其他参数之间的关系，可以量化地分析误差的大小及其对测量的影响。当然，我们还需要注意到，并不是所有的分数变化都必然归咎于测量误差，还有可能是因为外部介入、自身学习或成熟度提高的结果。此时，分数差异或变化于是成为信度所依赖的测量值[13]。

3.根据研究水平的不同，选择不同的评价理论

三种评价理论的理论体系、方法原理、模型结构和参数估计方法各不相同，其复杂程度也有所差异。对于研究水平有限的一线教师和普通研究者而言，CTT相对简单且容易被人理解和掌握，统计结果对于分数的解释相对比较直观、清晰，所倡导的标准化测验技术在考试误差等方面具有明显的效果，并为多数人所认可。相比之下，GT对于研究者在测量与评价领域的理论素养和数学应用能力有一定的要求，否则难以理解各侧面的影响及概化的过程和水平。如果研究者是专业人士，尤其是大规模测评试卷的命题或审核人员，可能会具有深厚的测量与评价理论基础以及精湛的试卷评价技术，因而可以选用IRT来进行更为深入、细致的试卷质量分析，进而实施更广泛的试卷质量评判、命题指导和有效测评。

综上，CTT、GT与IRT有诸多不同，至于选择哪一种理论模型，主要依据各模型的适用条件、测验的分析要求以及研究者的理论与实践水平。每一种理论模型都不是完美的，在实际测量与评价过程中，可以进行有效的组合，以发挥各自的优势，从而对试卷质量进行全面、客观、科学、理性的分析。

[1]陈玉琨.教育评价学[M].上海:华东师范大学出版社,2005:1.

[2]王景英.教育评价学[M].长春:东北师范大学出版社,2005:3.

[3]王孝玲.教育评价的理论与技术[M].上海:上海教育出版社,2002:2-3.

[4]漆书清,戴海崎,丁树良.现代教育与心理测量学原理[M].北京:高等教育出版社,2002:42.

[5]Martin T Wells.Handbook of Modern Item Response Theory[J].Journal of the American Statistical Association,1997,92(439):1227.

[6]钟轶,季晓辉.两种教育测量理论在试卷质量控制和评价中的应用及其展望[J].南京医科大学学报：社会科学版,2013(1):66.

[7]Linda Crocker＆ James Algina.经典和现代测验理论导论[M].金瑜，等,译.上海:华东师范大学出版社,2004:121.

[8]雷新勇.基于标准的教育考试—命题、标准设置和学业评价[M].上海:上海科技出版社,2011:27-29.

[9]周群.基于论证的我国高考开发质量评价模型研究[D].上海:华东师范大学,2011:165.

[10]杨志明,张雷.测评的概化理论及其应用[M].北京:教育科学出版社,2003:41.

[11]雷新勇.大规模教育考试命题与评价[M].上海:华东师范大学出版社,2006:71.

[12]熊江玲.经典测量理论、概化理论及项目反映理论比较研究[J].求索,2004(4):99.

[13][美]美国教育研究协会,美国心理学协会,全美教育测量学会，主编.教育与心理测试标准[M].燕娓琴,谢小庆,译.沈阳:沈阳出版社,2003:41.