IRT测验等值流程化操作思路的构建

2012-07-05 09:19:14黎光明张敏强

中国考试 2012年11期

黎光明张敏强

由于测验等值涉及一些复杂的统计计算，给人们进行等值操作带来了较大困难，阻碍了当前国内等值技术的发展。造成这种窘境，皆因等值操作困难化。如何使用方便的等值软件进行思路清晰的流程化等值操作，是解决这一问题的关键所在。

1 测验等值的概念

在教育与心理测量实践中，经常遇到一个测验需要配备多个测验形式的情况，特别是那些测验内容容易受记忆和针对性训练影响的测验，在测验前需要严格保密，测验后不能再用，必须配备多个不同形式供不同次施测使用。然而，各个不同形式的测验测出的结果可能会有所不同。为了保证测验的公平性和可比性，需要把不同测验形式的分数都转换到同一个分数系统上。测量学上把为达到这一目的而发展起来的一套专门技术称为测验等值（Test Equating）[1]。测验等值是教育与心理测量中的一个重要研究领域。在我国考试实践中有许多大规模的考试需要进行测验等值[2]。进行测验等值不是无条件的分数转换，需要满足同质性、等信度性、公平性、不变性等条件[3]。

基于不同的测量学理论框架，测验等值可分为经典测验理论（Classical Test Theory,CTT）测验等值与项目反应理论（Item Response Theory,IRT）测验等值两种[4]。

2 IRT测验等值的优势

经典测验理论的测验等值方法存在不少困难与局限：首先，它们确定的转换关系依赖于样本，会随被试样组的不同而变化，等值条件的唯一性（不变性）要求不能满足，无论哪种方法，都难以确保求出的转换关系是对称的、公平的。其次，经典测验等值方法应用重点又都在被试观察分数等值上，很难妥善解决难度、区分度这类项目参数等值的问题。最后，更重要的是，即使在线性等值的情况下，经典等值理论所认定的应予等值的测验分数间的线性转换关系，也是假设能够存在的，而不是必然能够具有的[3]。

项目反应理论却根本不同，在所选反应模型与实测资料适合良好的情况下，按项目反应理论方法所确定的被试特质与项目参数间的转换关系，就是必然应该具有的，这是因为特质与项目参数本应具有不变性。也正由于转换关系是来自模型的理论性质本身，所以，能够保证全面地较好满足唯一性、公平性、对称性等要求。另外，由于项目反应理论能同时估出特质与项目参数，特别是，项目难度又是直接定义在特质参数量纲上，因而，就能同时解决特质水平与项目参数的等值问题[5]。所以，项目反应理论等值不仅在理论上具有优良的性质，而且在实用上具有极强的功能。项目参数等值问题的解决为大型题库的建设提供了有力的技术保证[6]。

3 IRT测验等值流程化操作思路

在参考国内外关于测验等值的相关文献[7][8][9]的基础上，构建出IRT测验等值的流程化操作思路，如图1所示。从图1可以看出，进行IRT测验等值，需要进行等值设计、数据收集、参数估计、量表化及测验等值5个步骤。

3.1 等值设计

根据等值中介因素的不同，可以将测验等值设计主要分成以下三种形式：

（1）单组设计。单组设计是指把应予等值的两个或多个测验同时向同一被试组施测，然后借助于同一被试组把应予等值的测验联系起来的等值设计。运用单组设计比较两组测验分数的差异主要归因于两个测验的难度的不同。运用单组设计进行等值的优点是等值简单且无抽样误差，缺点是存在练习效应、疲劳及厌倦等因素的影响，会给等值结果带来偏差不明显的误差。

（2）等组设计。等组设计是指从同一总体中随机抽取两组考生，这两组考生被认为在能力分布上是相同的或很接近，让这两组考生分别接受两份不同测验X和Y，然后把所得测验分数加以等值的设计。这种设计方案可克服练习效应和疲劳等因素的不利影响，但由于两组考生的能力分布可能不一样，从而给等值带来偏差。

图1 心理与教育测量IRT测验等值的流程化操作及相应软件

（3）锚测验设计。锚测验设计是指把应予等值的测验分别向不同的考生组施测，并将“锚测验”作为等值的测验的“桥梁”所进行等值的设计。这种设计不要求两个被试样组的能力分布完全一样，也不会给考生带来太大的练习效应和疲劳因素，因此它兼有第一和第二两种设计方案的长处，又克服了其短处。因此，在等值设计中，锚测验设计是常被采用的一种[10]。

3.2 数据收集

当选定了相应的等值设计之后，一个重要的问题就是如何能准确有效地收集数据，以客观而全面地反映所要研究的心理行为问题的真实状况。数据收集需要注意二个方面：一是所收集的数据需要满足等值设计的要求；二是数据必须有代表性，样本容量不能过小。

多种等值数据资料的收集方法可以分为二大类，一类是采用以“人”为媒介的共同组设计，即让一组人接受不同的测验版本；另一类是以“题目”为媒介的“锚测验”设计，即在不同测验版本中含有共同的题目。共同组设计（common-subject equating design）中包括单组设计（single-group design）、平衡随机组设计（counterbalanced random-group design）和等组设计（equivalent-group design）等几种不同的设计。共同题等值设计（common-item equating design）包括锚测验随机组设计（anchor-test-random-group design）、锚测验非等组设计（anchortest-nonequivalent-group design）、部分预先等值设计（section pre-equating design）、题目预先等值设计（item pre-equating design）等几种不同的设计[7]。

3.3 参数估计

心理测量的目的往往是定量地表示人员的某处心理特质。比较直观的方法就是根据被试答对项目的数目来进行这种定量描述。项目反应理论把被试潜在特质和项目参数放在同一个数学表达式中加以考虑。这种表达式就是项目反应模型，有时也称为项目反应函数。测量工作者的任务就是要把项目反应模型中的各种参数（包括人员的潜在特质参数和项目参数）估计出来，估计这些参数受到诸多方面因素的影响，如题量及被试量等[11]。

在实际的测验工作中，我们所能得到的只是被试对测验项目答对或答错的一组反应数据，并没有任何一个项目参数的真实值。因此，必须根据观察分数来对项目参数进行估计。项目参数估计的过程是项目反应理论中最困难、最重要的过程。由于它的高度复杂性，使得只有运用专门的计算机软件才能很好地完成这一任务。

3.4 量表化

量表化是将两个或多个考试放到一个统一量表上的过程。现代标准化测验诞生的一个标志性测验是法国心理学家比内（Binet）1905年出版的《比内智力测验》。在这个测验中,实际上已经包含了“量表化”的过程。这个测验适用于不同年龄的儿童，对不同年龄的儿童施测的题目不同，所报告的是具有可比性的智力分数。在这个测验中,已经包含了对不同“试卷”的量表化连接。在这一新的关于量表化的框架体系内，量表化过程被划分为“构念（construct）相同”与“构念不同”两种情况。

相当长的时间中，教育测量学家将等值分为横向等值（horizontal equating）和纵向等值（vertical equating）。在考试的平行版本之间建立联系的过程,被称为横向等值。有的时候,测验被用来建立发展量表，一组水平不同的测验被用来描述考生的发展水平。在这些不同水平的测验之间建立联系的过程被称为纵向等值。显然，这些被用于建立发展量表的测验并不是相同水平的，将之称为“等值”是不妥的[7]。将测验之间的这类连接称为“量表化”，似乎更为合理些。

3.5 测验等值

测验等值是教育与心理测量中的一个重要问题，同时又是测量实践中的一个重要技术问题。从本质上说，测验等值是通过对考核同一种心理品质的多个测验形式作出测量单位系统的转换，使所有测验形式的测验分数转化到一个作为基准的度量系统上，进而使得这些不同测验形式的测验分数之间具备了可比性。等值是对同一个考试的不同版本的分数进行连接的过程，是在构念相同、难度相同、信度相同和考生目标总体相同的情况下的分数连接。与预测和量表化相比，等值的条件最严格，是两个测验分数之间最紧密的连接方式[7]。对考试分数进行等值处理不仅是保证测验信度和公平性的重要环节，也是建立题库和实现计算机化自适应性考试的核心环节。测验等值是否可靠，可以通过考察产生的等值误差来反映[12]。

目前，国内关于测验等值方面的研究存在以下问题：一是国内一些教材测验等值公式不统一，缺乏更新，甚至有明显的符号遗漏；二是缺乏专门的数理统计推导，仅为介绍性地阐述，具体如何计算不得而知；三是未交待如何获取可操作的等值软件，造成一些初学者产生畏惧的心理。因此，使用方便的等值软件进行思路清晰的流程化等值操作，显得十分有必要。

4 IRT测验等值流程化操作软件

4.1 参数估计软件

对于参数估计，项目反应理论包含一组分析软件包:BILOG、MULTILOG、PARSCALE、ANOTE等。这些软件作为题目分析、题库建设以及分数估计等方面的重要工具在各个领域被广泛应用。

国际测量学界有几个项目反应理论处理多级计分资料的分析程序，最著名和最流行的是MULTILOG和PARSCALE。它们既能处理社会心理测量与心理卫生评估中的5点、7点乃至更多级别的测评量表资料，又能处理成就测验中的多等级计分题资料。但MULTILOG的最高等级数为10（即9个难度级别），PARSCALE的最高等级数为15（即14个难度级别）。在我国，心理测量等级计分资料一般多在9点以下，而成就测验中，却历来有坚持综合运用选择题与多等计分题的良好传统。一般，选择题占分比重只是40%左右，主要部分是多计分题（即所谓的“主观题”）；而且，不少题型（如作文、分析论述、综合证明等）的满分值常在15分乃至20分或30分以上。因此MULTILOG和PARSCALE在我国教育测量中的使用范围就受到一定限制。为满足我国教育与心理测量工作实际发展的需要，近年来江西师范大学漆书青和戴海崎等人开发编制了通用测量程序（Analysis of Test System，ANOTE）。它能处理难度级别数超过20的等级计分资料。

4.2 量表化软件

（1）ST。ST是一个用于计算项目反应理论量表转换函数的C语言程序，适用于三参数逻辑斯蒂克模型（three-parameter logistic model,3PL,其中 D=1.7），适用于锚测验设计（共同项目）。量表转换方法：Haebara（1980）和Stocking-Lord（1983）。程序发布日期：2004年5月24日，版本：Windows Console Version。可登录 http://www.uiowa.edu/～casma 进行免费下载。

（2）POLYST。POLYST是一个用于计算项目反应理论量表转换方法的ANSI C程序，适用于参数逻辑斯蒂克模型（Logistic mode）、等级反应模型（Graded Response model,GR）、拓广分部评分模型（Generalized Partial Credit model,GPCM）、称名模型（Nominal Response model，NR）和用于多重选择项目的模型（Multiple-choice model,MC），适用于等组或单组设计（共同被试）。量表转换方法包括mean/sigma（Marco,1977）、mean/mean（Loyd&Hoove,1980）、haebara（Haebara,1980）和 Stocking-Lord（Stocking&Lord，1983）。程序发布日期：2003年5月12日，版本：Version 1.0。可登录http://www.uiowa.edu/～casma进行免费下载。

（3）STUIRT。STUIRT是一个用于计算项目反应理论量表转换的程序，适用于参数逻辑斯蒂克模型、等级反应模型、拓广分部评分模型、称名模型和用于多重选择项目的模型，适用于锚测验设计（共同项目）。量表转换方法包括mean/sigma（Marco,1977）、mean/mean（Loyd&Hoove,1980）、haebara（Haebara,1980）和 Stocking-Lord（Stocking&Lord，1983）。STUIRT可看作是POLYST的扩展版。ST和POLYST仅能处理单一格式的测验（Single-format test form），也就是数据形式要么是二值，要么是多值。但是，STUIRT既可以处理二值数据，也可以处理多值数据，这类测验叫做混合格式测验（mixed-format test）。STUIRT是依靠共同项目（common item）来进行量表化的，因此它是测验等值良好量表化软件，特别适用于后面要介绍的POLYEQUATE软件（简直就是为它设计的）。程序发布日期：2004年9月，版本：Version 1.0。可登录http://www.uiowa.edu/～casma进行免费下载。

4.3 测验等值软件

（1）PIE。PIE（program for IRT Equating）是在Windows平台下进行IRT测验等值的程序。它既能处理IRT观察分数测验等值，也能处理IRT真分数测验等值。PIE仅适合IRT的基本模型，即逻辑斯蒂克模型，且D=1.7。在ST对收集到的数据进行量表化之后，方可使用PIE程序。程序发布日期：2004年5月20日，版本：Windows Console Version。可登录http://www.uiowa.edu/～casma进行免费下载。

（2）POLYEQUATE。POLYEQUATE是一个由Fortran语句编写的程序，既可以处理IRT观察分数等值，也可以处理IRT真分数等值。与PIE相比，它可以处理多值的项目反应理论模型，如三参数逻辑斯蒂克模型（Three-parameter Logistic Model）、塞姆吉马正态肩形等级反应模型（Samejima’s normal ogive Graded Response model）（Samejima,1997）、塞姆吉马逻辑斯蒂克等级反应模型（Samejima’s Logistic Graded Response model）（Samejima,1997）、贝克的称名模型（Bock’s nominal model）（Bock,1997）和马如克的拓广分部评分模型（Muraki’s Generalized Partial Credit model）等。程序发布日期：2004年7月7日，版本：Windows Console Version。可登录http://www.uiowa.edu/～casma进行免费下载。

5 IRT测验等值流程化操作实际例举

5.1 等值设计

2005年佛山市普教进行课程改革，分为“课改实验区”和“非课改实验区”[13][14]。课改区与非课改区考生能力有所差异，且测验X与Y中有一个共用锚测验，采用非等组锚测验设计作为本研究的等值设计。IRT等值方法主要有MM（mean/mean）、MS（mean/sigma）、HA（Haebara）和SL（Stocking-Lord）方法。Stocking-Lord是基于项目特征曲线等值方法，具有较多优良特性，本研究统一选用此种方法来进行测验等值。

5.2 数据收集

由广东省佛山市教育局提供的2005年“中考数学”实测数据。“中考数学”相应分为课改区的测验X和非课改区的测验Y。课改区有考生50 902人，非课改区有考生10 882人。测验X、测验Y各有24道题，其中客观题15道，主观题9道。测验X和测验Y有一个锚测验V，测验V的主客观题共9道。

5.3 参数估计

依据各种等值模型分别对测验X和测验Y进行参数估计，得出各测验的项目参数值。使用的软件是 Parscale 3.5[15]和 Multilog 7.0[16]，其中 Parscale用于估计SL、SN和GPCM的参数，Multilog软件用于估计NR的参数。X（50902）和Y（10882）的数据参数估计结果格式如表1所示。

在表1中，NR表示称名反应模型，GR表示等级反应模型，PC表示分部评分模型，DW表示缺省权重，1.0/1.7表示模型的系数，aX和aY分别表示X测验和Y测验估计的各题区分度，bX和bY分别表示X测验和Y测验估计的各题难度。

表1 等值测验X和Y数据参数估计结果格式

5.4 量表化

根据等值测验X（50902）和Y（10882）数据参数估计结果，将测验X和测验Y所得两测验的项目参数进行量表化（Scaling），即统一量纲，使用的是STUIRT软件。Multilog的称名反应模型的量表化格式、Parscale的SL和SN模型的量表化格式、Parscale的PCM模型的量表化格式分别如图2～图4所示。

根据图2～图4的量表化格式，编写相应的程序，等值测验X（50902）和Y（10882）数据的量表化结果格式如图5所示。

图2 NR量表化格式

图3 GR量表化格式

图4 PCM量表化格式

5.5 测验等值

根据测验X和测验Y量表化的结果，通过POLYEQUATE软件进行等值转换，其程序如图6和图7所示。

图6 POLYEQUATE等值程序

图7 POLYEQUATE等值程序中qform代码

测验等值进行后，将得到四种IRT模型下的测验观察分数等值结果。四种IRT模型下的测验观察分数等值部分结果列于表2。为节省篇幅，以10分为一分数段列出。

表2 四种IRT多级模型测验观察分数等值结果(举例)

在表2中，X表示课改实验区原始分数，f表示频数，Y（）表示SL、SN、PCM和NR方法将X原始分数等值到Y测验上的原始分数是。通过表2可以将实验区与非实验区分数进行相互转换，从而达到测验等值的目的。

6 结语

在我国，测验等值是测验研究中相对薄弱的一个环节，许多重要的考试都尚未实现统计等值。严格按照上述规定进行测验等值操作，能够得到理想的等值结果。这种规定式的等值流程化操作思路，有助于“手把手”教人们如何进行测验等值，从而能够克服进行等值时产生的畏惧心理，即便是“生手”，在看清等值操作的流程图后，也可能觉得操作起来相对简单。等值流程化操作有助于解决测验等值操作困难化的难题，使得许多初学者有一个感性的认识，并以此为基础继续深入探讨一些具体的等值问题。按照心理与教育测量IRT测验等值流程化操作思路，将有利于促进人们积极参与等值化操作，从而推动我国测验技术的发展。

[1] 戴海崎,张锋,陈雪枫.心理与教育测量(第三版)[M].广州:暨南大学出版社.2011.

[2] 张敏强.教育测量学[M].北京:人民教育出版社.1998.

[3] 漆书青,戴海崎,丁树良.现代教育与心理测量学原理[M].北京:高等教育出版社.2002.

[4] 张敏强,黎光明,刘晓瑜,焦璨.教学管理与评价的测量技术:测验等值的理论、方法及应用.教育研究与实验[J],2009,2：54-57.

[5] Von Davier,Alina,A.L.,&Wilson,C.Investigating the population sensitivity assumption of item response theory true-score equating across two subgroups of examinees and two test formats.Applied Psychological Measurement,2008,32(1)：11-26.

[6] 周骏,欧东明,徐淑媛,戴海崎,漆书青.等级反应模型下项目特征曲线等值法在大型考试中的应用[J].心理学报,2005(6):832-838.

[7] 谢小庆考试分数等值的新框架考试研究[J].考试研究,2008,4(2):4-17.

[8] Kolen,M.J.,&Brennan,R.L.Test Equating:Methods andPractices.Springer-Verlag New York Inc.1995.

[9] Kolen,M.J.,&Brennan,R.L..Test equating,linking,and scaling:Methods and practices(2nd ed.).New York:Springer-Verlag.2004.

[10] 黎光明,刘晓瑜,张敏强.测验等值技术在中小学教学管理与评价中的应用[J].教育测量与评价(理论版),2009,14(3):8-11.

[11] “基础教育教学质量监测系统”项目组(张敏强,黄宪,焦璨,黎光明等).IRT下题量与被试量对参数估计模拟返真性能的影响.中国考试,2009(6):3-10.

[12] 黎光明,张敏强.全测验与锚测验题型分值比对等值误差的影响.考试研究,20095(3):71-77.

[13] 张敏强,黎光明,焦璨.普教“升中”考试中测验等值的应用研究——以广东省佛山市“升中”考试为例.心理与行为研究,2009，7(1):27-31.

[14] 黎光明,张敏强.IRT测验等值模型的选择——以广东佛山市中考数学实测数据为例.中国考试,2012,2:8-13.

[15] Thissen,D.Multilog user’s guide:Multiple,categorical item analysis and test scoring using item response theory[Computer program].Chicago:Scientific Software International.1991.

[16] Muraki,E.,&Bock,R.D.PARSCALE(Version 3.5):IRT item analysis and test scoring for rating-scale data[Computer program].Lincolnwood,IL:Scientific Software.1998.