题目参数漂移:概念厘定及相关研究*

2015-02-26 14:41
心理科学进展 2015年10期
关键词:等值测验效应

叶 萌 辛 涛

(1陕西师范大学现代教学技术教育部重点实验室, 西安 710062)(2北京师范大学发展心理研究所, 北京 100875)

1 引言

随着人们越来越关注项目功能差异(Differential Item Functioning, DIF), 进行DIF检测, 保证题目参数不变性(parameter invariance)假设跨考生群体满足成为了测验开发的一个必要环节。而DIF的思想和检测方法也被其相似概念——题目参数漂移(Item Parameter Drift, IPD)借用, 用以考察进行测验链接时, 题目参数跨测验试卷/水平不变的假设是否得到了满足。不过, 这样的直接借用恰当吗? 要回答这个问题, 我们首先需要掌握IPD的概念, 澄清它和DIF有何异同, 进而分析IPD的既有研究具有什么特点。这正是本文的主旨所在。

2 题目参数漂移概念的厘定

DIF和IPD概念的出现都源于参数不变性这一项目反映理论(IRT)的重要性质。其中“参数”是一个表示总体的量, 它在心理与教育测量中指的是对应于特定测量模型的一套题目参数或能力参数, 参数值是固定的, 但不可知, 只能通过样本统计量加以估计; “不变性”表明不论使用哪一考生(题目)总体, 不论在何种测量条件下, 题目(考生)的参数值都是一样的(Rupp & Zumbo, 2006)。这一性质衍生出了IRT的技术优势: “与个人无关的题目测量”和“与题目无关的个人测量”, 进而成为IRT参数估计及IRT测验链接中参数标定的理论基础。不过, 参数不变性表示的是一种理想状态,它只在模型完美拟合时成立(Hambleton,Swaminathan, & Rogers, 1991)。

对于题目参数而言, 由于种种原因, 一些题目的参数值会跨群体或跨测验试卷/水平发生改变, 成为极端题目。参数值在不同子群体之间的变化称为DIF (Holland & Wainer, 1993)。某个题目检测出DIF意味着该题对于被比较的两个或多个群体而言参数不同, 即发挥着不同的功能, 这可能反映出该题对于某(些)群体而言是不公平的。因此DIF是测验公平性的一个重要考察因素。例如某个基于计算机的阅读理解题若检测出在城乡考生之间存在DIF, 可能说明该题对参照组——城市考生来说考察的确实是阅读理解, 而对目标组——农村考生而言则考察的是操作计算机的熟练程度, 这样该题对农村考生可能是不公平的。题目参数值在若干连续性测试场合(经常以“年”为单位)或测验水平之间的变化称为题目参数漂移(Item Parameter Drift, IPD), 其中的“题目”指的是实施测验链接所用的锚题(Ye & Xin, 2014)。根据锚题所涉年级是否相同, 我们可以将IPD划分为横向IPD (horizontal IPD)和纵向IPD (vertical IPD)两类。横向IPD对应于量尺保持(scale maintenance)语境, 该语境旨在通过等值技术, 将在不同测试场合作答的若干套测验试卷上的分数放在同一个量尺上, 以使作答不同试卷的考生分数可以实现互换和比较。若等值时检测出某个锚题有IPD, 说明该锚题的参数值发生了跨场合的变化。等值所用锚题是施测于同一年级的考生的, 故此时检测出的IPD称为横向IPD。与之不同, 纵向IPD对应于垂直量尺化(vertical scaling)语境, 该语境旨在通过垂直量尺化技术, 将不同年级在若干测验水平上的分数放在同一个量尺上, 以使分数可以做出跨年级的比较。若在量尺化时检测出某个锚题有IPD, 说明该锚题的参数值发生了跨测验水平的变化。量尺化所用锚题是施测于相邻的年级的, 故此时检测出的IPD称为纵向IPD (Ye & Xin,2014)。例如, 我们要针对高中入学考试的数学测验实施量尺保持, 以考察某地区学生分数的变化趋势, 2010年和2011年的试卷得以链接的前提假设是两年间锚题集的参数值跨年不变, 但若某个锚题被检测出IPD, 说明该题的参数发生了跨年份的变化, 从而违背了参数不变性假设。类似地,针对初中数学测验实施垂直量尺化, 以考察某地区学生初中三年的学业发展情况, 初一和初二测验水平得以链接的前提假设是两个年级间锚题集的参数值跨年级不变, 但若检测出某个锚题有纵向IPD, 说明该题的参数发生了跨年级的变化,我们应该考虑是否继续使用其做锚题。

从定义中可以看到, 虽然DIF和IPD探讨的都是题目由于参数值发生改变而成为极端(异常)题这一统计问题, 但两个主题有下列实质性的区别。(1)就背景而言, DIF探讨的是测验公平问题,而IPD探讨的是测验链接的准确性问题。换句话说, DIF要检测的是某个测验中的题目对不同的考生群体而言是否公平, IPD要检测的则是若干个测验试卷/水平间的锚题集是否能保障链接的准确性。(2)就漂移题目的影响而言, DIF出现意味着目标题目对于不同的考生群体而言考察的是不同的构念, 而IPD出现意味着目标题目对于作答不同测验试卷/水平的考生而言难度不同, 因此不能再被视为同一道题, 但其对于不同的考生群体而言考察的构念是否相同则有待进一步分析。(3)就产生的原因而言, DIF有赖于追溯测验设计、测验内容、测验排版格式、刺激材料等因素(American Educational Research Association [AERA], American Psychological Association [APA], & National Council on Measurement in Education [NCME], 1999), 而IPD则可能是由于课程内容变化、曝光度、题目位置效应等因素引起的。(4)就“改变”所涉对象的容量比较而言, DIF研究涉及的对象——参照组和目标组一般人数悬殊, 通常目标组是少数人群组, 而IPD研究涉及的对象——作答若干测验试卷/水平的考生一般人数相当(Donoghue & Isham,1998)。(5)就“改变”是否传递或累积而言, 虽然可能存在多群体间DIF, 但题目参数值的改变是不能在群体间传递或累积的, 而IPD很倾向于在多个测试场合或测验水平间加以传递和累积。因此,即便两个测验试卷/水平间的IPD对链接的影响可以忽略, 当被链接的测验试卷/水平数目较多时,IPD效应可能会膨胀, 从而对链接造成实质性后果。(6)就处理策略而言, IPD效应除了修改题目内容和移除极端题目这两种和DIF相同的处理方式之外, 还可以通过修正链接方法等策略来加以消除, DIF效应则不能通过修订参数估计方法之类的方式来处理。(7)虽然DIF和IPD都可以通过移除极端题目的方式来解决, 二者在移除的考虑因素、移除的方式及相应后果上却存在差异。DIF的主要考虑是总测验的内容覆盖面和统计分布是否会受到明显影响, IPD考虑的则是锚测验对总测验的代表性是否会受到明显影响。对于极端题目, DIF将其从总测验中直接删除, 从而可能导致最终的参数估计所使用的总测验题目数减少; 而IPD则仅将极端锚题从锚题集中移除, 它仍然是总测验中的一个题目。

综上可见IPD和DIF是不同的两个问题, 不过很多研究者对此认识不足。而且, 当前链接研究的热点是探索链接方法, 但较少有人考虑会影响链接结果的方法外因素, 从而忽视了方法得以发挥作用的前提是使用非等组锚测验(NEAT)设计进行测验链接时, 锚题参数不变性假设满足。这些都导致了IPD研究相比其他领域而言较少的现状, 但很显然, IPD的研究价值不可忽视。

3 题目参数漂移的相关研究

当前的IPD研究(本节除特殊说明外都是横向IPD)虽然绝对数量不多, 但基本覆盖了IPD的各个方面, 即分析正式测试项目中是否存在IPD,探索发生IPD的原因, 寻求检测IPD的方法, 考察IPD对链接结果的效应, 以及探究极端锚题的处理策略。本节将分别对这几个方面的相关研究进行回顾。

3.1 探测是否存在IPD

由于要探测实际测试项目中是否存在IPD,这类研究都采用实证数据进行。一些研究探测到了IPD。比如Bock, Muraki和Pfeiffenberger (1988)用一个“时间相依” (time-dependent) IRT模型来拟合实测数据并做了双因素方差分析, 发现基于物理成就测验的分析结果显示出明显的IPD, 而基于英语成就测验的分析结果并未得到相同结果。聚焦于物理测验后, 他们发现(1)如果相关主题上的课程重点发生变化, 在全国施测的教育测验中,漂移会在若干年中出现; (2)题目位置导致的漂移在较大总体中相对稳定, 且可以表示为时间的线性函数。Sykes和Ito (1993)针对两个相关的健康护理专业研究了执照考试, 用一系列协方差模型来拟合数据, 以探索题库难度值改变的量以及任何(变化和记录表明)影响到题目参数稳定性的变量之间的关系。针对两个考试项目都发现难度值未受到题目位置在不同试卷中的变化的影响, 不过它似乎作为时间的函数系统变化——具体说来,在一个考试中发现了题目参数或量尺漂移, 在另一个考试中则发现了题库漂移, 即整个题库的难度参数都发生了系统性改变。

相反, 一些研究显示IPD可以忽略。Giordano,Subhiyah和Hess (2005)针对一项以带回家作答的方式施测的考试, 考察了题目曝光度是否会影响考试的难度和考生的后续表现。为了评测题目曝光度, 他们在考试中重复使用了60个题目。他们使用Winsteps (Lincare, 2003)中的DIF程序实施了IPD分析, 比较了重复使用的题目和未重复题目的平均难度。结果显示重复题目中只有12个有显著的DIF, 这些题中有6个在重复施测的过程中变容易了。这些数据揭示了应试者没有因题目过度曝光而更有优势。也就是说, 在该研究中的语境下, 重复使用题目不会导致广泛的异常行为。Wollack, Sung和Kang (2005)对一个德国分班测验连续六年的年度测验试卷进行了等值, 检测了IPD。他们使用了10个不同的等值—审查模型,发现这个测验中几乎所有题目的两年间漂移和多年累积漂移都非常小。

3.2 探索发生IPD的原因

在等值的语境中, 研究者发现有很多题目水平上的因素都可能会导致IPD。部分研究发现, 漂移的一个原因可能是课程内容变化。如Mislevy(1982, 引自Wells, Subkoviak, & Serlin, 2002)考察了测量公制转换(metric system conversion)的四年级科学题目。发现随着国家逐渐推进公制度量衡(metrification), 教师在公制上花的时间越来越多,在美制上花的时间越来越少。于是, 要求公制的科学题目可能会变得越来越容易, 而要求美制技能的题目可能容易变得更难。这里的课程内容变化也反映出了教学效应。与之类似, Bock等(1988)也将物理成就测验和英语成就测验上出现的IPD的差异归结为在10年的时间里, 物理课程可能比英语课程发生了更大的变化。Chan, Drasgow和Sawin (1999, 引自Wells et al., 2002) 研究了军队职业倾向测验16年来的IPD, 发现比起更依赖于一般技能的测验, 负载着更多的语义/知识的测验往往有更高比例的漂移。

题目位置效应也是引起IPD的一个重要原因,而它在各种实践语境中都是最易观测和量化的。该效应在等值领域的涵义是, 锚题在所有测验试卷中必须放在相同的位置, 否则题目的难度将不相同, 而且将会出现系统的等值误差(Wu, 2010)。若干研究者发现锚题位置改变会影响等值时题目参数的估计和最终的链接结果。Meyers, Miller和Way (2006)发现从预测验到正式测验, 如果10个以上(或10个左右)题目的位置都发生了变化, 那么IPD可能就会出现。他们强调这是IPD的一个非常普遍的诱因。Meyers, Miller和Way (2009)结合实证和模拟数据, 将整个测验试卷都作为锚题来推导等值常数, 进一步表明一个题目的位置变化就会显著影响题目难度的变化。Meyers,Murphy, Goodman和Turhan (2012)扩展了Meyers等(2009)的研究, 探索在采用其他IRT模型、其他等值程序和不同题目重用规则(指第一次使用以来的时间和先前使用次数)的实际测试项目中, 题目位置变化的影响。研究结果和Meyers等(2009)的发现一致: 题目难度和区分度参数, 以及预测验和实际测验等值结果都受到锚题位置变化的负面影响。模拟结果进一步表明锚题位置变化会导致导出量尺分数和其等值前值在各个原始分数点上都会有更大的差异, 进而使得考生分界分数有很大一部分产生漂移。而且, 若参数变化增大, 等值时需要做出更大的调整。另外, 相对于不同题目重用规则, 题目位置变化对量尺分数及其他几个重要考察因素的影响大得多。

Veerkamp和Glas (2000)指出, 在计算机化自适应测试 (computerized adaptive testing, CAT)中,部分题目的提前曝光可能会使它们被较多考生提前知道, 从而产生参数值的漂移。他们进一步推导出了漂移的量: 如果比例为ci的考生提前知道了题目i, 使用单参数logistic (1PL)曲线来描述题目作答时, 题目难度参数似乎下降了将近2ci个单位; 使用三参数logistic (3PL)模型时, 猜测度参数变为(γi表示原始猜测度), 难度和区分度参数不变。

Donoghue和Isham (1998)指出, 对建构式反应题(constructed response item)的评分者所做的培训前后不一致也可能导致IPD。还有其他一些可能导致IPD的原因, 如估计误差、非代表性锚测验、锚题过度曝光、样本量变化, 以及其他在IRT应用中没有正式认识到或做出控制的IPD来源(如Stocking & Lord, 1983)。

除过上述在国家内等值项目中发现的IPD,研究者在国际评测中也发现诸多因素可能会导致IPD发生。比如Monseur和Berezner (2006)研究表明, 不同国家对课程和教学的强调有所不同, 测验参加行为不同, 或者出于本国施测需要而导致的题目措辞或题目位置跨国家不同等等, 这些因素均会导致锚题跨国家和施测场合呈现不同的性能。

3.3 检测IPD的方法

Donoghue和Isham (1998)指出, IPD研究的问题在形式上和DIF是相同的: 某题目在两套数据中所起的作用相同吗? 因此, DIF程序可能可以用来分析IPD。既有IPD检测研究在采用DIF检测程序来分析IPD的同时, 也针对IPD提出了一些方法。

Donoghue和Isham (1998)将早期检测漂移的方法系统总结为三类。第一类是基于比较IRT题目参数估计值的测度 (measure), 称为基于IRT的方法。该类别包括5种测度, (1) Lord (1980) χ2统计量; (2) Raju (1988)两题目作答函数(item response function, IRF)间有符号面积测度; (3) Raju (1988)两IRF间无符号面积测度; (4) Kim & Cohen (1991)有符号闭合区间测度; 以及(5) Kim & Cohen (1991)无符号闭合区间测度。在这五种方法中, (2)和(3)通过计算两个IRF的曲线间面积来检测IPD是否存在, 其中方法(2)只考察题目参数是否发生了跨场合变化, 方法(3)则进一步分析参数是变难了还是变容易了; (4)和(5)通过比较-4至4的积分区间内的题目参数来检测IPD是否存在, 两方法的区别同方法(2)和(3)的区别。第二类测量是Mantel-Haenszel(MH) χ2统计量(Holland & Thayer, 1988, 引自Donoghue & Isham, 1998)。MH统计量针对各个题目都计算两种方法。方法一(MH1)根据观测总分进行匹配。方法二(MH2)从NAEP BILOG/PARSCALE“伪-计数”中计算MH统计量, 从而试图尽量匹配能力 θ, 而不是常用的在理论上有劣势的观测总分。MH1是计算MH统计量的常用方法。第三类是NAEP BILOG/PARSCALE题目水平的χ2统计量。该测度的基础是一个单独评测中的数据和联合标定中合成数据的IRF之间的离散度的拟合,主旨是考察从各分别标定中得到的 χ2, 以及从联合运行中得到的“各子群体的χ2”。

基于以上分类, Donoghue和Isham (1998)使用蒙特卡洛方法比较了几种IPD测度。结果发现总体说来, Lord χ2测度在识别IPD方面是最有效的。不过, 该测度只有在限定所研究题目的猜测度跨标定相等时才准确。要使其他的方法很好地发挥功能, 我们需要对测验统计量的临界值进行经验性估计。在应用中, 合理的方法是设计出一个和特定的测试情境密切匹配的模拟研究, 这样诸如题目参数、题目数, 及考生数等因素就可以和目标数据集密切匹配。

Veerkamp和Glas (2000)针对IPD的特征, 推荐使用累加和(cumulative sum, CUSUM)图表来检验参数漂移。CUSUM图表是统计质量控制中使用的工具, 它利用了在一个连续性的统计检验中,无变化的虚无假设从来不会被接受这一特点。他们指出, 对于自适应测试题库中的质量控制, 该方法能以标定得到的难度参数估计值的累积偏差为基础。它意味着一个单尾检验, 适用于题目变得越来越简单, 并逐渐失去区分度的漂移情形,对相反方向的参数漂移则没有检验力。

DeMars (2004)使用了区分度和难度参数的线性对比, 比较了三种IPD检测方法: BILOG-MG(Zimowski, Muraki, Mislevy, & Bock, 2002)中估计题目难度的线性趋势的方法、Veerkamp和Glas(2000)的CUSUM程序, 及Kim, Cohen和Park(1995)用于检测多群体DIF的C2检验的修订版。研究分别模拟了在3、4和5个时间点上收集的数据, 而参数漂移模式包括三种: 逐年的线性模式、线性更强但仍然单调的模式, 及在第三个时间点上发生突然漂移。结果发现BILOG-MG和Kim等程序的修订版比CUSUM的检验力更强, 几乎总能检测到漂移。另外, 这三个程序都在称名alpha附近有无漂移题目的误报率。

3.4 考察IPD对链接结果的效应

关于IPD对链接结果有何影响, 学界的研究结果尚存在分歧。大部分研究支持IPD效应的存在, 有的则发现IPD没有明显效应。在支持IPD效应的研究中, 关于“反方向的等量IPD链接效应能否互相抵消”, 研究目前又得到了两种不同的发现。因此我们分别介绍探索IPD效应是否存在的研究和探讨“反方向的等量IPD链接效应能否互相抵消”的研究。

3.4.1 探索是否有明显的IPD效应

Kolen和Brennan (2004)将IPD列为可以影响等值的构念无关因素之一。有一系列研究都支持了这一点。Michaelides (2006)基于四个有1到3个题目被标记为“异常”的实际测验, 考察了等值中极端锚题对将考生分成两类的分类的效应。结果显示, 如果第二年的考生表现高于第一年的考试, 那么在锚测验中包含这些题目将会导致有更多的学生被分为有能力组。Miller和Fitzpatrick(2009)表明IPD会导致期望等值误差增大。具体说来, 他们使用3PL模型, 用统计学方法推导了由于未正确处理IPD而导致的期望等值误差模型。模型表明, 期望等值误差主要归因于题目难度参数漂移的量和发生IPD的题目的比例。Babcock和Albano (2012)研究了IPD对多年量尺保持的影响, 表明在相对没什么IPD, 潜特质有小到中等的周期性改变的条件下, Rasch量尺可能可以在15年内保持稳定。较大的IPD则会严重影响题目参数返真度和分类准确度, 降低量尺的寿命。O’Neil (2010)考察了IPD对垂直量尺的量尺保持的潜在影响。他从实际数据中创建了一个垂直量尺并模拟了第二次施测。研究结果显示, IPD对垂直量尺保持有影响, 其效应和漂移的锚题的比例、IPD的量, 以及IPD的方向有直接的关联。在所有IPD条件下, 分类误差都超过了预期由测量误差所引起的量。Huang和Shyu (2003, 引自Miller & Fitzpatrick, 2009)深化了IPD效应研究,发现IPD效应和到底是哪个参数漂移有关。具体说来, 他们使用3PL模型研究了IPD如果被忽视的话, 就平均量尺分数和通过率而言等值是否受到影响。结果发现尽管区分度漂移对这两个指标都有统计上显著的效应, 但它对它们没有实践上的显著效应(或者都没有有意义的变化); 但难度参数漂移、样本规模和发生漂移的锚题的比例则对这两个指标都有(统计和)实践上的显著效应。Ye和Xin (2014)探讨了在Rasch模型下, 纵向IPD对带Stocking & Lord (SL)转换的分别标定的效应。结果表明更大的纵向IPD量会导致平均能力、跨年级增长和年级间效应值的估计产生更差的返真结果, 且当两个题目各自产生0.5 logit的漂移时, 这三个参数的估计值都将产生显著的偏差。而IPD对参数标定结果的影响模式和产生IPD的测验对有着密切的关联, 该关联反映了垂直量尺化的固有特性。

和以上得出IPD对链接结果有明显效应的研究不同, 发现IPD没什么影响的研究较少。Stahl,Bergstrom和Shneyderman (2002, 引自Miller &Fitzpatrick, 2009)及Wells, Subkoviak和Serlin(2002)分别在Rasch模型和双参数logistic (2PL)模型下, 操纵了不同的条件, 结果都发现IPD对能力估计影响不大。尽管如此, Wells等就IPD效应还是给出了更多的细节。他们发现样本量和漂移题目的百分比对漂移和能力估计之间的关系有影响, 而且IPD对能力估计的影响取决于漂移的类型。对于区分度漂移和难度、区分度同时漂移,影响的程度取决于考生在能力分布上所处的位置;而对于难度漂移, IPD对不同能力位置上的考生的影响是一致的。Rupp和Zumbo (2003a, 2003b,引自Wells et al., 2002)针对1PL、2PL和3PL的模型, 考察了题目的难度参数值漂移前后, 考生正确作答该题目的概率的差异。由跨所有题目的漂移造成的每个题目在概率上的差异对测验的累积效应可以转换为对考生能力参数的整体效应。结果发现考生能力估计没什么变化, 除非IPD很大。不过, 这些未支持IPD效应的研究也并非认为IPD可以忽略。正如Wells等(2002)所言, 能力估计受IPD的影响较小并不意味着漂移对测量没有威胁。

3.4.2 关于“反方向的等量IPD链接效应是否能互相抵消”的研究

关于“反方向的等量IPD链接效应是否能互相抵消”, 既有的大多研究者都持肯定态度。Meyers等(2006)在操作层面上发现, 对于由题目位置变化导致的参数变化, 在测验施测时对题目的位置进行仔细安排会使得不同个体题目的IPD在等值的过程中抵消掉。Vukmirovic, Hu和Turner(2003, 引自Hu, Rogers, & Vukmirovic, 2008)也通过模拟研究发现相较于极端值都出现在相关拟合直线的一侧, 如果极端值随机分布于直线两侧,包含极端值和移除它对等值结果来说是没什么差异的。Babcock和Albano (2012)进一步模拟发现如果在两个方向上有相等的IPD, Rasch量尺上的题目和考生参数的返真度也可以保持得较好。这些都和Miller和Fitzpatrick (2009)认为在锚题的个体题目中显示出的IPD可能会有效地互相抵消这一观点一致。

不过这种可抵消的观念受到了Han, Wells和Sireci (2012)的挑战。他们操纵了变量“多方向IPD模式”: 向内IPD、向外IPD、均匀IPD, 以及局部IPD, 探索了不同方向的IPD模式对等值程序和重新量尺化的能力估计值的影响。其中向内IPD指IPD题目向平均题目难度处漂移, 此时的预期变化是锚测验均值不变, 标准差(SD)减小; 向外IPD指IPD题目朝远离平均题目难度的方向漂移,此时的预期变化是锚测验均值不变, SD增加; 均匀IPD指一半IPD题目向平均题目难度处漂移,另一半IPD题目朝远离平均题目难度的方向漂移,此时的预期变化是锚测验均值不变, SD适度变化;局部IPD和均匀IPD类似, 只不过只有难度值高于平均难度的题目发生了漂移, 此时的预期变化是均值不变, SD变化最小。研究发现, 在向外IPD及均匀IPD模式和一定的量尺化方法联合使用时,我们不能通过平衡IPD的方向和量来有效抵消多方向IPD对测验等值的影响, 而且IPD的效应可以是比较大的。在另外一些IPD模式下, IPD的效应则通过平衡IPD几乎被抵消掉了。基于此结果,他们建议实践者不要盲目地假设多方向IPD的效应可以通过平衡IPD题目加以抵消。相反, 如果IPD模式是很可能会引起量尺化/等值过程严重扭曲的模式时, 我们应仔细考察。另外, 该研究也发现链接方法的选择对结果有直接影响, 不论IPD模式如何, 均值-均值(MM)方法都对多方向IPD很稳健, 而均值-标准差(MS)方法受IPD的影响最不易通过平衡IPD消除掉。

3.5 探究极端锚题的处理策略

目前的策略主要有移除产生IPD的题目和修正链接方法两类。针对题目位置效应导致的极端值还有一些专门的处理研究。因此我们将题目位置效应的处理策略单列一节。

3.5.1 移除策略

诚如Miller和Fitzpatrick (2009)所言, 做等值时, 最简单而直接的极端锚题处理策略是删除或者说移除。垂直量尺化中通常也是在做量尺化之前根据锚题的两套参数绘制出一条直线, 将远离这条线的题目从锚测验中删掉(Kolen & Brennan,2004)。就移除IPD题目的必要性, 研究者从理论角度和统计角度都进行了论证。

从理论角度而言, 既有研究倾向于认可如果一个题目被(通过统计或数字标准)标记为IPD题目, 我们需要根据参数改变的原因采取相应的处理方案。如果IPD是由构念无关因素造成的, 那么不将该题目从锚测验中移除预期将会导致等值误差。尤其是对于资格认证考试, 谨慎处理, 将IPD锚题移除, 产生更为保守的分类, 即让过低分类多于过高分类可能是可取的 (Sukin & Keller,2008)。相反, 如果IPD是和所测构念相关的, 移除它既没有正当理由, 也不是推荐做法。而且, 如果关心锚测验的内容代表性, 那么也应该在等值中保留异常锚题 (Cook & Eignor, 1991; Miller &Fitzpatrick, 2009; Sukin & Keller, 2008)。

从统计的角度而言, 多数研究表明应该移除IPD题目。Vukmirovic等(2003, 引自Hu et al., 2008)发现当使用固定共同题参数(fixed common item parameter, FCIP)的标定时, 如果题目难度值不一致, 固定随机极端值和不固定随机极端值将导致不同的等值结果。Michaelides (2010)以大规模评测项目中的混合题型实测数据, 探索将极端值从锚题库中保留或删除对等值的合成分数的效应。结果也显示在等值中缺乏自动程序的情况下, 基于判断将一到三个异常锚题包括进来或剔除, 这可能对等值的合成分数产生不可忽略的效应。不过, Sukin和Keller (2008)则研究发现没多少必要移除。他们使用模拟数据, 探索了移除一个极端锚题对学生表现分类的效应, 结果显示尽管考生的分类过高和分类过低受影响, 考生的正确分类率不受移除或保留极端锚题的影响, 而且研究所用的四种IRT分别量尺化方法之间没有差异。

3.5.2 修正链接方法策略

既然IPD题目不一定要移除, 探索其他极端锚题处理途径就成为一种必要。其中一种涉猎的较多的途径是修正链接方法, 使其对极端锚题更为稳健。研究者已经开发出了一系列程序来修正积矩(包括MM和MS)转换方法。如, Cook, Eignor和Hutton (1979)对积矩计算中所用的锚题难度做了范围限制。Bejar和Wingersky (1981)建议给极端值赋更小的权重。Linn, Levine, Hastings和Wardrop (1980)使用了加权的题目难度, 其中权重是题目的误方差的倒数。Stocking和Lord (1983)提出了一个迭代程序, 同时利用了Linn等 (1980)和Bejar与Wingersky (1981)的方法。Cohen和Kim(1998)则扩展了Linn等的方法, 计算多级评分的题目的等值系数。

Hu, Rogers和Vukmirovic (2008)实施了一项较为全面的研究, 探讨了不同数据收集设计下,以上的修正等值方法的程序可以在多大程度上改善等值结果。具体说来, 他们考察的修正后的量尺转换方法包括移除极端值的同时标定、移除极端值的Haebara转换、移除极端值的MS转换、极端值加权的MS转换、不固定极端值的FCIP标定、移除极端值的FCIP标定。结果发现有极端值时, 在等组条件下, 除了极端值加权的MS转换,考虑了极端值的方法所产生的系统误差倾向于比没考虑极端值的方法更小。而在非等组条件下,并非所有考虑了极端值的方法所产生的系统误差都倾向于比没考虑极端值的方法更小。对于同时和FCIP标定, 排除极端值并没有减小预期的系统误差。对于MS和Haebara转换, 排除极端值会产生较小的系统误差, 而包含它则会导致中等或较大的系统误差。

3.5.3 题目位置效应处理策略

Meyers等(2009)对由题目位置效应导致的IPD的处理策略进行了总结:

为了缓解潜在的位置效应, 有两种程序是等值中普遍使用的。第一, 和基于最初估计建立预等值转换相反, 基于正式数据重新估计题目参数,然后将其链接回之前的估计。第二, 如果一个题目的前后两次估计的差异大于一定的阈值, 人们通常使用一个筛选程序来从锚测验中清除题目(Miller, Rotou, & Twing, 2004, 引自Meyers et al.,2009)。在阈值应该是什么上, 测量学家之间没有达成一致。理论上来讲, 这个阈值应该和样本量相关。不过, Wright和Douglas (1975, 引自Meyers et al., 2009)在Rasch模型下注意到, 题目难度中小于0.3个logit值的随机不确定性对个人测量没有实践影响。因此, 很多基于Rasch的评测程序使用0.3作为阈值。

不过, Miller, Rotou和Twing (2004, 引自Meyers et al., 2009)的研究结果显示, 如果考生数很小(如500或更少), 或者相反, 如果考生数很大(如5000或更多), 这一做法会导致将题目从锚测验中删除的概率膨胀。他们以代数方式推导出了一个渐进实验对误差率准则(asymptotic experimentwise error rate criterion)作为清除参数前后不一致的锚题的标准(鉴于未能看到全文, 此处无法展开介绍)。

4 总结与展望

由于纵向IPD是新近提出并进行概念化的主题, 目前只有一项公开发表的研究, 因此第3部分中除特别说明外, 所有的研究都是关于横向IPD的。整体来讲, 横向IPD的研究目前已经形成了系统框架, 研究本身也趋于成熟。具体说来,若干研究基于给定标准探测了在实际的测试项目中是否存在IPD; 研究发现有很多因素都可以导致IPD的发生; 针对IPD的探测, 研究者或者采用DIF探测的方法, 或者提出了新的方法, 并对这些方法的性能做了若干探索; 就IPD对链接结果的影响, 研究大多发现其对参数估计和链接准确性会产生不利的后果; 就如何处理IPD题目也提出了若干策略。其中IPD的检测、效应和处理策略是研究重点。

关于IPD检测, Donoghue和Isham (1998)虽然指出可以使用DIF检测方法来检测IPD,他们也认识到实施具体分析时二者所面临的问题经常是不同的。比如前文关于DIF和IPD区别的(3)和(4)。因此, 他们认为评价一个具体的DIF/IPD研究的实用性时, 语境是很重要的。按照这一思想, 在将DIF探测方法应用于IPD分析时, 我们需要考察具体分析中的语境适用性, 尤其需要分析应用DIF探测方法时是否需要根据IPD不同于DIF的特征对方法做出调整, 比如探讨临界值的设定是否需要做出修正等。其次, IPD效应可传递和累积的倾向性是其有别于DIF的一个重要特点, 因此即便应用既有的DIF检测方法时我们也有必要考察该倾向性是否会导致具体方法的使用有别于DIF。另外, DIF和IPD具有如前所述的诸多区别,因此两个问题的检测可能并不适合采用同一种方法, 如果确实如此, 针对IPD的特点提出特别的探测方法将是未来的一个重点研究方向。

关于IPD的效应, 一个很重要的问题就是多大的IPD会对链接结果产生实质性影响。不过既有的横向IPD研究似乎并未就此问题达成共识,而Rasch模型下0.3个logit单位的临界值是基于实际参数估计的结果得到的。因此展开一系列研究, 讨论在有实质性不同的测试情境下多少IPD会对链接结果产生显著影响, 这可能是比较有意义的。和这个问题相关的是, 目前关于IPD的不同研究设置的IPD的量不甚相同, 考察的链接方法也不尽相同, 这就使结果的可比性都在不同程度上受限。可见, 实施一项综合性更强的研究似乎是比较有价值的。

关于IPD的处理策略, 从统计的角度看, 横向IPD上的研究对是否要移除尚未达成一致。除过移除方法外, 人们提出了较多修正链接方法的策略, 不过针对的都是积矩方法。针对特征曲线方法应该如何修正链接程序, 这是一个非常值得进一步研究的问题。在人们普遍支持使用特征曲线法做链接的背景下, 该问题就尤为重要。而比较移除和修正这两种策略来看, 修正的策略似乎更可取, 因为它消除了IPD的影响, 也避免了移除漂移题目所带来的锚测验代表性缺乏等潜在不利后果。因此, 发展修正的链接方法是未来的潜在探索领域。

垂直量尺化是一种非常重要的发展性教育测量工具。在垂直量尺化中, 由于锚题所涉及的测验水平难度不同, 使用NEAT设计的测试项目很容易面临极端锚题带来的语境效应(Kolen &Brennan, 2004)。而纵向IPD的相关问题又不能照搬横向IPD的研究结果, 因此它是一个需要深入探索的研究主题。首先, 锚题是从一个测验水平中选择出来, 又被施测给相邻的其他年级, 这样它在内容上不一定能完全适合该相邻年级, 或者说内容完全匹配是个强假设。其次, 如前所述, 关于锚题在构建垂直量尺时应该如何排放, 目前缺乏研究支持, 不过当前所建议的各种排放方式似乎都面临题目位置效应问题。而且更为重要的是,关于参数不变性的有些问题在垂直量尺化中可能是具有领域特殊性的。比如, 在垂直量尺化领域中, 哪些原因会导致锚题成为异常锚题? 以不同方式构建垂直量尺时, 锚题参数发生不同模式的漂移会对量尺化结果产生什么样的影响? 至少这些问题都需要进行专门的纵向IPD研究方能解答。

尽管横向IPD和纵向IPD领域的研究现状不同, 我们还是能就处理参数不变性假设在测验链接中的潜在威胁给出一个一般性实践建议。做测验链接前首先实施IPD检测, 如果测出IPD, 要么修正链接方法, 要么从导致IPD的原因及漂移题目和锚测验、整卷的内容与统计关系等各方面考虑是否要移除极端锚题。

另外, 有一项较有启发意义的研究, 即Veerkamp和Glas (2000)的研究。首先, 和一般研究关注难度和区分度的漂移不同, 该研究发现当题目提前被考生知道时猜测度参数发生了变化。那么在量尺保持中, 随着时间的推移, 猜测度参数是否会发生变化? 如果是, 考生的题目作答概率乃至能力估计可能都会发生一定的变化。可见,猜测度参数跨时间的变化是一个值得探究的方向。其次, 该研究揭示出, 我们可以将IPD研究扩展至CAT领域中, 讨论CAT测试情境中的特殊问题所导致的IPD, 比如题目过度曝光。从实践角度讲, CAT对个体题目参数的质量有着很高的要求,因此IPD的潜在影响可能不可忽视。从技术的角度讲, IPD的各个相关问题在CAT中和在链接领域中都不甚一样。因此, 将CAT中的既有研究问题和IPD结合起来, 可能会推进两个领域的研究进展, 对CAT的实践起到促进作用。

American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (1999).Standards for educational and psycholog ical tes ting. Washington, DC:American Educational Research Association.

Babcock, B., & Albano, A. D. (2012). Rasch scale stability in the presence of item parameter and trait drift.Applied Psychological Measurement, 36(7), 565-580.

Bejar, I., & Wingersky, M. S. (1981).An application of item response theory to equating the Test of Standard Written English(College Board Report No. 81-8). Princeton, NJ:Educational Testing Service (ETS No. 81-35).

Bock, R., Muraki, E., & Pfeiffenberger, W. (1988). Item pool maintenance in the presence of item parameter drift.Journal of Educational Measurement, 25, 275-285.

Cohen, A. S., & Kim, S. H. (1998). An investigation of linking methods under the graded response model.Applied Psychological Measurement, 22(2), 116-130.

Cook, L. L., & Eignor, D. R. (1991). IRT equating methods.Educational M easurement:Issues and P ractice, 10,37-45.

Cook, L. L., Eignor, D. R., & Hutton, L. R. (1979).Considerations in the application of latent trait theory to objective-based criterion-referenced tests. Paper presented at the annual meeting of the American Educational Research Association, San Francisco.

DeMars, C. E. (2004). Detection of item parameter drift over multiple test administrations.A pplied Measurement in Education, 17(3), 265-300.

Donoghue, J. R., & Isham, S. P. (1998). A comparison of procedures to detect item parameter drift.Applied Psychological Measurement, 22(1), 33-51.

Giordano, C., Subhiyah, R. & Hess, B. (2005).An analysis of item exposure and ite m parameter drift on a take-home recertification e xam. Paper presented at the annual meeting of the American Educational Research Association,Montreal, Quebec, Canada.

Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991).Fundamentals of item response theory. Newbury Park, CA:Sage.

Han, K. T., Wells, C. S., & Sireci, S. G. (2012). The impact of multidirectional item parameter drift on IRT scaling coefficients and proficiency estimates.Applied Measurement in Education, 25(2), 97-117.

Holland, P. W., & Wainer, H. (1993).Differential ite m functioning. Hillsdale, NJ: Lawrence Erlbaum Associates.

Hu, H., Rogers, W. T., & Vukmirovic, Z. (2008). Investigation of IRT-based equating methods in the presence of outlier common items.Applied P sychological M easurement,32(4), 311-333.

Kim, S. H., & Cohen, A. S. (1991). A comparison of two area measures for detecting differential item functioning.Applied Psychological Measurement,15, 269-278.

Kim, S. H., Cohen, A. S., & Park, T. H. (1995). Detection of differential item functioning in multiple groups.Journal of Educational Measurement, 32, 261-276.

Kolen, M. J., & Brennan, R. L. (2004).Test equating, scaling,and linking:Methods and practices(2nd ed.). New York:Springer-Verlag.

Lincare, J. M. (2003). WINSTEPS [Computer software].Chicago: MESA Press.

Linn, R. L., Levine, M. V., Hastings, C. N., & Wardrop, J. L.(1980).An investigation of item bias in a test of reading comprehension(Tech. Rep. No. 163). Urbana: Center for the Study of Reading, University of Illinois.

Lord, F. M. (1980).Applications of i tem response theory to practical testing problems. Hillsdale NJ: Erlbaum.

Meyers, J. L., Miller, G. E., & Way, W. D. (2006).Item position and item difficulty change in an IRT-based common item equa ting design. Paper presented at the annual meeting of the American Educational Research Association,San Francisco.

Meyers, J. L., Miller, G. E., & Way, W. D. (2009). Item position and item difficulty change in an IRT-based common item equating design.Applied M easurement in Education, 22(1), 38-60.

Meyers, J. L., Murphy, S., Goodman, J., & Turhan, A. (2012).The i mpact of item pos ition change on ite m param eters and common item equating results under the 3PL model.Paper presented at the annual meetings of the National Council on Measurement in Education, Vancouver, B. C.

Michaelides, M. P. (2006).Effects of misbehaving common items on aggregate score s and an applicat ion o f the Mantel-Haenszel sta tistic in tes t equating(CSE Report 688). Los Angeles, CA: Center for the Study of Evaluation,University of California.

Michaelides, M. P. (2010). Sensitivity of equated aggregate scores to the treatment of misbehaving common items.Applied Psychological Measurement, 34(5), 365-369.

Miller, G. E., & Fitzpatrick, S. J. (2009). Expected equating error resulting from incorrect handling of item parameter drift among the common items.Educational and Psychological Measurement, 69(3), 357-368.

Monseur, C., & Berezner, A. (2006).The co mputation of linking error.Paper presented at the AERA annual convention’s symposium on measuring trends in international comparative research: Results from the first two cycles of the OECD/PISA study, San Francisco, CA.

O’Neil, T. P. (2010).Maintenance of vertical scales unde r conditions of item parameter drift and Rasch model-data misfit(Unpublished doctorial dissertation). University of Massachusetts-Amherst.

Rupp, A. A., & Zumbo, B. D. (2006). Understanding parameter invariance in unidimensional IRT models.Educational and Psychological Measurement, 66(1), 63-84.

Raju, N. S. (1988). The area between two item characteristic curves.Psychometrika,53, 495-502.

Stocking, M. L., & Lord, F. M. (1983). Developing a common metric in item response theory.Applied Psychological Measurement, 7, 201-210.

Sukin, T. & Keller, L. (2008).The effect of deleting anchor on the classification of examinees. Paper presentation at the Annual Meeting of the American Educational Research Association, New York, NY.

Sykes, R., & Ito, K. (1993, April).Item parameter drift in IRT-based licensure examinations. Paper presented at the annual meeting of the National Council on Measurement in Education, Atlanta, GA.

Veerkamp, W. J. J., & Glas, C. A. W. (2000). Detection of known items in adaptive testing with a statistical quality control method.Journal of Educational and Behavioral Statistics, 25(4), 373-389.

Wells, C. S., Subkoviak, M. J., & Serlin, R. C. (2002). The effect of item parameter drift on examinee ability estimates.Applied Psychological Measurement, 26(1), 77-87.

Wollack, J. A., Sung, H. J., & Kang, T. (2005).Longitudinal effects of i tem para meter dri ft. Paper presented at the annual meeting of the National Council on Measurement in Education. Montreal, Canada.

Wu, M. L. (2010). Measurement, sampling, and equating errors in large-scale assessments.Educational Measurement:Issues and Practice, 29(4), 15-27.

Ye, M., & Xin, T. (2014). Effects of item parameter drift on vertical scaling with the Nonequivalent Groups with Anchor Test (NEAT) design.Educational and Psychological Measurement, 74(2), 227-235.

Zimowski, M. F., Muraki, E., Mislevy, R. J., & Bock, R. D.(2002). BILOG-MG [Computer software]. Chicago, IL:Scientific Software International.

猜你喜欢
等值测验效应
铀对大型溞的急性毒性效应
懒马效应
异步电动机等值负载研究
《新年大测验》大揭榜
基于共同题非等组设计的等值结果评价标准研究综述
应变效应及其应用
两个处理t测验与F测验的数学关系
测验等值:新一轮高考改革的技术问题
你知道吗?
电网多区域多端口参数等值方法及其应用