被试作答失误现象及稳健性估计方法的测验模拟分析

2025-01-19 00:00:00简小珠戴步云

考试研究 2025年1期

[摘要] 在测验中被试往往由于各种原因会出现作答失误现象，以往研究者已提出用睡眠现象、失误现象两个测量概念来描述被试作答失误现象。本文提出测验中失误现象的新测量模型，针对睡眠现象、失误现象的测量模型，分为存在或不存在失误现象（睡眠现象）两类情境分别进行模拟，并使用多种稳健性估计方法进行能力估计。由测验模拟结果可知，四参数Logistic模型稳健性估计方法在多种测验情境下都能够实现稳健性估计，有效纠正失误现象（睡眠现象）造成的能力低估问题。失误现象所描述的对象是全体被试，更能有效代表测验中的被试作答失误现象。

[关键词] 睡眠现象；失误现象；四参数Logistic模型；稳健性估计

[中图分类号] G424.74 [文献标识码] A

[文章编号] 1673—1654（2025）01—046—009

一、问题的提出

（一）测验中，高能力被试存在的作答失误现象——“睡眠现象”

在学习、工作过程中，受到生理或心理特性的限制，以及社会各种因素的影响，人们往往会出现失误，特别是在涉及利害关系的心理测验或教育考试中，由于存在时间紧张、竞争环境、心理动机等情境因素，被试作答时难免会出现一些发挥失常、作答失误现象。以往研究者已提出用睡眠现象、失误现象两个测量概念来描述被试作答失误现象。Wright将测验中存在的高能力被试答错容易试题的现象称为睡眠现象（sleeping phenomenon），睡眠现象所描述的对象仅为高能力被试[1]。Rulison和Loken、简小珠和焦璨、Reise等概述了导致高能力被试测验作答失误的多种可能的原因[2-3]。根据以往研究者的定义，将高能力被试在得分概率大于0.95的相对容易的试题上失分的现象命名为睡眠现象[4-5]。Barton和Lord（1981）在三参数Logistic模型的基础上增加 γ参数，使用四参数Logistic模型（以下简称“四参数模型”）来分析同时存在猜测现象和睡眠现象的测验数据[6]。四参数模型中，1与γ参数之差表示为睡眠现象发生的概率。Mislevy和Bock（1982）论述了睡眠现象的测验模拟模型，即被试发生睡眠现象的正确作答期望概率Pvi=min（0.95，P），其中P为两参数模型下正确作答的期望概率，Pvi为被试在测验中的实际作答概率；同时提出采用稳健性估计方法即Biweight（BIW）方法来纠正睡眠现象导致能力被低估的现象[7]。

（二）测验中所有被试都可能存在的作答失误现象

在实际测验中，不仅存在高能力被试答错容易试题的现象，而且存在中等能力被试或低能力被试在测验试题上意外发生作答错误的小概率事件。Schuster和Yuan论述了任何被试在任何试题都可能存在失误概率，即失误现象（error phenomenon），失误现象所描述的对象是所有被试[8]。因此，这里再定义另外一种测验现象，即所有被试在作答试题时发生错误的小概率现象（如0.01或0.001），称为测验作答失误现象（以下简称“失误现象”）。失误现象有可能发生在任何被试在任何试题的作答过程中，即失误现象的发生不依赖被试与题目。然而，本文认为Schuster和Yuan提出的失误现象的数学测量模型会出现悖论[8]，即（1-γ）P+γQ，其中Q=（1-P）。例如某一被试答对某一试题的期望作答概率（在两参数模型下，不考虑失误概率γ时）为P=0.40，同时令该题的失误概率γ=0.05，那么此被试在该试题上的实际作答概率（考虑失误概率γ）为：P'=（1-0.05）×0.40+0.05×0.60=0.41，此时就会出现P'gt;P，即考虑被试存在失误可能性后的实际作答概率反而大于正常的期望作答概率，这是不符合逻辑的。因此，本文提出考虑测验中存在失误现象时，被试在某一试题上正确作答的实际作答概率的计算公式为：Pvi=（1-p**）·P，其中p**为失误概率，P为两参数模型下正确作答的期望概率，Pvi为被试在测验中的实际作答概率，这即是本文对失误现象提出的新的数学测量模型。

（三）测验中失误现象（睡眠现象）是否存在及是否应用稳健性估计方法的情境分类

如何判定测验中是否存在失误现象（睡眠现象）？目前还仅是根据被试期望作答概率来确定。根据高能力被试的睡眠现象的定义，即如果在测验中某一高能力被试在得分概率大于0.95的相对容易的试题上失分那么此时可以定义测验中存在着睡眠现象。而实际测验中的失误现象则更难以判定，只能根据归为某一能力水平组的被试群体在某一道试题上的理论期望概率大于实际作答概率时的差值。但理论期望概率与实际作答概率之间总会有一定的差值。因此，测验中是否真的存在失误现象或睡眠现象？对此问题的回答，与统计检验的零假设检验一样，在统计上不存在绝对精确的统计分析方法来确定是否存在或不存在失误现象（睡眠现象）。因此，在实际测验情境中是否真的存在失误现象（睡眠现象），可以分为两种情境：一是在测验中失误现象确实不存在，二是失误现象是真实存在的。

与此同时，是否要对测验中的失误现象进行纠正或稳健性估计，人们的观点与做法也可以分为两种：第一种是认为测验中不存在失误现象或失误现象不明显几乎可以忽略，因而不使用能力估计的稳健性估计方法，直接使用2PL或3PL；第二种观点认为测验情境中存在失误现象，需要使用能力估计的稳健性估计方法，包括Biweight方法[7]、Huber方法[8]、四参数模型[2，4]方法，对失误现象进行纠正。因此，测验中的失误现象是否存在及是否使用稳健性估计方法的组合，可以汇总为以下四种可能的情境，如表1。

情境I时，如果实际测验中不存在失误现象（睡眠现象），测量者在统计处理方法上也不使用稳健性估计方法，即直接使用Rasch、1PLM、2PLM等模型。当然，这是理想的测验作答情况。

情境II时，如果失误现象（睡眠现象）不存在，在此情境下使用稳健性估计方法，被试能力估计值将会出现何种情况？这是本文要探析的内容之一。

情境III时，实际测验中存在失误现象（睡眠现象），但仍然直接使用Rasch、1PLM、2PLM模型，不使用稳健性估计方法。在以往的研究中，已发现此情境下失误现象会导致被试能力被低估[2，4，6]。

情境IV时，如果失误现象（睡眠现象）真实存在，根据以往研究的结果，此时需要使用被试能力估计的稳健性估计方法对失误现象进行纠正。本文将探讨、对比多种稳健性估计方法。

以往研究中，Rulison等、简小珠等、Barton和Lord仅仅针对测验中高能力被试存在的睡眠现象使用稳健性估计方法[2，4，6]，Schuster和Yuan论述使用Huber方法对测验中所有被试存在的失误现象进行纠正[8]。从数学公式的构建角度看，Huber方法是Biweight方法的简化公式，因此本研究中不使用Huber方法进行测验模拟研究。本文将探讨被试能力估计的稳健性估计方法用于全部试题、全部被试，在研究一、研究二中分别模拟睡眠现象、失误现象两种测验情境，一是分析睡眠现象、失误现象对被试能力估计的影响，二是在测验中使用四参数模型稳健性估计方法，分别分析四参数模型稳健性估计方法对睡眠现象、失误现象的纠正作用，并比较分析多种稳健性估计方法的优劣。

二、研究一：睡眠现象的模拟分析与稳健性估计

（一）研究设计

设计一个纸笔测验，试题参数b的取值范围为-4.4至4.4，间隔0.2，共45道试题，即b参数属于均匀分布状态；a参数取对数后服从正态分布，范围限定为（0.5，2）。被试群体选择代表性的五个被试能力点：-2，-1，0，1，2。其中，能力点为-2的被试代表低能力被试，能力点为0的被试代表中等能力被试，能力点为2的被试代表高能力被试。

Mislevy amp; Bock（1982）进行睡眠现象模拟的模型为：Pαj=min（（1-p**），P），其中P为两参数模型下的期望概率，Pαj为测验模拟时被试作答的期望概率，p**为高能力被试的作答失误的概率。Mislevy和Bock（1982）在睡眠现象模拟中仅设定睡眠现象的概率水平p**为0.05[8]。本文在模拟设计中，设定p**有三种水平，即0.00、0.03、0.05。

针对测验中的睡眠现象情况，四参数模型的稳健性估计方法可调整为：

[假设被试都没有猜测

如果Pgt;-1p**

其他情况

]

Pαj为被试能力估计时计算迭代的概率，p**为失误现象的发生概率，P为两参数模型下计算的期望概率。同样的，本文根据小概率原理，将失误概率视同为小概率事件，将取经验值P#为0.01至0.05之间。以上四参数模型稳健性估计方法的第一种形式，记为：4PLM-Robust（p**=0.0#）。其中，如果p**=0.00，那么4PLM-Robust（p#=0.00）本质上就是2PLM-MLE。

针对存在睡眠现象的测验模拟结果进行被试能力估计时，本文同时设计了多种被试能力稳健性估计方法，包括2PL-MLE、4PLM-Robust（p**=0.0#）、Biweight（简写为BIW）、4PLM-MLE进行对比分析。根据以上研究设计，采用Visual Basic 编程语言实现对被试作答情况的模拟，并估计被试能力值，计算模拟测验RMSE、Bias指标。当睡眠现象概率为p**=0.00的测验模拟情境下，且使用2PLM-MLE进行能力估计时，可用BILOG软件对模拟测验作答数据进行被试能力估计，所得被试能力估计结果是完全一致的。

[RMSE=k=1M（θk-θ0）2M]，[Bias=k=1M（θk-θ0）M]。

其中，M为模拟次数，θk是被试能力参数在第k次模拟时的估计值，θ0是被试能力参数模拟初始值。RMSE、Bias指标越小，说明此次测验模拟结果越准确。

（二）测验模拟结果与分析

根据前述测验设计进行测验模拟，计算在各个测验情境下的RMSE、Bias指标。由于RMSE指标在各个测验情境下的结果很接近，比较差值很小，因而只报告Bias指标的结果。测验模拟结果整理后，如表2。

当睡眠现象概率为p**=0.00时，被试能力估计方法对应的是情境I、情境II。在情境I，包括能力估计方法2PLM-MLE、4PLM-Robust（p**=0.00）时，五个被试能力水平点上的Bias值都很小，都小于0.02。而在情境II，能力稳健性估计方法有四种：4PLM-Robust（p**=0.03）、4PLM-Robust（p**=0.05）、4PLM- MLE、BIW 。其中4PLM-MLE下Bias比较大，即能力估计值的偏差较大（模拟返真性能相对较差），接下来Bias大小顺序依次是4PLM-Robust（p**=0.05）、4PLM-Robust（p**=0.03）、BIW；而且4PLM-Robust（p**=0.03）、BIW 下的Bias都很小，小于0.03。

当睡眠现象概率为p**=0.05时，被试能力估计方法对应的是情境III、情境IV。在情境III，包括能力估计方法2PLM-MLE、4PLM-Robust（p**=0.00）时，五个被试能力水平点上的Bias均为负值，即当睡眠现象出现时，被试能力估计值被低估了，而且被试能力真值越大，Bias的绝对值也越大，即被试能力被低估幅度越大；在被试真值为2.0时，被试被低估了-0.231。而在情境IV，4PLM-Robust（p**=0.03）、4PLM-Robust（p**=0.05）、4PLM-MLE、BIW 四种方法下的Bias值（或Bias值绝对值）相对很小，都在0.06以内，即与前面的概率为p**=0.00相比，这四种方法都对被试能力低估现象进行了纠正。能力真值为2.0的被试在情境III下的能力偏差Bias为-0.231，而在4PLM-Robust（p**=0.03）、4PLM-Robust（p**=0.05）方法时的Bias值是最小的，Bias（Bias值绝对值）都在0.02以内；与此同时，BIW、4PLM-MLE的Bias（或Bias值绝对值）相对较大一些。

当睡眠现象概率为p**=0.03时，与当睡眠现象概率为p**=0.05时的Bias变化情况差不多，同样也是，能力真值为2.0的被试在4PLM-Robust（p**=0.03）、4PLM-Robust（p**=0.05）方法时的Bias值是最小的，Bias值绝对值都在0.02以内。

（三）小结

在睡眠现象概率为p**=0.03和p**=0.05的测验模拟情境中，4PLM-Robust（p**=0.03）、4PLM-Robust（p**=0.05）方法对被试能力估计的Bias值是最小的，而当测验模拟设计睡眠现象概率为p**=0.00时，4PLM-Robust（p**=0.03）、4PLM-Robust（p**=0.05）方法对被试能力估计的Bias值也很小，不超过0.03，而且在各个被试水平上，Bias值的大小都基本相同。总之，无论测验中的睡眠现象是否会发生，以及睡眠现象发生时的概率大小，4PLM-Robust（p**=0.03）、4PLM-Robust（p**=0.05）方法都能较好地实现对被试能力的稳健性估计。

三、研究二：失误现象的模拟与稳健性估计方法

（一）研究设计

设计一个纸笔测验，模拟测验的试题参数b取值范围从-4.4至4.4，间隔0.2，共45道试题，b参数属于均匀分布状态；a参数取对数后服从正态分布，范围限定为（0.5，2）。被试群体选择代表性的五个被试能力点：-2，-1，0，1，2。

Schuster和Yuan研究提出，不但高能力被试可能存在失误现象，低能力被试、中等能力被试也有可能由于转录（将作答结果从试卷、稿纸上抄写到答题卡或计算机上）、焦虑等原因答错相对容易的试题，从而导致其能力估计值受到较大的影响[8]。由于失误现象可能在所有被试中都广泛存在，在蒙特卡洛模拟模型中，应当在所有被试在所有试题的作答期望概率的基础上减小p**。因此，存在作答失误现象（Carelessness）的被试作答期望概率为：Pαj=（1-p**）·P，其中Pαj为测验模拟时的计算概率，p**为失误现象的发生概率，P为两参数模型下计算的期望概率。p**为0.05（1/20）时，可以直观解释为：每20道试题中大约有1道试题可能存在由于各种原因导致被试答错试题的概率。当然，p**应该为很小的概率，通常情况下应当小于0.05。本研究设定p**有三种水平：0.00，0.03，0.05。

针对失误现象情况，四参数模型的稳健性估计方法为：

[，假设所有被试都没有猜测]

Pαj为被试能力估计迭代时的概率，p**为失误现象的发生概率，P为两参数模型下计算的期望概率。在模拟测验数据、实测数据中往往都很难获得p**的取值，目前尚未有具体研究或算法能估算出失误参数p**的大小。本文根据小概率原理，将失误概率视为小概率事件，取经验值p**为0.01至0.05之间。以上为四参数模型稳健性估计方法的第二种形式，记为：4PLM-Robust（p**=0.00），以上实际上也就是4PLM-MLE方法，只不过lt;d：＼program files＼founder＼founderfx71＼plugins＼v12pluginwordtranslator＼wordimage＼7 被试作答失误现象及稳健性估计方法的测验模拟分析（发出版社）考试技术1-E7＼image31.pdfgt;参数设定为0。

而且，如果4PLM-Robust（p**=0.00）中p**=0.00，且设定lt;d：＼program files＼founder＼founderfx71＼plugins＼v12pluginwordtranslator＼wordimage＼7 被试作答失误现象及稳健性估计方法的测验模拟分析（发出版社）考试技术1-E7＼image31.pdfgt;参数为0，那么4PLM-Robust（p**=0.00）本质上就是2PLM-MLE。同样的，本文还设计了多种被试能力稳健性估计方法，包括2PL-MLE、4PLM-Robust（p**=0.0#）、Biweight（简写为BIW）、4PLM-MLE进行对比分析。根据以上研究设计，采用Visual Basic 编程语言实现对被试作答情况的模拟，并估计被试能力值，计算模拟测验RMSE、Bias指标。在睡眠现象概率为p**=0.00的测验模拟情境下，且使用2PLM-MLE进行能力估计时，可用BILOG软件对模拟测验作答数据进行被试能力估计，所得被试能力估计结果是完全一致的。

（二）结果与分析

根据以上测验设计进行测验模拟，使用能力稳健性估计方法进行能力估计，由模拟结果得表3。

当失误现象概率为p**=0.00，即不存在失误现象时，可以分为情境I、情境II。在情境I，包括能力估计方法2PLM-MLE、4PLM-Robust（p**=0.00）时，五个被试能力水平点上的Bias值都很小，均小于0.02。而在情境II，4PLM-MLE、4PLM-Robust（p**=0.05）、4PLM-Robust（p**=0.03）下各个被试的Bias相对较大，但各个被试的Bias大小很接近，相差均在0.06以内，高能力被试的Bias偏差较大。而此时，BIW 下的Bias很小，小于0.03。

当睡眠现象概率为p**=0.05时，可以分为情境III、情境IV。在情境III，包括能力估计方法2PLM-MLE、4PLM-Robust（p**=0.00）时，五个被试能力水平点上的Bias均为负值，即当睡眠现象出现时，被试能力值被低估了，而且被试能力真值越大，Bias的绝对值也越大，即能力值被低估的幅度越大，在被试真值为2.0时，被试被低估了-0.335左右。而在情境IV，4PLM-Robust（p**=0.05）下Bias值最小，然后依次是4PLM-Robust（p**=0.03）、4PLM-MLE、BIW 下的Bias值（或Bias值绝对值），即与前面情境III在2PLM-MLE、4PLM-Robust（p**=0.00）时的Bias相比，这四种方法都对被试能力低估现象进行了纠正，但4PLM-Robust（p**=0.05）纠正的效果最好。

当失误现象概率为p**=0.03时，与失误现象概率为p**=0.05时的Bias值变化规律相似，不同之处是，在4PLM-Robust（p**=0.03）、4PLM-Robust（p**=0.05）时的Bias值最小。

（三）小结

在失误现象概率为p**=0.03和p**=0.05的模拟测验情境中，采用4PLM-Robust（p**=0.03）、4PLM-Robust（p**=0.05）方法时被试能力估计的Bias值是最小的，而同时当模拟测验设计失误现象概率为p**=0.00时，4PLM-Robust（p**=0.03）、4PLM-Robust（p**=0.05）方法对于被试能力估计的Bias值也很小，不超过0.05，而且在各个被试水平上，Bias值的大小都基本相同。总之，无论测验中的失误现象是否存在或发生，以及失误现象发生时的概率大还是小，4PLM-Robust（p**=0.03）、4PLM-Robust（p**=0.05）方法都能实现较好的对被试能力的稳健性估计。

四、讨论分析

睡眠现象和失误现象所定义的测验作答发生的测验情境不同，使用测验模拟的数学模型也不同，因此，在前文的研究一、研究二中，对应使用四参数模型的稳健性估计方法略有不同。在测验中，睡眠现象、失误现象这两种作答失误情境，哪一种情境更有代表性呢？根据以往研究者的定义，测验中的睡眠现象是失误现象的一种特殊情境，睡眠现象是仅仅针对高能力被试而定义的，失误现象是针对所有被试作答出现失误的小概率现象。因此本文认为，使用失误现象这一概念能够更加全面地描述测验中的作答失误现象；而根据模拟测验结果，使用四参数模型稳健性方法即4PLM-Robust（p**）能更有效地实现被试能力估计的稳健性。

在对比不同的被试能力估计稳健性方法时，4PLM-Robust（p**）与BIW方法相比较，在失误现象概率较大时（p**=0.05）时，BIW方法的稳健性估计效果相对较差，而在p**=0.00或p**=0.03时，4PLM-Robust（p**=0.0*）和BIW的稳健性估计效果差异较小。

以往研究者对四参数模型的研究都是仅仅针对发生了睡眠现象的试题进行纠正，如Barton和Lord（1981）针对出现睡眠现象的试题使用γ参数为0.98，而对于未出现睡眠现象的试题，则直接指定γ参数为1[7]。然而，这种指定某一部分可能存在睡眠现象的试题使用γ＝0.98的四参数模型方式，从理论分析上看有针对性，但在实际应用中缺乏事实依据与灵活性。虽然 Loken和 Rulison的研究中完成了四参数模型下的γ参数的估算[9]，但该研究是根据测验整体被试作答情况可能存在失误概率情况来估算四参数模型的上渐进线参数γ，同时也是根据上渐进线参数γ来估计所有被试能力参数，此时对没有存在失误现象的被试会产生能力估计偏差。本文提出的四参数模型的稳健性模型4PLM-Robust（p**），仅仅是对判断为失误现象的被试作答进行被试能力稳健性估计，即对被试能力低估现象进行纠正。而且，四参数模型的稳健性模型4PLM-Robust（p**）中，也可以根据测验情境，即根据被试期望概率、作答实际得分情况等，对被试失误现象（包括睡眠现象）动态调整p**取值大小。但是，目前还未找到合适的试题参数估计方法来估算p**，这有待进一步研究探讨。

五、结论

测验中被试作答的睡眠现象仅仅是描述高能力被试作答容易试题时才发生的概率现象，而失误现象描述的是全体被试在任何难度试题上都可能存在一定失误概率的现象，本文认为失误现象更能有效地代表测验中被试作答失误的现象，并提出测验中失误现象所对应的测量新模型。通过模拟研究发现，无论测验中存在失误现象还是睡眠现象，四参数稳健性估计4PLM-Robust方法都能够有效地纠正因失误现象而导致的能力低估现象。因而在测验中，四参数模型稳健性方法能够对存在失误现象的被试实现能力稳健性估计。

参考文献：

[1] Wright B D. Solving Measurement Problems with the Rasch Model [J]. Journal of Educational Measurement，1977，14：97-116.

[2] Rulison K，Loken E. I've Fallen and I Can't Get Up：Can High-Ability Students Recover from Early Mistakes in CAT？ [J]. Applied Psychological Measurement，2009，33（2）：83-101.

[3] 简小珠，焦璨，Reise，等.四参数模型对被试作答异常现象的拟合与纠正[J].心理科学进展，2010，18（3）：537-544.

[4] 简小珠，戴海崎，彭春妹. IRT中Logistic模型的c、γ参数对能力估计的改善[J].心理学报，2007，39（4）：737-746.

[5] 简小珠，戴海琦.“CAT初始作答影响最终成绩”的模拟分析与纠正[J].心理学探新，2016，36（3）：276-280.

[6] Barton M A，Lord F M. An Upper Asymptote for the Three-parameter Logistic Item Response Model（Rep. RR-81-20）（20-81）[R]. Princeton，NJ：Educational Testing Service，1981.

[7] Mislevy R J，Bock R D. Biweight Estimates of Latent Ability [J]. Educational and Psychological Measurement，1982，42：725-737.

[8] Schuster C，Yuan K. Robust Estimation of Latent Ability in Item Response Models [J]. Journal Of Educational And Behavioral Statistics，2011，36（6）：720-735.

[9] Loken E，Rulison K L. Estimation of a Four-Parameter Item Response Theory Model [J]. British Journal of Mathematical and Statistical Psychology，2010，63：509-525.

The Carelessness Error Phenomenon，Sleeping Phenomenon and Test Simulation

Jian Xiaozhu1" Dai Buyun2

1 Department of Psychology，School of Public Policy and Management，Nanchang University，Nanchang，Jiangxi，330036

2 School of Psychology，Jiangxi Normal University，Nanchang，Jiangxi，330029

Abstract：It is inevitable for the subjects to make mistakes on the test because of various reasons，the two concept of sleeping phenomenon and carelessness error phenomenon are used to describe the subjects' mistakes. In this paper，the sleeping phenomenon and carelessness error phenomenon are expressed by test mathematical model. In test simulation situation，there are two kinds of test situations：existence or absence of carelessness error phenomenon（sleeping phenomenon）. The test simulation of carelessness error phenomenon（sleeping phenomenon）is carried out，and two parameter model and a variety of robust estimation methods are used to estimate the ability of subjects. The simulation results show that，compared with other robust estimation methods，the four-parameter robust estimation method can achieve robust estimation of subjects' ability in a variety of test situations，and can effectively correct the underestimation of ability caused by test mistakes.

Key words：Sleeping Phenomenon，Carelessness Error Phenomenon，Four-parameter Logistic Model，Robust Estimation

（责任编辑：吴茳）