项目功能差异对于认知诊断测验估计准确性的影响

2015-12-27 06:25王卓然边玉芳
心理学探新 2015年3期
关键词:参数估计测验准确性

王卓然 边玉芳 郭 磊

(北京师范大学认知神经科学与学习国家重点实验室,北京100875)

1 引言

用于评估个体知识结构和加工技能(Leighton &Gierl,2007)的认知诊断(Cognitive Diagnosis)已成为心理测量领域的研究热点之一(de la Torre,2009)。由于认知诊断较新,相关研究主要集中在理论创新和模型研发,一些与实际测验密切相关的问题缺乏应有 的 重 视(Hou,de la Torre,& Nandakumar,2014)。其中,测验公平性就是实际测验领域的一个急需关注的问题(Brennan,2006;李付鹏,2011)。项目功能差异(Differential Item Functioning,DIF)是衡量测验公平性的常用指标(Brennan,2006),已开始有研究关注认知诊断测验中的DIF 问题。

与基于经典测量理论(Classical Testing Theory,CTT)和项目反应理论(Item Response Theory,IRT)的DIF 研究相似(李凌艳,张勋,2010),认知诊断测验中有关DIF 的研究大都关注DIF 的检测方法。研究者们改进并将Mantel-Haenszel(MH)法(Holland& Thayer,1988),SIBTEST 法(Shealy & Stout,1993;Zhang,2006)和Wald 检验法(Hou,2013;Hou,de la Torre,& Nandakumar,2014;Li,2008)引入认知诊断测验的DIF 检测中,基于确定性输入噪声“与”门模型(Deterministic Inputs,Noisy“And”gate model,DINA,Haertel,1989)(Hou et al.,2014;Hou,de la Torre,& Nandakumar,2014;Zhang,2006),高阶DINA模型(High Order DINA,HO - DINA,de la Torre &Douglas,2004;Li,2008)和广义DINA 模型(Generalized - DINA,G - DINA,de la Torre,2011)(Hou,2013)进行了DIF 检测。但是,有关认知诊断测验DIF 检测必要性的问题并未被讨论。

DIF 检测意在维持测验公平(郑蝉金,郭聪颖,边玉芳,2011),避免对不同组被试能力估计产生偏差。IRT 中关于DIF 的研究表明,测验中存在含有DIF 的题目会使得题目参数估计变得无效,增大被试能力估计偏差,进而导致对于来自不同群体被试能力估计产生不公平,即一组被试的能力被高估,另一组则被低估(Lord,1980a)。目前尚未有DIF 对于认知诊断测验中被试知识状态估计和题目参数估计影响的研究。由于认知诊断和IRT 对于被试能力的假设不同,两种测量理论对于题目和被试参数的估计方法也有所不同,因此我们不能把DIF 对于IRT测验的影响直接推广到认知诊断测验中。本研究试图采用模拟研究的方法,探讨DIF 对于认知诊断测验题目参数估计和被试知识状态估计的影响。

2 认知诊断测验中DIF 的界定

DIF 指来自不同群体但能力水平相同的被试,在同一题目上具有不同正确作答概率(Holland &Thayer,1988)的现象。在认知诊断测验中,以相同知识状态代表相同能力。DIF 检测中一般按照人口统计学指标(如,性别,民族等)将被试分为目标组和对照组。DIF 可以分为一致性和非一致性两类(Flier,Mellenbergh,Adèr,& Wijn,1984;Mellenbergh,1982)。在认知诊断测验中,其差别在于被试的知识状态与其所在组之间是否存在交互作用。区分一致性DIF 和非一致性DIF 有助于分析DIF 产生的原因及表现,进而为修改或删除含有DIF 的题目提供信息(Jin,2012;李凌艳,2010)。

当前,DIF 在认知诊断测验中的定义均是基于DINA 模型(Haertel,1989)提出的。通过变化失误参数(s)和猜测参数(g),可以刻画不同的DIF 种类和DIF 大小。即,如果题目j 含有DIF,则

Δj,ηj=1和Δj,ηj=0分别表示掌握题目j 考察的所有属性和未掌握题目j 考察的全部属性时,来自不同组的被试正确作答题目j 的概率差。Δsj代表的是对照组与目标组被试s 参数的差,Δgj代表的是目标组与对照组被试g 参数的差。xij代表第i 个被试在第j道题上的作答,ηij代表第被试i 是否掌握第j 题所需的全部属性。sFj和sRj分别是目标组和对照组第j 题的s 参数,gRj和gFj分别是对照组和目标组第j 题的g 参数。

当Δsj和Δgj符号相同时,表明存在一致性DIF。当Δsj和Δgj符号不相同时,表明存在非一致性DIF。

Zhang (2006)在DINA 模型的框架下,通过变化目标组的题目参数界定了4 种在认知诊断测验中的4 种DIF:(1)目标组s 参数增大,以si 表示;(2)目标组g 参数增大,以gi 表示;(3)目标组s 参数和g 参数同时增大,以sgi 表示;(4)目标组s 参数增大,g 参数减小,以sigd 表示。前三种都是非一致性DIF,最后一种是一致性DIF。

3 研究方法

3.1 实验设计

本研究考察了不同DIF 种类,DIF 量和DIF 题目比例(朱乙艺,焦丽亚,2012),对于认知诊断测验题目参数估计准确性和被试知识状态估计准确性的影响。按照Zhang (2006)的设计模拟了四种DIF,再加入没有DIF 的条件作为基线水平,与构造出的含有DIF 的实验条件进行比较。由于之前在认知诊断测验中有关DIF 的定义和研究都是基于DINA 模型展开的,本研究仍采用DINA 模型。

3.2 数据模拟

采用R 软件进行Monte Carlo 模拟。

本研究采用(Li,2008)使用的5 个属性25 道题目的Q 矩阵作为原始Q 矩阵。其中5 道题各考察1个属性,10 道题各考察2 个属性,10 道题各考察3个属性,如表1 所示。

表1 测验的原始Q 矩阵

将原始Q 矩阵中题目的顺序打乱,做为测验矩阵。根据Hou(2013),Hou,de la Torre 和Nandakumar(2014),Li(2008)和Zhang(2006)的研究,0.1是一个比较适中的DIF 量。本研究中DIF 量有0.05、0.1 和0.2 三个水平。含有DIF 题目比例分别为20%、40%和60%。目标组和对照组各1000被试(朱乙艺,韦小满,2012)。假设各属性间不相关,属性掌握概率为50%,得到被试的知识状态真值。目标组题目的s 和g 参数均从U(0.1,0.3)中随机生成。对照组题目的s 和g 参数先设定为与对照组相同,再对含有DIF 题目的参数按照不同DIF量和DIF 种类进行相应更改。分别模拟目标组和对照组被试的作答反应,将两组被试的作答合并,用以估计被试的知识状态和题目参数。

3.3 评价指标

3.3.1 被试知识状态估计准确性指标

采用平均属性判准率(Average Attribute Correct Classification Rate,AACCR)和模式判准率(Pattern Correct Classification Rate,PCCR),评估对于被试知识状态估计的准确性。

AACCR 考察了属性掌握模式αi的返真性。属性个数为K,被试量为N。若对被试i 第k 个属性掌握判准一次,记为Rik= 1,否则Rik= 0。

PCCR 考察被试属性掌握模式的返真性。属性个数为K,被试量为N。被试i 的真实属性掌握为αi,但把该被试归类为,如果有i = αi,记ti=1;否则记ti=0。

3.3.2 知识状态高估指标

为了探究DIF 带来的是某组被试的知识状态整体高估或低估,还是仅仅使被试的知识状态估计准确性下降,采用知识状态估计值与真值相减的方法(Overest),评估知识状态高估情况。

属性个数为K,被试量为N。αik和是被试n 在属性k 上掌握情况的真实和估计值。

3.3.3 题目参数估计准确性指标

采用误差均方根(RMSE)和平均离差(Bias)来衡量对于题目参数的估计准确性。

L 为每个实验重复的次数,βl和为题目参数真值和估计值。

与Bias 类似,RMSE 也反映了题目参数真值与估计值之间的平均偏差大小。

4 研究结果

4.1 DIF 对于被试知识状态估计准确性的影响

表2 DIF 对于被试知识状态估计的影响

续表2

总体来讲,测验中含有DIF 会降低对于被试知识状态估计的准确性。DIF 对于目标组AACCR 和PCCR 的影响(-0.137 ~0.015,-0.441 ~0.018)大于对于对照组AACCR 和PCCR 的影响(-0.017~0.003,-0.066 ~0.008)。随DIF 量的增大,含有DIF 题目比例的增大,目标组AACCR 和PCCR 的变化增大,而对照组AACCR 和PCCR 没有显著变化。在本研究中,由于DIF 产生方法的影响,前三种DIF中目标组的题目参数都大于对照组。因此,目标组和对照组对被试分类准确性的不同影响其实反映的是题目参数的影响。测验中存在DIF,对于题目参数没有变化的对照组,也会降低被试分类的准确性。PCCR 降低7%,已经是一个较大的分类准确性的损失了,所以认知诊断测验中存在DIF 需要进行处理。

四种DIF 对于被试知识状态估计准确性的影响也不相同。当存在非一致性DIF(si,gi,sgi)时,目标组和对照组被试知识状态估计的准确性呈下降趋势(-0.137 ~0.002,-0.441 ~0.007),并且si 和gi所带来的影响差不多(-0.064 ~0.002,-0.237 ~0.007)(-0.079 ~0.001,-0.255 ~0.003),而sgi带来的影响最大(- 0.137 ~0.001,- 0.441 ~0.010)。这是因为相对于不存在DIF 的情况,这些非一致性DIF 的存在使得题目质量下降了,也就造成了被试知识状态估计准确性的下降。存在一致性DIF 时,对照组的AACCR 和PCCR 主要还是减小的(-0.017 ~0.000,-0.066 ~0.003),但目标组的AACCR 和PCCR 相比于没有DIF 的情况却往往会增大(-0.001 ~0.015,-0.010 ~0.012)。研究表明,s 参数的增大降低了题目质量,而g 参数的减小提高了题目质量(陈平,辛涛,2011)。因此,一致性DIF 产生时,这种对于题目质量的不一致影响导致了对于被试知识状态估计准确性较小的负面影响甚至可能带来正面影响。这说明,非一致性DIF 对于被试知识状态估计准确性的危害较大,而一致性DIF 的危害较小。

总体来讲,由于此采用MAP 测验对于被试知识状态是会略有高估的,但在某些情况下对目标组被试知识状态会产生低估。以不存在DIF 的情况作为基线,随着DIF 量和题目中含有DIF 题目比例的增大,DIF 对于被试高估增大。四种DIF 对于被试高估情况的影响有所不同。si 会带来目标组高估的减少和对照组高估的增加,gi 会带来目标组高估的增加和对照组高估的减少,sgi 会带来目标组和对照组高估的同时增加,sigd 会带来目标组高估的减小和对照组高估的增加。从变化幅度来看,一致性DIF和sgi 所带来的非一致性DIF 对于被试知识状态高估的影响较大。存在明显的高估和低估说明在认知诊断测验中DIF 引起了对于某组被试的整体高估或低估,而不是只造成了估计误差的增大。

4.2 DIF 对于认知诊断测验题目参数估计准确性的影响

表3 DIF 对于认知诊断测验题目参数估计的影响

含有DIF 题目的题目参数估计准确性下降,而不含有DIF 题目的题目参数基本不受影响。含有DIF 题目的题目参数估计RMSE 增大说明DIF 使得题目参数估计变得不准确了,而Bias 绝对值增大说明DIF 给题目参数估计带来的是系统误差而非随机误差(产生随机误差时Bias 不改变)。4 种DIF 对于题目参数估计准确性影响不同。si 只会使s 参数的估计准确性下降,s 参数产生高估;gi 只会是g 参数的估计准确性下降,g 参数产生高估;sgi 以及sigd会使得s 和g 参数的估计准确性同时下降,其中sgi使得s 参数和g 参数一起被高估,sigd 使得s 参数被高估,g 参数被低估。DIF 量的增大会使得受DIF影响的题目参数估计准确性下降的更多,题目参数高估和低估也更明显,而测验中含有DIF 题目的比例却不影响题目参数估计的准确性。

5 讨论与展望

5.1 在认知诊断测验中检测DIF 的必要性

认知诊断测验中含有DIF 会影响被试分类准确性和题目参数估计的准确性,并且这种影响在某些情况下相当明显。因此,在认知诊断测验中检测DIF 是测验过程中必不可少的部分。随着测验中含有DIF 题目的比例和DIF 量的增大,DIF 对于被试分类准确性的危害不断增大,非一致性DIF 的危害大于一致性DIF。题目参数估计准确性只受到DIF量的影响,DIF 量增大,题目参数估计的偏差也会变大。在被试分类准确性和题目参数估计方面,都发现了一致性的高估和低估。这与(Lord,1980)在IRT 测验中观察到的“一部分被试能力被高估,另一部分被试能力被低估”是一致的。

5.2 认知诊断测验中含有DIF 只影响含有DIF 题目参数估计准确性

在基于CTT 和IRT 编制的测验中,发现含有DIF 的题目后,一般处理方法是采用剩余没有DIF的题目对被试能力进行估计。研究结果表明,在认知诊断测验中,仍然可以采取使用剩余题目的方法来运用含有DIF 的测验结果。从研究的结果中可以看出,对于那些不含有DIF 题目的参数估计仍然是较为准确的。这就说明,当可以成功检测出含有DIF 的题目并且剩余题目较多时,利用剩余的题目进行被试能力的估计,仍然可以得到较为准确的结果。如果测验的目的只是为了标定题目参数,那么是可以直接使用不含DIF 题目的题目参数估计值的。

5.3 DIF 对于被试分类准确性影响的机制

一致性DIF 和非一致性DIF 对被试分类准确性的影响却有较大的不同。非一致性DIF 对于被试分类准确性的影响明显大于一致性DIF。DIF 对于被试分类准确性的影响可以从两个方面来分析:题目参数变动方向和题目参数估计偏差。以对照组原有的被试分类准确性作为基线水平,当产生DIF 时,根据DIF 产生的方式不同,目标组的题目参数改变方向不同,也就造成了题目质量的变化方向不同。当题目质量提高时,目标组的被试分类准确性会高于基线水平,而当题目质量降低时,目标组被试分类准确性会低于基线水平。所以,题目参数变动方向对于被试分类准确性的影响可能是正向的也可能是负向的。出现DIF,一定会使得题目参数估计准确性下降,这必然导致被试分类准确性的下降。因此,题目参数估计偏差对于被试分类准确性的影响一定是负向的。在这两个方面的影响下,存在DIF 必然会导致对照组被试分类准确性下降,而对于目标组的影响视DIF 的种类和大小而变。

5.4 认知诊断测验DIF 未来的研究方向

目前尚未有足够多在真实认知诊断测验中有关DIF 的发生率和大小的相应研究,因此还不能断定在真实情境下认知诊断测验中含有DIF 的影响。在以后认知诊断测验的DIF 研究中,除了通过模拟研究探究DIF 产生的机制、检测和处理方法的有效性外,还应该多进行实证研究,针对在真实测验情景中DIF 的影响采取恰当的处理措施。

目前对认知诊断测验进行DIF 检测都是借鉴和改造CTT 和IRT 测验DIF 检测方法。基于认知诊断测验的特点,开发出更适合在认知诊断测验中检测DIF 的新方法,也是一个重要的研究方向。

此外,在CTT 和IRT 测验DIF 检测中许多已被关注的问题,也需要在认知诊断测验DIF 中进行分析和研究。比如,当测验中存在题组时,必须要使用相应的题目DIF 检测方法。在含有题组的认知诊断测验中,对这些题组DIF 检测方法进行改进,或是开发出适合认知诊断测验的题组DIF 检测方法,也是非常有必要的。认知诊断测验中也存在多级计分的题目,对于认知诊断测验多级计分题目的DIF 检测方法的探讨,也是以后研究中需要关注的问题。

陈平,辛涛.(2011).认知诊断计算机化自适应测验中的项目增补——以DINA 模型为例.博士论文.北京师范大学.

李付鹏.(2011).能力水平分组对Mantel -Haenszel 方法检验DIF 效应的影响分析.中国考试,(9),10 -15.

李凌艳,张勋.(2010).DIF 分析实际应用中的常见问题及其研究新进展.考试研究,(2),73 -82.

郑蝉金,郭聪颖,边玉芳.(2011).变通的题组项目功能差异检验方法在篇章阅读测验中的应用.心理学报,43(7),830 -835.

朱乙艺,焦丽亚.(2012).二级计分数据DIF 模拟研究的数据产生原理及其软件实现.考试研究,(6),80 -87.

朱乙艺,韦小满.(2012).DIF 值和样本量对SIBTEST 检测方法的影响研究.中国考试,(9),9 -14.

Brennan,R. L. (2006). Education measurement(4 ed.). Westport,CT:American Council on Education and Praeger Publishers.

de la Torre,J.(2009).DINA model and parameter estimation:A didactic.Journal of Educational and Behavioral Statistics,34(1),115 -130.

de la Torre,J.,& Douglas,J. A. (2004). Higher -order latent trait models for cognitive diagnosis. Psychometrika,69(3),333 -353.

de la Torre,J. (2011). The Generalized DINA Model Framework.Psychometrika,76(2),179 -199.

Flier,H.,Mellenbergh,G.J.,Adèr,H.J.,& Wijn,M.(1984).An iterative item bias detection method.Journal of Educational Measurement,21(2),131 -145.

Haertel,E. H. (1989). Using restricted latent class models to map the skill structure of achievement items.Journal of Educational Measurement,26(4),301 -321.

Holland,P. W.,& Thayer,D. T. (1988). Differential item performance and the Mantel-Haenszel procedure.Test Validity,129 -145.

Hou,L.(2013).Differential item functioning assessment in cognitive diagnostic modeling:Applying the wald test to investigate DIF in the Generalized DINA Model Framework.Journal of Educational Measurement,51(1),98 -125.

Hou,L.,de la Torre,J.,& Nandakumar,R.(2014).Differential item functioning assessment in cognitive diagnostic modeling:Application of the wald test to investigate DIF in the DINA Model. Journal of Educational Measurement,51(1),98 -125.

Leighton,J.,& Gierl,M. (2007). Cognitive diagnostic assessment for education:Theory and applications. Cambridge University Press.

Li,F.(2008).A modified higher -order DINA model for detecting differential item functioning and differential attribute functioning.The University of Georgia.

Lord,F.M.(1980a).Applications of item response theory to practical testing problems.Routledge.

Lord,F.M. (1980b). Applications of item response to theory to practical testing problems.Lawrence Erlbaum.

Mellenbergh,G.J.(1982).Contingency table models for assessing item bias. Journal of Educational and Behavioral Statistics,7(2),105 -118.

Shealy,R.,& Stout,W. (1993). A model - based standardization approach that separates true bias/DIF from group ability differences and detects test bias/DTF as well as item bias/DIF.Psychometrika,58(2),159 -194.

Zhang,W. (2006). Detecting differential item functioning using the DINA model.The University of South Carolina at Greensboro.

猜你喜欢
参数估计测验准确性
基于新型DFrFT的LFM信号参数估计算法
误差分布未知下时空模型的自适应非参数估计
浅谈如何提高建筑安装工程预算的准确性
理解语境与名句的关系,提高默写的准确性
不完全观测下非线性非齐次随机系统的参数估计
一种GTD模型参数估计的改进2D-TLS-ESPRIT算法
《新年大测验》大揭榜
为桥梁领域的示值准确性护航
两个处理t测验与F测验的数学关系
影响紫外在线监测系统准确性因子分析