认知诊断评价中测验结构的优化设计*

2016-02-01 22:11:00彭亚风罗照盛喻晓锋高椿雷李喻骏

心理学报 2016年12期

彭亚风罗照盛喻晓锋高椿雷李喻骏

(1江西师范大学心理学院, 南昌 330022) (2华南师范大学心理应用研究中心/心理学院, 广州 510631)

1 前言

认知诊断评价(Cognitive Diagnose Assessment,CDA, Leighton & Gierl, 2007)是对个体知识结构、加工技能或认知过程的诊断评价。相对于为考生提供单一能力估计值的项目反应理论(Item Response Theory, IRT), CDA充分吸收认知心理学对人类认知加工过程内在机制的研究成果, 结合相应的心理计量学模型——认知诊断模型(Cognitive Diagnosis Models, CDMs), 实现了对考生细粒度认知技能或属性(Attribute)掌握情况的诊断, 有助于教师开展补救教学, 学生进行自我学习。

CDA的一个核心要素和基础是Q矩阵。Q矩阵表征了CDA中测验(如无特别说明, 本文中的测验均指认知诊断测验)编制的属性蓝图(Leighton,Gierl, & Hunka, 2004), 反映的是研究者对于测验构想的一种设计, 是测验构念和内容设计的直观体现, 矩阵元素用0和1表示每一个项目是否测量了相应的属性。它将不可观察的知识状态(Knowledge State, KS)或属性掌握模式(Attribute Master Pattern,AMP)与观察作答反应模式(Observed Response Pattern, ORP)联系起来, 从而完成对被试是否掌握特定技能或属性的诊断评估。因此, 作为中间媒介的Q矩阵对诊断效果有着直接的影响。

有效的Q矩阵是CDA中关注的焦点问题。Q矩阵的获取方法主要有两种：第一种是事后分析法,即：先编制测验项目, 再由相关专家来确定测验项目所考核的属性, 进而得到Q矩阵; 第二种,Leighton等人(2004)建议在测验之前就由专家给出欲测属性及这些属性间的层级关系(hierarchy relation), 并据此设计Q矩阵, 再依据Q矩阵编制测验项目。Gierl等研究者认为事后分析法导出Q矩阵的方法逻辑性不强(Gierl, Leighton, & Hunka,2000)。因为对CDA来说, 诊断被试对特定属性的掌握情况是其目的, 测验项目是用来对事先确定的属性进行精准诊断的“工具”。而事后分析法在诊断目标确定之前, 先编制诊断工具, 即测验项目。因此, 第二种方法比事后分析法更符合CDA的逻辑。

根据第二种方法的逻辑, 在测验编制时应预先确立属性及其层级关系, 然后设计Q 矩阵, 命题专家依据所设计的Q矩阵编制测验项目。假定属性个数为5个, 使用的是Tatsuoka (1995)在其研究中使用的属性间互不相关(unrelated)的一种属性层级关系, 称之为独立型(Independent), 测验长度为30。此时, 可以构造出31个可选Q矩阵。如此庞大的集合中, 究竟哪一个才是具有较高诊断效率的Q矩阵？问题的答案就在于Q矩阵的合理设计。Q矩阵设计涉及到的变量很多, 其中最基本的变量是测验中的项目个数和属性个数。其他变量如每个项目考察的属性个数、每个属性被考察的次数等。只有综合考虑各种因素后得出的Q矩阵设计, 才能更好地实现高效诊断分类的目标。

围绕Q矩阵设计, 研究者们进行了许多有益的尝试。DeCarlo (2011)认为, 在DINA模型(Deterministic Input, Noisy “and” Gate model) (Junker & Sijtsma,2001)和高阶DINA模型(High Order DINA model)(De la Torre & Douglas, 2004)下, 即使Q矩阵界定正确, Q矩阵设计也会影响分类准确性。McDonald(1999)将只测量了一个属性的项目称之为简单结构项目(factorially simple items)。进一步地, Chiu,Douglas和Li (2009)的研究指出, 在DINA模型、DINO模型下, 为了能够诊断出所有的潜在属性掌握模式, 需要Q矩阵设计里每个属性至少有1个简单结构项目。丁树良、杨淑群和汪文义(2010), 丁树良、汪文义和杨淑群(2011)讨论了可达矩阵(Reachable Matrix, 简称为R矩阵, 是反映属性间直接关系、间接关系和自身关系的矩阵)在测验编制中的重要作用及相应理论, 研究表明, 对于0-1计分的测验, 5种属性层级关系(直线型, 发散型,收敛型, 无结构型和独立型)的测验蓝图下, 测验中包含R*(由于R矩阵是有特定指代的概念, 为不引起混淆, 本文将Q矩阵中包含与R矩阵元素结构相同的矩阵子集称为类R阵, 记为R*), 才能使得被试的知识状态与理想反应模式一一对应, 随着R*的减少, 模式判准率 (Pattern Match Ration, PMR)和平均属性判准率(Average Attribute Match Ratio,AAMR)均明显下降。颜远海、丁树良和汪文义(2011)研究了属性层级、测验编制、测验长度等因素对分类准确性的影响, 其研究表明含有R*的测验编制比不含有R*的测验编制的分类准确性要高。涂冬波、蔡艳和戴海琦(2013)把包含可达矩阵所考核的认知属性矩阵称为“T阵” (R阵为T阵的子矩阵),并把从“T阵”中选取初始题并保证“T阵”中含有R矩阵的方法称为“T阵法”, 研究指出在CD-CAT初始阶段使用“T阵法”可以保证在CAT的初始阶段就尽可能实现对每个属性的诊断, 此方法优于传统的随机法。他们的研究同时指出“T阵法”可以用于指导认知诊断测验的编制。Madison和Bradshaw (2015)研究了LCDM (Log-linear Cognitive Diagnosis Model)在不同的Q矩阵设计下分类准确性的表现, 该研究表明：Q矩阵设计是CDA中的一个重要方面, 在不同的Q矩阵设计下, LCDM的分类准确性会有很大的差异, 每个属性需要单独被测量至少一次, 这会显著增加分类准确性。Liu, Huggins-Manley和Bradshaw (2016)介绍了3种Q矩阵设计的方法——独立方法(independent approach, 每个项目只测量1个属性)、邻接方法(adjacent approach, 每个项目只测量具有直接关系的2个属性)、可达方法(reachable approach, 每个项目可以测量具有直接或间接关系的所有属性), 并且研究了在4种属性层级关系(直线型, 发散型, 收敛型和无结构型)下这3种方法对于分类结果的影响。研究结果表明邻接方法在较短测验长度下具有较高分类准确性。

上述研究均指出, 在Q矩阵里包含R*可以提高对被试的分类准确性。其中, Chiu等人(2009)和Madison和Bradshaw (2015)的研究是建立在属性层级关系为独立型的情境上, 丁树良等人(2011)把这个结论推广到了另外4种属性层级关系。涂冬波等人(2013)的研究仅探讨了“T阵法”在CD_CAT初始阶段的项目选取方面的应用, 并未针对认知诊断测验应如何设计展开研究和讨论。Liu等人(2016)的研究在模拟Q矩阵时会出现不合理的考核模式, 例如直线型情况下使用独立方法生成的测验项目都是考察单个属性而忽略其先决属性, 这违背了直线型的关系假设。前人的研究成果为设计一个好的Q矩阵提供了理论基础。但是包含R*只是保证测验诊断效果的一个基础, 完整的Q矩阵设计还需要考虑更多的变量对于诊断效果的影响。正如前文所说,Q矩阵设计的基本变量为项目个数和属性个数。当测验编制者确定了要考察的属性个数及其层级关系时, 测验长度为多少比较合适？确定了测验长度后, Q矩阵是否仅由若干个R*构成即可？若不是,那应该包含多少个R*比较合适？除去R*以外的题目又该如何设计？这些都是Q矩阵设计过程中必须解决的重要问题。

本研究拟在前人研究的基础上, 对认知诊断评价中测验结构的优化设计问题进行探讨, 以期为测验编制者提供切实可行的建议, 帮助提高诊断效率的同时降低测验编制的成本。

2 研究设计

本研究考察不同属性个数及不同属性层级关系下, Q矩阵的不同设计模式, 即测验长度、项目质量、测验Q矩阵中所包含的R*个数(记为

)以及除R*以外的项目所考察的属性个数, 对于测验诊断效果的影响。

2.1 属性个数及其层级关系的类型

本研究考察的属性个数有两种水平：

=5个、

=6个, 属性层级关系包括5种基本类型：直线型(Linear)、收敛型(Convergent)、发散型(Divergent)、无结构型(Unstructured)、独立型(Independent)。考虑到实际测验情境中可能存在较为复杂的属性层级关系模式, 即由5种基本类型组合而成更为复杂的网络层级关系, 因此本研究构造了一种多种属性层级关系并存的关系类型与之对应, 简称为混合型(Mixture) (所有属性层级关系示意图见附录1, 附录2)。

2.2 测验长度

测验长度为属性个数的整数倍, 共有5种水平：2倍、3倍、4倍、5倍和6倍。

2.3 采用的认知诊断模型

本研究采用的认知诊断模型为DINA模型。DINA模型在拥有简洁项目参数的同时, 分类准确性较高(De la Torre & Douglas, 2004)。

DINA模型的公式如下：

2.4 项目质量

共有3个水平：实验中项目的

和

均定为0.15(丁树良等, 2011)以规避DINA模型的项目参数对于分类准确性的干扰, 记为SG1; 本研究另外增加了两个研究者常用的项目参数范围(Chen, Xin, Wang,& Chang, 2012; Kaplan, de la Torre, & Barrada,2015)：均匀分布

(0.05, 0.15)、均分分布

(0.05,0.25), 分别记为SG2和SG3。

2.5 评价指标

PMR用于考察被试AMP的仿真性, 它指被试AMP判对的人数占总人数的百分比, PMR越大, 表明分类准确性越高。计算公式如下：

其中

rep

为每种实验条件下重复实验总次数,PMR为第

次重复实验的PMR。

3 实验1：在不同测验长度下, NR*对诊断效果的影响

考察在6种属性层级关系下, 不同测验长度中

对测验诊断效果的影响。

3.1 实验模拟过程

用Monte Carlo方法进行模拟, 具体过程为：

(1)模拟Q矩阵

由于测验长度为属性个数的整数倍, 分别为：2倍、3倍、4倍、5倍和6倍。测验长度不同, Q矩阵中包含的最大R*个数也会不同。则每种测验长度之下, 可能的

分别为：1-2个、1-3个、1-4个、1-5个、1-6个。Q矩阵中除去R*以外的项目均从典型项目考核模式(指根据属性间的层级关系, 确定所有合乎逻辑的测验项目考核模式种类)中随机抽取。

(2)模拟被试AMP真值

被试总人数为1000, 被试的AMP分布为均匀分布。计算出6种属性层级关系对应的所有理想掌握模式(Ideal Master Pattern, IMP)种类数, 用总人数除以每种属性层级关系下所有IMP的种类数, 得到每种IMP的人数, 若有余数再随机分配给所有的IMP。

(3)模拟被试作答反应矩阵

对于每个实验, 根据步骤(1)生成的Q矩阵、步骤(2)生成的被试AMP真值以及DINA模型的项目反应函数计算每个被试对单个项目的正确作答概率

。然后生成一个随机数

, 若

, 则判被试在该项目上得0分, 否则为1分。

3.2 实验结果

由图1中的每一个小图可知：测验长度和

会影响测验的分类准确性。具体表现为：测验长度越长, 测验的分类准确性越高;

与分类准确性之间呈现出奇数规律：并不是

越多分类准确性越高, 而是当

为最大奇数时, 分类准确性最高。当天花板效应出现之后,

的增加对于分类准确性的提高作用也被削弱。

图2的横坐标为

, 纵坐标为

(

=6时结果均呈现相同趋势, 限于篇幅未在本文中列出, 感兴趣的读者, 可与作者联系)。由图2可知, 属性层级关系越紧密, 测验的分类稳定性越好。测验的分类稳定性与项目质量成正比。此外,

也会影响测验的分类稳定性：随着

不断增加, PMR的

越来越小, 这表明测验的稳定性越来越好。可能的原因是：Q矩阵中除R*以外的项目是从典型项目考核模式中随机抽取,

越大, 随机抽取的项目越少,Q矩阵的异质性越小, 测验之间分类准确性的差异也就越小。反过来也说明测验中除R*以外的项目同样会影响测验的诊断效果。因此, 这些项目该如何设计是编制测验时必须考虑的问题。

图1 所有实验条件下测验的(K=5)

表1 不同属性个数、测验长度下NR*不同时测验的(6种属性层级关系)

图2 所有实验条件下测验PMR的SD (K=5)

4 实验2：Q矩阵中除R*以外的项目考察的属性个数对于诊断效果的影响

考察在6种属性层级关系下, Q矩阵中除去R*以外的项目所考察的属性个数对诊断效果的影响。

4.1 实验模拟过程

用Monte Carlo方法进行模拟, 除Q矩阵外,属性个数、被试人数、被试分布、项目参数的分布、被试AMP真值、被试作答反应矩阵的模拟过程、实验重复次数均与实验1一致。

本实验旨在研究Q矩阵中除R*以外的项目考察的属性个数对于诊断结果的影响, 故不考虑Q矩阵完全由R*构成的情况。

具体Q矩阵的设计过程如下(以

=5为例)：

由于测验长度为属性个数的整数倍, 因此可将Q矩阵中除R*以外的项目每5个分为一个单元。则不同测验长度下的Q矩阵由若干个R*和若干个单元组合而成。

在每种属性层级关系下, 将典型项目考核模式依据其考察的属性个数分为考察1、2、3、4、5个属性的项目集合。为了避免在项目抽取过程中, 每个单元内的5个项目可能再构成一个R*, 抽取时将考察1个属性的项目集合排除在外。因此, 每个单元内的5个项目是从余下的4个项目集合中抽取,不考虑单个项目中考察属性的位置, 不考虑项目出现的先后顺序。若两个单元内考察相同属性个数的项目个数均一致, 只是每个项目考察属性的位置不同和/或考察属性个数相同的项目出现顺序不同,则视为重复单元并删除。最后得到了56种单元的集合, 称之为集合A。具体模拟步骤(以

=10和

=15为例)如下：

(1) 从集合A中随机抽取(不放回)1个单元;

(2) 将该单元与1个R*合并, 构成一个10个项目的Q矩阵设计;

当测验长度为15时, 则是以10个项目的实验结果为基础, 采用择优选择的方式完成Q矩阵设计模拟。按照

的不同, 可将此时的Q矩阵设计分为

=1和

>1两种。下面分情况论述,

=1时具体步骤如下：

(5) 从集合B中随机抽取(不放回)1种基础项目组合;

(6) 重复步骤(1);

=2时具体步骤如下：(9) 重复步骤(1)至(2), 得到10个项目的一种Q矩阵设计, 再加上1个R*, 得到15个项目

=2时的一种Q矩阵设计;

当测验长度为20、25、30及

=6时同理。

4.2 实验结果

图3 六种属性层级关系下Q矩阵中NR*不同时所有Q矩阵设计的和SD散点图(L=30, K=5, s和g均固定为0.15)

5 讨论

(1)测验长度和项目质量对诊断效果的影响

从实验1的结果可以看出在6种属性层级关系下, 测验长度越长分类准确性越高。同一测验长度下, 属性层级关系越紧密PMR越高, 这与蔡艳, 涂冬波和丁树良(2013)以及颜远海等人(2011)的研究结果一致。但随着测验长度的增加, 分类准确性的提高幅度越来越小, 出现了天花板效应, 这与颜远海等人(2011)的研究结果一致。

表2 六种属性层级关系下前十的Q矩阵设计中除R*以外考察不同属性个数的平均项目数量(L/K=6, NR*=1)

从实验1的结果可以看出, 项目质量越好分类准确性越高, 这与前人的研究结果一致(Kunina-Habenicht, Rupp, & Wilhelm, 2012; Liu et al., 2016;Madison & Bradshaw, 2015; Rupp & Templin, 2007)。项目质量越好, 意味着项目对被试在相应属性上掌握与未掌握情况的区分能力越好(Madison & Bradshaw,2015), 势必会提高测验的诊断分类效果。

(2) Q矩阵中所包含的R*个数(

)对诊断效果的影响

(3)测验中除R*以外的项目所考察的属性个数对诊断效果的影响

由实验2可知, 测验的诊断效果会受到项目考察的属性个数的影响, 且这种影响因属性层级关系的不同而不同。在不同测验长度下, 若要获得最优的诊断效果, 除R*以外的项目应从其对应属性层级关系下的典型项目考核模式中抽取, 且需针对不同的属性层级关系做一些相应的设计。

结合实验1和实验2的结果, 考虑到实际测验可能包含比模拟研究更多的误差, 本文针对不同属性层级关系下的测验结构设计提出以下建议：

直线型的测验长度至少要为属性个数的4倍且Q矩阵至少包含1个R*, 除R*以外的所有项目中,每种典型项目考核模式出现的次数应尽量平均; 收敛型的测验长度也至少要为属性个数的4倍且Q矩阵至少包含1个R*, 除R*以外的项目应以考察处于每一个分支上的属性为主, 其次是分别考察分支上属性的先决属性以及整个属性关系结构; 发散型的测验长度应至少为属性个数的5倍且至少包含1个R*, 除R*以外的项目应以考察每一个分支上的属性组合为主要考核模式; 无结构型的测验长度需要至少为属性个数的6倍且至少包含3个R*, 除R*以外的项目应主要考察每个属性及其先决属性为主; 独立型则需要至少6倍于属性个数的测验长度且至少包含5个R*, 除R*以外的项目以考察任意两个属性为主。混合型则至少需要6倍于属性个数的测验长度且至少包含2个R*, 除R*以外的项目考察的属性组合按照属性间的具体关系参照上述5种基本层级关系下的建议来设计。例如, 针对发散型关系的属性(如附录1中

=5的混合型中A1、A2与A3), 考察这部分属性的项目应以处于发散结构的每一个分支上的属性为主, 即考察A1、A2和A1、A3; 但由于A1、A3和A4又构成了收敛关系结构, 故考察A1、A3的同时也必须考查A4,即收敛型下当分支上的属性(A1和A4)无先决属性时, 以考察完整的属性关系结构为主(A1、A3和A4); 针对独立型关系的属性(A1、A4和A5), 以考察任意两个属性为主。

此外, 在实际编制测验过程中, 当要使设计包含较为理想的R*个数的Q矩阵存在困难时, 可以通过增加测验长度来提高PMR, 这是较为稳妥的选择。当项目质量不好时, 通过增加测验长度或者R*个数能对维持较高PMR起到一定的补偿作用。测验编制者可以依据实际应用过程中测验分类准确性的预设目标, 参考上述建议设计合适的测验,实现对测验编制成本的有效控制。

Cai, Y., Tu, D. B., & Ding, S. L. (2013). A simulation study to compare five cognitive diagnostic models.

Acta Psychologica Sinica, 45

(11), 1295−1304.[蔡艳, 涂冬波, 丁树良. (2013). 五大认知诊断模型的诊断正确率比较及其影响因素: 基于分布形态、属性数及样本容量的比较.

心理学报, 45

(11), 1295−1304.]Chen, P., Xin, T., Wang, C., & Chang, H.-H. (2012). Online calibration methods for the DINA model with independent attributes in CD-CAT.

Psychometrika, 77

(2), 201−222.Chiu, C. Y., Douglas, J. A., & Li, X. D. (2009). Cluster analysis for cognitive diagnosis: Theory and applications.

Psychometrika, 74

(4), 633−665.DeCarlo, L. T. (2011). On the analysis of fraction subtraction data: The DINA model, classification, latent class sizes,and the Q-matrix.

Applied Psy chological Measurement,35

(1), 8−26.De la Torre, J., & Douglas, J. A. (2004). Higher-order latent trait models for cognitive diagnosis.

Psychometrika, 69

(3),333−353.Ding, S. L., Wang, W. Y., & Yang, S. Q. (2011). The design of cognitive diagnostic test blueprints.

Journal of Psychological Science, 34

(2), 258−265.[丁树良, 汪文义, 杨淑群. (2011). 认知诊断测验蓝图的设计.

心理科学, 34

(2), 258−265.]Ding, S. L., Yang, S. Q., & Wang, W. Y. (2010). The importance of reachability matrix in constructing cognitively diagnostic testing.

Journal o f J iangxi Normal University(Natural Science), 34

(5), 490−494.[丁树良, 杨淑群, 汪文义. (2010). 可达矩阵在认知诊断测验编制中的重要作用.

江西师范大学学报(自然科学版),34(

5), 490−494.]Gierl, M. J., Leighton, J. P., & Hunka, S. M. (2000). Exploring the logic of Tatsuoka's rule-space model for test development and analysis.

Educational Measurement, 19

, 34−44.Junker, B. W., & Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory.

Applied Psychological Measurement, 25

(3), 258−272.Kaplan, M., de la Torre, J., & Barrada, J. R. (2015). New item selection methods for cognitive diagnosis computerized adaptive testing.

Applied Psychological Measurement, 39

(3),167−188.Kunina-Habenicht, O., Rupp, A. A., & Wilhelm, O. (2012).The impact of model misspecification on parameter estimation and item-fit assessment in log-linear diagnostic classification models.

Journal of Educational Measurement,49

(1), 59−81.Leighton, J. P., & Gierl, M. J. (2007).

Cognitive di agnostic assessment for ed ucation: T heory a nd a pplications

.Cambridge UK: Cambridge University Press.Leighton, J. P., Gierl, M. J., & Hunka, S. M. (2004). The attribute hierarchy method for cognitive assessment: A variation on Tatsuoka's rule-space approach.

Journal of Educational Measurement, 41

(3), 205−237.Liu, R., Huggins-Manley, A. C., & Bradshaw, L. (2016). The impact of Q-matrix designs on diagnostic classification accuracy in the presence of attribute hierarchies.

Educational and Psychological Measurement

, doi: 10.1177/0013164416 645636Madison, M. J., & Bradshaw, L. P. (2015). The effects of Q-matrix design on classification accuracy in the log-linear cognitive diagnosis model.

Educational and Psychological Measurement, 75

(3), 491−511.McDonald, R. P. (1999).

Test th eory: A un ified tr eatment.

Mahwah, NJ: Lawrence Erlbaum Associates.Rupp, A. A., & Templin, J. (2007). The effects of Q-matrix misspecification on parameter estimates and classification accuracy in the DINA model.

Educational and P sychological Measurement, 68

(1), 78−96.Tatsuoka, K. K. (1995). Architecture of knowledge structures and cognitive diagnosis: A statistical pattern classification approach. In P. D. Nichols, S. F. Chipman, & R. L. Brennan(Eds.),

Cognitively di agnostic as sessment

(pp. 327−361).Hillsdale: Lawrence Erlbaum Associates.Tu, D. B., Cai, Y., & Dai, H. Q. (2013). Item selection strategies and initial items selection methods of CD_CAT.

Journal of Psychological Science, 36

(2), 469−474.[涂冬波, 蔡艳, 戴海琦. (2013). 认知诊断CAT选题策略及初始题选取方法.

心理科学, 36

(2), 469−474.]Yan, Y. H., Ding, S. L., & Wang, W. Y. (2011). The research on factors influencing diagnostic accuracy in AHM and DINA.

Journal of Ji angxi No rmal University (Natural Science),35

(6), 640−645.[颜远海, 丁树良, 汪文义. (2011). 影响AHM与DINA诊断准确率的因素研究.

江西师范大学学报(自然科学版),35

(6), 640−645.]

附录1 六种基本的属性层级关系示意图(=5)

附录2 六种基本的属性层级关系示意图(=6)