认知诊断评估中Q矩阵理论及应用

2024-06-08 21:43宋丽红汪文义丁树良
心理科学进展 2024年6期

宋丽红 汪文义 丁树良

摘  要  Q矩阵是认知心理学与心理计量学结合的重要载体, Q矩阵在认知诊断中发挥着十分重要的作用。Q矩阵理论和应用研究近年来取得了重要进展。众多研究者从结构化到非结构化、属性二值到多值、简单到复杂模型、独立到一般结构、0-1到多级评分方面不断深入和拓展Q矩阵理论。Q矩阵理论也广泛应用于测验构念效度评价、计算机化自适应测验选题策略设计、Q矩阵学习和标定、认知诊断测验组卷等。与模型无关的Q矩阵理论和适合特定认知诊断模型下Q矩阵理论, 以及最新Q矩阵理论的应用都值得深入研究。

关键词  认知诊断, Q矩阵, 属性结构, 完备性, 多值屬性

分类号  B841

1  引言

认知诊断评价是心理计量学与认知心理学结合的产物。认知诊断评价广泛应用于教育评价(educational assessment)、精神评估(psychiatric evaluation)、疾病病因检测(disease etiology detection)等领域(Gu & Xu, 2020, 2023; Xu, 2017)。研究显示(王立君 等, 2020; Toprak, 2021; von Davier & Lee, 2019), 认知诊断在学习系统中学习者弱项诊断、报告反馈与资源推荐, 在大规模评价数据分析与细粒度诊断, 在识别问题解决策略和职业教育, 在教学干预方法或个性化补救教学效果评价等方面都发挥着重要作用。Tatsuoka (1983, 1995, 2009)率先提出了Q矩阵, 记为 , 其元素 表示被试正确作答项目 需要掌握属性 ,  表示项目 不考查属性 。Q矩阵用于表示问题解决过程中所需要的潜在认知属性(技能、知识), 它也被视为统计模式识别所需提取的特征(Tatsuoka, 2009)。Q矩阵是认知模型的形式化表示, 代表需要检验的测验结构假设, 是结构效度的直接证据(Rupp et al., 2010)。

Tatsuoka (2009)提出Q矩阵理论, 所解决的核心问题是建立观察反应模式与潜在知识状态之间的数学联系。只有建立两者间的联系, 认知诊断评价才能根据被试在测验上观察作答反应模式推断知识状态。联系建立主要有以下两种方式。第一种方式, 在连接(conjunctive)或非连接(disjunctive)认知假设下, 通过计算理想反应模式作为桥梁建立两者的联系, 包括规则空间模型的布尔描述函数(Boolean description function; Tatsuoka, 1991, 2009), 属性层级方法(attribute hierarchy method, AHM))的期望(理想)反应模式(Leighton et al., 2004), 确定性输入噪音与门(deterministic inputs, noisy and gate, DINA; Haertel, 1989)和确定性输入噪音或门(deterministic inputs, noisy or gate, DINO; Templin & Henson, 2006)模型的潜在反应模式, 非参数化聚类或分类方法中理想反应模式(康春花 等, 2017, 2023; 李元白 等, 2018; 汪文义, 丁树良 等, 2015; Chiu et al., 2008, 2009; Chiu & Douglas, 2013; Chiu & Chang, 2021), 以及知识空间理论的问题函数(problem function, Heller et al., 2015, 2017; Heller, 2022)。第二种方式, 通过一般化认知诊断模型建立知识状态、项目特征与项目反应之间的统计模型, 如拓广的DINA (the generalized DINA, G-DINA; de la Torre, 2011)模型、对数线性认知诊断模型(the log-linear cognitive diagnosis model, LCDM; Henson et al., 2009)和概括化模型(the general diagnostic model, GDM; von Davier, 2008)等。

Tatsuoka (2009)认为, 在属性独立时, 如果测验Q矩阵是 阶单位矩阵或者包含所有 非零属性向量, 通过布尔描述函数计算理想反应模式, 可建立 个知识状态与 个理想反应模式一一对应关系。Chiu等人(2009)提出包含单位矩阵的完备Q矩阵概念, 并用于认知诊断属性子分数向量聚类分析。与此同时, 在属性层级结构下, 丁树良等人(2009)提出包含可达矩阵的充要Q矩阵概念。Chiu等人、丁树良等人自此以后一直深入研究Q矩阵理论, 比如结构化Q矩阵(the structured Q-matrix)和非结构化Q矩阵(the unstructured Q-matrix)的条件及其相关问题(丁树良 等, 2022; Chiu & Chang, 2021)。Q矩阵中所有属性向量均符合属性层级结构, 称为结构化Q矩阵, 否则称为非结构化Q矩阵。知识空间理论研究团队也一直研究完备Q矩阵(Heller, 2022)。除了关注二值Q矩阵外, 因为学生在同一属性的水平往往呈现不同认知水平, 许多研究关注多值Q矩阵理论(蔡艳, 涂冬波, 2015; 丁树良, 罗芬 等, 2015; 丁树良, 汪文义 等, 2015; 詹沛达 等, 2016)或多值Q矩阵下的认知诊断模型与方法(Chen & de la Torre, 2013; de la Torre et al., 2022; Karelitz, 2004; Ma, 2022; Sun et al., 2013; Zhan et al., 2020, 2023)。

Q矩阵设计是认知诊断测验设计中十分重要的方面(丁树良 等, 2011, 2019; Liu et al., 2016; Madison & Bradshaw, 2015; Tian et al., 2020; Tu et al., 2019)。设计测验各个题目所测量的属性, 即解决Q矩阵设计或测验蓝图问题, 是认知诊断的核心任务(Leighton et al., 2004)。Tatsuoka (2009)提出充分Q矩阵用于指导认知诊断测验编制。完备Q矩阵作为一种重要Q矩阵设计, 对于提高分类准确率具有重要作用。DeCarlo (2011)在分析分数减法数据时发现, 不完备Q矩阵会引起严重的分类问题, 测验Q矩阵设计不当, 测验为被试在某些属性上带来的信息甚至还不如先验信息。丁树良等人(2011)研究发现, 完备Q矩阵(至少含一个可达矩阵)比不完备Q矩阵的模式判准率高出20%以上。Tian等人(2020)发现完备Q矩阵可提高纵向诊断分类模型的分类准确率。Madison和Bradshaw (2015)比较了不同Q矩阵设计对分类准确率的影响, 相比其他不完备Q矩阵, 包含每个属性单独测量1次或2次的Q矩阵(完备Q矩阵)在参数估计算法收敛性、属性分类准确率和属性信度方面均具有明显优势。Kuo等人(2016)例子显示, 在线性属性层级结构下, 基于认知诊断指标或属性诊断指标选择试题, 所得测验Q矩阵不完备, 由此提出了具有更高判准率的组卷方法。

Q矩阵设计还与认知诊断模型识别问题和参数估计量的一致性密切相关。统计模型可识别, 是得到参数一致估计和有效推断结果的必要条件, 也是获得可靠且有效结果的基础(Gu & Xu, 2019b)。Q矩阵不完备会引起知识状态等价类, 即造成同一等价类中多个知识状态的概率参数不可识别, 还会导致Q矩阵估计不可识别。认知诊断模型识别问题早有关注(DeCarlo, 2011; DiBello et al., 1995; Liu et al., 2013; Maris, 1999; Xu, 2013; Xu, & Zhang, 2016)。在DINA模型下, Liu等人(2013)率先考虑了猜测参数已知时Q矩阵可识别的条件。Chen等人(2015)、Xu和Shang (2018)考虑了项目参数已知时Q矩阵可识别的充分条件, 即Q矩阵中需要包含两个单位矩阵等条件。Xu等人自2013年至今一直专注于认知诊断模型参数识别性问题研究。

Q矩阵在结构表征、测验设计、模型识别、诊断分类等方面具有重要作用, 并且诸多研究者长期深入研究Q矩阵理论并取得了大量成果, 但目前缺乏相关的文献综述与评论。本文重点梳理近15年Q矩阵理论和应用, 主要涉及理想反应、非参数方法、知识空间理论、模型识别框架下完备Q矩阵, 及其在测验构念效度评价、计算机化自适应测验选题策略设计、Q矩阵学习和标定、认知诊断测验组卷等方面的应用, 最后讨论与模型无关和新模型下Q矩阵理论和应用研究的未来方向。

2  Q矩阵理論

2.1  理想反应下完备Q矩阵

2.1.1  充分Q矩阵

在属性间存在先决关系时, 如 表示要掌握属性2必先掌握1, 如果采用结构化Q矩阵, 考查属性2的项目必须包含属性1, 故先决关系 表现在结构化Q矩阵中第1列包含第2列, 或第1列 中元素均大于等于第2列 对应元素, 即 。Tatsuoka (1995, 2009)希望Q矩阵可表达属性间先决关系和知识结构, 由此提出了充分Q矩阵(sufficient Q matrix)的概念。

定义1 (充分Q矩阵)给定 个属性、属性之间的先决关系及其对应的可达矩阵 , 如果矩阵 的列向量通过包含或大小关系比较可以产生可达矩阵 , 则称这个Q矩阵对所讨论范围内的认知模型的表达是充分的。包含充分Q矩阵的题库则称为充分题库。

充分Q矩阵可用于指导测验设计和项目开发, 使得测验真正测到所要测量的结构和属性, 从而提高测验的结构效度。

4  讨论

在梳理了认知诊断研究领域近15年来Q矩阵理论研究结果基础之上, 重点介绍了完备Q矩阵核心内容和结合例子解释相关理论结果, 并简要叙述了Q矩阵理论的代表性应用研究结果。Q矩阵理论研究趋势如图1所示。完备Q矩阵研究发展过程, 透视出完备Q矩阵呈现从独立和属性层级结构到一般结构, 从简化的DINA和DINO模型到一般化认知诊断模型, 从二值Q矩阵到多值Q矩阵, 从二值评分到多级评分, 从理想反应模式到期望反应模式等方面不断深入的规律性。

Q矩阵理论的发展也基本引领了认知诊断各方面应用:(1)根据属性层级结构, 预先设计基于理想反应模式的完备Q矩阵, 可用于指导测验题目编制; (2)评价测验Q矩阵与属性层级结构一致性的理论构念效度指标, 可用于测验实施之前Q矩阵设计质量评价; (3)在收集数据之后, 可结合数据驱动的Q矩阵标定方法学习测验Q矩阵, 可

辅助学科专家确定测验所考查的属性数和验证已有Q矩阵。在确定部分项目的Q矩阵之后, 尤其是可达矩阵的测验项目, 可以添加未标定Q矩阵

的新题进入测验, 再收集数据后, 采用半监督式Q矩阵标定方法得出新题的Q矩阵; (4)在构建了包含Q矩阵和项目参数的题库基础之上, 如果采用计算机化自适应诊断测验, 可以针对采用的认知诊断模型选择相应的初始题选题方法和后续选题方法, 实施自适应测验; (5)在构建了包含Q矩阵和项目参数的题库基础之上, 可以使用计算机自动组卷, 用于线性测验或多阶段测验。

表2详细地列出了Q矩阵特点、满足条件、应用情景和推荐的诊断方法。根据认知机制的分类(von Davier & Lee, 2019), 因为连接或非补偿(conjunctive or non-compensatory)、非连接或补偿(disjunctive or compensatory)经常互用, 故表2中仅分为连接和非连接。已有文献尚未对所有组合条件进行研究, 比如Gu和Xu (2021a, 2023)尚未研究属性层级结构下一般化认知诊断模型可识别的条件, 以及Heller (2022)仅给出一般结构下连接机制的结论, 故表中并没有穷尽所有组合条件。在表2中, 小样本条件下均推荐NPC, 这主要有三方面考虑:第一, 因为伴随列出的测验Q

图1  Q矩阵理论研究趋势

表2  完备Q矩阵应用条件

结构 水平 机制 Q矩阵 理论基础 样本量 诊断方法

层级 二值 连接 Q矩阵包含单位矩阵

Q矩阵可达矩阵R (定理1)

Q矩阵包含介于两者之间的E* (定理4) Chiu (2009)

丁树良等(2010)

K?hn和Chiu (2019, 2021)

Heller (2022) 小 NPC

定理10或定理11的条件 Gu和Xu (2021a, 2023) 中 DINA-AHM

非连接 Q矩阵包含单位矩阵(充分条件) Chiu和K?hn (2015b) 小 NPC

定理A6 Gu和Xu (2021a, 2023) 中 DINO-AHM

原文中定理3(充分条件) Gu和Xu (2021a, 2023) 中 ACDM/LLTM

独立 二值 连接 Q矩阵包含单位矩阵

定理2或定理3的条件 Chiu (2009)

Heller (2022) 小 NPC

定理8的条件 Gu和Xu (2019b) 中 DINA

非连接 Q矩阵包含单位矩阵 Chiu和K?hn (2015b) 小 NPC

定理8的条件 Gu和Xu (2019b) 中 DINO

定理9的条件 Gu和Xu (2020, 2021b) 中 ACDM/LLTM

大 GDINA

LCDM

GDM

层级

(含独立) 多值 非连接 Q矩阵包含拟可达矩阵 丁树良, 罗芬等(2015)

Sun等人(2013)

蔡艳和涂冬波(2015) 中 GDD-P

一般 二值 连接 Q矩阵包含基本属性模式矩阵B或定理5、6、7中条件 Heller (2022) 小 NPC

注:小样本量 = 0-500; 中样本量 = 500-1000; 大样本量 = 1000以上; NPC = 非参数方法; GDD-P = 多级属性的广义距离判别法; ACDM = 加性认知诊断模型; LLTM = 线性逻辑斯蒂克模型。

矩阵要求较低(仅要求包含单位矩阵或可达矩阵), 这尚不能满足DINA或DINO模型参数严格或部分可识别的条件; 第二, 样本量500基本上是认知诊断模型获得较高精度时对样本量的最低要求, 这是众多研究形成的共识(参见:Sen & Cohen, 2021)。虽然融入先验分布信息的贝叶斯估计方法可以加速算法收敛, 但是样本量500比样本量30或100的模式判准率至少高20%或10% (Ma & Jiang, 2021); 第三, 根据最新研究(Ma, de la Torre, & Xu, 2023), NPC和拓广NPC (the general NPC, GPNC)仍是小样本量下推荐方法。

不同定义下的完备Q矩阵, 分别可用于测验不同阶段并发挥不同作用, 以及伴随着推荐的认知诊断模型或方法。基于理想反应模式的完备Q矩阵首先可用于指导测验设计, 在给定属性及其层级关系以后, 可以根据属性层级结构设计完备Q矩阵, 并用于指导测验题目编制。在收集到实测数据之后, 在小样本量情景下, 可采用非参数认知诊断方法(NPC或GNPC); 在样本量中等情景下, 可采用DINA、DINO、加性认知诊断模型(the additive cognitive diagnosis model, ACDM)或线性逻辑斯蒂克模型(linear logistic test model, LLTM); 在大样本量情景下, 可以选用一般化认知诊断模型(GDINA、LCDM、GDM), 借助模型可识别条件并结合数据分析, 判断Q矩阵、项目参数、分布参数、属性结构等参数的可识别性。

5  展望

与模型无关Q矩阵理论和一般化认知诊断模型下Q矩阵理论值得深入研究。因为基于理想反应模式所定义的完备Q矩阵可应用于测验设计, 这对于指导认知诊断测验开发至关重要, 开展部分识别下与模型无关Q矩阵理论研究对于不同粒度诊断具有重要意义。已有研究主要给出了DINA、DINO模型下 ,  ,  等可识别的充要条件, 但是对于一般化认知诊断模型主要给出的是充分条件(Culpepper, 2023; Gu & Xu, 2019b, 2021a, 2021b, 2023), 并且相关结论已经用于从数据中学习属性层级结构和Q矩阵(Ma, Ouyang, & Xu, 2023; Xiong et al., 2022)。一般化認知诊断模型 ,  ,  可识别是否存在充要条件, 充要条件是什么, 有的充分条件、严格(一般)可识别及推导过程仍然比较复杂(Culpepper, 2023; He et al., 2023), 能否变化成更为简洁的条件, 这些问题仍值得研究。较多研究关注如何从数据中学习属性结构(Chen & Wang, 2023; Ma, Ouyang, & Xu, 2023; Wang & Lu, 2021)。模型部分识别和一般性识别理论, 对于属性层级结构下Q矩阵、结构、属性数、参数学习有何借鉴意义, 有待探讨。多值Q矩阵下非结构化完备Q矩阵的相应问题也值得探究(丁树良 等, 2022)。

最新认知诊断模型和新开发模型下Q矩阵理论及应用也值得拓展。多策略(Ma & Guo, 2019; Wang et al., 2023)、多级评分(Chen & de la Torre, 2018; He et al., 2023; Liu & Jiang, 2018; Ma & de la Torre, 2016)、混合评分(Liu et al., 2022)、属性多级(Bao, 2019; Ma & Jiang, 2021)等模型下, Q矩阵理论仍值得研究。例如, 已有研究在二值Q矩阵下, 采用每掌握一属性计一分的多级评分方式, 得出了完备Q矩阵须满足列满秩条件(丁树良, 罗芬 等, 2014; 丁树良, 汪文义 等, 2014)。还有研究在多值Q矩阵下, 采用当被试属性掌握水平等于或高于项目所考查属性水平并以考查水平记分的多级评分方式, 得出了完备Q矩阵须含拟可达矩阵的充分条件(Sun et al., 2013)。这两种评分方式有一定的应用场景。对于分小题(类别)评分且小题(类别)可能考查一个、多个属性时, 如果给定各分数类别的属性向量, 也称为约束类别Q矩阵(a restricted QC-matrix), 在使用约束序贯多级评分模型(the restricted sequential G-DINA model)时(Ma & de la Torre, 2016), 约束类别Q矩阵如何设计也值得讨论。在新开发认知诊断模型时, 也要注意Q矩阵设计, 以保证新模型各类参数可识别。

有待深入开展Q矩阵理论在属性标定、选题策略、组卷方法中的应用研究。Q矩阵理论中完备Q矩阵, 特别是非结构化完备Q矩阵的研究, 除指导認知诊断测验设计之外, 对于Q矩阵学习标定或验证、选题策略、题库建设、多步骤自适应测验等方面也有着潜在应用价值(丁树良 等, 2022)。Q矩阵估计或修正方法取得了一定的发展(李佳 等, 2021), 但是属性层级、多级属性、多策略下Q矩阵估计和修正尚待研究。在属性层级结构下Q矩阵估计和验证方法中, 少标属性、多标属性对Q矩阵估计和验证方法的影响或修正, 都值得进一步研究。一般化认知诊断模型下完备Q矩阵, 如何用于计算机化自适应诊断测验序贯优化Q矩阵设计与选题策略设计, 怎样改进属性层级结构下组卷方法(唐小娟 等, 2013, 2022), 仍有待考虑。

参考文献

蔡艳, 涂冬波. (2015). 属性多级化的认知诊断模型拓展及其Q矩阵设计. 心理学报, 47(10), 1300?1308.

昌维, 詹沛达, 王立君. (2018). 认知诊断中多分属性与二分属性的对比研究. 心理科学, 41(4), 982?988.

丁树良, 罗芬, 汪文义. (2012). Q矩阵理论的扩展. 心理学探新, 32(5), 417?422.

丁树良, 罗芬, 汪文义. (2014). 多级评分认知诊断测验蓝图的设计——独立型和收敛型结构. 江西师范大学学报(自然科学版), 38(3), 265?269.

丁树良, 罗芬, 汪文义, 李佳, 熊建华. (2022). 非结构化完备Q阵的构造与判定. 江西师范大学学报(自然科学版), 46(5), 441?446.

丁树良, 罗芬, 汪文义, 熊建华. (2015). 0-1和多值可达矩阵的性质及应用. 江西师范大学学报(自然科学版), 39(1), 64?68.

丁树良, 罗芬, 汪文义, 熊建华. (2019). 0-1评分认知诊断测验设计. 江西师范大学学报(自然科学版), 43(5), 441?447.

丁树良, 毛萌萌, 汪文义, 罗芬, Cui, Y. (2012). 教育认知诊断测验与认知模型一致性的评估. 心理学报, 44(11), 1535?1546.

丁树良, 汪文义, 罗芬. (2012). 认知诊断中Q矩阵和Q矩阵理论. 江西师范大学学报(自然科学版), 36(5), 441?445.

丁树良, 汪文义, 罗芬. (2014). 多级评分认知诊断测验蓝图的设计——根树型结构. 江西师范大学学报(自然科学版), 38(2), 111?118.

丁树良, 汪文义, 罗芬, 熊建华. (2015). 多值Q矩阵理论. 江西师范大学学报(自然科学版), 39(4), 365?370.

丁树良, 汪文义, 罗芬, 熊建华. (2016). 可达阵功能的不可替代性. 江西师范大学学报(自然科学版), 40(3), 290?294+298.

丁树良, 汪文义, 罗芬, 熊建华. (2017). Q矩阵理论探微. 江西师范大学学报(哲学社会科学版), 50(1), 71?79.

丁树良, 汪文义, 罗芬, 熊建华. (2018). Q矩阵标定的一种简便方法. 江西师范大学学报(自然科学版), 42(2), 130?133.

丁树良, 汪文义, 杨淑群. (2011). 认知诊断测验蓝图的设计. 心理科学, 34(2), 258?265.

丁树良, 杨淑群, 汪文义. (2010). 可达矩阵在认知诊断测验编制中的重要作用. 江西师范大学学报(自然科学版), 34(5), 490?494.

丁树良, 祝玉芳, 林海菁, 蔡艳. (2009). Tatsuoka Q矩阵理论的修正. 心理学报, 41(2), 175-181.

高椿雷, 罗照盛, 郑蝉金, 喻晓锋, 彭亚风, 郭小军. (2017). CD-CAT初始阶段项目选取方法. 心理科学, 40(2), 485?491.

康春花, 杨亚坤, 曾平飞. (2017). 海明距离判别法分类准确率的影响因素. 江西师范大学学报(自然科学版), 41(4), 394?400.

康春花, 朱仕浩, 宫皓明, 曾平飞. (2023). 一种可融入额外信息的机器学习诊断法. 心理科学, 46(1), 212?220.

李佳, 毛秀珍, 张雪琴. (2021). 认知诊断Q矩阵估计(修正)方法. 心理科学进展, 29(12), 2272?2280.

李元白, 曾平飞, 杨亚坤, 康春花. (2018). 一种非参数的多策略方法:多策略的海明距离判别法. 江西师范大学学报(自然科学版), 42(1), 67?73.

罗芬, 王晓庆, 丁树良, 熊建华. (2018). 自适应分组认知诊断测验设计及其选题策略. 心理科学, 41(3), 720?726.

唐小娟, 丁树良, 毛萌萌, 俞宗火. (2013). 基于属性层级结构的认知诊断测验的组卷. 心理学探新, 33(3), 252?259.

唐小娟, 丁树良, 俞宗火. (2022). 题目属性向量平衡策略的认知诊断测验设计. 心理科学, 45(6), 1466?1474.

田伟, 辛涛. (2012). 基于等级反应模型的规则空间方法. 心理学报, 44(1), 249?262.

涂冬波, 蔡艳, 戴海琦. (2013). 认知诊断CAT选题策略及初始题选取方法. 心理科学, 36(2), 469?474.

王立君, 唐芳, 詹沛达. (2020). 基于认知诊断测评的个性化补救教学效果分析: 以“一元一次方程”为例. 心理科学, 43(6), 1490?1497.

汪文义, 丁树良, 宋丽红. (2015). 认知诊断中基于条件期望的距离判别方法. 心理学报, 47(12), 1499?1510.

汪文义, 宋丽红, 丁树良. (2015). 基于探索性因素分析的Q矩阵标定方法. 江西师范大学学报(自然科学版), 39(2), 138?144+170.

汪文义, 宋丽红, 丁树良. (2018). 基于可达阵的一种Q矩阵标定方法. 心理科学, 41(4), 968?975.

王晓庆, 丁树良, 罗芬. (2019). 认知诊断中的Q矩阵及其作用. 心理科学, 42(3), 739-746.

詹沛达, 边玉芳, 王立君. (2016). 重参数化的多分属性诊断分类模型及其判准率影响因素. 心理学报, 48(3), 318?330.

詹沛达, 丁树良, 王立君. (2017). 多分属性层级结构下引入逻辑约束的理想掌握模式. 江西师范大学学报(自然科学版), 41(3), 289?295.

祝玉芳, 丁树良. (2009). 基于等级反应模型的属性层级方法. 心理学报, 41(3), 267?275.

Bao, Y. (2019). A diagnostic classification model for polytomous attributes (Unpublished doctoral dissertation). University of Georgia.

Briggs, D., Alonzo, A., Schwab, C., & Wilson, M. (2006). Diagnostic assessment with ordered multiple-choice items. Educational Assessment, 11(1), 33?63.

Briggs, D. C., & Alonzo, A. C. (2012). The psychometric modeling of ordered multiple-choice item responses for diagnostic assessment with a learning progression. In A.C. Alonzo, & A.W. Gotwals (Eds.), Learning progressions in science (pp. 293?316). Rotterdam, Sense Publishers.

Cai, Y., Tu, D., & Ding, S. (2018). Theorems and methods of a complete Q matrix with attribute hierarchies under restricted Q-matrix design. Frontiers in Psychology, 9, Article 1413.

Chang, Y. P., Chiu, C. Y., & Tsai, R. C. (2019). Nonparametric CAT for CD in educational settings with small samples. Applied Psychological Measurement, 43(7), 543?561.

Chen, J., & de la Torre, J. (2013). A general cognitive diagnosis model for expert-defined polytomous attributes. Applied Psychological Measurement, 37(6), 419?437.

Chen, J., & de la Torre, J. (2018). Introducing the general polytomous diagnosis modeling framework. Frontiers in Psychology, 9, Article 1474.

Chen, Y., Liu, J., Xu, G., & Ying, Z. (2015). Statistical analysis of Q-matrix based diagnostic classification models. Journal of the American Statistical Association, 110(510), 850?866.

Chen, Y., & Wang, S. (2023). Bayesian estimation of attribute hierarchy for cognitive diagnosis models. Journal of Educational and Behavioral Statistics, 48(6), 810?841. https://doi.org/10.3102/10769986231174918.

Chiu, C.-Y., & Chang, Y. (2021). Advances in CD-CAT: The general nonparametric item selection method. Psychometrika, 86(4), 1039?1057.

Chiu, C.-Y, & Douglas, J. (2013). A nonparametric approach to cognitive diagnosis by proximity to ideal response patterns. Journal of Classification, 30, 225?250.

Chiu, C.-Y., Douglas, J. A., & Li, X. D. (2008). Cluster analysis for cognitive diagnosis: Theory and applications (Unpublished doctoral dissertation). University of Illinois at Urbana-Champaign.

Chiu, C.-Y., Douglas, J. A., & Li, X. (2009). Cluster analysis for cognitive diagnosis: Theory and applications. Psychometrika, 74(4), 633?665.

Chiu, C.-Y., & K?hn, H.-F. (2015a). A general proof of consistency of heuristic classification for cognitive diagnosis models. British Journal of Mathematical and Statistical Psychology, 68(3), 387?409.

Chiu, C.-Y., & K?hn, H.-F. (2015b). Consistency of cluster analysis for cognitive diagnosis: The DINO model and the DINA model revisited. Applied Psychological Measurement, 39(6), 465?479.

Culpepper, S. A. (2023). A note on weaker conditions for identifying restricted latent class models for binary responses. Psychometrika, 88(1), 158?174.

Decarlo, L. T. (2011). On the analysis of fraction subtraction data: The DINA model, classification, latent class sizes, and the Q-matrix. Applied Psychological Measurement, 35(1), 8?26.

Dibello, L. V., Stout, W. F., & Roussos, L. A. (1995). Unified cognitive psychometric diagnostic assessment likelihood-based classification techniques. In P. D. Nichols, S. F. Chipman, & R. L. Brennan (Eds.), Cognitively Diagnostic Assessment (pp. 361?389). Routledge.

de la Torre, J. (2011). The generalized DINA model framework. Psychometrika, 76(2), 179?199.

de la Torre, J., Qiu, X. L., & Santos, K.C. (2022). An empirical Q-matrix validation method for the polytomous G-DINA model. Psychometrika, 87(2), 693?724.

Falmagne, J.-C., & Doignon, J.-P. (2011). Learning spaces: Interdisciplinary applied mathematics. Berlin, Heidelberg: Springer.

Gu, Y., & Xu, G. (2019a). Learning attribute patterns in high-dimensional structured latent attribute models. Journal of Machine Learning Research, 20(115), 1?58.

Gu, Y., & Xu, G. (2019b). The sufficient and necessary condition for the identifiability and estimability of the DINA model. Psychometrika, 84(2), 468?483.

Gu, Y., & Xu, G. (2020). Partial identifiability of restricted latent class models. The Annals of Statistics, 48(4), 2082?2107.

Gu, Y., & Xu, G. (2021a). Identifiability of hierarchical latent attribute models. Retrieved July 15, 2023, from https://arxiv.org/abs/1906.07869.

Gu, Y., & Xu, G. (2021b). Sufficient and necessary conditions for the identifiability of the Q-matrix. Statistica Sinica, 31(1), 449?472.

Gu, Y., & Xu, G. (2023). Identifiability of hierarchical latent attribute models. Statistica Sinica, 33, 1?31.

Haertel, E. H. (1989). Using restricted latent class models to map the skill structure of achievement items. Journal of Educational Measurement, 26(4), 301?321.

He, S., Culpepper, S. A., Douglas, J. (2023). A sparse latent class model for polytomous attributes in cognitive diagnostic assessments. In L.A. van der Ark, W.H.M. Emons, & R.R. Meijer (Eds.), Essays on Contemporary Psychometrics (pp. 413?442). Springer.

Heller, J. (2022). Complete Q-matrices in conjunctive models on general attribute structures. British Journal of Mathematical and Statistical Psychology, 75(2), 522?549.

Heller, J., Anselmi, P., Stefanutti, L., & Robusto, E. (2017). A necessary and sufficient condition for unique skill assessment. Journal of Mathematical Psychology, 79, 23?28.

Heller, J., Stefanutti, L., Anselmi, P., & Robusto, E. (2015). On the link between cognitive diagnostic models and knowledge space theory. Psychometrika, 80(4), 995?1019.Henson, R. A., Templin, J. L., & Willse, J. T. (2009). Defining a family of cognitive diagnosis models using log-linear models with latent variables. Psychometrika, 74(2), 191?210.

Kaplan, M., de la Torre, J., & Barrada, J. R. (2015). New item selection methods for cognitive diagnosis computerized adaptive testing. Applied Psychological Measurement, 39(3), 167?188.

Karelitz, T. M. (2004). Ordered category attribute coding framework for cognitive assessments (Unpublished doctoral dissertation). University of Illinois at Urbana- Champaign.

K?hn, H.-F., & Chiu, C.-Y. (2017). A procedure for assessing the completeness of the Q-matrices of cognitively diagnostic tests. Psychometrika, 82(1), 112?132.

K?hn, H.-F., Chiu, C. -Y. (2018). How to build a complete Q-matrix for a cognitively diagnostic test. Journal of Classification, 35, 273?299.

K?hn, H.-F., & Chiu, C.-Y. (2019). Attribute hierarchy models in cognitive diagnosis: Identifiability of the latent attribute space and conditions for completeness of the Q-matrix. Journal of Classification, 36, 541?565.

K?hn, H.-F., & Chiu, C.-Y. (2021). A unified theory of the completeness of Q-matrices for the DINA model. Journal of Classification, 38(3), 500?518.

Kuo, B.-C., Pai, H.-S., & de la Torre, J. (2016). Modified cognitive diagnostic index and modified attribute-level discrimination index for test construction. Applied Psychological Measurement, 40(5), 315?330.

Leighton, J., & Gierl, M. (2007). Cognitive diagnostic assessment for education: Theory and applications. Cambridge, UK: Cambridge University Press.

Leighton, J. P., Gierl, M. J., & Hunka, S. M. (2004). The attribute hierarchy method for cognitive assessment: A variation on Tatsuokas rule-space approach. Journal of Educational Measurement, 41(3), 205?237.

Liu, J., Xu, G., & Ying, Z. (2012). Data-driven learning of Q-matrix. Applied Psychological Measurement, 36(7), 548?564.

Liu, J., Xu, G., & Ying, Z. (2013). Theory of self-learning Q-matrix. Bernoulli, 19(5A), 1790?1817.

Liu, R. (2018). Misspecification of attribute structure in diagnostic measurement. Educational and Psychological Measurement, 78(4), 605?634.

Liu, R., Huggins-Manley, A. C., & Bradshaw, L. (2016). The impact of Q-matrix designs on diagnostic classification accuracy in the presence of attribute hierarchies. Educational and Psychological Measurement, 77(2), 220?240.

Liu, R., & Jiang, Z. (2018). Diagnostic classification models for ordinal item responses. Frontiers in Psychology, 9, Article 2512, https://doi.org/10.3389/fpsyg.2018.02512.

Liu, R., Liu, H., Shi, D., & Jiang, Z. (2022). Diagnostic classification models for a mixture of ordered and non-ordered response options in rating scales. Applied Psychological Measurement, 46(7), 622?639.

Liu, Y., Xu, G., & Ying, Z. (2011). Learning item-attribute relationship in Q-matrix based diagnostic classification models. Retrieved July 15, 2023, from http://arxiv.org/ pdf/1106.0721v1.pdf.

Ma, C., Ouyang, J. & Xu, G. (2023). Learning latent and hierarchical structures in cognitive diagnosis models. Psychometrika, 88(1), 175?207.

Ma, W. (2022). A higher-order cognitive diagnosis model with ordinal attributes for dichotomous response data. Multivariate Behavioral Research, 57(2-3), 408?421.

Ma, C., de la Torre, J. & Xu, G. (2023). Bridging parametric and nonparametric methods in cognitive diagnosis. Psychometrika, 88(1), 51?75.

Ma, W., & de la Torre, J. (2016). A sequential cognitive diagnosis model for polytomous responses. British Journal of Mathematical and Statistical Psychology, 69(3), 253?275.

Ma, W., & Guo, W. (2019). Cognitive diagnosis models for multiple strategies. British Journal of Mathematical and Statistical Psychology, 72(2), 370?392.

Ma, W., & Jiang, Z. (2021). Estimating cognitive diagnosis models in small samples: Bayes modal estimation and monotonic constraints. Applied Psychological Measurement, 45(2), 95?111.

Madison, M. J., & Bradshaw, L. P. (2015). The effects of q-matrix design on classification accuracy in the log-linear cognitive diagnosis model. Educational and Psychological Measurement, 75(3), 491?511.

Maris, E. (1999). Estimating multiple classification latent class models. Psychometrika, 64(2), 187?212.

Rupp, A. A., Templin, J., & Henson, R. (2010). Diagnostic measurement: Theory, methods, and applications. New York, NY: Guilford Press.

Sen, S., & Cohen, A. S. (2021). Sample size requirements for applying diagnostic classification models. Frontiers in Psychology, 11, Article 621251. https://doi.org/10.3389/ fpsyg.2020.621251.

Sun, J., Xin, T., Zhang, S., & de la Torre, J. (2013). A polytomous extension of the generalized distance discriminating method. Applied Psychological Measurement, 37(7), 503?521.

Sun, Y., Ye, S., Inoue, S., & Sun, Y. (2014). Alternating recursive method for Q-matrix learning. In J. C. Stamper, Z.A. Pardos, M. Mavrikis, & B. M. McLaren (Eds.), Proceedings of the 7th International Conference on Educational Data Mining (pp. 14?20). London, UK.

Sun, Y., Ye, S., Sun, Y., & Kameda, T. (2015). Improved algorithms for exact and approximate Boolean matrix decomposition. In Proceedings of the 2015 IEEE International Conference on Data Science and Advanced Analytics (pp.1?10). Paris, France.

Tang, X., Duan, H., Ding, S., & Mao, M. (2021). A simplified method for predicting pattern match ratio. Frontiers in Psychology, 12, Article 704724. https://doi.org/10.3389/fpsyg.2021.704724.

Tatsuoka, K. K. (1983). Rule-space: An approach for dealing with misconceptions based on item response theory. Journal of Educational Measurement, 20(4), 345?354.

Tatsuoka, K. K. (1991). Boolean algebra applied to determination of the universal set of knowledge states (ONR- Tech. Rep. No. RR-91-44). Princeton, NJ: Educational Testing Services.

Tatsuoka, K. K. (1995). Architecture of knowledge structures and cognitive diagnosis: A statistical pattern recognition and classification approach. In P. D. Nichols, S. F. Chipman, & R. L. Brennan (Eds.), Cognitively diagnostic assessment (pp. 327?361). Erlbaum.

Tatsuoka, K. K. (2009). Cognitive assessment: An introduction to the rule space method. New York: Routledge Taylor & Francis group.

Templin, J. L., & Henson, R. A. (2006). Measurement of psychological disorders using cognitive diagnosis models. Psychological Methods, 11(3), 287?305.

Tian, W., Zhang, J., Peng, Q., & Yang, X. (2020). Q-matrix designs of longitudinal diagnostic classification models with hierarchical attributes for formative assessment. Frontiers in Psychology, 11, Article 1694. https://doi.org/10.3389/fpsyg.2020.01694.

Toprak, T. E. (2021). An international comparison using cognitive diagnostic assessment: Fourth graders diagnostic profile of reading skills on PIRLS 2016. Studies In Educational Evaluation, 70(6), 101057. https://doi.org/ 10.1016/j.stueduc.2021.101057.

Tu, D., Wang, S., Cai, Y., Douglas, J., & Chang, H.-H. (2019). Cognitive diagnostic models with attribute hierarchies: Model estimation with a restricted Q-matrix design. Applied Psychological Measurement, 43(4), 255?271.

von Davier, M. (2008). A general diagnostic model applied to language testing data. British Journal of Mathematical and Statistical Psychology, 61(2), 287?307.

von Davier, M., & Lee, Y-S. (2019). Handbook of diagnostic classification models: Models and model extensions, applications, software packages. Springer.

Wang, C., & Lu, J. (2021). Learning attribute hierarchies from data: Two exploratory approaches. Journal of Educational and Behavioral Statistics, 46(1), 58?84.

Wang, D., Ma, W., Cai, Y., & Tu, D. (2023). A general nonparametric classification method for multiple strategies in cognitive diagnostic assessment. Behavior Research Methods, 56, 723?735. https://doi.org/10.3758/ s13428-023-02075-8.

Wang, W., Zheng, J., Song, L., Tu, Y., & Gao, P. (2021). Test assembly for cognitive diagnosis using mixed-integer linear programming. Frontiers in Psychology, 12, Article 623077. https://doi.org/10.3389/fpsyg.2021.623077.

Xiong, J., Luo, Z., Luo, G., & Yu, X. (2022). Data-driven Q-matrix learning based on Boolean matrix factorization in cognitive diagnostic assessment. British Journal of Mathematical and Statistical Psychology, 75(3), 638?667.

Xu, G. (2013). Statistical inference for diagnostic classification models (Unpublished doctoral dissertation). Columbia University, New York.

Xu, G. (2017). Identifiability of restricted latent class models with binary responses. The Annals of Statistics, 45(2), 675?707.

Xu, G., & Shang, Z. (2018). Identifying latent structures in restricted latent class models. Journal of the American Statistical Association, 113(523), 1284?1295.

Xu, G., Wang, C., & Shang, Z. (2016). On initial item selection in cognitive diagnostic computerized adaptive testing. The British Journal of Mathematical and Statistical Psychology, 69(3), 291?315.

Xu, G., & Zhang, S. (2016). Identifiability of diagnostic classification models. Psychometrika, 81(3), 625?649.

Zhan, P., Liu, Y., Yu, Z., & Pan, Y. (2023). Tracking ordinal development of skills with a longitudinal DINA model with polytomous attributes. Applied Measurement in Education, 36(2), 99?114.

Zhan, P., Wang, W. C., & Li, X. (2020). A partial mastery, higher-order latent structural model for polytomous attributes in cognitive diagnostic assessments. Journal of Classification, 37, 328?351.

Zheng, Y., & Chang, H. H. (2015). On-the-fly assembled multistage adaptive testing. Applied Psychological Measurement, 39(2), 104?118.

Q-matrix theory and its applications in cognitive diagnostic assessment

SONG Lihong1, WANG Wenyi2, DING Shuliang2

(1 School of Education, Jiangxi Normal University, Nanchang 330022, China)

(2 School of Computer and Information Engineering, Jiangxi Normal University, Nanchang 330022, China)

Abstract: The Q-matrix helps bridge the gap between cognitive psychology and psychometrics, and thus it plays a very important role in cognitive diagnostic assessment. Significant progress has been made in the Q-matrix theory and its applications in recent years. Numerous researchers have made significant contributions to the Q-matrix theory from structured to unstructured matrices, binary to polytomous attributes, simple to complex models, independent to general structures, and dichotomous to polytomous item responses. Following the introduction of the Q-matrix theory, four examples were presented to illustrate its applications in the theoretical validity criterion of diagnostic tests, the design of item selection methods in computerized adaptive test, the methods for Q-matrix learning and specification, and test construction for cognitive diagnosis. Model-free or model-based Q-matrix theory, and the applications of the latest Q-matrix theory needs to be further investigated.

Keywords: cognitive diagnosis, Q-matrix, attribute structure, complete, polytomous attributes