詹沛达 边玉芳 王立君
(1北京师范大学 中国基础教育质量监测协同创新中心, 北京 100875)
(2浙江师范大学 心理系, 金华 321004)
目前, 诊断分类评估(diagnostic classification assessment, DCA)已经受到了国内外学者的广泛关注, 在教育与心理测量实践中具有光明的未来。而诊断分类模型(diagnostic classification models,DCMs) (Rupp, Templin, & Henson, 2010)是对 DCA数据进行分析的必要工具。至今, 国内外学者已经开发了众多的 DCMs, 常见的有 DINA (Junker &Sijtsma, 2001)、DINO (Templin & Henson, 2006)、LLM (Maris, 1999)、GDM (von Davier, 2005)、LCDM(Henson, Templin, & Willse, 2009)、G-DINA (de la Torre, 2011)、HO-DINA (de la Torre & Douglas, 2004)等等。
但纵观现有的 DCMs, 绝大部分是基于二分属性(dichotomous attributes, e.g., 用“0 和 1”分别表示“未掌握”和“掌握”)和二分 Q 矩阵(dichotomous Q-matrix, Q) (Tatsuoka, 1983, 1985)建构的, 而对多分属性(polytomous attributes)和多分 Q矩阵(polytomous Q-matrix, Q) (Karelitz, 2004)的关注并不多(e.g., Karelitz, 2004; von Davier, 2005; Chen &de la Torre, 2013; Sun, Xin, Zhang, & de la Torre,2013)。而在实际教学和测验中更多情况是对知识技能(i.e., 属性)的多水平要求和考查, 比如《全日制义务教育数学课程标准(修改稿)》中就使用了“了解(认识)”、“理解”、“掌握”和“运用”这 4 个顺序类别词汇来表述知识技能目标的不同水平, 具有现实应用价值和前景。此时, 若想进行 DCA则应使用顺序类别属性编码(ordered-category attribute coding,OCAC) (Karelitz, 2004)来对属性的各个水平(类别)进行编码(e.g., 用“0至3”分别表示上述4个顺序类 别词汇, 或用“0至 2”分别表示“掌握很差”、“掌握一般”和“掌握很好”)。多分属性比二分属性能提供更详细的诊断信息、更具有实际应用价值, 且能够对被试做出更为精细地划分。传统的二分属性可被视为多分属性的特例, 进而基于二分属性的 DCMs就无法处理此类情况, 因此很有必要开发一些适用于处理多分属性的 DCMs (polytomous attributes DCMs, Pa-DCMs)。
图1 三种具有代表性的诊断分类模型的理想作答概率示例
查阅国内外相关文献, 目前关于 Pa-DCMs的研究还处于初期探索阶段, 仅有少许DCMs可以处理多分属性(e.g., Karelitz, 2004; Templin, 2004; von Davier, 2005; Chen & da la Torre, 2013), 而其中基于OCAC的仅有OCAC-DINA (Karelitz, 2004)和pGDINA (Chen & de la Torre, 2013)。OCAC-DINA限制了所有题目拥有相同的题目参数; 而 pG-DINA因涉及到G-DINA (de la Torre, 2011)的相关概念,所以理解和解释起来稍显麻烦, 不利于多分属性在实际应用中的推广。为简化理解难度, 可尝试将pG-DINA按不同的缩合规则(condensation rule)(Maris, 1995, 1999)进行约束转化。在DCMs中通常假设各属性对正确作答概率存在3种贡献方式或缩合规则:连接(conjunctive)、分离(disjunctive)和补偿(compensatory) (詹沛达, 李晓敏, 王文中, 边玉芳, 王立君, 2015), 其代表模型分别是 DINA、DINO和LLM, 如图1所示, 可发现3类缩合规则的主要差异在于假设被试掌握部分属性(Part = 1)时的正确作答概率不同, 补偿可以视为连接和分离的折中。目前, 满足连接缩合规则的诊断分类方法被研究的较多, 而满足分离和补偿缩合规则的诊断分类方法目前还未被充分挖掘, 具有很高待研究前景。另外, 国内关于多分属性的相关研究也处于相对匮乏阶段(e.g., 丁树良, 罗芬, 汪文义, 熊建华,2015)。此外, 也未发现有相关研究在多分属性情境下探讨Pa-DCMs判准率的影响因素。
对此, 本研究将从两方面切入, 第一部分对应二分属性情境下具有代表性的 DINA、DINO和LLM, 分别给出 3种易理解且易解释的重参数化Pa-DCMs (reparametrized Pa-DCMs, RPa-DCMs)表达式:RPa-DINA、RPa-DINO和 RPa-LLM; 第二部分则基于多分属性的数量、多分属性的最高水平数、各多分属性之间的相关性、多分属性间的层级结构、被试量和题目数这6个潜在的影响因素来探讨新模型的判准率。需要强调的是因为 3个RPa-DCMs基于不同的缩合规则, 所以关于3者的探究是平行进行的。
I
×K
, 其中I
表示题目数量,K
表示属性数量)是连接题目与属性的纽带, 通常 Q矩阵是由0与1所组成的, 它的元素q
界定了题目i
与第k
个属性间的关系, 若q
= 1表示题目i
考查了第k
个属性, 反之为q
= 0。而作为Q矩阵的拓广, Q矩阵是由非负整数所组成的(Karelitz, 2004), 它的元素q
界定了题目i
对第k
个属性考查水平。式(1)和式(2)分别列出了相对应的Q矩阵和Q矩阵,以第1题为例, Q矩阵描述了第1题考查了第2和第3个属性, 而Q矩阵不仅描述了第1题考查了第2和第3个属性, 且描述了第1题对第2个属性的考查水平相对更高。因此, Q矩阵比 Q矩阵能提供更多的诊断信息。
二分属性情境下的DINA由于其参数较少、计算简便且易于解释等特点, 近些年得到了国内外较广泛的关注和研究(e.g., de la Torre, 2008, 2009;Huang & Wang, 2014; Li & Wang, 2015; 涂冬波,蔡艳, 戴海崎, 丁树良, 2010; 詹沛达等, 2015; 詹沛达, 边玉芳, 2015)。Maris (1995, 1999)将连接缩合规则(conjunctive condensation rule)描述为:
式中,Y
表示在作答题目i
时, 被试n
的显变量;X
表示在作答题目i
时, 被试n
的第k
个潜变量;C
函数为缩合规则。则式(3)表示当且仅当K
个X
均为1时,Y
才为1。应用至DCA中, 则表示当被试n
掌握题目i
考查的全部K
个属性时, 其理想正确作答概率才为1。相对于 Chen和 de la Torre (2013)给出的Pa-DINA表达式, 本研究给出一种理解和解释起来相对简单且与之等价的RPa-DINA表达式:
另外, 当L
= 1时式(4)就可直接用于描述DINA, 无需做任何形式上的改变, 这符合“DINA应是RPa-DINA的约束模型(特例)”这一基本逻辑。DINO与DINA的区别是假设各属性之间满足分离缩合规则(disjunctive condensation rule) (Maris,1995, 1999):
各参数含义同上, 其表示任意第k
个X
为1时,Y
就等于1。应用至DCA中, 则表示当被试n
掌握题目i
考查的任意第k
个属性时, 其理想正确作答概率就是1。Maris (1995, 1999)认为分离缩合规则反映出题目允许被试采用多策略(利用不同的属性或属性组合)来解答。因此, DINO适合测量一些非能力心理特质(Templin & Henson, 2006)且在诊断被试作答错误原因方面也很有优势。与 DINO对应,则RPa-DINO可被描述为:Maris (1999)借鉴 Muthén (1978)、Bock 和 Aitkin(1981)的题目因素分析模型的思想, 指出补偿模型(compensatory model)的背后假设是当题目考查多个潜变量时, 被试对各潜变量的掌握程度能够相互弥补。则补偿缩合规则可被描述为:
式中各参数含义同上, 其表示Y
等于K
个X
之和。应用至DCA中, 是指被试n
对题目i
的正确作答概率(的对数发生比)会随着被试掌握该题目所考查的属性个数的增加而增加。因此, LLM适合测量言语类能力, 因为通常认为言语类能力之间是可以相互补偿的(Bernhardt, 2010; Stanovich, 2000)。关于 LLM 的介绍可参阅 Maris (1999)和詹沛达等(2015), 不再赘述。则RPa-LLM可被描述为:式中,λ
为题目i
的截距, exp (λ
)/[1+exp (λ
)]用于描述正确作答题目i
的基线概率;λ
为题目i
中属性k
的权重(即λ
≥0), 用于描述掌握属性k
对正确作答题目i
的概率的对数发生比的增量; 其他参数含义同上。同样, 当L
= 1时式(8)就可直接用于描述LLM, 无需做任何形式上的改变, 这符合“LLM 应是RPa-LLM的约束模型”这一基本逻辑。K
= 3, 5, 7)、多分属性的最高水平数(L
= 2, 3, 4,5)、各多分属性之间相关性(Cor =
零相关(0)、
低相关(0.2)、中等相关(0.5)和高相关(0.8))、多分属性间的层级结构(H
= 离散型、线型、发散型、聚合型, 见图2 (Sun et al., 2013))、被试量(N
= 500、1000、2000)和题目数(I
= 25、50)。为便于清晰地探究各潜在影响因素, 本文包含两个研究, 其中:研究1侧重于探讨前4个主要自变量对RPa-DCMs的独立影响, 包括4个子研究(1)多分属性数量对RPa-DCMs的判准率影响; (2)多分属性的最高水平数对RPa-DCMs的判准率影响; (3)多分属性间的相关性对 RPa-DCMs的判准率影响;(4)多分属性层级结构对 RPa-DCMs的判准率影响;而实际测验中应存在多自变量的共同影响, 研究 2就侧重于探讨多个自变量对 RPa-DCMs的判准率的共同影响。以期为实证研究者提供相关理论支持。
图2 多分属性之间的层级结构示例
ACCR
和属性模式判准率PCCR
作为属性返真性的评价指标:式中,N
为样本容量,K
为属性个数,L
= 2)为例, 则其对应的R矩阵和简化Q矩阵见表1, 其余情况读者可自行推算。表1 3个多分属性(离散型/L = 2)的Rp矩阵和简化Qp矩阵
MVN
(0, Σ)生成K
维连续变量矩阵; (2)设定各连续变量满足标准正态分布, 则对其按Z值表进行面积均等的(L
+1)段切割(e.g.,L
= 2时, 就按−0.44和0.44进行3段切割); (3)通过设定Σ矩阵来调控各多分属性之间的相关。当考虑属性层级结构时(发散型、聚合型、线型), 被试属性掌握状态在简化 Q矩阵(增加全 0模式)中随机抽取, 且尽量保持每种掌握每种属性模式的被试数量相等。n
在项目i
上的正确作答概率P
。其次生成一个随机数r
(0≤r
≤1), 则得 1分的条件为:本文采用基于贝叶斯MCMC算法的OpenBUGS(Spiegelhalter, Thomas, Best, & Lunn, 2014)进行参数估计, OpenBUGS代码可向第一作者索取。另外,读者若使用Chen和de la Torre (2013)的pG-DINA模型, 可直接使用R软件中的CDM包来实现更为快速的参数估计。作者已验证, 使用RPa-DCMs与直接使用 pG-DINA的约束模型去拟合同一批数据可得到相同的参数估计结果, 包括属性(模式)估计值和需要相互转化的题目参数。
L
= 2,Cor
= 0,H
= 离散型,N
= 2000,I
= 50, 在相同实验条件下3个RPa-DCMs采用相同的测验 Q矩阵, 相同的被试掌握属性状态。研究结果见表 2, 低于 0.6的结果已用粗体标出, 下同。针对 RPa-DINA, 当多分属性个数为 3时, 均ACCR为0.969, PCCR为0.921; 当多分属性数量提高到 5时, 均 ACCR降为 0.926, 而 PCCR的降幅达0.2左右; 当多分属性数量提高到7个时,均ACCR已降至0.9以下, PCCR仅为0.555, 已经不足以满足实际测验需要。与 RPa-DINA类似,RPa-DINO和RPa-LLM的均ACCR和PCCR也随着多分属性数量的增加而降低。且RPa-LLM受多分属性个数的影响相对更大, 这可能与 RPa-LLM的缩合规则需要更多的信息量有关。
K
= 3,Cor
=0,H
= 离散型,N
= 2000,I
= 50, 在相同实验条件下3个RPa-DCMs采用相同的测验Q矩阵, 相同的被试掌握属性状态。题目参数设定同研究1一致。表2 不同多分属性数量时RPa-DCMs的判准率
研究结果见表 3。当多分属性最高水平数为 2时, 3个RPa-DCMs的均ACCR和PCCR基本相等且较高; 当最高水平数达到 5时, RPa-DINA和RPa-DINO的PCCR降至0.7左右, 而RPa-LLM的降至0.6左右。随着最高水平数的提升, RPa-DINA和RPa-DINO的均ACCR和PCCR出现等幅下降,而 RPa-LLM 的下降趋势相对较大。另外, 相比于多分属性数量的提升, 最高水平数提升时的降幅较小。此外, 我们还计算了各水平的判准率, 基本结果趋势与整体相当且各水平的判准率基本一致, 限于篇幅原因未呈现。
表3 不同多分属性最高水平数时RPa-DCMs的判准率
RPa-DINO 2 0.967 0.969 0.973 0.969 0.924 3 0.931 0.926 0.918 0.925 0.840 4 0.893 0.903 0.886 0.894 0.779 RPa-LLM 5 0.855 0.839 0.843 0.845 0.690 2 0.977 0.975 0.975 0.976 0.934 3 0.921 0.914 0.911 0.915 0.797 4 0.878 0.857 0.866 0.867 0.702 5 0.828 0.808 0.821 0.819 0.625
K
= 3,L
= 2,H
= 离散型,N
= 2000,I
= 50, 在相同实验条件下3个 RPa-DCMs采用相同的测验 Q矩阵, 相同的被试掌握属性状态。题目参数设定同研究1一致。研究结果见表 4。发现, 3个 RPa-DCMs的均ACCR和PCCR均随着多分属性间的相关性提升而提升, 尽管幅度不大。增幅最大处在中等相关到高相关这一阶段。该结果表明, 尽管以往研究在生成属性时存在零相关假设或忽视了属性间的相关性,但它们得到的结论仍对实证研究具有指导意义。
总之, RPa-DCMs的判准率随多分属性之间的相关性的增加而增加。当然, 在实际测验中测验编制者是很难操控该自变量, 但至少本研究表明:当实证研究中属性间存在一定程度相关, 对判准率来讲并非坏事。另外, 作者认为属性层级结构(Leighton,Gierl, & Hunka, 2004)与属性之间相关性至少在概念上是可以相互独立的, 属性层级结构描绘的是属性之间的逻辑关系, 是测验编制者可以操控的, 而属性之间相关性是一个一定程度上依附于抽样群体的统计值, 测验编制者难以操控。同样的属性层级结构会随着抽样群体的不同而得到不同的属性间相关性, 类似, 同样的属性间相关性也可能存在于不同的属性层级结构之中。
表4 多分属性间不同的相关性时RPa-DCMs的判准率
K
= 3)参见 Sun等(2013)一文, 为避免其余变量对结果的影响, 将它们固定为:L
= 3,Cor
= 0,N
= 2000,I
= 50, 在相同实验条件下3个RPa-DCMs采用相同的测验Q矩阵, 相同的被试掌握属性状态。题目参数设定同研究1一致。α
到α
再到α
, 其ACCR依次降低, 发散型和聚合型也有类似的结果。最后需要说明的是, 如果在数据分析前能确保测验Q矩阵或属性层级结构是正确的,则可以将不符合层级结构的属性模式在参数估计时删除。属性的最高水平数增加而降低, 建议实际使用中不超过4水平; (3)随多分属性间的相关性增加而增加,且对判准率的影响相对较小; (5)会受到多分属性层级结构的影响, 其中 RPa-DINA受影响最小,RPa-LLM居中, RPa-DINO受影响最大, 建议实际使用RPa-DINO和RPa-LLM分析数据前, 要确定属性间是否存在潜在的层级结构。根据研究1中4个子研究的结果, 将结论整理如下:RPa-DCMs的判准率(1)随多分属性数量的增加而降低, 建议实际使用中不超过5个; (2)随多分
表5 不同属性层级结构下RPa-DCMs的判准率
Cor
= 0,H
= 离散型), 仅探讨被试量、题目数、多分属性数量与最高水平数这4个自变量同时存在时3个RPa-DCMs的判准率表现。图3 多个自变量同时存在对RPa-DINA判准率影响
研究2结果见图3至图5, 每个模型下均有24种实验条件。其中一些结果验证了研究1中的结论:
图4 多个自变量同时存在对RPa-DINO判准率影响
图5 多个自变量同时存在对RPa-LLM判准率影响
当固定被试量和题目数后, 判准率随属性数量和属性最高水平数的增加而降低, 且当两者同时存在时,对判准率的影响更大(e.g.,K
= 5/L
= 4比K
= 3/L
=2的判准率低0.5左右)。另外还可发现, 增加题目数可促进判准率增加且影响相对较大, 而被试量对判准率几乎无影响。这与二分属性情境下的研究结论类似(e.g., 蔡艳等, 2013; 詹沛达等, 2015), 另外结合de la Torre等(2010)和詹沛达等(2015)的研究结果可知被试量主要影响的是题目参数的返真性,而题目数则影响被试参数(i.e., 属性或能力)的返真性。如若实际测验中更关注的是判准率, 而对题目参数返真性的要求没有那么高, 那么在使用RPa-DCMs时首先要保证的是有充足的题目数, 以减少对被试的诊断信息出现误导的可能。观察3个RPa-DCMs后, 很容易发现尽管它们考虑到了属性的多水平划分, 但它们仍是二级评分(dichotomous scoring)DCMs。目前, 在DCA中尽管已有一些研究在探讨如何实现多级评分, 但还缺乏一个被普遍认可的方法。大体可将现有的多级评分方法分为两类:属性与分数相对应法(e.g., 祝玉芳,丁树良, 2009; 田伟, 辛涛, 2012; Sun et al., 2013)和属性与分数相独立法(e.g., Templin, Henson, Rupp,Jang, & Ahmed, 2008; Hansen, 2013; 涂冬波等,2010)。其中, 前者是指非纯心理测量模型诊断法(e.g., RSM (Tatsuoka, 1983, 1985)、AHM (Leighton et al., 2004))特有的一种需要满足一系列假设的评分方法。假设依次为(1)“属性外显假设”:评分者能够根据被试的作答(当被试未给出某题的正确答案时, 评分者能够根据现有的答案(或作答流程))判断出被试可能掌握了哪些属性及对这些属性掌握水平; (2)“属性与分数相对应假设”:被试得分等于被试正确作答的题目所考察的属性最高水平数加权之和, 可被描述为:
式中,Score
表示被试n
在题目i
上的得分,β
表示属性k
的得分加权,q
为Q矩阵中的元素,ω
为潜在作答。当各属性权重相等(β
=β
)时, 式(12)退化为多分属性情境下的属性与分数相对应评分方法(e.g., Sun et al., 2013)。进一步当β
=β
且L
= 1时, 式(12)就退化为二分属性情境下的属性与分数相对应评分方法(e.g., 祝玉芳, 丁树良, 2009; 田伟,辛涛, 2012); (3)“属性间满足连接缩合规则假设”:由式(12)知, 该评分方法其实是一个潜在作答的累加过程, 仅当被试所有的潜在作答均为1时才能累加得到满分, 因此各属性之间必须满足连接缩合规则。而这3个假设的存在会大大限制属性与分数相对应法的适用范围, 比如:不适用于多项选择题(multiple-choice item) (因为选项数量的限制, 当属性(水平)数量之和大于选项数量时, 则分数与属性(数量)之间的关系无法被合适地描述); 另外, 当建构反应题(constructed response item)的评分细则中的采分点与属性不对应时, 该方法也无法使用。与之不同, 属性与分数相独立法则是源自于IRT 中的多级评分方法(e.g., 等级反应(graded response)、部分评分(partial credit)、称名反应(nomial response)等), 该方法认为评分与潜质(i.e.,属性或能力)是两个相互独立的概念, 即评分方法仅涉及题目参数的而与被试参数无关。单维(相当于 1道题目仅考查 1个属性)题目亦可以有多级评分, 同理, 题目内多维(相当于1道题目考查多个属性)题目亦可仅有二级评分, 即“多维度不等于多级评分”。该方法不存在与属性与分数相对应法相类似的强假设, 适用范围更广泛(e.g., 多项选择题、建构反应题等)。在二分属性情境下, Hansen (2013)在LCDM (Henson et al., 2009)的基础上使用等级反应评分法提出了等级反应LCDM。Templin等(2008)在LCDM (Henson et al., 2009)的基础上使用称名反应评分法提出了称名反应诊断模型。这两个模型可被视为是属性与分数相独立评分法的代表。
综上所述, 当多级评分采用属性与分数相对应法时, 多级评分将依赖于多分属性的水平数; 而当采用属性与分数相独立法时, 多分属性与多级评分也是相独立的, 本研究评分方式为属性与分数相独立法, 相应的多级评分RPa-DCMs已另攥文阐述。
图6 多分属性与二分属性对应关系示例
丁树良等(2015)也使用膨胀算法探讨了如何将R矩阵转化为与之相对应的二分矩阵(称之为M矩阵), 从中也能得出与Karelitz (2004)相同的结论。以图1中聚合型层级结构为例, 假设3个多分属性的L
= 2, 即a
∈{0,1,2}, 则其对应的R矩阵以及相对应的M矩阵为:为了让读者更好地理解多分属性与二分属性之间的关系, 我们结合 Karelitz (2004)和丁树良等(2015)的研究, 以线型和聚合型为例把多分属性(L
=2)和二分属性的之间的对应关系以图式表示出来,见图 7, 其中二分属性中的“1-1”和“1-2”是指由多分属性“1”拆分而来的(见图 6), 其余属性同理。仍以聚合型为例, 经推算图7中右侧6个二分属性的可达矩阵, 可得到式(13)中的 M 矩阵, 同时经推算图7左边的3个多分属性的可达矩阵, 可得到式(13)中的R矩阵。同时可发现, 当假设3个多分属性之间存在层级结构时, 其对应的二分属性之间的层级结构仅存在于属性“1-1”、“2-1”和“3-1”之间, 而“1-2”、“2-2”和“3-2”之间相互独立。同理可知, 无论多分属性的最高水平数L
多大, 各属性之间的层级结构仅建构在第1和第2水平(i.e., 0和1)上。另外根据上述内容也可推知, 当把多分属性转换为与之对等的二分属性后, 其可能是潜在属性模式(或待估计属性模式参数)数量仍保持不变。图7 线型与聚合型层级结构下多分属性与二分属性的对应关系
由于多分属性将被试对属性的掌握情况进行了更为细致的划分, 所以它比二分属性提供更多地诊断反馈信息, 也更符合当前国家教育政策(e.g.,《全日制义务教育数学课程标准(修改稿)》)中对知识技能的多水平要求, 具有较好的应用前景。本文首先介绍了多分属性和多分 Q 矩阵的概念; 之后重参数化了3个分别满足连接、分离和补偿缩合规则的RPa-DCMs表达式, 以期简化读者对Pa-DCMs理解;然后, 我们探讨了多分属性数量、多分属性最高水平数、多分属性之间的相关性、多分属性层级结构、被试量和题目数对3个RPa-DCMs判准率的影响,根据研究结果发现:(1)RPa-DCMs的判准率随多分属性数量的增加而降低, 受影响程度从大到小依次为RPa-LLM、RPa-DINO和RPa-DINA。当多分属性的最高水平数较低且题目数量充足时, 多分属性数量也不宜超过5个; (2)判准率随多分属性最高水平数的增加而降低, 其中 RPa-LLM 受影响程度相对最大, 而RPa-DINA和RPa-DINO受影响程度类似。当多分属性的最高水平数较低且题目数量充足时, 多分属性的最高水平数不宜超过 4; (3)判准率随多分属性之间的相关性的增加而增加, 但影响程度相对较小, 实际测验中可不用考虑该因素对判准率的影响; (4)多分属性间的层级结构对不同模型的影响不同, 受影响程度从大到小依次为RPa-DINO、RPa-LLM和RPa-DINA。建议实际使用RPa-DINO和 RPa-LLM 分析数据前, 要确定属性间是否存在潜在的层级结构; (5)被试量对判准率影响很小, 若实际测验中更关注的是判准率而非题目参数的返真性, 则寻找较小的样本量即可满足测验需求; (6)题目数对判准率的影响很大, 当题目数量从较少(25题)提升到中等(50题)时, 3个RPa-DCMs的判准率均有 10%~20%左右的提升。因此实际测验中充足的题目数是得到准确、有效诊断结果的必要前提之一。最后, 本文还探讨了“多分属性与多级评分之间的关系”和“多分属性与二分属性之间的关系”这两个的问题。以期为实证研究者提供相关的理论支持与使用建议。
当然, 由于精力和篇幅有限且为聚焦研究主题,本文对部分研究条件做了简化或限定:(1) Q矩阵界定正确; (2)多分属性层级结构界定正确; (3)题目参数固定; (4)各属性考查次数均衡; (5)限于二级评分数据等等, 而这些限定的研究条件也均可能是RPa-DCMs判准率的影响因素, 值得今后研究进一步探讨。
Bernhardt, E. B. (2010).Understanding advanced secondlanguage reading
. New York: Routledge.Bock, R. D., & Aitkin, M. (1981). Marginal maximum likelihood estimation of item parameters: Application of an EM algorithm.Psychometrika, 46
, 443–459.Cai, Y., Tu, D. B., & Ding, S. L. (2013). A simulation study to compare five cognitive diagnostic models.Acta Psychologica Sinica,45
, 1295–1304.[蔡艳, 涂冬波, 丁树良. (2013). 五大认知诊断模型的诊断正确率比较及其影响因素: 基于分布形态、属性数及样本容量的比较.心理学报, 45
, 1295–1304.]Chen, J. S., & de la Torre, J. (2013). A general cognitive diagnosis model for expert-defined polytomous attributes.Applied Psychological Measurement, 37
, 419–437.de la Torre, J. (2008). An empirically based method of Q-matrix validation for the DINA model: development and applications.Journal of Educational Measurement, 45
,343–362.de la Torre, J. (2009). DINA model and parameter estimation:A didactic.Journal of Educational and Behavioral Statistics,34
, 115–130.de la Torre, J. (2011). The generalized DINA model framework.Psychometrika, 76
, 179–199.de la Torre, J., & Douglas, J. A. (2004). Higher-order latent trait models for cognitive diagnosis.Psychometrika, 69
, 333–353.de la Torre, J., Hong, Y., & Deng, W. L. (2010). Factors affecting the item parameter estimation and classification accuracy of the DINA model.Journal of Educational Measurement, 47
, 227–249.Ding, S. L., Luo, F., Wang, W. Y., & Xiong, J. H. (2015). The properties of 0-1 and polytomous reach ability matrices and their applications.Journal of Jiangxi Normal University(Natural Science Edition), 39
, 64–68.[丁树良, 罗芬, 汪文义, 熊建华. (2015). 0-1和多值可达矩阵的性质及应用.江西师范大学学报(自然科学版), 39
,64–68.]Ding, S. L., Wang, W. Y., & Yang, S. Q. (2011). The design of cognitive diagnostic test blueprints.Journal of Psychological Science, 34
, 258–265.[丁树良, 汪文义, 杨淑群. (2011). 认知诊断测验蓝图的设计.心理科学, 34
, 258–265.]Ding, S. L., Yang, S. Q., & Wang, W. Y. (2010). The importance of reachability matrix in constructing cognitively diagnostic testing.Journal of Jiangxi Normal University (Natural Sciences Edition), 34
, 490–494.[丁树良, 杨淑群, 汪文义. (2010). 可达矩阵在认知诊断测验编制中的重要作用.江西师范大学学报(自然科学版),34
, 490–494.]Embretson, S. (1984). A general latent trait model for response processes.Psychometrika, 49
, 175–186.Hansen, M. P. (2013).Hierarchical item response models for cognitive diagnosis
(Unpublished doctoral dissertation).University of California, LA.Huang, H. Y., & Wang, W. C. (2014). The random-effect DINA model.Journal of Educational Measurement
,51
,75–97.Henson, R. A., Templin, J. L., & Willse, J. T. (2009). Defining a family of cognitive diagnosis models using log-linear models with latent variables.Psychometrika, 74
, 191–210.Junker, B. W., & Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory.Applied Psychological Measurement, 25
(3), 258–272.Karelitz, T. M. (2004).Ordered category attribute coding framework for cognitive assessments
(Unpublished doctoral dissertation). University of Illinois at Urbana–Champaign.Leighton, J. P., Gierl, M. J., & Hunka, S. M. (2004). The attribute hierarchy method for cognitive assessment: A variation on Tatsuoka’s rule-space approach.Journal of Educational Measurement, 41
, 205–237.Li, X. M., & Wang, W.-C. (2015). Assessment of differential item functioning under cognitive diagnosis models: The DINA model example.Journal of Educational Measurement,52
, 28–54.Maris, E. (1995). Psychometric latent response models.Psychometrika, 60
, 523–547.Maris, E. (1999). Estimating multiple classification latent class models.Psychometrika, 64
, 187–212.Muthén, B. (1978). Contributions to factor analysis of dichotomous variables.Psychometrika, 43
, 551–560.Rupp, A. A., Templin, J., & Henson, R. A. (2010).Diagnostic measurement: Theory, methods, and applications
. New York: Guilford Press.Spiegelhalter, D., Thomas, A., Best, N., & Lunn, D. (2014).OpenBUGS
User
Manual
Version
3.2.3
. URL:http://www.openbugs.net/Manuals/Manual.htmlStanovich, K. E. (2000).Progress in understanding reading:Scientific foundations and new frontiers
. New York: The Guilford Press.Sun, J. N., Xin, T., Zhang, S. M., & de la Torre. (2013). A polytomous extension of the generalized distance discriminating method.Applied Psychological Measurement,37
, 503–521.Tatsuoka, K. K. (1983). Rule Space: An approach for dealing with misconceptions based on item response theory.Journal of Educational Measurement, 20
, 345–354.Tatsuoka, K. K. (1985). A probabilistic model for diagnosing misconceptions by the pattern classification approach.Journal of Educational Statistics, 10
, 55–73.Templin, J. L., & Henson, R. A. (2006). Measurement of psychological disorders using cognitive diagnosis models.Psychological Methods, 11
, 287–305.Templin, J. (2004).Generalized linear mixed proficiency models for cognitive diagnosis
(Unpublished doctoral dissertation).University of Illinois at Urbana–Champaign.Templin, J., Henson, R., Rupp, A., Jang, E., & Ahmed, M.(2008).Cognitive diagnosis models for nominal response data
. Paper presentation at the annual meeting of the National Council on Measurement in Education Society,New York, NY.Tian, W., & Xin, T. (2012). A polytomous extension of rule space method based on graded response model.Acta Psychologica Sinica, 44
, 249–269.[田伟, 辛涛. (2012). 基于等级反应模型的规则空间方法.心理学报, 44
, 249–269.]Tu, D. B., Cai, Y., & Dai, H. Q. (2013). Comparison and selection of five noncompensatory cognitive diagnosis models based on attribute hierarchy structure.Acta Psychologica Sinica, 45
, 243–252.[涂冬波, 蔡艳, 戴海琦. (2013). 几种常用非补偿型认知诊断模型的比较与选用: 基于属性层级关系的考量.心理学报, 45
, 243–252.]Tu, D. B., Cai, Y., Dai, H. Q., & Ding, S. L. (2010). A polytomous cognitive diagnosis model: P-DINA model.Acta Psychologica Sinica, 42
, 1011–1020.[涂冬波, 蔡艳, 戴海琦, 丁树良. (2010). 一种多级评分的认知诊断模型: P-DINA模型的开发.心理学报, 42
,1011–1020.]von Davier, M. (2005).A general diagnostic model applied to language testing data
(ETS Research Report no. RR-05-16).Princeton, NJ: Educational Testing Service.Whitely, S. E. (1980). Multicomponent latent trait models for ability tests.Psychometrika, 45
, 479–494.Zhan, P. D., & Bian, Y. F. (2015). The probabilistic-inputs,noisy “and” gate model.Journal of Psychological Science,38
, 1230–1238.[詹沛达, 边玉芳. (2015). 概率性输入, 噪音“与”门(PINA)模型.心理科学, 38
, 1230–1238.]Zhan, P. D., Li, X. M., Wang, W.-C., Bian, Y.-F., & Wang, L. J.(2015). The multidimensional testlet-effect cognitive diagnostic models.Acta Psychologica Sinica, 47
, 689–701.[詹沛达, 李晓敏, 王文中, 边玉芳, 王立君. (2015). 多维题组效应认知诊断模型.心理学报, 47
, 689–701.]Zhan, P. D., Wang, L. J., & Chen, F. P. (2013). Influence of various factors on the DINO's diagnostic accuracy.Examinations Research,
(4), 60–67.[詹沛达, 王立君, 陈飞鹏. (2013). 不同因素对认知诊断DINO模型诊断准确率的影响.考试研究,
(4), 60–67.]Zhu, Y. F., & Ding, S. L. (2009). A polytomous extension of attribute hierarchy method based on graded response model.Acta Psychologica Sinica, 41
, 267–275.[祝玉芳, 丁树良. (2009). 基于等级反应模型的属性层级方法.心理学报, 41
, 267–275.]