认知诊断模型下整体和项目拟合指标*

2016-04-07 05:28:13宋丽红汪文义戴海琦丁树良

心理学探新 2016年1期

关键词：诊断模型测验整体

宋丽红，汪文义，戴海琦，丁树良

(1.江西师范大学初等教育学院，南昌 330022；2.江西师范大学计算机信息工程学院，南昌 330022；

3.江西师范大学心理学院，南昌 330022)

认知诊断模型下整体和项目拟合指标*

宋丽红1，汪文义2，戴海琦3，丁树良2

(1.江西师范大学初等教育学院，南昌 330022；2.江西师范大学计算机信息工程学院，南昌 330022；

3.江西师范大学心理学院，南昌 330022)

摘要：认知诊断模型能否拟合测验数据，直接决定诊断结果的准确性。目前国内鲜有研究涉及认知诊断测验下的模型-资料拟合检验。文章将模型整体拟合指标及基于PPMC的项目拟合指标应用于认知诊断模型-资料拟合检验。模拟研究基于DINA，R-DINA和R-RUM三个诊断模型检验各拟合指标的表现。结果显示整体和项目拟合指标在识别数据产生模型时皆有较高准确率。采用整体和项目拟合指标比较了三个竞争模型与Tatsuoka带分数减法数据的拟合情况，显示R-RUM拟合最好。

关键词：认知诊断模型；DINA；R-DINA；R-RUM；后验预测模型检查；带分数减法数据

1引言

认知诊断评估是认知心理学与心理计量学相结合的产物，是21世纪一种新的测量范式。认知诊断模型是描述可观察反应与潜在认知属性之间关系的统计模型，对认知诊断评估至关重要。为了满足不同情境下实际应用需求，研究者开发出了众多认知诊断模型。相关文献显示，截止到2007年，已有诊断模型超过60个(Fu & Li，2007)，而之后又涌现出了不少诊断模型(陈秋梅，张敏强，2010；R-DINA，宋丽红，戴海琦，汪文义，丁树良，2012)。

在认知诊断实践中，选择恰当的认知诊断模型是对被试准确诊断或分类的重要前提(Rupp，Templin，& Henson，2010)。对于特定的诊断测验，诊断模型的选择要依据心理学或教育学的理论假设，如模型假设与测验作答心理认知过程的匹配性(杨向东，2010；Kunina-Habenicht，Rupp，& Wilhelm，2012)，测验Q矩阵与测验作答所需属性及属性结构的吻合性(丁树良，毛萌萌，汪文义，罗芬，Cui，2012；涂冬波，蔡艳，戴海琦，2013；Chen，Torre，& Zhang，2013；Kunina-Habenicht et al.，2012)。根据理论假设确定一个或几个竞争模型后，需要对诊断模型的模型-资料拟合情况进行考察与评估。

从现有资料来看，国内外公开发表的认知诊断评估框架下模型-资料拟合研究仍不为多见。Chen等人提出采用-2LL，AIC，BIC和三个残差指数识别诊断评估框架下的模型-资料拟合情况(Chen，Torre，& Zhang，2013)。涂冬波、张心、蔡艳和戴海琦(2014)讨论了χ2和G2统计量在认知诊断模型-资料拟合检验中的可行性及效果。然而χ2和G2统计量及Chen等人提出的指标都存在需要确定统计量理论分布的问题。Sinharay等人构建了基于后验预测模型检查方法(PPMC，Rubin，1984)的检验统计量PPP值(posterior predictive p-value，PPP-value)并用于考察贝叶斯网与测验资料的拟合情况(Sinharay，2006；Sinharay & Almond，2007)。由于基于PPMC方法计算的检验统计量PPP值，无需确定统计量分布，因此具有较好的应用前景。但Sinharay和Almond(2007)没有进一步对诊断测验下其指标的性能与表现进行模拟研究，仍无法确定PPP值统计量在认知诊断测验中的检验性能。

2模型资料拟合指标

2.1整体相对拟合指标

此处简要介绍基于缺失数据的整体相对拟合指标：偏差-2LL，AIC，BIC，DIC4。指标越小，表示模型资料拟合越好。各指标计算如下：

AIC=-2LL+2d

BIC=-2LL+dlogN

其中-2LL是对数似然函数的条件期望，AIC，BIC 和DIC4在考虑偏差的基础上，还考虑模型参数多少以惩罚复杂模型，pD4表示模型的有效参数个数或有效维度(Celeux et al.，2006)。

2.2项目及测验绝对拟合指标

其对应的项目或测验PPP值可类似计算得到，PPP值越大显示模型-资料拟合越好。

2.2.2Yen统计量

3模拟研究

3.1实验设计

模拟研究目的是验证上述模型整体拟合统计量和项目拟合统计量的侦测性能。模拟采用的项目Q阵含5个相互独立属性、30个项目(其中考察1个、2个、3个属性的项目数各为10个)。知识状态全集数为32，每种知识状态模拟60人，共模拟1920个被试。由于模型存在差异，DINA模型和R-DINA模型的失误和猜测参数为：1-s~4-Beta(0.4，1，2，1)和g~4-Beta(0，0.6，1，2)，而R-RUM模型中参数分别为：π~U(0.8，0.98)和r~U(0.1，0.6)。固定Q阵和被试，分别采用DINA，R-DINA和R-RUM(产生数据模型，或称真实模型)模拟得分阵。然后对各批得分阵数据，分别使用DINA，R-DINA和R-RUM进行分析(分析数据模型，或称拟合模型)，三个模型均采用MCMC估计，各采用5条链，每条链长设置为5000，保留后面4000。

3.2实验结果及结论

3.2.1MCMC收敛检查

3.2.2整体拟合指标表现

表1列出了各情形下相对拟合指标DIC4及绝对拟合指标G2的测验PPP值。在DIC4的计算结果中，对角线元素皆为其所在列最小值，可见DIC4指标能正确识别数据产生模型。-2LL、AIC和BIC表现类似(结果未列出)。观察绝对拟合指标G2的测验PPP值，发现对角线元素皆为其所在列最大值。由于PPP值越大模型拟合越好，表中数据表明基于PPMC的G2检验法能较好地识别数据产生模型。

表1　模拟数据整体拟合指标

注：左表头第一列表示分析数据模型，上表头第二行表示产生数据模型

表2　模拟数据项目拟合指标表现

注：左表头第二列表示分析数据模型，上表头第二行表示产生数据模型

3.2.3项目拟合指标表现

表2列出了项目拟合指标的表现。在0.01显著性水平上，基于PPMC的χ2检验法拒真率为0；纳伪率稍大。尤其R-DINA和R-RUM模型之间的纳伪概率较大，这是可能因为R-RUM假设比R-DINA弱，R-DINA模型产生的数据，R-RUM可全部拟合。R-RUM模型产生的数据用R-DINA进行分析时，有10个项目发生错判。进一步考察10个错判项目和10个判对的项目(排除10个单个属性项目)，该两批项目R-RUM的rjk参数标准差的平均值分别为.09和.17。这一错判结果在情理之中，因为在属性同质性较高的情况下，R-RUM模型与R-DINA模型区别不大，且R-DINA模型简单得多。G2检验方法与χ2检验方法表现十分接近(结果未列出)。Yen统计量总体表现较χ2检验法稍差，这可能与Yen统计量需要假定统计量分布有关，而基于PPMC的检验方法无需理论分布假设。

4实测数据分析

模拟研究结果显示模型整体和项目拟合指标均表现不错，但指标能否有效应用到实测数据分析有待考察。为此，研究采用经典的Tatsuoka(2002)分数减法测验数据，运用前述各项指标评价三个诊断模型(DINA，R-DINA，R-RUM)与该测验数据资料的拟合情况。

Tatsuoka随文公布的分数减法测验数据含20个项目和536个被试。文章按题目内容从中抽取15个带分数减法项目进行分析，项目所测属性为5个(Sinharay & Almond，2007)，被试属性掌握模式为32种。根据前述模型整体拟合指标和项目拟合指标，下文对三个竞争模与该数据资料的拟合情况进行比较与评价。参数估计采用MCMC方法，总链长25000，保留后面15000。

4.1MCMC收敛检查

4.2模型整体拟合

文章首先考察了三个模型的整体相对拟合指标-2LL、AIC、BIC和DIC4，结果显示，DINA拟合最差，R-DINA与R-RUM各有优势。从DIC4看，R-RUM下DIC4(9157)比R-DINA下DIC4(9211)稍好；但从BIC来看，R-DINA下BIC(9576)较R-RUM BIC(9827)小较多，原因是R-RUM是一个复杂模型，在BIC指标计算中受到了更大的惩罚。Chen等人(2013)的研究结果也表明，较之DINA模型，R-RUM模型与该批实测数据拟合更好。文章接着考察了R-RUM与R-DINA模型的整体绝对拟合指标G2的PPP值，R-RUM模型测验PPP值为0.07，在.05水平上未达到显著，表明R-RUM模型拟合较好。R-DINA的整体绝对拟合指标G2的PPP值为0.01，绝对拟合欠佳。

4.3模型项目拟合

表3列出了三个模型在各项目上的似然比统计量的后验预测P值(卡方统计量的PPP值与之类似，故略)。在0.01显著性水平上，DINA模型有3个项目不拟合，与Sinharay和Almond(2007)基于χ2值(相当于文中Yen统计量)得出的结果基本类似；R-RUM与R-DINA模型各有1个项目拟合不佳；相比之下，R-RUM的PPP值较大，拟合最好，这与上述模型整体拟合结果一致。

表3　带分数减法数据之项目似然比统计量的PPP值

5结论与讨论

模型-资料拟合检验是模型选择的重要依据。然而，模型-资料拟合检验虽可为认知诊断模型选择提供一定信息，但模型的选择不能仅凭模型拟合数据的好坏来评判。认知诊断模型的选择需要综合考虑多方面的因素，如需要充分结合文献调查、学科专家和口语报告等方法的结果，评判所测量的领域涉及的认知属性及属性间关系、分析被试作答的心理认知过程。诊断模型选择还要结合模型的复杂性与解释性及诊断目的能否充分实现等因素，如单维项目反应模型可能可以较好地拟合数据，但要求其提供丰富的诊断信息还比较困难；在能够实现诊断目的的前提下，简单模型较复杂模型参数估计更容易，解释性更好。另外，由于认知诊断模型不拟合原因的多样性，仍需构建检查特定不拟合类型的统计量，如对数机率比可用于模型局部独立性检验。文章仅考虑了模型整体拟合指标和基于知识状态等价类的项目水平拟合指标，被试拟合指标及基于原始分数的项目拟合指标有待进一步探讨和比较。最后，认知诊断模型提供的诊断信息，是否能真正在教学中起到作用，有待更多的实证研究去探讨。

参考文献

陈秋梅，张敏强.(2010).认知诊断模型发展及其应用方法述评.心理科学进展，3，522-529.

丁树良，毛萌萌，汪文义，罗芬，Cui，Y.(2012).教育认知诊断测验与认知模型一致性的评估.心理学报，44，1535-1546.

漆书青，戴海崎，丁树良.(2002).现代教育与心理测量学原理.北京：高等教育出版社.

宋丽红，戴海琦，汪文义，丁树良.(2012).R-DINA模型参数估计EM算法准确性检验.心理学探新，32，410-413.

涂冬波，蔡艳，戴海琦.(2013).几种常用非补偿型认知诊断模型的比较与选用：基于属性层级关系的考量.心理学报，45，243-252.

涂冬波，张心，蔡艳，戴海琦.(2014).认知诊断模型-资料拟合检验统计量及其性能.心理科学，37，205-211.

杨向东.(2010).测验项目反应机制与心理测量模型假设的对应性分析.心理科学进展，18，1349-1358.

Brooks，S.P.，& Gelman，A.(1998).General methods for monitoring convergence of iterative simulations.JournalofComputationalandGraphicalStatistics，47(4)，434-455.

Celeux，G.，Forbers，F.，Robert，C.P.，& Titterington，D.M.(2006).Deviance information criteria for missing data models.BayesianAnalysis，1，651-674.

Chen，J.，Torre，J.D.L.，& Zhang，Z.(2013).Relative and absolute fit evaluation in cognitive diagnosis modeling.JournalofEducationalMeasurement，50，123-140.

Fu，J.B.，& Li，Y.M.(2007).Cognitivelydiagnosticpsychometricmodels：Anintegrativereview.Paper presented at the National Council on Measurement in Education，Chicago，IL.

Junker，B.W.，& Sijtsma，K.(2001).Cognitive assessment models with few assumptions，and connections with nonparametric item response theory.AppliedPsychologicalMeasurement，25，258-272.

Kunina-Habenicht，O.，Rupp，A.A.，& Wilhelm，O.(2012).The impact of model misspecification on parameter estimation and item-fit assessment in log-linear diagnostic classification models.JournalofEducationalMeasurement，49，59-81.

Rubin，D.B.(1984).Bayesianly justifiable and relevant frequency calculations for the applied statistician.AnnalsofStatistics，12，1151-1172.

Rupp，A.A.，Templin，J.L.，& Henson，R.A.(2010).Diagnosticmeasurement：Theory，methods，andapplications.New York：The Guilford Press.

Sinharay，S.(2006).Model diagnostics for bayesian networks.JournalofEducationalandBehavioralStatistics，31，1-33.

Sinharay，S.，& Almond，R.G.(2007).Assessing fit of cognitive diagnostic models：A case study.EducationalandPsychologicalMeasurement，67，239-257.

Tatsuoka，C.(2002).Data analytic methods for latent partially ordered classification models.JournaloftheRoyalStatisticalSociety：SeriesC(AppliedStatistics)，51，337-350.

Global Fit Indices and Item-Fit Indices for Cognitive Diagnostic Models

Song Lihong1，Wang Wenyi2，Dai Haiqi3，Ding Shuliang2

(1.Elementary Educational College，Jiangxi Normal University，Nanchang 330022；2.College of Computer Information Engineering，Jiangxi Normal University，Nanchang 330022；3.College of Psychology，Jiangxi Normal University，Nanchang 330022)

Abstract：One key issue in cognitive diagnostic assessement(CDA)is to select a suitable diagnostic model for a specific test.Mismatch between diagnostic model and test data would lead to decreasing classification accuracy.At present，few studies have addressed model-data fit criterion for CDA.Based on posterior predictive model checking(PPMC)，this study introduces several global fit indices and item-fit indices for model evaluations in CDA.The global fit indexes may provide information for answering the question as to the utility of the data for analysis by the model.The item-fit indexes are used to determine the interaction between the item responses and skills that each item is designed to measure.Simulation and real-data studies are conducted to examine the performance of these indices on three CDMs.The simulation results indicate that：(1)global fit indices are almost able to identify the simulation models and detect poor-fitting models；(2)the item fit indices were able to identify fitting items and detect poor-fitting items.The results from real-data analysis indicate that：(1)according to BIC and DIC4and global G2，the R-RUM performed best followed by R-DINA model，and DINA model worst；(2)for the number of item fit，the R-RUM and the R-DINA model also outperform the DINA model.

Key words：cognitive diagnostic model；DINA；R-DINA；R-RUM；posterior predictive model checking；fraction subtraction data

中图分类号：B841.2

文献标识码：A

文章编号：1003-5184(2016)01-0079-05

通讯作者：宋丽红，E-mail：viviansong1981@163.com。

*基金项目：全国教育科学规划教育部重点课题(DHA150285)。