认知诊断测评中缺失数据的处理:随机森林阈值插补法*

2023-07-08 06:41游晓锋杨建芹秦春影刘红云
心理学报 2023年7期
关键词:诊断模型正确率比例

游晓锋 杨建芹 秦春影 刘红云

认知诊断测评中缺失数据的处理:随机森林阈值插补法*

游晓锋1杨建芹1秦春影1刘红云2, 3

(1南昌师范学院数学与信息科学学院, 南昌 330032) (2应用实验心理北京市重点实验室;3北京师范大学心理学部, 北京 100875)

认知诊断测评中缺失数据的处理是理论和实际应用者非常关注的研究主题。借鉴随机森林插补法(RFI)不依赖于缺失机制假设的特点, 对已有的RFI方法进行改进, 提出采用个人拟合指标(RCI)确定插补阈值的新方法: 随机森林阈值插补方法(RFTI)。模拟研究表明, RFTI在插补正确率上明显高于RFI方法; 与RFI和EM方法相比, RFTI在被试属性模式判准率和边际判准率上表现出明显优势, 尤其是非随机缺失和混合缺失机制, 以及缺失比例较高的条件下, 其优势更加明显。但对项目参数的估计, RFTI方法与EM方法相比不具有优势。

缺失数据, 认知诊断测评, 随机森林阈值插补, 随机森林插补, EM算法

1 引言

近年来, 教育与心理评估的实践越来越关注测评结果的应用, 随着信息技术的发展和精准测评服务的需求, 测评日益融入日常的教学和学习过程(Bennett, 2010)。认知诊断测评(cognitive diagnosis assessment, CDA)通过被试在测验上的反应模式对其特定的知识结构(knowledge structure)和加工技能(processing skills)进行评价, 而推知被试的知识状态(knowledge state, KS), 从而对其优势和劣势提供更具诊断性的信息。认知诊断测评由于其在测评结果反馈上的优势备受研究者和实践应用者的青睐, 然而, 实际测验中往往不可避免存在缺失数据。造成数据缺失的原因有多种, 一方面测验设计上可能带来作答数据缺失, 例如, 国际大规模PISA测试、分层教学等个性化学习的测试, 每个学生只完成全部测试的部分题目; 另一方面, 除设计造成的缺失数据外, 由于其他原因产生的缺失数据也很常见, 例如, 由于测验时间限制或测验安全方面的考虑, 以及测试者有意忽略测验中某些题目等(Cheema, 2014; Mislevy & Wu, 1988; Pohl et al., 2014; Rose et al., 2010)。大量的研究证实不同缺失值处理方法会对个体知识状态的估计精度带来不同影响(Dai, 2017; Pan & Zhan, 2020)。因此, 在实际 CDA 测验中应重视缺失数据问题, 并选用合适方法处理, 以提升诊断精度(宋枝璘等, 2022)。

根据以往的研究, 基于认知诊断模型(Cognitive Diagnosis Model, CDM)的缺失数据的处理方法, 大多借鉴项目反应理论(Item Response Theory, IRT)模型中处理缺失数据的方法。可以概括为以下三种: (1)传统的缺失值删除、单一插补或替换方法, 删除方法主要包括列删除(Listwise)和对删除(Pairwise), 比较简单的替换方法是将缺失数据直接替换为0, 即零替换方法; (2)基于模型的处理方法, 其基本思想是在模型参数估计的过程中通过似然函数处理缺失数据, 其中典型的方法有期望最大化算法(Expectation-Maximization algorithm, EM)和全息极大似然估计方法(Full Information Maximum Likelihood, FIML); (3)基于随机分布假设的多重插补方法, 该方法的基本思想是基于假设的随机分布对缺失数据进行多次随机插补, 其中典型的多重插补方法包括基于回归预测值分布的多重插补。研究者结合不同模型, 对不同方法的表现进行了比较。Finch (2008)结合IRT模型, 对不同的缺失数据处理方法进行了比较, 结果发现, 很难找到一种方法, 其表现在任何情况下均优于其他方法, 不同的方法在不同的缺失机制下有各自的优缺点。Dai (2017)首次结合认知诊断DINA模型, 探讨了零替换、个体均值插补法、两步插补法、反应函数法(Response Function Imputation)和EM算法5种缺失数据处理方法在不同缺失比例和缺失机制条件下对项目参数和个体掌握模式的影响。研究发现, 在CDM中, 如果缺失数据被忽略或处理不当, 则会对学生的属性掌握模式和项目参数的估计带来偏差; 相比其它4种方法, EM算法得到的个体属性掌握模式的判准率最高, 且随着缺失比例增加, EM算法的优势更加明显; 对于项目参数的估计精度, 则没有哪种方法在任何情况下都优于其他方法; 总体而言, 替换为零的方法和个体均值插补法对于CDM中的缺失数据处理不是好的选择, EM算法相对表现最优。Dai和Svetina Valdivia (2022)结合DINA模型, 比较了包含FIML和EM算法在内的10种缺失数据处理方法的表现, 结果发现FIML和EM算法表现类似。Pan和Zhan (2020)在随机缺失机制的假设下结合追踪CDM, 探讨了缺失比例和测验长度的影响, 研究发现缺失比例是影响参数估计和诊断结果精度的最主要因素, 缺失比例超过20%, 诊断结果的精度就会明显变差, 针对缺失比例较高的情况(不超过40%), 可以通过增加测验长度弥补缺失数据带来的不利影响。宋枝璘等(2022)结合GDINA模型, 在完全随机缺失、随机缺失和非随机缺失的条件下, 比较了零替换、多重插补(Multiple Imputation, MI)、EM算法和FIML方法的差异, 结果发现在估计个体知识状态时, EM算法和FIML表现较好, 其中EM表现更优。在本研究中, 我们将选择表现较好且稳定的EM算法与新提出的方法进行比较。

认知诊断模型中缺失数据的处理可以直接借鉴IRT模型中缺失数据的处理方法, 其研究结论也与基于IRT模型缺失数据的处理方法一致, 即相比于传统的缺失数据处理方法, 基于模型的方法更有优势 (Schafer & Graham, 2002)。但是, 这类方法仍然面临以下三方面的问题: (1)已有的缺失数据处理方法大多是基于完全随机缺失(missing completely at random, MCAR)和随机缺失(missing at random, MAR)机制假设的参数插补的方法, 假设条件和模型限定较多, 不能有效处理非随机缺失(missing not at random, MNAR)或混合(MIXED)机制下(De Ayala et al., 2001)的缺失类型(关于缺失机制的介绍可参考Little和Rubin(2002), 宋枝璘等(2022)或本研究模拟设计部分的相关内容)。而在实践中, 学生可能会因各种原因漏答部分试题, 缺失数据产生原因具有很高的不确定性和复杂性, 对于缺失机制的判别没有明确的衡量标准(De Ayala et al., 2001)。探索适用于不同缺失机制的缺失数据处理方法是目前尚未很好解决的问题之一。(2)已有的缺失数据处理方法无法有效处理缺失比例较高(>30%)的情况。纵观以往对缺失数据处理方法的模拟研究, 设定的缺失比例从2% (De Ayala et al., 2001)到50% (Glas & Pimentel, 2008)不等, 但大部分在5%到30%之间(Finch, 2008)。已有的缺失数据处理方法在缺失比例低(小于20%)时表现良好, 但在缺失比例超过20%时应用效果已不明显。缺失比例超过30%以上的研究不多见, 且发现各种方法的估计偏差均较大。然而在实践中一些测验设计导致的数据缺失比例较高的情况并不少见, 例如大规模测试中常用的分块设计(fractional block design) (McArdle, 1994), 平衡非完全分块螺旋设计(balanced incomplete blocks (BIB) spiral design) (Johnson, 1992)等常用的矩阵抽样设计的方法。这些设计中缺失数据的比例往往超过了50% (Graham et al., 2006)。因此, 发展能够较好处理高比例缺失数据的方法也是亟待解决的问题之一。(3)随着认知诊断理论在测评中的应用, 以及近年来教学设计的改变和个性化学习的发展(如走班制和分层教学), 即便是日常的测评也不再是所有的学生同步完成相同的练习或测试, 而是对不同的学生进行有区别的评估; 同时, 为了提高学习效率, 教育测评实践也面临着如何基于更少的题目, 得到较为精准的诊断结果的问题。因此, 如何在不增加测验题目的情况下, 提高缺失数据处理方法的精度也是认知诊断测评的实践需要。

近年来, 随着教育测评理论和人工智能技术的不断发展, IRT、CDM与机器学习相关技术的结合应用越来越受到国内外研究者的关注(Chen et al., 2018; Zhang & Chang, 2016; 王璞珏, 刘红云,2019)。机器学习的兴起也为缺失数据的处理带来了一种新的思维范式, 即将数据集中的缺失值作为机器学习模型中的未知变量, 将数据集中的具有特定变量观测值的数据样本用作机器学习模型的训练集, 再将具有缺失值的数据样本输入训练后的模型, 从而对缺失值进行插补(Liu & Gopalakrishnan, 2017)。已有研究发现, 许多机器学习技术非常适合处理缺失数据的问题, 并且在处理效果上比经典的统计处理技术表现得更好(Mabrey, 2006)。Stekhoven和Bühlmann(2012)在随机森林算法的基础上提出了随机森林插补(Random Forest Imputation, RFI)法, 该方法是针对缺失数据处理提出的一种新的非参数插补方法。RFI方法突出的特点是能处理不同类型的数据, 能够利用所有可观察到的数据, 并且对数据分布的假定前提条件很少。由于RFI方法的准确性和稳健性等诸多优点, 它已在一些复杂研究中得到了应用(沈琳等, 2014)。然而, 这一方法与测量模型的结合应用尚属空白, 其方法的适用性和效果尚待检验。

综上, 本文结合目前CDA实际中缺失数据处理遇到的困难, 基于RFI的基本思想, 提出一种在CDM模型下处理缺失数据的新方法: 随机森林阈值插补(Random Forest Threshold Imputation, RFTI)方法。并通过两个Monte Carlo模拟研究验证新方法的表现。模拟研究一比较不同缺失机制和不同缺失比例条件下, RFTI相对RFI方法对缺失数据插补正确率方面的优势, 以验证所提出动态阈值方法的必要性; 模拟研究二从个体属性模式判准率和项目参数估计精度两方面探讨RFTI方法的表现, 并与传统表现较好的EM方法和RFI方法比较, 探讨RFTI的优势和适用条件。

2 随机森林阈值插补法(RFT)的提出

本文的主要目的是提出一种新的适合于CDM缺失数据的处理方法, 即随机森林阈值插补法。在介绍新的方法之前, 我们首先介绍本文所使用的认知诊断模型, 其次介绍已有的RFI方法, 并对其局限性进行分析; 最后在RFI的基础上提出改进阈值的随机森林阈值插补法, 即RFTI。

2.1 认知诊断模型: DINA模型

DINA (Deterministic Inputs, Noisy “And” Gate Model, DINA)模型是一种非补偿的认知诊断模型, 其中“非补偿”是指属性之间不具有互补性, 被试只有完全掌握项目所需的所有属性才能正确答对该项目。由于DINA模型本身的定义简单, 每个参数对应的含义具有可解释性的特点, 近年来被广泛应用于认知诊断模型相关的理论研究和实际应用研究。例如: 关于项目属性辅助标定(汪文义, 2012), 含认知诊断功能的计算机化自适应测验的项目增补(陈平, 辛涛, 2011), 错误定义的Q矩阵下被试分类准确性(喻晓锋等, 2014), 以及与其他分类模型结合的问题(罗照盛等, 2015), 这些新方法的探索均是基于DINA模型开展的拓展研究。本研究我们也将基于DINA模型探讨不同缺失数据处理方法的表现, 下面, 首先简要介绍常用的DINA模型。

以0-1计分的题目为例, DINA模型的定义如下:

2.2 随机森林插补法

RFI是由Stekhoven和Bühlmann (2012)提出的一种新的非参数插补方法(也称missForest算法), 该方法的基本思想和步骤如下。

对于0-1计分的题目, RFI在对缺失数据进行插补时, 首先对于每一个缺失的未观测值, 得到一个处在[0,1]区间内的概率值, 用于表示该缺失数据取值为1的概率。该概率值越接近于1表示当前未观测值为1的概率越大, 该概率值越接近于0则表示当前缺失数据取值为0的概率越大。以0-1计分的题目为例, 实际应用中通过一个选定的概率阈值, 将所得概率值转换为0-1的二分值。RFI方法一般将概率阈值设置为0.5, 即当计算出的概率值大于0.5时, 将缺失值替换为1; 当概率值小于0.5时, 将缺失值替换为0; 当概率值正好等于0.5的时候, 缺失值随机替换为0或1。不难理解, 不考虑教育测评的实际背景, 在概率值为0.5左右时, 无论将缺失值替换为0或者1, 缺失值被错误插补的概率都非常大, 因为此时模型所做预测的不确定性非常大。如果结合教育测评实际, 当概率值在0.5或以下时, 认为其作答错误(即替换为0)是比较合理的; 然而, 如果将概率值在0.5以上的都插补为1, 则对于0-1计分的题目就过于宽松了。另外, RFI固定阈值的方法没有考虑缺失数据插补过程中, 由于插补不准确性所带来的模型与数据拟合假设被违背的问题。鉴于此, 我们提出修正的动态阈值的随机森林插补方法。

2.3 随机森林阈值插补方法

2.3.1 认知诊断模型的个人拟合指数与阈值选择

本文提出的随机森林阈值插补方法的基本思想为, 在随机森林插补法的基础上设定两个概率阈值, 其中将概率转换为0的第一个阈值仍然采用0.5, 而将概率转换为1的第二个阈值采用结合模型拟合指标的动态阈值。我们将个人拟合指数应用于动态阈值的确定。

Cui和Li (2015)将被试理想反应与观察反应之间的关系作为认知诊断模型的个人拟合的指标, 提出采用反应一致性指标(the response conformity index, RCI)描述学生的观察反应与基于Q矩阵得出的期望理想反应之间的一致性。RCI的具体计算方法如下:

2.3.2 随机森林阈值插补法的步骤

2.3.3 随机森林阈值插补法的算法实现

采用R语言来实现随机森林阈值插补方法, 其具体的算法步骤如下:

(1)导入带有缺失值的作答矩阵数据集, 设为missData;

(3)将missData数据集赋值给oldData;

(4)采用missForest算法对oldData中的缺失值进行插补, 得到带有插补概率值的矩阵imputeData;

(5)根据概率阈值对imputeData作答矩阵重新赋值, 将其转换为新的作答矩阵数据集newData。

(6)比较oldData与newData, 如果oldData和newData两个作答矩阵不完全相同, 则将newData数据集赋值给oldData, 重复第(4)(5)步, 直到oldData与newData完全相同, 迭代终止;

基于上述步骤, 我们在R语言平台R-3.5.3版本上自编了missForestDINA函数, 以方便研究者和应用者使用本研究提出的方法。使用时需事先安装RFI方法的missForest包(Stekhoven, 2013)和用于认知诊断模型参数估计和数据分析的CDM包(George et al., 2016), 然后调用missForestDINA的主函数。missForestDINA主要函数为:

0.01)。

其中missData为输入的不完整数据集, Q为认知诊断模型对应的Q矩阵, stepV为迭代步长, 函数返回的是插补后的数据集。missForestDINA包的使用非常方便, 使用者只需要读入含有缺失数据的文件和CDM的Q矩阵, 并设置好搜索最小RCI值的迭代步长, 就能得到插补到的数据集。

3 研究1: 随机森林阈值插补方法的插补率和正确率

从RFTI的步骤和公式(5)可以看出, 该方法和其他的缺失数据处理方法不同, 它是一种非完全的插补方法。虽然插补后的数据集仍可能包含一定比例的缺失数据, 但是我们预期这一部分的比例应该较低, 在后续分析中可以采用简单默认的缺失数据处理。另外, 我们预期动态阈值的插补方法相对于RFI方法有较高的插补正确率。为了验证我们的预期, 研究1的主要目的是, 探讨在不同的缺失机制和缺失比例的情况下, RFTI方法的插补正确率, 以及插补后数据集的缺失比例, 并将其插补结果直接与RFI法进行比较。

3.1 数据缺失机制

研究1考虑的主要影响因素为数据的缺失机制和缺失比例。

(1)数据缺失机制: 考虑MIXED、MNAR、MAR和MCAR四种缺失数据的机制。

(2)缺失比例: 本实验借鉴以往研究对缺失比例的设置条件(Dai, 2017)以及实际测验可能面临的情况, 考虑10%、20%、30%、40%、50%五种不同的缺失比例。

因此, 共有4×5=20种实验条件, 每种组合的条件下, 重复模拟生成100个符合条件的被试作答数据集。再针对每个数据集分别使用RFI和RFTI两种缺失数据处理方法对缺失数据进行插补, 主要借助missForest软件包和自编missForestDINA函数实现。

参考已有的认知诊断相关文献, 其他条件设定如下。大多数研究设定的属性个数为6个(Cheng, 2010; Gierl et al., 2011), 因此本实验的属性个数也设置为6个。de la Torre等(2010)在研究样本量对DINA模型参数估计的影响时, 使用的样本量是500、1000、2000、4000四个水平, 结果发现, 当样本量为1000时, DINA模型能得到非常精确的参数估计。本研究将样本量设置为1000, 题目数设置为中等长度30。假设属性间不存在层级关系, 试题属性分配方式是随机的, 但是每个属性至少存在1个测量单一属性的题目, 每个属性至少有3个题目测量以保证模型可识别(Xu & Zhang, 2016)。

3.2 数据生成

3.2.1 参数生成

(1)被试知识状态

(2)项目参数

DINA模型中的猜测参数和失误参数均从均匀分布中抽取, 取值区间为[0.05, 0.25]。

3.2.2 完整作答数据的生成

3.2.3 缺失数据的生成

由于使用RFI或RFTI方法进行插补时, 需要首先基于目标变量上未缺失被试的数据训练模型, 因此, 对于生成的完整作答数据, 从中随机选取80%的被试作答数据用于生成缺失数据, 剩下20%的被试保留完整数据集, 作为随机森林的训练样本集。需要说明的是, 实际中完整的训练数据集并非必须的(Stekhoven, 2013)。

(1) MCAR缺失数据的生成

MCAR缺失机制指的是数据的缺失是完全随机的, 不依赖于任何变量, 即不论其它变量(如题目难度、区分度、被试能力值等)如何变化, 数据产生缺失的概率都是均等的。根据MCAR的定义, MCAR数据的生成是一个完全随机的过程, 当数据总体缺失比例确定以后, 可以通过产生随机数的方式来确定被试及某一题目的缺失, 缺失的产生并不依赖于被试的能力及项目本身。例如, 当数据总体缺失比例被设置为30%的时候, 针对每个被试在每道试题上的作答都生成一个0和1之间的随机数来判断当前作答是否被设置为缺失, 当随机数小于缺失比例0.3时, 试题作答被设置为缺失。由R语言missForest包中的prodNA函数具体实现该过程。

(2) MAR缺失数据的生成

MAR缺失机制指的是数据缺失的概率不是随机的, 会受到数据集中已观测到的其他变量的影响, 但不受缺失数据自身的影响。根据MAR的定义, MAR数据的生成借鉴De Ayala等人(2001)及Peugh和Enders (2004)提出的方法。首先, 计算除目标题目外, 每个被试的正确作答题目个数; 然后, 依据被试的得分确定每个被试作答的缺失比例, 得分越高的被试其缺失作答的比例越小, 得分越低的被试其缺失作答的比例越高。具体而言, 首先基于完整的模拟数据集计算每个被试在各项目上的CTT得分, 然后将被试的得分进行正态化转换, 通过正态累积分布函数找到百分等级位于5%、15%、30%、70%、85%、95%位置上的百分位数, 根据这些百分位数将被试分成7组, 设定得分越高的组数据缺失比例越低。用MR表示总缺失比例, 则每组被试对应的缺失比例如表1所示。例如, 对于总缺失比例MR为30%的条件, 原始得分处在0%~5%这一区间的被试, 其缺失比例为1.5 × 30% = 45%, 5%~15%这一区间的被试, 其缺失作答比例为1.35 × 30% = 40.5%, 依次类推。在确定了各区间被试作答的缺失比例后, 再针对每个被试在每道试题上的作答都生成一个0和1之间的随机数来判断当前作答是否被设置为缺失, 当随机数小于缺失比例时, 试题作答被设置为缺失。

表1 不同分数段MAR缺失比例分布

(3) MNAR缺失数据的生成

(4) MIXED缺失数据的生成

混合缺失机制是指缺失数据集中包含两种或以上的缺失机制。本研究借鉴了De Ayala等人(2001)和Dai (2017)及 Peugh和Enders (2004)提出的方法。首先, 采用与生成MAR缺失数据时相同的方法, 将被试分为7组, 并计算各组被试缺失作答的比例, 使得分越高的被试的数据缺失比例越低。然后, 计算出每个被试的数据缺失个数后, 再采用MNAR缺失数据产生的过程得到所有被试的缺失数据。这样可以使得MIXED缺失数据的生成不仅依赖于被试能力, 而且依赖于测验项目本身的特征。

3.3 评价指标

本研究用来评价插补效果的指标主要有: (1)缺失数据插补的正确率, 描述的是缺失数据插补正确的个数占插补数据个数的比例, 数值越大表示插补越准确。在本研究中由于RFI和RFTI插补为0的数据个数相同, 我们只统计插补为1的正确率, 以考察动态阈值的效果。(2)插补后数据集中仍然缺失的数据所占比例, 用来描述RFTI插补后仍然缺失的数据占总数据个数的比例, 其数值越小表明插补率越高。如果其比例较低(20%以内), 则说明前面提出的采用模型默认的方法处理少量没有插补缺失数据是合理的。

3.4 研究结果

表2呈现了不同缺失机制和缺失比例下, 采用RFI方法和RFTI方法插补值为1时的正确率结果。表3呈现了不同缺失机制和缺失比例下RFTI方法的正确率和插补后仍缺失的数据比例。

表2 不同缺失机制和比例下, RFI方法与RFTI方法的插补正确率比较

注: 表中数据为插补为1时的插补正确率。

从表2可以看出, 所有条件下, 采用RFTI方法的插补正确率都明显高于RFI方法。缺失机制是影响插补率的主要因素, 在缺失机制为MIXED和MNAR时, 对于各缺失比例平均正确率, RFTI方法比RFI方法要高出约25%。在缺失机制为MCAR和MAR时, RFI方法的插补正确率也要低于RFTI方法大约10%左右。另外, 随着缺失比例增加, 两种方法的插补正确率均出现下降的趋势, 但是RFI方法下降更快。

表3 不同缺失机制和比例下, RFTI方法的插补正确率和插补后的缺失率(%)

注: 缺失率是指采用RFTI方法插补后, 数据集中没有被插补数据所占比例。

从表3可以看出在同一缺失机制下, 数据正确率的变化受缺失比例的影响不明显。但不同机制下插补的正确率存在差异。当缺失机制为MIXED时, 不同缺失比例条件下的正确率都达到85%以上; 当缺失机制为MNAR时, 插补的正确率与MIXED机制下的结果类似; 但是当缺失机制为MAR和MCAR时, 插补的正确率均在78%左右, 略低于MIXED和MNAR机制下的结果。这一结果与随机森林方法本身的特点有关, 由于MIXED和MNAR机制下, 被试的缺失模式反而可以为RFTI方法的训练模型提供更多的关于缺失反应模式的信息。

表3缺失率的结果表明, 采用RFTI方法对原始数据进行插补后, 数据的缺失率随着缺失比例的增加呈现上升的趋势。当缺失比例为10%时, 4种缺失机制下插补后的缺失率均在1%左右; 当缺失比例为30%时, MIXED、MAR和MCAR三种缺失机制下的插补后缺失率均在3%左右, MNAR机制下也仅为4%左右。当缺失比例为50%的时候, MIXED和MNAR机制下, 插补后的缺失率为10%左右, 而MAR和MCAR机制下的插补后缺失率略低一些, 均不超过8%。

从研究1的结果可以看出, 对RFI方法进行改进后的RFTI方法对于插补值为1时的正确率的提高有明显效果, 并且采用RFTI方法处理后的数据的缺失比例都在10%左右, 因此, 对基于RFTI方法处理后的数据进行后续分析时, 可以采用简单忽略方法。

4 研究2: 随机森林阈值插补方法的效果检验

研究2的主要目的是探讨不同缺失机制和缺失比例下, RFTI方法相比于其它常用的缺失数据插补方法的优势。验证RFTI方法在DINA模型下处理缺失数据的效果, 并且与EM算法和RFI方法进行对比。同时探讨数据缺失机制和缺失比例以及不同缺失数据处理方法对被试属性模式判准率、属性边际判准率及项目参数估计精度的影响。

4.1 研究设计

本研究的设定条件与研究1相同。考虑与缺失相关的因素有两个: 缺失机制(MIXED、MNAR、MAR、MCAR)和缺失比例(10%、20%、30%、40%、50%)。共有4×5=20种组合, 在每一种被试间变量组合的条件下, 重复模拟生成100个符合条件的被试作答数据集, 每个数据集分别采用EM、RFI和RFTI三种缺失数据处理方法进行分析。其他条件与研究1的设定相同。

4.2 研究方法

模拟数据生成方法与研究1相同。对于每种方法插补后的数据集, 采用EM算法估计DINA模型的项目参数, 采用后验概率估计法(Maximum A Posteriori, MAP)估计被试属性掌握模式。对于RFTI方法中插补后数据集中的缺失数据, 采用忽略缺失数据的方法进行处理, 即在估计被试掌握模式时将这个被试缺失的题目删除, 估计题目参数时将在这道题目上缺失的被试删除。

4.3 评价指标

关于项目参数的估计, 本研究主要采用了2个评价指数, 分别为所有题目偏差Bias和均方根误差RMSE的均值。所有项目参数估计的偏差均值定义为:

所有题目上平均的均方根误差定义为:

关于被试的知识状态估计结果, 本研究采用了被试属性模式判准率(Pattern Match Ratio, PMR)和被试属性边际判准率(Marginal Match Rate, MMR)两个评价指标。

公式(10)和(11)中,表示独立重复模拟的次数;表示被试的人数,为考查属性个数。PMR和MMR越高, 表示对被试掌握模式判断的准确性就越高。

4.4 研究结果

4.4.1 不同方法被试知识状态估计结果的差异

不同缺失机制和缺失比例下, 被试属性模式判准率(PRM)和属性边际判准率(MMR)结果见表4。从表4的结果可以看出, 无论在哪种条件下, RFTI方法在PRM和MMR上的估计结果均优于EM和RFI方法。

表4 不同缺失机制和缺失比例下各缺失数据处理方法所得模式判准率和边际判准率

缺失机制对不同方法之间的差异有明显的影响, 无论缺失比例大小, MNAR和MIXED缺失机制时, RFTI方法的优势更明显。为了清楚的呈现这一趋势, 我们以缺失比例30%为例说明三种不同方法在不同缺失机制上的差异(表4)。从表4的结果可以看出, 在不同的缺失机制下, 采用RFTI方法时的PMR均高于其他方法, 特别是在缺失机制为MIXED和MNAR时优势更加明显。当缺失机制为MAR和MCAR时, RFTI仍优于其他两种方法, 但是三种方法之间的差异不大。另外, 在MMR上, RFTI方法也均略高于其它方法, MIXED和MNAR缺失机制下, 优势略微明显。但整体来讲, 由于MMR整体较高, 方法之间的差异不明显。

缺失比例影响在不同缺失机制下也表现出近似一致的趋势, 无论何种缺失机制, RFTI在PMR和MMR上的表现均最优, 而且这一优势随着缺失比例的增加优势越来越明显。从表4可以看出, 当缺失比例为10%的时候, RFI方法和RFTI方法间的差异不明显, 但均高于EM方法。随着缺失数据比例的增加, 三种方法的PMR都随之下降, 但RFT方法下降的幅度最小。从MMR的结果来看, RFTI方法也优于其它两种方法, 方法间差异随着缺失比例增大而增大。

4.4.2 不同方法项目参数估计结果比较

不同缺失机制和缺失比例下, 采用EM、RFI、RFTI三种方法在DINA模型s参数和参数上的估计偏差和均方根误差的结果分别见表5和表6。

从表5的结果可以看出, 随着缺失比例增大, 3种方法对项目参数的估计偏差均有增大的趋势。对于项目参数, 在4种不同缺失机制下, 无论采用何种缺失数据处理方法,的值都被高估。在缺失机制为MIXED和MNAR时, 缺失比例较低时(≤20%), 三种方法之间差异较小, EM算法表现出微弱优势, 而缺失比例较高时(≥30%)采用RFTI处理方法得到的的估计偏差最小, EM、RFI方法表现相当, 并且随着缺失比例增加RFTI方法的优势更为明显。当缺失机制为MAR和MCAR时, 采用EM方法得到的的估计偏差最小, 采用RFTI方法得到的估计偏差最高。对于项目参数, 无论在哪种缺失机制下, 采用EM方法时的值存在高估现象, 采用RF和RFT方法时的值都被低估, 但偏差均较s参数小。

从表6估计均方根误差的结果可以看出, 对于项目参数的均方根误差的估计精度, 大部分条件下EM方法的表现要优于RFI和RFTI方法, 只有在MNAR和MIXED机制下且缺失比例高时, RFTI方法表现出优势。对于项目参数, 采用EM方法在4种缺失机制下的表现都是最好, RFI和RFTI方法则表现相当。

表5 不同缺失机制和缺失比例下各处理方法参数估计偏差

表6 不同缺失机制和缺失比例下各处理方法参数估计均方根误差

5 讨论与结论

5.1 讨论

本研究尝试将机器学习中随机森林缺失数据的插补(RFI)方法应用于认知诊断模型, 基于RFI方法将缺失数据插补为1时的正确率偏低的问题, 提出了一种基于认知诊断模型中的个人拟合指标RCI来动态确定阈值的新方法, 即随机森林阈值插补方法(RFTI)。该方法首次实现了缺失数据插补过程中, 机器学习方法与认知诊断模型的结合应用, 正确率和插补率的结果证实了这是一种有效的动态选择阈值的方法。

为验证该方法有效改进了RFI方法插补正确率过低的问题, 我们以DINA模型为例, 探讨了不同缺失比例和不同机制下, RFTI方法对缺失数据的插补效果, 结果证实了我们的假设和预期, RFTI方法对于插补值为1时的正确率相对于RFI方法有明显提高, 并用在各种实验条件下数据的插补率和正确率都有较好的结果; 从整体正确率来看, 采用RFTI方法比RFI方法有显著提高。由于其第二阈值的选择过程中考虑到了错误插补可能带来的对认知诊断模型拟合的破坏, 这一方法阈值选择的思想也体现了随机森林方法与认知诊断模型的结合。但是我们也应该注意到, 这一方法是一种插补率和正确率之间的有效平衡, 插补后的数据集仍存在少量的缺失数据。实际中, 由于这一比例较小, 可以将其视为可忽略的缺失值(Little & Rubin, 2002; Muthén et al., 2011), 以降低插补方法带来的不确定性。

研究2的模拟研究结果验证了在被试属性模式判准率上, RFTI方法的有效性, 以及与其他方法相比所表现出来的优势。与我们的预期一致, 由于RFTI是一种非参数的缺失数据插补方法, 其表现出较少受到缺失机制和缺失比例影响的优点。同时, 由于其在缺失数据插补过程中, 主要利用被试个体内的反应模式对其缺失的类别做出概率判断, 可以充分利用MIXED和MNAR缺失机制下, 模式反应上的差异提供的信息, 因此, 表现出在缺失机制为MIXED和MNAR时在被试属性掌握模式上有更为明显的优势。这一受缺失机制影响的模式与传统IRT模型并不一致, 究其原因可能与认知诊断模型中对被试知识状态的估计实际上是掌握和不掌握的分类预测, 而非连续的能力估计。以往研究也发现, 缺失数据处理方法的性能与缺失机制有关, 其关系取决于具体的研究背景, 包括分析模型和数据类型(分类或连续) (Dai, 2017; Zhuchkova & Rotmistrov, 2021)。因此, 可以推测在CDM和IRT之间, 缺失数据机制对传统方法的影响可能不同。另一方面, RFTI方法在对被试知识状态进行估计时表现出的优势可能是因为其在数据插补和阈值确定过程中, 关注的是个人拟合指标而非参数拟合指标, 同时也可能这一插补过程更多地利用了个体反应模式的信息, MNAR和MIXED的缺失机制相比于MCAR和MAR机制, 其本身反而提供了一些额外有用的信息。但是, 从项目参数的估计精度来看, RFTI方法并没有表现出一致的明显优势。对于项目参数大部分条件下采用EM方法时的估计最精确。这可能与RFTI方法本身在训练模型的过程中本质上并不能有效利用同一项目不同被试个体的信息有关。

5.2 研究局限性与展望

本研究的重点是将机器学习的方法与认知诊断模型结合, 对其可行性和效果进行了初步的检验, 尚有许多值得进一步思考和研究的问题。

(1)本研究只考虑了0-1评分的情况, 如何对方法改进进行多级评分的缺失数据的插补, 应用于多级评分的认知诊断模型, 还有待进一步的研究。(2)对于认知诊断模型的选择, 虽然从理论上来讲, RFTI适用于所有明确定义项目反应函数的认知诊断模型, 但是本研究只结合DINA模型验证了基于个人拟合指数确定动态阈值插补方法的有效性, 但是RFTI在其他认知诊断模型中, 是否能够得到与本研究类似的结果, 仍有待进一步验证。(3)由于本研究重点是探究缺失数据的处理, 所以RFTI方法及对该方法优势的结论都是基于Q矩阵正确设定的前提, 实际中Q矩阵的正确设定也是认知诊断测评关注的重要议题。当Q矩阵设定存在错误时, 未来研究一方面可以探讨RFTI方法对缺失数据的插补效果如何受到Q矩阵错误设定以及错误设定程度的影响, 另一方面在采用RFTI方法进行缺失数据插补前, 可以对Q矩阵设定进行修正(Liu et al., 2021; 李佳等, 2021), 基于修正后的Q矩阵再采用RFTI方法处理缺失值。(4)本研究没有对属性之间结构关系以及认知诊断模型中可能存在的项目特征相依(Zhan et al., 2019)带来的影响进行深入的探讨, 未来的模拟研究可以设定更多的条件, 进一步考查这些因素对RFTI方法可能产生的影响。(5)本研究确定阈值的过程是在指定范围内, 按照事先定义的步长在区域内进行搜索, 这一方法在实现虽然较为直接, 但有可能效率较低, 例如比较耗时; 同时可能存在由于步长设置不同而使得结果存在细微的差异。在未来研究中, 可以进一步探讨不同条件下, 阈值变化与个人拟合指标的变化规律, 在理论上推演二者的关系, 为阈值的确定提供更充分的依据。

5.3 结论与建议

本研究得到的主要结论如下。

(1)本研究提出了一种RFI和DINA模型相结合的RFTI方法, 该方法是一种不依赖于缺失机制假设的非参数插补方法。并开发了实现这一方法的R程序包, 为实际应用者提供了方便易用的工具。

(2)RFTI在正确率上弥补了RFI正确率过低的局限, 并且对DINA模型的项目参数s和g参数的估计结果, 以及被试属性掌握模式和属性边际判准率的估计结果均优于RFI方法。

(3)对于被试知识状态的估计结果表明, 在考虑的所有条件下, RFTI方法均优于RFI方法和EM方法, 特别是在缺失机制为MIXED和MNAR, 以及缺失比例较高(≥30%)时, RFTI方法的优势更加明显。

(4)项目参数估计结果表明在缺失比例较低或缺失机制为MCAR和MNAR时, EM方法优于RFI和RFTI方法; 在MNAR和MIXED缺失机制下, 对于参数的估计RFTI表现出优势。总体而言, 采用RFTI方法在参数估计上的表现一般, 与其他方法相比并不具备优势。

基于本研究的结论, 我们给出RFTI方法选择上的建议如下: 对于含有缺失数据的认知诊断, 如果研究者关注的重点是被试知识状态的估计(这往往是认知诊断测验本身要解决的问题, 是实际应用关注的焦点), 我们推荐使用新提出的RFTI方法; 但是如果研究者的目的是对项目参数进行准确估计, 如建立题库等, 这一方法的使用则要相当慎重, 我们则推荐采用EM算法。

Bennett, R. E. (2010). Cognitively based assessment of, for, and as learning (CBAL): A preliminary theory of action for summative and formative assessment.(2−3), 70−91.

Cheema, J. R. (2014). A review of missing data handling methods in education research.(4), 487−508.

Chen, P., & Xin, T. (2011). Item replenishing in cognitive diagnostic computerized adaptive testing.(7), 836−850.

[陈平, 辛涛. (2011). 认知诊断计算机化自适应测验中的项目增补.,(7), 836−850. ]

Chen Y., Li X., Liu J., & Ying Z. (2018). Recommendation system for adaptive learning.(1), 24−41.

Cheng, Y. (2010). Improving cognitive diagnostic computerized adaptive testing by balancing attribute coverage: The modified maximum global discrimination index method.(6), 902−913.

Cui, Y., & Li, L. (2015). Evaluating person fit for cognitive diagnostic assessment.(3), 223−238.

Dai, S. (2017).(Unpublished doctoral dissertation). Indiana University.

Dai, S., Svetina Valdivia, D. (2022). Dealing with missing responses in cognitive diagnostic modeling., 4, 318−342. https://doi.org/10.3390/psych4020028

De Ayala, R. J., Plake, B. S. & Impara, J. C. (2001). The impact of omitted responses on the accuracy of ability estimation in item response theory.(3), 213−234.

de la Torre, J., Hong, Y., & Deng, W. (2010). Factors affecting the item parameter estimation and classification accuracy of the DINA model.,(2), 227−249.

Finch, H. (2008). Estimation of item response theory parameters in the presence of missing data.(3), 225−245.

George, A. C., Robitzsch, A., Kiefer, T., Groß, J., & Ünlü, A. (2016). The R package CDM for cognitive diagnosis models.(2), 1−24.

Gierl, M. J., Wang, C., & Zhou, J. (2011). Using the attribute hierarchy method to make diagnostic inferences about examinees' cognitive skills in algebra on the SAT.,(6). Retrieved from http://www.jtla.org

Glas, C., & Pimentel, J. (2008). Modeling nonignorable missing data in speeded tests.(6), 907−922.

Graham, J.W., Taylor, B.J., Olchowski, A.E., & Cumsille, P. E. (2006). Planned missing data designs in psychological research.,323−343.

Johnson, E. G. (1992). The design of the National Assessment of Educational Progress.,(2), 95−110.

Li, J., Mao, X., & Zhang, X. (2021).-matrix estimation (validation) methods for cognitive diagnosis.(12), 2272−2280.

[李佳, 毛秀珍, 张雪琴. (2021). 认知诊断Q矩阵估计(修正)方法.(12), 2272−2280.]

Little, R., & Rubin, D. B. (2002).. New York: Wiley.

Liu, Y., Xin, T., & Jiang, Y. (2021). Structural parameter standard error estimation method in diagnostic classificationmodels: Estimation and application.(5), 784−803.

Liu, Y., Andersson, B., Xin, T., Zhang, H., & Wang, L. (2019). Improved Wald statistics for item-level model comparison in diagnostic classification models., 402−414.

Liu,Y., Zhang, Q., Zheng, Z., & Yin, H. (2019). The Robustness of the item-level model comparison statistics in cognitive diagnostic models.,(5), 1251−1259.

[刘彦楼, 张倩萌, 郑宗军, 尹昊. (2019). 认知诊断模型中项目水平模型比较统计量的健壮性.(5), 1251−1259.]

Liu, Y., & Gopalakrishnan, V. (2017). An overview and evaluation of recent machine learning imputation methods using cardiac imaging data.(1), 8−23.

Luo, Z. S., Li, Y, J., Yu, X. F., Gao, C. L., & Peng, Y. F. (2015). A simple cognitive diagnosis method based on-Matrix theory.,(2), 264−272.

[罗照盛, 李喻骏, 喻晓锋, 高椿雷, 彭亚风. (2015). 一种基于Q矩阵理论朴素的认知诊断方法.(2), 264−272.]

Mabrey, D. J. (2006).-Unpublished doctoral Dissertation, Sam Houston State University, Huntsville, TX.

McArdle, J. J. (1994). Structural factor analysis experiments with incomplete data.,, 409−454.

Mislevy, R. J., & Wu, P. K. (1988).(RR−88−48−ONR). Princeton. NJ: Educational Testing Service.

Muthén, B., Asparouhov, T., Hunter, A., & Leuchter, A. (2011). Growth modeling with non-ignorable dropout: Alternative analyses of the STAR*D antidepressant trial.(1), 17−33.

Pan, Y., & Zhan, P. (2020). The impact of sample attrition on longitudinal learning diagnosis: A Prolog., 1051.

Peugh, J. L., & Enders, C. K. (2004). Missing data in educational research: A review of reporting practices and suggestions for improvement.,(4), 525−556.

Pohl, S., Gräfe, L., & Rose, N. (2014). Dealing with omitted and not-reached items in competence tests: Evaluating approaches accounting for missing responses in item response theory models.(3), 423−452.

Rose, N., von Davier, M., & Xu, X. (2010).(IRT) (ETS Research Rep. no. RR−10−11), Princeton, NJ: Educational Testing Service.

Schafer, J., & Graham, J. W. (2002). Missing data: Our view of the state of the art.(2), 147−177.

Shen, L., Hu, G. Q., Chen, L. Z., & Tan, H. Z. (2014). Application of missforest algorithm for imputing missing data.(5), 774−776.

[沈琳, 胡国清, 陈立章, 谭红专. (2014). 缺失森林算法在缺失值插补中的应用.(5), 774−776.]

Song, Z. L., Guo, L., & Zheng, T. P. (2022). Comparison of missing data handling methods in cognitive diagnosis: Zero replacement, multiple imputation, and maximum likelihood estimation.,(4), 426−440.

[宋枝璘, 郭磊, 郑天鹏. (2022). 认知诊断缺失数据处理方法的比较: 零替换、多重插补与极大似然估计法.,(4), 426−440.]

Stekhoven, D. (2013).. R package version 1.4.

Stekhoven, D., & Bühlmann, P. (2012). MissForest − nonparametric missing value imputation for mixed-type data.(1), 112−118.

Wang, P. J., Liu, H. Y. (2019). Make adaptive testing know examinees better: The item selection strategies based on recommender systems.,(9), 1057−1067.

[王璞珏, 刘红云. (2019). 让自适应测验更知人善选——基于推荐系统的选题策略.,(9), 1057−1067.]

Wang, W. Y. (2012).(Unpublished doctoral dissertation). Jiangxi Normal University, China

[汪文义. (2012).(博士论文). 江西师范大学. ]

Xu, G., & Zhang, S. (2016). Identifiability of diagnostic classification models..(3), 625−649.

Yu, X. F., Luo, Z. S., Gao, C. L., & Qin, C. Y. (2014). Compare the diagnostic assessment classification accuracy when the Q-Matrix contains error.(6), 1482−1488.

[喻晓锋, 罗照盛, 高椿雷, 秦春影. (2014). Q矩阵包含错误的认知诊断测验分类准确性研究.(6), 1482−1488.]

Zhan, P., Jiao, H., Liao, M., & Bian,Y. (2019). Bayesian DINA modeling incorporating within-item characteristic dependency.(2), 143−158.

Zhang S., & Chang, H. H. (2016). From smart testing to smart learning: How testing technology can assist the new generation of education.,(1), 67−92.

Zhuchkova, S., & Rotmistrov, A. (2021). How to choose an approach to handling missing categorical data: (un)expected findings from a simulated statistical experiment., 1−22. https://doi.org/10.1007/s11135-021-01114-w

Missing data analysis in cognitive diagnostic models: Random forest threshold imputation method

YOU Xiaofeng1, YANG Jianqin1, Qin Chunying1, LIU Hongyun2,3

(1School of Mathematics and Information Science, Nanchang Normal University, Nanchang 330022, China) (2Beijing Key Laboratory of Applied Experimental Psychology, Beijing Normal University, Beijing 100875, China) (3Faculty of Psychology, Beijing Normal University, Beijing 100875, China)

In recent years, interest in cognitive diagnostic assessments (CDAs), as a new form of test, has increased drastically. Due to the specific design of the test, missing data is an inevitable problem in CDAs. Proper handling of missing data in CDAs is important to provide accurate diagnostic feedback to students and teachers. With the use of machine learning in education, relevant advancements have been made in missing data imputation. Research showed machine learning techniques have more desirable features for missing data imputation than traditional approaches. The random forest algorithm has been extended to become the random forest imputation (RFI) method in handling of CDAs missing data for CDAs. The method takes into consideration the characteristics of the data rather than assumes certain missing mechanism. RFI is a new non-parametric method that makes full use of the available response information and characteristics of response patterns to impute missing data.

Making use of advantages of RFI in categorization/prediction and its non-reliant on missing mechanism type, we improved and proposed the new random forest threshold imputation (RFTI) method. It could be used to impute missing responses in the widely used DINA (Deterministic Inputs, Noise “And” Gate) model. This research proposed to apply the Response Conformity Index (RCI) in the missing data imputation to set the threshold of imputation and to develop a method for missing response treatment for CDAs without totally relying on imputation. Two simulation studies were conducted to compare the performance of the proposed method and traditional models. Study 1 began by introducing the theoretical background and algorithm implementation of RFTI. Then, RFTI and RFI were compared in terms of accuracy rate of imputation for data with different proportions of missingness (10%, 20%, 30%, 40%, 50%) and missing data mechanisms (MIXED, MNAR, MAR, MCAR). This was to affirm the necessity of including RCI during imputation. Study 2 aimed to investigate the performance of RFTI, as well as RFI and EM algorithm in imputing missing data under different conditions. The manipulated design factors were identical to those in Study 1. We evaluated RFTI in terms of its accuracy in assessing the model attributes and item parameters. We also compared RFTI against the traditionally better performed EM and RFI under various design conditions to explore the advantages and conditions of using RFTI.

Results of Study 1 showed that RFTI, as compared to RFI, improved accuracy when imputation threshold was one. In various design conditions, RFTI imputation rate and accuracy were also better. Study 2 showed that RFTI outperformed other methods (RFI, EM algorithm) in accurately assessing the attribute pattern and attribute margin. This advantage was affected by the missing data mechanism and the proportion of missing data. Notably, RFTI was particularly better than other methods in handling mixed type of missing or MNAR data, and when the proportion of missing data was higher than 30%. However, RFTI was not any better than other methods in its accuracy of item parameter estimates. In most conditions, EM algorithm provided the most accurate parameter estimates.

In sum, we propose a method to impute missing data in CDAs by applying machine learning methods in measurement models. The advantage of this new method is affirmed through its accurate assessment of attribute pattern and attribute margin of DINA model. Theoretically, the current study provides a missing data imputation approach with less assumptions, which extends the traditional methods to impute missing data in CDAs framework. Moreover, we investigate how to estimate the attribute pattern of students accurately through the responses of a few items. It sheds lights on imputing missing data due to particularly designs in assessment or teaching.

missing data, cognitive diagnostic assessment, random forest threshold imputation, random forest imputation, expectation-maximization algorithm

2022-04-23

* 江西省教育厅科技重点项目(GJJ212601); 南昌市教育大数据智能技术重点实验室(2020-NCZDSY-012); 国家自然科学基金项目(32071091)。

刘红云, E-mail: hyliu@bnu.edu.cn

B841

猜你喜欢
诊断模型正确率比例
人体比例知多少
门诊分诊服务态度与正确率对护患关系的影响
CD4细胞计数联合IGRA预测AIDS/Ⅲ型TB影像诊断模型分析
生意
品管圈活动在提高介入手术安全核查正确率中的应用
生意
按事故责任比例赔付
限制支付比例只是治标
对于电站锅炉燃烧经济性诊断模型的研究