刘芯伶 康春花 曾平飞
认知诊断(Cognitive Diagnosis, CD)是以认知诊断测验为载体, 对学生问题解决的认知过程进行个性化诊断分析的新型心理测量理论, 它弥补了传统测量理论在进行教学评价时的粗放性问题, 将能力细分为不同的认知属性, 以属性去评价学生的知识掌握情况,为更好地实施因材施教创造条件。
CD 理论研究兴起于20 世纪80 年代。 进入21世纪后, 随着世界各国教育改革的深入发展,CD 在国际上获得的关注不断凸显。从已有的文献来看,研究集中在认知诊断过程中的关键理论和技术, 主要包括诊断模型和方法的开发、Q 矩阵的修订和估计、影响诊断准确性的因素以及与计算机自适应测验(Computer Adaptive Testing, CAT)相结合等方向[1-4]。CD 的理论研究不断涌现, 但并未真正惠及教育实践,因而全面了解CD 领域研究现状,精准把握CD研究热点、前沿和不足,对于CD 领域理论和实践研究的深入开展都有着重要意义。 目前,CD 的综述性研究只存在于与研究者、研究主题相关的某一领域,并未见全面性、综合性的研究综述。
本研究拟借助CiteSpaceV 这一可视化知识图谱分析工具,对CD 研究领域进行知识图谱分析,总结该领域取得的成果与不足、知识基础、研究热点以及研究前沿演进, 为领域研究者掌握发展现状并开展突破性研究提供参考。
文献数据来源于Web of Science 核心合集数据库。 在基本检索中,主题词为“cognitive* diagnos*”,文献类型设定为“article”,采取“精确匹配”方式以提高检准率,年限设置为2008-2018 年,数据检索日期为2019 年1 月,共获得301 条检索记录。 检索结果按照CiteSpace 要求的“全记录与引用的参考文献格式”下载并保存为纯文本格式。
使用可视化分析软件CiteSpaceV 进行以下基本操作步骤: 将得到的301 条文献记录导入CiteSpaceV,时间跨度设置为2008-2018 年,以1 年作为时区划分, 每个时区选择频次排名前50%的记录绘制网络图谱, 其他根据所要分析的内容选择节点类型(Node Types)和网络修剪策略(Pruning)等信息,进而形成各时区综合一体的可视化知识图谱。
每个图谱中的节点代表不同的分析对象, 某一图谱中的节点代表同一分析对象的不同内容。其中,每个节点上按设定的时区出现颜色、 粗细不一的年轮环,年轮环上的颜色(由蓝到黄、由里至外)代表不同的时间范围(2008-2018), 同一颜色的年轮环越粗, 表明在该单位时间内该节点内容出现的频次越多;带有紫色外圈的节点,表示中心性>0.1,节点的中心性较高,紫色外圈越粗,说明其在整个网络中的重要性和影响力越高[5]。不同节点之间的连线颜色代表他们首次有联系的时间, 连线的粗细代表节点之间联系的紧密程度。 图谱节点主要以出现频次及中心性两个指标来反映其重要程度及影响力。
图1 为2008 年至2018 年CD 研究领域年发文量柱状图, 横坐标表示年份, 纵坐标表示文献发表量。由图1 可知,2008 年至2012 的年均发文量在15篇左右波动。2013 年是CD 研究的转折之年,发文量出现了突发性转变, 成倍增长至29 篇。 2014 年至2017 年发文量缓慢递增,2018 年再次发生突破性进展,年发文量突破50 篇。 综合近十年发展情况可以看出,CD 作为心理测量与认知心理学相结合的新一代测量理论, 吸引了大量心理及教育测量研究者对其进行深入的研究,取得了较多高水平的研究成果。
图1 CD 研究领域文献发表时间分布
图2 为CD 研究的国家知识图谱现状, 通过节点大小、紫色外圈、节点间连线分别反映各个国家在CD 研究领域的发文量、重要性以及国家间的合作紧密程度。日本学者汤浅光朝认为,某个时期某国科技成果数占同期世界科学成果总数25%以上的国家为该时期的世界科学中心[6]。CD 研究文献共来自29 个国家(地区)。 其中,美国发文量为198 篇,占总量的66%,遥遥领先于其他国家,可视为CD 研究的世界科学中心;从连线数量来看,美国与其他国家的合作也相对紧密。发文量排在第二位的国家是中国,共发表52 篇,占总量的17%,与“世界科学中心”这一称号有一定距离, 但也代表着国内学者共同努力获得了一定成果,并与多个国家有着密切的学术交流。发文量排名第三的加拿大在近十年发表了18 篇研究成果。全球研发报告中指出,世界科学领域的主导地位一直由美国占据着[7]。然而进入21 世纪以来,亚太地区国家科研论文数量增长迅速,尤其是中国。就科研论文量而言,中国仅次于美国,位列第二,CD 领域的研究也如此。 在不同领域都能看到中国科研者不断奋斗、拼搏的丰硕成果。
图2 CD 研究领域国家网络图谱
美国、英国、西班牙、日本这4 个国家节点均有紫色外圈, 说明以上四个国家在CD 领域的中心性较高, 在两个或多个国家中扮演着不可缺少的桥梁角色,促进各国CD 研究的跨方向合作,因此在CD领域的影响力和重要性也较高。 四个国家的紫色外圈厚度依次递减,即在中心性、影响力以及重要性上均依次递减。从发文量和中心性两个方面来看,中国在CD 研究领域有较高的活跃度, 但尚未在该领域获得较大影响力。
图3 为CD 研究领域的机构合作网络图谱,节点大小、紫色外圈、节点间连线分别反映各机构在认知诊断领域的发文量、 重要性以及国家间的合作紧密程度。
从机构发文量和合作关系中可以了解高产量、高质量的研究机构,对于选择优秀的机构进行合作、派遣科研人员访学、人才引进、追踪新颖研究问题等都有重要的作用。从图3 整体来看,机构的合作网络相对松散,各机构之间合作较少,网络以美国伊利诺伊大学(Univ Illinois)为中心,主要向四个方向发散。伊利诺伊大学在CD 领域的核心地位毋庸置疑,与该领域内的各洲代表性研究机构有紧密的合作。 但由此节点发散的四个方向的机构间几乎无合作关系, 缺少将各机构编制成为一个紧密网络的中介机构。当今时代是团队协作的时代,科学的众多门类相互交叉、渗透、综合,已经发展成为结构复杂的大科学系统[8]。 因此,应该加强CD 研究机构的紧密合作,使其成果水平更高,融合性更强。
图3 CD 研究领域机构网络图谱
从单个机构来看,表1 呈现了高中心性的10 个机构。 前6 名的发文量均较高, 后四名的发文量较低,但是在整个CD 研究中起到的作用较大。 因此,研究者在追溯2018 年及以前文章时,既需关注发文量高的机构, 又需重视表1 中发文量少的四个机构所关注的研究方向, 方可准确把握CD 整体研究脉络。在搜索最新研究时,可以重点关注前六个机构的最新研究成果, 以便更好地定位CD 研究领域的发展趋势。 国内的北京师范大学和江西师范大学这两个机构在国际上的发文量均在前10 以内,并具有高中心性, 可通过关注这两所机构的研究成果了解国内CD 研究的热点和前沿。 在网络中,两个国内机构的合作机构较少,并且较为固定。 获2017 年度我国国际科学技术合作奖的普拉默强调:“国际化将成为中国科研发展的关键挑战。 ”[9]我国CD 研究在发展上也存在着同样的国际化挑战。
图4 呈现了认知诊断研究领域的作者合作网络图谱,节点大小、节点间连线反映了作者在CD 领域的发文量及合作关系。 从图4 可以看出,主要以De La Torre J 和Chang HH 为代表的两大科研团体支撑着CD 研究,由Xu GJ 等人使其间接地联系起来。 国内研究者更倾向于和Chang HH 科研团体成员合作, 未出现与De La Torre J 为代表的另一科研团体的合作。 这两个团体涉及的CD 研究方向略有不同,前者倾向于CD 与CAT 的结合性研究, 后者更多涉及CD 模型和方法方面的研究, 并且后者的研究内容是CD 领域的重要基础。 中国只与两大科研团体之一有较多的合作, 将不利于我国CD 领域研究的全面覆盖和深度提升。
图4 CD 研究领域作者网络图谱
普莱斯在其代表名著《小科学,大科学》一书中提到:“在同一主题中, 半数的论文为一群高生产能力作者所撰, 这一作者集合的数量上约等于全部作者总数的平方根[10]。 ”CD 研究文献共来自762 位作者。根据Price 的计算方法,可得到≈31,即发文量前31 的作者可视为该领域的高生产能力者。 结合统计结果,将发文量为4 篇及以上的作者视为高生产能力者,共计30 人,如表2 所示。 普赖斯的理论还提出了核心作者的概念,即发表论文数为N 篇以上的作者是核心作者, 这里的N=0.749 (max)1/2, 式中max 为发文量最多的作者的论文数。 由此,CD 研究领域的核心作者发表论文数也为4 篇及以上。综上,表2 中的30 位研究者既是高生产能力者,也是领域核心作者。
表2 CD 领域高生产能力者
De La Torre J 作为CD 领域首位核心作者, 共发文24 篇。 从其文献主题看,主要关注开发不同数据情况下适用的认知诊断模型(Cognitive Diagnostic Models,CDMs),包括多分属性(Polytomous Attributes)、多级反应(Polytomous Response)、多策略(Multiple Strategies)、 连续反应 (Continuous Response)、 多项选择(Multiple-Choice Options),以及多种数据类型同时考虑的模型等,占其总发文量的1/3。 其余2/3 的文章主题相对分散,主要涉及模型充分性、参数不变性检验、模型-资料拟合、项目拟合统计量和Q 矩阵校准等。
Chiu CY 作为第二位CD 核心作者, 共发文14篇。主要涉及Q 矩阵的估计和完备性、渐近分类理论相关研究、非参数诊断分类方法等。 从引用量来看,具有广泛影响力的是Q 矩阵完备性的研究成果。
Douglas J 的研究贯穿于CD 发展的整个过程,从2008 年到2018 年陆续发表了12 篇文献。他的研究所涉及的认知诊断主题相对庞杂, 从CDMs 的开发、Q 矩阵的相关研究,到认知诊断计算机自适应测验 (Cognitive Diagnostic Computer Adaptive Testing,CDCAT),均有涉及。
将图3 和图4 结合来看可以发现, 研究者间的合作主要集中在影响力较大机构的研究者之间,而影响力较小机构的研究者多是机构内成员间的合作,这与前文得到的结论一致:领域研究的合作较为缺乏,集中表现在缺乏跨水平和跨主题的机构合作。因此,应推进各研究机构间的跨主题合作,使CD 研究团体更加壮大,研究内容更加深入。
图5 为CD 研究领域的共被引期刊网络图谱,主要反映期刊在领域内的重要性以及不同期刊之间方向的紧密程度。 分析期刊图谱可以帮助研究者更加快速地确定该领域的主要来源期刊, 使期刊收藏及期刊投稿更具针对性,及时把握前沿动态,提高研究的时效性[11]。
图5 CD 研究领域共被引期刊网络图谱
CD 研究领域的文献共被引期刊共225 个。高频被引期刊前10 的基本数据资料如表3 所示。表中排名前10 的除了有7 个期刊外,还包括两本认知诊断书籍(DIAGNOSTIC MEASUREME & COGNITIVELY DIAGNOST) 和一个教育测量年会 (ANN M NAT COUNC MEAS),被引量分别排名第7、9、10。 在重视领域期刊的同时, 也不能忽视与领域相关的书籍与会议。从书籍中可获得理论基础,从会议资料中则可把握国际上的最新高水平研究,与时俱进。
APPL PSYCH MEAS、J EDUC MEAS 和PSYCHOMETRIKA 这三个期刊处于高被引用量的前三甲。 排名第三的PSYCHOMETRIKA 中心性明显高于前两个期刊,说明它在CD 研究领域辐射面较广,可将多个期刊的研究主题间接地联系在一起, 起到高度的中介性;另外,PSYCHOMETRIKA 的期刊影响因子也高于前两者, 说明该期刊在CD 研究领域内所处地位更高,影响力更大。
图6 是CD 研究领域的文献共被引网络图谱,大的节点(被引量高)与紫色外圈(中心性高)两个指标较好地反映了领域知识基础。 被引量和中心性较高的文献在认知诊断研究领域处于基础性地位,领域内的价值大,国际认可度高,其研究主题、技术、理论和结论等可推动整个领域的发展, 并对后来的研究有较强的参考价值。这些关键文献共同构成了CD的知识基础。
表3 高频被引期刊Top10
图6 CD 研究领域文献共被引网络图谱
整体而言, 引用量和中心性突出的文献较为明显,说明整个CD 领域的知识基础是公认的。 根据图6 所示的文献节点, 对被引量和中心性最高的前10位进行汇总,见表4。
表4 高被引量的认知诊断文献Top10
表4 中呈现的文献可视为重要知识基础。引用量最高的是认知诊断书籍Diagnostic Measurement:Theory, Methods, and Applications, 在期刊共被引分析中也呈现出该书籍在领域内的重要性。 其余9篇文章中, 同时具有高引用量和高中心性的有7篇, 另外引用量排名第5 和第9 的这两篇是关于CD 的应用性研究,中心性不足,无法达到领域基础性地位。
将7 篇高引用量和高中心性的文章进行概括可以发现,CD 领域的知识基础分为三个方面:(1)CD模型与方法:表中引用量排名第2、3、4、7、10 的五篇文献均是诊断模型和方法的研究[12-14]。 其中,中心性最高的是序号4 关于DINA 模型与使用参数估计方法的教学文章,在引用量前10 的文章中多篇文章涉及DINA 模型。 由此可以看出,DINA 模型占据整个CD 知识基础的核心位置。 (2)Q 矩阵校准:表中引用量排名第6 的文章为Q 矩阵校正的方法研究[15]。 (3)模型-数据拟合:表中引用量排名第8 的文章是关于CD 模型相对与绝对拟合的研究。
关键词是对文献主要内容和核心的提炼概括,出现频次越高和中心性越大的关键词可视为该研究领域内研究者在一定时间内共同关注的热点问题,以及该关键词的重要性和核心地位。因此,对文献的关键词进行共现分析可以从中挖掘研究热点。
图7 为CD 研究领域关键词共现网络图谱,可以看出,节点之间连线纵横交错,说明关键词之间的联系非常紧密,经常同时出现在同一篇文献中,是研究者同时比较关注的。 出现频次较高的关键词包括cognitive diagnosis model、calssification、rule space、latent class model、validation、q-matrix 等。 主要可分两类热点问题:模型开发和比较、Q 矩阵校准。
图7 CD 研究领域关键词共现网络图谱
表5 呈现的是排名前10 的关键词节点频次和中心性,它们代表了近十年CD 的研究热点。从中心度来看,排名前10 的节点中心性都>0.1,其中心度很高,是网络中的关键节点。 出现频次和中心性同时排在前10 的关键词包括:classification、item response theory、Q-matrix、latent class model、validation、rule space、DINA model、cognitive diagnosis。 从高频次和强中心性的关键词可获得与图7 反映的研究热点一致, 主要研究热点为诊断模型与方法、Q 矩阵的校准两方面。
(1)诊断模型与方法
认知诊断模型研究主要为模型之间适用性的比较和新模型的开发[16-17]。2013 年,Chen 和De La Torre研发了多分属性模型,即pG-DINA。 除了模型的建立外, 作者使用不同条件下的估计能力来评估模型的可行性, 并通过改进的分类规则将模型的分类精度和传统的G-DINA 模型进行比较, 也用实例证明了该模型的实用性。提出一种广义的、适用于更多情境的模型是目前认知诊断模型研究的重要趋势。
表5 高共现频次、中心性关键词Top10
(2)Q 矩阵校准
关于Q 矩阵校准,国内外学者均有研究[18]。 最近一篇是国内研究者Wang 等人在DINA 模型下, 利用EM 算法研究三种Q-矩阵验证方法的有效性,即最大似然估计(MLE)、边际极大似然估计(MMLE)、交叉和差分(ID)法,研究得到结论:ID 法能更好地找到错误的Q-向量,MLE 法可更好地保留正确的Q-向量。
理解突现性关键词的真正含义对研究者辨识该领域研究前沿演变历程是非常关键的, 研究前沿代表了这一时期的思想状态[19]。 可以通过考察关键词的时间分布, 将其中频次变化率高的词从关键词中挑选出来,依靠关键词的频次变化、而不仅仅是频次的高低来确定突现[20]。 用这种方式确定的突现词能够帮助研究者把握一段时间内出现的新研究趋势,判断研究领域的前沿。 图8 的突现词时间分布图反映了CD 领域不同时期兴起的理论趋势和涌现出的新主题。
图8 2008-2018 年突现词时间分布情况
如图8 所示,7 个突现关键词在2008 年的文献中均有出现,但真正成为突现词的年份不一。根据图8 可将近十年的CD 研究划分为三个时期,即2008-2012 年、2013-2015 年、2016-2018 年。
第一个时期是2008-2012 年, 这一时期是近十年CD 研究较为集中涌现的一个时期。这一时期突变强度较大的关键词有:认知诊断、模型、规则空间等。正如该领域研究者的研究结果所示,这是CD 模型研究的凸显期,如规则空间、G-DINA 等模型。
第二个时期是2013-2015 年, 这一时期出现了认知评估和计算机自适应测试这两个新的突现词,两者的突现强度接近,均为2.6 左右。 在这一阶段,以CDCAT 为主题的研究在CD 领域内凸显出来,有集中增长趋势。
第三个时期是2016-2018 年, 这一时期未出现新前沿词,只是延续前期研究主题,并未有认知诊断与新型技术相结合的转变性研究。
CD 研究的国家数占世界总数较少,重要贡献国为美国、中国、英国等;主要机构为美国伊利诺大学、美国罗特格斯州立大学以及国内的北京师范大学和江西师范大学等;影响力与发文量的重要学者为DE LA Torre、CHIU CY、Douglas J、Chang HH 以及国内学者辛涛、 丁树良等;CD 领域内重要的期刊为Applied Psychological Measuremen t、Journal of Educational Measurement、P sychometrika 等。
认知诊断的知识基础主要为CDMs、Q 矩阵校准和模型数据拟合三个方面;领域研究热点主要集中于CDMs 和Q 矩阵校准。 领域研究前沿演进可分为三个阶段:①CDMs 和Q 矩阵研究凸显;②CDCAT 研究活跃;③各认知诊断研究主题同步进行,无新颖性研究主题。CDMs 占据认知诊断研究的重要地位,是认知诊断付诸实践的前提,构建一个更精准、广泛而又简洁的诊断模型是认知诊断理论研究的主要目标。
目前, 认知诊断领域具有较大影响力的国家均为发达国家,跨机构合作不足,作者合作也呈现明显的区块化。 总体而言,CD 研究缺乏更大区域的国际合作。
当今是一个注重交流合作的时代。 从全球研究理事会到中国国家自然科学基金委员会国际合作局,再到国内高校的国际合作处,均是致力于促进全球高质量理论合作和最佳实践交流的组织机构[21]。合作可以提高科学的质量,避免不必要的重复,提供规模经济,并解决只有通过合作才能解决的问题。习近平总书记在致国际教育信息化大会开幕的贺信中提出:中国愿同世界各国一道,开拓更加广阔的国际合作平台[22]。 这不仅向国内科研者传递出国际合作的重要性,也向世界各国抛出了合作的橄榄枝。
相比其他领域,CD 研究需增强国际交流与合作,通过达成CD 研究合作,将CD 的思想和研究成果传递给更多的国家, 使各国在认知诊断研究上共同进步, 使CD 研究成果获得更广泛的国际社会认可。 因此,我国研究者应大胆地走出去,与高水平研究者合作交流, 使国内CD 研究的广度和深度不断提升; 还可以与未涉及该领域的地区采取先交流再合作的模式,使CD 研究成果惠及更多的地区。
目前,CD 的理论研究相对成熟, 也受到心理测量学界的认可。但是,CD 较少应用于日常的教育、教学、考试中,无法体现理论研究的实际效用,而对于社会发展有用的研究才是真正有价值的。
有部分研究者将TIMSS 测验进行后期属性标定,对已有学生数据做诊断分析[23]。 这类测验可能会涉及较多(10 个及以上)属性,在理论研究中较少出现这么多属性的研究,导致理论研究与应用研究的脱节。目前理论研究考虑的因素更适用于教学中的随堂检测,或对某一小模块的检验,以把握学生掌握不足的知识点,方便教师的补救教学和学生学习的查漏补缺。 认知诊断可辅助教学,加强它的实践应用才能体现其价值,发挥出CD 更具现实意义的一面。
认知诊断的目的是为了服务于教育, 如果不能较好地与教育相结合就会失去其灵魂。 2015 年5 月24 日,习近平总书记在国际教育信息化大会的贺信中指出: 因应信息技术的发展, 推动教育变革和创新,构建网络化、数字化、个性化、终身化的教育体系,建设“人人皆学、处处能学、时时可学”的学习型社会,培养大批创新人才,是人类共同面临的重大课题[24]。2017 年9 月11 日世界物联网博览会智慧教育峰会上, 教育部教育信息化标准委员会主任祝智庭教授提到:“应充分利用数据实现智慧教育, 知识应向可视化、参数化、智能化方向发展,提倡个性化学习、按需制定个性化服务。 ”[24]可见,教育智能化或称智慧教育是未来主要的教育生态。 如何将CD 应用于教学评价和学习分析,体现智慧教育的特征,为个性化学习测评与分析走向实践、走向课堂,实现智慧教育,是值得CD 研究者思考的主要方向。