信息技术支持下的外语能力精准诊断与教学

2021-11-05 10:40王萌萌
中国远程教育 2021年9期
关键词:数据挖掘外语技能

【摘 要】   认知诊断是心理和教育测量领域能力研究向认知研究范式转向的产物,能够深入剖析学习者个体在认知过程中掌握知识和技能的情况,获得精准和细粒化的诊断信息。以往多数认知诊断研究关注基础教育重点科目测试,针对高等教育大规模外语测试的数据挖掘研究较少,且未能融合信息技术手段与多样化的教学和学习对接。本研究以2,104名参加全国高校西班牙语专业四级水平测试的考生为研究对象,应用G-DINA模型对阅读部分进行了认知诊断改型分析。结果表明,认知诊断能与信息技术结合进行多层次的数据挖掘,反馈宏观整体、中观局部和微观个体层面的精准诊断信息,为面授和在线学习提供统一的参照系统,与学习方案、课堂表现、教材内容、课后测评和自主学习形成联动,使数据资源在线上线下的开放体系中共享共通,从而达到革新教育理念、实现个性化促学的目标。

【关键词】  教育评价;信息技术;大规模测试;精准诊断;认知诊断方法;因材施教;个性化教学;在线学习

【中图分类号】   G420         【文献标识码】  A       【文章编号】  1009-458x(2021)9-0069-07

一、引言

十九届五中全会对未来教育工作做出了重大部署,提出了“建设高质量教育体系”的明确要求。教育部党组指出,应“推进信息技术与教育教学深度融合,更新教育理念、变革教育模式”,应“发挥在线教育优势”,“着力解决好教育发展不平衡不充分的突出问题”。利用计算机和网络可以对教育数据进行科学的获取、加工、传输、分析和使用,使教育评价更加细粒化、自动化和智能化,使评价结果和线上线下个性化学习共享互通,从而解决师生比高和资源分配不公的桎梏,达到变革模式和提升质量的目标。认知诊断测评(Cognitive Diagnostic Assessment,简称“认知诊断”)是与以上目标契合的代表性理论和方法。

认知诊断起源于心理测量,逐渐延伸到教育测量领域。20世纪上半叶,真分数理论成为主流测量理论,其核心假设在于属性真实值和测量值之间存在线性关系。20世纪中期,项目反应理论逐渐发展,克服了线性假设的不足,通过项目参数估计潜在属性的真实值。根据米斯勒维(Mislevy, 1993)的观点,真分数和项目反应理论的研究范式关注作答结果,在单维线性的度量系统中宏观评价被试的潜在能力从而做出选拔和分级等教育决策。60年代的研究范式不再孤立地聚焦作答结果,作答的认知过程受到关注。根据米斯勒维(Mislevy, 1993)的看法,新一代理论应用认知心理模型将认识过程量度化,在多维和非线性的系统中形成细粒化的评价,做出精准到个体的诊断性决策。总之,研究范式体现出从结果到过程、从宏观到微观、从选拔到诊断的发展趋势。认知诊断产生于向认知范式转向的过程中。诊断决策可以弥补宏观决策的不足,精准定位潜在属性的优长与劣势,进行准确的亚分类并提出改进建议,使因材施教和个性化自主学习成为可能。

认知诊断与通过信息和网络技术革新理念、提升质量的目标高度吻合,具有重要的应用价值(Nichols, 1994; Buck, Tatsuoka, & Kostin, 1997; Jang, 2005; Li, Kim, & Yao, 2020),但在与技术紧密结合和促进线上线下教育深入互通方面仍然需要进一步探索。比如有学者提出,应“利用学习分析和可视化软件以多维度和可移植的方式描述学习数据,为教与学提供更加精准的分析”(刘占荣, 等, 2018)。还有学者认为,为满足学习者的多样化需求,在补救教学资源针对性和学习活动智能化等方面仍需继续进行探索(黄洪涛, 等, 2018)。此外,在我国外语教育领域,认知诊断相关研究仍然处于起步阶段(蔡艳, 等, 2011; 杜文博, 等, 2018; 林燕婷, 等, 2018)。因此,本研究将探索认知诊断应用于外语测试数据挖掘和线上线下教育实践的可行性与实施路径。

二、认知诊断研究述评

国外关于认知诊断的研究始于20世纪80年代对数学测试的分析。龙岗(Tatsuoka, 1983)首次应用规则空间模型(Rule Space Model,RSM)研究基础教育中的小规模数学测试,发现模型拟合良好。但研究对象数量仍然相对较少。

90年代,理论和实证研究继续深入。尼科尔斯(Nichols, 1994)阐释了认知诊断的理论框架和研究方法。布克等(Buck & Tatsuoka, 1998)使用RSM模型分析了中等规模日本大学生外语听力测试结果,首次将认知诊断应用于外语学科。90年代的研究进一步完善了理论框架,实证研究应用范围扩展,与传统面授教学的联系愈加紧密。

进入21世纪后,国外研究快速发展:第一,对认知诊断进行了系统总结,比如莱顿等(Leighton & Gierl, 2007)和泽木等(Sawaki, Kim, & Gentile, 2009)全面梳理了理论体系和研究方法。第二,尝试开发了适用于其他测试的认知诊断模型。比如,德拉托雷(De la Torre, 2008)的研究针对多维非补偿性测试构念,开发了确定性输入噪声“与”门模型(Deterministic Inputs, Noisy 'and' Gate Model,DINA)。莱顿等(Leighton, Gierl, & Hunka, 2004)和德拉托雷(De la Torre, 2011)开发了多维及非补偿性的属性层次模型(Analytic Hierarchical Model,AHM)和多维补偿性的广义确定性输入噪声“与”门模型(Generalized Deterministic Inputs, Noisy 'and' Gate Model,G-DINA)。第三,对中等和较大规模的水平和分级测试进行改型,主要针对阅读和听力。比如张(Jang, 2005)应用多维和非补偿性的融合模型(Fusion Model,FM)对新一代托福考试阅读作答情况进行了分析,问卷调查和访谈结果表明教师和学生均认同诊断结果对面授教学的积极意义。其他研究还聚焦了听力测试。比如,泽木等(Sawaki, et al., 2009)应用FM模型对托福网考听力部分进行了改型,指出与中小规模的测试相比,大规模测试能提高属性矩阵的稳定性,提供低风险和高信度的诊断信息。第四,认知诊断与信息化和互联网技术不断融合,线上线下教育的互联互通逐步加强。已有研究将认知诊断与计算机自适应测试进行結合(Kaplan, De la Torre, & Ramón-Barrada, 2015; Terzi & Sen 2019)。国际学生评估项目(PISA)和国际数学与科学趋势研究项目(TIMSS)等大规模考试已采用计算机自适应结合认知诊断技术提高测评结果挖掘的细粒化和智能化程度。此外,李等(Li, et al., 2020)分析了在线慕课学习者个体学习及交互学习情况,指出认知诊断可应用于在线教育平台挖掘数据、精准诊断和追踪学习行为等。

国内关于认知诊断真正意义上的理论研究始于21世纪初,辛涛(2005)、刘声涛等(2006)、涂冬波等(2012)对理论进行了系统介绍。戴海琦等(2013)和刘妍等(2017)对研究进行了全面述评,还有研究对比了各类模型(涂冬波, 等, 2013; 蔡艳, 等, 2015)。实证研究主要针对大规模测试,以基础教育阶段语文和数学为主(涂冬波, 等, 2010; 张启睿, 等, 2019; 李令青, 等, 2019)。部分研究以国际化考试为工具(陈慧麟, 等, 2013),针对本土大规模外语测试的改型研究(蔡艳, 等, 2011; 林燕婷, 等, 2018; 闵尚超, 等, 2019; 范婷婷, 等, 2019)仍然较少。认知诊断与信息化和网络化技术相结合的研究已逐步展开,以中小规模测评为主。比如,黄宏涛等(2019)基于BP神经网络开发了远程教学测评系统。还有研究者提出并尝试将认知诊断与远程计算机自适应测试相结合。比如,杨淑群等(2009)指出二者形成的优势互补应用于在线智能教评系统能有效提升教学质量;叶海智等(2019)应用基于认知诊断的教学辅助系统对教育技术专业学生进行测试和远程练习推送,教学效果良好。可见,学界已认识到认知诊断在数据挖掘和促进线上线下教育互通方面的重要价值并开始付诸实践。

综上所述,认知诊断理论已趋于成熟,开发出多样化的模型应用于实证研究。从学段和学科分布上来看,大部分聚焦基础教育语文、数学与外语学科,针对高等教育外语学科的研究较少。从实施范围来看,以往国内研究多围绕特定地区和学校,较少针对全国范围。最后,从信息化和网络化维度来看,多聚焦于中小规模面授或混合式教学,针对较大规模样本的数据挖掘和在线应用仍需继续探索。因此,本研究将聚焦全国高校外语测试认知诊断数据挖掘及其应用于线上线下全学习过程的具体实施路径。

三、大规模外语测试认知诊断数据挖掘

(一)研究方法

我国教育部组织实施大学英语和西班牙语等专业的水平测试,属于国家级大规模标准参照性测试。全国高校西班牙语专业水平测试(Examen de Espa?ol como Especialidad,EEE)分别在本科二年级和四年级举行四级(简称“EEE-4”)和八级(简称“EEE-8”)测试,目的是确定水平、评估质量和落实改革。部分高校以EEE-4合格作为毕业门槛,许多部委和企事业单位视其为应聘条件。测试结束后,以远程方式为各高校提供报告,汇报全国平均分、各校平均分、考生分数和排名,但未能充分反映微观层面的问题与解决办法。教师和学生均需要更精准的个性化诊断报告,从而有针对性地在高年级进行补救教学和学习。基于迫切的现实需求,本研究选择EEE-4考试开展认知诊断改型数据挖掘。

以参与EEE-4考试的2,104名考生为研究对象。研究工具为阅读试题。考生需阅读两篇文章并完成30道单项选择题。改型分为以下四步:定义属性、建立题目和属性关联矩阵、选择分析模型、提供分数和反馈信息报告(Gierl, et al. , 2000; Lee & Sawaki, 2009)。

第一步,界定测量的能力及其组成成分。分析考试大纲和测试框架后发现阅读能力由5项技能构成,分别为理解词汇和句法、阐释明示信息、扫读和略读、推断隐含信息和总结信息。

第二步,对每道试题测量的具体技能进行匹配,建立试题和技能关联矩阵。一方面,根据细目表对每道题目考查的重点技能进行标记。另一方面,對9名考生(按成绩分为高、中、低三组,每组各3名)进行有声思维实验,作答时需汇报思维过程。之后参照阅读技能对有声思维数据进行编码和分析,界定成功作答每道试题所需要的技能。最后使用二进制编码标记关联结果。如表1中示例,0表示成功作答无须掌握该技能,1表示需掌握。最终构建了30×5的数字阵列,即Q矩阵。

第三步,选择恰当的认知诊断模型。题目采用二元计分形式,测量的阅读能力呈现多维异质特点,此外技能之间存在补偿效应,即对正答均有概率贡献。根据以往研究结果(De la Torre & Douglas, 2004; Chen, 2016; Li, Hunter, & Lei, 2016),G-DINA模型适用于二元计分,为多维补偿模型,适用于本研究。

第四步,使用计算机进行诊断分析并自动生成诊断报告。从宏观整体(全国)、中观局部(学校或班级)和微观个体(学习者)层面进行深度的数据挖掘。

(二)研究结果与分析

模型拟合结果表明,拟合指标赤池信息量准则(Akaike Information Criterion,AIC)和贝叶斯信息准则(Bayesian Information Criterion,BIC)分别为60,734.43和61,785.45。G-DINA模型的max(χ2)数值为14.63,P值为0.06,拟合效果良好(De la Torre, et al., 2004; 陈慧麟, 等, 2013; Chen, 2016; 林燕婷, 等, 2018)。数据挖掘结果分为以下三个层面。

1. 宏观整体

分析可知全国考生对阅读技能的整体掌握概率,反映宏观层面情况。具体数据见表2。

整体上掌握情况最理想的技能为“推断隐含信息”“扫读和略读”,说明探索未知信息和搜索已知信息能力较强,教学质量最高。“理解词汇和句法”“总结信息”是大纲的教学重点,需继续夯实。然而,“阐释明示信息”的掌握概率远低于其他技能,说明从整体来看阐释技能是教学和学习的难点。宏观结果为全国教学和测试大纲修订和教学改革工作提供依据。此外,与传统的分数和排名相比,认知诊断可以提供与测试构念紧密关联的反馈信息,如任务形式或内容出现变化,可克服历年分数无法关联的桎梏,为数据共享共通提供便利。

认知诊断还可以根据技能掌握分布情况将全国考生分类。结果表明,可划分为28个组别。表3展示了部分情况。其中第二列“技能分布类型”中的数字0代表未掌握技能,1代表已掌握。5项技能排序与表2相同。比如,组别1中的“01111”表示仅未掌握“理解词汇和句法”技能。

如表3所示,仅未掌握“理解词汇和句法”和掌握全部技能的人数最多,约占总数的三分之一,其他组人数相对分散,说明技能分布呈现显著多样性特征。由此可知,对于不同组别应打破“人人一课”,应针对不同痛点采取多样的补偿手段,实现“殊途同归”的目标。然而,宏观层面仍不足以适应本地化的需求,还需从中观局部层面分析和解读。

2. 中观局部

认知诊断数据挖掘为学校或班级提供具有本地化特色的参照系统。以某高校为例,中观层面结果如表4所示,标注方法与表2、表3相同。

可见约三分之一的学生掌握了全部技能,无须进行补救。约四分之一的学生未能掌握“总结信息”技能,数量较大,需针对这部分学生调整教学内容和方法,提升其概括和归纳大意能力。与宏观结果对比可知,该校中观层面结果存在差异。比如,掌握全部技能的全国人数比例为16.97%,而该校比例为32.86%。根据该校的情况,应考虑单独分班或进行分组教学。再比如,全国情况体现出的痛点在于“阐释明示信息”,而该校的困难在于“总结信息”,因此需要结合二者进行深入反思。中观层面的数据挖掘结果提供了本地化的统一参照系统,可以应用技术手段针对不同组别特点对各类教学资源进行自动化管理。可以将诊断结果和学习方案、课堂表现、教材内容、练习题库等线下和线上教育实践中的数据全部关联。然而,仍不足以支持个人定制式的学习,需要向微观个体层面继续深入。

3. 微观个体

基于认知诊断的数据挖掘最终分析出每名学生个性化的技能掌握情况。上文中高校学生的分析结果示例如表5所示,标注方法同上。

可见,学生乙未能掌握“阐释明示信息”技能,学生丙未能掌握“理解词汇和句法”技能。比如针对同一道题目,前者误答的原因在于阐发已理解词义能力不足,而后者在于未正确理解词义。传统的分数结果表明乙和丙均误答此题,得分一致,而实际的技能掌握差异仍需要认知诊断进行精准定位。根据数据挖掘结果可以为乙和丙制定针对该题目的个性化补救策略。

综上所述,应用计算机技术对大规模外语测试进行认知诊断数据挖掘可以获取丰富的个性化信息(马玉慧, 等, 2018; 黄宏涛, 等, 2019),而如何打破时空限制将诊断结果与教学和学习形成在线一体联动仍需要具体的操作路径。

四、大规模外语测试认知诊断的应用实践

进行认知诊断数据挖掘之后,为高校提供了宏观、中观和微观层面的反馈信息,各校结合自身的情况将结果与教学和学习对接。以表4中高校为例,该校首先对宏观和中观信息进行了分析,发现本校学生掌握技能情况与全国情况不同,且呈现多样化特点。由于师资力量有限,在线下无法进行充分因材施教的情况下,阅读课采用了线下分组教学和在线分组互动方式进行。分组情况如下:对表4中第1~10组技能有欠缺的学生进行了补救式指导,对第11组已掌握全部技能的学生进行了拓展教学。根据中观的反馈结果,在1~10组中,未掌握“总结信息”的人数最多,是教学难点。未掌握“阐释明示信息”的人数相对较多,需突出强调。教师在统一的数字化平台Blackboard数字教学平台发布了与中观层面信息相符的教学大纲,部分内容如表6所示。

此外,由计算机自动匹配生成了个性化的诊断报告,在课前通过在线学习平台向每名学生进行一对一的反馈(马玉慧, 等, 2018; 叶海智, 等, 2019)。以表5中学生乙为例,报告部分内容如表7所示。

依据统一的诊断结果,教师首先根据五项技能对预习任务进行分解,然后由计算机为每组学生匹配生成相应的预习导学案,对于学习有欠缺的学生进行支架式的引导(Li, et al., 2020)。比如,应用在线学习平台的群组功能为表4中的第9组学生(未掌握阐释技能)统一提供精准的预习导学案:请学生在课前阅读标题为“广告的负面影响”的文章,找出表示“批判”的同义表达手段。课前第9组学生还需应用微信或钉钉进行小组讨论,查找词典和研读文本,分析表示“批判”时使用的策略,旨在从预习开始有针对性地提升阐释技能。

在线下课堂中,教师将技能情况互补的小组合并为一个学习小组。比如将表4中第9组(学生乙所在组)和第6组(学生丙所在组)重组为一个讨论组。教师首先对预习内容进行抽查和讲解,之后同组学生共同阅读文章并讨论完成句意阐释练习。其用意在于让未掌握理解与阐释技能的学生开展组内合作,通过互助完成任务。可见,统一标准打通了课前预习、课堂任务和课堂表现,使各环节均指向痛点,信息互联互通(杨淑群, 等, 2009; 马玉慧, 等 2018; 叶海智, 等, 2019)。

在課后学习环节,教师首先依据不同的技能设计相应的作业与练习,并由计算机为学生进行匹配,通过在线学习平台推送作业与练习,示例如表8所示。

最后,通过在线学习平台的群组功能,学生乙与其他已掌握阐释技能的学生展开同伴作业互评并提出改进建议,提供解决问题的不同视角。

与以往应用认知诊断进行中小规模课程远程测评的研究结果一致,基于大规模外语测试的数据挖掘信息反馈同样能够精准因材施教,诊断出学生个性化的认知结构(马玉慧, 等, 2018; 黄宏涛, 等, 2019)。在之后的在线教学中,早期的诊断信息对预测学业困难风险、进行适应性的支架式教学、构建交互式学习小组具有积极意义(Li, et al., 2020),能够以数字化形式建立过去、当前和未来学习行为和目标的关联,有效提升教学质量(杨淑群, 等, 2009)。

此外,认知诊断信息可与个性化的学习资源(如导学案、教材、练习题、自主学习材料)和解决方案推送关联,与信息技术进行深度融合,在统一的数字化平台进行发布和应用,进行精准、及时和可持续的“施教”,与随机推送相比更加科学合理(马玉慧, 等, 2018; 叶海智, 等, 2019)。教师在在线导学中也能够发挥主观能动性,对精准解读和应用诊断结果起到积极作用(马玉慧, 等, 2018)。与传统的面授形式相比,基于认知诊断的远程教学和学习形式使信息互联互通,对开设专业较晚、缺乏丰富教学资源的学校来说尤其具有重要的意义(杨淑群, 等, 2009)。总之,基于测试数据挖掘和融入线上线下教育全过程的理念,可以构建表9中一体联动的实施路径。

综上所述,认知诊断能适应多样化的外语学习环境和方式,可將个性化学习者特征、开放性学习资源和信息技术有机整合,符合“推进信息技术与教育教学深度融合”“更新教育理念、变革教育模式”的目标和要求。

五、结论和启示

认知诊断可以对大规模外语测试数据进行深度挖掘和分析,在实现宏观整体反馈之外,同样关注中观局部和微观个体层面细粒化的诊断结果,可以使各类利益相关者了解全国、各地区、各校、各班级的具体情况,并获取学习者个体的精准信息,为运用信息技术实现个性化教学提供依据。此外,认知诊断数据挖掘结果可贯穿运用于测试后的教学与学习过程,充分实现信息反馈与线上线下教育实践科学融合,达成广泛深入的共享和互动。自动匹配的诊断信息和多样化的学习资源可以实现有效互通,使预习、讨论、复习、测评等教育活动能够一体联动、互助互利,将开放资源投入到开放环境和活动中去,打破时空限制以提升教育质量。

[参考文献]

蔡艳,丁树良,涂冬波. 2011. 英语阅读问题解决的认知诊断[J]. 心理科学,34(2):272-277.

蔡艳,谭辉晖,涂冬波. 2015. 哪个测验Q矩阵更合理:基于DINA模型测验合理性侦查指标及其比较与应用[J]. 心理科学,38(5): 1239-1247.

陈慧麟,陈劲松. 2013. G-DINA认知诊断模型在语言测验中的验证[J]. 心理科学(6):192-197.

戴海琦,谢美华,丁树良. 2013. 我国大陆认知诊断研究的文献计量分析[J]. 南京师大学报(社会科学版)(6):88-97.

杜文博,马晓梅. 2018. 基于认知诊断评估的英语阅读诊断模型构建[J]. 外语教学与研究,50(1):76-90.

范婷婷,曾用强. 2019. 认知诊断测试及其在阅读理解能力上的应用述评[J]. 中国外语(2):82-89.

黄宏涛,李世珍,李世玉,宋婷鸽,苏明骜. 2019. 基于BP神经网络的认知诊断方法在个性化教学中的应用[J]. 中国远程教育(1):86-91.

李令青,韩笑,辛涛,刘彦楼. 2019. 认知诊断评价在个性化学习中的功能与价值[J]. 中国考试,321(1):43-47.

林燕婷,陈慧麟,陈劲松. 2018. 探索语言水平测试的认知诊断改造和深度分析:以广州市英语学业考试为例[J]. 心理科学(4):989-995.

刘声涛,戴海琦,周骏. 2006. 新一代测验理论——认知诊断理论的源起与特征[J]. 心理学探新,26(4):73-77.

刘妍,戴静,石小亮,牛雨,祝嘉钰,顾小清. 2017. 认知诊断理论在计算机自适应测试中的应用与启示[J]. 中国远程教育(4):42-79.

刘占荣,刘永权,武丽娜. 2018. 国际远程高等教育研究与发展趋势[J]. 中国远程教育(12):31-42.

闵尚超,熊笠地. 2019. 基于认知诊断评估的听力理解互补性机制探究[J]. 现代外语,42(2):112-124.

马玉慧,王珠珠,王硕烁,郭炯. 2018. 面向智慧教育的学习分析与智能导学研究——基于RSM的个性化学习资源推送方法[J]. 电化教育研究,39(10):47-52.

涂冬波,戴海崎,蔡艳,丁树良. 2010. 小学儿童数学问题解决认知诊断[J]. 心理科学,33(6):1461-1466.

涂冬波,蔡艳,丁树良. 2012. 认知诊断理论、方法与应用[M]. 北京:北京师范大学出版社.

涂冬波,蔡艳,戴海琦. 2013. 几种常用非补偿型认知诊断模型的比较与选用:基于属性层级关系的考量[J]. 心理学报,45(2):243-252.

辛涛. 2005. 当前考试理论研究的进展[J]. 心理发展与教育:63-68.

叶海智,杨柳,黄宏涛,梅钰皎. 2019. 面向认知诊断的能力等级自适应试题推送模型构建及应用. 电化教育研究(11):93-98.

张启睿,边玉芳,陈平,张积家. 2019. 小学低年级学生汉字学习认知诊断研究[J]. 教育探究(2):76-85.

Buck, G., Tatsuoka, K., & Kostin, I. (1997). The subskills of reading: Rule-space analysis of a multiple-choice test of second language reading comprehension. Language Learning,(47), 423-466.

Buck,G., & Tatsuoka, K. K. (1998). Applications of the rule-space procedure to language testing: Examining attributes of a free response listening test. Language Testing, 15(2): 119-157.

Chen, H., & Chen, J. (2016). Retrofitting non-cognitive-diagnostic reading assessment under the generalized DINA model framework. Language Assessment Quarterly, 13(3): 218-230.

De la Torre, J., & Douglas, J. (2004). Higher-order latent trait models for cognitive diagnosis. Psychometrika, 69(3), 333-353.

De la Torre, J. (2008). An empirically based method of Q-matrix validation for the DINA model: Development and applications. Journal of Educational Measurement, 45(4): 343-362.

De La Torre, J. (2011). The generalized DINA model framework. Psychometrika, 76, 179-199.

Gierl, M. J., Leighton, J. P., & Hunka, S. M. (2000). Exploring the logic of Tatsuokas rule-space model for test development and analysis. Educational Measurement: Issues and Practices, 19(3), 34-44.

Jang, E. E. (2005). A validity narrative: effects of reading skills diagnosis on teaching and learning in the context of NG TOEFL. Unpublished doctoral dissertation, University of Illinois at Urbana-Champaign.

Kaplan, M., De la Torre, J., Ramón-Barrada, J. (2015). New item selection methods for cognitive diagnosis computerized adaptive testing. Applied Psychological Measurement, 39(3):167-188.

Lee, Y., & Sawaki, Y. (2009). Cognitive diagnosis approaches to language assessment: An overview. Language Assessment Quarterly,(6): 172-189.

Leighton, J. P., Gierl, M. J., & Hunka, S. (2004). The attribute hierarchy method for cognitive assessment: A variation on Tatsuokas rule-space aapproach. Journal of Educational Measurement, 41, 205-236.

Leighton, J. P. & Gierl, M. J. (2007). Cognitive diagnostic assessment for education: Theory and applications. Cambridge: Cambridge University Press.

Li, H., Hunter, V. C., & Lei, P. (2016). The selection of cognitive diagnostic models for a reading comprehension test. Language Testing, 33(3), 391-409.

Li, H., Kim, M., & Yao, X. (2020). Individual learning vs. interactive learning: A cognitive diagnostic analysis of MOOC students learning behaviors. American Journal of Distance Education, 34(2): 121-136.

Mislevy, R. J. (1993). Foundations of a new test theory. In: N. Frederiksen, R. J. Mislevy & I. I. Bejar(Eds.), Test theory for a new generation of tests(pp.19-39). Hillsdale, NJ: LEA.

Nichols, P. D. (1994). A framework for developing cognitively diagnostic assessment. Review of Educational Research, 64(4): 575-603.

Sawaki, Y., Kim, H. J., & Gentile, C. (2009). Q-matrix construction: Defining the link between constructs and test items in large-scale reading and listening comprehension assessments. Language Assessment Quarterly,(6): 190–209.

Tatsuoka, K. K. (1983). Rule-space: An approach for dealing with misconceptions based on item response theory. Journal of Educational Measurement, 20(4): 345-354.

Terzi, R. & Sen, S. (2019). A nondiagnostic assessment for diagnostic purposes: Q-matrix validation and item-based model fit evaluation for the TIMSS 2011 assessment. SAGE Open, 9(1): 1-11.

Yang, S., Ding S., & Yin Z. (2009). The theory about CD-CAT based on FCA and its application. International Journal of Distance Education Technologies, 7(4): 61-78.

收稿日期:2020-01-13

定稿日期:2021-01-11

作者簡介:王萌萌,博士,副教授,硕士生导师,北京外国语大学西葡语学院(100089)。

责任编辑 单 玲

猜你喜欢
数据挖掘外语技能
高级技能
探讨人工智能与数据挖掘发展趋势
外语教育:“高大上”+“接地气”
秣马厉兵强技能
拼技能,享丰收
基于并行计算的大数据挖掘在电网中的应用
大山教你学外语
大山教你学外语
一种基于Hadoop的大数据挖掘云服务及应用
画唇技能轻松