王全蕊 任建京 韩菲 谢鹏超 钦佳燕
摘要:通过借助深度学习技术对思政课教学过程中学习者进行建模分析,达到知识追踪的目的。考虑到每个学习者的能力和其他外力因素的影响会导致学习者的思政知识水平不一致、输入数据中存在差异性,在深度知识追踪中使用自然聚类算法对学习者的思政知识水平进行动态捕捉和聚类操作,并且在贝叶斯知识追踪模型中引入学习者学习情况分类标签,使得模型在学习过程中重点关注以往特定时间段内的信息,而不是只依靠上一時刻的输出状态,由此提高对学习者思政课知识点掌握程度的预测结果。
关键词:大数据;思政教育;深度学习;知识追踪
引言
基于深度学习的知识追踪方法,为学习者的思政教育认知程度和思政知识掌握情况进行动态追踪评估提供了一种有效的手段。通过该方法的应用,教师可以更加精准地了解学生的学习状况,制定个性化的教学策略,提高思政教育的质量和效果。同时,学生也可以通过该方法获得及时的学习反馈和指导,提升学习效果和学习成绩。
1. 知识追踪研究现状
随着教育信息化的不断推进和“互联网+”课堂教学的迅猛发展,思政课在线教学已成为高校思想政治教育的重要手段,同时也产生了大量的在线教学数据。许多教育研究者们试图采用数据挖掘、人工智能等信息技术来获取学习者的思政认知情况。知识追踪模型为教育研究者预测学习者知识状态提供了便捷的途径,也是教育数据挖掘领域的研究热点[1]。
知识追踪作为智能辅导体系的一个重要组成部分,目前被广泛应用于各个在线教育平台和智能辅助系统。贝叶斯知识追踪模型是目前最流行的知识追踪模型之一,但由于贝叶斯知识追踪所使用的隐马尔可夫模型假设当前题目和上一次答题的状态有所联系,这就导致贝叶斯知识追踪模型难以模拟较长的序列[2]。因此学者将具有强大特征提取能力的深度学习应用于知识追踪领域,能很好地解决该问题,同时也能捕捉到更复杂的学习者的知识表征,还可以用来发现知识成分之间的关联信息[3]。
随着深度学习技术不断加强,基于深度学习的知识追踪研究已经成为知识追踪领域的一个重要分支,并且取得了丰硕的成果。由Piech Chris(2015)[4]等学者提出的深度知识追踪模型,被看成深度学习知识追踪领域中取得的开创性成果。此后,学者开始致力于研究深度知识跟踪学习的模型改进。Williams(1990)[5]等人提出在连续采样时间内运行完全递归网络的梯度跟踪学习算法,可对学习者的输入数据进行降维操作,实验表明在一定程度上能提高深度学习知识追踪模型的效果。
2. 知识追踪问题描述
2.1 知识追踪定义
知识追踪的任务就是根据学习者对相关练习的历史学习记录,预测下一次学习者练习交互的正确率。知识追踪的任务可以被形式化为有监督的序列学习任务,使用Xt= (et, at) 表示学习者在t时刻对et所表示的练习给出的答案at。虽然将学习者学习交互活动Xt用显式表示出来,但是学习者对知识概念的掌握状态却是内隐的,很难准确地对学习者实际学习状态进行量化,因此可以将知识追踪任务转换为预测学习者将来练习的正确率。
2.2 基于深度学习的知识追踪模型
为了改进深度知识追踪,学者们提出了许多基于深度知识追踪的扩展模型。深度知识追踪模型的改进和扩展,需要打破该模型对学习者练习环节中引入文本信息、练习难易程度、概念层次以及概念之间的依赖性等先决条件的限制。受记忆增强神经网络的启发,学者们采用补充外部记忆结构来改进深度知识追踪模型,由此能更好地追踪学习者对复杂概念的掌握程度。其中使用键值记忆元来表示学习者学习知识状态的KVMN模型,比深度知识追踪的隐藏变量具有更大的表达能力。由于许多研究人员对深度知识追踪的可解释性提出了批评,因此学者们尝试使用其他方法来解决该问题。最终学者发现模型的固有可解释性可以通过构建学习模型来实现,该学习模型将可解释性直接包括到特定模型结构中,以提高深度知识追踪的可解释性。
3. 基于时空序列和特征嵌入的深度知识跟踪模型SSFE-DKT
3.1 模型框架
基于时空序列和特征嵌入的深度知识跟踪模型包括三个部分:采用卷积神经网络提取学习者答题序列的空间特征的部分、中间数据处理的部分、通过长短期记忆网络提取学习者答题过程中的时间和空间特征的部分。如图1所示。该模型直接使用LSTM从学习者的答题历史中提取序列的时间特征,该特征表示为学习者的隐藏知识状态,然后输出下一段时间的预测结果。SSFE-DKT模型从两个方面进行了改进。一是从序列特征中提取的信息数据不只包含原始学习者答题记录,还包括使用卷积神经网络从学习者答题序列中提取的空间特征数据。二是模型中时间特征学习结构采用LSTM可以学习正向学习者互动答题序列中的特征,由此既能够预测学习者的未来表现还能兼顾他们的过去表现,这使得在分析学习者在每个时间步骤的知识掌握时能够获得更准确的判断。
3.2 特征分类
嵌入的特征分为三类:基本特征、互动特征和其他特征。基本特征主要指在线教学平台已加入课程的学习者的基本信息、课程相关知识点信息、课程发布的练习题信息;互动特征主要指学习者学习过程中的学习信息,由于此类特征具有动态性,因此需要嵌入时间信息,即设定时间跨度;除了基本特征和互动特征,还提取了其他具有一定辅助的特征,这些特征中隐含了学习者的答题前后序列信息,有助于提高学习者对其答题行为的可解释性和可预测性。
4. 实证分析
4.1 数据来源和预处理
4.1.1 数据来源
本研究的数据来源于在线教育平台学习者选修的四门思政课,包括“马克思主义基本原理概论”“新时代中国特色社会主义理论与实践”“中国近现代史纲要”以及“思想道德修养和法律基础”。学习者在2022年春季(数据集记为D)、2022年秋季(数据集记为D)两个自然学期的答题历史数据,共有10431人次参加学习。每个数据集的统计属性分别为学习者用户数量和答题互动次数,如表1所示。
4.1.2 预处理
首先,对原始数据集D和D进行清洗,若某条数据的缺失值比例大于等于50%,则去除该条数据,否则保留该条数据,并进行缺失值填充。其次,去除两个数据集中的异常值,对于同一个学习者ID的同一道练习题的答题次数高于10次的,视为异常数据。再次,对两个数据集进行歸一化处理。最后,对同一学习者的多条重复数据进行合并,根据学习者ID进行身份识别,得到同时学习四门课程的学习者用户共有3711名,且有效答题次数为12620。
4.2 实验验证及分析
4.2.1 数据训练实验
本研究使用基于时空序列和特征嵌入的深度知识跟踪模型在处理后的2022年春季四门课程数据D和2022年秋季四门课程数据D'上进行训练测试。采用将数据集随机按照8:2比例划分为训练集和测试集,然后使用训练集来生成模型,再用测试集来测试模型的AUC和R2的值。模型使用期望最大化将参数拟合到训练集,所有模型使用相同的ad-hoc初始参数值集:p(Lo)=0.20,p(T)=0.10,p(G)=0.10、p(S)=0.15。由于评估时数据仅限于有限数量的计算资源,因此将EM迭代次数设置为5,以便在分配的时间段内进行交叉评估。使用SSFE-DKT模型对数据进行训练,同时也在其他知识追踪模型如DKT、SKVMN、Bi-CLKT上分别进行训练,模型的AUC和R2测试结果分别如表2和表3所示。
4.2.2 实验结果分析
通过四种知识追踪模型对数据进行训练测试,在学习者层面进行了5倍的交叉验证,使用曲线下面积作为度量,同时也使用R2用来描述数据对模型的拟合程度的好坏。根据数据结果显示,具有合并特征的SSFE-DKT模型优于原始DKT模型。由于SSFE-DKT模型可以捕捉学习者提交的多个练习之间的关系,因此在多粒度上AUC有显著的提高。在D2数据集上,添加时间序列和正确性的交叉特征后,AUC值从80.9提高到86.7,R2值从0.373增加到0.416。在D3数据集上,AUC值从四种模型的均值76.2增加到81.2,R2值从0.132增加到0.141。事实上,如果只结合时间序列和正确交叉特征,则输入层的维度仅增加4×2=8(时间×正确性),因此与原始DKT模型相比,SSFE-DKT模型的运行效率更高,且预测效果也有所提高,即如果学习者在上一次提交中的答案已经正确,他们更有可能做出正确的回答。
结语
越来越多的学习者通过在线教育平台进行学习,由此产生了大量的学习和互动数据,促进了人工智能辅助教育系统的快速发展。在学习者互动数据急剧增长的同时,需要不断优化学习者的认知判断和学习策略,以提高教育系统的整体效率。因此人工智能辅助的教育应用,如基于深度学习的知识追踪,获得了越来越多的关注。由于深度学习尚未解决可解释性问题,因此深度知识追踪的三种方法即嵌入、损失函数限制和新结构都有自身的缺点。未来对于知识追踪的研究可以借鉴这三种方法,在嵌入学习信息的基础上通过设置损失函数自适应保留和丢失数据,最后结合知识图谱这种图模型来直观体现学习者学习过程中知识的迁移,从而实现知识追踪的目的。
参考文献:
[1]梁琨,任依梦,尚余虎,等.深度学习驱动的知识追踪研究进展综述[J].计算机工程与应用,2021,57(21):41-58.
[2]李梦琦.基于深度学习的学习者知识追踪方法研究[D].长春:东北师范大学,2020.
[3]刘铁园,陈威,常亮,等.基于深度学习的知识追踪研究进展[J].计算机研究与发展,2022,59(1):81-104.
[4]Piech C,Spencer J,Huang J,et al.Deep Knowledge Tracing[J].Computer Science, 2015,3(3):19-23.
[5]Williams RJ, Zipser D.A Learning Algorithm for Continually Running Fully Recurrent Neural Networks[J].Neural Computation,1990:270-280.
作者简介:王全蕊,硕士研究生,讲师,研究方向:智慧教育、知识图谱构建。
基金项目:2023年河南省科技攻关项目:教育大数据视域下基于学习反馈自适应的知识图谱构建(编号:232102211083);河南科技学院2023年教师教育课程改革研究项目:基于智慧教育理念的中学线上线下混合式校本课程开发与实践研究(编号:2023JSJY10);河南科技学院2023年第一批教育教学改革研究与实践项目:智慧教育趋向下的融合式教学实践研究——以《操作系统》课程为例(编号:2023YG04)。