可信的端到端深度学生知识画像建模方法

2023-08-15 02:54:02王士进吴金泽张浩天黄振亚

计算机研究与发展 2023年8期

王士进吴金泽张浩天沙晶黄振亚刘淇

1 （认知智能全国重点实验室（科大讯飞股份有限公司）合肥 230088）

2 （科大讯飞股份有限公司合肥 230088）

3 （大数据分析与应用安徽省重点实验室（中国科学技术大学）合肥 230027）（sjwang3@iflytek.com）

学生知识画像建模是智能教育中的一个基础的任务.它旨在通过挖掘学生历史记录，对学生的知识状态，即知识概念的掌握程度进行推断，从而在知识维度上构建个性化的学生表示，即学生知识画像.基于学生知识状态表示，智能教育系统（intelligent education systems）能够针对性地关注学生薄弱点为学生提供各种个性化的智能教育服务.例如为学生推荐个性化的试题、教学视频等学习资源以及为学生定制学习路径，从而让学生的学习过程减负增效[1-10].

现有的学生知识画像建模任务及应用中，往往使用知识追踪（knowledge tracing, KT）类方法[10]刻画学生.知识追踪方法通常首先定义一个学生知识状态向量以表示学生在各个知识概念上的掌握程度，并基于学生每个时刻的表现预测目标，优化该隐式的知识状态向量，使其可以动态表征学生知识状态变化趋势.特别是近年来，基于深度学习的方法已经成功应用到知识追踪任务中，并且在学生未来答题表现预测目标上获得了成功[11].

然而知识追踪方法的最终目标是预测学生未来时刻的题目粒度上的作答得分.这造成了此类方法的预测目标与期望的衡量学生在知识概念上的掌握程度的知识画像不一致的问题[12-14]，最终导致了基于知识追踪方法的学生知识状态建模结果不可信，从而难以被应用在面向学生知识画像的智能教育场景与应用中.

具体而言，现有方法在进行学生知识画像建模时的不一致问题产生了不可信的预测，具体来说现有方法具有2方面的不一致性：

1）时序不一致.知识追踪方法通常就学生答题表现预测这一优化目标进行优化.模型关注的是预测学生下一时刻对某个题目的作答情况的即时能力，而学生知识画像期望的是一种足以描述学生在未来一段时间内表现的学生知识状态.这种时序上的不一致导致了预测结果的不可信.如图1所示，学生在知识概念kc3（“减法的计算和应用”）下一时刻作答错误，然而随后的作答连续正确.如果仅关注下一时刻的作答以评估学生知识概念上的掌握情况，将导致获得不可信的知识状态.

Fig.1 Student knowledge portrait prediction图1 学生知识画像预测

2）预测粒度不一致.现有的知识追踪方法通过对学生历史答题记录的挖掘和建模对未来时刻学生在某个试题q上的期望作答结果进行准确的预测.在此过程中，知识追踪方法将学生知识状态建模为一种抽象的表示，并假设更准确的试题作答预测与知识状态表示的更好估计是一致的.然而题目粒度上的作答预测受题目选择的影响较大，如图1所示，选择学生对知识概念kc3（“减法的计算和应用”）中前2题的作答情况和后2题的作答情况估计学生该知识粒度的掌握程度会有明显的差距[15].因此在题目粒度上进行学生知识画像建模难以获得可信的估计.与之对应的学生知识画像预测的目标是建模学生对知识概念粒度的掌握度.如图1所示，通过对学生历史序列的建模，学生知识画像预测方法被期望输出学生对知识概念的掌握度估计.该估计应当能够衡量在短期内学生在某知识概念kc相关题目{q1,q2,…}上整体的作答情况.例如，知识画像方法对学生在kc1（“四则混合运算”）的掌握度产生了较低的估计，这与真实记录中学生在该知识概念上短期内的较差的作答情况吻合；方法对kc2（“加法的计算和应用”）上掌握度较高的估计也吻合了学生在该知识概念较好的未来作答情况，这种知识状态的估计将更为可信和准确.

针对上述问题，本文提出了端到端深度学生知识画像方法.本文首先针对现有方法在学生知识画像预测时的目标不一致的情况，构建了时序、预测粒度一致的端到端学生知识掌握度预测目标.进一步地，本文提出了一种深度知识画像（deep knowledge portrait, DKP）模型.DKP模型包含3个主要模块：1）知识粒度交互表征模块；2）知识状态序列建模模块；3）知识画像预测模块.具体而言，知识粒度交互表征模块用于在知识粒度上描述学生的交互，以确保预测粒度的一致性.因此该模块融合了更多的知识层面的试题表征，如知识概念、知识难度等表征，从而区分学生在不同知识概念上的作答交互.特别地，该模块使用知识聚合策略融合与当前练习知识相关的知识表征，从而引入知识之间的相关性.知识状态序列建模模块负责基于学生历史作答序列，建模学生知识状态.本文使用双向长短时记忆（Bi-LSTM）网络架构以更好地捕捉学生作答时序的信息.知识画像预测模块端到端地对学生在某些知识概念上的掌握程度进行预测，从而粒度一致地对学生知识状态进行估计.为了增强对学生历史状态中与待画像知识概念相关信息的关注，本文设计了一种多头注意力池化层，基于多头注意力机制有选择地过滤历史交互，为更相关的交互赋予更高的重要性.最终，DKP模型能够端到端地对学生在某些知识概念的掌握度进行预测，从而实现预测与任务目标的一致性，产生可信、可解释的学生知识画像.本文在3个真实数据集上进行了实验，实验结果表明DKP在学生知识画像预测任务中能够获得更加可信的学生知识画像，在数据集上的各项指标超过了目前最优的方法.

1 相关工作

1.1 知识追踪方法

20世纪90年代以来，知识追踪（knowledge tracing, KT）成为了智能教育的一项基本任务，其目的是根据学生的历史学习表现来追踪学生的知识状态[10].其中，基于贝叶斯知识追踪（Bayesian knowledge tracing,BKT）的模型就是一类代表性方法，也是第一类被提出的知识追踪模型[1].BKT利用隐马尔可夫模型将学生的知识状态表示为一组二值化的参数.近年来，由于深度学习技术能够对数据高效地建模和挖掘，深度学习技术被广泛地应用在各项方法中.其中，深度知识追踪（deep knowledge tracing, DKT）首先将深度学习引入到知识追踪任务中，DKT利用循环神经网络（RNN）以及其变体建模学生答题记录并更新学生的知识状态表示[11].随后DKT方法变体依次被提出，例如卷积知识追踪（CKT）应用卷积神经网络（CNN）来模拟学生个性化学习过程[15].动态键值网络（DKVMN）被引入追踪和记忆学生能力变化[16].基于注意力机制的知识追踪（SAKT, AKT）方法引入了注意力机制建模学生学习过程[17-18].基于图神经网络的知识追踪（GKT）应用图神经网络（GNN）方法来建模知识概念之间的关系[19-20].学习过程一致的知识追踪（LPKT）考虑到学生学习过程中的记忆和遗忘因素来建模学生学习过程中知识状态的变化趋势[14].此外一些知识追踪方法也致力于引入更多额外信息增强学生表现预测的效果，如试题表征[21]、难度属性[22]，知识关系等[23].然而现有的知识追踪方法大多关注学生在题目上的得分，这与对学生知识概念掌握程度的估计的目标不一致，导致了产生了不可信的学生画像.

1.2 用户建模

用户建模是一项基本任务，它旨在通过分析用户显式的行为数据，推断出用户难以观察的隐式画像特征，如能力、偏好、习惯、倾向等[24].用户建模任务广泛地应用在各个领域中，通过建模用户准确的画像，从而为下游任务提供丰富的信息.近年来，研究者们基于深度神经网络对用户建模来推断用户的视觉能力[25]、律师的专业性[26]、游戏中玩家竞争力[27]、以及用户的在饮食、社交、旅游、新闻检索等各门类的偏好[28].但与其他领域中用户画像往往作为一个隐式的信息用于下游任务推断不同，教育领域的学生知识画像成为了重要的期望输出，并且对其可信性要求更加严苛.但是现有工作往往没有保持学生知识画像的任务目标与方法目标的一致性，也难以输出可信的学生知识画像，这阻碍了其在智能教育实际场景中的应用.

2 模型与方法

本文提出了用于学生知识概念掌握度预测的DKP模型，DKP 模型框架如图2所示.在本节首先形式化了学生知识画像预测任务与目标.然后详细介绍DKP 细节，包括知识粒度交互表征模块、知识状态序列建模模块，以及知识画像预测模块.

2.1 问题定义

在介绍具体的模型设计之前，本文首先针对现有方法与学生知识画像预测目标的不一致的情况，为学生知识画像任务构建了时序、预测粒度一致的端到端的学生知识掌握度预测目标.在一个智能教育系统中，学生集合为S，题目集合为Q，知识集合为KC.学生对试题作答形成了学习记录R={(q1,kc1,a1),(q2,kc2,a2),...,(qt,kct,at)}.每个时刻t的学习记录为一个三元组(q,kc,a)，表示了某学生在属于知识概念kc的题目q上的交互，其中作答结果为a.本文的目标是构建知识粒度的学生知识画像模型M，针对待预测知识概念kcp，输出预测结果r∈{0,1}，其中1表示学生完全掌握该知识，0表示学生不完全掌握该知识，将r与衡量学生知识概念掌握度的真实画像y（真实画像的构建将在3.2.2节画像场景构建详细介绍）进行拟合，即实现minF(r,y).最终实现对学生在某个知识概念上的掌握度进行端到端的推断，并保持与真实画像的一致，以吻合其未来一段时间的表现情况，从而获得可信的学生知识画像.

2.2 知识粒度交互表征模块

学生的学习过程由相对独立的学生-题目交互组成.正如前文所提到的，仅关注题目粒度上的特征与交互，忽略了学生在知识粒度上的表现将导致产生不可信的结果.为了更好地利用题目的特征，并在知识粒度上对学生掌握度进行刻画，本文设计了知识粒度交互表征模块，基于学生交互生成良好的表示作为后续算法层的输入，并保障预测与知识画像的一致性.

学生知识画像预测的目标是获取学生在某些知识概念上的掌握程度，因此建模的表征需要更加关注题目在知识层面的信息，从而有效地区分不同的知识在概念上的交互.因此本文使用包括题目的难度dq、题目所属的知识概念kc、对应知识概念的难度dk，以及交互的结果a等特征进行交互建模.特别是与现有方法使用one-hot向量表示不同的类型或元素的表示方法不同，本文使用信息更稠密的嵌入向量表示来表征特征.具体而言，如图2所示，对于题目的知识概念，本文首先随机初始化一个嵌入矩阵EK∈RK×d，其中d为嵌入向量的维度.任意一个知识概念kci均可以用某一行向量kcei对应地表征.众所周知的是，知识概念之间存在着广泛的联系，而不是孤立的存在[29]，在学生进行题目交互时，与该题目对应的知识概念相关的知识概念的掌握程度往往也会影响学生的表现.为了建模知识概念之间的关联，本文使用了一个嵌入矩阵RK∈RK×K，其中每行代表了某个知识概念与其他知识概念之间的相关性.本文直接使用了知识之间的关联构造了关系矩阵增强知识之间的相关性，以启发式地构建知识关联.在更复杂的场景中，可以将知识点构造为有向或无向的图结构，进一步采用图神经网络的方法，获得更具表达性的知识表征.本文关注的重点是进行端到端的学生的序列建模以获得可信的学生知识画像，因此采用了直观的方法进行知识相关性的建模.最终基于知识相关性获得了综合的知识概念表征：

对于题目难度，本文采用了经典测量理论中的项目难度分析方法[30-31]：

其中Si是训练集中回答了题目qi的学生集合，ai==1表示回答正确的样本，λ为预定义的难度级别标准.类似地，对于知识概念难度，遵循相似的计算方法：

其中Si是训练集中作答了知识概念kci的学生集合，ai==1表示回答正确的样本，λ为预定义的难度级别标准.基于式（2）（3），本文在题目和知识概念粒度上均统计了平均得分率并基于难度级别将其划分为多个难度级别，以用于后续的特征向量化.

进一步地，本文随机初始化嵌入矩阵EDQ∈RD×d，EDK∈RD×d对题目难度以及知识概念难度分别表示为dqei,dkei；还随机初始化了嵌入矩阵ER∈R2×d，对作答结果{0，1}表示为向量aei.最后将上述交互特征组合后输入多层感知机（multi-layer perceptron, MLP），获得每次交互的表征向量x，计算方式为：

其中W1∈R4d×d是MLP的权重矩阵，b1∈Rd是对应的偏差项.通过该交互表征模块，本文考虑了一次交互过程中的重要特征，从而能够更好地区分学生在不同知识概念上练习的行为.同时利用了嵌入向量表示，增强了各个特征的表达能力.经过训练，本文提出的方法可以获得更加精准有效的交互表征.

2.3 知识状态序列建模模块

基于交互表征模块输出的学生知识粒度上的表征序列，该模块旨在挖掘知识粒度上的学生知识状态变化，以保持预测粒度的一致性.特别是，学生的学习是一个动态的过程，学生在这个过程中逐渐熟练掌握或遗忘某些知识，因此学生的知识状态会随着学生与题目的交互动态地变化.如图2所示，本文提出的DKP模型使用循环神经网络对学生知识状态进行建模.具体地，本文采用了长短时记忆（LSTM）进行学生状态建模.基于交互表征模块中建模的某时刻学生交互输入xt，学生知识状态的具体计算公式为：

其中Wi,Wf,Wo,Wc∈R2d×d是权重矩阵，bi,bf,bo,bc∈Rd是偏差项.隐层参数ht被视为学生的知识状态，并被持续地更新和计算.传统的知识追踪场景中，模型关注连续时刻学生的表现，因此通常使用单向的网络进行连续单步推断和拟合，同时保障未来信息的不可见.然而，学生知识画像预测任务倾向于一种静态的序列预测任务，虽然学生作答过程中的知识状态是动态变化的，但是在学生知识画像阶段，学生过去的所有序列均是可见的.同时，不同于表现预测中预测点通常是连续的，真实场景中学生掌握度预测的预测点通常是离散的，智能应用往往在学生经过一段时间的学习后对学生掌握度进行阶段性推断并生成学生知识画像.基于学生知识画像的场景时序，不同于使用单向的LSTM进行动态的训练，本文的DKP使用一种双向双层的LSTM从而在画像前对学生的历史序列进行双向建模，避免了历史作答信息的过度遗忘，更好地捕捉作答的时序信息，增强学生知识状态的可信性.具体而言，如图2所示，本文使用的双向LSTM包含了2 个独立的LSTM结构，如式5所示.2 个LSTM分别使用正向的输入序列和反向后的输入序列作为输入，最终通过拼接2 个LSTM结构的输出，获得双向LSTM的输出隐层参数.

2.4 知识画像预测模块

与传统知识追踪任务对题目粒度的拟合和预测不同，本文关注的学生知识画像预测任务是面向学生历史交互序列，对知识粒度上学生掌握情况的推断，从而获得可信的知识状态.在对不同的知识概念进行画像时，对学生历史状态的关注是不同的，具体来说与当前被预测知识概念kcp更相关的知识概念以及交互记录更应该被关注以增强画像的可信性.因此，在知识画像预测模块中，本文设计了一个多头注意力池化层，从而选择出在学生历史中更加重要的交互，以构建最终的知识状态表征向量.

具体而言，学生知识状态序列建模模块生成了包含了学生在每个交互时刻的知识状态向量的历史状态矩阵H=（h0,h1,…）.基于待预测的知识概念向量，本文使用多头注意力机制对学生知识状态进行聚合.首先该模块计算知识状态向量与待预测知识概念向量之间的相似度：

其中Wn∈Rnd×d是一个映射矩阵.当n＞1时，该池化层将使用多头注意力衡量知识状态与待预测知识概念之间的相关性.Wa∈Rd×1将高维的相似表征映射为一个衡量相似度的标量.多头注意力机制为与待预测知识概念更相关的知识状态赋予更高的权重，并通过将学生各个时刻的知识状态进行加权融合，计算出最终的学生知识状态表征hattn：

最后本文通过将加权后的学生知识状态表征与待预测知识概念表征拼接后输入另一个MLP中计算学生某个知识概念上的画像值：

类似地，其中W2∈R2d×d是一个权重矩阵，b2∈Rd是一个偏差项.基于该模块，由于使用了显式的知识概念信息的输入，并在知识粒度上对受关注的信息赋予了注意力，模型最终能够端到端输出对应知识概念的预测结果，增强了输出的可解释性，最终生成可信的学生知识画像.

为了在时序、预测粒度一致的先验下训练DKP中的所有参数和随机初始化的表征向量，本文基于端到端的学生知识掌握度预测目标，使用预测知识概念画像r与真实画像y（真实画像的相似构建将在3.2.2节画像场景构建详细介绍）之间的交叉熵对数损失作为目标函数，目标函数表示：

3 实验

3.1 数据集

为了验证本文提出的DKP模型的有效性，本文选取了3个真实数据集进行实验，这3个数据集的具体介绍为：

1）Assist①https://sites.google.com/site/assistmentsdata/数据集收集自在线教辅平台ASSISTments数据，包含的平台用户的数学答题日志来自4 217名学生，属于124个知识点上的26 687个题目上的总计401 756条交互记录.平均每个学生的交互记录长度约为95.

2）JunYi①https://pslcdatashop.web.cmu.edu/Files?datasetId=1198数据集收集自基于可汗学院发布的开源代码和2012年建立的在线学习平台Junyi Academy中的答题日志.该数据集包含来自247 606名学生，属于39个知识概念的720个题目上的总计25 925 992条学习交互记录.平均每个学生的学习交互记录长度约为104.

3）MATH数据集来自于某知名智能教育企业在线学习数据，该数据集收集了2019—2022年初中学生的在线答题记录.该数据集包含来自16 661名学生，属于1 427个知识概念的49 853个题目上的总计4 319 270条学习交互记录.平均每个学生的学习交互记录长度约为259.

3.2 实验设置

3.2.1 数据划分

在所有的数据集上，本文按答题时序将每个学生的答题日志组成一条序列数据.进一步地，本文随机地将90%的序列作为训练集，10%的序列作为测试集.针对训练集，本文采用了标准的5折交叉验证进行模型训练和验证.所有的超参数都是在训练集上学习，在验证集上表现最好的模型被用来评估测试集.

3.2.2 画像场景构建

本文关注学生知识画像场景对学生在各个知识概念上画像的效果，因此在进行基于学生知识画像预测任务的训练以及学生知识掌握度预测时需构建可信的学生真实画像.本文首先按照答题的时间顺序对学生的所有学习交互记录进行排序.然后将交互记录进行切分，构造学生知识画像预测的输入与预测序列.其中对于MATH数据集，本文使用该数据中自然存在的学生测评时刻作为画像点，使用画像点前最长150条交互记录作为输入，对于短于该长度的序列，使用零向量将其填充到固定长度；画像点后最长50条交互记录作为预测序列，其中出现的知识概念作为待画像知识概念.学生的画像值应该能够代表学生短期内的预期表现，因此学生在知识概念上的画像值被定义为预测序列中每个知识概念前3次交互的整体作答情况，其中3题都答对，意味着完全掌握该知识概念，对应画像值为1；否则意味着非完全掌握，画像值为0.类似地，对于Assist和JunYi数据集，因为其不存在天然的画像点，本文在每条交互记录中，每隔50个交互记录定义一个画像点，并将该点前最长150条交互记录作为输入，画像点后最长50条交互记录作为预测序列，预测序列中出现的知识概念作为待画像的知识概念.

进一步地，本文分析了不同的真实画像值计算方式与学生未来表现的一致性，如表1所示.表1展示了使用学生某个知识概念未来2道、3道、5道题的平均作答情况作为学生画像值时，学生未来至少3道题的表现情况.能够看出，当计算画像题数目过多或过少时，学生未来表现的一致性都会下降，即正例的平均得分与负例的平均得分之间的差距过小，难以区分学生掌握程度，因此本文选择了3道题计算学生真实画像.

Table 1 Consistency Between Different Portrait Values and Students’ Future Performance表1 不同画像值与学生未来表现一致性

3.2.3 参数设置

本文使用泽维尔初始化[32]模型训练中的所有参数，即使用采样于的均匀分布参数，其中ni和no分别是输入和输出的维度.然后以128为批数据大小进行模型训练，并采用学习率为0.001的Adam优化器进行优化.此外，对于DKP中嵌入矩阵、MLP和Bi-LSTM，本文设置隐层维度d=200，其中Bi-LSTM的层数为2；难度级别标准λ=0.2，从而将题目和知识概念难度划分为5个级别.

3.2.4 对比实验方法

本文将DKP与现有典型知识追踪方法在学生知识画像预测任务上进行了对比.基线模型具体介绍为：

1）基于LSTM实现的DKT[11].本文使用DKT建模的学生知识状态作为学生知识画像，其中知识状态的每个位置的标量表示了对对应知识概念的掌握程度.

2）基于动态键值记忆网络的DKVMN[16].本文使用DKVMN中表示学生知识概念掌握程度的值网络作为学生知识画像.

3）基于自注意力机制的SAKT[17].类似地，本文使用其建模的学生知识状态作为学生知识画像，其中知识状态的每个位置表示了对对应的知识概念的掌握程度.

4）对具有单调注意力机制和基于Rasch模型题目表征的AKT[18].由于AKT没有显式地把学生表示与知识体系进行对齐，而是使用了一种抽象的隐层向量表示学生知识状态，最终在题目粒度上进行知识追踪.因此，本文使用AKT在对某个知识概念下所有题目的预测作答结果的平均值作为该学生在这个知识概念上的掌握程度，通过这个方法，本文使用面向题目粒度的学生表现预测输出构建出了学生知识画像.

5）考虑到学生学习过程中的记忆和遗忘因素来建模学生知识状态变化趋势的LPKT[15].该方法用向量而不是标量为学生在每个知识概念上提供了抽象的表示，并在题目粒度上对学生进行知识追踪.因此，本文使用LPKT对某个知识概念下所有题目的预测作答结果的平均值作为学生在某个知识概念上的掌握程度，即预测画像.

对于所有数据集和模型，本文均沿用原始论文中的方法和配置[11,15-19]，并选择在验证集上表现最好的模型来评估测试集.上述所有模型都在带有4块2.30 GHz Intel®Intel Xeon E5-2650 CPU资源和2块NVIDIA Tesla M40 GPU资源的Linux服务器上进行训练.

3.3 学生知识画像预测

为了评估DKP的有效性，本文将DKP与所有的基线模型在学生知识画像预测任务上进行比较.实验结果如表2所示，在表2 中本文展示了多次实验的平均指标与偏差，其中偏差代表了多次重复实验中指标的平均结果与最大（最小）结果的差距.为了提供可靠的对比结果，本文在所有实验中都采用了3项评估指标： ROC曲线下面积（AUC）[33]、均方根误差（RMSE）和准确度（ACC），其中在计算预测准确性时将分类阈值设置为0.5.从表2中可以观察到2个重要的实验结果：1）受益于基于时序、预测粒度一致的端到端的学生知识掌握度预测目标优化的深度学生画像模型，本文提出的方法在学生知识画像预测任务上超过了基于知识追踪的方法.2）AKT与LPKT方法基于平均题目预测构建的知识画像较基于隐层知识概念的方法DKT，DKVMN，SAKT构建的知识画像在各个数据集上总的来看具有较高的预测准确率.这是因为AKT和LPKT这2个方法更好地将学生知识画像预测任务和题目预测任务在知识粒度上统一起来，因此增强了知识画像的可信性.然而一方面DKP在时序粒度上更好地保持了任务的一致性，另一方面基于题目预测的方法，每个知识概念下预测题库的容量和选择也会带来一定偏差，DKP因此可以获得最好效果.

Table 2 Performances of Student Knowledge Portrait Prediction on Each Dataset表2 各数据集上学生知识画像预测表现

进一步，考虑到真实场景对学生知识画像效率的需求，本文比较了DKP与基线方法的推理效率.实验结果如表3所示，从表3中可以观察到DKP方法的推理速度更具有竞争力.特别是其中基于隐层知识概念的方法DKT，DKVMN，SAKT，由于每次进行学生知识画像时其可以一次性输出所有知识概念上的学生知识画像向量，并进行取舍和索引，因此具有较快的推理速度；基于题目预测的方法AKT，LPKT在针对某个知识概念进行预测时需要在题目粒度上对该点对应的所有题目进行预测，因此推理速度相对较慢.因此，本文提出的方法在保障一定的推理速度的基础上，实现了可信的学生知识画像预测.

Table 3 Comparison of Inferring Efficiency of Different Methods表3 不同方法推理效率对比

3.4 消融实验

为了进一步验证DKP中各模块的有效性，本文在各个数据集上对DKP模型进行了消融实验.本文构建了4 种简化模型，对DKP的交互表征模块、知识状态序列建模模块以及知识画像预测模块进行了消融，消融过程分别是去除了相关知识概念的聚合，交互的难度表征，将建模交互序列的Bi-LSTM改为简单的LSTM以及在预测过程中去除了注意力机制.实验结果如表4所示，总的来看，完整的学生知识画像方法DKP优于其他简化方法.特别是，由于DKP引入了注意力池化，增强了知识粒度的一致性，实现对学生历史状态中相关部分的关注，最终获得了更可信的画像预测.进一步地，为了对比不同的难度级别设置对模型效果的影响.本文设置了不同的难度级别，并对比不同设置下模型的效果，其中包括：1个级别（λ=1）；2个级别（λ=0.5）；3个级别（λ=0.3）；5个级别（λ=0.2）.实验结果如图3所示，较精细的难度级别划分通常能够获得更优秀的结果，这说明了难度特征能够建模学生与试题交互时提供有效的信息，增强画像的可信性.

Table 4 Results of Ablation Experiment表4 消融实验结果

Fig.3 Influence of different difficulty levels on knowledge portrait prediction图3 不同难度级别对知识画像预测影响

3.5 学生知识画像过程可视化

学生知识画像预测任务旨在基于学生历史记录对学生表现进行刻画，本节使用了学生真实的作答记录展示本文在学生知识画像预测任务上的可解释性.如图4所示，为了方便可视化和展示本文，选择了某学生在3个不同的知识概念（即相反数的意义、有理数的分类、用正负数表示相反数）上进行的练习记录，然后使用DKP以及最典型的对比方法LPKT对学生在这3个知识概念的掌握程度进行了画像.如注意力分布所展示的，对于不同的知识概念，模型关注的学生作答记录各有不同，其中注意力分布颜色越浅表示越受关注，当对“有理数的分类”进行预测时，仅关注了该知识概念；对“用正负数表示相反数”进行预测时，相关的知识概念，即“相反数的意义”也获得了一定的关注.图4清楚地展示了由于“相反数的意义”这一知识概念关注的作答记录中存在表现较差的交互，因此该点下的画像展示出学生的掌握程度较为一般，同时也影响了“用正负数表示相反数”的画像结果.进一步地，与学生未来短期内的真实作答进行对比，由于DKP保持了画像预测在时序和预测粒度的一致性，因此在学生知识画像较差的知识概念“相反数的意义”上，学生未来表现确实较差.与之对应的是，LPKT更关注学生未来时刻题目粒度上的作答预测，因此做出的估计与学生未来总体表现并不完全一致，导致了画像预测结果不可信.这表明了学生知识画像预测任务能够清楚地反映学生在未来一段时间的真实表现，DKP方法确实能够准确地基于学生历史作答输出可信的知识画像.

Fig.4 Students’ answers and protrait processes on three different knowledge concepts on real datasets图4 真实数据集上学生在3个不同的知识概念上的作答以及画像过程

3.6 学生知识画像可信性分析

作为一种可信、可解释的学生知识掌握程度的表示，学生知识画像应当能够衡量短期内学生在知识概念kc相关题目{q1,q2,…}上整体的作答情况.除了端到端地在知识粒度上对学生的知识概念掌握度进行建模外，为了进一步分析说明DKP生成的学生知识画像的可信性，本文分析了学生知识画像的分布与学生未来表现的分布是否一致.具体而言，本文将DKP在3个数据集上预测的正例（即预测学生掌握了知识概念）和负例（预测学生未掌握知识概念）在随后若干题（TOP-K表示随后K题）上的平均得分进行了统计，获得所有学生在模型预测分别为正例和负例条件下的平均作答得分.实验结果如表5所示，从表5中可以观察到，模型预测为正例学生的平均作答得分要明显高于负例学生的平均作答得分，即DKP对学生在正例产生了较高的估计，对应了真实记录中学生在该知识概念上短期内较好的作答情况；方法对负例的较低的估计也吻合了学生较差的未来作答情况.因此，本文提出的方法可以在保证方法与任务目标相一致的条件下生成可信的学生知识画像.

Table 5 Average Scores of Positive and Negative Examples on Future TOP-K Questions表5 正例和负例在未来TOP-K题目上的平均得分

进一步地，本文提出的方法已经在某智能教育平台上进行了开放场景的应用.在初中数学主流用户版本（人教、苏科、北师大、沪科等）上对46 066个用户进行了在线测试.具体而言，我们重放了用户在平台上的作答记录，以章节为画像的时刻计算本文提出的方法预测的学生知识画像相较学生真实画像的准确性（学生真实画像的计算方式与本文一致），最终学生知识画像的准确率达到70%.进一步地，本文在在线场景下对所有的学生、教师、家长等用户进行了问卷调研，在画像后调研各用户对当前章节画像的满意度.其中满意度分为2个级别：满意和不满意.最终本文回收了20 000份问卷，通过统计问卷调研的用户选项为“满意”的比例，本文获得了用户对画像满意度达75%的结果.这表明了本文提出的DKP方法能够基于开放场景的学习记录对学生知识画像做出可信地预测.

4 总结

针对智能教育平台中的学生知识画像预测任务，现有的知识追踪方法存在时序、预测粒度层面不一致的问题.本文提出了一种深度学生知识画像方法.该方法建模了丰富的知识粒度表征以区分学生不同知识概念上的交互，使用双向长短时记忆网络建模学生知识状态的变化，并引入了注意力机制以关注学生历史知识状态中更相关的交互.实验表明，本文提出的方法可以获得更可信的学生知识画像.

在未来的研究中，将继续探究智能教育场景中学生知识画像预测任务的独特问题.例如结合知识图谱，构建知识概念之间的关联，从而在学生答题记录更加稀疏的冷启动场景下更好地对未知的知识概念进行学生知识画像.此外，还可以尝试将题目文本等丰富表征融入到表征的建模中.

作者贡献声明：王士进提出了算法思路和实验方案；吴金泽负责完成实验并撰写论文；张浩天协助实验，提出指导意见并修改论文；沙晶、黄振亚和刘淇对论文进行了修改.