基于知识状态的个性化学习资源推荐方法*

2019-06-06 08:45翟域，徐朦，黄斌

吉首大学学报（自然科学版） 2019年3期

翟域，徐朦，黄斌

(1．贵州民族大学人文科技学院大数据与信息工程学院，贵州贵阳 550001； 2.贵州师范大学大数据与计算机科学学院，贵州贵阳 550001)

个性化学习是指根据学习者个性特征，采取适当的方法充分满足学习者个体需求，从而让学习者个性得到充分发展的学习[1].相比传统的学习模式，个性化学习支持学习者根据自身的个性特长有的放矢地学习，从而提高了学习者的学习兴趣，发挥自身的学习潜力.《国家中长期教育改革和发展规划纲要(2010—2020年)》和《教育信息化十年发展规划(2011—2020年)》中均指出了要坚持以人为本，尊重个人选择，鼓励个性发展，为学习者提供个性化的学习环境[1-3].许多省份的“十二五”和 “十三五”规划也指出了要建立创新人才培养基地，实施个性化的培养方案[4].可见个性化学习已经成为当下大家共同关注的热点.个性化学习需要根据学习者的个性特征为其提供相应的学习资源.随着信息技术和E-learning[5-6]的不断发展，网络中的学习资源呈现爆炸式的增长[7].面对日益突出的信息过载现象[8]，如何从海量的学习资源中找到学习者真正需要的资源成为一个难题.因此，个性化学习资源推荐方法是实现个性学习的关键技术.

目前，个性化学习资源推荐技术主要包括基于内容(Content-based)的推荐、基于协同过滤(Collaborative Filtering)的推荐和混合推荐(Hybrid Recommendation).基于内容的推荐[9-11]主要针对文本学习资源，将学习者喜欢的文章表示为词向量的形式，使用TF-IDF算法为向量中的词语分配不同的权重，并利用相似度衡量方法，从文章库中匹配类似的文章推荐给学习者.基于协同过滤的推荐又分为基于用户(User-based)的协同过滤、基于项目(Item-based)的协同过滤和基于模型(Model-Based)的协同过滤.基于用户的协同过滤[12-14]根据学习者的个人信息和对于历史学习资源的评分数据，构建学习者模型和学习者-学习资源评分矩阵，根据评分矩阵并使用相似度算法，计算出学习者之间的相似度，将相似学习者喜欢的学习资源推荐给学习者.基于项目的协同过滤[15-17]的核心思想与基于用户的协同过滤基本相同，不同的是计算出学习资源之间的相似度，将类似于学习者喜欢的学习资源推荐给学习者.基于模型的协同过滤[18-19]是依据学习者的个人信息和学习数据，将学习者的兴趣爱好、历史行为和学习需求等作为模型的特征，对学习者进行机器学习的建模，根据学习者对学习资源的历史评分数据进行模型的训练，利用训练好的模型对学习资源库中的资源进行学习者评分的预测，推荐评分较高的学习资源给学习者.混合推荐[20-21]则以一定的混合策略综合基于内容和基于协同过滤的推荐.例如加权混合策略，将混合推荐中所有推荐方法的结果加权算分，把得分最高的TopN个学习资源推荐给学习者.现有的个性化学习资源推荐方法着重于学习者历史学习数据的分析，挖掘学习者的潜在学习兴趣，推荐相似的学习资源或者相似学习者喜欢的学习资源给学习者，而对学习者的学习缺陷考虑不足，无法从学习者的薄弱知识出发，推荐给学习者真正需要的学习资源.针对这一问题，笔者提出了基于知识状态的个性化学习资源推荐方法.该方法从学习者的学习缺陷出发，对学习者的知识状态进行推导得到最底层的薄弱知识点，并设计相似性迭代算法(Similarity Iterative Algorithm，SIA)，从学习资源库中选择与学习者最为匹配的学习资源进行推荐.通过实验，证明了该方法良好的推荐效果和性能.

1 基于知识图谱的待学习知识点生成方法

基于知识图谱的待学习知识点生成方法，其思想是根据学习资源库中各种资源所涵盖的知识点之间的关联关系，构建知识图谱，从学习者的知识状态中提取薄弱知识点，并从知识图谱中推导出薄弱知识点的最基础的知识点，作为学习者的待学习知识点.

1.1 构建知识图谱

图1 知识图谱Fig. 1 Knowledge Graph

由领域专家对学习资源库中的资源进行知识点标注，一个学习资源对应1个或多个知识点，并建立知识点之间的关联关系，其中包括与关系和或关系.与关系：掌握知识点k的前提是同时掌握知识点k1,k2.或关系：掌握知识点k的前提是掌握知识点k1,k2中的1个或多个.将每个知识点表示为一个本体，通过知识点间的与、或关系建立本体间的关联规则，构建知识图谱.如图1所示，用关联指向夹角间的弧线表示与关系，反之为或关系.例如，对于知识点k1，掌握k1的前提是掌握k4或者同时掌握k2和k3.

1.2 基础薄弱知识点推导算法

通过遍历知识图谱，根据学习者的知识状态和知识点之间的关联关系，推导出学习者薄弱知识点的最底层的前提知识点，具体思路如下：

输入：学习者的知识状态.

输出：待学习知识点集合.

过程：

(1)假设已知学习者L的知识状态，即学习者对知识点的掌握情况，用学习者-知识点向量VState=(0,1,…,1)来表示，其中1和0分别表示掌握和未掌握.

(2)将知识状态VState中0值对应的知识点记入学习者薄弱知识点集，用集合KWeak= {k1,k2,…,kw}来表示，其中w为薄弱知识点的个数.

(3)从集合KWeak中抽取一个知识点ki，沿着前提知识点的方向遍历知识图谱.

(4)如果遍历过程中经过的知识点包含于集合KWeak，则从KWeak中删除知识点ki.

(5)重复步骤(3)至(4)，直至迭代完集合KWeak中所有的知识点.

(6)集合KWeak剩余的知识点是学习者基础薄弱知识点，记为KL={k1,k2,…,kl}，其中l为为基础薄弱知识点个数.

2 基于相似性迭代的个性化学习资源推荐方法

基于相似性迭代的个性化学习资源推荐方法，其思想是：将学习者的当前待学习知识点集合与学习资源库中的资源-知识点向量进行相似度匹配，生成相似度最高的TopN个学习资源，第一轮迭代根据最基础的薄弱知识点匹配学习资源，第二轮迭代根据以这些基础知识点为前提的薄弱知识点匹配学习资源，多轮迭代后最终生成待推荐学习资源序列.算法的具体思路如下：

输入：学习资源库、待学习知识点集合.

输出：待推荐学习资源序列.

过程：

(1)根据学习资源库中资源和知识点的对应关系，建立学习资源-知识点矩阵MSK，

其中：行向量表示学习资源；列向量表示知识点；1和0分别表示包含和不包含关系.

(2)对基础薄弱知识点进行学习资源推荐.

(ⅰ)将矩阵MSK中每一个行向量表示为集合KR= {k1,k2,…,kr}的形式，其中r为学习资源中包含的知识点个数，采用杰卡德相似度来计算，KR与集合KL的相似度

(ⅱ)采用贪心算法选取相似度最高的m个学习资源(这m个学习资至少涵盖了KL中的所有知识点)，形成待学习资源集合S1= {s11,s12,…,s1m}.

(3)对后继知识点进行学习资源推荐.

(ⅰ)计算后继知识点集Ks=KWeak-KL.

(ⅱ)运用(4)相似方法计算与Ks对应的学习资源S2.

(4)按先后次序将S1，S2推荐给学习者.

3 结果与讨论

3.1 实验环境

考虑到数据规模和计算复杂度，实验在2台机器上完成.其中:PC机作为算法编程环境，服务器作为数据存储和算法运行环境.开发环境PC机配置为：Intel(R) Core(TM) i5-4590 @ 3.30 GHz CPU，16 GB内存，1 TB硬盘，Win 7 OS，Java jdk 1.8.0_45,IDE Eclispe4.9.0，PyDev 7.0.3.数据存储和算法运行环境服务器配置为：16AMD Opteron(TM) @ 1.4 GHz CPU，32 GB内存，5 TB硬盘，CentOS7.5.1804 OS，Python 3.6.0 Python，数据库MySQL 5.6.24，文件服务器FastDFS 5.05.

3.2 实验过程

首先，从网络上和书籍中收集各种类型学习资源，包括文档、图像、音频和视频等.使用分布式文件系统FastDFS作为学习资源库.由领域专家建立知识点之间的关联关系并对学习资源进行知识点标注，用MySQL数据库存储知识点、知识点之间的关联关系以及学习资源.

然后，运用Python语言从数据库中提取学习资源与知识点的对应关系，构建学习资源-知识点矩阵并持久化.从数据库中提取知识点间的关系，根据学习者的知识状态，进行推导，得到学习者的待推荐知识点集合.

最后，根据学习资源-知识点矩阵，使用Python的numpy科学计算包求得待学习知识点和学习资源的相似度，从而得到待推荐资源集合，经过多轮迭代，最终生成待推荐资源序列，从而推荐给学习者.

3.3 结果分析

3.3.1 推荐效果测试从某中学初中二年级的21个班中随机抽取10个班，每个班随机抽取20名学生，将抽取的学生划分为实验组和对照组各100名.保证除了推荐学习资源外2组拥有相同的学习环境.采用数学试卷T1对2组学生进行测试，通过学习者的知识状态，对实验组的每位学生进行学习资源推荐.经过一段时间学习后，采用和T1拥有相同知识点结构的试卷T2，再次对2组学生测试，比较他们先后的测试成绩，结果见表1.实验表明，在给学生有针对性的学习推荐后，学生的成绩有了明显的提升.

表1 知识推荐效果测试Table 1 Recommendation Effectiveness Test

图2 系统的性能测试结果Fig. 2 Performance Test

3.2.2 性能测试当学习资源库中存在成千上万的资源时，推荐算法需要较多的计算时间，故需对其计算性能进行测试.分别取1 000，2 000，3 000，4 000个学习资源，在每种数量下进行多次测试，统计算法推荐试题所需的平均时间，结果如图2所示.从结果来看，在当前的学习资源规模下，系统完全可以满足实时学习资源推荐的需求.

4 结语

针对当前个性化学习资源推荐方法普遍存在的无法从薄弱知识点这一根本上给学习者推荐学习资源的问题，基于知识图谱技术和相似性迭代算法，从学习者的学习缺陷出发，提出了基于知识状态的个性化学习资源推荐方法，可以给学习者推荐其真正需要的学习资源，为个性化学习资源推荐提供了一种新的、有效的学习资源推送策略.