朱艳茹, 范亚芹, 赵 洋
(吉林大学 通信工程学院, 长春 130012)
作为教育大数据的典型应用, “自适应学习”受到国内外教育科技界的广泛关注。自适应学习系统是打破传统教育模式, 实现个性化学习和因材施教的重要手段, 主要包括知识模型、 学生模型、 接口模型和自适应推荐引擎4个模型[1]。知识模型用于描述知识结构、 表达知识概念之间的联系, 是自适应学习系统进行内容推荐的重要依据。因此, 知识模型的质量直接决定了自适应学习系统进行内容推荐的精准度。
目前, 很多学者对知识模型进行了研究, 大部分知识模型或基于教学大纲搭建或只进行简单分类, 忽略了知识概念之间的关联以及学生因素对于知识模型质量的影响。故大部分知识模型均存在知识表现离散、 系统性不强和实用性差等问题。知识图谱[2-5]可直观表达实体之间的联系, 是多学科融合的知识结构图, 是实体与实体之间关系以及实体属性的集合, 因此知识图谱的应用将有效解决知识模型系统性不强的问题。根据教学大纲搭建的知识模型, 只考虑了知识本身的结构体系和领域专家的教学经验, 却忽略了系统的使用者对于系统的影响。故笔者利用FP-Growth关联规则挖掘算法对知识实体间的关系进行动态更新, 充分考虑了学生行为数据对知识模型的影响, 进而提高了系统的实用性。
图1 知识图谱的网络结构Fig.1 The network structure of knowledge map
知识图谱是结构化的语义网, 用于以图的形式描述知识工程中知识实体及其相互关系[6]。在这里引入三元组“实体-关系-实体”或“实体-属性-属性值”进行知识表示[7], 每个实体可用一个全局唯一确定的ID标识, 属性-属性值描述知识实体的内在特性, 知识实体之间通过关系构成网状的知识结构。在学习过程中多是以课程为知识体系的最小单元, 故笔者将课程实体作为研究对象搭建知识图谱。设用于知识表达的三元组形式为TF={E,R,ET}[8], 其中E为所有课程实体的集合,R为实体之间的关系集合,ET为课程实体的内在属性集。各实体之间的联系可形成复杂的网络结构, 其结构如图1所示。其中Ei表示具体的课程实体;Rij表示课程实体Ei与Ej所对应的关系, 对应于集合R;ETi表示课程实体Ei的内在属性集合。
图2为知识模型的体系框架[9,10], 虚线部分为知识图谱的初始搭建流程, 外部用于实现知识模型动态更新的功能。首先确定知识领域, 对该领域的知识数据进行实体抽取、 关系抽取和属性抽取, 也可统称为信息抽取[11], 形成高结构化数据。然后对抽取的数据进行本体化知识表达[12], 完成概念层次体系的描述。最后将审核通过的具体概念加入本体库, 形成初始知识图谱。为保障知识模型的系统性, 需在现有知识图谱的基础上不断迭代新的知识概念。新知识概念引入模型前需进行数据结构化处理, 然后和现有知识图谱的知识概念进行融合, 去除重合或置信度较低的知识概念, 避免出现数据冗余。此外还需注意新知识概念与原有本体模式的适配情况, 整体通过质量评估环节后作为最新的知识模型。
图2 知识模型的体系框架Fig.2 The system framework of knowledge model
FP-Growth算法是一种关联分析算法[13], 也被称为不产生候选集的关联规则挖掘算法, 由Han等[14]在2000年提出。以下是算法中相关术语在知识模型中所代表的具体含义。
1) 项目集。设E={E1,E2,…,Em}是很多课程实体item的集合。
2) 事务数据库。事务的集合或者学习路径数据库, 记为D={D1,D2,…,Dn}。它是由一系列学习路径组成, 每条学习路径Di都是E的子集。
3) 频繁项集。频繁地同时出现在学习路径数据库D中课程实体的集合。
4) 关联规则。形如X⟹Y的蕴涵式, 其中X,Y属于E并且X和Y交集为空, 表示两个课程实体之间存在很强的关联。X为关联规则的前件,Y为关联规则的后件。
5) 支持度(Rsupport)。同时包含课程实体X,Y的学习路径占全部学习路径的百分比, 即概率P(X∪Y)或Rsupport=(X∪Y)/n, 其中X∪Y是指数据库D中课程实体X和Y的出现的次数,n表示数据库D中所有路径数。可用于表示该规则在学习路径数据库中出现的频繁程度。
6) 置信度(Rconfidence)。学习路径数据库中同时包含课程实体X和Y的学习路径数占仅包含课程实体X的学习路径数的百分比, 即Rconfidence=(X∪Y)/Xcount或称为条件概率P(X/Y), 用于表示规则的有效性。
FP-Growth算法采用分而治之的思想, 先对事务数据集进行压缩存储并构建fp-tree, 然后利用fp-tree得到所有的频繁项集和关联规则。FP-Growth算法的伪代码[15]实现如下所示。
fp-tree构造流程。
输入: 学习路径数据库D, 最小支持度min_sup
输出: fp-tree
算法描述:
1) 扫描数据库D, 计算每个课程实体的支持度获得频繁1-项集, 在按照支持度进行降序排列得到频繁项集表L;
2) 创建tree根节点T, 标记为“null”;
3) for数据库D中的每条学习路径Di{
4) 对每条学习路径Di中的课程实体按照频繁项集L中的次序排序得到[p/P]格式的频繁项集, 其中p是首个课程实体,P是频繁课程实体项集表中除去p后的剩余课程实体组成的项表;
5) 调用函数insert_tree([p/P],T);}
其中insert_tree([p/P],root)的具体表达如下。
1) if(root有孩子节点N且N.item.name==p.item.name)N.count++;
2) else{创建新节点N; N.item.name=p.item.name;N.count=1;p.parent=root;将N.node.link指向树中与它同课程实体的节点;}
3) end if
4) if (P≠Ø){把P的第一个课程实体赋值给p, 并把其从P中删除; 调用递归函数insert_tree([p/P],T);}
5) end if
基于fp-tree的挖掘
通过调用fp_growth(tree,α)实现。该过程实现如下。
输入: 构造好的tree, 最小支持度min_sup
输出: 频繁项集L
1) 设L初值为空;
2) if(tree只包含单个学习路径P)for路径P中课程实体的每个组合, 记为β{
3) 产生课程实体集α∩β, 其支持度为β中课程实体的最小支持度数;
4) returnL∩支持度大于min_sup的项目集α∩β;}
5) else for tree的头表中每个频繁项为αf{
6) 产生一个课程实体集β=αf∪α, 其支持度等于αf的支持度;
7) 构造β的条件模式基B, 并根据条件模式基求解β的条件树treeβ;
8) if(treeβ≠Ø)调用fp_growth(treeβ,β);}
9) end if
笔者使用的数据均来源上学堂的在线学习平台, 以表1中学习路径数据为例, 对FP-Growth算法的关联规则挖掘过程进行说明。每个课程实体都有唯一ID标识, 故这里涉及的课程实体用其ID代替。
表1 部分学生的学习路径数据表
图3 fp-tree结构图Fig.3 The structure chart of fp-tree
从课程实体的支持度等于包含该实体的学习路径数占所有学习路径的百分比可知, 课程实体的支持度与出现的频次成正比, 为简化计算将支持度与实体出现的频次等价。设最小支持度为2, 按照2.2节中fp-tree的构造流程对表1中的学习路径数据进行fp-tree构造, 构造结果如图3所示。
在fp-tree中包含了频繁课程实体及其支持度等信息, 其中节点链指明了某课程实体在fp-tree中的具体位置。然后基于新构造的fp-tree进行课程实体间关联规则的挖掘。按照2.2节中的挖掘流程, 自上而下依次遍历头节点表的每个课程实体, 挖掘存放着频繁模式信息的fp-tree, 表2为所有频繁课程实体的条件模式基和条件fp-tree。
表2 条件模式基和条件fp-tree
为便于观察FP-Growth算法的实验结果对知识图谱的影响, 现将上学堂在线学习平台中小学物理科学领域知识模型进行可视化[16]。图4为课程实体的详细数据; 图5为小学物理科学领域知识模型图, 圆圈代表知识图谱中的课程实体; 学科和难度级别是课程实体的两个属性, 分别用圆圈的颜色和数字进行标识; 根据两个课程在学习过程中是否存在时间上的先后, 课程实体的关系分为先修关系和并列关系, 其中先修关系用有向线段表示。图6是基于FP-Growth算法的计算结果进行动态更新后的知识模型。对比图5、 图6可见, 部分课程实体的关系发生了改变, 同时实现了多学科的融合, 证明了FP-Growth算法对于知识模型的动态更新具有良好的效果。
图4 部分课程实体数据截图Fig.4 Part of the course entity data screenshots
图5 小学物理科学领域知识模型图 图6 小学物理科学领域知识模型动态更新图 Fig.5 Primary school physics science knowledge map Fig.6 Dynamic update of knowledge model in primary physics
针对在线学习平台存在的问题, 笔者提出基于知识图谱的自适应学习系统知识模型。课程实体间通过关系相互联系, 构成网状的多学科融合的知识图谱, 以提高知识模型的系统性。再利用FP-Growth关联规则挖掘算法对大量学习路径数据进行课程实体关系的挖掘, 实现知识图谱的动态更新, 以提高知识模型的实用性。除此之外, 知识图谱中属性值的更新可以通过分析学习用时、 反复学习次数、 试题错误率等数据实现。
参考文献:
[1]李斯萌. 自适应学习系统设计模型相关研究 [D]. 长春: 吉林大学高等教育研究所, 2014.
LI Simeng. Research on Adaptive Learning System Design Model [D]. Changchun: Institute of Higher Education, Jilin University, 2014.
[2]Knewton Company. Heavy Duty Infrastructure for the Adaptive World [DB/OL]. [2017-12-28]. https://www.knewton.com/assets-v2/downloads/knewton-intro-2014.pdf.
[3]JAFFE J. Here is the Deck for Presenting Adaptive Learning in the Education World [DB/OL]. (2015-01). [2017-12-28]. https://lists.w3.org/Archives/Public/www-archive/2015Jan/att-0004/Knewton_W3C_presentation_V2.pdf.
[4]WILSON K, NICHOLS Z. Knewton Technical White Paper [DB/OL]. (2015-05). [2017-12-28]. http://learn.knewton.com/technical-white-paper.
[5]GREEN-LERMAN H. Visualizing Personalized Learning [DB/OL]. (2015-9-10). [2017-12-28]. https://www.knewton.com/resources/blog/adaptive-learning/visualizing-personalized-learning/.
[6]陈琨, 张蕾. 基于知识图的领域本体构建方法 [J]. 计算机应用, 2011, 31(6): 1664-1666,1670.
CHEN Kun, ZHANG Lei. An Ontology Construction Method Based on Knowledge Graph [J]. Journal of Computer Applications, 2011, 31(6): 1664-1666,1670.
[7]岳丽欣, 刘文云. 国内外领域本体构建方法的比较研究 [J]. 情报理论与实践, 2016, 39(8): 119-125.
YUE Lixin, LIU Wenyun. A Comparative Study on Construction Methods of Domain Ontology in China and Abroad [J]. Intelligence Theory and Practice, 2016, 39(8): 119-125.
[8]袁磊, 张浩, 陆剑峰. 面向领域知识的本体知识模型XML表示框架 [J]. 计算机工程, 2006(1): 186-188,192.
YUAN Lei, ZHANG Hao, LU Jianfeng. Ontology Knowledge Model for XML Representation Framework [J]. Computer Engineering, 2006(1): 186-188,192.
[9]刘峤, 李杨, 段宏, 等. 知识图谱构建技术综述 [J]. 计算机研究与发展, 2016, 53(3): 582-600.
LIU Qiao, LI Yang, DUAN Hong, et al. A Review of Knowledge Map Construction Techniques [J]. Journal of Computer Research and Development, 2016, 53(3): 582-600.
[10]万海鹏, 汪丹. 基于大数据的牛顿平台自适应学习机制分析----“教育大数据研究与实践专栏”之关键技术篇 [J]. 现代教育技术, 2016, 26(5): 5-11.
WAN Haipeng, WANG Dan. Analysis of Adaptive Learning Mechanism of Newton Platform Based on Big Data-Key Techniques of “Research and Practice in Education Big Data” [J]. Modern Education Technology, 2016, 26(5): 5-11.
[11]程学旗, 靳小龙, 王元卓, 等. 大数据系统和分析技术综述 [J]. 软件学报, 2014, 25(9): 1889-1908.
CHENG Xueqi, JIN Xiaolong, WANG Yuanzhuo, et al. Survey on Big Data System and Analytic Technology [J]. Journal of Software, 2014, 25(9): 1889-1908.
[12]李跃新, 张瑞, 洪宗祥. 基于关系模型的语义网络知识表示研究 [J]. 电子设计工程, 2012, 20(20): 5,6,9.
LI Yuexin, ZHANG Rui, HONG Zongxiang. Research on Semantic Network Knowledge Representation Based on Relationship Model [J]. Electronic Design Engineering, 2012, 20(20): 5,6,9.
[13]娄书青. 并行FP-growth关联规则算法研究 [D]. 成都: 电子科技大学信息与软件工程学院, 2016.
LOU Shuqing. Parallel FP-Growth Association Rules Algorithm [D]. Chengdu: School of Information and Software Engineering, University of Electronic Science and Technology, 2016.
[14]HAN J, PEI J, YIN Y. Mining Frequent Patterns without Candidate Generation [J]. ACM Sigmod Record, 2000, 29(2): 1-12.
[15]叶茂华. 改进型关联规则算法在教学评价系统中的研究 [J]. 山东工业技术, 2017(23): 274.
YE Maohua. An Improved Association Rules Algorithm in Teaching Evaluation System [J]. Shandong Industrial Technology, 2017(23): 274.
[16]邱小花, 李国俊, 肖明. Sci~2----款新的知识图谱分析软件介绍与评价 [J]. 图书馆杂志, 2013, 32(9): 79-87.
QIU Xiaohua, LI Guojun, XIAO Ming. Sci~2----A New Introduction and Evaluation of Knowledge Map Analysis Software [J]. Library Magazine, 2013, 32(9): 79-87.