知识图谱与图嵌入在个性化教育中的应用综述①

2022-05-10 12:11张栩翔

计算机系统应用 2022年3期

张栩翔,马华

(湖南师范大学信息科学与工程学院,长沙 410081)

随着当下互联网技术的发展,各种智能化技术正在引发新一轮教育变革,传统的教育方式正在向智慧教育与个性化教育转型与演化[1].个性化教育就是培养学生个性发展的教育,为每个学生提供最适合的教育,使学生的个性特长得到充分发展[2].但是,面对互联网上大量的知识与学习资源,学习者往往无法高效快速地获取满足自身需求的信息,使得学习效果和学习质量难以明显提升.现有的多数网络学习平台,尚未具备结合学习者的学习风格与学习需求进行个性化辅助学习的有效支持能力.如何更好地利用信息技术进行个性化教育,促进学习者高效学习,已成为教育领域研究的热点问题,对提高我国的教育质量具有重要意义.

学习者学习的过程是循序渐进的,学习的知识点也是由浅入深.学习者在学习中的需求不仅是针对自身的兴趣需求,还有对知识的学习需求,因此在个性化教育技术中考虑知识点之间的关系是很有必要的.近年来知识图谱(knowledge graph)[3]在语言表证学习、问答与推荐系统等领域应用广泛.知识图谱可直接表示现实世界中的实体关系,并对梳理的概念关系与关联知识以图结构进行持久化存储,其包含的语义网络关系为知识推理提供了基础,并可通过可视化交互方式展现.知识图谱本身作为知识库,还能很好地增强推荐结果的可解释性.图嵌入(graph embedding)[4]是一种将图数据映射为低微稠密向量的过程.在知识图谱应用中引入图嵌入算法,可大大提高系统性能,增强用户体验.

为缓解当前个性化教育实践中面临的“信息过载”“知识迷航”等问题,越来越多的学者将研究聚焦到知识图谱与图嵌入领域上.基于知识图谱的个性化教育技术,不仅考虑了丰富的知识语义信息,使技术结果更加符合学习者的学习需求与学习过程的客观规律,而且还能在此基础上构建多种学习应用交互系统,提高学习者学习兴趣和学习效率.而图嵌入与知识图谱的结合,可以有效解决大规模数据场景下的效率问题,进一步增强学习应用效果.

本文首先介绍有关知识图谱与图嵌入的基本概念与相关算法,然后,回顾了目前知识图谱与图嵌入技术在个性化教育领域的应用研究,并对现有工作进行总结分析.这些领域包括知识检索、知识问答、路径规划、资源推荐、能力诊断与习题推荐、评分预测与课程设计与教案评估等7 类.最后,总结全文并给出未来的研究展望.

1 知识图谱与图嵌入模型

1.1 知识图谱与图嵌入基本概念

Google 于2012年提出知识图谱的概念,其初衷是为了优化搜索引擎返回的结果,增强用户搜索质量及体验.知识图谱并不是一个全新的概念,早在2006年就有文献提出了语义网(semantic network)的概念,并呼吁推广、完善使用本体模型来形式化表达数据中的隐含语义,资源描述框架(resource description framework,RDF)模式和OWL (Web ontology language)就是基于上述目的产生的.知识图谱本质上是一种揭示实体之间关系的语义网络,现在已有一些比较大规模的知识图谱,例如SUMO、YAGO、Freebase、Wikidata等.这些知识图谱被广泛地应用于自然语言处理、实体识别、信息提取、问答领域与推荐系统等领域.

真实的图网络往往是高维、难以处理的,例如社交网络、通信网络、生物结构网络等大规模和高维度的网络.图嵌入是一种将图数据(通常为高维稠密的矩阵)映射为低微稠密向量的过程,因向量计算效率大大高于图形运算,所以图嵌入算法可很好地提高图网络的计算效率.图嵌入的关键在于,嵌入结果应捕获图的拓扑结构、顶点到顶点的关系以及关于图、子图和顶点的其他相关信息.

1.2 基于三元组的表征学习模型

基于三元组事实的嵌入模型,将知识图谱视为一组包含所有观察到的事实的三元Triplet (实体,关系,实体).在本节中,我们将介绍3 类嵌入模型:基于向量平移的模型、基于张量的模型和基于神经网络的模型,分类信息如表1所示.

表1 知识图谱图嵌入模型分类

1.2.1 向量平移模型

自从2013年Mikolov 等人[20]提出了Word2Vec词嵌入算法以来,此类分布式表达算法越来越受到人们的关注.在使用Word2Vec的过程中,人们发现了嵌入后的词向量空间具有一种意外的特性,将词语嵌入的向量空间后,其对应的向量的计算结果带有语言特性.受到Word2Vec的启发,Bordes 等人[5]提出了TransE算法,TransE 算法将所有的实体和向量映射到一个连续统一的低维特征空间R,对于每一个三元组Triplet(h,r,t)都有一个H、R、T向量与其对应.此算法训练目标是要使H+R=T,使其在计算上具有最接近原三元组的语义关系.向量平移图嵌入模型如图1所示.

图1 向量平移图嵌入模型

Wang 等人[8]考虑到同一个关系,对于不同实体也是有区别的,在TransE 算法基础上做了优化并提出了TransH 算法.TransE 算法得到的结果,对于不同实体间同样的关系,其在训练过程中会逐渐趋于一个向量表示.TransH 算法将每个三元组实体映射到其关系向量的法平面上,使每个实体向量都带有了其对应关系的隐含特征,有效弥补了TransE 算法无法有效区分多对多关系的缺陷.Liu 等人[11]也是考虑到关系存在区别,将实体空间与关系空间分开,为每个关系开辟一个关系空间,将每个实体映射到对应的关系空间进行训练,提出了TransR 算法.Ji 等人[14]考虑到不仅关系有区别,而且实体类型也有区别,提出了TransD 算法.其为头尾实体也分别设置了映射矩阵,再将实体映射到对应的关系空间来进行训练,相比于TransR,TransD减少了矩阵运算,但需要占用更多资源.

以上算法都是在TransE的基础上,对向量映射进行优化,而Jia 等人[17]则是从另一种角度来对TransE 进行优化并提出了TransA 算法,用马氏距离(Mahalanobis distance)代替了传统的欧式距离,从而获得更好的适应性与灵活性.

1.2.2 基于张量因式分解的模型

张量因式分解不同于前面提到了基于向量平移的方法,它的核心在于将三元组转化成3 阶张量,每一个切面代表对应一个关系,每个平面表示各个实体在此关系上有无对应的三元组,再通过计算得到每个实体与关系对应的嵌入向量.张量因式分解图嵌入模型如图2所示.

图2 张量因式分解图嵌入模型

Nickel 等人[6]利用张量去表达知识图谱的原生结构,并利用rank-d 因式分解区包含一些隐含的语义关系,提出了RESCAL 算法,但此算法由于复杂度较大而存在一定局限性.Yang 等人[9]降低了RESCAL的计算复杂度,提出了DistMult 算法,其要求目标函数的中间矩阵必须为对角矩阵,不仅降低了算法的复杂度,在其训练效果上较其他算法也有较大的提升.Nickel 等人[12]提出了HolE 算法,在头实体和尾实体之间进行了循环相关处理[21].为了解决在实体向量嵌入过程中独立事件的CP 张量分解,Kazemi 等人[15]提出了SimpleE 算法,其使用一种加强型的CP 方法,即利用原关系与其反向关系来平均CP 值.Sun 等人[18]提出了RotatE 算法,提出了一种旋转哈玛得乘积(rotational Hadmard product),其把关系当作是头实体与尾实体之间在复杂空间内的一种旋转.

1.2.3 基于神经网络的模型

近年来神经网络模型非常受欢迎,神经网络特有的网络结构能很好地表示复杂的非线性映射.Bordes等人[7]提出了SME 算法,他们定义来一个语义匹配的能量函数,用来评估每个被神经网络利用的三元组可信度,然后利用两个映射矩阵来捕捉实体与关系之间的联系,并通过全连接层计算每个三元组的语义匹配能量.最终得到的神经网络模型能够很好地表示原图中对应的语义关系与三元组结构,如图3所示.

图3 神经网络图嵌入模型

Socher 等人[10]提出了NTN 算法,其利用一种张量神经网络来计算能量得分,它用双线性张量层替换了传统神经网络中的标准线性层,使其能更好地体现原图谱中的复杂语义关系,但也造成张量层计算规模过大.Dong 等人[13]提出了MLP 算法,此算法定义了一种轻量级的结构,让所有的关系共享参数,所有的实体与关系在输入层同时映射到嵌入空间,然后利用非线性隐藏层来更好地计算得分.Nguyen 等人[16]利用卷积神经网络来捕捉知识图谱中潜在的语义信息,提出了ConvKB 算法.在此模型中,每一个三元组用一个三行矩阵来表示,再将矩阵输入到卷积层中,并将特征映射串联并投影到一个分数上,最后利用基于此分数进行的加权向量运算来估计三元组的真实性.

1.3 其他表征学习模型

知识图谱的文本信息主要有两类:实体类型信息与描述信息.基于文本描述的模型是对传统三元组模型的一个扩展,主要利用附加的文本信息来提高性能.Xie 等人[22]提出了TKRL 算法,假设每个实体都有可能有多重实体类型,为了捕捉多重类型的语义关系,每一个不同的类型都被映射到不同的类型矩阵.Lin 等人[23]考虑到有一些关系存在多层或者多步连接,提出了PtransE 算法.对于一个三元组(h,r,t),r不仅仅代表直接连接h与t的关系,还代表经过一个或多个中间节点后连接h和t的一条路径P.其得分函数为直接连接的分数加上经过多层路径连接的分数,此得分代表了h与t之间路径的可靠度.

2 在个性化教育中的应用研究

知识图谱及图嵌入在个性化教育领域已有较广泛的应用,不同的应用类型偏向利用不同的知识图谱特性,表2给出了不同类型应用的总结分析.本文将从知识图谱构建方法的通用性、知识图谱的特性利用程度、实验设计的合理性和系统使用效果等4 个方面来评价已有的研究工作.

表2 个性化教育中的应用分析

2.1 知识检索

学习过程中学习者接受的知识往往是零散、冗余的,这为学生记忆与理解增加了难度.过多的孤立知识点会导致学习者的思维逻辑变得不清晰,并且,大部分学习者在学习完一门课程后不会整合知识并梳理构建自己的知识结构,以致学习效果难以有效提升.

李光明[24]构建了初中化学学科知识图谱及其可视化查询系统.该研究依托自行设计的化学学科本体数据模型,梳理各层次的学科知识构建知识图谱,并依靠学科教师与专家学者的人工审核来保证知识的准确性,以此来提高学习者的学习积极性与学习效率.但是,该研究选取构建本体的知识范围较窄,构造的本体模型仅有5 种概念及其相关属性,数据规模较小且设计应用场景较为单一;其利用问卷调查来统计用户满意度、学习效果、学习态度等指标数据,并以此来评估系统实践效果,缺少对实际使用数据的量化分析.

Sun 等人[25]通过构建领域知识图谱,来更清晰的表示学科知识体系.该研究基于其构建的领域知识图谱,实现了可视化使用平台,提供了词云、力矢量图、环形图等多种可视化交互方式.学生可根据自己的兴趣点检索知识,有利于提高学生的学习兴趣,增强学习主动性,使学习内容更加丰富.但是,该研究缺乏对知识图谱构建过程的描述,并且,该研究仅基于样例数据集进行可视化的界面展示,未提供实验分析来验证应用的效果.

2.2 知识问答

信息时代,学习者需要从各个平台检索,才能获取足够的相关知识,但是检索返回的信息臃肿杂乱,还需要较多的精力去识别归纳并整理其中有用的信息.知识问答是知识图谱的一种智能化应用形式,用户给出自然语言问题,问答系统将其转化为对知识图谱的输入,将相关知识作为答案反馈给用户.

赵维平等人[26]提出了利用古谱及古文化知识图谱实现可视化教育,基于构建的音乐领域知识图谱建立专业知识问答系统,在可视化教育方面取得了良好的效果.该研究设计的问答引擎可实现对自然语言描述的问题给出答案,它基于预定义的古谱及古文化领域语义模板在图谱中匹配相应子图,再进行数据库查询得到相应结果.虽然所构建的专业领域知识图谱数据规模较小且缺乏应用效果的实验验证,但该研究提供了一种基于知识图谱构建问答系统的可行方案.

针对知识图谱构建过程中实体识别与关系抽取环节,李轩[27]分别提出了基于BiLSTM+CNN-CRF的实体识别算法与基于共现矩阵的多因素职位能力模型抽取算法,构建了人工智能领域专业知识图谱.其算法在准确率、召回率、F值3 个指标上同其他现有算法相比都有较明显的提升,且能快速应用于其他领域知识图谱的构建.但是,在已构建知识图谱的基础上搭建问答系统时,其只利用了知识图谱的数据存储与数据查询特性,通过对接第三方公司搭建的对话机器人平台来实现意图识别与问答模板定义等功能,并没有利用知识图谱原有的知识推理与关联性分析特性.

2.3 学习路径分析

学习者进行学习活动时面临着大量零碎的学习内容,合理安排学习对象的顺序,生成一条明确的学习路径,可以帮助学习者高效、系统地完成学习目标.

根据连接主义理论,学习是一个不断连接知识节点或资源的过程,知识要素之间的内在联系在学习过程中具有重要作用.因此,在知识图谱的基础上,结合学习者的领域知识结构与认知结构生成学习路径更加符合学习者的学习需求.基于假设“一个学习者在不同的学习场景下有不同的学习路径,不同的学习者在相同的学习场景下有相似的学习路径”,Zhu 等人[28]提出了一种新的基于知识图谱的多约束学习路径推荐算法,克服了学习者在不同学习情境下的学习路径偏好不同的问题,并通过组织学习者在不同的学习情境下自组织学习路径与推荐路径进行对比,验证了算法的有效性.该研究有效地利用了知识图谱强大的路径分析与关联分析能力,但仅考虑了4 种基本的学习情境,而实际学习过程中的情境多种多样.

Shi 等人[29]提出了基于多维度知识图谱框架的学习路径推荐模型.此模型设计了一个多维度知识图谱框架,将学习对象分别存储在多个类中.然后,其团队将图中学习对象之间的关系划分为6 种语义关系,提出了一种加权加权系数评分的学习路径选择方法并以此为基础生成学习路径,最后通过对比实验验证了算法的有效性.但是,该模型对知识图谱的数据规模与结构有较强的依赖,当数据量不够或者关联关系过于复杂时实验效果受限.

张博雅[30]设计了慕课平台上基于知识图谱的学习路径规划方法,为学习者在线学习提供个性化的路径规划.对于课程间的学习路径规划,作者引入了RippleNet 算法,它将用户的历史兴趣视为知识图谱中的种子集,沿着知识图谱中实体间的链接迭代扩展,以此来发现用户对项目的潜在兴趣;对于课程内的路径规划,作者先根据该课程的知识图谱与学习者对课后习题的答题情况来生成学习路径并进行动态更新,再基于慕课平台数据来生成学习路径,并对比实际用户使用记录来验证系统准确率.该研究利用处于测试阶段的慕课平台进行实验,用户数据质量不高;慕课平台的知识图谱语义关系梳理深度有限,尚未达到领域知识图谱的要求.

2.4 资源推荐

学习资源种类多、数据量大,例如音频、视频、学习网站、学习工具、论坛社区资讯等.

为了更好地针对学习者个性化特征进行自适应学习资源推荐推荐,孙红旭[31]构建了基于知识图谱的自适应学习系统,它多维度分析学习者个性化特征并标签化,利用聚类算法建立学习者画像,以知识图谱关联规则挖掘试题间的知识点关系,形成知识点关联图.利用拓扑排序算法将知识点关联图转化为先行有序序列,生成学习者学习资源集合.但是,该研究仅考虑了选择题中单一试题的单一知识点,并未考虑一个实体对应多个知识点、单一或多知识点的主观题等情况.虽然实验效果较好,但构建图谱时基于学习者的相关数据较少,尚不足以体现其系统的综合性能.

邱玥[32]提出了知识图谱增强的在线课程推荐方法,通过模型层面有机融合知识图谱信息与深度协同过滤算法思想,提出了基于知识图谱增强的推荐算法Ripple_mlp.在Ripple_mlp 算法基础上引入共现实体网络Co-net,追溯捕捉用户的显性兴趣特征,以便于更好地挖掘学习者兴趣.该研究利用AUC与ACC 作为评价指标进行对比实验和不同稀疏程度的数据集影响测试,并通过具体案例分析验证模型效率与推荐结果可解释性.但在共现网络部分,其采用了与知识图谱特征采集时相同的训练方法,实际是把共现网络中的课程当成了知识图谱中的实体,这样得到的共现实体网络的关系权重还值得进一步探究.

2.5 能力诊断

在个性化教育中,准确地对学习者当前的知识水平与能力进行诊断也是很重要的.

胡辉[33]基于知识点以及习题的关系,构建知识图谱,并以知识追踪技术作为学习者掌握知识点能力的评估方法,若学习者未掌握当前知识点,则偏向推荐此知识点及其前驱知识点的相关习题.其核心在于通过学习者与知识点相关习题的概率转移矩阵来动态评估学习者能力.该研究在实验中以准确率、召回率与F值等指标验证系统性能与算法的有效性,并对数据的获取和知识图谱的构建进行了详细论述,但所构建的图谱知识范围较窄,应用场景有限,其能力诊断部分并未很好利用知识图谱特性,尚可进一步研究.

李其娜[34]通过构建“数据结构”学科知识图谱,并结合知识图谱的语义关系,设计了基于知识图谱与知识点的推荐算法.王冬青等人[35]也通过梳理知识点关系并构建知识图谱,再结合习题的知识点及难度,设计了基于知识图谱的个性化习题推荐系统.此类算法或应用主要基于习题测试分数与对应知识点对学习者进行知识点掌握程度评估,再按照知识图谱中知识的关联关系与依赖程度进行综合能力诊断,推荐符合其认知水平并且难度适中的题目.其知识图谱的主要作用在于梳理知识点的层次关系与先后依赖顺序等,为基于知识点的认知诊断提供更好的支持,但没有充分发挥知识图谱的潜力.

2.6 得分预测

对学生成绩进行分析预测,并寻找成绩数据中潜在的知识和信息,对提高个性化教学质量也有着积极的指导意义.

陈曦等人[36]构造了一个表示课程信息的课程知识图谱,分别使用基于邻节点的方法和基于知识图谱表示学习的方法计算课程在知识层面的相似度,并将课程的知识相似度集成到传统的成绩预测框架协同过滤中,提出了一种基于课程知识图谱的预测算法.该研究以RMSE与MAE 指标进行了实验对比分析,验证了知识图谱可作为历史数据缺乏场景下信息补足的手段,可有效地解决冷启动问题.为改善系统性能,它引入了基于图谱表示学习的图嵌入算法,并对比了多种不同算法在不同场景下的效率,但其数据规模过小,构建知识图谱的本体设计较为简单,从而其实验结果具有一定的局限性.

2.7 课程设计与教案评估

个性化教育离不开个性化的课程设计与教案,针对学习者特征进行课程设计能更好地引导学生思维并让其更好地理解知识,因材施教.

王宪莲等人[37]利用知识图谱技术对微课课程内容进行组织和关联,给出了微课课程体系架构和知识图谱的建构原则,构建了基于知识图谱的微课课程关联性结构,并提出了以学习者为中心的微课课程设计流程.该研究采用问卷调查的方式收集用户满意度并论证实验效果,为微课程背景下的课程设计提供了一个借鉴思路.

胡辉[33]在个性化习题推荐研究中提出了一种教案评估方法,他根据教案映射知识图谱的分布规律,将教案分为3 种类型,引入路径矩阵和中心性算法,提出了基于路径矩阵和知识点序列的教案特征类型判定方法.通过改进中心性算法,评估得到教案重点和难点,再基于图的关联查询与路径分析,获得教案的补充知识点、异常知识点和知识点跨度评估.该研究充分利用了知识图谱的图网络特性,通过图谱的路径分析与关联分析,简化了分析过程,提高了分析效率.但在教案与相关知识的本体模型设计方面不够深入,可进一步提高图谱的覆盖面与知识深度.

3 结论与展望

基于知识图谱的教育应用具有语义丰富和个性化的鲜明特点,可有效联接施教者、学习者、学习资源和知识点,增强数据的语义信息与特征关联程度,它们在知识检索、知识问答、路径规划、资源推荐、能力诊断、得分预测和课程设计与教案评估等场景下的应用前景广阔.

现有研究在本体设计、图谱构建、知识梳理、应用结合与效率优化等方面提出了多种模型或解决方案,在领域内进行了较全面的探索.但由于知识图谱存在构建的复杂性、知识的专业性和数据量的依赖性等问题,未来知识图谱在个性化教育领域中的应用仍需要解决诸多问题,例如,如何划分界限并构建有效的学科知识图谱? 如何针对教育过程参与者精准建模? 如何优化大数据量处理效率? 如何与现有传统方法进行有效结合,以发挥各自优势? 除了准确率、召回率、F值、MAE、RMSE 等传统指标外,是否可以定义更合适的知识图谱应用效果的验证标准.

近年来知识图谱以及图嵌入在医疗、电子商务、旅游推荐等领域取得了较好的应用效果,它们为基于知识图谱与图嵌入的个性化教育提供了关键参考和重要启发.图嵌入技术可为知识图谱大规模应用时的计算效率低下问题提供重要的解决方案,而现有的个性化教育领域的相关研究尚少,利用图嵌入技术优化现有的个性化教育应用将是今后研究的一个重要方向.