陈琳 刘玉秀
摘 要 随着课程数字化资源数量的不断增长,出现了课程知识体系结构不清、知识碎片化和知识查找困难等问题。本文利用现有课程数字化资源,通过自顶向下方式知识建模、知识抽取和知识融合实现图谱构建。建立图谱后,可视化分析、语义搜索、推荐和是典型的知识应用,对推动智慧课程建设有一定的参考意义。
关键词 数字化资源;知识图谱;自顶向下
随着信息技术和网络教育的飞速发展,越来越多高校依托校园网建立了数字化教学资源平台,供学生辅助学习使用。但是随着课程数字化资源数量的不断加入和类型的不断丰富,容易出现信息过载和知识碎片化现象。为了提高数字化资源的质量,本文研究了知识图谱的构建方法和典型应用,以平台中的《软件技术基础》课程数字化资源为例,进行了课程知识图谱的构建,以期能帮助使用者建立课程知识体系结构,同时方便资源智能搜索甚至通过大量用户数据训练实现资源智能推荐。
1构建课程数字化资源知识图谱的必要性
一是构建知识图谱能整合碎片化的课程知识点。
目前大多数数字化教学资源平台都承载了多个专业多门课程,课程知识点的数量巨大,基本是无序和碎片化的。知识图谱源于本体论[1-3],本体又能和概念一一对应起来,最终碎片化的知识点都可以被归为本体,不会被遗漏。
二是构建知识图谱能够将大量课程知识点关联起来。
现有的数字化教学资源平台没有很好的技术来组织学科与学科之间,课程与课程之间的关系。而知识图谱的本体对应概念,本体的关系对应着课程知识点的关联,可以将课程知识点有机地联系起来。
三是构建知识图谱能从语义上理解课程知识点。
面对海量数字化教学资源,通常查找技术只能实现按关键字进行查找,无法真正理解使用者的意图。知识图谱又以语义网络[1-3]为基础,利用三元组的形式将不同将概念、概念的属性,以及概念和概念之间的关系进行存储,使得不同课程知识点的语义关系清楚明晰,使得查询从语义层面得以实现。
2课程数字化资源知识图谱的构建
2.1 知识图谱介绍
知识图谱的概念由谷歌2012年正式提出,旨在实现更智能的搜索引擎。2013年后,知识图谱开始在学术界和业界兴起,并在语义搜索,智能問答,情报分析等典型场景中崭露头角。知识图谱概念最开始源于语义网络,是一种具有有向图结构的知识库,其中图的结点代表实体(Entity)或者概念(Concept),而图的边代表实体之间的各种语义关系[2]。W3C定制的相关标准语言RDF(resource description framework),OWL(Web ontology language)等也为推动语义网络的发展起到了极大作用。
2.2 知识图谱构建过程
知识图谱根据其知识来源可以分为两类:一种是通用知识图谱,它不面向特定的领域,更强调知识的广度,通常运用百科数据进行自底向上的方法进行构建;另一种称为垂直知识图谱,或行业知识图谱,它面向不同的领域,强调知识的深度。对于数字化教学资源平台,其数据主要来源于本地建立的资源数据库,故需要采用领域知识图谱的方式自顶向下进行构建[4]。其建构过程如下:
(1)知识建模
知识建模是建立知识图谱的概念模式的过程,为了对课程数字化资源进行合理组织,更好的描述课程知识点本体与本体之间的关联,需要对知识图谱模式进行良好的定义[1]。
本文采用自顶向下的方法,针对首先为知识图谱定义数据模式,从最顶层概念构建,逐步细化,形成层次结构良好的分类结构,然后再将实体添加到概念中。针对《软件技术基础》课程将知识本体建模,上三层结构如图1所示。再梳理各概念间的属性,构建“属性-值”的模型,最后梳理所属关系,如“包含”、“属于”、“不相关”等。建立该课程知识完整的模式。
(2)知识抽取
知识抽取是指从不同来源、不同数据中进行知识提取,形成三元组结构存入图数据库的过程。如何高效、稳定地从不同数据源进行知识抽取是知识图谱的关键技术,会决定知识图谱的性能[1]。目前本地数据源主要是结构化数据,记录每个资源的id,名称和所属课程、静态资源地址;将资源以文本、视频和图片等非结构化数据进行存放。
对于关系型数据库中的结构化数据,本文采用通过 D2R(Relational Database to RDF)映射的方式将数据库中的数据直接映射,形成和资源名称相关的三元组。对于非结构化数据则需要经过实体抽取、关系抽取和属性抽取形成三元组。
首先是实体抽取,现阶段,对于实体抽取的技术准确率相对较高。为了从非结构化数据中抽取实体信息单元,需要对数据做一些预处理,然后利用基于规则的方法进行抽取。其次是关系抽取,关系抽取与实体抽取密切相关,一般是在识别出实体后,再抽取实体间可能存在的关系[1]。目前,关系抽取的准确率相对较低,也不断有新的技术研究出现,本文采用基于弱监督学习的抽取方法中的远程监督方法,该方法能通过将知识图谱与非结构化文本对齐的方式自动构建大量的训练数据,有效减少人工标注的工作量[3]。在课程知识图谱的构建中具有较大的优势。最后是属性抽取,即在识别出实体后,为每个实体抽取一个属性列表,采用技术与关系抽取类似,可以将属性看作一种“is-a”的特殊关系。
(3)知识融合
指的是为了解决为不同信息源的异构问题,将知识对齐和合并的过程。知识融合旨在将信息抽取后形成的一个个孤立的三元组形成完整的知识图谱,其关键技术是实体匹配和模式对齐[4]。例如对于“内存”、“主存”这两个实体,虽然名称标识不同,但代表的是同一对象,本文采用聚类的方法和人工结合的方法进行实体匹配。
3课程数字化资源知识图谱的应用探索
建构了基于课程数字化资源的知识图谱后,主要应用场景有:
(1)可视化分析。知识图谱最终以三元组的形式将数据存在图数据库中,在数据可视化上可以清晰呈现各实体的关系。因此,可以利用知识图谱可视化的方式展示课程各知识点完整的系统结构及其上下关联关系,方便学习者形成课程的知识体系。
(2)智能搜索。传统的搜索主要是依据关键词进行,建立知识图谱后,各课程知识点的语义网络也建立完成,可以根据使用者真正的意图进行知识的搜索,避免在查找资料方面花费大量精力,有利于提高学习效率。
(3)资源智能推荐。将本门课程知识图谱构建完成后,可以再加入一些推荐技术,通过大量的使用者建立模型,形成用户画像,根据学习者关注的资源进行学习内容的推荐,这对辅助学习有极大帮助。
4结束语
本文通过知识图谱构建技术,在现有的数字化教学资源平台上构建了特定的课程数字化资源的知识图谱,以期为学习者建立课程知识点的连接和知识体系,解决知识碎片化问题,同时提高了搜索资料的效率。今后,希望不断改进关键技术,让更多的课程能自动化构建知识图谱,形成课程知识图谱和学科知识图谱,为建立智慧课堂打下良好基础。
参考文献
[1] 王昊奋,漆桂林,陈华钧.知识图谱方法、实践与应用 [M].北京:电子工业出版社,2019:107.
[2] 漆桂林.知识图谱之语义网络篇[EB/OL]. http://zhuanlan.zhihu.com/p/28276520,2017-08-12.
[3] 葛斌,谭真,张翀,等.军事知识图谱构建技术[J]. 指挥与控制学报,2016,2(4):302?308.
[4] 阮彤,王梦婕,王昊奋,等.垂直知识图谱的构建与应用研究[J]. 知识管理论坛,2016(3):226-234.