课程知识图谱构建及应用研究*

2022-06-25 03:29刘欢张广娜
中国教育技术装备 2022年22期
关键词:知识图谱计算机应用基础可视化

刘欢 张广娜

摘  要  互联网技术与各领域的深度融合推动着教育事业的发展,解构知识图谱的理论内涵,构建计算机应用基础课程的本体模型和知识图谱,并利用Neo4j对图谱进行可视化,结合校本资源和学生数据进行教学实践,以期运用知识图谱创新教育教学方法,为提高教学质量提供参考。

关键词  计算机应用基础;知识图谱;可视化

中图分类号:G712    文献标识码:B

文章编号:1671-489X(2022)22-0078-04

0  引言

如今,利用网络进行教学和学习的教育方式越来越被广泛使用。网上学习时,学生对知识点的理解是孤立零散的,难以系统地掌握所学知识点,在检索及学习知识的过程中效率低下。只有对知识进行分析、整理,找准内在联系、弄清知识脉络,形成知识结构体系,根据学生对知识的掌握情况,针对学生特征提供学习资源,才能帮助他们提高学习效率。因此,将学科知识点构建成知识图谱应用于教学,为提高教育教学质量带来希望。

在教育知识图谱方面,Fabian K等[1]在2013年首次将概念图引入教育教学;Yang Y等[2]应用诱导图挖掘课程之间的内在关系。在国内,最早开始的是2013年关于旅游管理学科课程教学的研究,随后,CSDN应用知识图谱推出计算机知识系统[3];张春霞等[4]基于数学课程本体,研究数学课程知识图谱的构建方法,并提供一种形式化的、显式的课程知识表示,改善知识服务效果;何政等[5]针对C#程序设计课程构建知识图谱并设计学习导航系统,在实际教学中进行实践运用;杨娟等[6]对教育知识图谱模型构建进行研究,构造教育知识图谱KSCG理论模型,为自适应学习提供一定的理论支撑;朱鹏[7]通过从优质的教育资源站点采集课程知识,完成课程知识图谱的构建。

本文采用自顶向下与自底向上结合的半自动方式构建计算机应用基础课程知识图谱。

首先,自顶向下使用Protégé本体建构工具对计算机应用课程可视化。

其次,根据课程本体,从百度网站、校本数字化学习平台网站中爬取数据;应用数据进行实体与关系的抽取。

最后,采用Neo4j进行存储与可视化。

课题组把课程知识图谱应用于实际教学中,并通过调查问卷和测试,发现该技术能有效增强学习效果。

1  相关知识

一般来说,课程知识图谱可以分为模式层和数据层两个层次:模式层存储提炼加工后的知识,而数据层储存真实具体的数据信息;模式层可通过构建本体对其进行设计,而数据层一般使用数据库进行管理。

1.1  本体

在课程领域的知识图谱中,课程本体是指构成课程的核心概念、课程概念之间的相互关系以及概念的一些描述信息,如定义、内容等。本体建模的方法主要有七步法、Methontology方法、IDEF-5法、TOVE法、骨架法等。一些常见的本体开发工具有Ontolingua、WebOnto、Protégé等。

1.2  知识图谱

狭义的知识图谱本质上是大规模的语义网络,由节点以及连接节点的边构成,其中节点表示实体、属性值、概念等,边表示节点间的相互依存关系或属性,可以使用三元组表示:<实体1,关系,实体2>和<实体,属性,属性值>[8]。

构建知识图谱的主要流程是从结构、半结构或非结构化的数据出发,将其归一为结构化数据,使用融合算法进行实体消歧,得到实体数据,抽取关系建边,存入知识库。

2  知识图谱的构建

计算机应用基础课程知识图谱,主要构建过程包含本体构建、基于Scrapy的数据获取、基于TF-IDF的实体抽取、实体间的关系抽取以及课程的知识存储与可视化。

2.1  本体构建

大学计算机基础课程为大学计算机专业课程体系中的第一门基础课程,也是非计算机专业必修的公共基础课,课程内容主要涉及计算机各领域概念,内容主要包含计算机基础知识、Windows操作系统、Word文档、Excel表格、PowerPoint演示文稿制作软件、多媒体技术基础和网络信息安全等。组织形式上可归纳为课程知识点、课程知识块与课程知识体系等。课程知识点与知识块之间相互关联,知识模块之间也存在关系,在本体的构建构成中主要包含分类、属性、包含、平行、前驱—后继关系等,关系的定义影响着课程结构体系的构建。参考大学计算机基础教材,使用Protégé软件构建本体关系模型,如图1所示。

2.2  数据的获取

本文使用Scrapy爬虫技术对数据进行爬取,过程主要包括Scrapy引擎、资源调度、数据下载、解析以及数据内容处理五个部分。首先确定课程语料采集目标站点:百度文库中包含很多计算机技术方面的资料,采用Scrapy技术对网页数据进行爬取。其整个爬虫的处理流程为:

1)初始化URL;

2)调用parse()方法,进入爬虫核心程序;

3)定义数据抽取算法;

4)解析URL,设置数据保存目录;

5)抽取网页数据并保存。

2.3  课程领域概念抽取

对网站有关数据爬取后,需要对课程领域关键词进行抽取,抽取关键字的技术又分为有监督的算法和无监督的算法两类。本研究主要使用基于无监督的TF-IDF算法对概念词进行抽取。

TF-IDF就是计算TF与IDF的乘积,TF表示词频,IDF表示逆文档频率。其主要思想是,如果某个词语在相关文章中出现的频率高,并且在其他不紧密相关的文章中出现的次数少,则认为词语具有良好的分类能力。

对于抽取的课程知识的词汇来说,TF是指在一篇文档中某个词语出现的次数m与文档总词数n的比值:

IDF指的是总文档数N与包含该词语的文档数M的比值,再取对数:

分母加1是为了避免分母为0。

然后,求TF-IDF的值:

TF-IDF(w)=TF(w)*IDF(w)

IDF—般可以筛选出常见词,该算法已在jieba

中实现,直接调用即可实现,主要代码为:

import jieba

import jieba.analyse

jieba.analyse.extract_tags(open(“*.txt”,rb).

read(),topK=30,withWeight= False, allowPOS=())

2.4  实体消歧

在完成信息抽取后可能出现实体歧义,此时要进行关键字对齐,即对课程概念之间相似度进行计算。此部分利用Python工具包gensim调用word2vec,其主要代码为:

from gensim.models

import word2vec

model=KeyedVectors.load_word2vec_format(ck_word2vec_model_file,binary=True)

model.most_similar(query_list[0],topn=5)

在得到的与课程概念相似度靠前的几个词中进行筛选。经过算法筛选出来的关键词中尚存在一些无用的关键词,因此有必要进行二次过滤,去掉无用词、相似词,经过质量评估,获取最终的课程关键词,其部分结果如表1所示。

2.5  概念关系抽取

课程关键词抽取后,要确定关键词关系。在课程本体的构建过程中应用到的知识关系主要包括分类关系、包含关系和上下位关系等。

对于分类关系数据,基于迭代K-means算法生成,其算法思想是:

1)初始化,任意选择k个点作为中心点;

2)分别计算其他点到每个中心点的距离,将其分配到离它最近的中心点;

3)重新计算已经得到的各个类的中心点;

4)迭代第2)和第3)步,直到中心不再发生变化或达到迭代次数,则停止迭代。

对于上下位关系,主要基于教材等图书目录信息来确定,算法步骤为:按照目录的组织,进行深度遍历,按照关键词出现的先后顺序进行排序。但由于源数据的不同,部分关键词会有不同关系,这时就辅助以人工的方式进行判断。

执行上述操作后,得到本文课程知识图谱构建中的节点和关系。

2.6  知识图谱可视化

通过前面的数据处理,已将课程内容中的关键词和关键词的关系抽取出来,下一步则是把课程知识存储起来。本文选择Neo4j引擎,在Windows下,使用Java语言对计算机应用基础课程知识图谱进行可视化,如图2所示。

3  知识图谱在教学上的应用

课题组将计算机应用基础知识图谱应用于教学,应用于线上线下相结合的授课实践之中。教师授课过程中将图谱作为辅助教学的工具,引导学生使用知识图谱进行自主学习。具体实施方式体现在,根据学院现有学习平台数据,把智慧课堂、在线网络学习空间、移动学习平台、大数据分析与质量监控平台有效地联动利用起来,对学生个人进行跟踪,根据学生当前状态和学习接收能力,为其筛选推荐合适的学习资源及学习计划。

学生在课堂之外使用知识图谱进行自主学习,根据图谱查看当前学习模块包含的知识点集合,以及和其他知识点的关联,判断知识点的前驱后继关系,生成各知识点模块的学习顺序。同时,鼓励学生利用网络资源自学,结合知识图谱能够构建课程学习的整体感,帮助形成课程知识体系。最后,专业课教师借助知识图谱集体备课,教授同一门课程的教师可以共享彼此资源,构建侧重点不同的课程知识图谱,减少重复性工作。

课题组教师在教授班级中,在2021年下半学期进行教学实践实验,以期中测试时间为分界点,前半部分时间未使用知识图谱教学并对学生进行期中测试,后半部分时间把知识图谱引入教学,分别在期中、期末对学生学习效率、课程知识体系构建、对教师满意度以及考试成绩等方面进行调查打分,以100分为满分,图3为调查打分结果。

数据显示,本研究使学生在以上方面均有提高,说明知识图谱在一定程度上能够增强学生的课程学习效果。

4  结束语

本文研究知识图谱技术内涵,构建出计算机应用基础课程知识图谱,以可视化的形式将课程知识内容展现给学生,学生可以直观看出知识点间的内在联系,清晰课程知识体系,提高学习效率,帮助教师发挥资源优势、共同提高,促进实现线上与线下相结合的教与学方式。但是,作为新的研究热点,知识图谱应用于教育教学在技术上还不是很成熟,相信随着相关研究的不断深入,知识图谱将会为教学提质增效。

参考文献

[1] Kneissl F, Bry F. Fostering Concept Maps Aware-ness as a Means to Learning[M]//2013 IEEE ThirdInternational Conference on Cloud and Green Computing,2013:354-357.

[2] Yang Y M, Liu H X, Carbonell J, et al. ConceptGraph Learning from Educational Data[J].8th ACMConference on Web Search and Data Mining,2015.

[3] Network Chinese Software Developer.知识库[EB/  OL].(2018-01-02)[2018-01-02].http://lib.csdn.  net/home.

[4] 张春霞,彭成,罗妹秋,等.数学课程知识图谱构建及其推理[J].计算机科学,2020,47(S2):573-578.

[5] 何政,叶刚.基于知识图谱的C#课程学习导航系统研究[J].太原城市职业技术学院学报,2021(9):97-99.

[6] 杨娟,杜旭,李浩.自适应学习系统中教育知识图谱   模型构建研究[J].中国教育信息化,2021(24):24-29.

[7] 朱鹏.基于Web文档资源的课程知识图谱构建及应用研究[D].昆明:云南师范大学,2019.

[8] 张吉祥,张祥森,武长旭,等.知识图谱构建技术综述[J].计算机工程,2021,48(3):23-37.

[9] 家明强.基于知识图谱的课程学习系统设计与实现[D].昆明:云南师范大学,2021.

*项目来源:2021年度河南交通职业技术学院教学改革研究与实践项目“基于知识图谱的信息化教学研究与实践”(课题编号:2021JG038)。

作者:刘欢,河南交通职业技术学院现代教育技术中心,讲师,研究方向为计算机应用技术;张广娜,河南交通职业技术学院交通信息工程系,高级工程师,研究方向为智能交通技术(450018)。

猜你喜欢
知识图谱计算机应用基础可视化
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的智慧教育研究热点与趋势分析
《计算机应用基础》微课设计与制作实践
中职学校会计专业《计算机应用基础》课程教学改革探讨
任务驱动和专题式相结合教学法在计算机应用基础课程中的应用