李艳茹 周子力 倪睿康 马腾 高书林 王彦冰
摘 要: 文章以人教版高中数学必修课程为例,探讨了面向中学生教学的学科知识图谱的构建过程与应用,具体阐述了构建学科知识图谱的方法和步骤。针对传统知识图谱中知识点存储与推理方法的弊端,提出一种CRA模型,可以便捷且有效地构建图谱,充分发挥图谱功能。最后,通过已构建的知识图谱编辑系统,对高中数学课程知识图谱进行构建与展示。
关键词: CRA模型; 学科知识图谱; 个性化学习; 可视化
中图分类号:TP399 文献标识码:A 文章编号:1006-8228(2021)04-65-04
Abstract: Taking the compulsory high school mathematics course of PEP as an example, this paper discusses the construction process and application of the subject knowledge graph for middle school students' teaching, and elaborates the methods and steps of constructing the subject knowledge graph. Aiming at the disadvantages of knowledge point storage and reasoning method in traditional knowledge graph, a CRA model is proposed, which can construct the graph conveniently and effectively and give full play to its function. Finally, the knowledge graph of high school mathematics curriculum is constructed and displayed through the established knowledge graph editing system.
Key words: CRA model; subject knowledge graph; personalized learning; visualization
0 引言
数学作为一门最基础的工具学科,其教学工作一直广受社会各界的关注。大量研究发现,中学生不具備对模型和建模本质的深层次的认知,更缺少用模和建模的能力[1],因而学生往往难以记住每一个知识点,无法建立各个知识点之间的联系,从而不能将知识点灵活应用。而知识图谱中知识点之间具有关联性,有助于学生对于知识点的记忆与深层次理解,易于学生形成数学这门课程的认知网络,从而激发学生自主学习与独立思考的能力。
文献[1,2]将知识图谱引入到教学当中,主要采用构建学科知识图谱,把学科知识内容的知识点进行梳理,建立起知识点间关系的方法。但其学科知识图谱的表示、存储与推理还是基于RDF或OWL,不适合海量知识的表达,使得知识图谱功能的发挥受到影响。针对以上问题,本文将基于CRA模型,结合知识图谱编辑器对知识图谱进行构建与可视化展示。利用此模型既可以更方便地构建图谱,同时也可以充分发挥知识图谱在教学中的功能。
1 知识图谱在教学领域研究现状
近年来,知识图谱(Knowledge Graph)无论作为技术工具还是技术理念,逐渐获得国内外科学研究学者的关注。知识图谱,是结构化的语义知识库,用于描述现实世界中的概念及其相互关系[2],本质上,知识图谱是从语义的角度来表示人们的先验知识。通过将数据粒度从文件级别降到概念级别,聚合大量知识,从而实现知识的快速响应和推理。随着国内外科学研究学者对于知识图谱理论研究的不断深化,知识图谱在各个领域逐渐受到广泛关注。
在教育教学领域,知识图谱在高校课程设计中的应用较为广泛,主要包括教师对于课程的构建以及对于学习者学习情况的追踪,具有促进教学内容、方法和模式的改进以及促进在线学习模式转变的优势[3]。国外,由Gregory 等人开发了“HPKMT”——人力绩效知识图谱映射工具[4],可以使学习者通过自主创建概念和定义概念间关系的知识图谱来表达他们对于所学内容的理解;Knewton[5]在线教育平台基于数学学科知识图谱,搭建了学习者个性化学习平台,为不同学生提供了个性化学习指导。国内,由清华大学知识工程研究室所构建的我国第一个基础教育RDF知识图谱——“eduKB”,为学习者提供了基础的问答等服务;北京师范大学研发的“唐诗别苑”——全唐诗语义检索可视化平台,为学习者提供了查询作者信息、文本释义等相关功能。
2 基于CRA模型的学科知识图谱建模
学科知识图谱建模基于CRA模型建立,即将学科知识图谱中的概念(C),关系(R),规则(A)利用三元组模型进行表示。此处以人教版高中数学部分章节为例,如图1所示。
2.1 概念(Concept)
在学科知识图谱中,概念是指能够唯一标识一个意义单元的个体。其主要由具体的实例对象和基于实例所构建的抽象概念组成。
⑴ 概念(concept)
集合中,[tc1,tc2,…,tcm]代表m个不同的名称,而这些名称均可以用概念c来表示。例如:向量既可称为欧几里得向量,又可称为矢量,可以表示为:[c:Tc(向量)={欧几里得向量, 矢量}]。
⑵ 概念集合(C)
集合中,[c1,c2,…,cn]代表n个各不相同的概念。例如:集合、函数,它们为各不相同的概念,可以作如下表示:[C={集合, 函数}]。
⑶ 名称(title)
集合中,[ct1],[ct2,…,cti]代表i个不同的概念,这些概念均可以用名称t来表示,即多个概念共用一个名称,代表实体链指中一词多义的情况,此时,[Ct?C]。例如“单位”一词,在数学中的含义为计量事物的标准量的名称,而在生活中则指代机关、团体或属于一个机关、团体的各个部门。可作如下表示:[t:Ct(单位)={标准量, 机关}]。
⑷ 名称集合(T)
集合中,[t1,t2,…,tj]代表j个各不相同的名称。例如:真子集、空集、对数函数、指数函数为不同名称,可以作如下表示:[T={真子集, 空集, 对数函数, 指数函数}]。
2.2 关系(Association)
在学科知识图谱中,关系是指概念与概念、概念与知识点、知识点与知识点的联系。
集合中,[tA1,tA2,…,tAj]代表j个各不相同的关系名称。学科知识图谱中关系有很多种。例如:概念与概念之间:两个集合的映射是函数;概念与知识点之间:函数包含反比例函数;知识点与知识点之间:三角函数的有界性是函数最值的应用。对于以上这些不同的关系,作如下表示:[TA={映射, 包含, 应用}]。
2.3 规则(Rule)
在学科知识图谱中,规则是指对于知识图谱中的事物的规范且可以用于推理。规则主要功能是保证知识图谱内部组织结构的规范性,为后续的推理知识和挖掘隐含知识提供前提。可将规则分为约束检验规则和知识推理规则。约束检验规则可以保证知识图谱内容与内部组织结构的规范性与统一性,而知识推理则可以通过现有关系,构造或发现未知知识。
在构建知识图谱的过程中,例如:利用约束检验规则限制“值域的性质是函数”,“导数的应用是确定性”等关系的出现。根据规则,可以在知识图谱中进行关联查询,得到知识图谱中的隐含知识利用规则进行推理,例如:查询集合这一概念,不仅会得到关于集合的知识点,还会得到关于函数的概念及知识点。
通过以上步骤,形成[KG=(C, R, A)]三元组模型即CRA模型。基于CRA模型构建知识图谱,使得语义更为清晰,可以使知识图谱更适合于海量知识的表达、存储与推理,并充分发挥知识图谱的功能,为学习者提供更加丰富的学习资料。
3 学科知识图谱构建
3.1 学科知识图谱的定义与构建流程
知识点是用于描述某一特定学科内容的基本单元,可分为概念(元知识点)和复合知识点。学科知识图谱是基于结点之间的语义关系而形成的知识逻辑网络,其中每个结点由知识点或者与该知识点相关的课程资源构成,并最终通过可视化的形式来揭示学科各个知识点间的逻辑与内在联系。
学科知识图谱构建流程可概括为[6]:学科知识点实体识别,学科知识点的关系抽取,学科知识点可视化。构建过程如图2所示。
3.2 学科知识点实体识别
本文从教学培养目标以及大纲出发,将人教版高中数学必修一教材为参照标准,将里面各个章节的目录以及每章所包含的概念及知识点作为知识图谱中节点即实体,从而获得关于课程知识图谱的大体框架[7]。
确定好实体类型之后,对数据集进行清洗及分句处理,采用 jieba 分词加载外部用户词典并对收集到的知识源文本进行自动化标[8]。本文采用BIEOS标注策略,以“字”作为标注单位,其中B表示实体的开始,I表示实体的中间位置,E表示实体的结束,O表示不属于预分类的实体,S表示一个字符即为一个实体。该“字”泛指汉字、标点符号、数字等其他语言字符。即对于输入的教学资源语句[X{x1, x2, x3,…}],其中,xi表示单个字符,输出其对应的标注序列[Y{y1, y2, y3,…}],其中yi表示xi对应的标签序列,完成实体的标注。
经以上处理,完成对于人教版高中数学必修一教材知识点实体识别语料库的创建。通过分配模型训练集、验证集和测试集,分配比例分别是6:2:2,进行模型训练,并最终完成预测。标注过程如图3所示。
3.3 学科知识点的关系抽取
经过实体识别后,获取了关于课程知识图谱中的各个节点。然而此时,它们之间还不具备联系,处于相互独立的状态,还需要通过关联关系挖掘才能将各个知识点之间串到一起,连接成一张知识网络。首先对于上一步由分词得到的教育资源数据集进行清洗,最大程度保留文本的信息,并且提高文本精确度,为后续处理数据奠定基础。其次,对于自然语言来说,一句话中往往包含完整的语句信息,并且关系抽取提取的是一句话中的潜在语义,所以对于数据集来说将其进行分句也是必不可少的工作。最后,将各个知识点的关系进行划分,识别出一句话中的两个实体,并对其关系做进一步判断,从而完成关系语料库的构建。例如:集合元素具有三个性质,分别为确定性、无序性、互异性,关系抽取过程如图4所示。
3.4 学科知识点可视化
经过以上步骤,获得各节点的信息及节点之间的关系,即各知识点以及知识点之间的联系后,通过已构建的知识图谱编辑器,将学科知识图谱绘制出来,本文以人教版高中数学必修一集合与函数两章为例,完成知识图谱的绘制。如图5所示。
完成知识图谱绘制后,通过点击每一个知识节点,展示与该知识节点相关联的内容,以及与该知识节点的关联关系。
4 结束语
本文基于CRA模型,对学科知识进行实体识别与关系抽取,并构建了高中数学知识图谱,解决了传统知识图谱在存储及表达上的弊端,使得在学科知识图谱的表示、存储与推理适合于海量数据的表达。并且运用已构建的知识图谱编辑系统,可以动态地对知识点进行删减与展示,从而提高了构建学科知识图谱的效率。基于知识图谱的学科知识的构建,有助于学习者清晰地了解所学各个知识点之间的关联,形成整体的知识网络,促进学习者对于所学知识的深入思考,深刻了解自己对于所学知识点的掌握情况。同时,在知识图谱中,学习者还可以通过查询知识点得到与该知识点相关的知识点及资料,从而高效地进行学习。
参考文献(References):
[1] 王冬青,殷红岩.基于知识图谱的个性化习题推荐系统设计研究[J].中国教育信息化,2019.17:81-86
[2] 戈其平,钟艳如.基于数学教学的知识图谱构建[J].计算机技术与发展,2019.29(3):187-189
[3] 袁媛.高中生物理建模能力及其培養对策研究[D].辽宁师范大学,2017.
[4] 陆星儿,曾嘉灵,章梦瑶,郭幸君,张婧婧.知识图谱视角下的MOOC教学优化研究[J].中国远程教育,2016.7:5-9,79
[5] Chung G K W K, Baker E L, Brill D G, et al. Automated Assessment of Domain Knowledge with Online Knowledge Mapping. CSE Technical Report 692.[J]. National Center for Research on Evaluation Standards & Student Testing,2006:23
[6] 庄严,李国良,冯建华.知识库实体对齐技术综述[J].计算机研究与发展,2016.1:165-192
[7] 王冬青,殷红岩.基于知识图谱的个性化习题推荐系统设计研究[J].中国教育信息化,2019.17:81-86
[8] Xuezhe Ma, Eduard Hovy,End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF arXiv:1603.01354v5 [cs.LG],2016.5.