面向语言智能教学系统的领域知识图谱构建

2020-10-27 09:02
牡丹江教育学院学报 2020年9期
关键词:教学系统本体图谱

孙 为 任 函

(1琼台师范学院信息技术学院, 海口 5711272广东外语外贸大学, 广州 510006)

一、引言

智能教学系统是一种被教育领域广泛采用的计算机辅助系统,它通过模仿人的教学方法和过程与学习者进行交互,以帮助学习者快速、有效地获取知识[1]。自上世纪70年代以来,智能教学系统取得了长足的发展,特别是近年来计算机技术的快速发展催生了不少智能教学网站和教育平台,同时也促进了智能教学技术的发展。

智能教学系统的核心问题之一是知识的获取和有效利用。尽管智能教学系统取得了诸多进步,但知识的获取和有效利用仍然是智能教学系统的突出问题。具体而言:一方面知识仍非常有限,且难以更新。现有大多数智能教学系统的知识集合仍然采用一次性构建方式,从有限的数据集合中获取知识。面对信息的快速增长,有限的知识集合已经难以满足学习者对知识获取的需求。另一方面,现有知识表示方式主要采用知识规则,当新知识到来时,需要将新知识与已有知识进行分析、融合,排除冲突规则,其复杂的分析过程使得知识更新成为挑战。

为此,一些研究者[2][3]提出了在智能教学系统中引入知识图谱的研究方案。知识图谱是一种基于图的知识库,图中节点对应客观世界中的概念,边表示概念之间的关系。通过这种描述形式,学习者可以快速准确地获取所需内容。基于此,本文提出一种面向语言智能教学系统的领域知识图谱构建方法。该方法通过语言教学领域知识本体,获取部分领域实体及关系,以建立核心知识图谱,然后通过一种联合识别迭代模型进一步扩充实体及关系,最终建立领域知识图谱。该方法将有助于领域知识的获取,从而改进智能教学系统的性能。

二、语言教学本体

知识本体提供了一种知识的结构化表达形式。我们可以通过知识本体初步建立小规模的知识图谱,并在此基础上进一步扩展。

首先,我们以汉语教学为例建立了一个语言教学本体,其上层概念主要来自各类教学大纲、教材等。另一方面,智能教学系统的典型结构之一为“三模型”结构,包括领域模型、学生模型和教师模型。语言教学本体建立了对应的上层概念,包括语言知识、汉语学习与汉语教学。

语言知识本体包括语言要素和文化要素两个方面。语言要素即语言基本知识,包括汉字、词汇、句法、语义。其中,汉字概念涉及语音(声母、韵母、声调)、结构、笔顺、演化;词汇概念涉及词类、释义、辨析;句法概念涉及句子成分、句子结构、特殊句式;语义概念涉及语义结构、修辞、歧义。文化要素即语言所承载的文化内涵,包括传统文化、社会心理、民族特色、语言交际等。语言知识本体用于构建知识图谱中的语言基本知识部分。

汉语学习本体包括言语技能和学习技能。言语技能即学习者的语言能力,包括听、说、读、写四个方面的概念;学习技能即学习者学习语言的能力,包括智力水平(如归纳、演绎、推理、观察、分析等)、学习方法(如知识的获取、记忆、认知等)以及学习管理(如目标、计划、执行、评估等)三个方面的概念。汉语学习本体用于构建知识图谱中的学习者相关部分。

汉语教学本体包括教学原则和教学实践。教学原则即教学过程中的基本内容和要求,包括教学目标、对象、类型、任务、效果等方面的概念;教学实践即实际教学过程中包含的内容、方法和经验,包括教学大纲、教案、教学进度、教学测试与评估等方面的概念。汉语教学本体用于构建知识图谱中的教师及教学相关部分。

下一步,根据上层架构进一步建立每个概念的实体集合,以建立汉语教学领域本体知识库。我们将各类教学资源归类为上述本体的某一概念中,以便抽取概念下的实体。教学资源可分为两类,一类是具有较强结构化特征的教学大纲,这类资源详细标注了每章节学习内容和知识要点,能够提供优质的概念来源;另一类是与教学大纲高度相关的教学资源,包括教案、教材、试题库等。尽管这类文本资源缺乏结构化特征,但其一般由领域专家手工创建,其中概念较为丰富,表述准确。因此,可由领域专家对其中的实体进行标注,同时采用实体及实体关系识别方法自动获取相关实体及关系。

三、核心知识图谱构建

核心知识图谱构建是整体知识图谱构建的重要环节,其目的是建立相对准确的实体及实体关系的知识集合,以便为知识图谱的扩展提供较好基础。我们可采用汉语教学本体知识库建立核心知识图谱。

本体知识库是一个树状结构,各实体仅与其上下位概念发生关联。而知识图谱是一个网状结构,每个实体可能与多个实体发生关联,且关系可能不唯一。为此,需要识别本体中各实体之间的关系,以形成核心知识图谱。

本文提出一种实体关联的自动识别方法。该方法可看作是一个分类过程,即判断两个实体属于某种关系。首先,由领域专家给出实体关系基础集合,并标注一部分实体关系;然后,利用上述训练数据对分类模型进行训练;在预测阶段,提取文本中的特征后,已训练好的模型根据这些特征进行预测,并经由人工检查确认实体间的关系。其过程如图1所示。

图1 实体关联识别过程

分类模型选取的特征包括概念本身,概念所包含的实体,每个实体的词性、上下文以及句法和语义角色,分类结果为关系类别。

四、知识图谱扩展

尽管核心知识图谱能够提供较为准确的领域知识,然而其实体数量较少,知识有限,实用效果并不理想,因此需进一步扩充知识图谱。我们可以从开放的网络百科知识库中抽取领域知识。百科知识语料属于互联网上开放的知识文本数据,具有规模庞大、不断更新扩展的特点。中文的百科知识语料主要来源有中文维基百科和百度百科,这类知识库中具有丰富的实体及实体关系,不仅可以补充大量的实体及关系,也能够对现有核心知识图谱中实体之间的关系进行审视,以补充新的关系。

另一方面,实体及实体关系抽取往往需要足够的训练数据。而核心知识图谱中的实体数量有限,采用有监督学习方法难以获得理想的识别性能。为此,本文提出一种实体及实体关系联合识别迭代模型,如图2所示。

图2 联合识别迭代模型

模型采用基于约束的迭代算法,进行实体和关系联合抽取,通过实体和关系识别的互强化来逐步提高抽取的性能,同时限定抽取规则必须满足核心知识图谱的约束,以减少语义漂移导致的错误。首先,利用已有的实体,在百科知识语料中搜索新的关系模板,或利用已有实体关系搜索新的实体模板,并通过人工制定的约束条件对新的实体和关系模板进行过滤,然后再利用新的实体和关系模板来抽取语料中的实体和关系,并对候选实体和关系进行评估排序,最后将排名靠前的实体及实体关系添加到知识图谱中。上述过程迭代进行,直到满足停止条件。

该模型的特点在于:第一,基于联合学习的方法可以让实体识别与关系识别互为指导,在一定程度上保证实体及相应关系识别的正确性,有助于提升两个任务的准确率;第二,该过程迭代进行,每次加入一部分高置信度数据以扩充数据规模,从而不断改进模型识别性能。

五、结语

本文提出一种面向语言智能教学系统的领域知识图谱构建方法。该方法通过领域本体知识库建立核心知识图谱,并在此基础上利用实体和实体关系联合学习迭代模型对知识图谱进行扩充。其贡献在于:一是建立了一个面向汉语智能教学系统的领域知识图谱,二是提出一种实体和实体关系联合学习迭代模型,以扩充知识图谱。该方法将有助于领域知识的自动获取和分析,一定程度上解决现有智能教学系统中知识缺乏的问题,从而改进智能教学系统的性能。

猜你喜欢
教学系统本体图谱
淄博市大力推进交互式在线教学系统应用
基于Unity的计算机硬件组装仿真教学系统设计
眼睛是“本体”
绘一张成长图谱
基于移动学习理念的智慧教学系统
补肾强身片UPLC指纹图谱
基于本体的机械产品工艺知识表示
基于交互式双板教学系统的高中地理教学研究
主动对接你思维的知识图谱
专题