基于知识图谱构建初中语文教材课文知识库

2022-04-29 16:33李嘉哲王贝伦陈月瑶
中小学数字化教学 2022年6期
关键词:本体图谱实体

李嘉哲 王贝伦 陈月瑶

随着计算机及人工智能技术的飞速发展,现代信息技术给中小学教育带来了显著的变化。2017年,国务院印发了《新一代人工智能发展规划》,提出要推进“智能教育”,“推动人工智能在教学、管理、资源建设等全流程应用”,同时指出构建知识图谱、提升知识服务技术的重要性。知识图谱是谷歌(Google)于2012年提出来的,用于增强其搜索引擎功能[1][2],随着智能技术和服务应用的不断发展,在数据互联的Web 2.0时代向知识互联的Web 3.0时代迈进的背景下,它已被广泛应用于智能搜索、智能问答、个性化推荐等领域,成为教育领域添薪续力、革故鼎新的重要手段。

目前,统编初中语文教材课文涵盖诗歌、小说、散文、戏剧等多种体裁,类型多样,篇目繁多,信息量大,课文与课文之间以人文主题和语文素养双线组元[3]。听课调研中,我们发现一线师生在使用统编初中语文教材时常常会提出这样几个问题:(1)教材整体结构不够明晰;(2)不同单元课文之间的内在联系不明晰;(3)对所有课文进行跨年级形象化全局概览的技术手段比较缺乏。针对上述问题,我们开始研究如何利用自然语言处理技术绘制统编初中语文教材课文知识图谱,并基于知识图谱构建统编初中语文教材课文知识库,开展具体运用实践。

一、知识图谱在构建统编初中语文教材知识库中的作用

(一)知识图谱有助于展现系统化的课文结构体系

知识图谱利用可视化技术,将课文之间的关联以图形数据库的形式展现出来,阐明了课文与课文之间的内在关联,深刻揭示了语文教材课文组织结构。这有利于使用者更为清晰地了解课文系统化的结构体系,准确解析课文内核,精确剖析不同课文之间的关联,进行智能化联想搜索。

(二)借助图形数据库方便进行课文概览

知识图谱依靠其图像化属性,能够将统编初中语文教材收录的数百篇课文绘制成一幅清晰直观的电子图谱,并为每篇课文提供一目了然、直观清晰的内容概览。加之统编初中语文教材知识库的内容具有公共属性,面向全社会公开,这一技术的运用方便知识图谱系统的管理员对数据库内容进行个性化的增删与查改。

(三)可视化技术提供多元、丰富的功能

知识图谱系统充分利用CSS、HTML、JavaScript等语言工具实现了课文知识图谱网页端的可视化,其功能多元、丰富,精益求精,拥有课文关系图界面及课文检索界面可视化及相互跳转、知识图谱放大缩小、节点拖曳以及课文检索等功能。对于使用者而言,不仅学习成本低廉,而且上手快,操作简易,使用方便。此外,相较于传统的文字目录,形象化、可视化的知识图谱更加贴近师生的教学活动,直观便捷,可以更好地激发学生学习的积极性,提高教学效果。

二、统编初中语文教材课文知识库中知识图谱的内容

基于自然语言处理技术,结合统编初中语文教材课文全文,我们构建了统编初中语文教材课文知识图谱,涉及不同的计算机技术(如图1)。概言之,统编初中语文教材课文知识图谱主要包括四部分:(1)场景分析及图谱设计;(2)标签自动生成;(3)数据处理及图谱搭建;(4)可视化。下面,我们将依次对上述四个部分进行介绍。

(一)场景分析及图谱设计,明确实体、关系和属性内涵

场景分析是科学建模过程中最基础也最关键的一步,对于知识图谱来说也不例外。只有合理、全面、深刻地分析应用场景,才能设计出符合需求、逻辑分明、实用性强的知识图谱。

在进行场景分析及图谱设计时,我们需要明确知识图谱的实体、关系和属性,它们是知识图谱必不可缺的基本元素。

1.实体:表征知识图谱中的节点。在本知识图谱中,每篇课文和每个标签都是一个实体,如课文《皇帝的新装》及其标签“聪明”都是实体。

2.关系:表征知识图谱中的边。在本知识图谱中,用课文实体和标签实体之间的边表示该课文主题包含该标签。若一篇课文含有某个标签,它们之间就存在关系,即课文内含包括该标签指示的内容。例如,课文实体《春》和标签实体“大自然”之间存在关系“HasLabel”,表明该课文的标签包含“大自然”,即“大自然”揭示了课文《春》的主要内容,可作为课文《春》的一个子主题。若不同课文含有相同标签,则因为这两篇课文都有边与该标签节点相连,从而使两篇课文也相连,由此实现含有共同主题的课文彼此相连以及主题聚类的效果。这些标签的主题不仅包含课文所在单元蕴含的人文主题,也包含课文蕴含的人文精神,因此一篇课文可以有多个主题标签。

3.属性:表征知识图谱中实体(节点)及关系(边)包含的具体内容。在本知识图谱中,课文实体的属性包括作者、课文位置、课文文本内容。例如,对于课文《皇帝的新装》,其“作者”属性为“安徒生”,“课文位置”属性为“七年级上册第六单元第19课”。

(二)标签自动生成,精准掌握文本关键词

标签主要用于区分课文的关键词。例如,对于课文《皇帝的新装》,其标签可以为皇帝、衣服、聪明、愚蠢、虚荣等。针对知识图谱中的每一篇课文,我们都会对其生成不同的标签。课文内容不同,标签个数也会不同。具体而言,若课文较长,主题较为多元化,标签个数就会多。比如,朱自清的《春》相较于刘湛秋的《雨的四季》,标签数较少一些,因为《雨的四季》课文篇幅更长,且提到了四个季节,内容更为多元。

标签自动生成的方法有两种:(1)根据词向量的词义特性找聚类中心作为主题词,聚类中心个数根据聚类结果权衡;(2)删去常用词后进行词频排序,选择排名前几位的词作为关键词标签。两种方法涉及的技术如下。

1.分词:按照词性词义对语句进行分词处理

分词,是自然语言处理技术中处理文本的一种技术,指按照词性或词义将句子中的词语分隔开的技术,如小草//偷偷地//从土里//钻出来。分词标准在不同的情况下不尽相同,有时也可不分词而直接对语句进行处理,它对于文本挖掘有着重要作用。

在本知识图谱中,我们使用正则化匹配和jieba库进行分词处理。具体而言,首先,运用一些标准化方法消除特殊符号,让文本内容更为规范化,易于处理。然后,通过正则化匹配特定的标点符号进行分句,对分句结果进一步进行规范化处理,再运用jieba库进行分词。

2.词向量转化:将中文词语转化为数值词向量

词向量转化,是将中文词语转换成数值向量的技术。在自然语言处理过程中,计算机无法“理解”人类语言,因此需要将输入计算机的词语转化成计算机可以“理解”和处理的词向量。词向量是针对词语的向量化表示,是将词语转化(或嵌入)数学空间的数值结果。

在本知识图谱中,我们使用中文数据集上训练的BERT模型[4]进行词向量转化,具体而言,是将分词结果逐个输入BERT模型,然后利用该模型输出该词的词向量结果。

3.聚类:将相似相近的词向量进行聚类

聚类,是将相近或相似的词向量归为一类的技术。处理课文过程中,教师可以将其理解为把同义词或近义词归为一类,如将“春天”和“春季”进行聚类。

在本知识图谱中,我们使用K最近邻算法聚类。具体而言,首先运用PCA算法将词向量降维,然后对降维后的词向量使用K最近邻算法,将词向量分为K个类别。由于不确定课文主题有多少,故对2~6之间的K值分别进行结果测试,从中选取聚类效果最好的K值。最后,对每个聚类选取与聚类中心最接近的词向量,作为该聚类的中心词。

4.词频统计:统计课文中非常用词的频率

词频统计,是统计每篇课文中标签出现频率的过程。对于每篇课文,经过分词后,我们首先删除停用词,即利用一个大约包含2500个常用词的停用词列表,删除常用词(如人称代词“你”“我”“他”等)。然后,对余下的非常用词进行统计,得出所有词语在课文出现的次数。例如,对于课文《皇帝的新装》,词频统计结果为:[(“衣服”,24)、(“皇帝”,21)、(“骗子”,13)、(“织布机”, 11)、(“穿”,8)、(“美丽”,8)]。其中,“(‘衣服,24)”表示“衣服”一词在《皇帝的新装》中出现了24次,其余结果同理。

(三)数据处理及图谱搭建,厘清本体之间的关系

经过场景分析、标签生成,我们便可以处理数据并搭建课文知识图谱了。本知识图谱搭建过程中,涉及的技术如下。

1.数据处理:数据获取、格式化及数据存储

数据获取是指获取中学语文课文及相关信息,如作者、课文内容、课程位置等,它是在标签生成之前完成的。格式化是指将数据存储为json格式文件,以便进行数据解析,它在数据获取后即可完成。图谱数据提取和格式化保存,是指从格式化文件中提取出课文标题、对应作者和文本内容等信息,与课文标签一同进行格式化存储。

2.实体消歧:合并相似性高的标签实体

实体消歧是用于解决同名实体歧义问题的技术。在本知识图谱中,我们根据各篇课文生成的标签,对其进行词向量相似性度量,以决定是否能够合并为同一个标签。例如,“春”和“春天”可合并为标签“春天”,“思乡”和“怀乡”可合并为标签“怀乡”。

3.本体建模:构筑知识图谱的结构轮廓

本体建模是一个通过分析、确定本体及本体间关系,描摹知识图谱大致轮廓的过程。其中,本体指的是某个领域实体或概念通过关系组成的结构。本体可以是实体的抽象,也可以是本体的实例。例如,《从百草园到三味书屋》是一个课文实体,那么“课文”就是它所对应的本体。本体建模即分析并总结知识图谱包含的本体,并厘清本体之间关系的过程。本体建模在数据获取之前就可完成。

(四)可视化技术,直观展现事物之间的联系

可视化技术指的是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术[5][6]。目前,可视化技术已经逐步渗透到生物医学、航空航天、交通管理、教育学等多个领域,知识图谱便是一种利用可视化技术记录、描述、展现事物之间联系的图形数据库。

如图2所示,我们利用CSS、HTML、JavaScript等语言工具对课文知识图谱进行了网页上的可视化,即使用HTML编写网页结构,使用CSS设置网页样式,使用JavaScript实现一系列用户交互效果(如点击发生事件等)。其实现的一系列功能包括:课文关系图界面及课文检索界面可视化及相互跳转;知识图谱放大、缩小及页面移动;节点拖曳,以亮暗区分是否被选中;可选用两种节点/文字图谱查看方式;课文概要可视化。

三、统编初中语文教材课文知识库的应用实践

(一)全局概览

知识库能够为其所涵盖的课文提供全局概览。在图2中,用鼠标滚轮可以控制图谱的放大和缩小,按住空白处进行拖动。如图3所示,将鼠标移到某个节点上拖动时,该节点的不相邻节点会变暗。

(二)课文检索

知识库支持课文检索功能。其利用图像化手段,浓缩概括每篇课文的主要内容,并将体裁不同但内核相近的课文联系起来,为使用者浏览、查阅、学习提供便利。知识图谱中的每个节点均对应一篇课文,通过在课文检索界面搜索文本,可以展示每篇课文的详细信息(包括作者、课程位置、标签和课文原文),以及与之相关的其他课文。由此,使用者通过浏览课文标签,可以轻松掌握整篇课文的内容内核。

如图4所示,通过在课文检索界面检索课文《皇帝的新装》,使用者可以一目了然地看到文本的标签包含“皇帝”“衣服”“聪明”“愚蠢”等,进而在未阅读原文的情况下就能快速了解了这篇课文的主要内容。

对于每篇课文,使用者都能通过课程位置信息和图谱,定位到与其相关联的其他课文上。搜索一篇课文,查询结果只会展示该课文和与该课文相关联的其他课文,清晰明了,一目了然。如图5所示,搜索茨威格的《伟大的悲剧》一文,我们可以在图谱中看到与文本主题相关或相近的其他课文,包括《土地的誓言》《邓稼先》等。

对于拥有相同标签的不同课文,通过用户界面,使用者能够直观便捷地搜索到相关信息。这意味着使用者能够在不同课文之间轻松跳转,旁征博引,举一反三。对于家长和学生群体来说,在知识图谱上搜索课文,能够极大地降低时间成本,检索方便,学习便利。对于教师群体来说,由于知识图谱能将不同学期的课文串联起来,故而方便教师授课时进行联想教学。

(三)标签生成

该系统也支持标签的自动生成,使用者可以将需要进行标签生成的文件命名为“new_lesson.txt”,然后运行“label_generation.py”,便能得到程序自动生成的标签结果。

目前,我们构建的统编初中语文教材课文知识库拥有全局概览、课文检索和标签生成三大功能,未来计划囊括统编小学语文、统编高中语文教材,进行综合分析,及时更新数据,以适应不同学段人群的需要。

知识图谱作为人工智能发展的重要成果,已经在许多领域生根发芽,如信息检索、个性化推荐、生物医疗等领域[7]。而在教育领域,各学科知识图谱的构建,作为跨学科学习的重要基础,也必将进一步发挥图形数据库的优势,在国家《新一代人工智能发展规划》“三步走”战略的指导下大步前进,焕发出崭新的活力,为立德树人提供创造性助力。

注:本文系国家语委“十四五”科研规划2021年度省部级重点项目“中华优秀传统文化数字化课程资源的开发与应用研究——以统编义务教育语文教材为中心”(项目批准号:WT145-3)的阶段性研究成果。

参考文献

[1] BERNERS-LEE T, HENDLER J, LASSILA O. The Semantic Web[J]. Scientific American Magazine,2008,23(1):1-4.

[2] AMIT S.Introducing the Knowledge Graph[R]. America: Official Blog of Google,2012.

[3] 温儒敏.“部编本”语文教材的编写理念、特色与使用建议[J].课程·教材·教法,2016(11):3-11.

[4] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. arXiv preprint arXiv:1810.04805,2018.

[5] 刘勘,周晓峥,周洞汝.数据可视化的研究与发展[J].计算机工程,2002(8):1-2,63.

[6] 何海生.“互联网+教育”视角下可视化技术的创新应用[J].信息记录材料,2017(9):142-143.

[7] 徐增林,盛泳潘,贺丽荣,等.知识图谱技术综述[J].电子科技大学学报,2016(4):589-606.

责任编辑:孙建辉

猜你喜欢
本体图谱实体
Abstracts and Key Words
绘一张成长图谱
对姜夔自度曲音乐本体的现代解读
前海自贸区:金融服务实体
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
补肾强身片UPLC指纹图谱
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
主动对接你思维的知识图谱
《我应该感到自豪才对》的本体性教学内容及启示