昌磊 余豪 陈艳平
关键词:知识图谱构建;知识图谱融合;基础教育人文学科;存储与应用
中图分类号:G424 文献标识码:A
文章编号:1009-3044(2023)02-0012-04
随着信息技术的高速发展,各行各业都受其巨大影响。教育教学行业亦是如此,2020年随着全国开展“停课不停学”,更是促进了在线教学的发展。然而现今我国的基础教育领域的教育教学工作大多仍旧是照本宣科,学科之间的关系与知识点融合仍旧被大家所忽视,即使有些教学工作者有所重视,对于庞大繁杂的中小学知识点间的梳理整合仍旧是费心费力的工作。
知识图谱的出现正好解决了这一教育教学改革的痛点。目前,虽然关于知识图谱的主题论文数量逐年上升,但学界对基础教育领域人文学科的知识点融合的研究进行系统化梳理和分析的文献并不多。大多数文章只停留在提出想法讨论发展的层面,并未深层剖析或是具体构建与融合。本文以构建和融合基础教育领域知识图谱为目的、以人文学科为方向,提出一种具有能力导向性的知识图谱融合方法。
1 知识图谱的本体构建
1993年,本体被Gruber[1]定义为“一种概念化的精确的规格说明”。1998年,Studer[2]进一步扩充了本体的概念,将其定义为“共享概念模型的明确形式化规范说明”。简而言之,本体主要是用来描述某个领域内的概念和概念之间的关系,使得它们在共享的范围内具有大家共同认可的、明确的、唯一的定义。所以,本体具有共享化、明确化、概念化和形式化这4个基本特征。本体构建的过程相当烦琐,而且构建过程往往因各自领域和具体工程的不同而有所不同。但是公认的是,在领域本体的构建过程中,需要相关领域专家的协作与指导[3]。在本节中,将从历史、语文等这些在基础教育领域中的较为突出的人文学科角度具体阐述及举例其知识图谱的本体构建过程。
1.1 历史学科知识图谱构建
在中小学学习历史学科时,大多以时间轴为中心进行展开教学,而在构建历史学科的本体时,将历史大事件作为本体的核心节点。人类社会的历史大事件就是起因—经过—结果—影响的演变过程。可以理解为历史就是社会大事件的串联。在历史大事件中,包括时间、地点、人物、原因(背景)、经过、结果、影响七大要素。下面以事件的时间地点人物为切入点,进行基础教育历史学科的知识图谱本体构建。
在构建历史知识图谱时就需要后面的基础领域人文学科的知识图谱融合做出铺垫。比如历史大事件的人物会有哪些关联人物,在语文学科领域上可能写过相应的诗词歌赋,历史大事件的地点会有怎样的地理地貌,在某个历史大事件的时间节点上可能因为当时怎样的政治制度导致了大事件的发生,或者是此历史大事件将导致怎样的政治制度改变。由此而知,以时间地点人物为历史大事件来进行本体构建的切入点最为恰当。
为贴合实际应用中的实际逻辑,将公元纪年法作为事件、地点以及人物的属性值。对于基础教育领域的历史大事件,时间精度精确到年份即可。对于时期与纪年法,由于在基础领域人文学科是有限的,可将这些作为时间库中的实例进行构建。比如在“时期”类中,有古代、现代、封建时期、唐朝等时间阶段作为实例,有直接包含属性的,将其用hasDirsetof与idPar?tof进行正反关联。这样便能搜寻到唐朝属于封建时期属于古代这些从属关系了。
現如今网上已经流行了一些成熟地理库(比如ArcGIS)。由于在历史上行政区域的不同划分,使得地点名称也复杂多变,所欲对地理库的构建采用无论地级大小统一作为地点实例的准则,将同一时期有包含所属关系的做个别关联,由于基础领域人文学科这些都是有限的,所以是可实现的。
在确定好本体的核心主体及其相关属性后,构建的主要方法引用清华大学许斌教授团队在《一种准确而高效的领域知识图谱构建方法》提到的“四步法”来对规划好的历史知识图谱进行构建。上述已经阐述了历史基础学科的本体构建,后期用“四步法”中众包半自动语义标注,将相关的历史时间及其属性不管是人对其理解,还是使机器可以理解,在标注中就会用到本体技术以及自然语言处理技术。对于其之后的外源数据补充,可以使用中国历代人物传记资料库(CBDB),使用CBDB 对其本体内容进行丰富。接下来,利用标注数据中的数据作为训练数据,按照历史学科知识图谱的本体结构,采用有监督、半监督和无监督的方法从百度百科等互联网文本中抽取实体和关系, 得到扩充数据[3]。
在确定好时间、地理库和历史库后,接下来需要做的就是实例间关系的构建。对于一个个的历史大事件,事件有发生的地点,用is_place_of表示,参与事件的主要人物用have_people_of表示,这样就将历史事件与其发生的地点以及相关人物建立了联系。
以一个具体的历史大事件为例来具体阐述对基础学科领域历史学科的知识图谱本体构建。以安史之乱为例,时间定为此历史事件的自带属性,为公元755年,地点在中国北方至中原,人物有唐玄宗、安禄山、杨贵妃等,这里统一用其姓名作为实例存储。以安史之乱此大事件为核心,构成相应的知识图谱如图3所示。
本文的重点在于在构建之时就为后期人文学科内的融合做准备,以促进老师教学以及学生学习为目的的具有能力导向型的融合方法。运用已有的知识图谱构建方法,在设计好的本体框架上进行构建其他学科的知识图谱。接下来再进行基础教育领域人文学科中更为突出的语文学科知识图谱构建。
1.2 语文学科知识图谱构建
在构建一个学科的知识图谱时,最先还是要确定核心节点,对于中小学语文,以诗词歌赋为载体的传统文学作为语文的核心节点最为恰当,以“文章”来指代中小学语文中课本上所学的所有语文内容。当以文章作为语文学科的核心节点时,那与之自然是一篇文章的作者、写作的时间、地点、当时的时代背景和个人的心境等,依然将时间作为文章实例的一个属性,以时间地点人物(作者)为切入点。由此就可以得出以文章为核心的语文知识图谱框架。
与构建历史知识图谱框架类似,在构建语文知识图谱框架时就需要为后期的人文类学科知识融合做准备,在此框架融合方面,可以看到文章的作者就是某一历史人物,作文可能就是在发生那段历史大事件后所受到影响而产生的,至此就可以将以“文章”为核心的语文知识图谱与以历史大事件为核心的历史知识图谱进行关联,这就做到了人文学科之间简单的知识融合。
下面举一个“文章”的例子具体阐述语文学科知识图谱框架的构建。以杜甫的《春望》为例,“国破山河在,城春草木深。”《春望》是唐代诗人杜甫创作的一首诗。此诗前四句写春日长安凄惨破败的景象,饱含着兴衰感慨;后四句写诗人挂念亲人、心系国事的情怀,充溢着凄苦哀思。此诗作于肃宗至德二载(757)三月。先一年六月,安史叛军攻进长安,“大索三日,民间财资尽掠之”,又纵火焚城,繁华壮丽的京都变成废墟。先一年八月,杜甫将妻子安置在鄜州羌村,于北赴灵武途中被俘,押送到沦陷后的长安,至此已逾半载。时值暮春,触景伤怀,创作了这首历代传诵的五律[4]。
以上选取“核心连带属性”来构建知识图谱的大致关键,人工录入具体说明。在实际操作中,可直接运用上述提到的“四步法”进行具体的知识图谱本体构建。至此就做好了基础教育领域人文学科中历史和语文的知识图谱构建,相应其他基础教育领域人文学科的知识图谱构建也可以类似进行。
2知识图谱的融合
上述知识图谱本体构建的过程已经为知识图谱的融合做了足够的铺垫。由于人物和地点是独立于基础教育学科的实例库,所以人物地点库中实例与基础及教育领域人物学科中的核心实例间的关系自然是共享的。利用这一性质,接下来对基础教育领域人文学科进行知识图谱的融合。
融合的基本思路是当以“历史大事件”为核心的历史知识图谱和以“文章”为核心的语文知识图谱进行融合时,首选将这两个知识图谱的公共实例库进行融合,比如历史事件的时间地点人物以及语文文章的写作时间、地点、作者等,在融合后的知识图谱中,统一为时间地点人物库。剩下的单独列出历史大事件和语文“文章”。
在融合好语文和历史的两个知识图谱本体框架后,继续进行图谱中实例的填充,对实例的填充依然和上述构建各学科知识图谱时同样地去填充。在填充后需要注意的是,相同语义实例的等价标注。特别是历史大事件中的人物地点和语文文章中的作者写作地点间的等价标注,这将是融合的关键所在。正是做好了这些等价标注,才能真正意义上做到跨学科的知识图谱融合。
但是在标注时,需要注意主要的工作是语义消歧和语义等价。语义消歧是指在填充很多实例后,对其相同或相近的名称进行语义区分、消除歧义,又或者语言本身积累了一词多义的用法,所以在知识图谱融合实例填充时的语义消歧是十分必要且重要的,基于机器学习的指代消歧的方法,从预处理过的语料中抽取特征,构建训练集,利用决策树算法消解非限制领域名词短语。或者采用深度学习方法替代浅层机器学习方法,完成指代消歧任务[5]。语义等价是指表示相同或相近意思但词语不同时,将其进行等价关联(比如唐玄宗与李隆基),这样在后期的知识图谱应用中会做到真正的关联,从而起到知识图谱融合的目的。语义等价可实现人为标注等价关系或者运用自然语言处理技术,许坤、冯岩松等人[6])提出查询语义图的概念,提出了一种从自然语言问句转化成结构化查询语句的框架。
在完成实例填充以及语义消歧及语义等价关联后,继续用上述的两个人文领域学科知识图谱为例进行融合示例。比如通过语文文章中一首杜甫的《春望》,在involving“安史之乱”这个关系中,可以检索到安史之乱涉及的人物发生的地点。或者仅通过时间的关联,安史之乱始于公元755年,止于公元763 年,而春望写于公元757 年,正好是安史之乱爆发两年后,诗圣有感而发!不仅如此,可能通过同一地点不同时期发生的事出现的人物而有所新的发现,通过不断地丰富融合知识图谱的实例完整性,使得基础领域人文学科的融合知识图谱具有更强大的健壮性。
3知识图谱的存储
知识图谱的存储方案目前有:1)基于关系数据库的存储方案;2)基于文件系统的存储方案,用来表示RDF数据模型超图的原生RDF存储;3)基于图数据库的存储方案;4)基于内存的方案;5)基于NoSql 的方案。
这里主要采用图数据库的存储方式。目前,基于图数据库的知识图谱存储方法是学界研究的主流。图数据库增强了关系表达,能提供完善的图查询语言,支持各种图挖掘算法。采用图数据库存储知识图谱,能有效利用图数据库中以关联数据为中心的数据表达、存储和查询,适用于存储知识图谱的图数据库。将知识图谱存入图数据库,是将知识图谱的实体或属性值存为图数据库中的节点,而实体间的关系或属性对应存为连接各个节点的边。图数据库的存储方式更适用于涉及多重关系的查询,还可通过经典的图算法而实现更为复杂的图匹配查询与推理等。
现已经完成了中小学学段基础领域人文学科共3664个知识点(学段包括小学、初中、高中),知识点与教材体系两者之间8384个标注关联关系。其中知识点与知识点关系种类包括:包含关系、兄弟关系、前序后继关系。
4知识图谱应用
本文所作的知识图谱融合一直强调的是基础领域的人文学科,以此为能力导向可以展开丰富的知识图谱应用,比如知识搜索、知识快照、知识问答、知识链接等方面。
对于知识搜索,使用类似搜索引擎的搜索界面,然后用戶输入相关感兴趣的关键词时,利用基础教育领域人文学科融合的知识图谱给予相关的搜索结果,甚至是内容推荐。比如用户A对南唐后主李煜的词非常感兴趣,知识搜索结果不仅会显示李煜的词曲,还会显示其相关的历史背景,并且同一时期还有什么佳作或者著名的历史事件,可能相关联的很多知识点就都展示了出来。而知识快照就如同图5所示,将春望和安史之乱之间的所有关联展示出来,可以发现一些未知的关联。
知识问答则可以作为知识图谱的一种智能化应用形式,用户给出自然语言问题,问答系统将其转化为能够对知识图谱进行查询的语句(如SPARQL),将查询出的知识作为答案反馈给用户。比如用户在查询“辛亥革命的领导人”时,问答系统还可以给出题面中“辛亥革命”这个实体。可能就会有辛亥革命爆发和结束的时间地点及其相关人物。知识链接用到自然语言处理技术,将教材教辅或者参考书与知识图谱中的实例相链接,当系统读到教材中出现知识图谱中的实例时,通过算法将其链接到具体实体上。例如人类起源早期的河姆渡人中提到长江中下游,而长江中下游作为实体名词时可以链接其自己的知识卡片或者说是知识快照,而这些涉及的实体名词又可以通过点击进行链接查询跳转。
由以上的多方面应用可见,知识图谱融合应用具有普适性,对基础教育人文学科是具有针对性和能力导向的。
5结论
本文讨论了基础教育人文学科知识图建模的方法和步骤,详细介绍了学科本体的构建思路和步骤,并探讨了学科知识图的融合方法。借助知识图谱,既可以理解学科内的知识,也可以理解学科之间的知识点联系。教育者和学生可以使用此知识图谱从不同角度进行教学工作,这为个性化学习提供了数据支持。但是仍然有一些问题需要解决,如知识地图的数据层还没有使用自动获取来扩展数据,因此地图的数据规模还不够。接下来,研究自动数据提取方法以扩大数据规模。其次,知识图谱的存储方式决定了应用范围和效率,知识搜索也是决定应用效果的重要因素,因此需要进一步地研究和尝试。