本体和知识图谱的比较研究

2021-08-03 03:16杨延云杜建强熊旺平罗计根贺佳江西中医药大学计算机学院南昌330004
江西中医药大学学报 2021年4期
关键词:结构化本体图谱

★ 杨延云 杜建强 熊旺平 罗计根 贺佳(江西中医药大学计算机学院 南昌 330004)

本体和知识图谱同是重要的知识组织表达形式,目前已经被普遍应用于人工智能、自然语言处理、软件工程、医学信息学以及图书馆学等领域[1-2],虽然二者有一定的内在联系,但是它们还是有实质上的差别。为此,本篇论文对本体和知识图谱之间的联系和区别展开相关探索和研究。

1 相关知识及研究基础

1.1 本体追根溯源,本体(Ontology)概念来源于哲学,在20世纪90年代被引入到人工智能、图书情报和知识工程等[3-4]领域,从此本体一直成为众多领域的热门研究话题。关于本体的定义一直是众说纷纭,没有定论。Studer等人在1998年提出本体的定义:本体是共享概念模型的明确的形式化规范说明[5]。此定义在学术界具有较大的影响,对于本体研究具有重要意义。

在本体研究发展的过程中,描述本体的语言有很多种,其中基于谓词逻辑的本体描述语言[6]和基于Web的本体描述语言[7]是最具代表性的两类。通常来说,根据本体的应用领域不同可以将本体分为领域本体和上层本体两类。

1.2 知识图谱知识图谱(Knowledge Graph,KG)本质上是一种大规模的语义网络,其概念于2012年5月由Google正式提出,初衷是为了用户能够更快更简单地发现新的信息和知识。知识图谱由节点和边组成,其中节点表示实体或概念,边代表两个实体或概念之间的语义关系,属性是一个键值对,每个实体或关系可以有一个或多个属性,为实体和关系提供信息。

图1 是一个知识图谱示例:其中,统计学习方法就是一个课程实体,李明是一个教师实体,工号是其属性,属性值是20171001,李华是一个学生实体。李明和统计学习方法之间的关系是授课,李华和统计学习方法之间的关系是选课。同时,知识图谱也可以描述各种概念之间的关系,例如研究生和学生的关系是概念和子概念之间的关系。

图1 知识图谱示例

2 本体与知识图谱的联系

知识图谱的构建过程如图2所示,其中包括息抽取、知识表示、知识融合、知识推理四个部分[8]。信息抽取是从结构化、半结构化和非结构化数据中通过自动化或者半自动化的技术抽取有价值的信息,其中包括实体抽取,语义类抽取,属性和属性值抽取,关系抽取;知识表示方法主要是以RDF的三元组来符号性描述实体间的关系,近年来采用深度学习技术将实体的语义信息表示为稠密低维实值向量的方法开始兴起[9]。对于本体和知识图谱的联系主要涉及知识融合和知识推理这两个部分。

图2 知识图谱体系架构

2.1 知识融合下二者的联系知识融合指将来自多个数据源的知识进行融合后集成到知识图谱中[10]。就逻辑结构而言,知识图谱可分为模式层与数据层,模式层构建在数据层之上。知识图谱的模式层通常采用本体库来保存,而数据层主要是采用图数据库来管理。知识融合阶段主要是对数据进行本体对齐和实体匹配。

本体对齐就是判断和处理来自不同本体的两个实体是否指向一致,达到数据的统一[11],发生在知识图谱的模式层,涉及的是模式层的融合,包括概念的合并,概念上下位关系合并,概念的属性定义合并。而实体匹配是为了发现来源于多个数据源而具有不同ID却代表同一对象的实体,将这些实体融合为一个具有全局唯一ID的实体,然后添加到知识图谱中,主要发生在数据层,更多涉及的是数据层的融合,匹配结果类型分为一对一,一对多和多对一3种。

由于知识图谱的构建为了保证模式层的可靠性,模式层基本上通过人工校验。因此,知识融合的主要任务是数据层的融合[12]。

2.2 知识推理下二者的联系知识推理是在现有知识图谱的基础上通过各种方法进一步挖掘隐含的知识、结论[13]或识别出知识图谱中错误的知识,从而丰富和拓展知识图谱,主要分为本体推理和规则推理[14],推理的对象不仅仅局限于实体层面还涉及本体库中概念的层次结构等。

基于本体的推理,体现在本体层面,主要是通过预定义的本体公理进行推理,例如对于性别男、女是交集为空的两个类,那么一定不会存在一个人的性别既是男又是女。基于自定义规则的推理,可以根据特定的场景制定规则,来实现自定义的推理过程。推理关系规则,定义父亲的母亲是祖母,已知a是b的父亲,b是c的母亲,则可以推出a是c的祖母。

3 本体与知识图谱的区别

对于本体和知识图谱表达的信息方面而言,本体表达的是领域内共同认可的概念和概念间的关系,它反映的是常识或相对恒定的知识,不具备情报价值。譬如,Wordnet[15]、Hownet[16]和Cyc[17]都是国内外主要的通用本体库,是由众多行业专家经过多年手工编制的结果,其知识具备稳定性而不具备情报性,通常知识图谱则是情报挖掘的结果[18]。知识图谱构建过程的知识抽取环节,从结构化、半结构化和非结构化的数据中进行信息抽取,形成知识存入知识图谱中。谷歌知识图谱中所涉及的实体、实体间的关系以及其他相关信息并不是相对恒定的知识,具有流动性。

对于自然语言理解而言,语义消歧是其中的基础问题,是研究热点也是研究难点。在句法知识或者单独的句法不能实现消歧的情况下,本体作为一个支撑性的知识,有助于实现语义区分,实现对语句的正确理解。比如,“他鸡吃了” 和 “鸡他吃了”,句法分析本身无法区分谁吃了谁。这种情况下,本体中的常识可以起到作用,因为在常识中,“鸡”通常是“人”的食物,这样就可以判断是“他”吃了“鸡”。语言理解之后的信息抽取,涉及哪些实体以及实体间的发生何种关系,都可以从知识图谱中得到。

对于结构而言,本体描述了知识图谱的模式层,提供对相关领域知识的共同理解,突出和强调概念以及概念之间的关联关系[19]。知识图谱则是在本体构建的模式层的基础上添加更多实体的信息,不断丰富和扩充。

4 总结

随着互联网、人工智能等行业的迅猛发展,本体和知识图谱作为重要的知识组织表达手段,不仅可以将海量数据表达成更接近人类认知现实世界的形式,还提供一种更好的组织、管理和利用信息的方式。加之,本体和知识图谱相辅相成的紧密关系,只有将二者共同发展强大才能满足人类对海量数据管理和利用的需求。

猜你喜欢
结构化本体图谱
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
眼睛是“本体”
绘一张成长图谱
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
补肾强身片UPLC指纹图谱
基于本体的机械产品工艺知识表示
主动对接你思维的知识图谱
专题