论GFO的基本框架及顶层本体比较研究

2015-11-05 20:52龙海朱彦
中国中医药图书情报 2015年5期
关键词:范畴顶层本体

龙海++朱彦

摘要:介绍顶层本体GFO(general formal ontology,通用形式化本体)的基本概念和框架,及其他3种主流顶层本体--SUMO(推荐上层合并本体)、DOLCE(语言学和认知工程的描述本体)、BFO(基本形式化本体)。并在总体架构和适用范围、对客观世界的理解等方面进行比较,对兼容性、结构化程度和可扩展性、成熟度及开放度等方面进行评估,认为GFO可以满足构建中医药领域本体上层框架的基本要求。

关键词:本体;顶层本体;通用形式化本体;中医药本体;推荐上层合并本体;语言学和认知工程的描述本体:基本形式化本体

近年来,本体学或本体论(Ontology)在信息系统领域中的研究和应用越来越普遍,其重要性在电子商务、语义网络、企业、信息集成、自然语言处理、知识工程、数据库等不同领域得到了日益广泛的承认和重视。一般来说,本体或本体论有两个方面的涵义。其最初的涵义是哲学层面上的,指一种研究世界本质的形而上学;其二是指在信息科学当中的本体学。按照Gruber提出的定义,本体是对某一可共享的概念模型的形式化的和明确的规范说明。

1 顶层本体的应用

按照本体的抽象化程度,本体一般可分为顶层本体、中间层本体、领域本体、任务本体、应用本体等。而顶层本体是高层的与某个特定领域或任务无关的本体,它通常只表达一些常识性概念和范畴,如时间、空间、对象、事件等。顶层本体具有普遍性和抽象性,它可以作为构建领域本体的基础,并且为不同系统提供一个共同的知识库(见表1)。利用顶层本体来构建领域本体,利用顶层本体中已有的概念集、规范的关系定义和公理定义,以及合理的逻辑结构,可以大大减少本体构建过程中的复杂性,省时省力;同时,通过遵循同样的标准规范,使得将来在不同本体或系统之间的映射和互操作变得容易。

中医药领域顶层本体不仅为中医药领域本体的构建提供指导框架,而且有利于实现中医药领域本体同其他领域本体之间的整合,是实现不同领域知识共享和互操作的基础。目前,关于中医药领域顶层本体的研究,基本都是参照SUMO(suggestedupper merged ontology,推荐上层合并本体)和西医领域的 UMLS (unified medical languagesystem,一体化医学语言系统)进行构建。然而,传统的中医学理论有着自己独特的体系架构,无论是它的知识背景、哲学起源,还是中医药术语的语义和语境,都与西医的知识体系有着极大的差异。如果按照西医理论去诠释中医药概念和术语,不顾及中医发展规律和特殊性,加之选择不当,很容易产生语义表达二义性等诸多问题。

2 GFO介绍

2.1 项目起源

GFO(general formal ontology,通用形式化本体)是目前可供构建领域本体所参考的主流顶层本体之一,由德国学者Heinrich Herre、Barbara Heller以及Onto-Med团队于20世纪90年代末创建。它的前身是基础本体的集成系统(integrated system of foundational ontologies,ISFO)的组成部分,而ISFO又是之前被称为GOL项目,即后来的关于本体的发展和应用的集成框架(integrated framework for the development andapplication of ontologies,IFDAO)的一部分。IFDAO是作为莱比锡大学信息学院(IFI)和莱大所属的医学信息统计学暨流行病学研究所(IMISE)于1999年联合创建的,它包括本体语言库、开发工具系统等一系列组件。该工具系统支持面向领域和一般本体的开发工作。

2.2 基本概念和框架

GFO致力于构建一个可以适用于所有领域的顶层本体,由3层元本体架构组成。(1)抽象顶层:包括集合(set)和条目(item),这两个原始元素(或称初始元素,urelement)作为唯一的元元范畴(meta-meta-categories)。(2)元层面(metalevel):是指基本层以上的元范畴(metacategories),又被称之为抽象核心层面(abstract-core-level),它从item中被推导出来,被分为范畴(category)和个体(individuals)。即本体当中的每一个事物或者是范畴,或者是个体。(3)由所有相关的GFO基本类别所组成的基本层面(basic-level),这个层面的谓词可以通过领域顶层连接公理与领域本体当中的范畴进行对接。见图1。

2.3 特点

GFO具有以下7个特点:(1)一方面,区分静态实体和动态实体;另一方面,它既包含对象(3D,指三维空间)也包含过程(4D,指三维空间加时间维),并且将两者整合进一个连贯一致的框架。为复杂的领域知识建模过程创造良好的可能性。(2)通过承认共相(universals)、概念(concepts)和符号结构(symbol structures)这些上层节点以及它们之间的相互关系,呈现一个多元范畴方式,具备更多的抽象性和兼容性。(3)包括现实的各个层次(stratum)与层面(level),比如物质层次、精神层次、社会层次,以及各层次之间的意识层面、化学层面、生物层面、性格层面、物理层面等。(4)通过本体映射和简约的原则支持不同领域本体之间互操作性。(5)提供形式化公理集,可以通过元逻辑方式加入到特定的领域本体中。(6)提供几个创新的本体模块,比如函数模块(function)和角色模块(role)。(7)可以支持各种领域本体或应用本体,首先是医学、生物学、生物医学领域,也包括经济学和社会学等众多领域。

3 其他常用顶层本体介绍

在本体学领域,近年来有不同的专家小组先后推出了各自的顶层本体,包括DOLCE (descriptiveontology for linguistic and cognitiveengineering,语言学和认知工程的描述本体)、SUMO、OpenCyc/ResearchCyc、GFO、BFO(basicformal ontology,基本形式化本体)等,拥有各自的理论表达和分类架构,它们的共生性和顶层处理方式在2006年3月的顶层本体峰会上都获得承认。

3.1 SUMO

这是由电气和电子工程师协会组织(IEEE)所属的标准上层本体(standard upper ontology,SUO)工作组创建的顶层本体(http://www.adampease. org/OP/.),合并了已有的几个顶层本体。最初创建它是为了满足在众多领域之间对实体或事件进行标准化的描述和词汇定义的需求。它由美国科学家Lan Niles和Adam Pease开发,现由技术知识公司(Teknowledge Corporation)进行维护。SUMO是一个轻量级的本体,它包括的概念和公理都是以一种能被大多数用户理解掌握的方式来表示(见图2)。其特点是致力于实现数据的互操作、信息检索、自动推理和自然语言处理;表示语言为SUO-KIF语言;可以按GNU公共许可协议提供联机浏览;概念完全公理化;与整个WordNet建立映射;具有多国语言生成模板;支持浏览和编辑的工具。作为一个大型的免费的形式化本体库(包括中间层和众多领域层本体),它共有约25 000条术语和约8000条公理。

3.2

DOLCE

最初设计DOLCE并不是作为可供候选的关于一般性或共相的标准本体,而是作为WonderWeb基础本体库中的一个可供参照的模块,致力于去捕捉在塑成自然语言和人类认识的过程当中的最基本的本体范畴。它所引入的范畴也被认为是认知的人造物,它们极端依赖于人类的感知能力、文化烙印以及社会习俗。因此,DOLCE倾向于将自己的范畴作为描述性的观念,即帮助已经形成的概念模型显式化,而不是去用某种形而上的方式去规定它们,特别是在语言学和认知工程学方面。DOLCE在本体设计架构中排除了一般性或共相这个实体,而是用殊相或特殊性(particular)作为它的根元素(见图3)。因此,它是一个采取特殊观的描述型本体。

3.3

BFO

BFO (http://ifomis. uni-saarland. delbfo/-)由美国学者Barry Smith和他的团队所创建,最初构建时部分采纳了DOLCE和SUMO的一些核心理念(见图4)。所不同的是,BFO的目标是致力于成为某些特定的科学研究的顶层本体框架,例如在开放的生物学本体工场(open biological ontologiesFoundry,OBO Foundry)框架里面的生物医学领域本体。因此,BFO并没有包括其他一些科学领域比如物理、化学、生物领域的术语。而OBO Foundry由超过60个的080本体所组成,这些本体的设计者都是遵循同样的设计原则来开发他们的本体。这些原则包括必须促进在广泛的080框架内的本体之间的互操作性;必须确保能逐渐改善这些本体的质量和形式化的精确性;对库操作的设计必须能满足在生物医学领域日益增长的数据和信息集成的需要。

另一方面,BFO的基本理论采取的是一种所谓基于实证的现实主义的世界观,这实际上是一种简单的两分法。它把世界大体分为:(1)共相和殊相;(2)连续体和事件体(continuant and occurrent); (3)相关的和非相关的(dependent and independent); (4)形式的和物质的(formal and material)。其中最主要的是连续体和事件体这两大范畴。BFO关于本体的核心理念可归纳为以下几点:(1)共相是与观察者无关的客观存在,它们反映的是现实的不变量(invariants);(2)所谓坏的本体,其常用术语缺乏与现实中的共相的对应联系,而只是强调与实例的对应关系;(3)所谓好的本体是现实的表示,所以它必须是建立在共相的基础上,而不是概念。

4比较和评估

4.1 总体架构和适用范围

对目前在领域本体建模时比较受推崇的SUMO来说,正如文献所言,虽然它和其他一些顶层本体和WordNet建立了映射关系,但它目前没有继续开发下去,而是处于一种维护模式。而且它本身的规模比较小,只有约1000个概念,是一个轻量级本体,将来在本体的应用方面会有局限性。与其他顶层本体相比,SUMO的组件更少一些。

在生物医学等领域作为080本体的参照本体的BFO,也不一定能适用于其他场合。BFO中最主要的两大范畴是连续体和事件体,两者各自独立,互不相干,这是一个二维平面型的顶层本体架构,这样的架构虽然便于理解,但在知识表达上有局限性。

而GFO是一个多层次、立体型的顶层本体架构,更适合于对知识的动态的分析和表达。特别是涉及到任何有关过程和变化的理解方面,GFO的思想和对于其概念的定义更为科学和合理。

4.2 对客观世界的理解

DOLCE、BFO和GFO三者侧重点不尽相同。DOLCE强调个体(殊相)的重要性,所以它的本体架构是一个关于殊相的本体,在它的体系中排除了共相这个范畴。BFO认为客观世界的真实性是通过共相即现实的不变量来体现的,所以它强调的是对共相的理解。而GFO采取的是一种相对折中的态度,即承认普遍性,也强调特殊性。而且GFO也反对BFO中提出的所谓基于实证的现实主义立场,Herre认为,Smith的观点中存在着一个理论盲点,即关于观点“所谓好的本体是现实的表示,所以它必须是建立在共相的基础上,而不是概念”的表述是有缺陷的,因为它没有一个关于现实表达(reality representation)的现成定义可用。这个缺陷如果不通过对概念的使用就无法弥补,即没有概念就没有对现实的表达。

4.3 概念模型

GFO提出了自己独特的时空观模型和过程模型,即通过建立时间边界(time boundary)和时间区间(time interval。或称时间体chronoid)这样的概念模式。假设两个时点相遇但不重合,timeboundaries coincide两个相邻接的不同过程在维护自身完整属性的同时,并不会相互混淆。类似的,GFO通过精确区分即时体(presential)和过程(process),既避免了DOLCE中关于瞬间的整体endurant和连续的整体perdurant概念含混的困境,也为认识论上历来的关于事物同一性的争议问题提出了一个完善的解决方案。

另外,表2基于开放度、结构化程度和可扩展性、成熟度、兼容性等评价指标及其他相关基本信息,对SUMO、DOCLE、BFO和GFO等4种顶层本体进行了比较和评价。

5 小结

本文介绍了顶层本体GFO的基本概念、框架及特点;然后从总体架构和适用范围、对客观世界的理解等方面,与其他主流顶层本体进行了比较,并对兼容性、结构化程度和可扩展性、成熟度及开放度等方面进行评估。在创建领域本体时,面对顶层本体的选择有多种选项,但是最能满足实际需要的才是最适合的。而GFO较好地满足了作为构建中医药领域本体上层框架的基本要求。以后将会针对中医药顶层本体的研究现状和难点,具体分析GFO在中医药顶层本体构建中的独特优势,进而提出基于GFO构建中医药顶层本体的思路和路线图。

猜你喜欢
范畴顶层本体
从顶层设计到落地实施
眼睛是“本体”
语文阅读教育中的三对重要范畴辨正
顶层住户的无奈——渗漏篇
一种新型水平移动式折叠手术床
亚里士多德的实体范畴观与认知语言学上的范畴等级结构
国企改革顶层设计
Care about the virtue moral education
陶艺范畴