龙海 贾李蓉 朱玲 朱彦
摘要:论述中医药顶层本体构建的必要性及研究现状,并探讨其构建的难点和复杂性.通过比较分析主流顶层本体的特点和区别,阐述了顶层本体GFO(general formal ontology,通用形式化本体)在中医药顶层(领域)本体的构建过程中的独特优势,并提出基于GFO构建中医药顶层本体的倡议,展望未来可能研究的思路和方向。
关键词:本体:顶层本体:通用形式化本体:中医药本体:中医药
中图分类号:R2-03 文献标识码:A 文章编号:2095-5707(2016)01-0015-06
近年来,对于传统中医药领域的顶层本体理论、知识库建模以及相关应用的研究工作开展得越来越多。如何以顶层本体为框架,来构建中医药领域本体,业内讨论也很多,但一直存在着一些不同的观点和看法,在基础理论、技术实现等方面都面临着一些难点有待突破。本文提出基于GFO(general formal ontology,通用形式化本体)构建中医药顶层本体的倡议,并展望未来可能的研究思路和方向。
1中医药顶层本体现状
1.1中医药顶层本体构建的必要性
传统的中医学理论有着独特的体系架构,其知识背景,无论是哲学起源,还是中医药术语的语义和语境,都与西医的知识体系有着极大的差异。如果按照西医理论去诠释中医药概念和术语,不顾及其发展规律和特殊性,在建立基于某个顶层本体的中医药本体知识库的时候,很容易产生语义表达的二义性的问题。另一方面,正如高成勉等所指出的,学术界在建设本体的过程中始终存在着一种“闭门造车,各自为战”的倾向,这种倾向对于知识共享和互通原则背道而驰,对于在构建本体过程中通向概念模型的形式化和规范化的目标也是极为不利的。所以,若以中医药领域的本体研究为出发点,并考虑现存于中医药学语言系统(TCMLS)中的有待解决或改进的热点问题,应很有必要对不同的顶层本体理论加以比较和讨论,从中甄别出最适合中医药领域的顶层本体模式,以便将来更好地构建中医药知识库的领域本体,使之更能适应和满足来自各个方面的实际需求,比如提升文献关键字的搜索效率或测试解决概念本身存在的歧义性问题。
1.2中医药顶层本体构建现状
在整个生物医学信息学领域中,一体化医学语言系统(UMLS)是最早建立的术语本体,其语义网络(semantic network,SN)框架被很多本体采纳为顶层的语义框架。但是由于该语义网络主要用于对不同来源的术语分类提供顶层的语义框架,没有遵循严格的本体原理来构建,也没有使用语义Web的标准格式OWL DL作为形式化的表达语言,在本体的共享、重用及逻辑推理能力上存在先天不足。现有的生物医学本体大都基于基本形式本体(basicformal ontology,BFO),并遵循开放的生物学本体工场(open biological ontologies foundry,OBOFoundry)框架来构建。OBO规定了一套本体构建和共享原则,能有效解决在不同的领域本体之间进行映射和本体复用。目前OBO本体集中了150多个本体,大部分是术语本体,如基因本体(gene ontology,GO)、解剖实体本体(anatomical entity ontology,AEO)等。但BFO是一个主要面向生物医学领域的顶层本体,在它创建的过程当中并没有考虑到中医药领域的特殊要求和实际需求,并且它的本体范畴的体系架构也相对简单,是一种二维平面型架构。而其他的顶层本体或多或少也存在这样的问题,这不利于对中医药领域的知识库进行本体建模。
在中医药领域,已有少数学者对顶层本体的构建进行了探索性研究。中国中医科学院中医药信息研究所开发的UTCMLS,借鉴本体论方法,对中医药概念、术语进行研究梳理与完善;借鉴UMLS方法,根据中医药语言特点,建立大型语料数据库及语义网络,将语言学与中医药学知识体系有机结合在一起。高成勉等提出构建中医顶层本体的原则及构建中医顶层本体时整合和取舍的方法,并基于顶层本体SUMO(suggested upper mergedontology,推荐上层合并本体)和中医药语言系统的语义网络框架,在中医顶层本体的构建上做出了初步探索。
在考虑采用某个顶层本体作为领域本体的上层框架时,需要考察其兼容性、结构化程度、形式化程度、成熟度及开放性程度等方面,以期达到更好地在领域内进行知识共享和重用的目的。正如高诚勉等指出,中医顶层本体必须包括一般科学的概念接口、一般生物医学的概念接口及中医的最高层的抽象概念。笔者通过对已有主流顶层本体进行比较分析,认为GFO较好地满足了上述要求。
2中医药顶层本体构建的复杂性和难点
2.1中医药学的复杂性
中医药学与中国传统文化有着密不可分的关系。一方面,中国古代哲学如阴阳五行、精气学说等,不仅奠定了中医理论的哲学基础,还直接构成了中医的理论和概念;中医学还受到儒、道、佛等哲学思想的影响。另一方面,中医药理论不但研究构成和维持人体生命活动的基本物质和运行模式,还包括人与外界环境(包括自然环境和社会环境)的统一性。中医药学不但涉及多个自然科学的学科(如天文、气象、地理、物候、数学等),还涉及相关的社会科学和人文科学。要建立中医药顶层本体,首先要划好边界,厘清与其他学科的关系;其次,还要对阴阳五行精气等哲学范畴进行本体化探索和表达;最后,还要兼顾自然、社会和人文三大领域。显然,这是需要多领域的相关专家相互配合、逐步完成的一项巨大工程。
2.2思维方式的本质差异
与西方基于实证主义、推理的方法不同,中国传统文化的主流是直觉认知,使用天人合一、整体观的思想来认识事物。中国人从整体上认识复杂事物,而不是把复杂事物分割成一个个单元来认识,找出这些基本单元的规律,再用逻辑通过这些基本单元推出整个复杂系统的规律。中国古代哲学对待物质本原与西方不同,不是向内寻找构成世界的物质元素,而在于研究物质世界表露于外的动态品性和行为功能,即所谓“象”。由此产生中医药理论之取类比象、整体观念、辨证论治等,都体现了这种思维方式。使用通用的形式化语言对中医独特的思维和观念进行表达,无疑是巨大的挑战。
2.3与其他本体的兼容问题
构建本体的主要目的是为了实现知识共享和重用,顶层本体的主要意义更在于此。目前,业内已构建了不少领域本体,但是还未出台相关标准。为适应本体交换时的规范化要求,在本体构建过程中需要参考大量本领域和其他领域本体的表示方法。即对中医药领域的顶层本体的构建而言,一方面,需要参考大量已有的下层领域本体,保证向下向后兼容,使得以后新建的下层领域本体能顺利继承和重用顶层本体,而已有的本体也能方便地进行重构,完成与顶层本体的映射;然而目前开放可获得的中医药领域本体非常少,将会给顶层本体的构建带来素材收集上的困难。另一方面,目前生物医学领域虽然已有大量可供参考的、成熟的、公开的本体,但由于其构建基础、思维和观念的差异,其参考价值大打折扣,要进行知识上的重用和映射则非常困难。
2.4本体构建具体操作中的困难
一方面,在概念和术语的捕获上,中医药领域存在的语义表达的多义性、模糊性更为普遍,带来了概念术语标准化上的困难;用自然语言描述时的多义性与用形式化语言描述的确定性之间需要平衡,需要领域专家对知识的准确理解和内涵外延的精确把握。另一方面,在概念体系构建方面,中医基础理论的概念体系是由阴阳、五行、脏象、经络、气血津液、体质、病因、养生、预防、治则和五运六气等组成,每一学说都有相对独立的概念体系,各种学说的概念之间的关系,尚未形成完整统一的清晰的层级化结构。相比较具体的领域本体,中医药顶层本体涉及的概念往往更为抽象,如气、阴阳等概念的内涵和外延在学界尚未达成共识。所以,中医药领域顶层本体的构建面临的困难和问题将更为复杂。
3 GFO的独特优势
3.1整合现实主义和多元文化认识论
据德国学者Heinrich Herrell31的观点,GFO顶层本体所主张的整合现实主义(integral realism)和张东荪主张的多元文化认识论(pluralisticepistemology。或称为多元交互主义,pluralisticinteractionism)在思想上是一脉相承的。即GFO是致力于建立一个博采中西之所长、兼收并蓄的顶层本体,这为将来的中西文化汇通及中西医的汇通提供了可能性。经归纳总结,两者至少具有以下3个方面的共同点。(1)都假设真实世界的存在是与主体无关的。(2)GFO主张物质(material)应该被理解成是某种结构而不是某种实质(essence),现实世界的某种物质对象可以被看作是一种随着时空产生的可变化的过程,在张氏的多元认识论中,这被称之为外界条理的连续性,在GFO中,被定义为在某个时间边界(time boundary)完整呈现出来的即时体(presential),作为某个持续体(persistant)的一个实例,也体现了张氏所主张的外界条理的原子性原则。(3)从认识论的观点,两者都主张对外在客观的认识应该从现实的不同层面来加以研究分析。GFO将某种特定范畴的元.范畴称之为本体层(ontological layer),分为层次(stratum)和层面(level)。层次分为物质层、精神层、社会层;层面是某个层次的一部分,分别是意识层面、生物层面、化学层面、人格层面及物理层面(见图1)。GFO认为,世界上的每个实体都参与到不同的层次和层面,人们对外界范畴的认识也发生在这些不同的层次和层面,这些层次和层面之间是相互作用和相互依赖的关系。这正好和张氏的多元交互主义遥相呼应,张氏主张知识来自于感相与格式以及设准等“合并的产物”,知识虽是“投外的造成者”(projective constructs),但它必有所据,所据被称之为“所与”(given),但是又不仅是由所据造成,而是另外有外部因素对它施加影响。张氏认为,知识又是与文化相互影响的,知识受到文化的限制。知识与文化每个层面里面又各自包含多个交互作用,其一是知识以内的感觉、知觉与概念及外在的架构四者互相影响;其二是文化后面的言语、逻辑、哲学及社会政治思想等四者互相影响(见图2)。由此也可以看出,两者在关于认识论方面的契合度是非常高的。笔者认为,一个具备多元或多层次认识理论的顶层本体,在实现跨学科和跨领域的兼容性方面无疑有着更好的适应性。
3.2 GFO“过程”本体性分析在中医药领域的建模优势
GFO的构建过程是汲取了中西方各家流派的思想,整合到一起,形成的独特的顶层本体理论。通过笔者对Heinrich Here教授的多次访谈和采访,归纳整理,GFO具备以下4个理论特点。(1)GFO的世界观(Weltanschanung)呈现是受到英国怀特海的有机哲学的很大影响。(2)逻辑方法论倾向于黑格尔的辩证法思想2.0版的GFO会尝试将阴阳(辨证)思想融合进去,进而实现东西方思辨哲学的理论统一,以解决传统的逻辑学所不能解决的一些理论难点。(3)时空观是采纳德国哲学家FranzBrenntano的观点,他认为时间不能做无限地划分(理解上类似于实数模型),而是假设两点能致密相连(理解上强调两点之间无空隙),即假设两个时间点可以同时发生但却又有所不同(coincidence或meeting),中间没有间隔,如此可以解决一些逻辑方面困扰已久的有关时空的悖论问题。(4)在形上学(本体论)和认识论方面则主要是受德国哲学家Nicolai Hartmann和波兰哲学家Roman Ingarden的影响。所以,从理论层面上来说,GFO作为一种顶层本体,无论是其世界观,还是方法论,在对其进行理解和诠释的时候,都与中医药学领域的知识有着某种天然的纽带关系。
当我们构建中医药学领域本体时,经常要考虑到对过程性的事件进行分析和描述,比如中草药的炮制、中医诊断等。这就要求其顶层本体必须具有完备的关于各种“事件”的描述和分类以供参考。这正是GFO独到之处。GFO是一个包含抽象范畴和个体(实例)的顶层本体,它既反映了事物的普遍性,也反映了事物的特殊性。在对客观世界的有关过程性的概念进行本体分析时,GFO当中的过程结构(processual 专门用来描述一切关.structure)于过程性(4D)的概念。在过程结构这个实体下面划分了发生体(occurent。或译作事件体)和过程(process)两大范畴,见图3。
其中,发生体包括几个可以由过程推导出来的主要范畴,例如历史(history)、事件(event)、变化(change),见图4。
而process下面被划分为连续的过程(continuous process)、
离散的过程(discrete process)、过程的角色(processualrole)、状态(state)等4个子类,见图5。
历史:
是一些由一个过程和众多即时体(presentials)所形成的过程结构,其中即时体是过程边界的组成部分。
变化:是一对过程边界,是一种结构,分为连续的变化和离散的变化。
连续的变化(continuous change):指的是某种过程当中发生的渐进式的变化(量变)。例如发炎的过程。
离散的变化(discrete change):指的是在某个重合的时间边界发生的变化(质变),它的前后两段有可识别的明显不同的范畴存在。例如一个学生的新学期注册过程,注册前非学生,注册后是学生。
过程:过程在时间里直接发生和展开,它的特征不能从它的某一时间边界上来理解,也就是说它具有内在的连贯性。
离散的过程:具有一个可以区分的离散变化和状态的变化部分。
连续的过程:能被刻画成一个具有连续变化和状态的过程,这些状态和变化可以投射到一个共同的参考范畴。
状态:一个过程是一个涉及到某种范畴的状态,且如果它的每一个过程边界都能实例化这个范畴。
复杂过程(conliguroid构型体):由不同的物质构造过程和属性过程所组成的整体。
通过以上分析比较得出,GFO顶层本体在中医药领域知识建模方面有着独特的优势,并且可以以该框架为基础,建立起关于中医药科学各个研究领域,特别是与过程相关的系统化的知识库模型。
3.3 GFO与其他生物医学领域本体的连接整合
GFO-Bio作为以GFO为基础的生物学顶层(核心)本体,致力于整合其他的生物学领域本体,它已经具有了2个现成的组件gfo-bio.owl和gfo-bio-meta.owl(后者是扩展组件)。一般而言,大多数生物领域本体,例如,BioTop和SBUO(分别由BFO和DOCLE所派生出来的生物核心本体)只包含一些简单范畴,即通过个体来实例化的范畴。而GFO具有前者所不具备的一些适用于生物学领域本体建模的高阶范畴,例如符号(symb01)和序列(sequence),而且还提供了一套现成的上层范畴系统,例如细胞、有机组织、植物、生物过程等,这些都可以供OBO本体对齐使用。另一方面,gfo-bio-meta.owl组件提供了一整套的方法,可以用于对生物医学领域的本体进行元一本体分析和分类。所以,将来或可参照GFO-Bio的2个组件来构建中医药领域本体,以及与其他知识领域本体的对齐和共享。
3.4团队优势
ONTO-MED研究团队一直致力于构建一个涵盖东西方科学领域和文化领域各个学科的、同时具备抽象性和兼容性的上层本体,这对于中医药领域而言具有重要意义。一般的上层本体,在它们构建过程中,并没有很好地考虑到主流学科之外的领域进行对接的可能性,例如中医药学和其他传统医学。如果将其强行套用在中医药领域中,会给本领域的本体研究和应用带来诸多不便和困扰。ON7O-MED研究团队所关注和从事的是在形式化本体领域当中的基础研究,为构建和管理本体设计形式化工具,开发上层本体以及关于医学、生物医学和生物学的领域本体和核心本体,这些开发也会涉及到其他领域。ONTO-MED团队运用的是一种跨学科的方式,并结合了逻辑学、计算机科学、哲学和认知语言学的各种方法,将形式化本体视为一门发展中的科学,其中涉及到系统化的可演化的公理化理论,可用来描述形式、结构,以及在抽象和颗粒度的不同层面上的存在模式。所以,将这种新的本体研究方法和技术结合到中医药科研当中,结合国内中医药领域众多专家的成功经验和最新研究进展,一定会结出更为丰硕的成果。
4展望
基于GFO构建中医药顶层本体,要重视以下3个方面的研究。
4.1顶层抽象概念的本体构建研究
针对中医药学与中国传统文化的密切关系,要划好边界、厘清与其他学科的关系,还要对阴阳五行精气等哲学范畴进行本体化探索和表达。
4.2对现有本体进行回顾与重构
对已建好的领域本体,尽量遵循GFO对现实世界建模的视角,重新进行审视,进行重构和整合。对于暂时不能完全纳入的,可以考虑先建立本体间的映射,以完成初步的知识共享和融合。
4.3与其他生物医学本体的映射与融合
目前生物医学领域已有大量成熟公开的本体,也存在一些投入应用的中医药领域本体,克服这些本体在构建基础、思维和观念上的差异,在某种程度上实现他们之间的映射和对齐,还有待于进一步研究和深入探讨。