,,
“本体”一词最早出现在哲学领域,指事物的本源和本质。近年“本体”在人工智能、计算机语言以及数据库理论中起到越来越重要的作用,同时也引发信息工程、知识工程、图书情报等领域的关注和研究。在信息科学领域,最早给出Ontology定义的Neches等人认为,本体定义了组成主题领域的词汇表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延的规则[1]。可见,本体不仅表示术语概念,还能揭示语义关系,这对知识组织的发展具有重要意义。
中医源远流长,是我国传统文化的国粹,经络、穴位更是中医贡献给世人的无价之宝,经络、穴位在防病治病、保健养生方面的作用令人称奇。通过建立经穴本体,发现经络、穴位、病症之间的某种关联,既能为中医科学提供相关证据,也能体现本体知识组织的作用。经络、穴位、病症等主题的概念、术语比较成熟、清晰、明确,有利于本体词汇的搜集整理。本文选择经穴治疗领域,作为本体构建实验及知识组织增值测试的对象。通过构建经穴治疗领域本体,以及本体间语义关系推理和可视化展示,表现出经络、穴位和病症预防、治疗之间的相互关系,体现知识组织的价值。掌握构建领域本体基本方法(如语义关系的建立方法),测试本体构建后的扩展研究,检测能否通过语义关系对本体进行数据分析及相关专业研究,可实现知识组织的增值。
目前,领域本体构建有骨架法、评价法、METHONTOLOGY法、七步法、五步循环法等方法。本实验采用的是斯坦福大学医学院开发的七步法,分别是:确定本体的专业领域和范畴,考虑复用现有本体的可能性,列出本体中的重要术语,定义类和类的等级体系,定义类的属性,定义属性的分面,创建实例。本体构建的工具是支持owl语言的Protégé软件[2]。
本文以七步法为基础,结合其他本体构建方法的优点,最终确定经络治疗知识本体构建思路。具体实施分为前期分析调研、中期本体知识库建设、后期逻辑推理及可视化展示3部分。前期工作包括确定经穴治疗知识本体的专业领域,选择经穴治疗知识本体所需涉及的相关领域,考察现有与经穴治疗领域相关的可借鉴的本体系统,确定经穴治疗领域本体来源。中期工作主要是经穴治疗本体库的建设,具体包括5个步骤:在需求分析基础上,以经穴治疗相关研究文献为基础,明确经穴治疗知识本体的核心概念集;对核心概念集依照自顶向下的原则进行扩展,建立等级层次关系;定义本体的属性,包括对象类型属性和数值类型属性;定义属性的分面,主要是进一步定义属性值的类型、属性的定义域和值域以及属性之间限制关系、传递关系等;创建实例。后期主要是逻辑检测、推理和可视化,即在最后阶段用推理机制对该本体中的概念及实例进行一致性和冲突检测,以确保逻辑上的正确性。此外,为挖掘经穴治疗之间其他的隐性关系,可以利用本体系统中的推理功能,将隐含其中的知识显性化,发掘本体的知识增值功能。
建立经穴治疗领域本体,首先要明确经穴治疗的概念。所谓经穴治疗,是指通过对中医科学中的经络与穴位的刺激,达到保健、防病、治病效果的目的。经穴包括经络和穴位。经络是经脉与络脉的总称,意指周身气血运行的通道,是古人在长期生活保健和医疗实践中逐渐发现并形成理论的,以手、足三阴和三阳经以及任、督二脉为主体,网罗遍布全身的综合系统。经络内联五脏六腑,外布形体官窍、四肢百骸,沟通表里、上下、内外,将人体的各部分连接成有机的、与自然界密不可分的整体。穴位,俗称穴道,为人体脏腑经络气血输注出入的处所。它通过经络与脏腑密切相关,可反映各脏腑生理或病理的变化,也可接受各种刺激(如针、灸、按摩、电针、药物注射等),以调整各脏腑功能达到治疗的效果[3]。治疗是采取各种方法治愈疾病、保养身体,恢复健康,增强体质的过程。在经穴治疗本体构建中,本实验主要采取的是物理方法,不涉及药物、药材食用的方法。本实验中经穴治疗知识本体的领域分析有4个核心概念:经络、穴位、方法、疾病,运用到构建本体的protégé软件中即得出了本实验领域的4个大类。
明确领域分析和确定核心概念后,对现有与经穴治疗领域相关的本体系统、叙词系统、主题词表等进行调研。胡兆芹编写的《本体与知识组织》一书发现与医学有关的本体系统有UMLS(一体化医学语言系统)、TCMLS(中医药一体化语言系统)、CUMLS(中文一体化医学语言系统)。由于本实验是经穴治疗领域,因此更关注TCMLS和CUMLS。TCMLS是中医药一体化语言系统,由中国中医科学院中医药信息研究所建设,截至2006年共编录12 862个类,完成40余万词汇的收集与整理,11万概念词的编辑、定义、关联关系的建立。它含有126种语义类型、75种语义关系,是目前世界上最大的传统医药本体[4]。
CUMLS是2000年中国医学科学院医学信息研究所创建的知识组织系统,由医学词表、语义网、构建工具和平台组成。医学词表主要来源于《医学主题词表(中文版)》(MeSH中文版)《中国中医药学主题词表》《中国图书馆分类法·医学专业分类表》等,共收录医学主题词3万余条、医学术语10万余条、医学词汇素材30余万条,融合了自然语言、主题语言和分类语言等情报语言[5]。
本实验中出现的本体概念主要采用TCMLS和CUMLS。但词表仅是本体概念的一个来源,还有一些病例、病案、以及理论文献、图书期刊也是经穴治疗领域知识本体建设的补充。因此,本实验参考了《中医养生大辞典》《黄帝内经经络养生宝典》《黄帝内经中的经络养生》《全身经络速查手册》等中医药文献、百科全书、百度百科,并通过CNKI以“穴位治疗”“穴位疗法”等关键词,共检出355篇论文。通过人工抽词、筛选,也获得了一些本实验需要的本体概念。
本实验的领域本体知识库采用的是protégé软件,需要遵循类、对象属性、数据属性、属性约束等规则,构建步骤分为类和类的层次体系的构建、类的属性的构建、实例创建等。
经穴治疗领域本体的类主要为经络、穴位、疾病、方法。除了superclasses(父类)之外,还有子类、兄弟类等。因此,我们要在4个superclasses(父类)的基础上,进一步进行概念分析,列出子类、兄弟类等概念,确定本实验本体库的类及其层次体系。
在经络体系中,经络是经脉和络脉的总称。经指经脉,犹如直通的径路,是经络系统中的主干;络指络脉,犹如网络,是经脉的细小分支。经在深部,络在浅表。经络包括十二经脉、奇经八脉、十二经别、十二经筋、十五络脉[5]。十二经脉是经络系统的主题,也称为正经;奇经八脉的“奇”有“异”的意思,是指与十二经脉不同而“别道奇行”的八条经脉,包括任脉、督脉、冲脉、带脉、阴跷脉、阳跷脉、阴维脉、阳维脉;十二经别是十二经脉在胸、腹及头部的重要支脉,沟通脏腑,加强表里经的联系;十二经筋均起始于四肢末端,结聚于关节、骨骼部,走向躯干头面,即行于体表,不入内脏;十五络脉,是十二经脉在四肢以及躯干前、后、侧三部的重要支脉,起沟通表里和渗灌气血的作用。由于穴位主要存在于十二经脉和奇经八脉上,所以本实验中经络大类只选用了十二经脉与奇经八脉两个子类(subclass)。
穴位,也叫腧穴,分为经穴和经外穴两大类。根据我国国家标准GB12346-90《经穴部位》,人体共有361个经穴、48个经外穴[6]。分布在十二经络和奇经八脉的任脉和督脉上的穴位,称为经穴,共有361处,经穴和经外穴总共为409处。在穴位这一父类中,由于主要是个体,所以穴位是唯一没有子类、只有个体的大类。
疾病,是指在一定病因作用下身体调节功能紊乱而发生的异常生命活动过程,以及由病因引发一系列代谢、功能、结构的变化,表现为症状、体征和行为的异常[7]。对于疾病的分类,有中医和西医两大医疗体系。本实验设计的“经穴治疗”“经络”“穴位”的概念体系源自中医,本实验中所说的“疾病”对应的是中医范畴内的疾病。因此,本实验在疾病本体的选择上,主要以《中国分类主题词表》中“R25/278 中医各科及中医急症学”中关于中医各类病症的主题词为主,并加入了各医科图书、论文、医案等资料中出现的病症及相关说法。作为“疾病”的子类,主要有中医内科学、中医外科学、中医妇产科学、中医儿科学、中医肿瘤科学、中医骨伤科学、中医皮肤科学与性病学、中医泌尿学、中医神经病学与精神病学九类[8]。由于有些类需要细分,特将“疾病”体系列成下表,具体如图1所示。
图1 经穴治疗领域本体疾病类别体系框架
方法,主要是指对经络穴位使用的方法,主要包括针法、灸法、推拿、按摩、拔罐。各种外治方法中还分各种类别,例如拔罐按照罐的材质还可以细分为竹管罐、玻璃罐、土罐等拔罐方法,但作为实验性研究,只取以上5种大类方法,不作细分。
根据上述类别概念以及类的层次体系的划分,在protégé中进行建设,如图2所示。
图2 经穴治疗领域本体疾病类别体系
建立上述类别与类的层级关系后,对类的属性进行定义。类的属性多种多样,protégé中最常见的属性有对象属性和数据属性,还包括subproperty和annotation。
3.2.1 类的对象属性
对象属性(object property)是类的重要属性,对象属性也叫关系属性,一般连接两个个体(实例),是本体具有语义关系的关键。由于对象属性的关联,使得不同的本体之间有了关系,因此对象属性也可以称为外部属性。
在本实验中,对象属性的确定主要是通过各类之间的实际关系,以及参照相关中医本体建设的语义关系,具体确定为以下四组。经络与穴位是“拥有”和“存在于”的关系,方法与穴位之间是“作用”与“使用”的关系,穴位与疾病之间是“使用”与“对应”的关系,经络与疾病之间是“影响”与“被影响”的关系。同时,这四对类间关系为互逆(inverse)关系。
在四大类八个关系中,穴位类是高频类,与其他三个类都有语义关系;其次是疾病和经络类,这两大类都分别与两个类别产生联系;低频类是方法类,只与穴位类产生联系。
在软件中设置对象属性时,对属性的定义域和值域要进行限定。本实验中8个对象属性对应的定义域和值域如表1所示。
表1 经穴治疗领域本体对象属性
3.2.2 类的数据属性
概念(类)的数据属性(datatype property)即概念(类)自身所拥有的特征。如果一个概念(类)拥有某种属性,则这个概念(类)的子类及其实例均有此种属性。数据属性也成为内部属性。在进行属性构建时,应对拥有某种属性的最大的类添加数据属性并给予赋值。
protégé是在JAVA环境下运行的,所以对于类的数据属性的值也是与JAVA数据类型相符的。主要包括整数类型、字符类型、浮点类型、逻辑类型,选项值为byte,short,int,long,char,string,float,double,boolean等。
在本实验中添加数据属性时,由于类别的数据属性均为名称,属于字符类型,所以数据属性的确定比较简便单一。具体赋值如表2所示。
3.2.3 属性约束
属性约束主要是为属性添加限制条件,定义了类和类的属性后,就根据具体情况为这些类和属性添加属性约束。由于protégé的版本不同,属性约束也不同。Protege4.1主要的属性约束包括两种:第一种是定义被约束属性的属性值类型,即对数据属性赋予属性值,其中常见的赋值类型有int,boolean,byte,datatime,decimal,string,float,double等;第二种属性约束可以定义被约束属性的取值方式,如在创建对象限制,选择对象属性与类进行对应时,出现的some,only,min,max,exactly等限制类型。
表2 经穴治疗领域本体数据属性表
添加实例是本体开发过程中工作量较为繁重的一部分,需将经穴治疗领域中专有名词按照类进行标引并提取出来。通过软件工具与人工评估取舍的方法,最终确定了721个实例,包括穴位名称409个,病例名称293个。整个经穴本体库需要输入的类和实例数量如表3所示。本实验使用protégé将所有实例概念添加到每一个类及其子类中,并在实例编辑界面直接添加每个实例的属性关系,让实例与实例之间建立语义关系。
表3 经穴治疗领域本体类别、实例数量
Protégé作为本体建设软件平台的优点在于方便检索、推理和可视化展示。本实验在进行完大类建设、属性建设及实例输入后,经穴治疗本体建设的前期工作基本完成。然后要实现本体建设的目的,发现经络、穴位与疾病之间的密切关系,验证本体建设的知识增值。为了保证可视化展示的效果,仅选用“流涕”和“咳嗽”两种疾病作为检索词进行展示。
例如在检索框中输入“流涕”,结果如图3所示。展开“大椎”,出现与“大椎”有关的疾病“咳嗽”“大椎”及所属的脉络“督脉”“大椎”所使用的方法“艾灸”等。通过语义相关,证明了大椎穴不仅能治疗流涕,还能治疗咳嗽,如图4所示。然后将各个类的层次再往下展开,会发现在各个本体概念之间的关系已全部建立,如图5所示。
由于只选取了与“流涕”和“咳嗽”相关的概念,所以其他本体概念没有显示。图5中带箭头的实线表示类别之间的关系,带箭头的虚线表示的是关系属性。
语义关系的揭示是本体建设的重点。通过实验和图示结果可推论出多种语义关系,发现经穴治疗中的相关关联,为中医经穴治疗提供一定的数据支持。例如,通过按摩属于“足太阳膀胱经”的“风门”“肺俞”能治疗“咳嗽”,通过艾灸督脉的大椎能治疗咳嗽与流涕,按摩手太阴肺经的“鱼际”能治疗咳嗽,按摩“足太阳膀胱经”对肺系疾病及咳嗽也能产生影响。
通过图中的直线与虚线,我们能通过数据统计分析哪个概念是高频词汇。例如在本实验中“大椎”的关系线就多于“风门”与“肺俞”,说明“大椎”在这个本体框架中属于活跃词汇、高频词汇。同时,这种高频词汇的统计,能够对中医穴位研究提供新的角度。例如通过对“足太阳膀胱经”上穴位的统计,发现经络上的“风门”和“肺俞”的穴位数多于“手太阴肺经”上的穴位数,可见“足太阳膀胱经”穴位对“咳嗽”的影响也很大。这打破了人类常识中的“肺系疾病”只与“手太阴肺经”相关联的印象,为治疗“咳嗽”疾病提供了新的角度。
图3 经穴治疗领域本体实验初期展示
图4 经穴治疗领域本体实验中期展示
图5 经穴治疗领域本体实验结果展示
领域本体是领域概念及概念间详细关系的一种形式化描述,是语义网发展的重要基础[9]。从知识组织角度来看,领域本体的建设为知识组织的规范化、语义化提供了可能,特别是protégé软件的可视化展示与检索,让人们更加直观地体验了本体的语义化展示。本实验通过经穴治疗领域本体的建设,探索了本体建设的具体步骤,并且通过语义分析、本体概念统计分析等方法,实现了本体建设的知识增值。
与传统的知识组织方法比较,本体构建在知识组织方面具有以下特点。一是范围广:由于各种关系的增加,语义外延的扩大,相同词汇下知识量大于各种叙词表的词汇;二是层次深:本体在概念揭示上,比元词、主题词、关键词等更灵活,不拘泥于词汇的外在形式,更关注于词汇内在含义,因此在概念深度方面比其他词汇要深;三是关联度强:本体构建最大的特点就是语义间的关联,关系属性在不同本体之间的建立,使得本体拥有了复杂的语义关系,实现了知识组织的增值;四是扩展性强:本体构建使用的protégé软件可以将建成的本体,生成owl或者rdf格式,方便构建好的本体在语义网或者其他数据网站上使用,实现数据间的关联。
总之,知识领域本体的构建,实现了知识组织从形式到内容、到语义关系的不断突破。借助互联网技术,本体成为语义网建设的核心和关键。形式化、标准化的领域本体为信息系统之间的互操作提供了良好的工具[10],对本体形式化的应用也将成为知识组织研究领域的下一个目标。