基于顶级本体语义表达的领域本体构建实证研究

2014-09-27 12:33崔秀杰
现代情报 2014年7期

崔秀杰

〔摘要〕以清晰表达知识内涵、促进信息资源语义共享为目的,以卫生监督调查信息为研究案例,尝试利用顶级本体属性元素构建具有通用语义特征的领域本体。通过领域知识本体的构建实证,详尽阐述依托“七步法”构筑领域本体的方法,探讨使用领域术语构建本体知识表达的途径,实现了卫生监督调查信息知识的本体化,为该领域知识的信息资源语义整合提供研究基础。

〔关键词〕领域本体;卫生监督调查;本体构建

在大数据背景下的现代信息社会,信息孤岛严重影响了知识的获取效率,领域信息的语义共享在数据海量增长的今天已经变得迫在眉睫,而领域信息资源实现语义整合的主要保障是以本体为基础的知识组织。

由于领域本体在构建过程中缺乏统一的语义约束,大量的领域本体受限于不同的应用情况,出现不同程度的语义异构,影响领域本体间的联合应用,而这种领域知识的语义整合需求在大数据背景下几乎不可避免,因此,构建具有统一语义表达方式的领域本体可以做为解决语义异构、实现领域知识语义整合的一种新途径。

本研究以卫生监督调查信息为研究案例,以“全国卫生监督调查制度”为研究框架,利用顶级本体的通用属性尝试构建具有统一表达方式的领域知识本体,初步完成了领域信息资源语义整合的初级阶段工作,探讨领域信息资源语义整合的基础性问题,旨在探索促进信息共享和知识发现的有效途径。

1基本理论依据

领域本体主要应用于知识密集领域的信息表达,以提高数据信息的利用效率。在信息技术层面,本体可以用于信息抽取、信息检索以及信息系统互操作等方面[1]:在信息抽取技术上,一般通过本体来指导识别抽取实体及实体间的关系,从而提高抽取性能;在信息检索技术上,可以凭借本体良好的概念层次,通过各类逻辑推理等技术进行基于语义的信息检索[2];信息系统的互操作则通过本体明确规范的概念模型,保证信息系统协调的一致性,进而解决信息异构问题。

顶级本体(Upper-level Ontology)也被称为上层本体或顶层本体,是描述概念之间最普遍联系的知识体系。作为领域本体的参考依据,它揭示了领域知识在更高语义层次上的关系。从顶级本体的研究视角来看,比较知名的顶级本体如SUMO[3]、Cyc本体[4]等,都为用户提供了规模庞大的一般性知识框架,SUMO不涉及具体的领域知识,Cyc本体则包含大量的实例信息。目前这些项目的应用中较多涉及推理及查询,对于本体整合方面的应用研究较为鲜见[5]。目前,从结构化数据中归纳、构建本体的研究已经较为广泛[6],从非结构化数据中构建本体则仍面临较多挑战。

利用顶级本体的属性规则构建领域本体,可望从根本上解决不同领域本体之间的语义异构,从而促进领域本体互联互通。本例中选用的UMLS Semantic Network顶级本体,是一体化医学语言系统(UMLS,Unified Medical Language System)的主要组成部分之一。做为一种顶级本体,它通过建立一种基于语义类型和语义关系共同作用的规则,对UMLS系统中的海量超级叙词进行标引,以实现各个词表中的词汇互通,达到术语转换的目的。该本体的语义表达方式主要体现为其本身的语义属性,顶级本体的语义属性具有通用性特点,在W3C推荐的网络本体语言OWL中,属性主要包括对象属性和数据属性,与领域本体有所不同的是,作为表达通用知识的语义网络并不含有具体实例,也不表达属性的具体值,其所表达的类(即语义类型)之间的关系仅用对象属性就能进行解释,因此这里的属性集主要由对象属性构成,包括五大类48子类共54条,五大类分别是物理相关(physicallyrelatedto)、空间相关(spatiallyrelatedto)、功能相关(functionallyrelatedto)、时间相关(temporallyrelatedto)和概念相关(conceptuallyrelatedto)。

21领域知识来源

根据经典的七步法[7],领域本体的建立首先要明确专业领域和知识范畴,并考虑复用已知本体,已达到本体资源优化的目的。以本研究涉及的卫生监督调查信息为例,其知识主要源自《全国卫生监督调查制度》[8]所包含的21种专业调查信息卡。该调查采取信息报告的方式,通过计算机网络以及相关系统,建立高效的卫生监督信息体系,真实、准确、及时地收集汇总卫生监督工作信息。

其信息内容主要应用于3个方面。包括用于评价考核各级卫生行政部门和卫生监督机构的卫生监督业务工作情况,以及食品安全企业标准备案情况;各级卫生行政部门科学合理制定卫生监督工作计划和规划,按规定适时向社会和有关部门通报、反馈卫生监督统计分析信息;为各级政府制定公共卫生政策提供科学依据。

22领域知识分析

该调查信息以信息卡形式实时报送,信息内容涵盖各地公共场所、生活饮用水等8个专业被监督单位的基本信息及卫生监督执法情况,范围包括建设项目卫生审查信息、经常性卫生监督信息、卫生监督监测信息、被监督单位信息、案件查处信息、食品安全企业标准备案信息等6个方面,主要指标涉及到公共场所、生活饮用水等专业的被监督单位基本信息,建设项目卫生审查、经常性卫生监督、卫生监督监测等卫生管理情况,以及案件查处情况,食品安全企业标准备案情况。

“卫生监督调查信息”中的概念术语可依据21种调查信息卡分为六大类:第一类涉及建设项目信息,以1个信息卡作为知识来源;第二类涉及经常性卫生监督信息,以1个信息卡作为知识来源;第三类涉及涉及卫生监督监测信息,以1个信息卡作为知识来源;第四类涉及被监督单位信息,以8个信息卡作为知识来源;第五类涉及案件查处信息,以9个信息卡作为知识来源;第六类为食品安全企业标准备案信息,以1个信息卡作为知识来源。除了各信息卡的专项信息以外,还有一些通用的知识术语,如表号、制表机关、批准机关、批准文号及有效期等。对这些专项和通用信息以本体形式表示为一个知识体,才可以以语义的方式整合监督调查信息,并进行高级语义应用的研究以实现如卫生监督预警等智能化的信息资源利用形式。endprint

3领域本体的构建

31卫生监督调查信息本体的类与属性构建

本体的开发选用基于W3C推荐规范OWL 2语言的本体编辑系统Protégé最新版本43,相对于第一代OWL语言,OWL 2在语法的使用上更加简便,表达能力进一步提升。目前已有一些比较知名的领域本体推出了OWL 2版本[9]。

311类的构建

在本体的概念构成上,基于不同的任务驱动[10],或偏重于描述概念,或偏重于描述过程。本研究的领域知识来源主要是卫生监督信息,作为领域本体,减少了对通用知识的描述。本例将主要概念分为“卫生监督信息”、“单位(个人)信息”两大概念类共243条概念类。其中,“卫生监督信息”类下包括“卫生监督信息卡”、“卫生监督类型”、“专业类别”3个子类共174条概念类;“单位(个人)信息”类下包括“单位类别”、“单位名称”、“单位代码”、“单位法人”、“单位地址”、“建设项目”、“消毒用品”、“报告情况”8个子类共69条概念。

在本体的内容表达上,概念类的构建中严格按照知识来源的分类进行命名,但原分类中不同父类可能含有名称相同的子类,如“公共场所卫生”和“单位类别”中均含有相同的地点概念子类,但其所表达的含义却不同,这时需要将类名细化加以区分,以避免后续操作冲突。

312属性的构建

本例中引用并适当扩展顶级本体UMLS Semantic Network的属性关系,做为本领域本体的部分语义关系解释方式,主要包括对象属性、数据属性和注释属性。对象属性根据概念的关系需要进行设置,对于新关系的确立,主要以扩展顶级本体属性中的上下位属性的方式进行丰富后使用,如“消毒”可以扩展为上位属性“用于”的子属性,在对相应的定义域和值域做出限制后进行匹配。数据属性包括字符型、数字型、日期型数据属性,如数据属性“有效期至”,其定义域为“卫生监督信息卡”,值域为日期型数据。注释属性主要是对本体的类、属性、实例等的说明,在构建命名时添加。

32卫生监督调查信息本体的关系与实例构建

321定义互斥类与等价类

OWL 2语言通过类的Disjoint Classes与Equivalent Classes公理表达类之间的非继承层次关系,为本体推理提供依据。一般来说,同一父类的同级子类间是不相交的,然而这并不是必须的,例如,实例“华天酒店”既属于“宾馆”类,又属于“饭馆”类,因此不适用类的不相交公理。等价类同样用于声明类之间的关系为等价,例如,“简易程序”类等价于非“一般程序”类。

322对属性进行约束

可逆性约束:为了完善属性的逻辑表达,为所建立的属性添加逆属性,例如为属性“包含”加入逆属性“被包含”。此外,对称性约束用于表达属性主体之间的对称关系,传递性约束可以将属性的作用域进行延伸,全局函数性约束为领域本体内的通用属性。

323加入限制类并构建实例

这一过程是为了将属性与不同的类进行关联,通过为类添加对象限制形成的限制类,在内涵上等同于提取了该类的特征,例如“职业(放射)卫生技术机构监督案件查处信息卡”应具有“报告人”和“违法事实”等信息,并且该“违法事实”发生于某个“职业(放射)卫生技术机构”的特征。在初次限制类后,可利用逆属性将限制类补充完整。在概念类完成构建后,即可对其添加个体实例,本研究涉及的实例以各类卫生被监督单位为主,最后对实例进行属性关系的描述,如图1所示。图1“单位名称”类所属实例描述示意

324一致性检验与存储

经过上述步骤,“卫生监督调查信息”本体的内容已经基本构建完成。最后,需要使用推理机对本体进行一致性检验,这是由于本体构建过程中可能会出现关系冲突等情况,同时还可能存在一些潜在的实体关系尚待发现。本例使用Protégé 43集成的HermiT推理机进行推理,并未发现本体中存在语义冲突,但一些概念类所属实例的继承被推算出来,经过确认,这些推理结果予以采纳。图2显示了最终完成的本体。图2“卫生监督调查信息”本体

最后,需要将本体以RDF/XML语法存储,这是惟一一种可以被所有OWL 2工具所支持的语法形式[11],便于对现有本体进行调整和重用,其本体片段见图3。图3“卫生监督调查信息”本体RDF/XML语法片断

4结论及展望

通过本体编辑系统Protégé 43构建了卫生监督调查信息知识的OWL 2语言本体,详细阐述了基于顶级本体语义表达的领域本体构建过程,为领域信息资源整合打下良好基础。研究过程中出现的知识术语来源可靠;本体内容的表达依据专业领域的术语知识,RDF/XML的存储便于本体在不同环境下应用于不同目的,从而促进领域信息资源的有效整合,推进知识发现进程。

研究过程中还发现了一些问题,例如:(1)对于知识源内容中的非结构化文本信息,如果数据量庞大,则需要进一步的NLP技术对自然语言进行预处理,以便于本体元素的抽取。(2)一个语义精确的领域本体仍然需知识工程师与领域专家同时参与构建,如果本体规模较大,那么人力成本将大大增加。(3)Protégé系统仍然存在不足,如某些可视化插件不支持中文字符编码(如OWL Viz),导致中文本体无法图形化显示;某些推理机尚无法对数据型属性进行有效推理(如Protégé 43内建的FaCT++)。此外,“卫生监督调查信息”本体还需要进行大量的深入研究以应用于信息资源内容的语义整合。如多本体的映射匹配问题,以及用于知识发现的语义标注应用研究等。

参考文献

[1]徐静,孙坦,黄飞燕.近两年国外本体应用研究进展[J].图书馆建设,2008,(8):84-90.

[2]李晓鹏,颜端武,蔡金霞,等.利用本体资源标注实现站内检索语境导航[J].现代图书情报技术,2013,(3):8-13.endprint

[3]Suggested Upper Merged Ontology(SUMO)[EB/OL].http:∥www.ontology portal.org/,2013-03-08.

[4]OpenCyc for the Semantic[EB/OL].http:∥sw.opencyc.org/,2013-03-08.

[5]米杨,曹锦丹.顶级本体统控的多本体语义标注实证研究[J].现代图书情报技术,2012,(9):36-41.

[6]车成逸,马宗民,焦晓龙.基于结构化信息源的本体构建方法综述[J].计算机应用研究,2012,(7):2406-2410.

[7]Noy N F,McGuinnes D L.Ontology Development 101:A Guide to Creating Your First Ontology[R].Stanford Knowledge Systems Laboratory Technical Report KSL-01-05 and Stanford Medical Informatics Technical Report,2001.

[8]《全国卫生监督调查制度(2012版)》相关内容[EB/OL].http:∥www.gdwsjd.gov.cn/xzq/t2012102915281.htm,2013-12-05.

[9]Golbreich C,Grosjean J,Darmoni S J.The FMA in OWL 2[C]∥Proceedings of 13th Conference on Artificial Intelligence in Medicine(AIME 2011),Bled,Slovenia,2011:204-214.

[10]The Open Biological and Biomedical Ontologies[EB/OL].http:∥www.Obofoun-dry.org/,2012-09-08.

[11]OWL Web Ontology Language Parsing OWL in RDF/XML[EB/OL].http:∥www.w3.org/TR/owl-parsing/,2013-12-25.

(本文责任编辑:孙国雷)endprint

[3]Suggested Upper Merged Ontology(SUMO)[EB/OL].http:∥www.ontology portal.org/,2013-03-08.

[4]OpenCyc for the Semantic[EB/OL].http:∥sw.opencyc.org/,2013-03-08.

[5]米杨,曹锦丹.顶级本体统控的多本体语义标注实证研究[J].现代图书情报技术,2012,(9):36-41.

[6]车成逸,马宗民,焦晓龙.基于结构化信息源的本体构建方法综述[J].计算机应用研究,2012,(7):2406-2410.

[7]Noy N F,McGuinnes D L.Ontology Development 101:A Guide to Creating Your First Ontology[R].Stanford Knowledge Systems Laboratory Technical Report KSL-01-05 and Stanford Medical Informatics Technical Report,2001.

[8]《全国卫生监督调查制度(2012版)》相关内容[EB/OL].http:∥www.gdwsjd.gov.cn/xzq/t2012102915281.htm,2013-12-05.

[9]Golbreich C,Grosjean J,Darmoni S J.The FMA in OWL 2[C]∥Proceedings of 13th Conference on Artificial Intelligence in Medicine(AIME 2011),Bled,Slovenia,2011:204-214.

[10]The Open Biological and Biomedical Ontologies[EB/OL].http:∥www.Obofoun-dry.org/,2012-09-08.

[11]OWL Web Ontology Language Parsing OWL in RDF/XML[EB/OL].http:∥www.w3.org/TR/owl-parsing/,2013-12-25.

(本文责任编辑:孙国雷)endprint

[3]Suggested Upper Merged Ontology(SUMO)[EB/OL].http:∥www.ontology portal.org/,2013-03-08.

[4]OpenCyc for the Semantic[EB/OL].http:∥sw.opencyc.org/,2013-03-08.

[5]米杨,曹锦丹.顶级本体统控的多本体语义标注实证研究[J].现代图书情报技术,2012,(9):36-41.

[6]车成逸,马宗民,焦晓龙.基于结构化信息源的本体构建方法综述[J].计算机应用研究,2012,(7):2406-2410.

[7]Noy N F,McGuinnes D L.Ontology Development 101:A Guide to Creating Your First Ontology[R].Stanford Knowledge Systems Laboratory Technical Report KSL-01-05 and Stanford Medical Informatics Technical Report,2001.

[8]《全国卫生监督调查制度(2012版)》相关内容[EB/OL].http:∥www.gdwsjd.gov.cn/xzq/t2012102915281.htm,2013-12-05.

[9]Golbreich C,Grosjean J,Darmoni S J.The FMA in OWL 2[C]∥Proceedings of 13th Conference on Artificial Intelligence in Medicine(AIME 2011),Bled,Slovenia,2011:204-214.

[10]The Open Biological and Biomedical Ontologies[EB/OL].http:∥www.Obofoun-dry.org/,2012-09-08.

[11]OWL Web Ontology Language Parsing OWL in RDF/XML[EB/OL].http:∥www.w3.org/TR/owl-parsing/,2013-12-25.

(本文责任编辑:孙国雷)endprint