面向天文领域的本体设计与实现初探*

2016-10-27 01:48张海龙艾力玉苏甫托乎提努尔
天文研究与技术 2016年4期
关键词:天文本体检索

王 杰,张海龙,艾力·玉苏甫,托乎提努尔

(1. 中国科学院新疆天文台,新疆 乌鲁木齐 830011;2. 中国科学院大学,北京 100049;3. 中国科学院射电天文重点实验室,江苏 南京 210008)



面向天文领域的本体设计与实现初探*

王杰1,2,张海龙1,3,艾力·玉苏甫1,3,托乎提努尔1,2

(1. 中国科学院新疆天文台,新疆 乌鲁木齐830011;2. 中国科学院大学,北京100049;3. 中国科学院射电天文重点实验室,江苏 南京210008)

针对天文领域的实际情况,提出了一套面向天文领域的本体构建方法。通过确定核心类,建立了类的层次结构,定义类的属性,创建实例以及对领域本体进行建模的过程,完成了天文领域本体的初步设计。采用开源的protégé本体编辑软件构建了天文领域本体模型,详细说明了天文领域本体构建的全过程并描述了类、类的属性及类与类之间关系的定义,为天文领域的应用积累经验。

领域本体;天文信息学;本体构建;SKE; Protégé

随着中国科学院专业领域知识环境(Subject Knowledge Environment, SKE)的成功开发与应用,科研信息环境发生了巨大的变化。专业领域知识环境是面向科研前沿,为在科学研究的整个过程中管理和利用各类科技信息资源提供支持而开发的平台。专业领域知识环境的核心技术是基于本体的系统架构,在专业领域知识环境的整体构架以及知识的发布、组织、发现等过程中贯穿了本体技术[1]。近年来,领域本体得到了广大科研人员和科技工作者的共同关注,在建设高水平和具有良好可扩展性的天文学科研信息系统、探索和认识天文学研究规律的过程中,研究天文领域本体的构建有非常重要的意义。本文初步探讨天文领域的本体构建方法及步骤。

1 领域本体

1.1领域本体概述

本体是一个哲学范畴,抽象的客观现实是其本质属性,它主要作用于研究各种事物以及代表事物范畴的形式、特性等方面,并能对事物及其范畴进行分类,建立起相关规范。本体是共享概念模型形式化的规范说明,具有一定的确定性。在近几年的发展中,主要关注于知识工程、语义网、人工智能等领域,也在解决通信、系统工程以及异构环境的互操作中得到了广泛应用。目前在e-Science虚拟科研环境中,基于本体技术的知识组织体系广泛应用于知识检索、知识发现和信息抽取等方面[2]。在此提及的领域本体是对特定领域内概念及概念之间关系的精确描述。

1.2领域本体的构建方法

本体是以实现一定程度的知识共享和重用为主要研究目标。本体论的构建方法主要有以下两种:第一种是本体工程法,它是站在知识工程的角度讨论本体构建方法;另一种是变换法,用来直接讨论如何利用现有资源映射到主体。前者的主要特点是按照设定的标准和规范建立本体。对于一般的系统而言,它突出了本体建设的共享性和重用性,也为不同的系统提供了一种统一的语言。而构建本体应遵循格鲁伯提出的原则,即客观性、明确性、完整性、一致性、可扩展性和最小承诺。目前,国内外常见的本体构建方法有7种:IDEF-5法、骨架法、SENSUS法、TOVE法、 七步法、KACTUS工程法、METHONTOLOGY法[3]。但领域本体的构建方法尚没有一套标准的、规范的指南。本文构建的领域本体遵循以下方法。

(1)明确研究范围。明确领域本体的研究范围是构建领域本体的首要任务,表述概念知识的内容时应满足其有效性、确定性等特性,研究范围内概念项的涵义应表达准确,在构建的过程中应使用标准术语。

(2)确定核心概念。核心概念的确定包括:领域本体重要的概念项的识别、各概念的属性和概念之间关系的确定、领域本体结构模型的确定等。建立领域本体的核心概念主要有3种方法:自顶向下法、中间开始法和自底向上法。在识别概念时列出选定的术语,对各个术语用自然语言进行描述,即可全方位掌握领域本体的概念。当领域边界不清楚时,需用程度区分确定。

(3)创建类的层次结构。创建领域本体最关键的一步是创建类的层次结构。创建时需要选取一个关键术语,然后将超出类领域范围的术语排除。

(4)定义类的属性。类的属性包括以下两种:描述类自身的属性和描述类与类之间关系的属性。其中描述类自身属性的有:固有属性、外部属性和组成部分。描述类与类之间关系的属性是通过设置属性定义域及值域来确定类之间的关系。

(5)实例创建。实例是领域中人们感兴趣的事物,也被称为个体。需要对上述类进行实例化,用于提高检索的查准率和查全率。

(6)本体建模。良好的建模工具对本体的设计和开发起到了关键作用。国外的本体建模工具有Protégé、OntoEdit、Ontolingua、WebODE、OntoSaurus等,它们能自动生成多种形式各异的本体语言。

(7)完成与评价。从领域本体的角度出发,主要对类、关系、属性、实例和公理论的建立方法以及本体的整体构建进行评价。评价的指标有:整体结构的清晰性、概念术语的无歧义性、类与类关系的一致性、概念的完整性及可扩展性[4-5]。

2 天文领域本体的研究意义

天文领域本体属于天文信息学的一项研究内容,也属于虚拟天文台[6-7]元数据服务的一项研究内容。它的研究有利于全方位地获得知识,并将其分析和加以利用,使得类和类之间的关系能形式化地描述,实现类之间的各种规律和联系,是有效组织、管理天文学科领域的知识资源,表达与揭示天文学的知识内容,提取与组织天文学知识单元,揭示天文信息的内外在知识关系,从而提高天文数据的检索效率。天文领域本体加强了知识共享和知识重用的可能性,从而使各种相同或者不同的天文知识系统之间的知识共享、互操作和知识重用得以实现,避免重复性的工作。

3 天文领域本体设计

3.1领域本体的构成

领域本体由五大部分组成,它们分别是:类、属性、实例、关系和公理。其构建方法应当遵循明确性、客观性、连贯性、可扩展性、层次性和可交互性等基本原则。天文是一种复杂和庞大的科学体系,而其中的每一个研究方向也非常复杂,因此天文领域本体的构建是一项巨大的工程。构建本体的目的是支持天文领域内的数据检索和知识发现,天文领域本体的构成见图1。

图1天文领域本体的构成

Fig.1The architecture of the domain-specific ontology of astronomy

天文领域本体的核心概念[8]主要有(共8个):天文研究目标、天文相关理论、天文工作者、观测手段、天文相关文献、天文研究机构、天文软件、天文热点。它们之间相互联系,共同构成了天文领域本体。例如,关注某些 “天文热点” 的 “天文工作者” 隶属于 “天文研究机构”,通过 “天文观测手段” 来探索 “天文研究目标”,所获得的观测数据通过 “天文软件” 处理,再结合 “天文相关理论” 进行研究,得到的科研成果转化为 “天文相关文献”,最后完成了整个研究过程。因此,本文主要将天文领域本体划分为这8个核心概念。

3.2类的层次结构

类是概念表达的基础,因此 “概念” 也是类的一种提法。网络本体语言(Web Ontology Language, WOL)的类是由一组实例构成,它可以通过形式化的数学语言精确地描述类成员的特性。类是由层次结构分类构成,其中包括了超类和子类两种,子类能继承超类的所有性质。超类-子类关系可以被推理机自动调用,是本体语言的关键特性之一。因此,定义一个合理的类层次结构有重要意义。天文领域类的结构见图2。因为天文领域是一个复杂而又庞大的科学体系,应该由众多的类组成,但限于篇幅,该结构中只列出了部分具有代表性的类。

图2天文领域类的分层结构

Fig.2The class hierarchy of the domain-specific ontology of astronomy

4 基于protégé的天文领域本体构建

Protégé软件是斯坦福大学开发的本体编辑和知识获取软件,是一款开放源代码的软件。其核心是一组丰富的知识建模结构,以多种形式对本体的创建和可视化提供支持。Protégé主要用于语义网中本体的构建,是语义网中本体构建的核心开发工具。该平台以Protégé-Frames编辑器和Protégé-OWL编辑器两种主要方式构建本体。其中Protégé-Frames编辑器以框架的方式对本体进行创建和移植,其操作符合开放知识库连接(Open Knowledge Base Connectivity, OKBC)协议。Protégé-OWL编辑器使用W3C制定的网络本体语言基于语义网等应用开发本体。

图3为Protégé本体编辑界面,在左侧天文领域本体的树状层次结构清晰明了,用户对构建的本体结构一目了然,能够很快速地实现概念、属性等的增删改操作。

图3protégé软件的本体编辑界面

Fig.3The interface of ontology editing of protégé

例如建立 “天文工作者” 的子类,如果有相应的子类还可以继续建立。在建立完子类后,可以新建一个Object Property,对property标签进行选择,并且选中Transitive。之后在定义域Domain中可以对定义了该属性的主体再定义一个子属性。根据类定义的概念,在定义核心类之后,所有的属性都可以用来判断一个类是否具有某种成分的功能。在选择某一属性时,选择has Base即可实现上述功能。在定义数值属性时,需要确定该属性属于哪个类,例如 “姓名”、“项目名称”、“经费”、“参加工作的时间” 的定义域是 “天文工作者”,其中 “姓名”、“项目名称” 的数据类型设为string型,“经费” 的数据类型设为float型,“参加工作的时间” 设为data型等,其它子类的建立方法依次类推。总之,用protégé软件对本体进行编辑时,应注意以下几点:领域本体形式化描述的可扩展性;明确领域本体与本体分层模型之间的映射关系;类与类之间的关系;明确使用实例的性能及性能的扩展。

在天文领域本体中提取本体间的关系可用Jena开发包。图4为Jena开发包的开发流程。

图4Jena的流程图

Fig.4The flowchart of Jena

加载天文领域本体模型,主要目的是在后续推理中应用该领域本体。此处,加载本体模型可以使用model.read()方法得以实现。主要代码段如下:

FileInputStream file = new FileStream(filePath); //其中的filePath为天文领域本体的保存路径

InputStreamReader in = new InputStreamReader(file,“UTF-8”);

model = ModelFactory.creatOntologyModel();

model, read(in,null);

而Jena加载网络本体语言时,是从指定的文件把模型读取到内存中,在ModelFactory中创建Ontmodel.主要代码如下:

OntModel m = ModelFactory.creatOntologyModel();

File astroFile = …;

m.read(new FileInputStream(astroFile), “ ”); //astroFile为网络本体语言的存储路径

在上述本体构建完成后,选择OntoGraf标签。OntoGraf是protégé软件自带的本体可视化工具,用户可以通过它查看图形化本体模型,支持交互式地查看网络本体语言的本体关系,并支持本体结构的自动组织。将类和类的属性成功添加在本体中,可在该标签下查看完整的关系图。在图中,方框代表类,实线代表类的从属关系。图5为天文领域本体类层次的图形化结构。

图5天文领域本体类层次结构的可视化

Fig.5The visual class hierarchy of the domain-specific ontology of astronomy

在该图中选中某一个类时,将显示此类定义的所有相关信息。需要特别说明:类需要逐个添加,双击类结构中的类名(也可以双击类的节点),系统将自动展开该类的子类,但在类较多的情况下,展开类节点会导致生成的图比较混乱,此时需要手动进行编辑逐一理顺,生成一个美观的可视化结构图。

天文领域本体的类、属性等构建完毕后还需建立实例。实例的建立需要用Individuals编辑器,在左侧的树状结构图中选择要建立的实例概念,右侧框内编辑各种属性及其关系。

5 天文领域本体应用实例

基于构建的天文领域本体开发设计了天文知识库,为使用者提供相关天文信息检索服务。该知识库的网络本体语言解析推理采用Jena 2.6.3和内嵌推理机Pellet 2.2.1,使用DOM4J做为XML文件的解析。主要设计实现了文献、术语等查询和语义检索功能。功能模块采用的关键技术是采用Jena API对网络本体语言的本体文件进行语义解析,获取本体信息并将这些信息存入相应的数据结构,按导航树的结构输出相应的本体概念信息,对检索语句进行分词处理,完成网络本体语言的推理。知识库的首页如图6,知识库的组织机构界面如图7。

图6天文知识库首页

Fig.6The homepage of the Astronomical Knowledge Base

天文知识库检索参数的说明:

* 构建表达式:每次构建一个检索词的表达式。

* 关系选择:逻辑运算符 “AND”、“OR” 和 “NOT” 构建包含多个检索词的表达式。

* 全部字段(下拉框):内含“全部字段”、“标题”、“作者”、“第一作者”、“研究机构”、“文献来源”,用户根据需要选择。

* 智能检索:自动实现检索词及其同义词的同步扩展检索。

* 精确检索:若不选 “智能检索” 即为 “精确检索”,是检索结果等同于检索词的一种检索,适用于作者、文献来源等字段。

图7组织机构界面

Fig.7The organization interface

6 总 结

本文根据本体构建的七步法对基于网络应用的天文领域本体进行构建。该本体将天文领域知识概念词汇的检索意义及类之间的关系通过本体库展现。同时,推理引擎(是包括公理和规则的集合)的使用更好地实现了天文领域本体的推理,针对获取信息的需求选择相应规则,并将推理引擎有效地与本体库相结合。借助RacerPro推理机等逻辑推理软件进行新知识的推理和逻辑性检验,使该本体构建的过程反复迭代,通过新增词汇或术语使天文领域本体的实用性和新颖性得以保证。由于天文领域本体中存在大量的概念和对象,要在短时间内将天文领域本体建立起来是很不现实的,需要在软件工程的迭代处理后逐步完善现有的天文本体模型。

天文领域拥有庞大的知识体系,其中包含的研究方向也纷繁复杂,若要构建一个完备的天文领域本体是一项艰巨的任务,也是一项巨大的工程,需要投入很大的精力发掘该领域本体的每个类节点,找出类与类之间存在的关系。鉴于作者水平所限以及对领域知识了解不够,本文构建的本体在规模、深度上都比较简单,所建立的本体,仅仅描述了该领域的一部分特征,本体的领域范围和深度都有待扩展;本文所建立的天文知识库目前只实现了基本的检索、推理功能,更复杂的功能有待完善。后续还需要继续扩展和完善新的类以及类与类之间的关系,使知识体系更加完善,并最终建成动态开放、实时更新、全面共享的本体。后续的工作将建立在现有领域本体的基础上,不断进行新知识的推理和研究,使天文领域本体的体系不断壮大并趋于完善。

致谢:本文的算法及调试工作在新疆天文台Taurus高性能计算平台上实现。

[1]宋文, 黄金霞, 刘毅, 等. 面向知识发现的SKE关键技术及服务[J]. 现代图书情报技术, 2012(7-8): 13-18.

Song Wen, Huang Jinxia, Liu Yi, et al. SKE key technologies and services for knowledge discovery[J]. New Technology of Library and Information Service, 2012(7-8): 13-18.

[2]刘言, 林民. 基于OWL的双语领域本体构建方法研究[J]. 计算机技术与发展, 2014, 24(8): 84-88+93.

Liu Yan, Lin Min. Research on construction method of bilingual domain ontology based on OWL[J]. Computer Technology and Development, 2014, 24(8): 84-88+93.

[3]秦鹏. 领域本体构建方法研究[J]. 电脑知识与技术, 2015, 27(11): 180-181.

[4]陈立峰, 宋金玉, 石坚. 军事通信领域本体构建与分析[J]. 计算机技术与发展, 2011, 21(7): 90-93+97.

Chen Lifeng, Song Jinyu, Shi Jian. Specific ontology building and analysis on military communication domain[J]. Computer Technology and Development, 2011, 21(7): 90-93+97.

[5]张柳, 黄春毅. “农作物栽培” 领域本体的构建[J]. 农业图书情报学刊, 2009, 21(1): 68-72.

Zhang Liu, Huang Chunyi. Establishment of ontology on crops cultivation domain[J]. Journal of Library and Information Sciences in Agriculture, 2009, 21(1): 68-72.

[6]刘波, 崔辰州, 赵永恒. 构建中国虚拟天文台的天文数据结点[J]. 天文研究与技术——国家天文台台刊, 2006, 3(4): 355-364.

Liu Bo, Cui Chenzhou, Zhao Yongheng. Construction of the sky node system for Chinese virtual observatory[J]. Astronomical Research & Technology——Publications of National Astronomical Observatories of China, 2006, 3(4): 355-364.

[7]钟守波, 韩波, 张彦霞, 等. 天文大数据管理工具的设计与实现[J]. 天文研究与技术, 2015, 12(4): 510-517.

Zhong Shoubo, Han Bo, Zhang Yanxia, et al. Design and implementation of a software tool package for managing massive astronomical data[J]. Astronomical Research & Technology, 2015, 12(4): 510-517.

[8]徐仁新. 天体物理导论[M]. 北京: 北京大学出版社, 2006.

A Design and Implementation of Domain-specific Ontology of Astronomy

Wang Jie1,2, Zhang Hailong1,3, Aili Yusup1,3, Tohtonur1,2

(1. Xinjiang Astronomical Observatory, Chinese Academy of Sciences, Urumqi 830011, China, Email: wangjie@xao.ac.cn;2. University of Chinese Academy of Sciences, Beijing 100049, China; 3. Key Laboratory of Radio Astronomy,Chinese Academy of Sciences, Nanjing 210008, China)

Considering the situation of knowledge in astronomical domain, this paper puts forward a set of oriented ontology-building method based on the definition, expression and concept analysis of domain-specific ontology of astronomy. Through the determined core concept, layer structures are built and attributes of concepts are defined; example is given and the domain-specific ontology of astronomy is modeled and a design of the domain-specific ontology of astronomy is provided in detail. This paper builds the ontology model through open source protégé. It gives a specific elaboration on the overall process of domain-specific ontology building. It also provides a detailed description about the class, class attributes and the definition of relationship between different classes.

Domain ontology; AstroInformatics; Ontology building; SKE; Protégé

国家重点基础研究发展计划 (973计划) (2015CB857100);国家自然科学基金 (U1531125, 11503075);中国科学院青年创新促进会;中国科学院西部之光项目 (XBBS201325);天文学科技领域云项目 (XXH12503-05-05);中国科学院天文台站设备更新及重大仪器设备运行专项经费资助.

2016-02-13;

2016-03-18

王杰,男,硕士. 研究方向:虚拟天文台与并行计算技术. Email: wangjie@xao.ac.cn

张海龙,男,博士. 研究方向:数据密集型研究. Email: zhanghailong@xao.ac.cn

TP3-05

A

1672-7673(2016)04-0506-08

CN 53-1189/PISSN 1672-7673

猜你喜欢
天文本体检索
天文篇
眼睛是“本体”
瑞典专利数据库的检索技巧
一种基于Python的音乐检索方法的研究
基于本体的机械产品工艺知识表示
天文与地理
专利检索中“语义”的表现
专题
Care about the virtue moral education
天文知识普及