基于混合本体的政务异构数据集成研究

2016-10-27 01:04李永忠胡思琪
电子科技大学学报(社科版) 2016年5期
关键词:中间件数据源异构

□李永忠 胡思琪



基于混合本体的政务异构数据集成研究

□李永忠 胡思琪

[福州大学 福州 350116]

随着政务信息化的不断进行,现有信息共享方式的局限使得各政府部门间的信息交换障碍重重。因此,通过研究,说明了现有异构数据集成方式的优缺点,并针对政府部门信息集成过程中存在的数据异构问题,提出了基于混合本体的集成模型,描述了集成模型各个部分作用和主要功能,该模型能有效屏蔽数据的异构性实现各系统的独立性。重点描述了领域本体构建和本体映射的相关方法,并举例说明领域本体构建过程。

混合本体;数据异构;本体构建;数据集成

随着信息时代的来临,政府部门内部的数据库数据量越来越大。但各部门之间的数据库均是独立开发,这些数据种类、存储方式不同,使得部门之间的信息交流变得障碍重重。各部门就像是一个孤岛,无法实现与外部的数据整合交换。对异构数据的集成将是各部门之间实现数据共享的关键。目前数据集成的主要障碍有操作系统异构、数据结构异构和语义异构等。前两种异构通过对象请求代理体系结构(Common Object Request Broker Architecture)和中间件技术能较好地解决。对于最后一类问题,目前解决方法有:XML(可扩展标记语言)和以XML、OWL、RDF等为基础建立的本体。

XML是一种通用信息交换语言,它提供一系列规则用于创建满足用户需求的标签。通过解释程序,标签之间的关系可以得到完整的解析[1]。XML虽然提供了定义数据的标准,但进行数据交换时,须先在语义方面协调一致,否则含有不同模式的XML数据源之间很难互操作,容易出现语义歧义和冲突。

最初本体是哲学领域范畴,用来表示世界的本原和存在,现在本体被引入计算机领域,用来表达人们对于领域的共同理解。Gruber最早于1993年提出“本体是概念化的规范化说明”[2]。本体基于相关领域内的知识,提供关于概念特性及概念之间关系的明确定义,能非常有效地提供领域内的语义相关关系,是解决数据集成中语义异构非常好的方法。

一、政务数据集成现状分析

信息在社会中占有举足轻重的地位,而政府是最大的信息生产者、收集者、发布者和使用者。政府信息资源约占全社会信息资源总量的80%。无论是政府机构内部的运作和决策,还是企业的开拓和发展,或是人民的日常生活和自我发展,都离不开政府信息的支持和服务。

很多地方政府在信息建设过程中各部门各自为政、条块分割,使用不同的数据存储标准、不同系统,这些都阻碍了信息和数据的有效共享,造成了信息孤岛的形成。如果不能有效地解决,将会造成社会资源的浪费,各部门系统办公的不协调,社会治理成本的增加,民众获取信息难度的增大,影响政府公信力和形象。如何将这些异构数据源集成,是我们的迫切需要。

而传统的异构数据集成有联邦数据库、数据仓库、中间件等方式,局限性较大。联邦数据库方式需要数据库两两相连,构建和维修成本过高;数据仓库方式将所有数据集中到一个数据仓库中,更新困难大量冗余;而中间件方式则是建立虚拟数据库,扩展性较好但其无法处理语义异构数据。本文主要从技术层面考虑这些问题,提出使用混合本体的方式进行数据集成,能够在尽量减少对各部门现有系统的影响下,实现异构数据在全局的流通。

二、模型构建

根据本体进行数据集成的方式有三种:单一本体方法、多本体方法和混合本体方法[3]。单一本体法,所有数据源共享一个全局本体,各部分数据通过中间件与全局本体映射。易于构建,数据源独立性不够,数据不易增删;多本体法,本体个数与数据源个数一一对应,易于数据的增删;全局整体性不足,各系统之间很难建立联系。混合本体方法克服上述两种方法的缺点,在各局部本体的基础上,构建全局本体,如图1所示。

图1 混合本体方法

这一方法在保障政府各职能部门系统独立安全的同时兼顾了全局整体性。局部本体与各数据库相通,用来描述数据,全局本体则是在局部本体的基础之上进行概化,对概念进行统一。全局本体和局部本体之间的有效互通,通过本体映射来完成。

基于混合本体构建的模型能有效地解决政府各部门数据的语义异构问题,并同时兼顾集成系统的全局性以及各分系统的独立性。图2为基于混合本体的政府数据集成模型[4]。该集成模型自顶向下分别为用户层,中间件层(包括全局本体、映射、局部本体)和数据层(包括数据源和屏蔽操作系统和数据结构异构的封装器等)。

(一)用户层

接受用户的处理指令,将请求传递给中间件层,并接受其反馈结果传递给用户。

(二)中间件层

是整个政府数据集成模型的重点,包括全局本体、全局本体与局部本体之间的映射、局部本体和分析处理器。分析处理器根据用户指令与本体库交互,根据全局本体与局部本体之间映射将指令分配到相应局部本体,形成相对应子查询。并且在结果反馈阶段,将各数据源的子查询结果进行汇总,然后反馈给用户。局部本体要根据各部分数据源的特点来构建,从中抽取出数据的表达方式。依据主题词表构建全局本体,可以保证本体库的统一性。它提供了政府数据集成系统的全局知识领域,是对全局数据语义的描述。映射层则是将全局本体与局部本体的概念相对应,消除各局部本体的不一致。它不仅仅建立了本体的对应关系,更增加了整个系统的稳定和灵活性,在数据源层有数据的增删时,不需修改全局本体,只需对映射做出相应的变动。

(三)数据源层

是由各政府部门的数据源和相应的封装器组成,数据源一般是指各部门的数据库,但也可以包括其他数据文件。各部门的数据源可以是语义异构的,本体会提供对其的统一描述。但各部门的还可能存在结构、系统的异构等,封装器能提供对其的屏蔽,并负责与中间层和数据源的交互。当接收到来自中间件层的指令时,即转换成能对数据源直接进行操作的语言,并将查询结果反馈给中间件层,能有效减少操作的复杂性,并增加全局系统的灵活性。

三、关键技术分析

(一)本体构建

本体的构建是目前的研究热点之一,并且本体构建一般是面向某一特定领域,如果没有客观合理的方法指导,各领域本体就难以保持一致。一般认为GRUBER提出的五条规则(明确和客观性、完整性、一致性、最大单向可扩展性、最少约束)认可度高[5]。

其他常用的本体构建方法有:

TOVE法,又称Gruninger&Fox评价法[6],如图3所示。

图3 TOVE法本体模型

骨架法,又称Enterprise法,如图4所示。是有关企业建模过程的本体。建立在企业本体基础之上,是相关商业企业间术语和定义的集合,为其提供本体开发的指导方针。

图4 骨架法本体模型

其他本体构建方法还包括SENSUS法、METHONTOLOGY法、IDEF5法和斯坦福大学所开发的本体七步构建法[7]。

七步法主要用于领域本体的构建:

第一步,确定所构建本体的领域和范畴。

第二步,确定重复使用现有本体的可能性。

第三步,列出本体中的重要术语。

第四步,定义类和类的等级体系。

第五步,定义类的属性。

第六步,定义属性的分面。

第七步,创建实例。

一般来讲所构建的本体都是面向某一领域,用于描述该领域内知识的概念模型,并且要求所使用的概念是领域内公认或者有一定影响力的。本体的建立对于需要交换信息,共享信息的人或异构的系统来说,将有助于消除歧义,达成共识。

本文以政务信息这一领域内的共享为例,举例说明局部本体的构建过程。

1.构建目标。对需构建局部本体的数据源进行语义描述。

2.本体库构建过程,要确定该数据源的范畴。列举出其中包含的重要术语和概念。建立起政务信息局部本体的框架。

3.确定本体范围和术语。

4.复用现有本体。局部本体是对某一数据源中概念关系和概念定义的描述。构建时,应该考虑现有本体的重复使用,这样可以减少重复劳动和工作量。比如可以使用电子政务主题词表来构建,利用知网词典或是同义词词林来进行本体映射过程中的相似度计算。

5.定义类和类的层次体系。在这一过程中可以先定义上层概念,即综合性和概括性的类,然后自顶向下进行细化。也可使用自底向上的方式。

最后对类的属性进行定义,比如旅游这一类的下属类游客,对其进行定义就应该是:

游客(姓名,性别,年龄,爱好,电话)这个阶段是构建本体非常重要的一步,对类的属性进行定义,表达了更完整的语义。

6.生成实例。选择类创建实例,并对实例的属性值进行填充。

局部本体和全局本体的构建过程和方法基本类似,但一般先进行局部本体的构建。构建全局本体时,对所有数据源分析,在局部本体的构建基础之上,选择所需概念术语和实例创建全局本体。

(二)本体映射

本体间要想实现互操作就必须解决本体之间的异构问题,而本体映射则是手段之一。本体映射是找到不同本体之间的语义关联,例如全局本体与局部本体之间。

所谓本体映射则是在全局本体A、局部本体B中,对于B中的每一个概念都试图在本体A中找到一个语义相同或是相近的对应概念,对全局本体A亦是如此。本体的映射类型有:概念-概念、属性-概念、属性-属性等。在建立全局本体与局部之间的映射关系时,通常采用Ehrig M的方法[8],如图5所示:

图5 本体的映射

特征元素提取,解析政务信息文档,提取出本体词汇,包括概念、属性和关系等。

用户选取,本体映射系统支持一个可选的用户交互过程,通过用户交互,用户可以在自动创建映射之前,手动创建映射关系。

相似度计算,根据概念相似度和属性相似度的不同,使用不同的计算方法。

映射发现。基于迭代后的相似值进行,根据某种选择策略并结合本体的约束和上下文关系等选择本体间元素的最优映射关系。

映射结果保存。算法输出映射表,表中每一项对应一个映射关系。每一项包含四个元素集合。源本体中的元素集合,目标本体中的元素集合,元素对应关系及关系的相似度数值。

在计算两个本体元素的相似度时,一般要计算概念、属性和实例三个方面。分别计算三方面的相似度后,再汇总得出其相似度。

其中,分别表示概念1和2的描述集,表示属于不属于的元素集。depth(1)表示从1到根节点的距离。

并且一般来讲建立全局本体与局部本体之间的映射时,都是从局部本体映射到全局本体,这样在数据源有增删修改时,只需要进行新的映射,而不需改变原有映射。

四、结语

基于混合本体的方法集成政务数据后,在查找所需信息时,可以先通过分析处理器将查找指令经本体推理分解到各数据源,然后将查找到的信息合并提交给用户。可以有效地消除其语义异构问题,并且此方法能兼顾政府数据对安全和保密性的要求。可以加速政府信息化进程,促进信息资源的优化配置,实现信息的顺畅共享。

参考文献

[1] 何克清, 何扬帆, 梁鹏, 等. 本体元建模理论与方法及其应用[M]. 北京: 科学出版社. 2008.

[2] Carbonell J G, Siekmann J. Intelligent Information Integration for the Semantic Web[J]. Springer Science, 2005, 10: 14-20.

[3] 杨兴凯, 刘畅. 政府信息资源集成方法研究综述[J].电子政务, 2013(5): 5-6.

[4] 王晓芳. 基于本体的异构数据源集成系统模型[M].北京: 清华大学出版社, 2007.

[5] Karp P D, Gruber T R. A generic knowledge-base access protocol[E/OL]. (2015-04-27).https://www.researchgate. net/publication/244956819_A_generic_knowledge-base_access_protocol.

[6] 杨秋芬, 陈跃新. Ontology方法学综述[J]. 计算机应用与研究. 2002(4): 5-7.

[7] NOY N F. Ontology Development 101: A Guide to Creating Your First Ontology: Knowldege Systems Laboratory [E/OL]. (2015-04-27). http://wenku.baidu.com/link?url= u1M0 zutI7XBKDX-bXmomU_meYPOfbQY87dFzh98fgGZI_qWp2CRasLtHvUVqQo4-ZOGz1xN3CR1DSd7g5C1zEUrOTHr7JkR_FWr-kxianCS .

[8] EHRIG M, STAAB S. QOM–quick ontology mapping [M]//The Semantic Web–ISWC 2004. Berlin Heidelberg: Springer, 2004: 683-697.

[9] EHRIG M, SURE Y. Ontology mapping–an integrated approach[M]//The Semantic Web: Research and Applications. Berlin Heidelberg: Springer, 2004: 76-91.

[10] 高炜, 梁. 基于贴近度的本体概念属性相似度计算[J]. 长春大学学报, 2009, 19(8): 2-3.

[11] 沈亦军, 吕刚. 基于实例相似度的本体映射方法研究[J]. 重庆科技大学学报, 2012, 14(3): 2.

Research on E-Government Heterogeneous Data Integration with Hybrid Ontology Method

LI Yong-zhong HU Si-qi

(Fuzhou University FuZhou 350116 China)

With the development of E-Government informationization, the traditional information sharing mode limit the exchange between various government departments. This paper introduces the current heterogeneous data integration mode, proposes integration mode based on hybrid ontology, and describes the function of each part. This mode can effectively shield the heterogeneity of data and protect the independence of each system. This paper describes the methods of constructing domain ontology and ontology mapping, and illustrates the building process of the domain ontology.

hybrid ontology; heterogeneous data; ontology construction; data integration

TP393

A

10.14071/j.1008-8105(2016)05-0017-04

2015-04-27;

李永忠(1963-)男,福州大学经济与管理学院副教授;胡思琪(1993-)女,福州大学经济与管理学院硕士研究生.

编辑 刘 波

猜你喜欢
中间件数据源异构
试论同课异构之“同”与“异”
吴健:多元异构的数字敦煌
RFID中间件技术及其应用研究
Web 大数据系统数据源选择*
基于Android 平台的OSGi 架构中间件的研究与应用
基于不同网络数据源的期刊评价研究
异构醇醚在超浓缩洗衣液中的应用探索
LTE异构网技术与组网研究
基于真值发现的冲突数据源质量评价算法
中间件在高速公路领域的应用