一个基于本体的数据服务平台

2010-07-25 08:43李昕骞饶若楠
微型电脑应用 2010年2期
关键词:提供者数据源异构

李昕骞,饶若楠

0 引言

1998年,万维网之父Tim Berners-Lee开始勾勒语义Web,2000年12月18日在XML2000 的会议上正式提出了语义Web,其目标是使Web 上的信息具有计算机可以理解的语义。在Web 标准化组织W3C 以及学术界和工业界的共同努力下,语义Web 逐步完善,已经形成了由资源描述框架RDF(Resource Description Framework)为核心的多层体系结构,该体系中从底层到高层分别为:UNICODE 和URI、XML 、RDF、RDF模式,Web本体语言,SPARQL查询语言和规则交换格式、统一逻辑层 、证明层、信任层,以及加密,用户接口和应用。其中,本体是指在一定范围内共享的概念模型明确的形式化规范说明,通过对概念的严格定义和概念与概念之间的关系来确定概念精确含义,表示共同认可的、可共享的知识。在语义Web 中,本体具有非常重要的地位,是解决语义层次上的Web 信息共享和重用的基础。

为了共享和重用异构数据,传统的信息集成系统通常在数据层次上采用全局的数据库模式(比如数据仓库),在应用层次上采用服务总线中间件(比如Oracle企业服务总线服务器),为应用提供可单点访问的共享数据服务。这些方法对数据的准确性和一致性是强制要求的,当动态集成来自外部数据源的数据时,有严重的局限性,关系型模型和UML类模型只能表达模式级别上的数据语义,像表、类、属性。为了链接异构数据并展现更丰富的数据语义,必须解决各种异构冲突,包括语法层次的,结构层次的和语义层次的。

研究者针对这类异构数据的互操作性问题,提出了在数据集成中使用本体,作为信息语义的直接描述,并开发了很多基于本体的数据集成方法[1] [2] [3]。本文扩展了混合本体集成方法[1],提出了一个基于本体的数据服务平台,遵照面向服务架构原则,为异构数据提供者和消费者提供全局的RDF数据视图。该平台采用了面向服务架构,使全生命周期的数据管理统一化,包括数据注册、集成、演化、发布和访问,改进了现有系统对这些方面的支持不足,简化了跨应用、企业和团体的数据共享与重用。

1 基于本体的数据服务平台

平台架构如图1所示。通过封装器/协调器(Wrapper/Mediator)框架,将分布式的异构数据(如关系数据库,LDAP,半结构化Web数据及遗留数据应用)注册并自动创建本地的本体,并利用扩展的SPARQL协调器映射到全局本体,对外提供联合SPARQL查询服务。

该平台采用面向服务架构,引入了3种角色:数据提供者、本体管理员、客户端用户和应用。数据提供者能够使用数据源注册与监控服务注册各种数据源,数据源注册与监控服务,将调用相应的封装器同步数据源,并自动产生相应的本地本体数据,然后数据提供者可以通过扩展SPARQL协调器,设置本地本体数据到全局本体的映射关系。平台为协调器设计了一种扩展SPARQL机制,即混合SPARQL CONSTRUCT, RDF数据和规则的本体映射关系表达机制,易于应对实际项目应用中的各种复杂的本体映射和数据融合。同时,数据源注册与监控服务能够直接或者通过数据源Agent对数据源数据变化和有效性进行监控。

图1 基于本体的数据服务平台架构

客户端应用和用户能够查询相关领域的全局本体词汇,并进一步查询联合SPARQL服务,同时可以向应用SPARQL注册与监控服务注册所调用的SPARQL语句,以便平台协调本体和应用的演化。在本体数据发生改变时,应用SPARQL注册与监控服务将检查是否对注册应用所使用SPARQL的本体数据,而本体与应用之间的协同演化,使用RDF具名图[4]记录对应的本体与应用的更新版本。

本体管理者负责审批数据提供者所注册的数据源映射,使用RDF具名图,为本体数据发布审核和配置信息源、隐私保护、访问控制和语义信任。在共享本体数据概念和映射演化时,应用规则推理机获知语义冲突,引入信念修正概念[5],为相关信念断言指定认知牢固度次序,然后根据产生规则得到修正后的信念集合,使本体数据能够自动演化。下面通过鸟和企鹅的例子来说明如何使用信念修正方法进行本体数据演化:

① 初始信念集合:BIRD⊆FEATHERS (所有的鸟有羽毛),BIRD⊆FLY (所有的鸟会飞)

② 增加信念集合:PENGUIN⊆BIRD (所有的企鹅是鸟),PENGUIN⊆¬FLY (所有的企鹅不会飞)

③ 信念冲突:PENGUIN⊆BIRD (所有的企鹅是鸟),PENGUIN⊆¬FLY (所有的企鹅不会飞),BIRD⊆FLY (所有的鸟会飞)

④ 认知牢固度排序:EE(PENGUIN⊆BIRD (所有的企鹅是鸟))=EE(PENGUIN⊆¬FLY (所有的企鹅不会飞)) >EE(BIRD⊆FLY (所有的鸟会飞))

⑤ 修正后的信念集合:PENGUIN⊆BIRD (所有的企鹅是鸟),PENGUIN⊆¬FLY (所有的企鹅不会飞),BIRD⊆FLY∪ ¬FLY (有的鸟会飞,有的鸟不会飞)

2 应用案例

以该数据服务平台为核心,我们为客户开发了一个位置相关的移动应用项目。这是一个上下文敏感的旅游信息服务系统,集成了地图服务、Facebook社区、维基百科和第三方合作伙伴所提供的服务,如图2所示。基于当前GPS位置,移动设备显示用户周边地理信息,由此,移动用户可以在地图上探索和导航各种生活信息,并能够根据用户的兴趣和偏好,在地图周边为用户搜索和推荐其最可能需要的生活娱乐信息。

3 结束语

本文描述了一个基于本体的数据服务平台,给出了该方法的系统架构和面向服务的本体数据集成、演化和发布过程,并基于惠普实验室的Jena开发包实现了此原型系统,及一个上下文敏感的旅游信息项目。通过该平台,允许数据提供者注册各种异构数据并自动转化为RDF数据,然后本体管理者能够对本体进行审核、变更和发布,为最终用户和客户端应用提供统一的本体数据查询服务,从而促进了领域知识和异构数据的快速共享和重用。下一步的工作,包括本体映射、本体的一致性检测、本体隐私保护、语义证据与信任等方面还有待继续研究。

图2 上下文敏感的旅游信息服务

[1] Wache H, Vögele T, U. Visser, Stuckenschmidt H, Schuster G, Neumann H, Hübner S.Ontology-based Integration of Information - A Survey of Existing Approaches[C] //Proceedings of IJCAI-01 Workshop: Ontologies and Information Sharing, Seattle, WA, 2001:108-117.

[2] Bergamaschi S, Castano S, Vincini M , Beneventano D.Semantic integration of heterogeneous information sources[J] , Data and Knowledge Engineering,36(3):215-249.

[3] Hakimpour F, Geppert A. Resolving Semantic Heterogeneity in Schema Integration:an Ontology Based Approach[C] //Proceedings of Conference on Formal Ontology in Information Systems, FOIS’01, Ogunquit,Maine, USA, October 17-19, 2001.

[4] Carroll J J, Bizer C, H P, Stickler P. Named Graphs,Provenance and Trust[C] //Proceedings of the 14th International World Wide Web Conference, Chiba, Japan,May 10-14, 2005.

[5] Flouris G.On Belief Change and Ontology Evolution,Doctoral Dissertation, DEPARTMENT OF COMPUTER SCIENCE[D] . UNIVERSITY OF CRETE, February 2006.

猜你喜欢
提供者数据源异构
试论同课异构之“同”与“异”
网络交易平台提供者的法律地位与民事责任分析
基于隐私度和稳定度的D2D数据共享伙伴选择机制
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
网络言论自由的行政法规制研究
异构醇醚在超浓缩洗衣液中的应用探索
overlay SDN实现异构兼容的关键技术
LTE异构网技术与组网研究
基于真值发现的冲突数据源质量评价算法