基于RDF的云制造资源数据分布式存储的研究

2016-06-14 02:12王中杰同济大学电子与信息工程学院上海201804
系统仿真技术 2016年1期

鲁 超,王中杰(同济大学电子与信息工程学院上海 201804)



基于RDF的云制造资源数据分布式存储的研究

鲁 超,王中杰
(同济大学电子与信息工程学院上海 201804)

摘 要:随着语义网技术的不断发展与成熟,资源描述框架RDF(Resource DescriPtion Framework)被应用于越来越多的领域中。但随着语义Web数据量的急剧增加,大规模RDF数据的存储和检索面临严峻的挑战。如何提高RDF数据存储的可扩展性对于目前web服务管理、数据管理、云计算及行业数据共享与整合具有重要的现实意义。针对传统的关系数据库技术难以应对海量数据存储问题,本文设计了一种以HBase作为存储介质,基于OWL的RDF数据存储方案。

关键词:云制造;RDF;HBase

1 引 言

近年来,一种新型的计算模式¯¯¯云计算正在兴起[1]。云计算这种模式提供了便捷的、可随时通过网络访问并配置计算资源共享池以及能够迅速部署的能力,同时这些资源不需要太多的管理工作,并且只需与服务提供商进行少量的交互[2]。在云计算技术迅猛发展的背景下,针对我国制造业的发展现状,李伯虎院士提出“云制造”的设想,提出制造即服务的观点[3]。云制造属于网络制造,但是在模式上实现了创新和突破,用户通过云服务平台按照自己的需求寻找所需的制造资源[4]。目前,云制造资源数据过于庞杂,且结构复杂,如若不对数据进行必要的整理,最终将造成存储空间浪费严重,管理效率低下等问题。基于这个问题,采取建立领域本体,将制造企业的数据资源使用RDF来描述,并将其存储于基于HBase的分布式存储系统中。这样不仅为制造业企业庞杂的数据提供了统一的描述语言,而且为使用RDF进行大数据的管理提供了可能性。

2 云制造数据存储

2.1云制造系统基本架构

一个完整的云制造系统是由三类参与者组成[5],他们通过各种资源共享实现制造全生命周期的制造服务。本文研究内容依托的云制造平台,目的是为中小企业提供高效率,低成本的资源整合以及协同管理服务,从而为中小企业充分利用外部制造资源,提升市场综合竞争力提供助力。

如图1所示是一个简易云制造系统模型,其中:云制造资源消费端,即云制造资源的需求者和使用者,通过云制造平台按需获取云端资源,如制造加工、产品设计、产品运营等;云制造资源提供端,提供制造全生命周期(设计、仿真、生产加工、物流)涉及的各种制造资源和制造能力,并将资源和能力抽象、虚拟化后以制造云的形式接入云制造平台;云制造服务平台,是云制造平台的管理和运营者,提供平台运行机制,维护和监管平台的整体运作和经营。

图1 云制造系统模型Fig.1 C loud m anu facturing system

2.2云制造数据存储架构

由上节可知,云制造服务平台将云制造资源提供端和消费端连接起来,统一管理云制造服务中一切可以利用到的资源以及提供相应的资源服务,并为资源需求者提供按需服务。我们基于一个由多台服务器建立的计算机集群,搭建了HadooP系统并部署了分布式存储数据库HBase,如图2所示。

云提供端的各种制造资源经虚拟化后以RDF形式存入分布式数据库HBase中,云消费端在使用系统时键入检索信息,检索得到的结果为RDF数据,系统将其转换为符合用户习惯的视图返问给用户。由图2可知,除了云提供端提供的数据之外,由平台自身使用网络爬虫在网络上抓取而获取的资源也可以批量地写入该存储系统。对于不同的数据获取方式,系统均提供了相应的数据写入接口。

在本体库部分,云制造领域本体是对广义制造资源的抽象和规范化说明,根据制造资源分类法和制造过程知识,并结合该领域专家和计算机专家意见,建立了领域本体描述模型。该本体应该完整的描述制造业所涉及到的所有资源之间的继承关系,以及这些资源所具有的属性。

3 基于HBase的RDF数据存储方法

3.1RDF数据存储模型

RDF是用来描述Web资源的标准框架,在该框架下,RDF采用了使用主体、谓词、客体构成的三元组来进行资源的描述[6]。其中主体即为资源本身,谓词为该资源所拥有的属性,客体为该资源对应该属性所具有的属性值。RDF标准描述格式有三种:(1)RDF/XML格式;(2)RDF三元组格式;(3)RDF图格式。RDF/XML格式为RDF描述数据的标准格式,这种格式为计算机视图,由于对资源的描述基于XML,可以更好地促进基于不同基础架构的数据之间的整合。三元组格式和图格式为用户视图,这两种格式可以清楚地表达资源所拥有的属性,以及资源与资源之间的关系。RDF是一种半结构化的数据格式,它的数据格式松散,允许一个主体对应多个属性,一个属性对应多个属性值的多值情况,这种结构适合使用HBase这种结构稀疏的数据库进行存储。

文[7]中提出了SPO、POS、OSP三张表来存储RDF数据,将数据存储在SPO、POS、OSP三张表中。SPO表以(主体、谓词)为Row Key,客体为value。POS表以(谓词、客体)为Row Key,主体为value。OSP表以(客体、主体)为Row Key,谓词为value,用多个列存放多个值。文献[8]使用三张表TS、TP、TO存储数据,TS、TP、TO分别以S、P、O为Row Key,P|o,s|o,s|P为value,用多个版本存放多个值。文[9]提出了两表模式,即将三表中的TP表删除,仅保留TS、TO两表。这样不仅节省了大量的存储空间,也提升了查询效率。

但是由于HBase中数据更新并不会覆盖旧的数据,而是通过时间戳的形式继续保留旧的数据,时间戳的存在有利于解决RDF数据中主体对应多属性多值问题,却会导致用户在进行数据查询时得到的数据未必是正确的。例如,在定义一个制造车间时,行键为A车间,列名为车间拥有的设备类型,并将a设备,b设备作为值存入cell中,并以时间戳分别标识二者。在客户查询车间可用设备资源时返回a和b,结果没有错误。但是假设a设备已经损坏,客户查询可用资源时依然出现了a设备,这个结果就是错误的。

3.2存储方案设计

图2 云制造数据存储架构图Fig.2 The architecture of service p latform for cloud m anu facturing

由上节得出的结论,在设计新的存储方案时我们采用了放弃时间戳存储多值的机制。采取新的方案以解决多值问题的存储并使得客户在查询时能够得到正确的结果。

新的方案中仍然使用两表模式,分别为表TSP和表T0P。其中表TSP以主体作为Row Key,谓词作为列族名,客体则是以列族下的动态列形式存储;表T0P以客体作为Row Key,谓词作为列族名,主体则是以列族下的动态列形式存储。表1为TSP表逻辑存储结构,表2为T0P表逻辑存储结构。

TSP表存储本体定义中的类信息,定义两个Row Key:Providers和Consumers。类名为列族,其中,MC_Task是制造服务类型的抽象,比如生产加工、设计仿真、物流装配等制造服务。MC_ Resource定义了广义的制造资源类,即制造资源和制造能力。制造资源中包括软件、硬件、机床、工艺装备等,制造能力是制造过程中提供的一种能力服务,比如生产加工服务、仿真服务、管理服务、设计服务、物流服务等。MC_Object是制造对象,包括整机、零部件、材质等。MC_EnterPrise是制造企业,描述了制造企业的基本信息[10]。用列族的列标签存储类的属性值和子类,通过动态的增加列来存储多值,cell值均为1。

表1 TSP表逻辑存储结构Tab.1 The logical storage structure of TSP

表2 TOP表逻辑存储结构Tab.2 The logical storage structure of TOP

T0P表存储本体定义中的属性信息,属性名为Row Key,包含三个列族:Name、TyPe、Status。与TSP表一样,用列族的列标签存储值,通过动态的增加列来存储多值,cell值均为1。

4 结论及展望

本文针对如何高效管理海量RDF数据问题提出一种基于HBase的RDF数据存储模型,新的存储模式摈弃了用时间戳区分多值,而是使用动态增加列的方式来存储多值。每个列中仅保留一个值。用户在更新数据时不再将新的数据存储在旧的cell中,而是放入新的列中。新的方案借鉴了两表模式,不仅保留了ToP/TsP能够对上层SPARQL提供高效查询的优点,而且解决了其存储云制造资源数据时存在的返回信息不完整和不正确的问题。

参考文献:

[1] 邓朝晖,刘伟,吴锡兴,等.基于云计算的智能磨削云平台的研究与应用.中国机械工程,2012,23(1):65 -68.

DENG Zhaohui,LIU Wei,WU Xixing,et al.Research and APPlication of Intelligent Grinding Cloud Platform Based on Cloud ComPuting. China Mechanical Engineering,2012,23(1):65 -68.

[2] 罗军舟,金嘉晖,宋爱波,等.云计算:体系架构与关键技术.通信学报,2011,32(7):3 -21.

LUO Junzhou,JIN Jiahui,SONG Aibo,et al.Cloud comPuting:architecture and key technologies.Journal on Communications,2011,32(7):3 -21.

[3] 李伯虎,张霖,王时龙,等.云制造¯¯¯面向服务的网络化制造新模式.计算机集成制造系统,2010,16 (2):1 -8.

LI Bohu,ZHANG Lin,WANG Shilong,et al.Cloud manufacturing:a new service - oriented networked manufacturing model.ComPuter Integrated Manufacturing Systems,2010,16(2):1 -8.

[4] 陶勇.云制造平台构建相关技术研究[D].重庆大学,2013.

Tao Yong.Research on related technologies of cloud manufacturing Platform construction[D].Chongqing University,2013.

[5] 王中杰,杨琛,张新,等.云制造环境下生产加工云能力服务.计算机集成制造系统,2012,18(7):1453 -1460.

WANG Zhongjie,YANG Chen,ZHANG Xin,et al.CloudcaPability service of Production and Processing in cloud manufacturing. ComPuter Integrated Manufacturing Systems,2012,18(7):1453 -1460.

[6] Decker S P.Mitra.Framework for the semantic Web:an RDF tutorial.Internet ComPuting,2000,4(6):68 -73.

[7] 金强.基于HBase的RDF存储系统的研究与设计[D].浙江大学,2011.

JIN Qiang.Research and design of RDF storage system based on HBase[D].Zhejiang University,2011.

[8] Abraham J,Brazier P,Chebotko A,Navarro J,Piazza A. Distributed Storage and Querying Techniques for a Semantic Web of Scientific Workflow Provenance.Proc. of 2010 IEEE International Conferene on Services ComPuting(SCC),2010,PP178 -185.

[9] Franke C,Morin S,Chebotko A,Abraham J,Brazier P. Distributed Semantic Web Data Management in HBase and MySQL Cluster.Proc.of 2011 IEEE International Conference on Cloud ComPuting(CLOUD),2011,PP105 -112.

[10] 杨琛,王中杰,王世明.基于本体的云制造服务发现模式研究.制造业自动化,2012,34(10):56 -59.

YANG Chen,WANG Zhongjie,WANG Shiming. Research on cloud manufacturing service discovery based on ontology.Manufactuing Automation,2012,34(10):56 -59.

鲁 超 男(1985 -),安徽宣城人,硕士生,主要研究方向为控制理论与控制工程,云计算等。

王中杰 女(1971 -),辽宁葫芦岛人,博士,教授主要研究方向为智能系统、优化理论与技术、大数据应用。

A Distributed Storage Scheme For RDF-based Cloud Manufacturing Resource Data

LU Chao,WANG Zhongjie
(College of Electronics&Information Engineering,Tongji University,Shanghai201804,China)

Abstrac t:W ith continuous develoPment and m aturation of the semantic w eb technology,resource descriPtion framew ork(RDF)is aPPlied to more and more fields.But w ith the raPid grow th of the Semantic W eb data,the storage and retrieval of RDF data faces serious challenges.It is quite Practically im Portant to im Prove the RDF data storage scalability and data retrieval for web services management,data management,cloud com Puting and industry data sharing and integration.Because it is difficult for the traditional relational database technology to deal w ith mass data storage,we ProPosed a kind of RDF data storage solution based on the OW L w ith HBase as the storage medium.

Key words:cloud manufacturing;RDF;HBase

中图分类号:391

文献标识码:A