李晓辉,李志祥,李 江
(军械工程学院计算机工程系,河北石家庄 050003)
基于本体的信息集成研究
李晓辉,李志祥,李 江
(军械工程学院计算机工程系,河北石家庄 050003)
企业信息集成中存在着大量的语义异构数据源,阻碍了信息的共享和交换。本文将本体应用于企业信息集成领域,给出了多数据源信息关联查询实现策略,研究了基于语义的资源描述和语义实体提炼技术。提出了基于混合本体的企业信息集成框架,并描述了框架的各个层次的组成和作用。
本体;语义;信息集成;信息关联
近年来,企业信息化建设获得了长足进步,积累了大量的信息资源,然而由于缺乏对领域信息的统一规划和顶层设计,使得各信息系统相对比较封闭,信息在结构、语法和语义等方面存在不同程度的异构性,阻碍了信息的共享与交换,制约了企业管理水平和质量的提升。本体既准确地描述了概念的含义又描述了概念之间的内在关联,能通过逻辑推理获取概念之间的蕴含关系[1,2],因此可以将本体应用于企业信息集成领域,解决信息集成中的语义异构问题。
本体(Ontology)的概念来自哲学领域,被定义为“对世界上客观存在物的系统描述”。近年来,随着本体理论的深入研究,本体的思想逐渐被应用于信息技术领域。国内外对本体没有统一的定义,目前对本体比较公认的解释是1998年Studer等人所做出的定义“Ontology是共享概念模型的明确形式化规范说明”。其包含4层含义:概念化、明确化、形式化和共享[3,4]。
OWL(Web Ontology Language)是W3C推荐的本体描述语言,作为RDF(S)的扩展,它的目的是为了更好地开发语义Web。OWL丰富了语义定义机制,能够被用于清晰地表达词汇表中的概念的含义以及概念之间的关系。OWL相对于XML和RDF拥有更多的机制来表达语义,有更多的用于描述属性和类的词汇,例如类之间的不相交性、基数、等价性、属性特征等。
在企业管理中,存在众多数据资源,大量信息分布在不同的数据源中,如何有效利用这些信息并发掘信息之间的关系,实现相关数据内容的动态关联查询,成为急需解决的问题。当前对信息关联技术有很多解决途径,很多技术还处于研究阶段,采用基于本体的信息集成技术可以有效实现多数据源信息的关联查询。
多数据源信息关联技术的实现策略为:首先对将各种数据资源进行基于语义的统一的描述,并按照语义提炼各种实体即本体,将其与企业管理的各业务进行统一关联,根据用户业务范围和数据语义定义内容对相关主题进行动态关联设置。实现技术和过程如图1所示。
图1 多数据源信息关联实现技术和过程
多数据源信息关联过程主要包括:对现有的业务资源的数据资源进行统一的语义表述,并按语义提炼方法进行语义提炼;形成各种实体即本体,实体主要包括基本信息、人员信息、生产信息、销售信息等,并将实体和各业务(如采购、研发、订货、财务等)按照实体的使用进行业务关联,最后将各业务和最终用户按照业务范围和使用权限进行关联,完成多数据源信息的关联。
为了实现基于语义的统一的资源描述能力,使不同业务信息系统之间通过共同的语义描述来实现统一的数据资源表述,为按语义进行业务关联提供基础。需要对数据资源按照内容和语法进行XML技术表示,然后使用RDF(Resource Description Framework,资源描述框架)/OWL(Web Ontology Language,网络本体语言)来实现语义的描述框架、数据的语义、数据之间的关系的表达。基于语义的资源描述技术如图2所示。
RDF采用了一种非常简单的数据模型来实现对资源的描述,它包括几种对象:资源,属性和声明。资源的命名是通过URI加上一个可选的定位ID来表示的。属性用来描述资源的具体方面、特性或相互的关系等。每个属性有特定的含义、取值范围、能够描述的资源类型以及与其它属性的关系。
OWL-网络本体语言指一种用于描述语义网上本体论关系的语言,由W3C指定。OWL是构建在RDF顶端之上的本体语言,用于信息之间关系的精确描述,可由计算机应用程序读取。
对语义实体提炼的主要技术实现策略为,针对已经进行RDF/OWL表示的领域数据进行抽取、过滤、筛选,进行相关性检查,最后提炼出各种语义实体,其提炼过程如图3所示。
图2 基于语义的资源描述技术
图3 语义实体的提炼技术
在以RDF/OWL表示的领域数据中抽取候选的语义实体,再将获取的各种领域实体进行过滤和筛选,过滤和筛选过程中需多次对已有语义实体进行比较;语义实体筛选完毕后,需根据领域知识对语义进行一致性检查,确定语义的相关性。对语义实体的提炼过程中,可辅助增加人工关联设置实体的能力,使语义的实体的提炼更加准确、语义的相关性更好。
多数据源信息关联技术在对用户所有的数据资源进行统一规划的基础上,通过归纳、抽象和分析,整合形成各种数据语义实体,并按各种语义实体建立统一关联的存储和管理方式,提供对建立关联的内容提供统一风格的数据展现能力。
在基于本体的信息集成方法中,利用本体描述数据源的语义,根据对本体应用方式的不同,主要有3种不同的方法:单本体方法、多本体方法和混合本体方法。通过对三种信息集成方法的比较,为了解决企业信息集成中各数据源的语义异构问题,利用本体来描述各种异构数据源的数据模式,采用Wrapper/Mediator架构,提出基于本体的企业信息集成框架[5],如图4所示。
该集成框架自底向上分为数据源层、封装层、中间层和用户层,各层的功能如下。
处于框架的最底层,是各类自治数据源的集合,根据结构可分为结构化数据源、半结构化数据源和非结构化数据源。由于各数据源自身特点、数据模型和含义存在差别,使得不同数据源信息在语法和语义上具有异构性,需要利用本体的概念对数据源中数据的结构、关系进行统一描述。
图4 基于本体的信息集成框架
封装层由包装器(Wrapper)的软件模块组成,每个数据源对应一个相应的包装器,负责与相应数据源进行数据交换。数据源注册时,抽取数据源的注册信息,提交给中间层处理;同时接收中间层的查询请求并进行查询语言转换,从相应数据源中抽取数据。对于关系型数据库数据源而言,包装器通过数据源的访问接口(如:ODBC、OCI等)与其进行交互;对于非关系型数据源,包装器直接进行数据访问。包装器从信息集成服务器接受数据查询处理请求,转换为数据源所支持的查询语言,然后将结果返回给中间层处理。包装器的主要功能是连接数据源、查询语言转换和查询结果提交。同时功能强大的封装器从数据源进行本体提取,自动建立数据源对应的局部本体。
用于屏蔽不同数据源的异构性,包括数据源注册组件、结果收集组件、查询处理组件和本体库。数据源查找注册组件负责新数据源物理位置、访问权限、访问接口的注册,同时根据查询请求查找相应的数据源;查询处理组件主要获取用户的查询请求,并与全局本体进行交互,根据全局和局部本体之间的映射关系把查询请求转换分解为相应数据源的子查询,并将子查询交给相应的包装器去提取数据;结果收集组件负责接收各包装器返回的数据,与本体库进行交互,根据语义对结果进行汇总、排序、转换等操作,并将最终结果集返回给应用层;本体库负责存储并管理本体,其中局部本体对相应数据源信息的概念和关系进行了清晰的表述,全局本体对集成领域内的概念和关系进行了描述,通过全局-局部本体映射解决数据集成中的各数据源的语义异构问题。
应用层为用户提供统一界面,接受用户的信息查询请求,并提交给中间层处理,另一方面从中间层获取最终处理结果提供给用户。
企业信息集成中信息主要存在四种类型的异构:系统异构、结构异构、语法异构和语义异构。前三种异构问题可以通过CORBA,DCOM和各种中间件等产品来解决,但语义异构仍是当前信息集成中一个研究重点和难点。本体能够描述概念之间的关系和语义,因此在企业信息集成中可以利用本体理论建立与平台无关的通用语义模型,屏蔽信息之间的语义异构。笔者对基于本体的信息集成技术进行了分析研究,提出了基于混合本体的企业信息集成框架。随着本体理论在信息系统领域研究的日益成熟,本体将有效地解决企业信息集成中其它信息集成方法不易解决的语义异构问题,实现信息的互联互通。
[1]吴昊,刑桂芬.基于本体的信息集成技术研究[J].计算机应用,2005,25(2):456-458.
[2]宋炜,张铭.语义网简明教程[M].北京:高等教育出版社.2004.
[3]邓志鸿,唐世渭等.面向语义集成—本体在Web信息集成中的研究进展[J].计算机应用,2002,25(1):15-17.
[4]Guarino N.Semantic Matching:Formal Ontological Distinctions for Information Organization,Extraction,and Integration.In:Pazienza M T,eds.Information Extraction:A Multidisciplinary Approach to an Emerging Information Technology,Springer Verlag.1997:139-170.
[5]王晓芳.基于本体的异构数据源集成系统模型[D].山东:山东大学,2006,16-17.
[6]冯志勇,李文杰.本体论工程及其应用[M].北京:清华大学出版社,2007.
[7]Noy N,Musen A.The Prompt Suite:Inteactive Tools for Ontology Merging and Mapping[J].International Journal of Humancomputer Studies,2003,59:983-1024.
Research of information integration based on ontology
LI Xiao-hui,LI Zhi-xiang,LI Jiang
(DepartmentofComputerEngineering,OrdnanceEngineeringCollege,ShijiazhuangHebei050003,China)
Large numbers of semantically heterogeneous data sources exist in information integration of enterprise.It baffles information sharing and exchange in information integration.In this paper applys ontology to the domain of information integration is applied.The strategy of information conjunction query is presented in multiple data sources.Semantic resource description and semantic entity distilling technology are researched.An enterprise information integration framework based on hybrid ontology is proposed.The composition and effect of all levels in the framework are described.
Ontology;Semantic;Information Integration;Information conju nction
TP393
:A
1001-9383(2011)03-0038-05
2011-06-30
李晓辉(1978-),男,硕士,讲师,主要研究信息与系统集成.