无结构化数据集成方法在数字图书馆中的应用

2009-07-15 09:54王志丽
现代情报 2009年3期
关键词:数据集成元数据数字图书馆

王志丽 孙 宝

〔摘 要〕针对数字图书馆中的图像、视频、音频等无结构化数据的集成问题,提出了语义对象模型的概念,实现无结构化数据的统一全局对象表示。在此基础上,提出了一种以XML数据模型为基础的无结构化数据集成方法。

〔关键词〕数据集成;元数据;数字图书馆

〔中图分类号〕G250.76 〔文献标识码〕A 〔文章编号〕1008-0821(2009)03-0087-03

随着Internet的发展和普及,信息资源已经实现了全球范围内的共享,信息的存储和检索方式也发生了巨大的变化,传统图书馆的工作方式已经不能满足人们的要求,数字图书馆作为一种新的信息资源管理模式正在蓬勃发展。数字图书馆是一个通过互联网连接在一起的分布式数据信息库,它将全球网络上所有信息资源集成起来,形成一个大型的分布式共享信息库,利用先进的信息技术,将包括印本、电子出版物、多媒体数据等各种类型的信息资源集成起来,构建一个在网络环境下支持普遍存取、分布式管理和集成信息服务的信息环境,为用户提供简单、快捷的个性化信息服务[1]。

数字图书馆的实现需要分布式数据库技术、数据挖掘技术、智能搜索引擎技术、机器翻译技术等多种技术的支持,然而,这些关键技术能够顺利实现的基础是解决数据的统一表现方式问题。数字图书馆的数据是由散布在因特网上的大量数据组成,包括文本等结构化数据,半结构化的网页数据,及音频、视频等非结构化数据。只有将这些数据集成起来,向用户提供一个统一的视图,数据挖掘、搜索引擎等工具才能有效地进行工作[2]。目前对结构化和半结构化数据集成的研究采用中间件技术和基于XML的数据模型和模式定义语言、查询语言实现,已经获得一定的进展,而对于系统中存在大量的图形、图像、音频、视频等无结构化数据,这些数据没有统一的模式描述,很难进行数据集成[3]。因此对无结构化异构数据源集成技术的研究具有重大的现实意义和紧迫性。

1 无结构化数据表示

1.1 元数据表示

数字图书馆中数据的特征是由元数据来表示的,元数据是关于数据的数据[4],它说明了其它数据的特征和属性信息,如数据结构、数据索引,数据的域等。根据元数据对数据的描述层次不同,元数据分为模式级元数据(对数据的结构、类型、一致性约束等进行定义)与语义级元数据(对数据的语义概念,如书目信息中的作者、出版日期等进行描述)两类。

对于数字图书馆中的无结构化数据,可以使用元数据描述基于主题概念的相关信息,如对一个图片内容的介绍,这些元数据可认为是语义级元数据。元数据对图片、视频、音频等无结构化数据资源的查询与获取非常重要。在某些情况下,可能需要基于无结构化数据的内容结构进行查询[5],如根据图片的像素点的特征向量进行匹配查询,这些特征向量是模式级元数据。然而一般情况下,用户需要根据数据的分类等语义级元数据描述信息进行查询,如根据电影名、电影类型,电影导演、男女主角,电影简介等查找电影的视频数据,因此,语义级元数据给无结构化数据赋予了更多关于内容的描述信息。

通过使用元数据,可以对无结构化数据进行查询等相关操作,由于无结构化数据内容的查询是近似查询,语义信息对提高查询无结构化数据的精确性是非常重要的,并且语义信息对实现无结构化数据的集成也是必需的,因此需要对无结构化数据的语义信息进行精确定义。

1.2 无结构化数据的语义对象表示

结构化数据可以存放在关系型数据库和面向对象数据库中,这些数据源具有严格的数据模型和外在的模式定义,模式是指数据源中的数据类型和逻辑组织形式等信息,比如在关系型数据库中一个表的定义就是一个模式,它描述了这个表中的属性名、属性的排列顺序、属性的域、主键和外键等信息,结构化数据集成中主要考虑如何根据数据源模式建立一个全局的模式,这个全局模式定义了系统中的数据内容和数据的逻辑组织形式,用户的查询语句针对全局模式生成,这种集成方式也称为模式集成。

无结构化的数据源只有一些描述性的语义信息,没有外在的模式定义,因此很难采用上述方法对数据本身进行结构化转换。本文利用面向对象的思想,将无结构化数据源中的每个数据看作一个对象数据,例如一部电影看作一个电影对象数据,对象数据及其相关语义元数据看作一个整体,即一个语义对象。这样无结构化数据源抽象为语义对象的集合。

定义1:语义对象SO(Semantic Object)是一个三元组:

SO∷=<ID,S,O>

其中,ID是对象的标识;S是SO的语义信息的集合,即语义级元数据;O是SO的对象数据的集合,比如一部电影可能有多个MPEG文件,共同组成了O。S中有O的URI(Uniform Resources Identifier),指明了O的存储位置。这样,不同类型的无结构化数据都可用统一的语义对象来表示,有助于数据集成的进行。

1.3 基于XML的全局语义对象表示

数据源中数据的语义对象称为局部语义对象,比如一部电影的MPEG文件、它的Marc信息分别看作是语义对象的O与S。由于数据源的元数据的数据模型多种多样,内容大小也相差很大,因此在数据源之上,需要建立中间层,中间层提供给用户的是一种统一的语义对象形式,称为全局语义对象,用户的查询针对全局语义对象进行操作。由于对象的语义信息变化较大,并考虑到数据的交换标准一致性,文章采用XML作为语义信息的存储模型,XML层次结构既能满足表达语义信息的复杂性,又符合国际通用的交换标准,能够很好地实现数字图书馆的互操作。

对于数据源中不同的元数据形式,系统应实现不同的转换程序,从数据源的元数据信息抽取有用的数据项转换为全局语义对象中的语义信息S,存放在语义信息库中。

全局语义信息的部分DTD为:

<!ELEMENT DCMeta(Identifier,Title+,Publisher+,Contributor+,…)>

<!ELEMENT Identifier(#PCDATA)>

<!ATTLIST Identifier Qualifier CDATA #REQUIRED>

<!ELEMENT Title(#PCDATA)>

<!ATTLIST Title Qualifier CDATA #REQUIRED>

<!ELEMENT Publisher(#PCDATA)>

<!ATTLIST Publisher Qualifier CDATA #REQUIRED>

<!ELEMENT Contributor(#PCDATA)>

<!ATTLIST Contributor Qualifier CDATA #required>…

2 一种数据集成方案

通过将无结构化数据表示为语义对象,根据统一的标准将不同数据源中的语义对象转换为全局数据对象,系统可以对无结构化数据进行统一的存储和查询操作,实现了无结构化数据的集成。本文提出了一种无结构化数据的集成方法,系统的体系结构图如图1。

主要模块介绍如下:

2.1 用户界面

系统提供给用户统一的查询界面,可以通过语义进行模糊查询,例如,用户希望查询题名包含“菜谱”的所有资源,系统将把所有数据源中题名包含“菜谱”的对象以列表项的形式返回给用户,每一项中有该对象的元数据信息、对象数据的超链接。用户点击超链接后,将显示对象数据,比如点击MPEG文件的超链接后,将播放这个MPEG文件。

2.2 请求处理

请求处理模块根据请求查询元数据库,主要对库中基于XML的语义信息进行匹配查询,根据符合匹配请求的XML项得到相应的对象数据的URI,根据URI分别对内容管理器、电子图书库、电子报刊库等数据源执行查询,把查询结果返回给用户界面。

2.3 元数据库

在元数据库中存储全局语义对象的URI和基于文本的XML语义信息,以及XML的索引表。

2.4 元数据转换

该模块将局部对象的URI和语义信息分别转换为全局的URI和基于XML的语义信息,并存储在元数据库中。

2.5 内容管理器

内容管理器是无结构化数据资源存储管理系统,能够对无结构化数据进行有效的存储和管理。它以统一的格式存储各种形式的无结构化数据,如图片、流媒体等。内容管理器中拥有数据对象的目录信息。通过这些目录信息,内容管理器可以根据用户的请求,使用一系列搜索技术来定位存储对象。

2.6 导入系统

导入系统将电影、音乐、博士论文等数据导入到内容管理器中,在导入的同时,把内容管理器分配给数据的惟一标识作为全局对象的URI的一部分传送给元数据转换模块。

系统根据语义对象的概念对无结构化数据实现了语义级集成,局部语义对象的元数据被转为全局对象的元数据存储在元数据库,查询就不必再分解成针对局部对象的元数据的子查询,提高了系统的查询效率。

3 结 论

本文讨论了实现数字图书馆需要首先解决的数据集成技术,分析了无结构化数据集成系统面临的问题,提出了语义对象的概念,描述了基于语义对象进行无结构化数据集成的思想。由于无结构化数据没有外在的模式定义,不能或很难从对象数据中提取出模式,传统的模式集成方式不适用于无结构化数据的集成。基于语义对象的集成较好地解决了这个问题。最后提出了一种无结构化数据的集成方案,实现了基于全局语义对象的无结构化数据的集成。

参考文献

[1]Y.Papakonstantinou,Pavel Velikhov.Enhancing Semistructured Data Mediators with Document Type Definitions.ICDE,Sydney,Australia,1999.

[2]王志丽,樊玉敬.XML在数字图书馆中的应用研究[J].情报科学,2002,20(12):1305-1307.

[3]孟小峰.Web数据管理研究综述[J].计算机研究与发展,2001,38(4):385-395.

[4]V.Kashyap,A.Sheth.Semantic Heterogeneity in Global Information Systems:the Role of Metadata,Context and Ontologies.Cooperative Information Systems:Current Trends and Directions.M.Papazoglou,G.Schlageter (editors).Academic-Press,Springer-Verlag,1997:139-178.

[5]Kjersti Aas,Line Eikvil.A survey on:Content-based Access to Image and Video Databases.Report 915,Norwegian Computing Center,March 1997,Available at http:∥www.nr.no/home/kjersti/video.html

猜你喜欢
数据集成元数据数字图书馆
基于数据集成的水上项目国家队数据库网络管理平台的设计与开发