李卫峰
(江苏技术师范学院图书馆,江苏 常州 213001)
图书馆数字资源建设从建立书目数据库开始,到自建数据库、集团采购、自主购买数据库资源等,已经建立起庞大的数字资源。如何把众多分散的数字资源整合起来,向用户提供统一、全面、功能强大的资源环境和服务环境,使用户能快速、准确地获取所需的数字资源,对于数字图书馆的发展来说意义重大,数字图书馆异构数据的集成研究主要也是解决这个问题。
数字图书馆是一个数字化的资源数据库系统,它将分散于不同地理位置的信息资源以数字化的形式存储,以网络化的方式相互连接,提供及时利用,实现资源共享。在计算机网络和数据库技术的支持下,虽然理论上数字图书馆的资源可以被无障碍地共享,但各资源数据库由于开发厂商不同,数字图书馆数据异构现象非常严重。主要体现在:
①各数据库使用不同的操作系统;
②使用不同的数据库管理系统;
③存在于不同的物理位置,且硬件配置各不相同;
④采用的库模型、数据检索语义不同等。
不同的应用系统可能使用不同的元数据标准,如图书馆管理系统大多采用MARC元数据标准,而自建数据库可能各个数字图书馆根据各自情况采用的元数据标准都不同。
数字图书馆中的元数据存在着多种格式,不同的电子资源数据库采用不同的元数据标准,数据集成系统就要对这些元数据进行统一转换,转换成一种元数据,从而解决元数据的异构性。
通过分析转换表元数据映射方案思想,建立了一个“多对一”的元数据映射方案,方案建立了一个统一的元数据标准,考虑DC元数据标准的优点,建立的元数据参照DC元数据标准,其他元数据标准都将转换成这一标准,其关系如图1所示。
图1 元数据映射方案
从实现的体系结构的角度出发,信息集成技术经历了以下几个发展阶段:
在盾构完成穿越桥梁桩基后,对穿越高铁影响范围内的管片,利用管片上的注浆孔自下而上进行二次注浆,浆液采取快速凝结的双液浆,注浆压力不大于0.4MPa,以确保管片壁后空隙填充饱满。
联邦数据库的体系结构如图2,数据源是独立的,通过数据源之间的数据交换格式进行一一映射,一个数据源可以访问任何其他数据源提供的信息。
这种系统开发时间太长,工作量大,扩展性差,实现代价较高。
图2 联邦数据库体系结构
Mediator中间器法体系结构如图3所示。Mediator中间件系统是通过提供所有异构数据源的虚拟视图来集成它们,这里的数据源可以是数据库、遗留系统、WEB数据源等。该系统向下协调各数据源,向上为集成数据的应用提供统一的数据模式和数据访问的通用接口,为用户提供一个统一的数据逻辑视图。在这种体系结构中,中间层根本不实际存储数据,而是存储数据的映射模式。
这种系统不需要重复存储大量数据,并能保证查询到最新的数据,比较适合于高度自治、集成数据多且更新变化快的异构数据源集成。
图3 M ediator中间器法体系结构
数据仓库体系结构如图4,把来自多个数据源的数据副本,按照集中、统一的视图要求进行预处理和转换,形成统一的模式,存储到数据仓库中,用户的查询就是对数据仓库中的数据进行查询。
图4 数据库体系结构
这种系统的优点是建立系统的过程比较简单。缺点是数据重复存储、及时更新困难的问题,数据更新的效率将影响系统的可用性,同时单个数据源的扩展和维护会涉及到整个系统。
首先,联邦数据库和Mediator/Wrapper相比较:
①在Mediator/Wrapper系统中数据源添加和删除都比较容易,联邦数据库所有数据源都要添加彼此访问的接口,所以需要编写大量接口程序,开发难度高,而且不易扩展。
②Mediator/Wrapper的数据源不必是数据库,也可以是各种结构化、半结构化、无结构的XML数据等。而联邦数据库方式只支持数据库数据源的集成。
其次,Mediator/Wrapper和数据仓库相比较:
①Mediator/Wrapper实时性强,能保证查询的数据是最新的,它将用户基于全局模式提交的查询在系统运行时动态分解为针对每个数据源的查询,中间件通过包装器获得数据,经过整合后返回给用户,因此查询的结果都是最新的。同时查询结果都是由包装器对数据源进行,中间件只和包装器打交道,因此适合数据源的动态添加和删除。但是Mediator/Wrapper方式不能对历史性的全局数据进行有效的利用和分析。
②数据仓库要建立一个存储数据的仓库,定期对数据源中的所有数据进行预处理,形成符合仓库模式的数据,然后物化数据到数据仓库。数据仓库中的数据主要是历史和汇总的数据,供分析和执行人员进行决策分析使用。其特点是:查询的效率很高,但查询到的数据不能保证是最新的,并且如果仓库模式设计成静态的,当有新数据源加入或已有数据源发生变化时,对仓库的修改代价比较高。
针对数字图书馆数据的异构性和异构数据集成模型分析比较后,结合Mediator/Wrapper模型,提出了基于XML Web Service的数字图书馆异构数据集成方案。
基于XMLWeb Service的数字图书馆异构数据集成方案,利用Web Service对各个数据源进行封装,解决了数字图书馆中数据库异构性的问题;利用XML元数据映射,解决了元数据的异构性问题,其体系结构如图5所示。
图5 基于XM LW eb Service的异构数据集成方案体系结构
基于XMLWeb Service的数字图书馆异构数据集成体系结构由3层组成:应用层、中间层、资源层。应用层由应用界面组成。中间层由请求处理器和结果处理器组成。资源层主要包括各分布式图书馆数据库资源、包装器和Web Services组成。
应用层为用户提供应用界面,底层集成的数据源对用户是透明的,从用户的角度来看,并不认为底层有多个数据库,查询就像在一个数据库中进行的一样。各数据源返回的信息经系统处理后以统一方式显示在应用界面中。
当接收到应用层的命令请求时,由请求处理器将命令分析后分解成功能子命令并包装为SOAP消息,通过调用相应的Web Services,传送到相应的数据源包装器执行具体任务。结果处理器接受由各子数据源返回的XML形式的结果片段,整理合并后返回给用户。其中通过元数据映射解决元数据的互操作。
①请求处理器
请求处理器根据应用提交的命令,根据映射关系里的相关规则,将应用分解为对应各局部数据源的子命令,并将子命令传送到对应的数据源包装器执行实际数据的操作。
②结果处理器
各数据源的执行结果由资源层返回给中间层后,由结果处理器对结果重新组合,返回给应用程序。
③映射关系
主要规定XML全局元数据的标准以及XML全局元数据和局部元数据的映射规则。
集成系统中一个重要的组件就是关于各个异构数据源的包装器(Wrapper),使各数据源对外提供统一的接口。数据源包装器是对应各数据源的一个包装层,它的主要任务是包装数据源的模式与数据,将中间语言功能命令映射为特定数据源模式可识别的实际物理命令,并把从底层数据源中抽取的数据转化成统一的XML数据格式。本系统为不同种类的数据源开发对应的包装器。将各个包装器发布成为多个Web Services,对外提供统一的接口接收命令请求,对数据源的调用实际上是对包装器Web Services的调用。
基于Web Service技术异构数据集成具有简单、开放、灵活、动态等特点,它易于其他系统的集成,从而提供了一种数字图书馆异构数据源数据集成的有效方法,该方法能够有效解决数字图书馆数据共享和交换的问题,实现数字图书馆异构数据的互联互通,但是基于Web Services的异构数据库数据集成的具体实现技术还有待进一步研究。
[1] 冯少荣.基于XML的web数据集成技术的研究.计算机应用与软件,2005(7).
[2〕 孟小峰.Web信息集成技术研究.计算机应用与软件,2003(11).
[3] S.Abiteboul,P.Buneman,D.Suciu.Data on theWeb-From Relations to semi structured Data and XML.Morgan Kauffmann publishers,2000.
[4]A.Doan,P.Domingos,A.Levy.Learning Source Description for Data Integration.In Proceedings of the InternationalWorkshop on theWeb and Databases,2000.
[5]王志波,裘国永.基于XML的异构数据库中间件研究.郑州轻工业学院学报:自然科学版,2008(3).