李 超 王 亮 杨学印
〔摘 要〕基于网格的数字图书馆构建成为解决数字图书馆中资源共享及协同的主流技术。本文对当前基于网格、语义网格和知识网格的数字图书馆研究现状进行了概述和分析。针对当前研究的不足,分别就基于网格的数字图书馆仿真及原型系统开发、基于语义网格的语义互操作、基于知识网格的知识服务提出了数字图书馆研究的未来发展方向。
〔关键词〕数字图书馆;网格;语义网格;知识网格
〔中图分类号〕G250.76 〔文献标识码〕A 〔文章编号〕1008-0821(2009)03-0074-04
广域、分布、异构、动态、自治Internet环境中数字图书馆(Digital Library)构建的目标是利用先进的技术,实现Internet上各孤立数字节点上资源的共享与协同,为用户提供透明的访问接口。随着计算机技术、信息技术、分布式计算技术的发展,基于网格(Grid)的数字图书馆构建成为当前图书情报学领域研究的热点问题之一[1]。广义上的数字图书馆具有丰富的数字化资源、网络化存取、信息分布检索和资源整合等基本特征。狭义上的数字图书馆主要是基于物理图书馆,将物理图书馆的传统优势转换为信息服务主体的资源优势和服务优势,适应互联网对信息服务主体、服务客体、服务模式和服务理念的改变[2]。网格是继Web之后新的分布式计算平台,是指在动态变化的多个虚拟机构间共享资源和协同解决问题、构筑在互连网上的一组新兴技术。它将高速互连网、高性能计算机、大型数据库、传感器和远程设备等融为一体,为科技人员和用户提供更多的资源、功能和交互[3]。我国基于网格的数字图书馆研究,是伴随着网格概念的提出和网格技术的应用而发展的,目前已取得了一些阶段性的成果,但需要解决的问题还很多。为了对当前的研究现状进行总结和推动未来研究的发展,本文分别就基于网格、语义网格和知识网格的数字图书馆研究现状进行了概述与分析,最后提出了数字图书馆研究的未来发展方向。
本文第2节对网格技术研究进展进行了概述,第3节对基于网格的数字图书馆研究现状进行了概述与分析,第4节给出了数字图书馆研究的未来发展方向,第5节对全文进行了总结和对未来研究工作进行了展望。
1 网格技术概述
随着OGSA、OGSI、WSRF和GT4等规范、体系结构和技术的应用和推广,网格成为开放、异构环境下构造松耦合、组合化分布式应用的主流技术[4-6]。OGSA(Open Grid Services Architecture)把一切都抽象成服务,服务可以包括计算机设备、应用程序、数据,仪器等。将一切都抽象为服务有利于通过统一的标准接口来管理和共享网格上功能各异的资源。OGSA是网格中描述面向服务的体系结构SOA(Service-Oriented Architecture),它把网格服务看作是一种特殊的Web服务(Web Services),它们可能以不同的方式创建,用不同的程序语言实现,由不同的网格服务(Grid Services)开发者提供,网格服务请求根据特定的应用背景和需要由服务组合或服务间的协同工作来完成。
Web服务是基于XML的,能在异构的计算环境中开发分布式应用的一种技术。Web服务由WSDL描述服务、由SOAP作为客户和服务之间通信的消息格式、由UDDI作为服务的发布和发现。OGSI(Open Grid Services Infrastructure)是作为OGSA的核心规范被提出的,OGSI把一个有状态的资源刻画为一个封装资源状态的Web服务,把服务的标识、生命周期和资源状态紧耦合在一起,这样存在明显的不足。为了解决OGSI和Web服务之间的矛盾,2004年3月WSRF(Web Service Resource Framework)被提出,WSRF提出一个标准方法把Web服务刻画成有状态资源。WSRF正在替代OGSI,用在OGSA环境中构建网格核心服务的基础结构,WSRF核心服务和OGSA平台服务构成网格中间件。
2 基于网格的数字图书馆研究现状
按照网格客体的不同层次,可将网格分为资源网格、语义网格和知识网格3个从低到高的层次,分别对应于处理内容为资源、语义信息、知识的网格。资源网格包括通常的计算网格和数据网格,直接在Web之上的是资源网格。语义网格在资源网格以上,为上层应用提供信息的语义互操作。而知识网格的主要功能是从底层的数据和语义信息中发掘知识、处理知识和应用知识。本文以“数字图书馆”作为检索词,对清华同方全文数据库中从2003年至2007年末全国的所有核心期刊以关键词作为检索项进行了模糊匹配,共检索到学术论文4 905篇。在这4 905篇论文中,与“网格”作为关键词精确匹配的有72篇,与“语义网格”作为关键词精确匹配的有7篇,与“知识网格”作为关键词精确匹配的有11篇。以上数据说明,当前研究主要集中在基于一般网格技术的数字图书馆构建,而基于语义网格和知识网格的数字图书馆研究还不是很多。以下分别就基于网格、语义网格和知识网格的数字图书馆研究进行了概述。
2.1 基于网格的数字图书馆
现有的数字图书馆,还是Internet世界中一个个孤岛,用户在检索信息时,需要登录不同的站点进行检索,给用户的使用带来极大的不便。如何采用先进的技术和方法,将Web上的数字图书馆联合起来,实现数字图书馆之间的互操作,已成为数字图书馆界研究的主要问题之一。OAI-PMH框架通过元数据的互操作实现了数字图书馆的互操作,克服了分布式搜索无法解决的规模问题。而网格计算技术与传统的分布式计算不同之处在于,关注多机构之间大规模的资源共享和协同工作,提供了资源共享的基本方法,在解决异构平台兼容及集成已有系统方面有着独特的优势。
文献[7]将网格技术与元数据采集方法相结合,提出了一种增强数字图书馆互操作的新框架——数字图书馆网格DL Grid,即在原有OAI-PMH框架的基础上引入Grid的概念,利用网格技术更好地解决数字图书馆资源发现、整合、跨仓储检索等问题,克服了传统数字图书馆互操作方案的局限性,实现世界范围内的联邦数字图书馆。为了将网格、OAI-PMH框架和数字图书馆集成统一整体,文献[7]还提出了一个3层DL Grid结构模型,即资源层、网格中间层和应用服务层。其中资源层由广域分布的数字图书馆组成,构成整个DL Grid的信息提供者,网格中间层利用开放的网格技术和OAI-PMH协议,屏蔽资源层中的分布、异构特性,实现元数据的发现、采集、组织、存储等功能,向网格应用层提供透明、一致的接口。应用服务层是信息服务提供者,在集成下层元数据的基础上,通过单一的服务接口为用户提供增值服务。文献[8]提出了将数字图书馆分为计算网格层、信息网格层和知识网格层。这三层之间的关系对应于数据、信息、知识间的关系。数据、信息、知识具有层次关系,是信息增值链上的3个层次,每个层次代表着信息加工的不同阶段。相对应的数字图书馆的网格层次也对应着3个阶段,即计算网格层完成海量数据的访问,信息网格层构建统一检索平台,知识网格层则实现知识的自动积累,建立知识链接网络,从而解决知识管理的问题。文献[9]针对个人数字图书馆信息检索问题,提出了一个检索策略模型。将个人数字图书馆架构在P2P网格之上,创建了一个分布式的信息检索环境,并采用Z39.50/SRW/SRU信息检索协议实现了个人数字图书馆的信息检索,为网格环境中个人数字图书馆信息检索技术提供了理论基础。
2.2 基于语义网格的数字图书馆
语义网格的概念是随着语义Web和网格的同步发展而提出的,是语义Web在网格中的应用。语义Web被定义为当前Web的扩展,语义Web的目的是增加无结构Web的内容,用于实现机器翻译信息,改进Web应用的潜能。而语义网格是网格和语义Web之上的层次,元数据和本体在语义Web的发展中扮演了一个关键的角色。元数据是用于描述数据的数据,本体是概念模型的明确的规范说明,是对某领域的共享理解,经常被表示为类、关系、功能、原理和实例的结合[10]。本体描述语言是用来描述本体的,它让用户可以为领域模型编写清晰、形式化的概念描述。目前W3C推荐的本体语言主要有:XML、RDF/RDFS、DAML+OIL、OWL等。图1表示了本体描述语言的层次结构。其中XML作为元数据交换和处理的通用语法,RDF作为Web元数据的描述语言,RDFS、DAML+OIL、OWL作为Web的本体描述语言。
在语义网格中,网格服务可以用与自动服务发现的本体相联系的元数据注释。从服务分层的角度语义网格中服务的层次结构如图2所示。将语义网格技术用于数字图书馆的构建,解决数据集成、资源共享、语义检索的问题,已引起了部分研究者的注意,取得了一些阶段性的研究成果。文献[11]结合语义网格中的理论和关键技术, 构建了一个四层体系架构的智能化数字图书馆知识推送服务系统模型,将系统模型划分为原始数据层、知识处理层、表示层和用户层,给出了语义相似度和关联相似度的计算公式,并详细论述了系统实现的整个流程。文献[12]引入知识地图技术,认为应用知识地图技术可以实现数字图书馆领域本体的聚类,形成数字图书馆本体知识地图,并以此为基础,构建语义网格环境中数字图书馆知识组织的语义互联模型。文献[13]探讨了语义网格环境中数字图书馆知识组织的目标与内容、知识组织方法与知识组织过程。文献[14]提出了语义网格环境中数字图书馆的概念模型,探讨了语义网格环境中数字图书馆知识组织的关键技术与服务,在此基础上,遵循OGSA标准和语义Web标准,构建了基于语义网格的数字图书馆知识组织模型,并从知识组织、知识服务、服务组合3个方面对此模型进行了分析。
2.3 基于知识网格的数字图书馆
2001年11月,Fran Berman在《Communications of the ACM》上发表了短文“From Tera Grid to Knowledge Grid”,在这篇文章中提出了知识网格这一概念,并提出知识网格的主要研究内容是:利用网格、数据挖掘、推理等技术从大量在线数据集中抽取和合成知识,使搜索引擎能够智能地进行推理和问题回答,并从大量数据中得出结论[15]。诸葛海教授认为:“知识网格是一个智能互联环境,它能使用户或虚拟角色有效地获取、发布、共享和管理知识资源,并为用户和其他服务提供所需要的知识服务,辅助实现知识创新、协同工作、问题解决和决策支持。”知识网格的本质是要实现知识的共享与协同,利用知识网格技术解决数字图书馆中知识的发现和增值是一理想的选择。
文献[15]分别从知识网格的概念、基本理论、体系结构及知识网格技术与数字图书馆信息资源的组织开发几方面进行了论述。文献[16-19]分别就知识网格的原理、网格知识服务的架构与本体规范、知识服务的描述、发现及工作流组合和知识网格在英国e-Science项目上的应用进行了概述。文献[20]对知识网格在知识管理中的作用进行了阐述,提出了知识网格有利于知识的交流、有利于智能化的知识管理、有利于为知识管理提供统一的平台、有利于有效的组织和提炼知识、有利于隐性知识向显性知识转换。
3 基于网格数字图书馆研究的未来发展方向
从以上研究成果可以看出,尽管我国的科研工作者在基于网格的数字图书馆研究领域进行了努力的探究,取得了很多有价值的成果,但取得的成果主要集中在将网格相关概念、模型框架、相关技术应用到数字图书馆的构建中,提出了基于网格数字图书馆构建的基本理论、体系结构、模型框架等。当前文献很少见到原型系统的实现、模型框架中具体算法的设计及面向实际数字图书馆构建的解决方案。结合数字图书馆未来发展趋势和目前亟待解决的问题,本文提出了基于网格的数字图书馆研究的未来发展方向如下:
3.1 基于网格的数字图书馆的仿真及原型系统的开发
网格技术作为一种新的分布式计算技术,正在世界范围内引起各国研究人员的注意,每年的研究成果层出不穷,而网格技术在各行业的应用也正逐步展开。基于网格的数字图书馆的研究应借鉴这些研究成果,将有益于数字图书馆构建的理论、模型框架、关键技术和方法借鉴过来,开展数字图书馆构建的仿真或原型系统的开发,这样才能检验研究中提出的理论和方法的正确性,及时发现存在的问题,为更大范围内数字图书馆的构建提供实际经验和技术的支持。
3.2 基于语义网格的语义互操作
数字图书馆中不同节点间的互操作是实现无缝连接的基础,是实现异构网络环境下资源共享与协同的关键。而基于语义网格的语义互操作是屏蔽底层硬件、软件、数据等资源及实现上层服务组合和分布式检索的有效途径。数字图书馆中的语义互操作最终体现为语义网格服务间的互操作,因此需要对服务的元数据描述、服务的领域本体构建、服务间组合算法、服务间协同算法、服务的自主计算、服务的组织方式、分布式协同检索算法等进行深入的研究,并通过仿真或原型系统的运行对某些关键性能指标进行验证。
3.3 基于知识网格的知识服务
数字图书馆的最理想目标不仅是提供异构网络环境下的信息共享,而是提供知识的共享和知识增值。知识发现、数据挖掘和知识管理等是人工智能领域的重要研究方向,而基于知识网格的数字图书馆的构建将随着其它领域的研究进展而受益,很多关键的技术难题还有待解决,可以说是任重而道远。而数字图书馆中的知识服务是未来数字图书馆提供的高级服务,是数字图书馆能发挥其优越性的重要体现,是利国利民的巨大工程。针对数字图书馆中知识服务的具体情况,未来的研究将集中在数字图书馆中知识的描述、知识的发现、知识的集成、知识的检索、知识的推理、基于知识的机器学习、知识增值等。
4 结束语
本文在查阅大量参考文献的基础上,对当前我国基于网格的数字图书馆研究现状进行了概述和分析,最后针对当前研究的不足及未来数字图书馆的发展,提出了基于网格的数字图书馆研究的未来发展方向。数字图书馆的构建是一巨大的工程,涉及到不同学科领域的交叉,面对的方法和技术难题需要不同知识背景的研究人员协力解决。本文下一步的研究工作将对基于语义网格的数字图书馆中服务间的组合、协同及分布式检索算法进行研究。
参考文献
[1]周军.基于网格技术的数字图书馆建设[J].图书馆论坛,2007,27(4):33,52-54.
[2]杨莹.数字化图书馆的概念界定与要素分析[J].现代情报,2007,(11):87-89.
[3]Foster I,Kesslman C,Tuecke S.The Anatomy of the Grid:Enabling Scalable Virtual Organizations[J].The International Journal of High Performance Computing Application,2001,15(3):200-222.
[4]Foster I,Kesslman C,Nick JM.The physiology of the grid-An open grid services architecture for distributed systems integration[EB/OL].Open Grid Service Infrastructure WG,Global Grid Forum.http:∥www.globus.org/research/papers/ogsa.pdf,2002.
[5]GGF,Open Grid Services Infrastructure(OGSI)version 1.0[DB/OL].www.ggf.org,2003.
[6]Czajkowski k,Ferguson DF,Foster I,et al(March 2004).The WS-Resource Framework,Version 1.0[EB].http:∥www-106.ibm.com/developerworks/library/ws-resource/ws-wsrf.pdf
[7]郑志蕴,宋瀚涛,牛振东,等.基于网格技术的数字图书馆互操作关键技术[J].北京理工大学学报,2005,25(12):1066-1070.
[8]李玉海,余玲,胡伟雄.数字图书馆中的网格层次结构分析[J].情报理论与实践,2007,30(2):256-258,288.
[9]张银犬,朱庆华.网格环境下个人数字图书馆信息检索策略[J].中国图书馆学报,2007,(3):56-59.
[10]Maozhen Li,Mark Baker.网格计算核心技术[M].王相林,张善卿,王景丽,译.北京:清华大学出版社,2006:54-62.
[11]赵杨.基于语义网格的数字图书馆知识推送服务系统研究[J].情报科学,2007,25(12):1869-1873,1882.
[12]韩毅,毕强.语义网格环境下数字图书馆知识组织的语义互联策略研究[J].图书情报工作,2007,51(8):21-25.
[13]毕强,牟冬梅.语义网格环境下数字图书馆知识组织、理论、方法及其过程研究[J].图书情报工作,2007,51(8):6-9,22.
[14]韩毅,黄微,崔春.语义网格环境下数字图书馆知识组织模型构建研究[J].图书情报工作,2007,51(8):15-20.
[15]王平.知识网格技术与图书馆信息资源的组织开发[J].现代情报,2006,(7):82-84.
[16]李进华.知识网格及其在E-Science中的应用(Ⅰ)——知识网格的原理[J].情报科学,2007,25(4):570-574.
[17]李进华.知识网格及其在E-Science中的应用(Ⅱ)——网格知识服务的架构与本体规范[J].情报科学,2007,25(6):914-920.
[18]李进华.知识网格及其在E-Science中的应用(三)——网格知识服务的描述、发现与工作流组合[J].情报科学,2007,25(9):1401-1408.
[19]李进华,王伟军.知识网格及其在E-Science中的应用(四)——知识网格在e-Science中的应用[J].情报科学,2007,25(10):1563-1569.
[20]楼靖华.知识网格及其在知识管理中的应用[J].现代情报,2007,(3):223-225.