基于网格的数字图书馆分布式资源存储模型分析

2012-01-28 18:55钟克吟
肇庆学院学报 2012年1期
关键词:存储空间存储系统备份

钟克吟

(肇庆学院 图书馆,广东 肇庆 526061)

网格是继Web之后新的分布式计算平台,是指在动态变化的多个虚拟机构间共享资源和协同解决问题、构筑在Internet上的一组新兴技术。网格的实质是要实现互联网上所有资源的全面连通,让全球资源共享成为可能。

在国内外网格的研究和应用领域中,数字图书馆都起着举足轻重的作用。它是网格应用中用于组织、利用和管理网格中信息资源的主体,是构成网格高层应用的信息基础设施。

随着计算机技术及网络技术的高速发展,数字图书馆呈现信息资源数据量大、数据类型复杂、服务平台众多、读者需求复杂等特点。数字图书馆面对的存储对象远远超出了传统图书馆的范围,传统的存储技术(如硬盘存储、光盘塔存储、光盘库存储等)已无法满足数字信息迅猛增长的需求,现有的网络存储技术如NAS(Network Attached Storage)、SAN(Storage Area Networking)等也不能有效地缓解如此巨大的存储压力[1]。然而,基于网格的存储技术,由于具有更高的容错与冗余度,并在负载波动的情况下有更好的性能和更低的成本。因此,构建基于网格的数字图书馆存储环境,不仅能全面有效地解决数字图书馆的资源存储问题,而且为网格用户方便、快速、高效地访问数据提供了支持和保障。

一、基于网格的资源存储的优势

(一)存储虚拟化

人们对数据信息的广泛需求导致存储系统的规模越来越大,信息资源的快速增长和管理能力相对不足之间的矛盾日益尖锐,对现有的存储技术提出了挑战,而网格技术则能较好地解决这一问题。

网格内信息资源的存储采用存储虚拟化技术、屏蔽硬件边界、进程通信和同步的复杂性,将物理存储设备映射到单一逻辑资源池,从而实现对存储系统的集中和统一管理,使客户的存储系统容纳更多的数据,也使更多的用户可以共享同一系统。网格环境下存储虚拟化实现了将地理上分布、系统上异构的多种资源通过高速网络连接起来,进行广域信息资源的分布共享。

(二)简化存储管理

空间数据的海量和动态变化的特点要求存储系统在容量、数据共享和管理策略上能够方便地升级。尽管现有的网络存储解决了其中的一些问题,但是,却使管理变得更加复杂。而网格存储以节点之间的备份为基础,可以在多重节点上进行内容管理与储存;它可以将NAS和SAN两种不同的技术、不同的管理工具、不同的存储应用融合在一起。因此,网格存储能使存储简单化,可以兼容不同的网络协议,支持不同的系统平台;在各个分布系统上运行而且同步,它具有平台透明、协议透明和容易扩展的优点;网格存储还具有很强的可升级性,这有助于采用低廉的成本扩充存储容量,提升管理能力。

网格存储能够集成广域网环境下的异构存储资源,并且将物理分布的各类存储系统和设备虚拟成单一的存储系统,能够提供统一的、透明的、安全的访问和管理机制,从而使物理上分布的存储、服务器、网络设备可以自主地接入到网格中,通过中间层的虚拟化技术,为网格应用层形成统一的访问接口。可见,网格存储具有大容量、网络化、容错性、高效性、自主控制、透明访问、异构性、协同化、动态性等优势[2]。

二、数字图书馆网格存储应用模型

(一)网格存储应用模型体系结构

数字图书馆网格存储应用模型是在现有数字图书馆存储系统基础上构建一个能够整合存储资源、为用户屏蔽底层异构存储资源细节、具有统一逻辑视图的高性能虚拟的存储系统。自下而上,该模型由资源层、连接层、存储服务层和应用层4个基本层次组成。

资源层具有分布和异构特性,为网格存储服务提供基本的网络环境、物理存储资源和逻辑存储资源,包括存储设备(磁盘阵列、光盘库和磁带库)、存储系统(DAS、NAS、SAN、IP存储和集群存储)、数据逻辑存储系统(文件系统、数据库、档案库和元数据集)等[3]。

连接层提供不同网格之间的接口,通过文件传输协议GridFTP,为资源层的物理存储资源和逻辑存储资源提供安全的数据通信能力,实现不同网格之间的通信。主要提供节点管理、路由服务等,完成管理域、节点的命名和节点间的路由和通信。

网格存储服务层是网格体系结构的核心,能够对分布式资源进行有效的管理,为整个网格应用提供高效、安全、可靠的服务。在网格资源层的基础上,通过连接层完成资源的有效共享,屏蔽网格资源层中计算资源的分布和异构特性,向应用层提供透明、一致的使用接口[4]。通过全局命名服务和存储资源代理将最上层的用户存储请求映射为异构分布存储环境中的底层存储操作,并提供核心服务包括:存储空间管理、元数据目录服务、副本管理和数据管理服务等。

应用层主要为用户提供各种业务应用,其中包括数字图书馆资源采集、组织、管理所需的存储;资源的发布与服务所需的存储和本地以及异地容灾备份所需的存储。用户在该层通过存储入口,经网格存储授权认证,向下层发出存取请求。

(二)网格存储应用模型系统功能

数字图书馆网格存储应用模型涉及比较多的功能模块,本文将研究重点放在网格存储服务层的4个功能模块。

1.存储空间管理

在存储网格中,有许多不同特点的存储系统和存储设备节点,它们的操作平台、传输协议、内部组成、存储容量、传输介质都可能各不相同。为了把所有存储空间进行有机的整合,可以将所有的存储空间虚拟为一个统一的资源池,向用户或应用提供存储空间。

存储空间管理模块的调度机制负责对所有的存储资源进行合理调配和规划,使存储空间管理模块与请求客户端之间就空间的分配进行协商,实现空间的动态分配。当客户端请求存储资源时,存储空间管理模块为资源分配空间,并调用传输服务将资源移动到选定空间内。当系统需要空间时,存储空间管理模块通过删除生命周期已经过期的资源回收空间,提高网格中存储空间的利用率[5]。

2.元数据目录服务

元数据目录服务是存储网格的核心技术之一,为用户身份认证、数据访问、安全控制和副本管理等提供信息支持,是网格资源管理的基础所在。

存储网格元数据包含用户元数据、存储节点元数据、应用元数据,所有元数据构成元数据目录,是存储访问、管理或配置网格资源的特殊数据库。使用元数据技术,实现存储网格环境下信息资源的异构集成和透明访问;而目录服务则提供不同资源的元数据集中存储,将分布异构的信息资源映射为各层元数据,在元数据和物理资源之间架起联系的桥梁,提供统一的接口为用户提供透明的高性能访问[6]。元数据目录服务对存储网格中所有元数据目录进行动态更新和维护,在此基础上,对网格中所有信息资源进行收集、组织和更新。

3.副本管理

在存储网格中,副本管理是将经常访问的信息资源复制,作为该资源的副本放置在距离终端用户“较近”的位置上。该功能模块能有效地减少用户的访问延迟和网络流量消耗,达到改善系统的负载平衡和数据的安全可靠性。如果资源的正本被破坏或丢失,用户对这部分资源的访问可以转移到其他节点的副本中,避免了访问失败。副本管理有效地提高了资源的可用性和存储系统的安全性。

4.备份管理

为了保障数字图书馆数字资源的高可靠性,备份管理模块采用本地系统备份和异地系统备份相结合的方式。

本地备份在存储系统本地进行监控、管理和备份策略的制定等;提供介质管理功能,包括磁带复制、磁带库以及驱动器共享和对所有备份以及恢复操作进行实时、历史数据分析。异地备份主要负责在异地备份系统进行远程数据的备份,提供同步、异步的基于逻辑层和物理层的数据备份能力,以及对异地存储系统的调度、管理、分级存储和备份策略的制定等功能。

网格技术强调各种资源的广泛共享和相互协作,网格存储将网格中分布的数据库、存储设备、文件系统等进行有机地整合,形成一个高可用性、可管理性、可扩充性和高安全性的网格存储环境,有效地满足数字图书馆资源存储的需求,是未来数字图书馆资源存储的发展方向。

[1] 余玲,李玉海.基于网格的数字图书馆资源存储研究[J].情报杂志,2007(9):105-110.

[2] 龚超,盛晓艳,华江锋.网格技术与信息资源存储和共享[J].电脑知识与技术,2007(2):342-343.

[3] 孙瑜,李志平.网格资源管理体系结构模型研究[J].计算机工程与应用,2003(17):26-29.

[4] 李莉.存储网格在数字图书馆中的应用[J].情报探索,2010(3):94-96.

[5] 刘波.基于存储网格的医学信息资源智能存储系统研究[J].兰台世界,2011(24):13-14.

[6] 程坤.数据网格中目录服务的研究与应用[D].首都经济贸易大学,2006(5):12-15.

猜你喜欢
存储空间存储系统备份
VSAT卫星通信备份技术研究
基于多种群协同进化算法的数据并行聚类算法
苹果订阅捆绑服务Apple One正式上线
分布式存储系统在企业档案管理中的应用
创建vSphere 备份任务
用好Windows 10保留的存储空间
天河超算存储系统在美创佳绩
旧瓶装新酒天宫二号从备份变实验室
高速信号采集及存储系统的信号完整性研究分析
基于3G的VPDN技术在高速公路备份链路中的应用