ZADL协作框架下数字资源长期合作保存策略探索*

2012-03-14 07:08胡绍军
大学图书馆学报 2012年3期
关键词:分中心数字图书馆

□胡绍军 刘 翔

1 前言

数字资源长期保存是对数字资源进行摄入、保存、管理,在一定条件下提供服务或转移保存的活动[1],近年来,数据长期保存已成为数字图书馆研究的一个重大课题。

2007年10月,参加北京iPRES会议的代表在本国或本机构长期保存的具体实践基础上,提出了在合作的基础上进行长期保存的规划,内容主要包括保存网络的建立、职责分配及政策制定等[2]。2008年11月,在北京召开的“数字图书馆高层论坛”又发出呼吁:全国图书馆和其他文献资源机构,积极参加全国数字文献资源合作长期保存体系,共建共享、可信赖管理、可靠服务、公开认证,尽快实现主要数字文献资源的长期保存[3]。

NSTL曾经对中国采购和使用数字文献资源较多的图书馆进行了调查。结果显示,我国图书馆界在保存模式上更倾向于合作保存,其中,大学及专业图书馆中选择合作保存模式的机构数量占多数[4]。从目前看,国内外图书馆界对数字资源的长期保存策略更倾向于合作保存模式,其中,美国斯坦福大学领导实施的LOCKSS项目是一个遵循OAIS规范的长期保存系统,以低成本、高安全性、分布式存储、支持协作保存、服务稳定,及遵循标准化协议的开发运行策略在欧美引起广泛关注,中科院也在积极参与这个项目[5]。LOCKSS与ZADL在架构上具有许多相同之处,其合作保存模式对ZADL开展数字资源合作保存有借鉴意义。

2 ZADL及其体系架构

ZADL是在浙江省教育厅领导下,全省高校共同参与的浙江省高校数字图书馆建设项目,总投资1.3亿元。ZADL的总体目标是要联合全省高校图书馆,以Cernet为依托,以CALIS和CALIS华东南地区文献信息中心为后盾,基本建成全省研究级学科文献保障体系的基础框架,为浙江省高等教育提供可靠的文献信息保障。其具体目标为:建成全省高校共享的国内一流的数字化文献信息资源库;建立覆盖全省高校的数字图书馆服务体系,包括省级服务中心和5个分中心,向全省高校用户提供数字资源服务。目前,ZADL一期已经上线统一身份认证、联合目录、统一检索、文献传递、虚拟参考咨询、特色数据库6大应用系统,初步实现了全省高校文献资源的整合与揭示。

在组织架构上,ZADL由技术组、服务组和资源组协同工作,保障ZADL日常的正常运行,为实现ZADL的联合保存提供了组织保障。

在技术架构上,ZADL由省中心与5个分中心组成,各分中心通过与省中心的核心交换机互联构成了一个星型的高速互联的网络,依托这个高速网络和各中心的存储资源可以构成一张基于IP SAN的网络存储架构,及总容量近700TB的存储资源,为实现ZADL的联合保存提供了硬件平台的支撑。

在合作模式上,ZADL是一个松散型的高校图书馆联盟组织,这与LOCKSS很相似。目前的LOCKSS已经由单个图书馆的长期保存行为扩大至图书馆之间的合作,从本质上更倾向于保障图书馆的利益[6],这与ZADL的建设目标是一致的。

3 ZADL数字资源合作保存的技术策略

ZADL目前整合的各类数字资源总数已达428种,其中大部分资源购买的是使用权,通过授权远程访问获取资源。对于浙江省高等教育文献资源保障体系重点建设项目,数字资源的长期保存与永续使用是ZADL后续建设必须面临和解决的课题。PREMIS认为,数字保存的目标是维持数字资源的长期可生存能力(要求被保存数字对象的比特流完整无缺并且能够从它所存储的载体之上读取)、可呈现能力(指的是能够将比特流转变为一种可以被人看,能够被计算机处理的能力)和可理解能力(包括提供足够的信息使得这些被呈现的内容可以被目标用户理解和认识)[7]。保证数字信息的长期读取涉及到很多方面,其中,最重要的还是数字信息保存技术策略的选择。如图1所示,本文将就ZADL合作保存中一些关键技术进行研究和探索。

图1 ZADL数字资源合作保存数据流图

3.1 建立ZADL元数据仓储

元数据最基本的用途就是管理数据,从而实现查询、阅读、交换和共享。数字保存活动中,出现了许多用于支持数字资源长期保存的元数据规范和框架,这些已有的规范在世界各地不同行业领域得到发展。对于ZADL这种松散型的数字图书馆联盟,可以采用基于OAI-PMH的元数据收割协议收割ZADL成员馆拥有的所有数字资源的元数据及其他符合要求的有较高学术价值的免费数字资源元数据,在省中心建立元数据仓储,存储、管理和维护数字资源元数据,各中心、成员馆作为联盟成员都可以像对单独一个仓储操作一样检索和利用这些仓储中的元数据。为此,需要解决以下几个关键问题:

3.1.1 元数据互操作

由于不同的领域存在着多种元数据格式,当用不同元数据格式进行资源描述、检索和利用时,就需要解决多种元数据格式间的释读、转换问题,即实现元数据的互操作,达到不同元数据格式间的信息共享、转换、跨系统检索。ZADL数字资源体系是由文献、图片、视频、音频、图纸等构成的主题教学、科研资源库,涵盖了采用不同元数据标准的多种类型的数字资源,可以通过解决资源描述过程中语义方面的差别,在语义层面上实现互操作,即采用元数据映射实现元数据的互操作。在映射过程中,被采用的标准格式应该在元素组成、元素语义定义和应用领域等方面具有普遍适应性,本身有较广泛的应用,能被多数系统识别。

在OAI-PMH元数据采集协议中,允许不同格式的元数据结构并存,但指定以DC作为互操作的元数据,采用元数据映射方法,支持不同元数据之间的互操作,此种方式转换脉络清晰,便于元数据的扩展及管理。由于ZADL数字资源类型具有复杂性和多样性,参与互操作的元数据格式会很多,映射过程也会较为复杂,因此同样可以选择DC作为中介元数据转换格式,其他各种格式都向这一中心格式转换,从而实现以中心元数据格式为中介的元数据格式转换。

具体方法是:应用DC元数据集并扩展DC元数据核心集,建立DC与不同元数据资源映射表,由ZADL服务提供者(省中心和各分中心)选择性收割数据提供者发布的元数据,经过整合映射后将不同的数字资源元数据尽可能映射成DC数据存放在本地,解决元数据的互操作问题。并在此基础上,对ZADL用户提供搜索引擎服务,实现仓储元数据标准的统一,和跨系统的广泛检索,向用户提供一个统一的数据检索界面,确保系统对用户的一致性服务。

3.1.2 元数据获取

(1)自建资源元数据收割

对于ZADL成员馆自建的数字资源,可以通过OAI-PMH收割元数据,包括OPAC数据库、本校学位论文库、学校文库、特色资源数据库等。由于这些数字资源由图书馆自己控制,可以通过编程的方式为这些数字资源添加OAI接口,元数据仓储通过此接口定期批量收割元数据。ZADL特色资源数据库目前已经实现了基于OAI-PMH协议自动收割各成员馆的元数据。

(2)引进资源元数据获取

对于开放底层数据接口的,比如超星电子图书、Apabi电子图书、OA资源等,可以参照自建资源元数据收割方式获取元数据。

对于有底层数据接口,但不对外开放的,如中国期刊网、万方数据网等,可由ZADL通过与数据商进行谈判、协商、适当付费等灵活方式获取。

对于没有提供OAI数据接口,不能通过元数据收割方式获取元数据的数字资源,通过谈判协商等灵活方式让数据商定期或不定期导出元数据,经过规范处理后再导入到ZADL元数据仓储中。

3.2 存储策略

3.2.1 建立基于SAN的三级合作存储体系

如图2所示,ZADL采用SAN分布式存储策略,ZADL各中心、成员馆之间的关系类似于LOCKSS联盟中的各个Caches,彼此之间互连,呈网状结构分布。这种结构下,只要建立相应的合作机制,就可以实现Caches间互相备份支持的目标,以及相互之间的协作保存,确保资源完整性和永久保存。

(1)自建资源合作保存:ZADL自建特色库及随书光盘资源,由省中心、分中心和成员馆联合保存。省中心保存全部自建资源,分中心按区域联合保存自建资源,成员馆建立高速的Cache,通过与各分中心同步保存日常本馆常用的资源,形成一个三级的联合保存模式。

(2)引进资源合作保存:由省中心——分中心——成员馆按责任分工联合保存,互为备份容灾,确保资源的永续服务。

图2 ZADL合作存储架构

省中心——分中心——成员馆三级合作保存模式,有利于ZADL及各分中心资源访问和保存,可以实现资源的合理布局,避免重复保存,防止因数据损坏造成服务中断,以及因信息缺失造成内容方面的遗漏。在服务上,各中心与所服务高校间的网络状分布,可以避免服务对象在地理布局上的“孤岛”现象。

3.2.2 优化存储资源,绿化ZADL存储网络

随着数据增长率的快速上升和持续的能量匮乏,存储系统自身的能耗状况已引起国际上数据中心的广泛重视,绿色存储开始成为人们关注的焦点。美国五角大楼已经开始使用Data Domain公司的数据复制工具帮助减少了军方数据中心的能量消耗。国际上也开始采用降低能耗的存储技术,如:对于离线数据和长期存档数据,继续使用磁带库;采用各种RAID级别和分层存储,最大程度地利用资源;实施高效的存储系统支持整合等等[8]。

ZADL省中心及各分中心现拥有的SAN存储容量约600TB左右,依托位于省中心的万兆核心交换及存储虚拟化技术为ZADL存储的动态调用提供了可能,可以实现存储资源的共享及最大化资源的利用,但同时也耗费了大量的能源。因此,在存储冗余性和系统高效性之间,必须找到一个好的平衡点。基于目前ZADL已经建成的分布式网络架构,可以通过构建层叠存储来绿化ZADL存储网络:

(1)对于时间敏感性的资源如近年的数字资源和性能敏感性的资源如元数据存储在ZADL省中心的SAN存储,依托ZADL IP SAN供所有ZADL分中心共享。

(2)对于访问量较低资源可采用磁带库离线存储于各分中心;各成员馆可采用低成本的SAS存储构建本馆的Cache,用于从分中心获取常访问的资源,提高终端用户的访问效率。

通过构建资源自动调度系统,对于经常访问的离线资源可自动调入分中心的SAN存储提高访问效率,而分中心SAN存储网络中访问量低的资源则自动调入分中心磁带库离线存储,降低整个系统的能源消耗,构建ZADL绿色存储网络。

3.3 数据检测与恢复

由于数字资源的载体易受到外界环境条件的影响,因此,必须对保存的数字资源进行定期检测,以保证数据真实性和完整性。ZADL可以借鉴LOCKSS模式,通过P2P对等式的分布式保存系统,采用轮询和评价机制对缓存内容进行轮询(Pool)和投票(Vote),确保ZADL电子资源数据的完整性和安全性[9]。

图3 数据检测与恢复拓扑图

如图3所示,ZADL各个中心均建设了基于FC SAN和IP SAN的存储基础设施并通过教科网实现了高速互联,依托这些基础设施为探索ZADL的合作保存系统构建提供了硬件及网络环境的保障。整个ZADL体系可以划分为5个三角形区块,每个三角形区块的分中心依托ZADL的元数据仓储来对其临近的分中心进行数字对象的轮询。同时,省中心会对每个分中心的数字对象进行轮询。考虑到对于海量的数字对象资源进行轮询操作是非常耗费网络和服务器资源的作业,为提高轮询的效率采用统计学的T检验方法来筛选抽检数字对象。对于丢失损坏的数字对象,立即通过IP SAN网络补充修复,实现分中心本地资源的动态更新、损坏修复、丢失补缺等功能,形成ZADL安全稳固的数据保存系统。

在ZADL组织层面上,各中心组成紧耦合的合作保存体系,模型的5个三角形区块可以相对独立地运行;在系统层面上,基于统计学抽样轮询策略的松耦合架构不但保证运行效率而且提高了安全性。

3.4 核心数据风干(Desiccation)

在数字图书馆数据保存策略中,迁移是目前实际运行中使用比较成熟和频繁的方法。为保证当前存储的数字信息总能被当前系统读取,采用数据“迁移”的方法,持续地将数字信息从旧的软硬件环境转换到新的计算机环境,是一种随着技术变化定期改变信息格式的处理过程。考虑到ZADL联合保存所涉及的资源众多,迁移工程量较大,同时迁移过程中会出现信息遗漏、失真等问题,因此,可依托ZADL元数据和对象数据的分布式仓储系统,依据ZADL资源评估体系和对ZADL统一检索系统日志数据的分析,对核心对象数据采用风干的方式予以数据风干,抽取数据的文本内容予以长期保存,通过构建专用的基于元数据的检索系统支持在线检索,格式化成通用文档格式如PDF格式予以展现。当前遵循UOML协议的文档均可方便地风干,如CAJ、PDG格式等。

3.5 安全管理策略

ZADL 采 用 SAE(Security Attribute Exchange),即安全属性交换,也可称为以虚拟联合的方式实现ZADL联盟的联邦认证,其模式为联邦认证的混合模式。SAE使用以SAML V2为基础的协议集,通过HTTP GET、POST以及redirect的方式在交互方之间传输用户实体信息。它实现了一种让不同域名下应用交换认证用户实体信息的机制,构建了浙江省高校图书馆间的认证机制。经过认证的用户可以依托基于元数据仓储的统一检索系统,通过安全高效的资源调度系统获取所需资源。其中,本分中心的资源本地获取,其他分中心的资源依托ZADL统一检索系统及文献传递系统延时获取。

4 ZADL合作保存中的管理策略

在数字资源长期保存中,管理是从整体上进行宏观规划、组织和控制,是数字资源长期保存的基础与保障。内容主要包括:资源选择、责任体系及合作机制、知识产权等。

4.1 资源选择

在开展数字资源长期保存工作前,第一个需要解决的问题就是如何确定保存资源的范围。事实上,保存所有数字资源不仅没有必要而且也很难做到,因此如何做到恰当地选择合适的资源作为长期保存的对象就成为了首要问题。高校图书馆的性质与任务决定了ZADL在数字资源的长期保存中,应对需保存资源的范围进行评估与界定,如对教学、科研有特别意义的,容易丢失的、与未来有关联的、有重要价值的数字资源及重要的科学数据,特别是“原始数据”等相关元素[10]。其次,是要建立一套评价数字资源馆藏级别的模式,将数字资源分成不同的保存等级,等级的不同决定了资源的存储介质和应履行的存储职责的不同。如:国家图书馆就建立了长期保存、不定期保存、临时保存三级保存制度,规定了相应的存储介质、存储职责[11]。

4.2 合作机制

目前,ZADL各中心都具备了适合长期保存的软硬件环境和存档条件,都有条件成为承担保存任务的责任体,各自应当具备什么权限就成为考虑的核心和关键问题,其相互之间如何进行保存资源种类的分配,会对整个网络的有效运行产生重要影响。因此,要建立彼此间的责任体系,形成长期保存资源和责任体之间的组合,明确各责任体之间的义务、责任与利益关系,形成相应的合作与责任分担机制等,作为开展合作保存的组织保障。

4.3 法律问题

数字时代,出版商实行的是授权制度,也就是说目前图书馆采购的很多外购资源库均未获得资源的所有权,而只是以获取“使用权”的方式购买和利用数字资源。因此,如果未获得版权所有者的许可,也没有法律“合理使用”、“法定许可”等条款的支持,数字资源长期保存工作就很容易触犯知识产权法。为此,国外一些成熟的做法可以为ZADL所借鉴。

一是借鉴LOCKSS的许可证管理模式,通过ZADL与数字资源出版商进行谈判与协商,由联盟向出版商获取建立数字馆藏的法律授权(许可权),以对远程访问资源进行收集、保存,并允许成员对所有ZADL馆藏资源进行访问,明确资源合理使用范围与法律责任,规避长期保存与使用上的知识产权问题。许可权一般包括[12]:收集和保护当前获得的资料,可以使用这些与最初的许可证条款一致的资料等;允许通过ZADL获得授权的出版商表单搜索在线电子资源,越权采集将被拒绝。

其次,ZADL可以联盟的形式与出版商协商,在集团购买谈判中增加“永久保存”协议条款,获得对物理媒介的许可,以长期保存这些数字资源。目前,英国教育信息系统联合委员会JISC已经制订了数字资源采购协议模型,其中就包括长期保存条款;荷兰国家图书馆已经与ELSEVIER、KLUWER、BIOMED等出版商签订了长期保存条约;NSTL也专门对资源采购中的“数字资源长期保存要求”做出规定[13]。

目前,欧美等国都在建立适应本国的数字资源长期保存政策来确保数字资源长期保存的顺利开展,高校联盟的合作保存也有了比较成功的案例,如英国的CEDARS、美国的LOCKSS项目等。我国高校数字图书馆联盟的建设已经取得了一定的成绩,但联盟的合作保存研究和实践目前还很少。ZADL二期建设如能在这方面做些成绩,对我国高校文献资源保障体系的可持续发展和资源的可持续利用将是一件有意义的工作。

1 张晓林等.数字文献资源长期保存协议框架.现代图书情报技术,2008(11):1-6

2 吴振新等.数字资源长期保存:当前进展和最佳实践——2007年数字资源长期保存国际会议(iPRES2007)综述.现代图书情报技术,2007(11):1-5

3 全国图书馆界呼吁建设国家数字文献资源长期保存服务体系.现代图书情报技术,2008(11):71

4 张玫等.中国图书馆数字文献资源长期保存现状调查.图书情报知识,2009(3):49

5 吴晓骏,黄珏.LOCKSS与电子期刊长期保存应用研究.情报资料工作,2007(5):45

6 张艳敏,马秀峰.中外数字资源长期保存策略比较研究.图书馆学研究,2009(6):29

7 张智雄.如何长期保存数字资源.[2011-10-25].http://www.edu.cn/bf_6472/20080910/t20080910_324287.shtml,2008(5):99

8 Rich Castagna.绿色存储专刊.[2011-10-25].http://www.searchstorage.com.cn

9 How it works.[2011-08-25].http://www.lockss.org/lockss/How-It-Works# Collecting

10 数字资源长期保存的关键问题探讨.[2011-10-25].http://www.syue.com/Paper/Culture/Study/261975.html

11 邢军.国家图书馆数字资源长期保存现状与研究.[2011-10-25].http://blog.sina.com.cn/s/blog_599ea7890102dr65.html

12 Lockss:For-Librarians.[2011-08-25].http://www.lockss.org/lockss/For-Librarians# Obtaining.2FConfirming-Publisher-Permissions-2

13 宛玲等.数字资源长期战略保存的管理与技术策略.现代图书情报技术,2005(1):58

猜你喜欢
分中心数字图书馆
浙江大学基础医学实验教学中心机能分中心
浙江大学基础医学实验教学中心机能分中心
图书馆
答数字
数字看G20
高速公路监控分中心网络配置探析
各地分中心 海选现场
去图书馆
成双成对
数字变变变