DAITSS核心界面与数据存储初探

2014-09-01 02:13袁晓明谷玉荣王飞
新世纪图书馆 2014年8期

袁晓明+谷玉荣+王飞

摘 要 仓储式长期保存系统DAITSS适用于建立已有数字资源环境的长期保存。论文基于对DAITSS数字资源长期保存系统的存储特性的研究,介绍了DAITSS保存系统的七个耦合服务模块,并探讨了其主要服务模块核心工作界面的功能、存储流程和存储资源的管理方式等,结合该系统的存储特点分析了DAITSS长期保存系统应用于苏州大学本地资源保存的可靠性和有效性。

关键词 DAITSS 数字资源长期保存 核心服务 存储管理

分类号 G250.7

Preliminary Study on the DAITSS Core Interface and Data Storage

Yuan Xiaoming, Gu Yurong, Wang Fei

Abstract Repository preservation system DAITSS is used for archiving organizations in existing digital resources environment. Based on the research of the DAITSS digital resources preservation, this paper introduces the seven service modules of DATSS, discusses the interface of the core service, the storage processes and the management methods of digital resources. Combined with the system storage features, it analyzes the reliability and validity of applying DAITSS in Suzhou University.

Keywords DAITSS. Digital Resources Long-term Preservation. Core services. Storage management.

目前,国内外已经开发出多种基于开放档案信息系统(OAIS)模型的数字资源长期保存系统,其中,DAITSS系统以其仓储式存储体系、规范化格式迁移及松耦合的模块化结构受到了越来越多的关注。本文拟对DAITSS的模块进行解析,并利用示例数据包对其核心内容——核心界面和存储管理两个模块进行具体分析,就该系统的权限、数据管理和实际应用进行初步探讨。

1 DAITSS系统模块概述

1.1 DAITSS简介

DAITSS(Dark Archive In The Sunshine State)是由佛罗里达图书馆自动化中心研究开发,并为佛罗里达州的11所公立大学图书馆提供数字资源库长期保存服务的一种开源长期保存系统。DAITSS作为一种机构仓储式后台保存系统,不提供用户直接访问接口,也被称为“黑色档案保存系统”。其区别于其他保存系统的最显著特点是:允许其成员机构通过授权的分发请求获取资源,但不提供获取其他用户保存的数字资源;不支持数字资源数据的采集,旨在对已有数字资源环境实现长期保存。

DAITSS系统通过将提交信息包(SIP)转化成一个可长期保存的档案信息包(AIP)实现数字资源的长期保存,不仅为数字资源提供了数据保存、管理和获取的仓储功能,更实现了数字资源格式规范化和格式迁移的积极保存策略[1]。其对存储机构所保存的资源规范化为开放的、基于XML格式的数据,并以最新的版本(如提交的word2003版本更新为word2010版)或后继格式的版本存储。目前,DAITSS系统可以识别超过600个文件格式并完全支持(即可以分析、描述并根据需要转换)其中的十几种常用格式,可实现文字、图片、音频及视频等格式数据的保存及规范。弗罗里达数字档案馆自2006年投入使用DAITSS长期保存系统以来,至2011年6月已摄取了29万个数据包,包括了3910万个文件,单一副本的存储量达87TB[2]。2010年起开发团队实现了将DAITSS v.1.x升级为DAITSS v.2版本,设计模块化和功能上的升级更方便了用户的使用配置和服务定制。

1.2 DAITSS服务模块

DAITSS v.2采用面向服务的架构,对单一的系统采用模块相互耦合作用进行数据包的处理。DAITSS系统的数据处理模块包括DAITSS核心界面(DAITSS Core)、病毒检测服务(Virus check)、描述服务(description)、行动规划服务(Action plan)、格式转换服务(Transformation)、XML解析服务(XML resolution)和存储管理(Storage)等七个模块,其具体结构及在数据保存处理中所起作用如图1所示。

图1 DAITSS v.2模块体系及存档流程[3]

DAITSS保存系统的存档流程为:将需要存储的文档及其Mets文件以信息的形式提交至系统界面,信息包进入DAITSS的存档工作区之后,保存系统通过调用数据处理模块检测提交信息包是否有效,结构是否完整,并在存档过程发送数据包,直至数据包以AIP的形式存储于系统数据库中。在数据包存档过程中,DAITSS Core和存储服务是数据资源的提交、存储的主要服务模块,并提供了管理和获取资源的对话界面,其余五个模块则为数据包在提交存储过程中后台调用程序。

(1)DAITSS Core是执行不同功能脚本和程序集合的面对用户的Web页面,其实现保存机构的数字资源提交、请求及管理操作功能,也是管理员对提交的数据包存储和管理的界面。

(2)病毒检测服务对提交至工作区的每个数据包文件进行病毒检测。若发现病毒,整个数据包将会复制到保存区等待管理员的处理;没有病毒的数据包则释放到下一步处理进程。endprint

(3)描述服务对给定的文件进行格式识别、验证和表征。描述服务使用DROID进行文件格式和版本的初步识别[4],通过JHOVE工具进一步进行验证和表征,并将JHOVE返回的技术元数据转化为标准格式的元数据。JHOVE的处理结果被解析映射至PREMIS文件中,PREMIS文件包含文件的识别和表征信息及描述服务的验证信息,该PREMIS文件被释放到下一个处理模块用于指导下一步进程。

(4)行动计划服务接收由描述服务的PREMIS文件,并从中提取格式信息,根据格式信息实行相应的行动计划。对于行动计划中需要格式转换的数据包,行动计划服务会反馈一个转换标识符至转换服务模块进行格式转换。

(5)转换服务基于行动计划提供的转换标识符对给定的文件进行格式转换。转换标识符用来寻找转换指令从而执行格式转换。

(6)XML解析服务对保存内容为XML格式的文件进行处理。XML解析服务下载XML内容文件中提到的任何XML模式,并创建一个压缩文件包保存于AIP中[5]。

(7)存储服务是管理员对存储数据包AIP进行管理、查询并对存储实体服务器实现分类和监控的页面服务。

2 DAITSS Core及其功能

DAITSS保存系统的成员机构通过Core界面提交信息包后,系统对数据包进行存档处理并最终将摄取报告反馈给用户的Core界面上,详见图2。

图2 数据包提交存档流程

在数据的存储过程中保存用户可在Core界面实时跟踪处理进程,管理员通过Core界面的不同标签页面监控和调整存储进程。通过Core界面可实现如下功能:

2.1 用户的设置和权限

DAITSS核心管理界面包括了账户、项目及用户的创建和管理。在进行数字资源存储之前,管理员用户需要对其保存机构或成员创建相应的账户、项目代码和加盟用户账号,并对同一保存机构的项目代码、账户与用户名进行有效关联后,保存机构方可通过自己的用户名登陆进行数据资源的保存。DAITSS用户包括管理员用户和加盟用户两种用户类型,管理员用户拥有对存储资源的所有权限,包括系统用户管理和数据资源存储管理;加盟用户仅具有提交存储数据包和查看其账户数据包的权限,在DAITSS核心界面可查看“dashboard”和“packages”标签中的有关内容。

2.2 数据包的提交及存档

DAITSS保存用户通过“packages”页面进行数据资源的提交。其提交的数据资源必须是一个包含有效数据资源及其描述mets文件的“tar”或“zip”格式的提交信息包(SIP),其描述性文件为XML格式文件,并包含了保存机构的账户、项目代码和所保存资源的基本信息要素。SIP数据包进入DAITSS的存档工作后,系统后台会验证其是否有效、结构是否完整,如果提交信息包有效,系统将其解析为一个工作区信息包(WIP)进行病毒检测、“per file”处理,并生成数据资源处理信息的mets文件,最终处理后的数据资源与处理信息的mets文件形成存储信息数据包(AIP)保存至数据库中,在DAITSS核心界面将摄取报告反馈给用户;对于无效的提交信息包,DAITSS系统会拒绝摄取,并返回拒绝报告。保存机构作为加盟用户可通过“packages”页面查询所提交数据包的信息、活动状态和保存时间,检索可存储数据包存储流程中的摄取报告或无效数据包的拒绝报告。

2.3 数据包处理的监测

DAITSS系统管理员用户通过监测工作区对SIP存档过程的处理进程进行监控。系统处理数据包时,WIP的地址被传递到摄取处理程序,工作区通过一系列Web服务和每个服务提供的WIP数据包更新信息控制其进展。工作区列表中可查看待处理数据包“idle jobs”及正在处理的WIP的数据信息,管理员用户可根据资源保存的具体情况选择停止或启动WIP数据包处理进程,灵活调整数据包处理的顺序。在数据包的处理过程中,会因为存储数据内容本身的格式错误或者系统网络不稳定等问题导致数据包存储无法进行下去,工作区会显示数据包“error”状态,管理员可以停止其进程,待问题解决后,脉冲后台或管理员将其重新设为待处理“idle”状态;对于工作区中暂时不需要处理的数据包或已完成的数据包,管理员用户可通过“stash”功能选择性地将其移至留置区域,待下次需要处理时手动释放到工作区进行处理。

2.4 分发和撤销请求

DAITSS长期保存系统不提供在线检索功能,保存机构用户可通过Core界面提交分发申请获取其保存的资源。DAITSS访问入口接受用户的请求后,系统会验证识别分发请求用户是否具有权限;对于具有权限的分发请求,系统的分发功能产生响应,从存储系统中提取数据并创建分发数据包(DIP),DIP包含原始的SIP和数据资源迁移或规范化的格式版本。一旦系统完成数据包的分发,用户在其Core界面的“packages”页面上可直接下载DIP,同时系统界面会显示一系列分发完成事件。

对于用户不需要继续保存的资源,用户需要提交撤销请求来删除AIP数据包。撤销请求受理后,系统会移除完整的AIP,并清除与数字资源相关的所有元数据,但保留数据包基本事实和撤销申请的信息。

2.5 数据包的批处理

批处理应用于同一保存机构或同一保存项目下资源的集中管理,不仅可实现一组数据包列表的创建、修改和删除功能,而且可以用来分发或撤销一组AIPs。存储前对每个项目批次设定数据包数量,将一批次的SIP数据包指向同一存储项目,通过“batches”标签查看某批次处理的数据包及其存储详情。创建一个批处理,管理员可以更为轻松地跟踪一个逻辑组数据包的处理状态和进展。

3 DAITSS存储管理

DAITSS系统采用混合存储管理的模式,即全部元数据存放在MySQL关系数据库中,同时将全部元数据与数据内容对象一同保存在文件系统中,利用文件系统与关系数据库管理系统来协同存储和管理元数据及数字对象[6]。通过Storagemster和Silo图形界面实现对保存资源副本AIP的管理。endprint

存储服务是负责选择筒仓和将数据写入相应筒仓的长期存储机制,其通过多层次的存储管理,实现了对保存数字资源的有效分类和监控,并可实现对同一资源进行不同保存介质的多副本保存,规避了保存风险。DAITSS存储服务包括了一个或多个筒仓池(silo pool),每个筒仓池又由一个多个单独的筒仓(silo)组成,其结构如图3。单个筒仓存储介质可为磁盘或磁带,在存储过程中可配合使用。弗罗里达数字档案馆DAITSS保存系统的存储方案是在不同的两个区域设定了两个筒仓池,采用了IBM的Tivoli Storage Manager备份软件,将数据备份到磁带中,实现了三份AIP数据包的异地备份。

图3 存储服务的构架[7]

DAITSS通过存储管理界面调用和执行仓储管理程序,实现对其下属筒仓池的管理和权限设定;同时,通过存储管理还可查看已存储数据包,创建新的存储筒仓和对每个筒仓池中各筒仓的数据进行监测等。此外,DAITSS存储服务为保障存储数据的准确性,会定期对每个筒仓的AIP数据包进行稳定性检测,通过对存储筒仓的数据包计算和校验判断其是否被修改,每个AIP最近一次的稳定性检查信息会被记录下来,通过存储管理界面可查看每个存储筒仓可利用空间信息和稳定性检测运行的状态,并提供筒仓内所有存储数据包的内容、数据包的存储时间、存储位置及其稳定性检查的xml文件。

4 DAITSS系统数据存档示例

目前,国内清华大学、中科院图书馆等研究机构均采用Fedora仓储系统建立本地长期保存体系,尚未见采用DAITSS实现长期保存的实践案例。DAITSS作为数字图书馆的机构仓储的后台系统,注重于长期保存功能的特性适用于各图书馆或科研机构构建一个基于已有资源环境的保存系统,避免了与其他具有元数据采集功能的系统在功能上的重复[4]。其仓储式保存机制与苏州大学图书馆尝试建立的本校科研工作者的科研数据和文献资源的长期保存体系相吻合,本研究中利用DAITSS系统实现了数据包的存档,其存储及管理流程示例如下:

首先创建苏州大学存储账户、项目代码及用户,三者相互关联,利用DAITSS系统的元数据编辑器创建需要保存PDF的元数据,以PDF文件与元数据创建名为SUD001.zip提交数据包,通过“packages”页面提交后,系统分配给该提交数据包知识实体ID(IEID)为EZAPURJQN_78QPHO,并显示其提交数据包名称、账户、项目、提交数据包空间、提交时间和系统最新进程等。查看提交数据包的IEID,则显示数据包摄取过程中摄取开始、摄取结束和反馈摄取报告的时间,同时可见已存档AIP的详细信息。

数据包成功存储后,用户通过提交分发或撤销请求获取或删除存储资源。如选择IEID为EZAPURJQN_78QPHO 的数据包,在“requests”对话框提交分发或撤销请求,待管理员对用户请求授权后系统会进行相应的处理,在requests标签界面即显示对EZAPURJQN_78QPHO的分发撤销事件,事件列表会详细显示申请用户、申请时间、授权验证等信息。DAITSS用户获取资源的方式保证了科研工作者数据的保密性和可长期使用性的要求。

管理员对于用户存储的数据包可通过存储服务的web界面(http://storagemaster.shades.local)进行查看、管理和设定。对于上述示例中所提交数据包SUD001.zip,通过检索其IEID(EZAPURJQN_78QPHO),存储主页面会显示其存储位置、存储时间和最近一次的稳定性检测状态和时间,便于管理员对存储数据的分类和监测。

5 结语

DAITSS作为仓储式保存系统,其基于规范、迁移和本地化的保存策略使其对于已有资源本地化的长期保存具有可靠性和稳定性。同时,DAITSS v2重建了格式化处理过程和结构,使系统更易于安装和操作,主要表现在四个方面:①采用模块化的结构和程序调用方式,使数据存档更易于管理操作;②允许添加新的服务和架构,更易于支撑新的格式;③可实现与第三方系统的集成和互操作,增加了可扩展性和使用率;④DAITSS系统即将开发以“peek”的方式获取资源,降低了系统数据处理量,方便了用户的资源获取。

通过对DAITSS数字资源长期保存中存储和管理功能的研究验证,仓储式的DAITSS系统适用于本馆已有数字资源的长期保存,前期的初步尝试与探索研究为DAITSS最终应用于服务器存储提供了可靠的理论依据。在后续工作中,将对存储介质、元数据的规范和DAITSS存储深层次模块进一步探索研究,深入探讨DAITSS的系统体系及备份策略[8],使DAITSS长期保存系统提供更稳定可靠的保存服务。endprint

存储服务是负责选择筒仓和将数据写入相应筒仓的长期存储机制,其通过多层次的存储管理,实现了对保存数字资源的有效分类和监控,并可实现对同一资源进行不同保存介质的多副本保存,规避了保存风险。DAITSS存储服务包括了一个或多个筒仓池(silo pool),每个筒仓池又由一个多个单独的筒仓(silo)组成,其结构如图3。单个筒仓存储介质可为磁盘或磁带,在存储过程中可配合使用。弗罗里达数字档案馆DAITSS保存系统的存储方案是在不同的两个区域设定了两个筒仓池,采用了IBM的Tivoli Storage Manager备份软件,将数据备份到磁带中,实现了三份AIP数据包的异地备份。

图3 存储服务的构架[7]

DAITSS通过存储管理界面调用和执行仓储管理程序,实现对其下属筒仓池的管理和权限设定;同时,通过存储管理还可查看已存储数据包,创建新的存储筒仓和对每个筒仓池中各筒仓的数据进行监测等。此外,DAITSS存储服务为保障存储数据的准确性,会定期对每个筒仓的AIP数据包进行稳定性检测,通过对存储筒仓的数据包计算和校验判断其是否被修改,每个AIP最近一次的稳定性检查信息会被记录下来,通过存储管理界面可查看每个存储筒仓可利用空间信息和稳定性检测运行的状态,并提供筒仓内所有存储数据包的内容、数据包的存储时间、存储位置及其稳定性检查的xml文件。

4 DAITSS系统数据存档示例

目前,国内清华大学、中科院图书馆等研究机构均采用Fedora仓储系统建立本地长期保存体系,尚未见采用DAITSS实现长期保存的实践案例。DAITSS作为数字图书馆的机构仓储的后台系统,注重于长期保存功能的特性适用于各图书馆或科研机构构建一个基于已有资源环境的保存系统,避免了与其他具有元数据采集功能的系统在功能上的重复[4]。其仓储式保存机制与苏州大学图书馆尝试建立的本校科研工作者的科研数据和文献资源的长期保存体系相吻合,本研究中利用DAITSS系统实现了数据包的存档,其存储及管理流程示例如下:

首先创建苏州大学存储账户、项目代码及用户,三者相互关联,利用DAITSS系统的元数据编辑器创建需要保存PDF的元数据,以PDF文件与元数据创建名为SUD001.zip提交数据包,通过“packages”页面提交后,系统分配给该提交数据包知识实体ID(IEID)为EZAPURJQN_78QPHO,并显示其提交数据包名称、账户、项目、提交数据包空间、提交时间和系统最新进程等。查看提交数据包的IEID,则显示数据包摄取过程中摄取开始、摄取结束和反馈摄取报告的时间,同时可见已存档AIP的详细信息。

数据包成功存储后,用户通过提交分发或撤销请求获取或删除存储资源。如选择IEID为EZAPURJQN_78QPHO 的数据包,在“requests”对话框提交分发或撤销请求,待管理员对用户请求授权后系统会进行相应的处理,在requests标签界面即显示对EZAPURJQN_78QPHO的分发撤销事件,事件列表会详细显示申请用户、申请时间、授权验证等信息。DAITSS用户获取资源的方式保证了科研工作者数据的保密性和可长期使用性的要求。

管理员对于用户存储的数据包可通过存储服务的web界面(http://storagemaster.shades.local)进行查看、管理和设定。对于上述示例中所提交数据包SUD001.zip,通过检索其IEID(EZAPURJQN_78QPHO),存储主页面会显示其存储位置、存储时间和最近一次的稳定性检测状态和时间,便于管理员对存储数据的分类和监测。

5 结语

DAITSS作为仓储式保存系统,其基于规范、迁移和本地化的保存策略使其对于已有资源本地化的长期保存具有可靠性和稳定性。同时,DAITSS v2重建了格式化处理过程和结构,使系统更易于安装和操作,主要表现在四个方面:①采用模块化的结构和程序调用方式,使数据存档更易于管理操作;②允许添加新的服务和架构,更易于支撑新的格式;③可实现与第三方系统的集成和互操作,增加了可扩展性和使用率;④DAITSS系统即将开发以“peek”的方式获取资源,降低了系统数据处理量,方便了用户的资源获取。

通过对DAITSS数字资源长期保存中存储和管理功能的研究验证,仓储式的DAITSS系统适用于本馆已有数字资源的长期保存,前期的初步尝试与探索研究为DAITSS最终应用于服务器存储提供了可靠的理论依据。在后续工作中,将对存储介质、元数据的规范和DAITSS存储深层次模块进一步探索研究,深入探讨DAITSS的系统体系及备份策略[8],使DAITSS长期保存系统提供更稳定可靠的保存服务。endprint

存储服务是负责选择筒仓和将数据写入相应筒仓的长期存储机制,其通过多层次的存储管理,实现了对保存数字资源的有效分类和监控,并可实现对同一资源进行不同保存介质的多副本保存,规避了保存风险。DAITSS存储服务包括了一个或多个筒仓池(silo pool),每个筒仓池又由一个多个单独的筒仓(silo)组成,其结构如图3。单个筒仓存储介质可为磁盘或磁带,在存储过程中可配合使用。弗罗里达数字档案馆DAITSS保存系统的存储方案是在不同的两个区域设定了两个筒仓池,采用了IBM的Tivoli Storage Manager备份软件,将数据备份到磁带中,实现了三份AIP数据包的异地备份。

图3 存储服务的构架[7]

DAITSS通过存储管理界面调用和执行仓储管理程序,实现对其下属筒仓池的管理和权限设定;同时,通过存储管理还可查看已存储数据包,创建新的存储筒仓和对每个筒仓池中各筒仓的数据进行监测等。此外,DAITSS存储服务为保障存储数据的准确性,会定期对每个筒仓的AIP数据包进行稳定性检测,通过对存储筒仓的数据包计算和校验判断其是否被修改,每个AIP最近一次的稳定性检查信息会被记录下来,通过存储管理界面可查看每个存储筒仓可利用空间信息和稳定性检测运行的状态,并提供筒仓内所有存储数据包的内容、数据包的存储时间、存储位置及其稳定性检查的xml文件。

4 DAITSS系统数据存档示例

目前,国内清华大学、中科院图书馆等研究机构均采用Fedora仓储系统建立本地长期保存体系,尚未见采用DAITSS实现长期保存的实践案例。DAITSS作为数字图书馆的机构仓储的后台系统,注重于长期保存功能的特性适用于各图书馆或科研机构构建一个基于已有资源环境的保存系统,避免了与其他具有元数据采集功能的系统在功能上的重复[4]。其仓储式保存机制与苏州大学图书馆尝试建立的本校科研工作者的科研数据和文献资源的长期保存体系相吻合,本研究中利用DAITSS系统实现了数据包的存档,其存储及管理流程示例如下:

首先创建苏州大学存储账户、项目代码及用户,三者相互关联,利用DAITSS系统的元数据编辑器创建需要保存PDF的元数据,以PDF文件与元数据创建名为SUD001.zip提交数据包,通过“packages”页面提交后,系统分配给该提交数据包知识实体ID(IEID)为EZAPURJQN_78QPHO,并显示其提交数据包名称、账户、项目、提交数据包空间、提交时间和系统最新进程等。查看提交数据包的IEID,则显示数据包摄取过程中摄取开始、摄取结束和反馈摄取报告的时间,同时可见已存档AIP的详细信息。

数据包成功存储后,用户通过提交分发或撤销请求获取或删除存储资源。如选择IEID为EZAPURJQN_78QPHO 的数据包,在“requests”对话框提交分发或撤销请求,待管理员对用户请求授权后系统会进行相应的处理,在requests标签界面即显示对EZAPURJQN_78QPHO的分发撤销事件,事件列表会详细显示申请用户、申请时间、授权验证等信息。DAITSS用户获取资源的方式保证了科研工作者数据的保密性和可长期使用性的要求。

管理员对于用户存储的数据包可通过存储服务的web界面(http://storagemaster.shades.local)进行查看、管理和设定。对于上述示例中所提交数据包SUD001.zip,通过检索其IEID(EZAPURJQN_78QPHO),存储主页面会显示其存储位置、存储时间和最近一次的稳定性检测状态和时间,便于管理员对存储数据的分类和监测。

5 结语

DAITSS作为仓储式保存系统,其基于规范、迁移和本地化的保存策略使其对于已有资源本地化的长期保存具有可靠性和稳定性。同时,DAITSS v2重建了格式化处理过程和结构,使系统更易于安装和操作,主要表现在四个方面:①采用模块化的结构和程序调用方式,使数据存档更易于管理操作;②允许添加新的服务和架构,更易于支撑新的格式;③可实现与第三方系统的集成和互操作,增加了可扩展性和使用率;④DAITSS系统即将开发以“peek”的方式获取资源,降低了系统数据处理量,方便了用户的资源获取。

通过对DAITSS数字资源长期保存中存储和管理功能的研究验证,仓储式的DAITSS系统适用于本馆已有数字资源的长期保存,前期的初步尝试与探索研究为DAITSS最终应用于服务器存储提供了可靠的理论依据。在后续工作中,将对存储介质、元数据的规范和DAITSS存储深层次模块进一步探索研究,深入探讨DAITSS的系统体系及备份策略[8],使DAITSS长期保存系统提供更稳定可靠的保存服务。endprint