长期保存起源信息封装技术的比较研究

2018-04-18 08:04吴振新李文燕蒋世银中国科学院文献情报中心中新金桥数字科技北京有限公司
图书馆理论与实践 2018年3期
关键词:数据流起源文档

吴振新,李文燕,蒋世银(.中国科学院文献情报中心;.中新金桥数字科技(北京)有限公司)

1 前言

随着大数据时代的来临,海量数字信息的出现使得辨别数字信息的真实性成为一个难题,相关研究领域开始探索把起源信息作为有效的解决方法。

在数字保存领域的OAIS标准中,[1]把数字对象的起源信息(Provenance,又称溯源信息)定义为数字对象的变化历史。通过管理起源信息,可以全面了解数字对象从被存入长期保存系统之后所发生的改变以及保存数字对象变化前后的关联,为数字对象的真实性提供重要证据。起源信息管理包括捕获、组织、存储和应用,在捕获起源信息后,需要有效的方法组织存储起源信息,并保持起源信息与数字对象以及其他元数据之间的关系,常用的方法是封装。

吴振新等在中国科学院文献情报中心的数字资源长期保存系统(Digital Preservation System,DPS)研发过程中,对起源技术在长期保存中的应用进行了全面研究,[2]初步构建了一个起源管理框架。[3]在开发实现起源管理框架过程中,对国际主流起源封装技术和方案进行了深入分析和对比,希望为其他研究人员提供参考。

2 国际主流起源封装技术和方案对比分析

2.1 国际主流起源封装技术介绍

2.1.1广泛应用的METS封装标准

METS[4]是美国数字图书馆联盟(Digital Library Federation,DLF)开发的一套元数据编码和传输标准,用来封装数字对象及其相关的描述性元数据、管理性元数据和结构性元数据信息。METS应用十分广泛,如 DAITSS (Dark Archive In The Sunshine State)[5]、SCAPE、UK 期刊保存[6]、TNA (TheNationalArchives)、英国国家归档中心[7]等项目均使用了METS封装格式。其中DAITSS是由佛罗里达图书馆自动化中心开发的用于数字资源长期保存的开源仓储软件,其三种信息包SIP、AIP和DIP均采用METS格式,全面兼容保存元数据标准PREMIS,[8]支持图像、文本、音视频、数据等多种类型数字对象的长期保存。下面以DATISS为例,研究分析其如何使用METS封装起源。

METS文档由7个部分组成,DAITSS系统将起源信息封装在管理元数据(amdSec)部分的元素里,并且其三种信息包SIP、AIP和DIP中分别封装了不同的起源信息(见图1)。

图1 基于METS格式的DAITSS存档包起源信息组织

在存档信息包AIP中,每一个AIP的METS文件都封装了三个管理元数据,分别包括不同层次的起源信息。

(1)第一个管理元数据包含一对,记录的起源信息为协议信息(账户或项目)。

(2)第二个管理元数据是面向信息包级别的管理元数据,包括两对。第一对用于记录信息包级别的PREMIS事件信息,包括提交事件、摄入事件、分发事件、更新事件和撤销事件。第二对用于记录信息包级别的代理(账号)和与包级别事件相关的软件代理信息。

(3)第三个管理元数据是面向文档级别的管理元数据,结构与第二个管理元数据一致,包括两对。第一对用于记录文档级别的PREMIS事件信息,即DAITSS Service针对文件的事件,包括病毒检查、描述、XML解析服务、规范化、迁移等。第二对用于记录文档级别的PREMIS代理信息。软件代理包括格式描述服务、病毒检查服务、XML解析服务、转换服务。

在提交信息包SIP中,METS文件只包含第一个管理元数据,保存有效的DAITSS账号代码和有效的DAITSS项目代码,并建立两者的关联。

在分发数据包DIP中,METS文件只包含第三个管理元数据的内容,记录文件不同版本之间的联系(即起源),标识出原始提交版本。如果原始版本发生变化,则提供给用户最新的版本。

DAITSS通过记录起源,一方面在信息包分发时,通过信息包之间的关系,找到当前可用版本的文件分发给用户,并附以起源来说明数字对象在仓储中系统中如何从最初的版本迁移到当前版本;另一方面在将信息包从仓储中删除时,保留下信息包从摄入到删除的过程,为信息包的全程追踪管理提供依据。

从上述不难看出,DAITSS的起源信息管理遵循PREMIS保存元数据标准,比较全面地记录了起源信息,既涵盖了事件又建立了关联,同时利用METS格式构建了清晰、易于管理的起源信息组织结构,并在其三种信息包中分别存储相关的起源信息。

2.1.2严格遵守OAIS的XFDU

XFDU[9]是由美国空间数字系统咨询委员会(The ConsultativeCommittee forSpaceDataSystems,CCSDS) 开发的推荐标准,用于打包封装数据和元数据。

XFDU是一个物理容器,包含一个XML格式的Manifest文档以及该文档调用的多个文件,可以是ZIP或TAR等文件格式。Manifest包含了packageHeader、dataObjectSection、metadataSection、informationPackage Map和behaviorSectioon五部分。XFDU严格遵守OAIS对信息对象的定义,起源被记录在标签中,通过属性“classification=“PROVENANCE”category=“PDI””来加以声明。

CASPAR (Cultural,Artistic and Scientific knowledge forPreservation,Accessand Retrieval)[10]是欧盟第六框架联合资助的综合型长期保存项目,它构建了一个基于OAIS框架的文化、艺术和科学知识数据的保存架构,目的在于验证OAIS参考模型对于多种数据集保存的有效性。CASPAR项目使用XFDU封装起源,[11]Manifest包含了容器内容数据有价值的信息以及引用的外部容器的信息,使用xml schema定义。Manifest文档在整个XFDU包里主要起链接作用(见图2),它由5个部分组成。其中packageHeader记录了对信息包的基本描述、版本信息、位置信息等内容;dataObject-Section用来关联内容数据对象;metadataSection用来记录呈现信息和保存描述信息(Preservation Description Information,PDI);informationPackageMap 记录内容单元信息,用于关联dataObjectSection和metadata-Section。informationPackageMap对应了OAIS中的内容数据对象的概念,是数字对象和其呈现信息的组合;behaviorSectioon则含有任意数目的行为对象,负责将行为与XFDU对象内容产生关联。

图2 XFDU结构组成[11]

XFDU的对象和元数据通过两种方式来记录,一种是外部链接,一种是记录在Manifest文件中。每个对象都分配有自己的XML标识符,关联任意两个对象,每个对象都有预设分类或者用户指定的分类模式。

编码示例如下。

2.1.3面向仓储交换的RXP封装格式

RXP[12]即仓储电子交换包,是在博物馆和图书馆服务研究所(Institute Of Museum And Library Services)资助下由 TIPR(Towards Interoperable Preservation Repositories)设计的专门用于仓储交换的信息包封装格式。RXP具有灵活可扩展的特点,其简化结构包括5个必备的XML文档和一个存放分发对象的文件夹,采用METS和PREMIS两种元数据规范进行编码(见图 3)。

由图3可知,rxp.xml记录RXP包的发送者(Sender)、版权、呈现信息的METS文档;rxp-digiprov.xml包含RXP包的数字起源信息的PREMIS文档;rxp-rep-1.xml包含发送者DIP呈现信息的METS文档;rxp-rep-1-digiprov.xml包含rxp-rep-1.xml中呈现信息的数字起源信息的PREMIS文档;files/包含发送者DIP文件的目录。

图3 RXP结构示意图

除了以上文件,RXP还可以根据信息包的文件和目录进行扩展,可选择加入:rxp.xml.sig是OpenPGP格式的单独数字签名,使用发送方秘钥和rxp.xml创建;rxp-rep-n.xml在rxp-rep-1.xml之后的METS文档(n>1),对于每个 rxp-rep-n.xml必选同时包含一个rxp-rep-n-digiprov.xml文件;rxp-rep-n-digiprov.xml包含描述相关rxp-rep-n.xml文件起源的PREMIS文档;rxp-rights.xml用来描述RXP包版权信息的PREMIS文档;rxp-dmd.xml用来记录RXP描述元数据的XML文档,元数据模式应使用SLA在发送方和接收方之间定义。

起源记录在文件rxp-digiprov.xml和rxp-rights.xml中,前者记录了信息包的起源事件,后者记录了呈现信息的起源。在rxp-digiprov.xml和rxp-rep-1-digiprov.xml中均采用了PREMIS中的 event、object和 agent实体及其属性来记录起源。

这种封装方案的好处在于包的灵活可扩展性,能够用简单的方法来处理由多文档组成的复杂数字对象,然而由于起源信息包括每个包的事件记录以及多个DIP包的呈现信息的起源(即记载了格式变化)且分别保存在不同的文档中,即使其完全遵循PRIMIS标准,仍然增加了管理和使用起源的难度。总体来看,包的组成还是相对比较复杂,不适合频繁变化的起源记录和管理。

2.1.4灵活可扩展的仓储内容模型FOXML

Fedora仓储系统[13]由康奈尔大学设计开发,是对数字内容进行存储、管理及获取的开源保存仓储系统,FOXML是Fedora仓储的数字对象描述模型和封装格式(见图4)。

图4 FOXML结构示意图

FOXML有4个系统保留的数据流,分别为DC、AUDIT、RELS-EXT、RELS-INT,其余是可根据自身需要进行扩展的数据流DataStream。其中,AUDIT、RELS-EXT、RELS-INT都与起源相关。

(1)AUDIT数据流。记录了仓储对FOXML的修改,包括修改过程中涉及到的人、时间、修改内容和原因,由系统自动产生,不允许用户更改。AUDIT的局限在于它仅记录仓储底层的API-M对FOXML的操作,如果不是通过API-M对FOXML进行操作,就必须考虑其他的方法来补充该功能的不足。示例如下。

modifyDatastreamByReference

dit:action>

DRAWING-ICON

componentID>

fedoraAdmin

nsibility>

2005-01-20T22:46:07.428Z

date>

changed the datastream la

bel and added an alternate identifier.

justification>/>

(2)RELS-EXT和RELS-INT数据流。RELS-EXT记录该数字对象与仓储系统中其他对象的关系,RELS-INT记录数字对象本身各组成部分之间的关系,这些关系在Fodora提供的关系文档中定义,也可由用户自行进行扩展。

(3)VERSIONABLE属性。可以通过数据流的VERSIONABLE属性来管理每个数据流的不同版本,通过“true”和“false”设置决定是否管理该数据流的版本,如下为DC数据流的版本设置。

(4)基于DataStream的扩展机制。总的来看,对于对象关系的管理和对象衍生历史的追溯,FOXML能够提供相对完整的解决方案。因此基于FOXML格式来设计起源封装方案时,应考虑要充分利用上述功能,在系统事件记录方面提出有效的补充方案。FOXML的一大优势就在于其数据流DataStream的良好可扩展性,可以通过增加一个专门用于起源管理的数据流来记录API-M之外的系统事件,如定义一个名为DsProv的DataStream,示例如下。

(此处是命名空间URL)…(此处嵌入起源信息)

起源信息可以如上例直接嵌入该数据流,也可以采用数据引用的方式,指向FOXML之外的存储器,包括文件或者数据库。

指向远程文档。

指向本地文件。

FOXML作为一个与Fedora仓储紧密绑定的封装格式,在仓储功能支持下,其本身提供了比其他格式更为全面的起源管理功能,同时由于其灵活的可扩展性,又为起源使用信息管理提供了多种扩展手段。但FOXML本身自带的起源管理只能记录仓储底层的API-M对FOXML的操作,具有一定的局限性,同时系统提供的起源内容存放比较分散,管理和使用都相对比较复杂。

2.2 主要起源信息封装技术评述

上述这四种封装格式在封装方式、封装方法、元数据支持、工具支持、易用性和可扩展性等方面各有特点(见下表)。

METS应用较广泛且扩展灵活,将所有信息存在同一标签中,比较集中便于管理。METS没有定义任何元数据集,各应用环境可以根据自己的需要选择元数据集进行描述。但其可扩展性强,适用于不同实施环境和不同类型数字对象,能够提供更丰富的元数据予以交换,因此其使用范围更广,对其支持工具较多,便于开发和使用,发展前景更好。

XFDU提供了一组完全遵照OAIS信息模型预定义的元数据分类,和METS一样,起源信息被记录在同一标签中,便于管理。目前XFDU主要被用在European SpaceAgency(ESA)中的SAFE项目和欧盟CASPAR项目中,而且SAFE提供了支持XFDU生成和测试的工具,对其应用有一定的促进作用,同时XFDU更易被扩展支持更复杂的长期保存概念,在CASPAR项目中已经证明了这一点。[11]

FOXML是一种灵活可扩展的起源记录格式,其本身提供了可记录起源的数据流以及相应成熟的起源管理功能,非常适用于使用Fedora仓储管理工具且对起源记录无特别要求的保存系统。由于FOXML保留数据流仅限于记录仓储底层API-M对FOXML的操作,因此如果对于起源记录有更多需求则需要自定义新的数据流来记录起源。总体看起源内容存放相比前几种更分散,管理和使用都相对比较复杂。

RXP采用了PREMIS中的event、object和agent实体及其属性来记录起源,但包的组成相对比较复杂,管理和使用有一定难度。总体说来更适合主要面向仓储之间信息包交换的起源记录,尤其是不同格式的仓储之间的信息包交换。

这四种起源封装格式——METS、XFDU、RXP和FOXML,无论从格式本身的封装方式、封装方法、元数据、工具支持和易用性等方面来分析,还是从各项目对不同格式的应用来看,每种封装格式在实际应用中都具有各自的特点及不足,实践中应结合应用场景选择合适的封装格式来制定封装策略以达到最佳起源管理效果。总的来说,XFDU对于复杂对象的良好支持使其未来应有不错的应用前景,RXP使用的复杂度会影响其在保存领域的应用,FOXML的应用则受Fedora仓储整体系统发展限制,METS作为一种普遍应用的标准,对大多数保存项目的起源数据封装是一个比较好的选择。

从长期发展和起源数据应用的角度看,笔者最为看重对外部引用机制的支持,起源数据具有累积性、关联性、可逆性以及更新频繁的特点,它的存储、管理以及使用与保存元数据中其他内容有很大不同,需要更为有效的解决方案,而外部引用机制支持对起源数据的个性化管理,有很大的灵活性和可扩展性,也便于在元数据基础上开发和提供特色的起源服务和工具。

3 结语

起源信息作为OAIS模型中五种保存描述信息之一,负责记录数字对象创建、变更等相关的事件信息,是重要的保存元数据内容。合适的封装技术的选择和封装方案的制定,有利于保存系统有效保存和管理起源信息,确保在长期的存储管理过程中为数字对象的真实性提供充足证据。

通过CNKI进行的文献调研发现,国内目前缺少对于保存实践中起源元数据封装技术的研究。我国在元数据封装、电子文件封装方面较多采用METS;个别政务案例使用了XFDU;在机构知识库领域有一些项目采用了FOXML作为数字对象封装技术,包括笔者所在机构的DPS系统;RXP目前还没有相关的研究应用出现。

国家图书馆在国家数字图书馆工程标准规范项目中制定了一套数字资源长期保存规范,其中包括长期保存信息包封装标准规范,[16]采用了METS作为保存元数据的封装规范,其中起源元数据部分利用了PREMIS的相关内容,没有更多的扩展和应用,是一个相对简单的方案。对于处在起步阶段的我国保存实践来说,该套标准对开展保存活动提供了很好的基础。从国际相关研究发展来看,随着数字对象的复杂化以及保存实践的深入,对起源信息会产生越来越多的需求,通常会需要对起源信息进行专门存储管理,那么在现有封装标准的基础上,可以利用METS的外部引用机制,对起源元数据实施专门的管理方案。

[参考文献]

[1] Referencemodel foran open archivalinformation system(OAIS)[S].Washington DC: CCSDSSecretariat,2012.

[2]吴振新,李文燕.起源技术在长期保存中的应用与研究 [J].图书情报工作,2015,59(8):118-125.

[3]吴振新,等.构建以事件为核心的长期保存系统起源管理框架[J].图书情报工作,2016,60(6):91-96.

[4] METSprofiles[EB/OL].[2017-05-11].http://www.loc.gov/standards/mets/mets-profiles.html.

[5] DAITSSwebsite[EB/OL].[2017-05-11].http://daitss.fcla.edu/content/welcome-daitss-website-0.

[6] Dappert A,Enders M.Using METS,PREMISand MODS for archiving eJournals[J].D-Lib Magazine,2008,14(9/10):1082-9873.

[7] Assessmentof UKDA and TNA compliancewith OAIS and METS standards[EB/OL].[2017-05-11].http://www.webarchive.org.uk/wayback/archive/201406 15012529/http://www.jisc.ac.uk/media/documents/programmes/preservation/oaismets.pdf.

[8] PREMISdatadictionary forpreservationmetadata,version 2[EB/OL].[2017-05-11].http://www.loc.gov/standards/premis/v2/index.html.

[9] Standard DR,Book R.XML formatted dataunit(XFDU) structureandconstruction rules[EB/OL].[2015-03-05].http://public.ccsds.org/pubs/661×0b1.pdf.

[10] FactorM,etal.Authenticity and provenance in long term digital preservation:Modeling and implementation in preservation aware storage[C]//Workshop on theTheoryand PracticeofProvenance,San Francisco,California,2009.

[11] DunckleyM,etal.Using XFDU for CASPAR information packaging [J].OCLC Systems&Services:International digital library perspectives, 2010, 26(2):80-93.

[12] RepositoryeXchangepackage(RXP) spec[EB/OL].[2017-05-11].http://wiki.fcla.edu:8000/tipr.

[13] Home Fedora Repository [EB/OL].[2017-05-11].http://fedora-commons.org/.

[14] METStools&utilities[EB/OL].[2017-05-11].http://www.loc.gov/standards/mets/mets-tools.html.

[15] SAFEI/O library[EB/OL].[2017-05-11].http://earth.esa.int/SAFE/old/API.html.

[16]国家图书馆数字资源长期保存规范[EB/OL].[2017-05-11].http://www.nlc.gov.cn/newstgc/gjszts ggc/bzgf/201101/t20110109_31991.htm.

猜你喜欢
数据流起源文档
浅谈Matlab与Word文档的应用接口
圣诞节的起源
有人一声不吭向你扔了个文档
汽车维修数据流基础(上)
奥运会的起源
汽车维修数据流基础(下)
基于数据流特性的MPTCP数据流调度算法研究
万物起源
万物起源
Word文档 高效分合有高招