国外典型数字格式登记系统比较研究

2015-05-30 10:48张宁杨敬敬
北京档案 2015年9期
关键词:数据模型数字信息

张宁杨敬敬

摘要:国外关于数字格式登记系统的研究发展较快,最为我们所熟知的项目为英国的PRONOM项目、哈佛大学领导的GDFR项目和加州数字图书馆领导开展的UDFR项目。本文采用文献研究的方法,分别对上述三个典型的格式登记系统的联系与区别进行全面的对比分析,重点从三者的产生背景、参与机构与项目进程,数据模型,主要功能与流程进行详细深入的比较。

关键词:数字格式登记系统PRONOMGDFR UDFR

Abstract: Studies on the digital format abroad registry develops rapidly, such as Britains PRO? NOM,GDFR led by Harvard University and UDFR launched by California Digital Library.This paper us? es the method of literature research to comprehen? sively compare and analyze the relations and differ? ences of these three typical digital registry sys? tems. It makes detailed and profound comparisons focused on three projectsorigional background,par? ticipating organizations, research progress, data model, main functions and procedures,which gives us a comprehensive and in-depth understanding of three projects.

Keywords: Digital format registry;PRONOM;GDFR;UDFR

数字对象的长期保存是信息时代面临的一个世界性难题。一般意义上的数字文件长期保存方法包括更新、仿真、迁移和封装等,而数字文件格式登记系统则开创了一个全新的视角,成为目前较有代表性的一种。PRONOM项目、GDFR项目与UDFR项目,在一定程度上代表了国外目前的发展水平及世界未来的发展方向。本文通过对国外三个较为典型的格式登记系统进行对比分析,以期为我国建立数字格式登记系统提供思考与借鉴。

一、数字格式登记系统概述

数字格式登记系统全称为数字文件格式登记系统(digital file format registry),是指能对数字文件格式的属性进行描述、识别、记录和保存,支持信息系统通过公开发行和规范的机制去发现所需要的文件格式信息,进而识别、转换、展示和保存相应文件的系统。对该定义进行梳理后,笔者认为可以将其理解为:它是基于数字文件格式的应用环境和生命周期来建立描述模型,进而建立详细的属性信息,实现对格式的全面、精准的描述。简言之,一个文件的格式即代表了它产生和运用的各种条件,只有条件具备它才能够存在,这些条件即构成了应用环境。而生命周期即任何事物都存在从产生到消亡的周期规律,格式也不例外,且在技术日新月异的信息时代,格式更替变换的速度加快,对于每一种格式,它自身经历了从产生到广泛接受和运用及最后又被其他格式取代的过程,因此,要想实现数字文件的长期保存,必须掌握每种格式的生命周期性运动信息,才能保证格式所附带的信息内容的识别和读取,从而实现数字文件的长期保存。由此可见,数字格式登记系统为数字文件提供了一个全面、全程的管理框架,能够使数字文件在保存技术和环境的不断变化中实现识别、解析、迁移、转换和保存。

二、PRONOM、GDFR与UDFR的联系

PRONOM项目作为数字格式登记系统,是由英国国家档案馆牵头负责并将其委托给专业公司进行开发而得,作为英国国家档案馆内部资源使用。PRONOM作为数字格式登记系统的首次尝试,为数字文件长期保存开辟了新的方向,也为后来者提供了改进的空间,促使了GDFR和UDFR等更加完善的格式登记系统的诞生。

GDFR项目旨在通过建立一个网络协议框架,实现不同注册表、不同格式登记系统之间的沟通,进而建立一个跨系统的互操作平台。这一平台扩展了PRONOM的适用范围,增强了MIME MTR的准确度,促进了数字格式登记系统的进一步发展。

UDFR项目的实施可谓是“1+1≥2”的实践,其目的是解决PRONOM项目与GDFR项目各自为政的状况。它不仅融合了二者的格式信息和功能模块信息,更提供了语义网的开源、持续获取的平台。

三、PRONOM、GDFR与UDFR的区别

(一)启动背景、参与机构与项目进程不同

PRONOM项目始于2002年,英国国家档案数字存储部为了获取有关电子文件本质属性的可信技术信息,于2000年开发了一个信息系统,这个系统就是PRONOM的雏形。该项目由英国国家档案馆下属的数字存储部负责实施,具体的技术研发事项委托Tes? sella公司进行。其开发呈明显的连续性,自2002年开始后每年或每隔一年就有更完善的版本产生,至今已更新至PRONOM8.0。由于该项目服务于英国国家档案馆的一个内部机构,因此限制了其功能和适用范围。

GDFR项目始于2006年止于2008年,没有产生有价值的软件产品或存储数据库。其创建始于数字图书馆领域需要一个持续的、全球的数字格式登记系统,而MIME MTR对格式的细节属性描述得不够深入。在这种情况下,2003年国际图书馆协会联合会大会上提出了全球化数字格式登记系统的愿景,商讨定义一个通用的网络协议,即通过将多个独立的注册格式系统进行相互沟通,同步其格式表征信息,从而达到共通、互操作的效果。会议随后成立了由美国哈佛大学牵头,纽约大学、宾州大学、联机计算机图书馆中心和英国公共档案馆等组成的临时工作组商讨建立GDFR。

UDFR项目始于2009年4月,其实施一方面是建立在为期十年的、有众多机构参与的国际注册格式的工作实践上,另一方面是由于PRONOM与GDFR的各自为政所暴露的缺陷:PRONOM实施范围较窄,GDFR存在沟通不便、技术性较差的问题。UDFR项目是在美国国会图书馆国家数字信息基础设施保护计划项目的资助下开展的一个项目,由美国加州数字图书馆的加州大学策展中心领导开展。它的具体设计与实施由临时理事会负责管理,2010年正式开始设计实施至2012年项目结束,整个项目共两期。一期为2010年1月至12月,二期为2011年1月至2012年7月,近两年该项目仍处于二期方案的实施完善阶段,主要以开会讨论为主,每年会产生相应的会议记录之类的文件。该项目存在项目管理方面的问题,加之其隶属于一个项目的子项目,也存在资金持续性问题。

(二)数据模型不同

PRONOM4的数据模型较为典型,该模型分为三个等级层次,分别是核心实体、技术组件实体及两实体的联系。如图1所示,最外围为核心实体,有四个组成部分:行为体、文档、签名、知识产权(IPR)。然后是第二个层级即技术组件实体,包括文件格式、软件元件、存储媒体和硬件元件四部分。第三个层级即各个技术组件都有具体的组成部分,如文件格式是由字符编码、压缩类型、内部签名和类别等七部分组成。两个实体之间的关系会根据实体类型的不同而进行相应的定义,即一个完整意义上的格式包含了它的压缩类型、内外部签名、所属类别和家族及其对应的字符编码信息,这构成了一个数字文件的内部描述信息,然后进入其应用信息的描述,即包含存储媒体和运行的软、硬件环境等,最终构成一个独特的数字文件格式。

从图2可以看出,GDFR5.0的数据模型在具备了PRONOM模型的基本模块的基础上新增了一些元素。最大的特点是抽象实体里的依赖性,即包括软、硬件依赖和介质依赖三个方面,这是据应用环境的一种依赖建立的关联,以实现不同注册格式的关联性,这是互操作实现的关键。比较可以发现PRONOM4的模型较为基础,GDFR5.0则新增了代理、语法和评估等几个方面的元件,而这正成就了GDFR项目全球范围互操作的目标。

UDFR数据模型由PRONOM和GDFR的数据模型组合而成,它是在二者的基础上加上支持UDFR共享所需要附加的元件组合而成。UDFR模型最大的不同是抽象系列概念的提出,在对数字文件的格式进行基本的描述登记之后,通过抽象功能将抽象格式经过技术处理进行抽象输出,这些抽象输出进入系统,在受控词汇的作用下实现各种格式之间的互联互通,这些都为语义网的运用提供基础,实现数字文件的长期保存。

(三)主要功能和流程不同

PRONOM的主要功能即将数字对象存入系统对其进行监测与保护。其流程主要有四步:首先,一个数字对象进入登记系统,通过DROID对其进行格式识别。其次,对识别后的格式信息进行属性抽取,包括表征特征和内容特征,系统会赋予其一个唯一的标示符。再次,制订保存计划,包括风险测评、技术检测、影响因子评估、迁移路径生成几个模块。最后,实施迁移。迁移时会产生相应的记录文档存入系统以证明本次迁移,同时进行再次识别、确认与属性抽取,并与迁移之前的进行比较,以保证迁移前后的一致性。

GDFR的功能则是通过开发开放的网络协议,实现不同注册格式之间的转换,通过与通用数据模型和通信协议合作,同步登记其持有格式表示的信息。其流程是:首先,将文件格式定义成一种固定的、以位序列编码的信息模型,每个格式的基本属性包括:标示符、创建者、签名、状态和注释等12个。并按照内容和物理媒介的分类体系对格式进行分类,它提供与格式定义文件的链接,描述格式定义文件的获取方式。其次,实现不同操作平台之间的互操作,从而在世界范围内读取和保存数字文件,提供管理服务、检索服务、验证服务和中介服务四种服务。

UDFR融合了PRONOM与GDFR这两个格式登记系统的功能,并结合语义网最终实现在一个开源的、语义的和社区支持的平台上运行。其流程是:首先,规范和公开可用的文档。支持格式的导出和任何格式的输入功能,在UDFR的中央登记处,既可以提供相应的服务和工具的导出,支持英国国家档案馆开发的数字对象识别编码DROID5的使用,又可以接受记录批量导入到注册表中。其次,进行设计、开发与测试工作。设计包括Web用户界面和所涉及的所有内容,记录和证明信息的来源和审查结构的水平,以保证数字对象的质量。格式信息进入系统之后,将会被赋予一个独特的UDFR标示符。随着格式信息的变化,UDFR继承了PRONOM能够同时记录版本信息变化的功能,不同的是它记录这种变化的详细程度提升,能够精确到对具体个体的修改。

参考文献:

[1]梁娜,张晓琳.数字文件格式登记系统[J].图书情报工作,2005(11):80-82.

[2]PRONOM 4 INFORMATION MODEL.[EB/ OL].[2005-01-04].

http://www.nationalarchives.gov.uk/aboutapps/file? format/pdf/pronom_4_info_model.pdf.

[3]The PRONOM Service:A technical registry to support long-term preservation.[EB/OL].[2004-07-29].

http://www.nationalarchives.gov.uk/aboutapps/pro? nom/pdf/pronom servise.pdf.

[4]黄玉明.电子文件格式困局破解之道[J].中国档案,2010(7):56-58.

[5]A Proposal for a Global Digital Format Registry.[EB/OL].[2005-09-29].

http://hul.harvard.edu/gdfr/documents-historical. html.

[6]UDFR project proposal.[EB/OL].[2009-11-07].

http://udfr.org/project/UDFR- project- proposal. pdf.

[7]Stephen Abrams and Andrea Goethals.Global Dig? ital Format Registry (GDFR) Data Model v.5.0.14.[EB/ OL].[2008-05-22].

http://library.harvard.edu/preservation/digital- pres? ervation_gdfr.html.

[8]Automatic Format Identification Using PRO? NOM and DROID.[EB/OL]. [2006-03-07].

http://www.nationalarchives.gov.uk/aboutapps/file? format/pdf/automatic_format_identification.pdf.

[9]Stephen L. Abrams.Proposal for a format registry for digital preservation.[EB/OL].[2005- 05- 25].http:// hul.harvard.edu/gdfr/GDFR-proposal.doc.

[10]UDFR.Unified Digital Format Registry(UDFR) proposal and road map.[EB/OL].[2014-04-16].

http://www.udfr.org/.

作者单位:中国人民大学信息资源管理学院

猜你喜欢
数据模型数字信息
面板数据模型截面相关检验方法综述
加热炉炉内跟踪数据模型优化
面向集成管理的出版原图数据模型
一种顾及级联时空变化描述的土地利用变更数据模型
数字变变变