数字保存的认知与实践

2012-04-29 04:10臧国全郭营
图书与情报 2012年1期

臧国全 郭营

摘 要:数字保存的认知是对数字保存基本问题的看法,对地观测数据保存的认知调查包括保存的重要性、保存原因、保存用途和保存威胁。数字保存的实践是对数字保存领域中相关问题的目前解决方法,对地观测数据的实践调查包括保存数据的内容、采用的元数据标准和保存数据的使用。基于认知调查,提出了加强数字保存经济可持续性研究的思想。基于实践调查,提出了制定数字保存质量保证标准与设计质量认证模型的思路。

关键词:数字保存 认知调查 实践调查 对地观测

中图分类号: G250.76文献标识码: A 文章编号: 1003-6938(2012)01-0062-05

Perception and Practice on Digital Preservation: Based on Survey for Data Preservation in Earth Observation

Abstract The perception on digital preservation consists of some ideas to basic problems in the field of digital preservation. The perception survey on Earth Observation data preservation includes preservation importance, reasons, usages and threats. Practices on digital preservation are the current resolving methods for the related issues in the field of digital preservation, including preserved data content, metadata standards, data access and its usage. Based on the perceptionsurvey, the author proposes an idea on digital preservation economic sustainability and based on the practice survey the author puts forward to study on setting up preservation quality standard and designing quality certification models.

Keywords digital preservation; perception survey; practice survey; earth observation

目前的数字保存对象主要有两类:学术论著和研究型数据。前者比较普遍,其保存理论和实践相对成熟;后者集中在数据密集型领域,保存理论和实践相对滞后。对地观测产生大量的观测数据(一种重要类型的研究型数据),该类数据在地球科学的研究中扮演重要角色。

据普查,目前为止对地观测数据的保存与使用调查案例非常少见,仅发现的一个案例是欧盟科学研究院第七框架项目组的PARSE.insight项目 (2010年)[1],该项目的调查对象来源有二:一是对地观测数据保存的实施人员(下称保存者,共计105人给予了完全回答,一些保存者同时也是研究人员),选自于全球各地太空项目(一些大型项目拥有多个对地观测数据的保存系统),如欧洲太空总署ESA[2]、美国NASA[3]、中国航天集团等,这类项目是对地观测数据的主要收集者和保存者;二是该类数据的使用者(共计600人给予了完全回答),选自地球科学、大气科学和海洋科学的研究人员,这三个领域的科研人员是对地观测数据的集中使用者。笔者基于该项调查,总结对地观测数据的保存者和使用者对数字保存的认知与实践,分析数字保存存在的问题,寻求可能的解决方案。

1 数字保存的认知

认知就是看法,对地观测数据的保存认知是指保存者和使用者对这类数字资源保存基本问题的看法,包括:保存的重要性、保存原因、保存用途和保存威胁。

1.1 保存的重要性

总体上,被调查者中71.8%的认为长期保存对地观测数据非常重要,22.4%的认为重要,4.6%的认为比较重要,只有1.2%的认为不重要。

可能因为对地观测数据的几乎不可重复性(难以出现或创建完全相同的观测环境),被调查者对一些领域中观测数据的长期保存重要性认知度相当高(90%以上认为非常重要),这些领域有海洋水质监测、海洋生物变迁、海洋水文地理、地面沉降、地震和火山爆发等(其他领域的调查结果见表1)。整体上,与保存者相比,使用者对保存的重要性认知度更高一点,可能的解释是这些学科都是数据密集型学科,科学研究活动高度依赖于对地观测数据。

1.2 保存原因

保存原因有很多,但得到比较广泛认可的有四个(见表2)。总体上,与数据使用者相比,数据保存者对保存原因的认知度要略低一点,也许是因为数据保存者对对地观测数据保存的困难体会较深,对保存原因的认知更趋理智。

1.3 保存用途

对地观测数据主要来自于通过围绕地球运行的人造卫星收集到的有关地球物理、化学和生物系统的信息,这类信息是地球科学研究的基础,广泛应用于自然环境和人造环境的监控和预测。

1.4 保存威胁

调查显示,数据保存的最主要威胁来自保存系统缺乏可持续性、软硬件和数据格式过时导致数据无法访问以及描述型元数据丢失导致数据对象无法发现(见表4)。整体上,数据保存者对保存威胁的认知度略高,说明了保存者对数据保存过程的困难与缺憾深有感悟。

注:原因1:对地观测多由公共资金支持实施,观测数据为公共财产,理应合理保存,为未来科学研究之用;

原因2:对地球状态(包括地球环境和演变过程)的分析需要长期的尽可能全面的观测数据;

原因3:时间无法逆转,环境无法复制,对地观测无法重复取样,因此需要完整地保存这类数据;

原因4:对地观测数据的价值难以估量,未来的潜在应用难以预测。

注:用途1:地球灾害观测(如水灾、地震、飓风、火山爆发);

用途2:气候变化监控;

用途3:生态追踪(如海洋、碳化循环);

用途4:天气预测;

用途5:土地使用测量与统计(如深林滥伐、城市膨胀) 。

2 数字保存的实践

对地观测数据的保存实践是指目前对该类数据保存中相关问题的解决方法,包括:保存数据的内容、采用的元数据标准和保存数据的使用。其中前两个问题的调查对象是数据保存者,最后一个问题的调查对象是数据使用者。

2.1 保存内容

基于对地观测数据保存者调查的结果显示,不同的对地观测数据保存系统所保存的数据内容分布比较集中(见表5),表明保存系统在此项实践上比较一致。

注:威胁1:数据保存系统缺乏可持续性;

威胁2:软硬件过时导致保存数据无法访问。

威胁3:数据文件格式过时导致用户无法理解和使用。

威胁4:描述型元数据丢失导致数据对象无法检索利用。

威胁5:数据保存系统的可信任性遭到质疑。

威胁6:数据访问与使用的限制无法保证导致知识产权受到侵犯。

威胁7:数据来源信息改变或丢失导致数据的真实性无从考究。

2.2 元数据标准

用户对对地观测数据的访问是通过元数据实现的,不同的对地观测数据保存系统采用的元数据标准也不尽相同,针对保存者的调查显示,对地观测数据保存采用的元数据方案比较集中在HDF、netCDF、ISO19xxx系列空间元数据标准、INSPIRE和OGC等(见表6)。

2.3 数据使用的目的与问题

总体上,使用者对保存数据高频率访问的占61.7%,经常访问的占22.7%,偶尔访问的占15.6%。从用途角度,使用者访问保存数据的目的比较分散(见表7)。

从访问和使用的保存数据类型角度,被调查者中有79%经常使用原始观测数据,50%经常使用合成数据(基于多项原始数据加工而成的数据产品),37%经常使用解释型数据(针对一些难以理解的原始数据进行解释的辅助数据)。

在数据使用过程中,最常遇到的问题见表8。

针对上述第一个问题,可能导致的原因有数据迁移和数据恢复。数据迁移包括存贮介质迁移和数据格式迁移。存贮介质迁移是将保存数据从不稳定的存贮介质转移到稳定的存贮介质中,这个过程可能会导致数据的丢失。数据格式迁移是数据存贮的文件格式从过时的格式转换为新格式的过程,这个转换过程也会导致数据的丢失。另外,存储介质本身的老化和损坏也是导致数据丢失的常见原因。

针对上述第二个问题,可能的原因是元数据丢失。用户对数字资源的检索是通过描述性元数据实现的,描述型元数据的丢失和不充分使得用户无法找到相对应的数字资源。

针对上述第三个问题,可能的原因是数据存贮格式过时。数据格式过时是用户使用当前浏览器无法打开浏览原来的数据存贮文件格式。

针对上述第四个问题,可能的原因是表征信息缺失或不充分。表征信息是指有效浏览和使用保存数据所必须的工具,比如浏览软件、分析软件、理解保存数据所需的知识、记录对地观测数据生产的文档等,这类信息常常要求与对地观测数据一起保存。由于一些对地观测数据的高度复杂性,表征信息对有效使用和理解这类数据至关重要。

3 对数字保存的思考

3.1 认知上的思考

认知上,虽然保存人员和使用人员认为对地观测数据的保存非常重要,并且对保存原因和用途的认识也基本一致,但对该类数据保存的未来高度忧虑,具体体现在表4中最严重的保存威胁为“数据保存系统缺乏可持续性”,实际上该表中的其他6项威胁也是可持续性的细化。因此,学术界应该加强对数字保存的可持续性研究。

宏观上,影响数字保存可持续性的最主要问题有管理、技术和经济三个方面。多年来,对数字保存的研究主要集中在管理和技术层面,但对经济问题涉猎甚少,因此应该开展对数字保存经济可持续性的探讨。实际上,数字保存本身就是一种经济产品,要么是基于市场机制运营的市场经济产品(如CNKI的中国期刊网),要么是基于公益性机制运营的公共经济产品(如美国国会图书馆的American Memory)。从经济产品角度,数字保存经济可持续性可以从经济要素和经济评价两个方面进行研究。

数字保存的经济要素可以从宏观和微观两个层面进行解析。宏观上的经济要素主要是“供给与需求”。在“供给”方面,应该研究其影响因素(如数字资源的保存价值、数字资源非排斥性消费以及由此产生的搭便车问题、保存动机的缺失与错位等)以及解决方法;在“需求”方面,同样也应该研究其影响因素(如当前用户需求的发散性、未来用户需求的预测性、数字保存的派生需求等)以及解决方法。微观上的数字保存经济要素主要是“成本与收入”,成本方面的研究应该构建数字保存成本的计量模型(如已出现的LIFE模型[4]、BCL模型[5]等),收入方面的研究应该设计用户访问收费和保存者委托保存收费的计量方法(如英国考古学数据保存ADS项目[6])。

数字保存的经济评价可以参考其他相近类型项目(如IT项目)的经济评价方法结合数字保存项目特征来实施,一般从定性和定量两个角度进行。在定性评价方面,可以从供给的必要性(如数字资源保存价值大小、搭便车问题的影响与解决、保存动机缺失与错位的存在情况及提升与纠正等)和需求的充分性(如现实需求水平、未来需求预测、派生需求的市场供给)等方面,分析数字保存项目的经济必要性。在定量评价方面,应该基于“成本与收入”的计量或预测值,评价数字保存项目的经济可行性,一般包括的步骤有建立评价指标体系、设计评价指标计量模型、设置评价指标基准值以及评价实施等。

3.2 实践上的思考

实践上,保存人员保存对地观测数据的类型比较一致;所采用的元数据标准虽然比较分散,但大都遵从该类数据的特点;使用者的访问目的虽然也比较分散,但大都因任务而异;最突出的问题表现在访问过程中遇到的不足。实际上,这些不足都是数字保存质量问题的具体体现。作为一种经济产品,同其他类型产品一样,数字保存质量可以通过建立质量标准(如不少产品都有质量标准)并在此基础上进行质量认证(如产品的ISO9000系列认证)来解决。但目前为止,对数字保存的质量标准与认证探讨不多,应该加强这方面的研究。

在质量标准研究方面,可以首先分析影响数字保存质量的因素,然后建立数字保存的质量标准。

在数字保存质量影响因素解析方面,根据全面质量管理的原理,应该基于数字资源生命周期包含的阶段,从各个阶段实施的主体来分析。一般认为,数字资源生命周期包括的主要阶段有:数字资源的生产阶段(由数字资源生产机构实施)、数字资源的存储阶段(由保存机构通过建立运行数字保存系统来实施,有的保存者与生产者是同一个机构,有的则是不同机构)、数字资源的访问阶段(由用户通过对数字保存系统进行检索、结果浏览与下载来实现)等。因此,数字保存质量影响因素可以从数字保存系统、数字资源生产机构、保存机构、用户、信息技术支撑(由于数字保存的整个生命周期都需信息技术支撑)等方面进行分析。

在数字保存质量标准建立方面,应该在上述分析的基础上,从数字保存的管理质量、保存系统的性能质量、用户服务质量和技术支持质量等方面来实现。其中:(1)数字保存的管理质量,应该涵盖数字保存方针、所需人力资源与员工职责、保存系统监控与反馈、保存系统运行日志管理、数字资源的完整性监控与测度、灾难性事件的防御与恢复计划、数字迁移等各种长期保存措施的风险管理、数字资源产权管理等;(2)保存系统的性能质量,可以参照OAIS参考模型来研究,内容应该涵盖数字资源获取与收录、存档技术与管理规范、检索元数据和管理元数据、数字对象质量指标、检索功能与检索效率、各种导航与链接规范等;(3)用户服务质量,应该涵盖目标用户及其需求、满足用户信息需求的元数据方案、用户服务模式与方针、用户访问记录的管理与分析、数字资源的用户可用性与可理解性的测试与核实、用户信息反馈机制等;(4)技术支持质量,可以参照信息安全标准ISO17799来研究,内容应该涵盖多平台支持、数据备份与同步访问机制、损坏和丢失数据的检测与恢复、存储介质迁移与数据检验、软硬件对用户服务的支持水平、保存系统环境分析与安全报警机制等。

在数字保存质量认证方面,可以参考ISO产品质量认证的方案,结合数字保存的特点,设计数字保存的认证模型。该模型应该包括的基本模块有:(1)认证机构与认证人员,内容应该涵盖认证机构的基本要求、认可获得程序、认证人员资格获取与监视、认证人员行为准则与职责及能力的评价与管理等;(2)认证模式,应该参考ISO9001的认证模式,研究数字保存认证模式的构成要素,并据此设计认证模式的种类,探讨每种认证模式的优缺点和适应范围;(3)认证流程,应该研究认证流程的构成要素(如认证的申请、数字保存质量管理体系检查、数字保存性能抽查、审查与审定及认证批准等);(4)认证方案,应该涵盖认证方案的形式、认证实施阶段(如资格检查、认证、跟踪)、认证方案的内容等。

参考文献:

[1]Kuipers T, Hoeven J. Insight into digital preservation of research output in Europe: Case studies report[EB/OL]. [2011-04-01].http://www.parse-insight.eu/downloads/P

ARSE-Insight_D3-3_CaseStudiesReport.pdf.

[2]EAS.The European Space Agency portal[EB/OL].[2011

-09-10].http:www.esa.int/.

[3]NASA.National Aeronautics and Space Administration[EB/OL].[2011-05-01]. http://www.nasa.gov/.

[4]Ayris P.etal. The LIFE: Final Project Report[EB/OL].[2011-08-10]. http://www.life.ac.uk.

[5]Beagrie N et al. Keeping Research Data Safe: A Cost Model and Guidance for UK Universities[M].London: JISC, 2008.

[6]ADS. Archaeology data service[EB/OL].[2011-09-07]. http://archaeologydataservice.ac.uk/.

作者简介:臧国全(1963-),男,博士/博士后,郑州大学信息管理系教授,研究方向:数字保存;郭营(1988-),女,郑州大学信息管理系硕士研究生。