郑慧梅
(三亚图书馆,海南 三亚 572000)
随着数字信息资源的爆炸式增长,数字信息长期安全保存已成为各国研究的焦点。早在20世纪90年代初,欧洲就开始关注数字信息长期存取问题。我国于20世纪90年代末,相继开展了中国国家图书馆(以下简称国图)的WICP(Web Information Collection and Preservation Project) 项目和 ODAN(On-line Database Navigation)项目以及中国Web信息博物馆项目。由于我国开展数字信息长期保存研究起步比较晚,图书情报界对数字信息长期保存还缺乏深入研究。基于此,本文在分析影响数字信息长期保存的因素的基础上,提出数字信息长期保存的技术策略。
数字信息是指所有以数字形式把文字、图像、声音、动画等多种形式的信息存储在光、磁等非纸介质的载体中,通过网络通信、计算机或终端再现出来的信息。与传统印刷型信息相比,数字信息有以下特点:(1)数字信息对设备的依赖性。计算机是数字信息产生的前提和基础,数字信息对计算机和相关设备具有绝对依赖性;(2)数字信息的不安全性。计算机病毒入侵、黑客攻击等都对数字信息的安全性、完整性、真实性构成威胁;(3)数字信息的不稳定性。数字信息容易产生,同时也容易被修改或删除;(4)载体易脆性。大部分数字信息的存储介质不稳定,如果没有相应的存储环境和管理,可能迅速消失。数字信息的这些特点,严重影响了数字信息的有效存取。长期保护具有使用价值的数字信息是信息保护者义不容辞的责任。
关于数字信息长期保存的概念,国内外还没有形成统一的认识。毕强在《数字信息资源开发与利用》(第二版)中指出,数字信息长期保存是为了长期维护数字信息的真实性、可靠性,免于意外损坏、存储介质退化,以及因为软硬件过时造成的丧失,保证可预料的将来的人们的获取。数字信息长期保存的主要内容:(1)保存数字比特流,即通过对数字存储媒介的保护或转移,确保存储其中的物理数字数据能被准确完好地读出;(2)保存数字格式与处理信息,即通过保存有关数字信息编码、格式、标记、结构、压缩、加密等方面的技术方法信息,确保能够识别和解析数字信息内容;(3)保存数字信息处理环境,如相关软件甚至硬件系统,确保能拥有相应的技术工具来识别、利用数字信息;(4)保存数字信息的内容校验、身份认证、版本演变、知识产权管理机制,确保能可信赖、可靠和合法地鉴别使用被保存的数字信息;(5)保存数字信息的知识组织体系,保存数字信息的组织利用环境。
数字信息目前主要有两大类:(1)传统文献的数字化复制;(2)以数字化形式直接生产的非传统文献。前者,其原件已被图书馆、档案馆等保存;后者,形成之初就是数字化文献,是尚未保存的文化遗产。因而,数字信息保存系统的保存对象主要指后者,即直接以数字化形式生产的信息资源。
存储载体是存储数字信息资源的实体或记录信息的材料,数字信息长期保存与其依附的存储载体密切相关。目前,我们常用的数字信息存储载体有软盘、硬盘、磁带、软驱、服务器等。这些存储载体不论如何完备,也只是延长其使用期限,例如:光盘在使用时由于受数据记录质量、红外线照射、盘面污损、外力损伤等因素影响,其物理寿命一般在5~200年之间;磁带由于受保存地点的温度、湿度、灰尘、使用不当等因素的影响,其物理寿命一般在5~30年之间;硬盘由于受到震动、撞击、电压不稳、病毒的侵入等因素的影响,其物理寿命一般在5~10年之间。
数字信息的长期保存需要以技术发展为保障。电子产品更新换代极快,硬件、软件的技术淘汰使数字信息的长期读取充满了未知数。图书馆在对一些文献进行数字化转换时,数字信息的内容以数字编码的形式存储于各种介质上,人们利用文件格式对数据和有关数据的信息进行编码,各种电子出版物其格式也不尽相同,且其不断更新,这样就给数字信息保存带来了一定的困难。
数字信息在存储、传播的过程中,其诸多环节都涉及到了相应的知识产权问题。在多数情况下,图书馆根据《中华人民共和国著作权法》和《信息网络传播权保护条例》中的“合理使用”规定,对数字信息进行合理使用,但目前有关法律对“合理使用”的范围并没有作出明确的界定,没有法律条款的支持,数字信息在保存的过程中,很容易引起知识产权纠纷。所以,相关法律法规的完善,已经呈现出迫在眉睫的态势。
物质第一性决定了数字信息保存必须要有充足的经费作后盾。数字信息的长期保存是一个动态、持续的过程,每一个环节都会涉及到保存的运营成本。保存数字信息所需要的成本支出类型与保存传统纸质信息所需成本支出类型截然不同,数字信息长期保存的维护费用将比传统文献维护费用高,而且数字资源的保存具有不确定性,难以精确计算,其保存成本具有不可预测性。缺少经费的支持,必然会影响到数字资源的长期保存。
数字信息长期保存体系涉及多个研究、合作和服务领域,保存政策的周期滞后性严重影响数字信息的长期保存。如由于不健全或不完善的博客保存政策,一些有价值的博客信息将会永久性地遗失。过强的政策针对性从宏观上会对数字信息保存的长期发展产生一定的负面影响,在某种程度上会影响到保存机构、版权所有者及用户三方的利益以及保存机构之间的长期合作关系。数字信息长期保存是对人类提出的一个世界性的问题,但目前尚缺乏国际性的保存政策对数字信息的长期保存加以规范和约束。
目前,数字信息保存层次分为位流保存、数据内容保存、完整的知识内容保存、服务保存四个层次。位流保存即保存纯粹的数据,只存储原始数字对象,维护原位流的完整性和可读取性,不考虑数字对象的外观和相关功能;数据内容保存即保存数字对象的最基本内容,如文档类文件的文件方式保存、图像类文件的光栅方式保存等;完整的知识内容保存即在保存内容数据的同时还保存“与内容数据的保存和使用相关的元数据”;服务保存即保存数据的支撑运行环境。
数据备份即是对重要的数据资料,如将文档、数据库、记录等备份下来,生成一个备份文件放在安全的存储空间内。当重要的数据丢失、误删或被病毒破坏时,将其上传到一定的系统上提供服务。这种保存有时也被称为阴暗存储,如美国佛罗里达州的DAITSS数字保存系统和英国大不列颠图书馆的数字保存系统。比较流行的方式有多重备份、异地备份,通常用于位流保存。
仿真是生成一套软件,用于模拟保存、访问数据的硬件或软件,有时只是模拟硬件或软件的一部分功能,预期重现数字对象的原始操作环境,其优势在于与操作平台无关。当访问数字信息唯一可行的方法是利用该数字信息生成时的早已过时的硬件与软件平台、操作系统以及程序时,可以考虑使用仿真,即制作一个仿真器,但其费用较为昂贵。仿真技术适合于超文本、多媒体等复杂的以及其所依赖的运行条件无法在新、旧技术平台之间进行迁移的数字信息,仿真是延迟技术淘汰的方法之一。
迁移是较为广泛使用的一种数字信息长期保存的策略,迁移是定期地将数字信息从不稳定的媒体转换到稳定的媒体上,从旧计算机的环境转换到新计算机环境上;将数字信息从各种不同格式上迁移至易于管理的最简单且符合标准的格式上,保证数据可以被当前的计算机系统读取。当数据格式过时或发生其他情况时,利用迁移工具将原始的数字对象迁移到新的数据格式下,可保证数据在新的平台环境下的可用性。然而传统的迁移方法存在着一些不足,即如果在迁移的某一步骤存在错误、遗漏或其他情况,就会影响以后的迁移,会产生不同程度的失真。按需迁移的方法,保存的原始字节流并不随时间改变,只是改变了迁移原始格式的工具和方式。当以前支持的格式过时,只需在工具上添加新迁移工具,实现新的输出模块即可。
加利福尼亚数字图书馆(CDL)的John Kunze博士认为:“……技术当然是数字保存的一个部分,但是如果对技术的依赖性越大,数字保存的风险也就越大。”因此,他提出了另外一种数字保存的方法—风干(Dessication)方法。风干是指从复杂数字对象格式中提取有价值的内容,保存简单的、低技术含量、机器易于还原和容易被人理解的数字对象格式的过程。基于风干的策略,就是在保存数字对象的原始版本外,还需要保存一个简单的、低技术含量的、经过干燥处理的数据版本。如CDL对Web格式文档数据的风干处理时,过滤掉所需保存的复杂数字对象的字体、图像、色彩、读音符号等,只保存最基本的文本数据,整个处理过程是随着对原始数字对象的保存而进行的。
技术保存以数字对象的读取、呈现、处理技术为主要保存对象,而不以数字对象为保存对象。由于某些数据无法脱离于原始的运行环境,需将数据、产生数据的原始软件、操作系统和硬件平台一起保存下来,才能为日后运行此数据信息时提供运行的支撑,所以才产生了技术保存。
数字信息长期保存是一项复杂而又艰巨的工作,数字信息长期保存的每一个过程都需要标准的支持。因此,我国应尽快制定数字资源长期保存的各种标准,建立数字信息长期保存技术体系。英国Cedars(CURL Exemplars in Digita1 Archives)的分布式数字档案原型系统、欧洲NEDLIB(Network European Deposit Library)的电子出版物保存系统(DSEP)、加利福尼亚大学的数字保存仓储 (Digital Preservation Repository)系统等有关数字信息保存系统的设计和实现思路,能够为我国数字信息保存系统设计和实现提供参考。
[1]王晖.数字信息长期保存的技术策略[J].情报探索,2008(10):111-114.
[2]毕强.数字信息资源开发与利用[M].2版.北京:科学出版社,2009.
[3]黄旭,毕强.国内外数字资源长期保存研究现状与进展[J].图书馆学研究,2009(1):25-28.