试论我国数字信息长期保存的挑战及策略

2013-11-14 06:21柯燕红福建师范大学协和学院图书馆
新世纪图书馆 2013年5期
关键词:数字信息国家图书馆机构

柯燕红(福建师范大学协和学院图书馆)

1 前言

随着信息技术和网络技术的飞速发展,数字信息以惊人的速度增长着,然而数字信息却比历史上任何一个时期的文献信息更加脆弱。West World 公司的报告指出,每500 个数据中心每年至少有一个要经历一次灾难,每个网页存活的时间不超过40 天。另一方面,由于数字信息技术大约每18 个月就更新一次,格式、软件间的更新换代使原有的数字信息再也无法存取。例如,从1995 到1999年在IEEE Computer和Communictions of the ACM 中被引用的文献在2000年时就有28%不可再获得,到2002年增加到41%。人们对数字信息的管理特别是数字信息的长期保存再也不能无视,国外很早就对这一问题进行了研究,并己取得一些成果。

然而数字信息保存在国内的形势相当严峻,根据中国互联网络信息中心(CNNIC)发布的调查数据,因特网上的中文信息状况为(截止2005年12月31日):全国域名数259.2万个,网站数量69.4 万个,网页总量24 亿页,在线数据库总量29.5 万个。面对如此庞大的数字信息,目前在国内没有一个可靠的保存机构保证这些信息的长期可存取,一旦信息丢失,我们的文化遗产很可能就付之东流。而美国Internet Archive 却搜集和保存了我国官方网站的大量信息,甚至包含我们自己现在再也无法找到和再现的信息。我们无法回避数字信息保存的问题。

2 数字信息长期保存面临的挑战

2.1 技术

原国家档案局科研所所长徐义全说:“电子档案存储载体的寿命一般都超过了读写它的计算机软硬件技术生命周期,使得载体寿命相对于计算机软硬件技术过时而言,显得并不十分重要。”反映了在数字技术日新月异的时代下,数字资源能否长期保存,问题已经不在于存储介质的寿命长短,而在如何保证数字信息的长期可存取。所以数字信息长期保存在技术上面临的是新旧文件格式、新旧计算机系统之间能否相容的难关,专家们纷纷转向研究制定适合数字信息长期保存的技术策略。

目前国际上数字信息长期保存的技术方法主要有:更新,仿真,迁移。表面上似乎每一种方法都可行,但实际上却都存在隐患。更新是每隔几年就将信息就转移到新的存储介质上,防止存储介质的不可用,保证数据内容的存在性。但是数据格式、格式间的协议以及计算机软硬件的快速发展将使这些信息不久便无法存取,信息将变得毫无用处。在这样的限制下更新变得毫无用处。于是迁移与仿真技术成为维护数字信息的长期可读性的重要技术,但两者也都同样面临困境。所谓仿真,就是模拟旧的计算机软硬件、旧的文件格式,使信息能够在原环境下原貌读出。虽然在仿真环境下,数字信息的外观及行为特性保存了原有的基本特征。但是仿真的所有环境都是在新的环境下开发出来的,数据不可避免地也会丢失一些原有的特征。而数据迁移技术的原则是数据的格式和结构可以改变,但是内容蕴含的语义不变。简单说来,就是将数据从旧的格式迁移到新的格式,从旧的计算机系统迁移到新的计算机系统。这样既可以保证存储介质的更新,也可以保证信息可存取。迁移于是成为最具生命力的是信息保存技术,但是数据迁移却需要大量的财力支持。种种难题使信息保存部门面临来自技术方面的沉重压力。

2.2 管理

数字信息的新特点同样也使图书馆等保存机构在管理上面临难关,体现在以下三个方面。

2.2.1 保存机构往往无法拥有相应的信息资源

在传统的文献采集中,文献部门购买多少就拥有多少,不用考虑获取与拥有的关系。只要文献部门购买了相当的文献资料就拥有一定数量的文献资源,图书馆轻易就有了保存的前题和基础。信息产品则不同,网络环境下信息的传播几乎不用任何成本,人们可以任意地发布和利用信息,这对以出售信息产品来获得经济利益的提供商来说是绝对不允许的。因而大多数信息提供者为了防止信息的无序传播,保护他们的经济利益,并不会出售信息的所有权,而仅仅是采用许可协议的方法出售信息在购买期间的可读权限。在购买期内,用户拥有搜索利用相应信息资源的权限,一旦购买期限到了,人们连旧有的电子信息的利用都不可能,更不用谈电子信息的长期保存了。在国内图书馆建立的数据库中,人们对电子资源的利用也几乎通过商业提供商提供的数据库,如维普、CNKI 等。拥有权掌握在提供商手中,面对信息资源长期保存的使命,保存机构只能是有心无力。

虽然许多提供者为了将来信息能够再次出售,对他们的核心数字信息也进行了保存,牛津大学出版社、Reed Elsevier、美国地球物理学协会和美国物理协会等都采取了这种做法。但是这种保存行为的目的不在于保存人类的知识文明,而是维护他们的经济利益,因此在保存过程中提供者会将电子出版物与访问密码绑定,将保存过程复杂化,甚至一旦发现一些数字信息不再有利于他们的销售,还会将具有保存价值的数字信息清除,无数的数字信息将白白流失。如何解决保存机构拥有信息资源的难题亟待解决。

2.2.2 保存机构进行保存活动没有法律保障

数字信息的保存容易侵害相关作者的版权,引起不必要的法律纠纷,但是到目前为止国内仍然没有强有力的制度保证数字信息长期保存的合法性。虽然我国制定了完整的缴存本制度,但这仅仅局限于传统文献,并未把数字资源纳入其缴存的范围。国际上一些国家早已意识到保存数字信息的重要性,并对缴送法做了相应的修改。如丹麦的缴送法在1997年6月己修改规定静态的网络信息资源需向国家图书馆缴送。该国目前还在修改现行缴送制度和著作权法,试图保障动态信息的自动收集。芬兰国家图书馆也于2002年开始接受缴送的网络信息资源。而国内至今还缺乏有力的法制保障,图书馆等各个保存机构开展长期保存工作举步维艰。

2.2.3 信息创作者对信息保存的重要作用未得到发挥

对纸质材料等传统的信息资源来说,创作者和管理者的职责是明确的。创作者只要创作了传统的信息资源,并不参与信息产品生命周期的其他环节,资源的保存不在创作者的考虑范围之内。而信息资源管理机构(如图书馆、档案馆和博物馆等)作为信息资源的管理者,尽管并不产生作品,却对他人产生的具有保存价值的信息产品负有长期保存的责任。但是在数字和网络环境下,数字信息的创作不再与保存活动相脱节。在信息产生时创作者直接决定数据的形成,有权决定数字信息采用何种格式,何种读取软件。而文件格式、读取软件的采用直接决定今后数字信息读取寿命的长短。信息创作者除了原来扮演的角色外,更重要的责任在于能否保持资源的长期可存取,但是现阶段国内不同创作者、不同创作机构采用的软件往往互不相同,比如单单是文字编辑软件的使用就多达十几种,如WPS、MS Word、Ultraedit、EditPlus 等,这种情况无疑大大增加了保存工作的难度。

3 我国数字信息长期保存的策略

3.1 缓解技术压力,合理采用相应的长期保存技术

首先,由于数字信息保存的关键在于保证它的可存取性,因此如果数字信息的保存从信息生成之初抓起,积极地与信息生产者进行对话,使生产者最大限度地按标准或协调而成的统一软件生产数字信息,延长相应数字格式使用的寿命,就可以大大地缓解图书馆等信息保存部门的压力,为更新技术的应用提供了极为有利的条件。第二,在更新,仿真,迁移等保存技术的选择上,图书馆、档案馆等保存部门应根据需求者利用信息的程度制定一套相应的信息分级制。对级别较低的数字信息采用更新技术,几年以后信息过时了就可将该信息剔除;对级别居中者,采取仿真技术,保证信息的基本原貌,在保证信息可利用的前提下长久地保存信息;对特别珍贵的信息资源则采取迁移技术,力求完整真实地保证信息的原貌。在迁移问题上,图书馆、档案馆等保存部门还必须与IT 界保持沟通,了解技术发展现状,确定信息迁移的最佳时间。第三,各个信息保存机构之间可通过采用统一的标准,如统一的元数据、存储标准等,促进保存系统数据间的共享,使各个机构之间合理分担相应的保存工作,降低保存的难度,避免信息保存工作的重复劳动。

3.2 合理解决与信息提供者之间存在的矛盾

有研究者撰文指出:长期保存需要有固定和长期收入(资助)的机构来承担保存的任务,因此有的学者提出应该由那些能够“维持几百年以上的专门的长期保存机构,比如图书馆、档案馆”进行保存。IFLA/IPA 的联合声明也指出,“出版者应该担负短期保存的责任,长期保存的责任由图书馆承担”。我们不能寄希望于商业机构的保存活动,而应该尽快加强与提供商之间的沟通与合作。图书馆应该向提供商表达愿意收藏已无销售价值却仍需保存的信息的愿望,同时希望他们对正在或将要销售的电子出版物采取安全的保存策略,两者甚至可以共同探讨信息长期保存的解决方案。同时出版者与图书馆也可以对提供商的短期保存提供合理的建议,就保存元数据的制定进行协商,使用共同的元数据,以便在长期保存中节省保存的成本。

3.3 健全法律制度

联合国教科文组织2003年8月19日发表的《保存数字化遗产宪章草案》第8 条提出,为了保护数字化遗产,各会员国须有必要的法律框架,仅依靠市场力量是不行的,同时建议会员国制定的国家遗产保存政策应该保证图书馆等公共文献保存机构可以在缴送制或其他法律强制作用下获得数字化遗产。该草案坚定了我们向法律求助的信心,因此信息保存机构,包括各类图书馆、档案馆,甚至各种各样可能从数字信息遗产获益的组织应该联合起来,呼吁国家修改图书馆法,缴存法等相关法律,将数字信息纳入文献缴存的范围。同时修改著作权法的相关规定,在保证相关作者版权的同时可以保证相应资源的保存。

3.4 制定标准规范

数字信息的标准包括文件格式标准与管理标准。文件格式统一规范,信息长期可存取不再困难;管理的规范使不同技术平台之间的相容险增大,信息容易共享,保存工作不再繁重。我国对文件格式的统一应该通过宣传和强制手段促进各机构逐步利用标准规范,充分发挥信息创作者的重要作用。在管理标准上,1999年美国空间数据系统咨询委员会(CCSDS)提出了OAIS(开放档案信息参考模型),作为一种有关长期保存和利用数字资源的参考模型和框架出现,并提交ISO。经过3年讨论修改,OAIS 于2002 正式成为ISO 标准—ISO14721:2003。OAIS 参考模型定义了一个数据保存的总体框架,包括应具备的功能,统一的概念和术语等,此框架适用于所有致力于长期保存数字资源并提供利用的系统和组织,几乎所有大型的长期保存项目都将它作为实施标准,国外许多机构结合自身特点和需求建立了基于OAIS 的本地长期保存结构,如NEDLIB(欧洲国家版本图书馆网络)。国内采用OAIS 的只有少数图书馆,应该加强推广力度。

3.5 建立多方合作模式

数字信息长期保存是一个系统工程,涉及技术,法律,经济,管理多方面的问题。仅仅靠独立的保存机构不可能完成数字信息长期保存的重任。因此将图书馆、基金会、技术部门等多种信息机构和社会机构纳入数字信息保存的队伍,探索可行的合作模式势在必行。这方面国外一些国家早已为我们作出榜样。

3.5.1 1998年由荷兰国家图书馆牵头,与欧洲6 个国家图书馆(法国,挪威,德国,葡萄牙,瑞士,意大利)以及3 个主要出版社Kluwer,Elsevier 和Springer-verlag 共同开展网络化欧洲存储图书馆(NEDLIB),研究长期保存基础结构,以保证电子出版物的长期获取。2001 荷兰国家图书馆与IBM 公司合作,建立电子出版物存储机构e-deposit,2003年1月最新系统启用。2002年8月和2003年5月,分别与Elsevier Science 公司和Kluwer 公司正式签署长期保存其联机期刊和电子图书的协议,接受该公司缴送的1500 种超过7TB 的电子期刊。这样,荷兰图书馆通过与图书馆、出版社、商业机构之间的合作寻求解到决数字信息的长期保存的方法。

3.5.2 除了积极同各个部门合作,国外专门的信息保存机构还致力于探索可行的技术合作。美国斯坦福大学图书馆LOCKSS 项目就是一项解决出版商的信息保存问题的技术。安装LOCKSS 系统的保存机构与出版商协商,允许LOCKSS系统收集和保存其出版的一些允许保存的期刊资源。保存到LOCKSS 系统的信息通过审计,一旦发现错误可以从另外的LOCKSS 中得到正确的资源。这样LOCKSS 系统的成员都可以利用LOCKSS 工具收集正确的文件,并成为其他支持LOCKSS 的存储库的信息提供者,以保证所有的LOCKSS 系统用户能够获得该平台的资源。LOCKSS 项目建立在分布互惠,共建共享的基础上,致力于解决出版商生产数字信息而无法保证它的长期保存,转而让社会公益机构保存的解决之道。在这个项目中中国科学院国家科学图书馆于2003年5月加入了LOCKSS 系统,成为与出版商的合作的一员,可惜LOCKSS 并无我国出版商的参与,意味着LOCKSS 无法搜集我国相关数字信息资源。

3.6 现阶段有能力实施信息长期保存的机构应该起带头和导向作用

2003年,国家图书馆开展了网络信息资源采集与保存试验项目(WICP)和网络数据库导航项目(ODBN),进行了数字信息长期保存的探索,对静态网页和动态网页采用不同的整合策略,该项目的目的在于:通过试验发现网络文献收集、整理、编目、保存和服务中存在的问题,提出解决问题的方案。虽然国家图书馆一直关注数字信息长期保存技术的发展,但是目前对保存的研究还不够,也还没有正式开展数字信息长期保存方面的实践。但是该项目体现了目前我国在信息保存方面的进步。此外在国家图书馆二期工程暨国家数字图书馆工程介绍中,国家图书馆已将OAIS 系统作为数字资源存储与长期保存的一个参考系统,这说明实力强责任重的少数图书馆正在与国际接轨,为数字信息的长期保存作出榜样和示范。只有越来越多的保存机构开展保存活动,我们的数字信息遗产才有可能更加完善地保留下来。

4 结束语

我国数字信息长期保存工作处于刚刚起步阶段,但是我们应该认识到数字信息极易丢失,而且一旦丢失,很难重建,很难修复,甚至永远也找不回来。因此图书馆应尽快促进多方合作,把技术部门、出版社等信息部门带入一个开放的系统中,共同承担起传承人类文明的历史责任。

1 曾蕾. 数字保存Digital Preservation[EB/OL].http://webapp.lib.tsinghua.edu.cn:8090/meeting/ppt/zenglei1.pdf,2006-08-30/2012-06-01.

2 中国互联网络信息中心(CNNIC).2005年中国互联网络信息资源数量调查报告[EB/OL].http://www.cnnic.net.cn/download/2006/20060516.pdf,2006-05-01/2012-06-01.

3 宛玲.数字资源长期保存的管理机制[M].北京:北京图书馆出版社,2006.

4 黄如花.数字图书馆原理与技术[M].武汉:武汉大学出版社,2005.

5 赖朝新.数字信息长期保存的主体研究[J].图书馆理论与实践,2005(2):47~48

6 陈力,郝守真,王志庚.网络信息资源的采集与保存——国家图书馆的WICP 和ODBN 项目介绍[J].国家图书馆学刊,2004(1):2~6

7 王志庚,赫守真.网络文献保存的实践和课题[J].国家图书馆学刊,2004(2):23~29

8 牛金芳,郑小惠,吴天华.OAIS 与数字图书馆[J].图书情报知识,2002(6):53~55

9 胡燕菘.数字资源保存:相关项目与管理策略[J].图书馆工作与研究,2005(4):48~51

10 刘家真. 拯救数字信息:数据安全存储与读取策略研究[M].北京:科学出版社,2004.

11 赵俊玲.国外关于网络信息资源保存的研究[J].中国图书馆学报,2004(3)

12 赵俊玲,杜国芳.网络信息长期保存合作模式探析[J].理论与探索,2006(1):60~62

13 陈清文.数字信息保护:网络时代一项不容忽视的工作[J].现代情报,2004(3):20~24

14 田硕,黄国彬.近十年国外数字资源长期保存研究综述[J].图书馆杂志,2011(7):8~13

15 宛玲,崔广治.数字资源长期保存公共服务体系研究[J].现代情报,2007(1):59~61

16 臧国全,秦东方.数字保存的经济风险与对策[J].图书馆,2011(1):74~77

17 钟常青,杨道玲.中文网络信息保存体系探讨[J].图书馆杂志,2008(4):21~25

猜你喜欢
数字信息国家图书馆机构
一周机构净增(减)仓股前20名
基于云平台的数据储存与文件管理研究
一周机构净增(减)仓股前20名
一周机构净增仓股前20名
图书馆中文图书借阅排行榜
一周机构净减仓股前20名
数字信息对图书馆馆藏结构的影响
图书馆中文图书借阅排行榜(2016年3月)
高校学籍档案信息化管理研究
国家图书馆农业部分馆成立