许 桓,余 杰
(华中师范大学,湖北武汉 430079)
国内外数字资源长期保存活动进展与启示
许 桓,余 杰
(华中师范大学,湖北武汉 430079)
数字资源;长期保存;国家图书馆
随着数字资源的急速增长,数字资源长期保存面临严峻考验。文章主要阐述了数字资源长期保存的特点,国内外较为典型的数字资源长期保存项目以及这些实践活动给我国数字资源长期保存带来的启示,要求我国增强数字资源长期保存意识,发挥国家图书馆的主导作用,广泛进行合作,拓展资金渠道以及建立完善的法律保障体系。
2013年3月,IDC(International Data Corporation,国际数据公司)发布的第六期数字宇宙研究报告《大数据,更大的数字身影,最大增长在远东》[1]明确指出了海量数字资源的产生使得存储过程受到了极大的挑战, 这些数据主要来源于个人用户以及程序。2005年全球制造、 复制的数字信息量共计130EB,2012年数字宇宙规模达到2.8ZB(2,867EB),许多学者估计数字宇宙规模将在2020年超出预期达到2012年水平的20倍。新兴市场在数字宇宙所占的比例为36%,预计到2020年将超过发达国家,占到总量的62%。
进入信息社会,随着信息技术的迅猛发展,信息资源的地位日益突出,已经成为信息社会重要的战略资源。2001年,江泽民在《加快我国的信息化建设》一书中指出:材料、能源和信息,是现代社会发展的三大资源。在所有的信息资源中,数字信息资源在数量方面已经占据信息资源的核心地位。数字产品的普及和数字资源的应用,正不断改变人们的生活方式,方便了人们的日常生活。从战略角度出发,长期利用以及保护数字信息资源具有长远的经济价值和实用价值。首先,长期储存数字资源能够影响到这部分资源的利用效率,长期保存的根本目标是促进信息资源的共享和持续利用,是发挥数字信息资源在经济社会发展中战略价值的前提条件。其次,数字资源长期保存事关人类文化遗产的传承。数字再造资源,是将传统非数字化的资源(如古籍、纸质期刊等)进行数字化的产物,是对传统文化的继承和发展;原生数字资源,是直接通过数字设备产生的数字资源,其更多的是当代经济社会生活的产物,因此,数字资源是人类文明的重要载体,对于传承人类文明具有不可替代的作用。最后,数字资源长期保存事关国家对社会核心资源控制力的提升。数字信息资源作为国家综合实力的重要组成部分,其控制力对国家核心竞争力和国家数字资源安全有十分重要的影响[2]。
数字资源长期保存的问题越来越受到人们的关注。在国外,数字资源长期保存的研究成果较为完善,起步早于国内的学者。国外的研究者在20世纪90年代初通过调查研究的方式对存储数字资源进行了相应的分析,然而这个过程在许多发达国家得到了相应的发展。相对于国外的研究,国内的研究起步较晚,21世纪初相关的保存项目才在国内开展。目前关于数字资源长期保存的研究主要集中在以下几个方面:第一,在数字资源长期保存的相关主体方面,Brianf[3]从用户的视角对保存过程的参与者进行了细分,分别是数字生产者、保存者、保存决策者、保存用户以及保存投资者,同时将这五个角色划分为三个利益团体:数字资源所有者、长期保存者、长期保存受益者。赖朝新[4]从组织的角度对保存工作的参与者进行了区分和定义,这些参与者主要包括相关组织以及个人。其还指出图书馆长期保存理想的保存主体联盟包括数字图书馆与其他图书馆联盟、相关组织机构和图书馆内部工作人员之间的协作。Grotke AIIPC成员报告中指出目前参与到数字资源保存的主要参与者是国家图书馆,其他组织所形成的图书馆机构分别扮演着不同的角色。第二,数字资源长期保存的技术问题。1995年美国空间数据系统咨询委员会提出的OAIS参考模型[5],定义了数字资源保存的总体框架,Priscilla Caplan[6]针对存储库之间的互操作性问题设计存储交换包,用以克服不同存储库之间的匹配问题。张智雄[5]提出了数字资源长期保存的技术体系,包括保存管理、摄入、仓储、存储和访问等相关技术。Hilde van Wijngaarden[7]认为数字保存策略是保存数字信息的新问题,迁移和仿真是目前比较常用的两种策略,并对这些策略进行较为详细的解释。第三,数字信息资源长期保存的经济方面的问题。英国的电子文献信息生命周期项目[8]开发了数字资源保存生命周期过程中的成本估算系统,包括获取、摄入、元数据、访问、存储以及长期保存等六个阶段。臧国权[9-10]将数字保存作为一种经济产品分析其所面临的经济风险,并且提出规避这些风险的一些对策,同时还从时间参数角度对数字资源保存价值模型进行了构建,分析投资机会收益率,探讨影响投资机会选择的重要参数,并结合具体实例计算了投资机会价值和最佳投资规则,指出合适的投资时间点能够获得最大的数据资源价值。周献红[11]指出负面收益函数能够体现出数字资源保存工作的价值,其中未保存的资源、将来重新生成的资源以及不可再生的资源都会造成巨大的损失。结合这些观点,可以发现数字资源长期保存所带来的收益为再生产成本与消失代价之和。第四,数字信息资源长期保存的法律问题。Mags McGinley[12]从知识产权的角度对数字资源存储与提取过程进行了分析,指出了公开获取资源与数字资源所有者的控制力之间存在一定的矛盾,要求加强对相关法律和资源许可等相关问题的关注。刘可静[13]通过对美国图书馆协会和ARTstor数字图书馆隐私保护政策和实施措施的实证研究,对美国图书馆现行较有效的隐私保护政策和实施方案加以介绍和分析,进而探讨了对中国图书馆的启示,以期对中国图书馆隐私政策和实施措施研究提供参考与借鉴。
从复杂度的角度出发,长期保存数字信息资源的复杂程度是许多工作所无法比拟的,涉及许多方面,因此,数字资源长期保存具有一些不同于传统文献保存的特点,主要包括以下几个方面:①数字资源的脆弱性。数字资源格式和载体的多样性以及对外部环境的依赖性等特征决定了数字资源的脆弱性特征。情报学家M.劳恩曾说过:“文献增长得越快,文献的半衰期就越短。”数字信息资源是一种易逝的且不可再生的资源,美国NDIIPP项目的研究报告指出:网络信息的平均寿命是44天,作为保存工作的主要影响因素,脆弱性存在于数字资源从生成到消失的整个过程。②载体和技术的依赖性。刘家真[14]教授指出媒体的腐坏与脆化带来信息的丢失,即使保存条件再好,数字媒体的架藏寿命也是有限的。数字信息是以数字形式存在于磁带、硬磁盘、光盘等载体上,这些载体不可避免地随着时间推移、环境变化以及其他人为或非人为因素,逐渐老化或损坏,如:美国1960年人口调查数据、卫生与公共服务部的磁带、记录“越战”期间战俘及战斗失踪人员的战地伤亡文件等都已经无法恢复。数字信息对载体和技术的过分依赖性、载体和技术的变化将在很大程度上影响数字信息资源的使用。③保存价值的不确定性。臧国权[9]指出当用户使用数字资源的过程中,其保存价值才能够充分地体现,这种价值是用户对其使用和访问所获得的收益,对当前使用的数字资源进行保存也就隐含着为未来可能出现的但现在还是未知用途的数字资源提供未来访问和使用的选择。周献红也指出用户的需求不仅分布在现在,更主要的是分布在未来,因此保存决策者不仅要考虑用户当前的信息需求,还需要考虑未来的信息需求。④保存工作的持久性。《保存数字遗产宪章》在2003年指出整个保存工作具有较为明显的持久性,对于数字资源的保存工作,所有参与者必须设身处地地投入整个资源的生命周期中,不仅需要设计出相应的程序进行存储和提取,同时也需要保证程序的稳定性和可用性。
数字资源长期保存是一个复杂的问题,国内在理论研究和项目推进中都处于起步阶段。西方发达国家开展的数字资源长期保存项目可以追溯到20世纪90年代,其在数字资源长期保存的管理、方法和技术上具有较高的参考意义。笔者将重点介绍几个国内外较为典型的数字信息长期保存项目,以期为我国未来数字资源保存项目的开展提供经验。
3.1澳大利亚PANDORA项目
澳大利亚国家图书馆于1996年全面展开了Preserving and Accessing Networked Documentary Resources of Australia项目。该项目主要采用集中分布式合作的方式,由国家图书馆主持,昆士兰州立图书馆、南澳大利亚州立图书馆等11个地区图书馆共同参与。该项目采用选择性保存的策略,其核心思想在于存储澳大利亚的网络出版物以及其他相关的网络数据资源,保存范围包括与澳大利亚或者澳大利亚人有关的网站和网络出版物,涉及澳大利亚经济、文化、政治生活和社会活动的各个方面。截止到2013年底,PANDORA项目共保存36,000多个存档标题、2.1亿多文件,数据存量近10TB。但PANDORA项目在实施过程中也面临着知识产权的问题,目前澳大利亚国家图书馆主要依靠1968年版权法案来实现信息资源的收集,但是该法案并没有将数字资源列入呈缴范围内,在12个合作图书馆中,仅有北部地区图书馆要求呈缴网络出版物,因此制定数字资源的呈缴制度势在必行[15]。
3.2美国NDIIPP项目
美国国会图书馆于2000年开始实施国家数字信息基础设施和保存计划NDIIPP项目[16]。该项目采用集中分布式的合作模式,由美国国会图书馆领导,联合国家医学图书馆、国家农业图书馆等一些联邦的机构,还包括各级政府机构和大学图书馆等。该项目采用选择性保存策略,其工作的核心在于甄别较为重要的数字资源,通过选择和保存这部分资源,进而实现存储过程的最优化处理。NDIIPP项目的使命是建立采集、保存和使用数字资源的国家战略,特别是对于原生数字资源,以确保现在和未来的信息需求。项目经费主要来自于国会1亿元财政拨款以及非联邦7,500万实物捐款等。美国版权法第108条对图书馆复制权进行了相关的规定,但是NDIIPP项目2010年度报告中指出由NDIIPP和美国版权局资助了一个跨部门的课题组详细分析108条,认为其是应纸本版权法的需求而修订的;它们不再适应管理数字内容的技术现实,并且数字化的最佳实践通常无意间就会触犯法律,并提出了修改美国版权法第108条的建议以确保并鼓励数字内容的长期保存[17]。
3.3英国UKWAC项目
英国于2003年全面开展UKWAC(UK Web Archiving Consortium Project,英国网络信息保存联盟计划)项目。在该项目中,参与者通过选择英国在线发布的数字资源,并且配合成员机构的选择偏好,进而实现数字资源的收藏和保存。在英国的相关法律中,通过详细制定不同图书馆资源归档版权,进而赋予这些机构在数字资源存储项目中的权利和义务,法定图书馆可以通过特定操作为数字资源进行存储和备份,同时也可以销毁部分资源,进而选择最佳版本进行保存,这种方式在很大程度上改善和提升了资源存储的效率。[18-19]
3.4美国斯坦福大学LOCKSS项目
1999年,由美国国家科学基金(National Science Foundation)和梅隆基金会(Andrew W. Mellon Foundation)资助,斯坦福大学图书馆展开了LOCKSS[20](Lots of Copies Keep Stuff Safe)项目。该项目的核心任务在于保存和利用电子期刊资源,利用构建协作平台的方式,将出版商与图书馆之间进行紧密的关联,构建了一套较为全面的数字资源保存方案。在实施该项目的过程中,通过构建分布式存储系统的方式,实现了数据快速交换以及稳定存储的功能,这种系统架构的提出在很大程度上改善了传统存储方式所带来的相关问题。在维护的过程中,由不同参与者平台开发经费的方式,使得非营利性组织得以顺利运作。LOCKSS运行时是由出版商授权图书馆将资源下载到本地可存档的LOCKSS中,当出版商不能正常提供服务时,授权用户可以使用存档信息,因此不侵犯出版商的知识产权[21]。
3.5中国WEB信息博物馆[22]和国家图书馆WICP项目[23]
中国于2002年开始着手中国网页历史信息存储系统,该系统主要由北京大学负责。为了能够更好地维持数据资源保存环境,我国所设计的系统主要对静态网页以及相应的数据进行存储,截止到2014年已经维护7,500,000,000网页。该项目是在国家973和985项目资助下实施的,其主要资金来源于国家科技资金。与此同时,中国国家图书馆于2003年开展网络信息资源收集与保存实验项目(Web Information Collection and Preservation),简称WICP。在这个项目中,主要的核心内容在于确定和分析相应的数据资源保存问题,进而将这些问题进行加工和处理,使得保存工作能够顺利实施。
除上述介绍的几种具有代表性的国内外数字资源长期保存项目外,还有许多其他类型的数据资源保存项目,如:法国的BNF项目、日本的WARP项目、欧洲的NEDLIB项目、英国的CEDARS项目、英国伦敦大学的博客存档项目、欧洲科学数据永久性保存计划项目、德国NESTOR项目以及Portico电子存储项目等,这些长期保存项目的实施和开展都为我国数字资源长期保存活动的实施提供了丰富的经验。
4.1增强数字资源长期保存的认知程度
随着互联网技术的不断发展,全球范围内的数据资源量呈现出爆炸增长的趋势,面对这种情况,许多国家已经开始认识到长期保存数字资源的重要意义。相对于其他国家,欧洲的部分国家在1995—2001年分别启动许多数字资源保存项目,这些项目的实施也得到了联合国教科文组织的高度认可。然而,我国由于互联网技术起步较晚,没有充分认识到数字资源保存的重要意义。毕强[24]等利用国内外数字资源保存项目的对比,发现我国在此类项目中的主要参与者为国家图书馆等相关机构,这些组织在一定程度上使得其他参与者处于较为孤立的状态,例如出版商等数据资源的生产者,这种现象的产生体现了我国对于数字资源长期保存过程的认知程度还处于初级阶段,未能从深层次了解长期保存工作的重要意义。因此,整个数字资源长期保存过程需要通过不同的参与者共同协作来完成,政府组织、出版商以及个人都需要参与到这个过程中,这样才能保障整个项目的完备性和全面性。
4.2发挥国家图书馆的主导作用
作为国家最为全面的信息资源库,国家图书馆不仅需要对国内外重要文献信息进行收集和保存,也在数字资源长期保存过程中占据着重要的地位。通过归纳和分析国外数据资源保存项目,可以发现大部分项目都是由国家图书馆牵头,进而联合其他相关机构或组织进行协作,从而完成整个数据资源长期保存项目。这就使得各国的国家图书馆不仅需要扮演数据资源保存项目的参与者角色,同时还需要担当起领头者的引导作用[25]。从我国当前的数据资源保存措施来看,网络信息资源采集与保存实验项目成为整个数据资源长期保存过程的主体内容。邢军指出我国国家图书馆在数字资源保存中需要解决的问题,包括资源的选择、技术保障、保存标准、法律以及管理方面的问题,解决这部分问题成为了我国顺利实施数据资源长期保存的关键[26]。
4.3加强机构之间的合作
现行数字资源长期保存的组织模式主要有三种:独立保存、合作保存以及第三方保存,其中较为主流的模式为合作模式。NDIIPP项目2010年度报告指出分布式的资源收集是增加资源深度和广度的有效策略。首先,不同数据资源机构之间的合作关系需要加强。这些机构不仅能够参与到数据资源保存的过程中,同时也肩负着保存数据资源的任务。其次,增强图书馆等政府组织与出版商的合作。根据我国现有的相关法律,图书馆等机构不具有复制数字资源的权利,这体现出了出版商在整个数据资源长期保存过程中的重要意义。澳大利亚PANDORA等项目的经验指出应加强与数字资源出版商的广泛合作,根据双方利益关系展开深层次数据资源的保存工作。最后,增强第三方保存机构的关系。只有充分利用第三方保存机构的作用,才能够真正地减少保存成本,进而提升用户自身的利益。结合以上三点内容,我国在长期保存数据资源的过程中,不仅需要改善参与者之间的关系,同时还需要建立完善的工作分配体制。
4.4确保资金保障体系的完备性
资金的保障是推动数字资源保存项目的核心动力,同时也是决定保存项目能否长期发展的关键性因素。国外数字资源长期保存的资金来源主要分为以下三种方式:一是国家拨款,其中典型的是日本WARP项目,由日本国会全额拨款支持;二是社会捐款,美国NAIIPP项目除了前期国会拨款外,其后期项目经费主要来源于科研基金和社会捐赠等方式;三是收取相关费用来维持项目运营,其典型代表为第三方数字资源保存机构,如LOCKSS项目和Portico项目等。我国图书馆等数字资源保存主体的经费主要来源于国家的财政拨款。将整个资金保障体系构建在国家层面上,使得整个项目得到国家的充分支持,这样才能保障整个数字资源保存过程的完美运行和实施。
4.5完善数字资源长期保存的相关规定
数字资源是一种具有较高潜在价值的信息资源,这种资源的归属权问题已经逐渐得到了人们的重视。为了能够更好地保障数字资源的保存项目,相应的法律规定将会成为一项核心内容,推动整个项目有序开展。在我国现有的数据资源版权法规中,许多漏洞的存在使得数字资源的归属者受到了极大的利益损害,这种现象的产生也使得数字资源保存受到了相应的阻碍。为了能够更好地解决这个问题,首先,需要构建数字资源呈缴制度,完善出版者自身的权利和义务;其次,对著作权的法律和法规进行修改和完善,制定相应的数字资源保存制度,充分协调项目参与者与版权归属者之间的利益冲突;最后,加强隐私权的管理,为了能够更好地推动数字资源的保存,需要构建一套较为完善的隐私问题保护规定,进而规避相应的隐私纠纷[27]。
数字资源长期保存已经成为信息资源管理领域中重要的研究内容,虽然我国的研究成果仍然处于摸索阶段,但是充分利用现有资源和法规能够在很大程度上完善并推动整个数字资源长期保存项目的实施。通过对比国内外数字资源保存项目,加强项目参与者之间的协作关系,由国家图书馆牵头,配合完善的法律保障体系,我国才能够真正构建有效的数字资源保存体系。
[1]IDC.The Digital Universe in 2020:Big Data,Bigger Digital Shadows,and Biggest Growth in the Far East[EB/OL].[2013-11-06].http://www.emc.com/leadership/digital-universe/iview/analyst-perspective-john-gantz-david-reinsel.htm[2]谢永宪.数字资源长期保存研究[M].北京:中国出版集团,2004:53-55.[3]Brianf.Lavoie.The Incentivesto Preserve Digital Materials:Roles,Scenarios,And Economic Decision-Making[EB/OL].[2013-11-06].http://www.oclc.org/re search/projects/digipres/incentives-dp.pdf.
[4]赖朝新.数字信息长期保存的主体研究[J].图书馆理论与实践,2005(2):47-48.[5]CCSDS.Reference Model for An Open Archival Information System(OAIS)[EB/OL].[2013-11-06].http://public.ccsds.org/publications/archive/650x0m2.pdf.[6]Caplan P,Kehoe W,Pawletko J.Towards Interoperable PreservationRepositories[EB/OL].[2013-11-06].http://www.cdlib.org/iPres/presentations/Caplan.pdf.[7]Hilde van Wijngaarden.Long-term Preservation and Permanent Access: How to Ensure the Long-term Reuse Value of Your Digital Assets,Journal of Digital Asset Management ,Houndmills: Apr.2007.Vol.3, Iss.2.pp.8,108.[8]Wheatley P.LIFE3:Predicting Long Term Preservation Costs[EB/OL].[2013-11-06].http://www.cdlib.org/iPres/presentations/Wheatley.pdf.[9]臧国全,秦东方.数字保存的经济风险与对策[J].图书馆,2011(1):74-77.
[10]臧国全,孙圣强,杨敏.数字保存项目的投资时机研究[J].情报科学,2013(31):9-13.
[11]周献红.基于案例分析的数字资源保存价值研究[J].图书馆论坛,2011(31):81-83.
[12]McGinley M.Intellectual Property Rights and Their Impact on Digital Preservation and Access[EB/OL].[2013-11-07.http://www.dpconline.org/whats-new/ download-document/172-digital-rights-asset-management-forum-mcginley.html.[13]刘可静,孙铮.美国图书馆数字资源长期保存利用中的隐私政策与实施措施及启示[J].图书馆,2011(6):92-94,113.
[14]刘家真.保护数字信息长期存取研究综述[J].情报杂志,1999(4):32-35.[15]Pandora Archive[EB/OL].[2014-02-01].http://pandora.nla.gov.au/index.html.[16]许群辉.美国数字信息资源保存项目NDIIPP及其启示[J].图书馆,2006(9):67-69.
[17]NDIIPP Website[EB/OL].[2014-02-01].http://digitalpreservation.gov.[18]UK WEB ARCHIVE about[EB/OL].[2014-02-03].http://www.webarchive.org.uk/ukwa/info/about.
[19]英国《法定缴存图书馆条例(非印刷资料)》[EB/OL].[2014-02-03].http://www.nlc gov.cn/newtsgj/yjdt/2013n/11y_8616/201311/t20131128_78870.htm info/about.[20]LOCKSS.About Us[EB/OL].[2014-02-04].http://www.lockss.org/lockss/About_Us.[21]孙艳,马炳厚,王栋.LOCKSS还是Portico:谈图书馆电子资源的长期保存[J].图书馆建设,2010(1):47-49.
[22]中国WEB信息博物馆[EB/OL].[2014-02-05].http://www.infomall.cn/.
[23]陈力,郝守真,王志庚.网络信息资源的采集与保存:国家图书馆的WICP和ODBN项目介绍[J].国家图书馆学刊,2004(1):2-6.
[24]黄旭,毕强.国内外数字资源长期保存研究现状与进展[J].图书馆学研究,2009(1):25-28.[25]潘菊英,刘可静.国外数字资源长期保存和长效利用研究进展[J].图书馆,2011(5):72-76.[26]邢军.国家图书馆数字资源长期保存现状与研究[J].数字与微缩影像,2011(4):18-22.[27]刘可静.国外图书馆资源采集与长期保存利用中隐私权问题研究[J].中国图书馆学报,2013(1):11-18.
(编校:崔萌)
2016-03-02
许桓(1989—),华中师范大学在读硕士;余杰(1990—),华中师范大学在读硕士。
G250
A
1003-1588(2016)03-0108-05