王承冠
(金陵图书馆,江苏 南京 210019)
随着信息技术和互联网的飞速发展、数字信息的激增和数字化环境的形成,根据国外有关研究预测,2015年印刷媒体将占到45%,电子媒体会占55%,甚至更高。由于数字资源及其利用所依赖的网络和存储媒介的不稳定性,使数字资源容易消失,难以长期为人们所利用。因此,数字资源长期保存是近年来图书馆界讨论与研究的热门话题,并已发展成为图书馆技术的一个新的研究领域。
数字资源长期保存在国际上已不是新话题,但具体实施并没有大范围展开,主要集中在几个发达国家的一些大型图书馆,其在制定标准、具体实施等方面对我国亦有一定借鉴意义。
1.1.1 OAIS标准
在数字资源长期保存领域,最有影响的标准当属开放档案信息参考模型OAIS。OAIS是由美国国家航空和航天局和英国太空数据系统委员会(CCSDS)联合制定的标准,于2003年正式成为ISO标准(ISO 14721:2003)。OAIS规定了数字资源跃期保存的术语、概念和参考框架,确定了一个存档系统的基本功能,提出了一个管理数字对象和信息包的信息模型。在一致性方面起了很重要的作用,并逐渐成为众多存储项目遵循的标准,被广泛应用于开发保存工具和存储系统。
1.1.2 美国的NDIIPP项目
NDIIPP(National Digital Information Infrastructure Preservation Program)项目,即国家数字信息基础设施和保存计划,是以美国国会图书馆为主导,联合全国许多大学图书馆、研究机构、商业组织对数字资源进行收集、保存的研究。它的工作目标是构建数字资源收集和保存的全国性战略;与图书馆、联邦代理机构、研究机构和非盈利性组织等进行合作;帮助鉴别和保存濒临消失的数字资源;对数字资源保存方法、模式和改良工具等发挥促进作用。
1.1.3 英国的CEDARS项目
CEDARS(CURL Exemplars in Digital Archives)项目,即高校研究图书馆联盟数字存盘样书项目。该项目在1998~2002年间,致力于研究数字保存的策略、方法和实际问题,包括数字对象的获取、长期保存、有效描述和永久获取。CEDARS成果是研究了数字资源长期保存的战略框架和具体方法,并建立了一个分布式的长期存储系统和支持数字资源长期保存的CEDARS元数据。
1.1.4 澳大利亚的PANDORA项目
PANDORA(Preserving and Accessing Networked Docu mentary Resources of Australia)项目,即保护和存取澳大利亚网络信息资源项目。该项目由澳大利亚国家图书馆主持实施,其根本目的是在建立一个经过选择的澳大利亚网络信息资源归档系统的同时,为保护和存取澳大利亚电子资源制定政策和程序。采用选择性存取策略,侧重收集重要的且具有长期保存价值的联机出版物和网站。
我国对数字资源保存问题的研究开始于20世纪90年代后期,目前,国内学者对数字资源长期保存问题的理论研究主要集中在对其概念、影响因素、保存策略这3个主要方面。虽取得了一定的成绩,但与国外相比,我国对数字资源长期保存问题的研究仍处于起步阶段,基本上还是以跟踪、吸收、消化国外研究成果为主。
从研究主体来看,目前我国关注数字资源长期保存的机构比较集中,主要是图书馆、信息中心等信息服务机构。从研究内容看,我国偏向理论研究,实践研究比较缺乏,学者们对数字资源的研究主要以对相关项目的介绍、研究动态综述较多,介绍自身情况的较少。从启动项目看,我国数字资源长期保存实践项目成立的时间较晚,项目不多,具有代表性的如“中国国家图书馆的网络信息资源保存试验项目——WICP-Project”“OAIS体系结构的研究”“数字资源长期保存迁移技术及其在国家图书馆中的应用研究”等。
随着国家和各级政府对公益性文化事业的关心和支持,使得地方公共图书馆的发展日新月异,数字资源的产量与总量已经初具规模。根据2013年全国公共图书馆评估标准中对省级(含副省级)图书馆的数字资源、自建资源总量的指标,绝大部分省级、副省级公共图书馆在数字资源总量方面均能达到甚至超过30TB的最高标准。因此,数字资源的长期保存工作越来越成为地方公共图书馆将要面对和亟待解决的问题。然而,各地方图书馆由于所属的地域、经济、财政投入等情况的不同,致使各馆数字资源建设、软硬件水平千差万别,这也是地方公共图书馆数字资源长期保存的难点所在。地方公共图书馆对数字资源进行长期保存必须要从实际出发,因地制宜,制定切实可行的方案。
数字保存是一个需要持续投资的成本昂贵的项目,在缺乏政策支持、财政投入的情况下,若不对所有长期保存的资源进行分类、评估、取舍,必定会使得经费本来就不宽裕的图书馆雪上加霜。
从数字资源的来源上分,可以分为外购商品数字资源与自建数字资源;从数字资源的内容上分,大致可以分为电子期刊、电子图书、多媒体音视频,特色数据库等;从数字资源的存储位置上分,可以分为包库资源、镜像资源和本地资源。此外,在对资源进行分类的同时,还需对资源的价值进行评估。评估的标准应从本馆的自身条件与实际出发,如财政的投入,本馆的人力资源、技术力量,数字资源的版权问题等。笔者认为,只有经过评估,确定有永久保存价值及重要的数字对象并进行长期保存,才是地方公共图书馆比较务实的做法。
数字资源的长期保存涉及两个方面的内容,一是防止数字资源的变更和被破坏,二是维护数字信息资源的长期真实性和可获得性。因此,需要将数字资源分为元数据与对象数据加以描述和规范,以确保资源的存取。元数据是关于数据的数据,提供了关于信息资源或数据的一种结构化的数据,是对信息资源的结构化描述;对象数据是用户最终获取、以特定形式展现的数字化文本、图像、声音、影像等数据。在保存之初,应考虑资源的格式问题,包括元数据格式与对象数据格式,应尽可能地采用当前主流的、标准的格式,以方便未来对这些数字资源的仿真、迁移、再保存。
从目前人类的数字资源存储水平来看,依旧是以磁盘、磁带等磁介质为主的存储设备与系统。因此,根据数字资源的使用状况和应用需求,可以将它们分为在线、近线、离线这三种存储模式。对于数字资源长期保存来说,在对数字资源价值评估的基础上,根据数字资源的访问需求和性能要求将数字资源放入在线或近线存储系统,同时也要做好数字资源的离线存储工作,并确保备份数据的可靠性和一致性。
由于数字资源的载体极易受到外界环境条件的影响,因此,必须对保存的数字资源进行定期检测,以保证数据的真实性和完整性。对于目前常见的存储介质来说,一般磁性载体每满两年检测一次,光盘每满4年检测一次,抽样率以不少于20%为宜。检测包括外观检查和逻辑检测。外观检查是确认载体表面是否清洁、是否有霉斑、是否损坏或变形等。逻辑检测是采用专用或自行编制的检测软件,对载体上的信息进行测试,查看数据有无丢失,如果发现问题应及时采取恢复措施。
硬件、软件的技术淘汰使数字信息的长期读出充满了未知数,正如刘家真所说,“媒体的腐坏与脆化带来信息的丢失,即使保存条件再好,数字媒体的架藏寿命也是有限的。”因此,保存的数字资源需要在其生命周期过程中经历多次迁移过程。总体上说,这类方法主要有数字迁移、数字仿真和技术保存等。
数字迁移:迁移是根据软件、硬件的发展将数字资源迁移到不同的软件或硬件环境下,从而保证数字资源可以在发展的环境中被识别、使用和检索。根据迁移条件的不同,迁移可以分为硬件迁移、软件迁移、载体迁移、格式迁移、版本迁移和访问点迁移等。
数字仿真:指保存数字资源本身的全貌(包括内容和外观两个部分),但不保存数字资源存取的环境(包括软件环境和硬件环境),用户需要在新环境下实现对原始数字资源的访问。
技术保存:指将数字资源以及阅读数字资源所需的操作系统和浏览软件一起保存,用户始终在这个环境下实现对数字资源的存取操作。这种方法比较适合于一些小规模的专业数字资源的短中期保存,但对于大规模数字资源的长期保存而言则不具有可行性。
地方公共图书馆在制定数字资源长期保存的方案时,有效的组织和管理是数字资源得以长期保存的重要保障。因此,在不断探索和总结适合本馆的技术手段的同时,数字资源长期保存的制度建设也同样重要。在工作流程上,通过长期积累的经验,总结出一套行之有效的方法,并形成文档,建立自己的SOP。在岗位设置上,应设有专门的部门负责全馆数字资源的长期保存工作,并由专业管理人员进行数据的保存与操作,保证数字资源保存工作的顺利进行。在考核机制上,不仅是要考核工作人员是否严格按照工作流程操作,还要考察管理人员的细心、耐心以及对工作的责任心。
金陵图书馆系南京市图书馆,副省级图书馆。自2000年开始,该馆注重数字化建设,除了常规的商品数据库的选购外,还自主构建了富有南京地方特色的数据库,如南京云锦数据库、郑和研究专题数据库、南京民国建筑数据库、南京地方法律法规数据库等。此外,还建有金图讲坛视频资源库、南京文化信息资源共享工程视频资源库等。据统计,截至2012年,金陵图书馆总计发布数字资源数据库55个(不含试用资源),其中,自建资源数据库30个,外购商品资源数据库20个,共享工程下发资源数据库及数字图书馆推广工程共享资源数据库5个。总容量超过93TB,其中存储在本地的资源总量超过29TB。
金陵图书馆从2011年开始就将数字资源长期保存作为一项课题,列入了信息系统部和信息技术部的工作计划,同年开始研究、制定方案,并于2012年进入初步实施阶段。金陵图书馆对数字资源的保存主要从以下4个方面进行。
从数字资源的来源看,金陵图书馆的数字资源主要分为外购资源和自建资源。经过对数字资源的价值评估、资源保存的可行性研究,最终决定立足本馆的自建资源,从自建资源入手,根据资源的价值选择性地进行长期保存工作。其原因有三:一是由于每年用于数字资源建设的经费有限,且市级财政并没有专项经费用于数字资源的长期保存;二是越来越多的外购资源趋于网络包库模式,使用本地镜像的资源,由于依赖资源商专门的系统环境和数据结构,并不利于长期保存,加上镜像资源保存价值不高,即使丢失也可以通过资源商进行重新安装;三是版权问题不可避免,地方公共图书馆外购资源一般都是购买的使用权,并没有版权或保存权,相反自建资源一般都是对海量信息的搜集、整理、标引,以二三次文献形式展现,恰恰规避了版权问题。
信息技术的日新月异,软硬件系统的更新换代,由此给数字资源读取造成的技术过时问题备受关注,同时也促使了元数据概念的提出。因此,数字资源的长期保存,是对数据的保存更是对元数据和对象数据的保存。为了避免某些数据格式随着时间和技术发展而消亡,必须规范需长期保存的数据的格式,包括元数据格式和对象数据格式。数据格式的选择应本着大众化、主流化、系统依赖度低等原则。金陵图书馆针对需长期保存的资源,就元数据、对象数据等进行了如下的格式规范:
元数据格式:MARC元数据、DC元数据、XML、关系型数据库格式(如 Oracle、SQL Server、Access等)。
对象数据格式:
6.3.3 抽奖规则。抽奖是从已关注了XX图书馆官方微信并参与了现场网上荐购的读者的微信号中抽取。其中,微信荐书抽奖共分3轮,第一轮抽取三等奖20个,第二轮抽取二等奖10个,第三轮抽取一等奖5个,抽奖只针对微信网上荐购渠道,门户、APP等渠道,不参与抽奖。
文本:不压缩 TIFF格式、PDF、TXT;
图像:不压缩TIFF格式、JPEG、PDF;
音频:WAVE、MP3;
视频:MPEG2、MP4、FLV。
此外,金陵图书馆根据数字资源的使用频率、系统需求等因素,提供在线式FC-SAN存储和近线式IP-SAN存储系统。对于需要长期保存的数字资源,在规范数据格式的前提下进行离线存档,并根据资源的保存级别建立多个备份。
考虑到数据存储的成本,对于需长期保存的离线数据和存档数据均使用普通2TB或以上容量的硬盘存储。根据本馆制定的相关规范,对于备份数据的完整性和正确性检测,其频率为两年一次,每次抽检10块硬盘或等同于20TB的存储空间,对于3年或5年以上的存储介质,无论是否数据正常,都应当使用新的存储介质进行两次备份,确保备份数据的完整、可靠。目前,本馆主要采用MD5的校验方法,通过使用MD5的校验工具和数据抽检、恢复机制,完成对所保存数字化文件的完整性检测。
由于金陵图书馆数字资源长期保存工作起步不久,对于数据迁移还没有实际的操作经验,但在学习和研究他人相关理论和成果的基础上,也开始并尝试一些数据迁移的准备工作。例如:针对需要长期保存的数字资源,撰写资源恢复文档,尽可能详细地将如何安装操作系统、数据库系统、资源系统等进行文字性记录,并将该资源所依赖的操作系统、数据库系统等的安装程序一并保存,使后人进行数据迁移时有迹可循。
在数字资源长期保存管理规范方面,金陵图书馆正在起草《金陵图书馆自建数字资源保存管理暂行条例(草案)》,该条例从数字资源保存原则、保存级别、资源数据保存格式等方面进行了阐述;在日常的数字资源保存工作中,制定了一系列切实可行的操作规范和流程,如《数字资源长期保存工作流程》《数字资源长期保存存档规范》《数字资源长期保存定期巡检操作流程》等。
此外,金陵图书馆将数字资源长期保存作为一项长期工作,在全馆范围进行普及。不仅在相关部门内部进行学习、讨论,还邀请业内人士就资源保存问题展开全馆学习,旨在树立全馆的资源保存意识。
数字资源的长期保存是一项对人类文明传承极具意义的工程。公共图书馆作为信息资源的保存机构,义不容辞,任重而道远。因此,在今后的工作中,一方面要让政府认识到数字资源长期保存的意义和重要性,积极争取政策和财政的支持;另一方面要积极与国家图书馆及其他地方图书馆交流合作,通过会议、实地调研等方式,在交流探讨中碰撞出新想法、新思路。
[1] 宛玲.国外数字资源长期保存的最新发展及对我国的启示[J].中国图书馆学报,2004(2):22-25.
[2] 刘家真.数字信息保存的策略[J].情报学报,2000(4):349-353.
[3] 邢军.国家图书馆数字资源长期保存现状与研究[J].数字与微缩影响,2011(4):18-21.
[4] 刘喜球.中小型图书馆数字资源长期保存的特点及其策略[J].工作研究,2008(9):120-122.
[5] 董晓莉.图书馆数字资源长期保存迁移技术分析[J].图书馆杂志,2012(7):63-69.