文/Amy Kirchhoff Sheila Morrissey Kate Wittenberg
数字化内容保存的机遇与挑战
文/Amy Kirchhoff Sheila Morrissey Kate Wittenberg
编者按
过去的几十年,图书馆、出版商、文化组织和公众都致力于让内容能够被更多人获取和使用,这些努力使得数字化内容的数量得到了迅猛的增长。让更多内容能够以数字化的形式被获取是有很多益处的,然而,如果保存不当,那么数字化内容的生存期就会极为短暂。随着互联网的不断发展,给数字化存储带来了一定的挑战和风险。未来,使用设备和软件找到及阅读某篇文章的概率会有多大?找到和复制原始文件的成本又是多少?本文从数字化内容保存问题入手,阐述了数字化内容在保存过程中遇到的问题及如何更好地存储的问题。
如今,出版商、图书馆员和学者们已经认识到,只有保证数字化内容能够被长期保存,才能保护他们在创作数字化内容方面大量的及不断增长的投资。虽然数字化内容的生产者认为他们需要考虑数字化内容的保存问题,但是他们对于应当采取哪些步骤来保存数字化的内容仍有很多疑问: 怎样才能使数字化内容“足够安全”?如果信息技术部门对服务器进行了备份,那么这是否就足够保证数字化内容的安全性? 将高分辨率的文件保存在组织成员办公室中的外置硬盘内是否妥当? 如果每隔几个月使用磁带备份一次数据,这样是否能满足在保护数字化内容安全性方面的要求?是否需要使用专门的保存服务来确保数字化的内容的安全性?
如何解决这些问题取决于的所收集内容的类型与需求、内容的所有者、内容的用户以及内容所属的组织。然而,这些问题仅仅是为考虑不同的内容保存选择提供了有用的起点。可能选择的范围则涉及从短期保存、中期保存到长期保存等。
如果内容被复制和存储在多个位置中,那么在发生设备故障或者其他灾难性事件的情况下,我们可以快速获得可用的数据副本。这种数据保存方式称为短期内的数据访问而进行的数据保存。为了保持业务的连续性并保证短期内的内容访问不被中断,对电子资产进行恰当的备份是十分必要的。尽管管理良好的备份系统能够迅速解决一个月或一周内在对所需内容的访问方面遇到的问题,但是却无法解决长期内对所需内容的访问方面遇到的问题,备份通常使用商用软件来实现。同时,备份后的内容通常只能使用完成备份的软件来提取。如果需要通过特定的软件或者硬件来访问备份后的内容,那么并不能保证达成确保内容的长期可访问性和真实性这两项数字化保存的关键目标。
字节复制会为每个文件创建多个相同的副本。这些副本能够被写入其他联网的计算机或者脱机的介质中。多个副本通常会被保存在多个不同的地点,访问这些内容不需要使用特定的软件。由于副本存储位置的不同,加上不需要依赖特定的软件,这就意味着只要文件格式是可用的,那么字节拷贝就能够提供可访问的真实内容。
然而,当文件格式不再被使用之后,仅仅是字节拷贝既不能确保内容的可用性,也无法保证内容可以被找到。例如,如果在使用字节复制来保存书籍信息的文件时,没有保存用于描述这些文件副本中的知识内容的可访问的书目信息,那么就无法确信未来的读者能够找到他/她需要的特定内容。
此外,如果复制后的字节使用了数字化版权管理工具加密,或者这些内容在未来没有可以阅读的设备;那么从长期来看,这些副本是不可访问的。对于科学数据集或者其他数据集来说,缺少描述性的元数据同样会使数据在长期内不能被重复使用,如复制或者用于验证结果。
可管理数字化存储是指建立能够确保内容在很长时间内保存管理策略和活动。成功的可管理数字化存储的四个关键目标如下:
一是可用性。使用当前技术支持的交付机制能够使用所存储项目中的知识内容;
二是可发现性。为了使所存储的内容随着时间的推移仍然能够被最终用户发现,这些内容必须有对应的逻辑目录元数据;
三是真实性。不仅内容的出处应当是可证明的,而且内容也应当是所存储原始内容的真实副本;
四是可访问性。内容应当能够被恰当的社群使用。为了成功地实施可管理数字化存储,该社群应当具备以下特征:
(1)能够提供支持数字化保存任务所需的专门计划和基础设施的环境;
(2)在要求的时间范围内支持存储任务的可持续的经济模型;
(3)保存内容所需的清晰的法律权利;
(4)与内容的提供者以及/或者版权所有者的联系;
(5)与内容使用者的联系,以确保他们的需求得到了满足;
(6)与最佳实践一致的存储战略和策略,以及能够支持所选存储战略的技术基础设施;
(7)对存储服务、战略、顾客和内容保持透明性。
备份(短期保存)和字节复制(中期保存)不仅是长期存储所需的要素,而且也是通过存储来保护内容的所需的前置步骤。
值得注意的是,开始关注和计划采用长期数字化存储的组织可以采用渐进的方式。最为重要的初始活动包括:定位所有内容,进行常规备份,进行尝试性的备份恢复,制定长期存储计划。
对于在政府资助的研究项目中获得研究数据,最近开发的策略能够对其进行获取、文档化、分享、存储和利用,由此可以找到保存数据的最佳实践,这些实践可用于保存所有数字化产品。它们不仅能指导研究人员生产数字化内容,而且能指导其所在的机构生产数字化内容。这些实践包括为所有产品创建永久标识符,以便识别和引用这些产品;使用能够被很好地理解的格式;将数据的语义、上下文(如在创建或渲染人造物时使用的工具)、创建时的出处、合法使用和复用内容的程序(如对隐私的尊重)以及随着时间的推移出售产品的策略等进行清晰的文档化。
组织和个人可以自行培养实施长期存储的能力。他们既可以联合起来培养这项能力,也可以与提供存储服务的第三方机构合作来培养这项能力。理解谁是利益相关方以及什么是能够推进存储计划的选择等成为关键问题。
尽管保存当前的学术内容是最急迫的需求,但是由于学术社区正在经历迅速的变化,因此未来仍有许多挑战。学术记录中所包含的内容正变得越来越动态化且边界日益模糊。此前,数字化学术记录会包含一个内容或多或少的离散对象,如期刊论文或者书。这样的数字化学术记录可以被封装成一个文件或者一个文件包。产品渐渐地变成分布式的复杂学术对象,它包含的各种组件(如论文文本、支持性数据集和生产数据的自动化工作流)能够以不同的版本存储于多个库之中。为了生成和保存由这些对象组成的学术记录,我们需要创建、获取和维护更多关于上下文和关系的信息,这些信息比经典的目录元信息更多。
展望未来,可以看到至少存在两项需要存储社区积极研究的关键技术挑战:第一项关键技术挑战是确定机器学习和文本挖掘工具是否能被用来自动收集“足够好”的目录元数据(从而方便至少一些保存“长尾”的小型学术期刊的工作的自动化);第二项关键技术挑战是开发复杂学术对象的分类技术。这将有助于理解内容及其处理与交互,以便采取恰当的存储行动(如迁移到一种或多种可接受的格式或者建立能够实现这种迁移的基础设施)。
最后,理解存储选择和为后代采取行动以确保学术记录的安全性是有价值的内容的生产者和保管者的责任。
(本文原载于《EDUCAUSE Review》2015年3/4月刊,翻译:杜炤)