数字档案的存储难点及解决方案

2019-03-12 03:24于荧荧
山东档案 2019年6期
关键词:档案馆数据库数字

文·于荧荧

随着数字时代中信息技术的换代更迭,对数字档案存储提出了要求越来越高,各国都在为改进和推进数字档案存储作出不懈努力,以寻求长久、安全、合适的解决方案。目前,保护数字档案的目的已不仅仅是保护其在物理性能上不受损害,而是要建立以信息完整性为主要特征的电子档案管理与维护体系,这便涉及到从数据保护到隐私立法以及知识产权保护等多方面问题。众多法律和监管的框架会对数字档案的实体保存、访问利用产生深刻影响,这也要求我们从数字档案的各个层面去开展研究,以创建有利于数字档案保护和利用的法律环境。

一、数字档案存储面临的难点问题

数字档案信息存在着来自物理、技术、人为、机构等多方面的威胁。其中,物理威胁源于自然事件或时间等因素,包括介质、硬件、存储设施的故障等。技术威胁包括归档格式的过时或破坏性软件导致的错误。人为威胁包括档案管护的失误,内部和外部的攻击等。机构威胁包括目标任务的改变、法律制度的瓦解等(见表1)。值得用户信赖的数据库应当了解其系统内部存在的威胁与风险。

表1 数字档案存在的一般风险

网络服务故障 信息的可访问性因文件名称的解析、目录的错误放置和管理的失败而丢失。组件过时介质、硬件、软件的组件因时间推移出现与其他系统组件不兼容的情况,或因文件格式过时而阻止内容解码和呈现。操作员错误 操作员在处理系统组件时引入无法检测的错误,或是操作系统在恢复任务期间产生错误。自然灾害 洪水、火灾、地震等。外部入侵 恐怖袭击、黑客攻击等。内部入侵 内部人员欺诈、报复或恶作剧等行为。组织机构和经济的瓦解与困难数据库运行机构因无法承担高昂的运行成本导致数据库无法运行,或因组织机构解散、破产或任务变更等使其离了有关部门的监管。

上述列举的风险印证了一个事实,即数字档案存储不仅仅是技术问题,更是组织和管理问题,甚至说要保持数字档案存储的持久性与完整性,组织和管理更为重要。德国数字资源长期保存网络(Nestor)项目组认为,能够长期运行的数字存储库是一个复杂且相互关联的系统。所以,存储档案的数据库不仅需要持续的监控、规划和维护,也需要主动行动和实施战略等,为其执行数字保存任务提供坚实的保障。这是一项极其昂贵而复杂的工作,需要营造包括档案管理者、利益相关者、资助者以及与其他档案数据库项目在内的协作环境,来应对已经产生和即将产生的大量数字档案。

二、数字档案存储的解决策略

数字档案存储系统的可信度是衡量系统优劣的重要因素。在确定系统可信度时,要通盘考虑、协调统一,建立可以确保数据库正常运行的一系列组织与程序,包括科学的标准规定、先进的治理方式、完善的组织结构、合适的人员配备、健康的财务状况、可持续的资金供给能力、合法的经营合同许可、应承担的责任义务以及能够与之相匹配的数据和随时承接项目的继承者,以保证数据库系统的顺利运行并完成其相应的使命。

(一)加强对数据库平台的审计与评估

加拿大多伦多大学教授罗斯(Ross)、英国格拉斯哥大学教授安德鲁(Andrew)提出,数据库必须用多种方法和手段来建立并维持其可信状态。为获取公众对档案管理的信任,必须对数据库进行定期审核和认证,将审核清单作为客观评估的工具,成为本地信息收集、评估或国际或国家认证过程的组成部分。使用审核清单,以自我评估为起点是数据库了解其功能的一种有效机制,这一机制的建立可以在一定程度上抵御某些潜在威胁以及系统内部固有的风险。

审核和认证目前国内外尚无一套核心的标准和要求,而要实现这种统一的标准和要求,又有众多困难。应该说在数字档案管理中,并非所有的数据库都是“平等的”。就国家而言,有地方、区域、国家和国际层面的数据库以及数字档案馆;就数字档案馆而言,还可分为国家档案馆、地方档案馆、社区档案馆、机构档案馆、商业档案馆和学校档案馆等。此外,存储库类型(机构存储库、开放存取存储库、数字存储库)的激增,也使档案分层管理的需要变得更加清晰。对这些存储库而言,其主要目的并非保存或明确优先级,因而选择认证将在无形之中给他们带来许多压迫感,这也是他们不会进行认证的原因之一。虽然美国芝加哥的研究图书馆中心(CRL)、英国数字保存研究中心(DCC)、德国Nestor项目组已为此做出很多努力,然而要达到数据库完全标准化仍还有很长的路要走。

关于审核和认证清单,可大体分为三个部分。一是组织基础设施,二是数字档案管理,三是基础设施和安全(见表2)。在经历严格的审核之后,定期将审核和认证结果向公众公布,既增强透明度,也有利于获得公众对档案工作的信任。

表2 审核和认证清单项目及具体要求

数字对象的管理数据库的数字对象管理职责,主要体现在“组织”和技术等方面,比如摄取管理和提供长期访问数字对象所需的存储库功能、流程和过程。这些要求根据存档功能可分为6组,即允许在OAIS系统模型下进行;在摄取的初始阶段,解决数字内容的获取问题;在摄取的最后阶段,将获取的数字内容放入表格中变为档案信息包(AIP)进行长期保存;在不断变化的技术环境中,建立保持声像、文件档案最新状态的策略和机制;使用AIP进行长期保存的最低条件;允许系统内定位和管理数字对象的最小级元数据;具备使要保存的数字对象准确生成、传播并保持真实版本的能力。技术基础设施和安全可以分为三层,一是一般系统基础结构要求;二层是基于系统基础设施要求的适当技术,以及与之相适应的为数据库指定社区使用服务的有关技术、策略和附加标准与要求;三是安全性,包括从IT系统(服务器,防火墙或路由器)到消防系统再到洪水检测中涉及人为因素的部分。

(二)推进数据库规范化、特色化建设

众所周知,所有数据库建设的最终目的都是使档案内容能够长期保存和使用。为能够更好地处理数据库和用户之间的关系,更从容地应对因档案存储内容和技术过时而带来的挑战,归档前存档机构与档案提供者应签订存档协议,通过制定书面标准、规范存储对象、明确存储形式和档案管理者、提供者应尽的义务等,促进数据库管理规范化,并规避未来可能发生的麻烦。

数据库能够标识它所存储的数字对象属性,这一过程从数据库的任务声明就开始了。比如,有的存储库可能只承诺保留文本内容,而不以电子档案方式在屏幕上显示其确切外观;有的则可能承诺保留电子档案的确切外观和布局,而其他则可能选择在摄取过程中使数据得到规范化。

此外,还可以根据自己的馆藏特色来制定存储方案。每个档案馆馆藏档案内容是不同的,为了实现馆藏档案利用最大化,精准满足各种需求,我们应根据各自馆藏档案的特点编制、开发符合自身特点的词库与软件,形成具有自身馆藏特色的数据库系统。

(三)多载体、多格式保存档案内容

事实上,数字档案的存储并非仅局限于文书档案,还应包含不同载体的档案。如瓦努阿图文化信息网(VCIN)中的电影和有声档案馆(NFFSA)保存的照片、音频和视频,国家博物馆的人工制品,国家遗产登记册档案中的文字、音频和视频,国家图书馆的书籍和报纸等。用户不仅能够从中查看所有可公开访问的档案信息,还能够清楚地了解不同档案之间的关联。比如用户若想研究文化仪式,不仅可以在国家博物馆的数据库中,看其藏品是如何运用到由国家摄影、NFFSA录制的特定仪式中,查看该藏品的数字化照片,还可以浏览国家图书馆保存的与其内容相关的电子文档,收听录音,查看NFFSA中有关仪式的照片和录像。这样,用户就能够非常便捷、全面地了解博物馆中的藏品。

以多样化、全覆盖的格式来保存档案内容也是实现档案真实性、持久性的路径之一。如美国佛罗里达图书馆自动化中心(FCLA)的数字保存仓储软件(DAITSS)实现了基于格式转换的主动保存策略,包括向前迁移、规范化和本地化。DAITSS能够完全处理AIFF、AVI、JPEG、JP2、JPX、PDF、纯文本、QuickTime、TIFF、WAVE、XML和XML DTD12种不同的文件格式,并且在数据摄取(ingest)阶段实现了几种格式的标准化。目前,澳大利亚国家档案馆已尽可能实现了现有数据存储格式的全覆盖。

(四)畅通数据访问渠道

了解数据是如何以及在何处创建,并通过重新定义传统的访问概念来确保数据访问可行性是确保其可以被使用的第一步。由于我们无法预见数字档案的所有用途,因此就要尽可能地保持多样的、开放的访问渠道以突破馆藏的极限,以增加访问系统的预期寿命;要在积极与用户互动的同时,畅通用户的利用和反馈渠道,努力完善数据库系统,并在此基础上预测未来用户的访问需求;对于要摄取的各类型数字对象,存储库应制定相应的书面标准,可以由存储库管理者单独制定,也可以与其他机构联合制定。书面标准中要准确指定需传输的数字对象、与对象关联的文档以及对访问的各种限制。此外,存储库还要清楚地列出与该数字档案相关联的其他信息。

(五)提高档案工作者的专业化水平

数字革命改变了档案工作者的工作范围,需要档案工作者拥有信息化、数字化方面的知识、技能与品质,以满足用户对档案信息创建和系统访问的个性化需求,保护数字档案免受信息技术变革的冲击,并用创新的技术和手段来推进档案工作的发展。

1.要有相应的知识储备。包括拥有档案学理论知识与档案工作实践经验,明晰档案与其他信息管理领域之间的关系,熟知现代组织中档案的形成流程、不同的归档选择和相应的技术要求,掌握发现、保存和管理元数据的法律、制度、监管和治理框架,以及平台系统中的档案来源、背景、标记语言和保证或控制档案质量的方法;了解电子商务、电子政务运作的基本概念和信息、通信技术的安全管理制度,以及审计和规范化测评的方法、规则。

2.要有一定的技能和品质。包括交流能力、研究能力和影响力,应急管理能力和业务工作创新能力,灵活和准确的判断力,咨询和谈判能力,风险评估和管理能力,系统设计和推广能力,准备业务案例的能力,建模和分析能力(包括功能和工作流程分析)等。

找出解决数字档案存储难点的办法,不是一朝一夕、一个部门的所能完成的,需要档案工作者、档案研究者、档案机构以及相关部门间共同努力、不懈探索,以寻得最佳解决方案。在这一方面我们已经取得了一些成绩,但前进的路还很漫长,需要我们做好打持久战的准备并建立必胜的信念,以助推档案工作不断向数字化、信息化的进程迈进。

猜你喜欢
档案馆数据库数字
云南省档案馆馆藏《东巴经》
云南省档案局办公室关于表彰2018年度《云南档案》优秀通联组及发行先进单位的通报
答数字
数据库
数字看G20
数据库
数据库
数据库
when与while档案馆
成双成对