大数据时代档案数字资源长期保存问题研究

2020-04-21 07:48方侠
卷宗 2020年4期
关键词:数字资源档案大数据

摘 要:大数据时代数字档案以指数型倍数暴增,数字资源易获取但长期保存难度大,数字资源生命周期短、计算机载体依附等特点使其比纸质资源面临更多风险。本文通过分析大数据时代数字资源长期保存的价值,结合其存在数据结构、技术、资金等问题,提出健全法律建设、加大人才技术投入、完善备份等对策,为推动数字资源长期保存工作提供借鉴。

关键词:大数据;档案;数字资源;长期保存

大数据时代海量的数字资源使得传统存储方式不足以适应社会的发展,数字资源的普及程度逐渐超越纸质资源,其独有的优势和特点以及重要价值日趋凸显,同时也引发了对数字资源存储工作的深入研究。2010年,耶鲁大学完成了纯电子本E-only的推行,我国中科院已经大规模减少纸质期刊[1]。数字资源生命周期短,为了在未来数字资源可以方便被读取、理解、利用,数字资源长期保存凸显其更高的必要性和价值性。

1 大数据及数字资源长期保存相关概述

1)大数据概述。大数据概念源于20世纪80年代,《大数据时代》中定义大数据为“不用随机分析法而采用;所有数据进行分析处理”;麦肯锡研究所对大数据定义是指一种规模大到在获取、存储、管理、分析方面大大超出了传统数据软件工具能力范围的数据集合,其具有4V特征,即数据量大、流转速度快、类型多样性、价值密度低[2]。大数据涵盖了技术、资源和思维三个维度,其本质意义在于对数据进行加工处理挖掘数据的潜在价值。

2)数字资源长期保存概述。数字资源主要指进行了一定程度加工且相对独立的数字资源系统,无序的和自身没有控制的资源不属于数字资源[3],包括声音、文字、图像、视频等多源异构数据。数字资源长期保存是指保证数字比特流(或数字资源)可撑起维护和内容可长期获取必要的管理活动。[4]数字资源长期保存是数字资源的长期保管并且保证其完整性有效性,确保数字资源的可持续利用,具有长期储存(storage)和长期可获取(access)性。

2 数字资源长期保存的必要性和价值性

1)数字资源长期保存的必要性。数字资源以及数字资源保存系统的更新迭代,导致数字信息的不可读取丢失;其次,数字信息存在易被篡改的脆弱性以及受到自然灾害、人为因素影响遭到破坏,对数字资源妥善长期保存的要求相应提高。

2)数字资源长期保存的价值性。从理论价值来说,档案传承着人类文明的发展,是社会进步重要的文化瑰宝,是人类智慧的结晶,档案数字资源亦如此。可持续性地利用档案数字资源,汲取前人的智力成果,传承人类的思想,从而推进社会的持续创新。从现实价值来说,档案数字资源长期存储和利用为科研人员提供参考资料,为学术研究提供渊源的理论基础。档案数字资源长期存储研究促进文献资源能够更加便捷地服务于社会,不仅能够长期完整、安全地保存档案资源,同时也能长期稳定地为后代研究提供利用借鉴。

3 数字资源长期保存面临的主要问题

1)数据的多源异构性,限制数字资源广泛利用。业务系统和数据管理系统的多样性、差异性,以及人为数据管理的习惯性,导致各个部门累积了批量的不同格式的数据。从单一文件数据到繁杂的系统数据库,从网页信息、音频、声像数据到视频等,数据多源异构要求机构必须对批量数据进行统一的转码、处理、加工,从而使数据尽量结构统一,打通数据壁垒,并适用于各个机构部门。然而,当前很多存储系统架构及软件无法满足档案数字资源指数暴增的态势,需要开发新的系统架构来满足现在以及未来的数据要求。

2)存储设备的局限性,促使数字资源保存的不稳定。存储设备更新迭代速度快的特点导致存储设备兼容性差,设备工作环境的物理环境不当也会造成设施损坏。数字媒介比传统的胶片、纸质图书生命周期更短[5]。设备是数字资源的长期保存的载体,长期稳定的存储离不开对存储设备的定期维护、保养和更新。云存储是当前流行的存储方式,但第三方数字存储机构存在风险导致数据丢失,如360云盘服务器停止服务导致用户存在云盘里的资源遭到不同程度的损坏。

3)技术要求不断升级,促使资源长期保存面临新挑战。数字资源长期保存技术设计数据抽取、通用计算机虚拟(UVC)、数字再造技术等[6]。存储器是数字档案资源存储重要性影响因素,其存储的质量关系到数字档案的安全性。云储存技术、区块链技术当前尚未成熟,存在数据安全和隐私性问题。因此数字资源长期存储所依靠的优质环境离不开安全技术的不断提升来充分保障存储系统的安全稳定。

4)资金投入不足,阻碍资源长期保存策略进程。数字资源长期存储的投入包括设施、人力技术、维护等费用,为采用最低的成本存储最有价值的信息,数字保存机构会对长期存储的数字资源数量进行限制。制定合理的存储策略,吸纳有利的资金支持,也是长期保存工作的重点。

4 档案数字资源长期保存实施路径

1)建立健全档案数字资源相关法律法规建设。法律法规可以有效保护数字资源的长期保存。目前,档案数字资源相关法律法规相对滞后,《档案法》的修订草案还未正式实施。同时,法律用词较笼统模糊,操作性不强,主观性强。因此,重视档案数字资源长期保存的法制建设,提升法律的规范性与可操作性,明确档案数字资源“保存什么”、“有谁保存”、“如何保存”等[7],规范数字资源的安全标准和法律措施,为数字资源的长期保存提供有力的保障。

2)推进数字资源保存技术与存储模式的深入研究。大数据、云计算、AI技术的快速发展推动了档案数字资源的长期存储的发展,同时也对档案数字资源的存储安全、信息隐私、数据真实性带来了挑战。数据安全方面,加强计算机防火墙与防病毒防御功能,开发新存储系统,将存储系统与外界网络断开。推进大数据存储模式探究,大数据存储意指将数据集合存储在计算机中实现长期可持续可利用。在数据开放的范围内,数据资源对公众是透明开并且可以随时随地使用数字资源。而在该种模式下,需要各部门共同合作,将有价值的数字资源存储在大数据系统中。

3)制定合理的档案数据备份与恢复策略。备份工作是档案数据信息系统的日常管理的重点,需要构建科学完善的数据备份和恢复机制来避免数字资源灾害造成的危害[8]。档案数字资源的安全隐患主要来源于自然灾害和人为因素两方面,因此,定期做好备份并完善恢复系统极其重要。

5 结语

档案数字资源长期保存是一项持续且复杂的系统性工程,需要法律、人才、科技、资金等方面的支持。在紧跟大数据的发展步伐、规避传统存储方式的问题的同时,也要规避大数据、人工智能等新技术的弊端。档案数字资源长期保存需要制订灵活、合理的存储策略,确保有价值的档案资源和人类记忆在大数据技术的支持下能有效地长期保存。

参考文献

[1]朱学武.网络环境下图书馆数字资源的整合与利用[J].图书馆学刊,2009,21(2):82-83.

[2]张云丽.大数据背景下企业会计信息化研究[J].现代商贸工业,2018,39(29):104-105.

[3]马文峰.数字资源整合研究[J].中国图书馆学报,2002(4):64-67.

[4]8.RLG.Trusted Digital Repositories:Attributes and Responsibilities[EB/OL].[2019-12-10].http://www.rlg.org/longterm/repositories.pdf

[5]张容,李勇文.长久保存数字资源的文件格式互操作探析[J].山西档案,2017(06):75-77.

[6]刘晓英.大数据时代图书馆数字资源长期保存问题研究[J].图书馆(7期):90-96.

[7]祁天娇.美国数字档案资源长期保存战略的分析与启示[J].档案学研究,2019,166(01):110-115.

[8]吴筱贞.大数据时代构建数字档案资源安全保障体系探究[J].黑龙江档案,2017(02):52.

作者簡介

方侠(1993-),女,汉族,安徽黄山,研究生在读,档案基础理论与档案管理现代化。

猜你喜欢
数字资源档案大数据
评价高校图书馆数字资源综合服务能力
档案的开发利用在供电公司全面管理中的作用
浅谈北京卫视《档案》的叙述方式
新常态下高校档案工作发展研究