档案数字资源长久保存和备份技术的思考与探索

2023-06-01 10:50胡柳莹
兰台内外 2023年1期
关键词:数字档案备份

摘 要:随着互联网技术的深度发展,数字档案馆建设概念应运而生。然而,数字档案建设在弥补传统档案管理和利用方面短板的同时,也面临着长久保存和备份工作的风险挑战。本文分析当下档案资源数字化面临的现实问题,对数字档案长久保存和备份技术进行探索,以期为企事业单位提供一些选择路径,提升档案管理与利用水平。

关键词:数字档案;长久保存;备份

档案信息化建设路径探索,是档案界普遍关心的问题。在信息化背景下,推进数字档案馆建设,搭建资源共享平台,提升档案服务社会的能力和水平,也是社会各界对档案发展的期待。而在信息化推进过程中,档案数字资源长久保存和备份,是必须要考虑和解决的基本问题。

一、概念分析

1.档案数字资源的概念

档案数字资源是一种新的档案形态。随着科技的进步,计算机技术、扫描技术、OCR技术、数字摄影技术、数据库技术逐步与传统档案业务接触并实现深度融合,档案数字资源随之产生。这是一种新型档案信息形态,它把各种档案资源转化为数字档案信息,以数据形式进行存储、管理、读取、利用,形成一个比较完整且庞大的信息资源库。使用者可以通过计算机及网络实现资源共享,是档案业务提供信息化服务最基础的单元格。

2.长久保存的概念

档案数字资源长久保存是为长期维护数字资源真实性而采取的行为,与传统档案保存不同,档案数字资源保存的是档案信息而非存储载体。根据《基于文件的电子信息长期保存》文件要求,这个时间可能是几年至几百年,主要取决于机构的需要与要求,可以根据不同机构的工作需要而自行设定一个时间标准。对于档案馆这样保存公共文件的机构,期限通常为几百年。

3.数字档案备份概念

数据备份是将技术和解决方案相结合的实践。随着档案信息化、数字化建设的日益深入,档案作为社会信息资源的重要性也日益凸显。面对如今信息数据量爆发的现状,如何运用先进的信息技术手段保证档案数据资源的充分安全,长效发挥其资源价值,是当前档案信息化、数字化基础建设的重点方向。档案数据备份也由此诞生。档案数据备份通常指把数据中心内的资源信息、文件系统等全部或者部分从主机的磁盘或者存储列阵中复制到其他介质的过程。主要是为防止因为自然灾害、操作失误等意外导致数据永久性丢失。

二、数字档案长久保存和备份挑战

档案数字化发展管理和利用帶来诸多好处,但由于档案数字资源独有的特质,也面临着实体档案没有的潜在风险,包括存储介质自身存在的存储问题、网络环境带来的安全挑战、数据信息大爆炸带来的容量危机等。

1.存储介质自身存在的局限性

在档案工作中,常规的数字档案存储介质涉及磁带、磁盘、光盘、半导体,在这些介质基础上逐渐延伸出光盘库、磁盘阵列、混合存储等更高级别的存储设备。档案资源在实现数字化转换后,档案信息通过这些存储载体得以保存、传播、共享和利用。因此,存储介质的保存效果、保存环境以及读取技术会直接影响到数字档案资源的安全性。总体来说,数字档案资源面临着人为因素和载体自身因素两方面的风险。

从人为因素考虑出发,主要体现在对档案存储介质保存环境的控制。不同的保存环境会影响存储介质的使用寿命,从而影响到对内部档案数据信息的有效读取。以光盘为例,光盘应根据光盘盒特性垂直存放或水平存放,保存环境应该满足温度4 ℃~20 ℃,相对湿度20%~50%;温湿度选定后,昼夜温度波动幅度不应大于±2℃,相对湿度波动幅度不应大于±5%。倘若在档案管理过程中,对档案存储设备的管理没有按照最佳环境保存,就会缩短介质的使用寿命,使得档案数据无法读取和及时备份。此外在档案利用过程中,振动、掉落、进水、强磁等意外情况也会使载体出现变形、断裂、消磁等情况,导致信息无法有效读取,影响档案资源的安全性。

从存储介质内在条件出发,要充分考虑介质寿命、设备检查以及读取技术等问题。存储介质的寿命通常短于数字档案的生命周期。一般来说,磁盘的平均寿命在3~5年、光盘的平均寿命在10~20年、磁带的平均寿命在30~50年,这就需要人为对数据的存储工作进行记录,以便在存储介质寿命到来之前完成数据的迁移和备份。此外,实际工作中还要考虑到数据存储载体的损坏不易被发现等因素。由于从存储介质外表无法确定载体内部是否出现问题,所以必须定期对存储介质进行检查,以确定设备读取完好,档案安全可靠。同时,还要考虑到读取技术的发展问题。科技发展使得存储设备更新迭代非常迅速,例如20世纪50年代初,磁带首次被应用到计算机进行数据存储,60年代,就出现了光盘存储器,后来接连出现软盘、存储卡等新的存储设备,短短几十年,存储设备发生巨大的更新换代。这代表着即便数字档案得到完好保存,很可能多年以后,已经找不到相对应的设备和系统进行数据读取,档案资源的价值就得不到发挥。

2.网络环境带来的安全挑战

谈到网络环境带来的安全挑战,首先必须要认识到数字资源蕴含的巨大价值。当信息以单一形式存在且流通不畅的时候,其发挥的价值是有限的,当档案数字化以数据形式把一切不能动和不能流通起来的资源释放出来进行整合、分析、计算的时候,就发生内在创新的可能性,此时数字资源就变成要素资源,成了一种能够贩卖的商品,而这种内在创新又是带有强大的主观意图,有时候是盲目、自发、违法的,在法律监管的盲区,技术的掌握者往往容易在利益的驱动下,突破道德和法律的底线,通过贩卖资源攫取利益,比如信息贩卖等行为。

而数字档案共享原理就是把实体档案承载的信息通过设备读取转化为数字信息,搭建统一的数据库,通过技术手段让不同用户能够查阅、操作、运算和分析。共享通道带来了开放和共享,也带来了来自通道外部的风险挑战,利益驱动非法用户可以利用病毒、漏洞以各种方式攻击计算机,破译用户密码口令非法访问、删除、修改重要数据,非法获取利益,给档案所有者带来难以挽回的损失。2022年4月,境外黑客组织和不法分子给西北工业大学师生发送的包含木马程序的钓鱼邮件就是一起恶性的网络攻击事件,给学校校内信息系统和师生的重要数据造成重大安全威胁。因此,在利用新兴科技提升档案管理利用效率的同时,同样要关注档案数字化建设对信息安全建设的需要。

3.数据大爆炸带来的容量危机

数字资源是数字经济时代的核心生产要素,数字资源甚至被认为已经超过石油的价值。但是,数字资源的增长速度也是令人咋舌。2003年,人类创造了5EB的数据,2011年,产生5EB的数据只需要不到两天时间,2013年,产生这些数据只要10分钟,2020年数据总量增长到了59ZB。根据《华为全球产业展望GIV》预测,2025年全球将产生180ZB的数据。面对日益增长的数字档案存储需求,只能以不断扩容来满足。但一个存储系统列阵的控制器模块处理能力毕竟有限,虽然容量不够时,可以通过增加新的硬盘框实现扩容来满足大容量存储需求,但是仍存在拓展能力不足的情况。在实际应用中,往往需要部署多套设备来满足存储需求。例如,搭建政务服务平台,省级平台通常需要规划至PB级的容量,因此,需要部署数十套不同级别的设备满足需求,这会增加平台管理的复杂程度,也导致各类数据资源之间的割裂,同时增加采购和维护成本,许多企事业单位不得已放弃大量数据资源。根据调查,当前各行业数据仅有不到2%被保存,数据资源“存不下”的问题日益严重,亟待解决。

三、档案数字资源长久保存和备份实现路径

1.制定数字档案资源管理规范

在档案信息化进程中,国家层面在2022年6月出台了《实物档案数字化规范》,但是社会层面自上而下落实尚未完全实现。与传统档案业务相比,数字档案建设也还存在管理空白和技术盲区,数字档案的范围也不止《实物档案数字化规范》中提到的数字化实物档案,因此,亟需建立一套完善的档案法规制度和标准规范进行集中指导。具体来说,包括以下几个方面。一是规范组织架构。组织管理不够规范、主体责任不明确是影响数字档案长久保存的重要因素,需要由国家层面制定数字档案管理纲领性文件,其中应当包含关于数字档案管理长期保存的组织管理的相关条款,以制度、文件的形式明确各级档案馆关于数字档案保管的组织架构、主体责任、管理制度、工作流程、操作权限以及责任追究等具体工作,并鼓励各级档案馆引导本地区各类档案保管机构根据工作实际,制定本单位的数字档案管理办法。二是规范设备管理。存储介质是档案长期可读取的核心,标准规范、环境保护、存储技术等都是围绕档案存储介质开展的。数字档案存储介质不同于传统档案载体,存储设备不满足标准、保管环境不过关、缺乏必要的物理防护措施等原因都会在不知不觉中导致档案资源的消失。因此,还需要进一步出台数字档案载体管理方面的标准,针对数字档案各类存储介质保存的设施配置、防护要求和安全等级明确规定标准,为各级档案保管机构数字档案馆建设提供根本遵循。三是规范技术应用。档案数字化建设过程中,应用到操作系统、扫描、备份、加密、共享等多重技术,当前,许多机构都是采购市面上成熟的数字档案管理系统软件、设备进行数字档案建设,没有也无法从长久保存和安全性能的角度出发去验证技术。虽然能满足现有的数字档案管理利用,但能否满足实现数字档案长久保存和安全利用尚未可知。国家档案馆于2019年廢止了《档案管理软件功能要求》,目前亟需出台数字档案建设技术标准,由国家层面对软件开发商资质进行认证,严格把关系统和设备质量,引导各档案机构从实际工作需求出发,采购符合要求和标准的管理软件,尤其是涉及政府部门、科研机构等重要部门的,要明确采购渠道、采购目录,以此保障信息安全。

2.加大档案保障资金投入

实现档案数字资源的长久保存离不开资金的大量投入。根据《“十四五”全国档案事业发展规划》提出,要加快全面数字转型和智能升级,各级政府要将档案事业发展经费列入预算,切实加强资金监管,提高使用效益。因此,国家档案馆应当引导各级档案馆在档案事业发展专项资金中,保留档案数字资源长久保存所需的预算,引导各级档案保管机构合理分配档案发展专项资金。若出现经费不足,则要积极争取本级财政的支持,保障档案数字资源长久保存的设备和技术经费。

3.构建信息安全防御措施

实现档案数字资源长久保存和备份,要积极构建信息安全防御措施,实时监控数字档案平台的运行情况。

一是强化安全建设。建立防火墙,通过防火墙划分内部安全网络和外部接入网络,有效隔绝未授权的网络访问;安装入侵检测系统,对防火墙无法识别的操作进行有效监控,及时发出预警;安装主页防篡改技术,增加对网站内容的严格监控和自动修复。

二是加强访问控制。建立分级授权、角色授权,由系统管理员根据每一位数字档案平台管理员所在的工作单位、工作职责分配资源访问权限;加强登录管理,以安全密钥、账号密码作为识别档案员的唯一标识,多次登录失败则锁定该账号,禁止使用档案平台,只能在系统管理员解锁之后进行登录或者允许档案员在24小时重新尝试登录。

三是发挥系统日志作用。在系统安全隐私建设方面,切实发挥系统日志功能,加强日常管理检查,尤其是加强对于增删改查等操作的行为监管,每日查阅系统安全日志,加强安全防范水平。

4.科学选择长久保存和备份方案

(1)长久保存存储路径研究

科学选择存储方式是实现数字档案长期保存的前提。各档案保管机构在选择存储方式时必须充分考虑本单位工作的实际情况、科学规划数字档案容量、掌握各类存储方式的特点,在满足工作需求的情况下,选择最经济合理的存储方式。目前从档案的存储技术结构看,可分为直接连接存储、网络附件存储和存储区域网络。

①直接连接存储,通过接口直接连接到计算机上,在存储设备和计算机之间没有任何网络连接,是最原始、最基本的存储方式。挂接在计算机上的硬盘、磁盘列阵、外部硬盘盒等都属于直连式存储范畴。直连式存储可实现即插即用,操作非常简单,成本小而见效快,经济效益高。但存在无法实现共享、容量有限等局限性。

②网络附加存储,能够对分布、独立的数据资源进行整合,并通过网络拓扑结构,如以太网,添加到一群计算机上,为不同主机用户提供存储空间。网络附加存储的优点就是能够帮助用户实现数据共享。如今普遍采用的文档共享等服务就是基于此技术开发的应用,支持多个用户同时访问一个设备。缺点就是受到单点故障影响,假设一个组件损坏,其他的设备都无法访问使用数据,在使用过程中,网络传输能力较差,而且无法满足用于日益增长的数据需求。

③存储区域网络,是一个特殊的高速网络。它是将存储设备和服务器连接起来的网络,能够满足存储和提供对大量数据的访问。存储区域网络包括磁盘列阵、交换机和服务器。

因为存储区域网络不止有一个磁盘列阵、交换机等,所以它是容错的、可靠的。数据可以实现在不同的磁盘列阵中共享,即便一个交换机或者磁盘列阵出现问题,数据仍然可以被访问获取。并且随着存储数据的增加,也允许用户独立地增加存储容量,且因为使用光纤接口,具有更快的传输速度。缺点在于需要独立、专属的网络,这加大了构建的复杂程度。同时,存储区域网络所具备的扩展性、伸缩力和传输速度也在一定程度上提示其便捷安全服务背后的昂贵成本。

三种不同存储方式具有不同的优缺点,因此,企事业档案保管部门在选择档案数据的存储方式时,要根据单位实际情况进行合理选择。直接连接存储虽然技术比较老,但是比较稳定,适合数据量不大,對磁盘访问速度要求较高的中小企业。网络附加存储更多适用于文件服务器,虽然受限于以太网的速度,但是比较灵活,成本低,适合数据存储量不是特别大、平台管理预算不高,需要实现档案数据共享的单位、组织或者家庭。存储区域网络适用于大型应用或数据库系统,适合大型企业及组织,如对数据安全性很高的金融、证券企业,对存储性能要求高的电视台、测绘等部门。

(2)风险应对备份技术选择

数字档案资源具有不可再生性,一旦破坏,给档案所有者带来的损失是巨大的。尽管制定了科学严格的管理措施,仍然无法完全避免自然灾害、操作失误等不确定因素的影响,为确保档案资源长久保存可用,数字档案备份概念应运而生。常见的备份方式有异质备份、异地备份、互援备份、容灾备份、云备份等。

①档案异质备份。异质就是转换档案资源存在的形式,比如,电子形态与纸质形态、电子形态与微缩胶卷、纸质载体与微缩胶卷之间的转变。光盘、磁盘等数字资源如果只是转换存储介质不能被认为是异质备份。异质备份是比较传统的备份方式,操作起来没有技术难度,在一般的档案保管机构都可以实现。

②两地互援备份。两地互援备份是两个不同地区的档案馆以合作方式,将数字档案传输到对方系统中进行存储,互为对方保管需要备份管理的数字档案,实现档案长久保存。例如,黑龙江档案馆和广东省档案馆签订互为档案异地备份基地协议,湖北省档案馆和青海省档案馆签署电子档案异地备份合作协议等。档案馆在设计建设之初本就充分考量了外在自然灾害等各种因素,实现档案馆之间的互援备份,成本小效果好,能实现数字档案防灾效益的最大化,对于保障档案安全十分有效。

③容灾异地备份。容灾异地备份是在异地建立一套或者多套具备生产主系统功能的IT系统,实现数据实时或周期性同步,使得在灾难时数据可以迅速恢复。在建立容灾备份系统时会涉及SAN、远程镜像等多种技术。远程复制是容灾备份过程中常用的一种数据镜像技术,复制过程中又分为同步复制和异步复制。同步复制对距离有所要求,一般运用在档案同城备灾点,可以实现数据实时同步,异步复制通常用在远程备灾点,无法保障两台设备数据的完全一致,常用于距离较远、网络延迟较大的场景。

④数字档案云备份。云备份是基于云计算发展起来的新概念。是通过集群应用等功能,把大量存储设备集合起来协同工作,对外提供数据存储备份和资源访问的技术。与传统的备灾服务比,它具有易于扩展、升级方便、节约成本、绿色节能以及易于实现集中备份及容灾的功能,越来越广泛地被应用到金融、政府、医疗等行业,未来发展空间很大。

目前,基于部分档案资源机要保密的性质,很多数字档案馆在建设过程中,更多选择异地异质备份技术,云备份的技术在许多重要领域还没有深入发展。面对更多专业的需求,云备份技术也还有更多的路要走。在备份技术的发展过程中,各类档案保管机构、企事业单位也应该结合工作的具体要求、数字档案资源的性质合理选择备份技术,确保数字档案长期可用。

四、总结

档案是人类历史发展原始的记录和宝贵的记忆,是人类找寻借鉴发展经验、把握事物发展规律的关键所在。而数字档案的建设,在技术的层面上再一次延伸了数据信息的生命、拓展档案资源的价值。对数字档案长久保存和备份技术进行探索与研究,是确保档案数据实现长期可读的重要抓手,也是发挥档案推动社会发展作用的重要举措。各企事业单位在利用档案资源数字化推进工作高效便利的同时,一定要重视数字档案的保存和管理,做好存储和备份,以此通过档案事业的高质量发展推动社会的大踏步向前。

参考文献:

[1]钟 声.档案数字资源长久保存和备份技术与策略[J].兰台内外,2021

[2]陈伟斌,张庆顺.大数据环境下高校数字档案备份技术策略[J].档案天地,2022

[3]孙晓霞.数字档案备份模式的研究[D].苏州:苏州大学,2013

[4]陆 蕊,魏振钢,林 欣,徐伶伶,郭曙超.SAN和NAS融合构架数字档案信息存储管理平台[J].计算机应用,2006

[5]林康平,孙 杨.数据存储技术[M].北京:人民邮电出版社,2017

[6]张 瑜.数字档案长期保存风险的识别与应对策略[D].武汉:武汉大学,2017

[7]曾子玲.数字档案异地异质备份研究[D].湖南:湘潭大学,2021

[8]赵洪生.数字档案资源安全备份策略研究[J].兰台世界,2022

[9]张 俐.以用户为导向的高校数字档案资源服务体系构建研究[J].资源信息与工程,2020

[10]任生楠,黄 奋,徐 宽.云存储在数字资源长期保存中的优势和问题研究[J].中国科技信息,2011

[11]魏 歌,吴志杰.数字人文视域下的数字档案馆建设:合理性诠释与策略探讨[J].北京档案,2021

[12]李春燕.云计算环境下图书馆数字资源的存储[J].情报探索,2011

(作者单位:扬中市委党校)

作者简介:胡柳莹(1994—),女,汉族,浙江奉化人,本科,扬中市委党校助理馆员,研究方向:档案管理。

猜你喜欢
数字档案备份
“备份”25年:邓清明圆梦
创建vSphere 备份任务
广西南宁以“数字档案”提高税务稽查效率
数字档案生态链信息流转效率提升策略研究
研究数字档案信息安全保障体系
从取证角度解读MacOS系统Time Machine备份数据
发射机备份是安全播出的重要措施
构建数字档案信息安全保障体系的研究
基于3G的VPDN技术在高速公路备份链路中的应用
出版原图数据库迁移与备份恢复