浅析大数据时代下档案数据保全模式

2020-03-27 12:23周烁奇
卷宗 2020年3期

摘 要:云计算”、“大数据”的出现,改变了档案界对数据仅仅停留在存储和保护阶段的想法,对其利用和价值的挖掘使得档案数据保全模式正逐渐成为极具发展前景的数字档案管理模式。本文主要围绕档案数据管理中存在的问题,探讨档案数据保全模式的技术思路,分析档案数据保全模式的管理模式优势。

关键词:档案数据;数据保全;数据管理模式

1 档案数据现状

1.1 档案数据

21世纪初,数字技术的广泛应用逐渐深入到各个领域,我国的档案管理也随之朝着数字化、网络化的方向发展。随着近几年档案数字化浪潮的推进,各单位的电子档案数据量剧增。在2016年《档案事业发展“十三五”规划》中显示,我国省级、地市级和县级国家综合档案馆馆藏永久档案数字化的比例于2020年将达到60-70%。档案数字化浪潮的推进促使大量档案机构及部门产生庞大的电子档案数据,截止到2018年底,全国各级国家综合档案馆馆藏电子档案127.7万GB,馆藏档案数字化副本达1554.6万GB。这些电子档案数据与传统档案不同,海量化、虚拟化的特性决定了大数据背景下档案数据的管理较传统档案难度更大。国家档案局局长李明华指出,“档案工作正在经历一个从接收保管纸质档案到接受保管电子档案,从管档案实体到管档案数据,从手工操作到信息化智能操作,从档案资源分散利用到联网共享的变革过程”。[1]档案数据同时面临着从收集到保管利用等管理环节的挑战,如何保证其真实性、完整性、可用性和安全性也是档案界所关注研究的重要问题。

1.2 档案数据面临的问题

1.2.1 历史数据的质量问题

随着档案数字化及電子文件单套制的推行,各单位存在大量的电子档案数据,这些数据不仅仅包括在系统中运行的各类实时数据,同时还包含着在硬盘、光盘等备份介质上的备份数据。由于数据量逐年递增,其有效性、完整性、可用性无法得到有效的管理,管理人员也无法实时掌握档案数据的存储状态。这就导致了系统中的数据可能已经出现部分数据无法正常使用的情况,备份的电子档案数据也有可能局部或者全部损坏,给各档案部门数据生成部门带来巨大的损失。档案数据的非人工识读性和系统依赖性使得对档案数据的全部管理活动都必须借助于计算机系统才能实现,离开计算机系统,人既无法识读,更无法对其质量进行监控。各数据产生单位都是一个高安全,同样也是一个高风险的数据机构,单单依靠档案数字化流程并不能保证档案数据的完整有效,无法保障今后档案资源的利用整合。

1.2.2 现有数据的备份问题

现阶段各单位在档案数据管理模式上较多是依靠以单个副本的形式进行存放和保存,主要是通过自建系统及异地备份进行档案数据保管,备份方式较为单一。2010年以来,许多档案局馆通过签订《重要档案异地备份工作协议》,以建立异地备份库的形式,对重要档案和电子文件实行异地异质备份,以确保档案数据的安全。[2]但由于时间及空间距离的限制,这些数据的安全性、可用性、一致性缺乏可靠的监管与防范,管理人员对于数据本身的安全状态缺乏及时的判断和保护。这种“冷备份”并不是档案数据长期保存及利用的最好办法,一旦档案数据出现问题,管理人员无法收到任何的预警与提示,往往就错过了最好的数据恢复时机。

1.2.3 档案数据证据价值问题

对于传统纸质档案而言,主要借助形式的原始性来证实和确认内容的原始性,原件的基本条件包括特定的内容、载体、字迹材料、体例、格式以及具有法定效力的签署、印章等,其中任何一项发生变化,人们就有理由对其原始性产生怀疑,这也是保证其具有法律凭证的关键。而对于电子档案数据而言,其内容和形式的相对独立使人们无法依靠原始的记录载体和记录方式来确认其信息的原始性。档案数据因其脆弱性,数据可以被随意篡改,若有人利用信息漏洞或技术能力导致档案数据的原始性无法保障,那么档案数据其价值就会大大降低。

2 档案数据保全技术思路

2.1 档案数据内容固化

目前传统的信息安全技术主要包括常用数据加密技术以及数字摘要技术等,其中数据加密技术主要是依靠电子签名对数据进行加密。电子签名是利用密码运算实现电子数据的“手写签名”效果,它的简化流程大致为:当数据的生成方需发送数据电文时,发送方用一个哈希函数从数据的内容文本中生成数据电文摘要,然后用自己的私钥对这个摘要进行加密,这个加密后的摘要将作为数据的“盖章”同数据内容一起发送给接收方,接收方首先用与发送方一样的哈希函数从接收到原始数据电文中计算出数据电文摘要,接着在用发送方的公钥来对数据电文附加的数字签名进行解密,如果这两个摘要相同,那么接收方就能确认该数字签名是属于发送方的。而数字摘要技术主要依靠哈希运算对数据完整性校验,哈希算法(HASH)又称离散算法,是一种特殊的数据处理方法,其实现方式不唯一,典型的实现方法主要分MD5和SHA两种。是一种从任意文件中创造小的数字「指纹」的方法。与指纹一样,哈希算法就是一种以较短的信息来保证文件唯一性的标志,这种标志与文件的每一个字节都相关,而且难以找到逆向规律。因此,当原有文件发生改变时,其标志值也会发生改变,从而告诉文件使用者当前的文件已经不是所需求的文件。

而各档案机构部门可在数据生成阶段对档案数据进行内容固化,在档案数据生成阶段对其内容进行哈希运算,以哈希值作为其内容的完整原始性摘要进行存储。系统通过定时对其定时哈希值比对来确保档案数据的内容未被篡改和破坏,从而保证档案数据的内容原始性完整性固化。哈希运算的不可逆性意味着不可能根据一段通过哈希运算得到的哈希值来获得原来的档案数据,也不可能简单地创造一个文件并让他的哈希值与原哈希值相一致,这使得档案机构部门在档案数据内容固化上持有一定的保全能力。

2.2 档案数据证据价值固化

档案数据保全过程中对档案数据的证据价值保全主要依靠时间戳以及数字签名技术。由于传统的档案保存立足于档案内容与形式上的统一,原件就成为集两种原始性于一身的统一体。而档案数据由于其真实性、可读性、长期可用性及安全性等问题制约着其成为有效的法律证据的主要障碍。传统纸质档案作为法律文件形成时间一般是通过当事人在文件中写明签订时间来实现的,由于签订的纸质文件难以完整修改,因此法律上也以档案中所列明的归档时间为档案生成时间。而对档案数据而言,在从个人计算机产生的时候便以该台计算机的时钟作为其数据的生成时间,由于此类时钟可以任意修改,因此在普通个人计算机设备上形成的电子文件的时间戳难以证明不其可篡改性。但一个国家的标准时间是具有权威性的,档案机构可以依靠由可信的第三方时间戳服务中心(TSA)颁发的可信时间戳来证明档案数据产生时间的电子凭证,结合数字签名技术来确保档案数据的原始性,将档案数据的法律证据价值进行保全。

3 大数据背景下档案数据保全的价值与意义

3.1 利于电子文件的长期保存

电子文件的全程管理原则要求建立一个完整的管理体系,对电子文件从产生到永久保存或销毁的整个生命周期进行全程管理与监控。而档案数据保全则是从档案数据的产生阶段便对其真实性、完整性、可用性和安全性进行保全,为电子文件的全流程管理提供了较为可靠基础。

3.2 充分发挥档案数据价值

2016年5月,国家档案局颁布的《中华人民共和国档案法》修订草案确认了各类电子文件、电子数据和电子记录的法律效力及其作为档案的凭证作用。而档案数据保全的管理模式順应了将档案数据作为法律证据的趋势,也使得档案数据其管理保存价值得到了进一步提高。

3.3 以传统档案管理为基础,更新档案数据保全观念

传统档案管理强调在各种档案在物理保管环境和载体约束下进行档案实体管理,而大数据时代档案数据的激增促使档案机构需要利用信息技术的发展,为档案数据的整个生命周期进行真实可靠性保全。而随着电子文件“单套制”的呼声越来越高,档案机构更加需要更新传统档案管理理念,从单纯的档案载体的管理深入到档案价值的管理,更新档案数保全意识也是新时代档案工作适应信息高速发展步伐的必经之路。

4 结语

根据IDC报显示,在过去的几年内,全球的数据量以每年58%的速度增长,而信息技术的发展使得数据在未来会增长的更快,2016年全球数据总量约为8.6ZB,预计到2020年将超过40ZB,这相当于全球平均每人拥有超过5000GB的数据量。数据已日益成为重要的生产要素和社会财富,尤其各个行业作为庞大的数据生产、流转、存储中心,数据管理任重而道远。大数据时代档案数据保全成为新时代档案学者重要且紧迫的问题,唯有将信息技术与档案数据进行更加深层次的关联研究,利用完善的技术手段对档案数据进行保全,才能使得档案数据真正发挥其应有的价值。

参考文献

[1]李明华.奋力开创全国档案事业发展新局面[EB/OL].[2018-6-08].http://admin.rmlt.com.cn/?app=article&controller=article&action=edit.

[2]梁磊,王建文,王顺.国家综合档案馆电子文件备份中心建设研究[J].北京档案,2016(07):31-32.

作者简介

周烁奇(1994-),男,汉族,江苏无锡,图书情报与档案管理研究生在读,苏州大学,研究方向:档案数据及数据保全方向。