李高峰 胡国强
(1.西北农林科技大学档案馆 陕西杨凌 712100;2.西北农林科技大学网络与教育技术中心 陕西杨凌 712100)
大数据作为数据驱动新技术,广泛应用于档案归档、查阅及档案信息开发利用等档案管理工作中,同时档案数据的大量涌现也给档案管理带来了极大的挑战。众多学者就大数据在档案馆的业务应用、服务模式、信息安全和管理创新展开了研究。陶水龙首先分析了大数据背景下数字档案馆的建设,最后论述了大数据技术在数字档案云平台上应用[1];杨智勇和史晓杰描述了数字档案馆的大数据特征,然后探讨了微服务的基本范畴和实现途径[2];宋美霞论述了大数据背景下数字档案馆存在的问题,并探讨了大数据数字档案馆发展前景[3];周枫和杨智勇从档案馆业务及用户两个维度,对基于大数据的数字档案馆信息服务模型进行了需求分析,最终设计了一种基于大数据的数字档案馆信息服务体系架构[4];秦巧云等论述了大数据环境下数字档案馆信息威胁,认为可从法律制度、道德规范、安全设施、技术防护四个角度建立数字档案馆信息安全防范体系[5];李富成和黄丹若通过研究大数据对数字档案馆信息服务的影响,从不同角度研究了大数据数字档案馆[6]。分析以上研究,大数据时代档案管理工作取得了一定的成效,但也存在诸多问题。基于此,文章引入了区块链(Blockchain)来解决大数据环境下档案管理面临的问题,有助于提升档案管理水平,提升档案服务质量。
“大数据”(Big data)已广为人知,美国政府认为大数据是“未来的新石油”, 这主要基于两点共识[7]:一是大数据应用案例越来越多,应用领域越来越广泛;二是大数据中隐藏着巨大的机会和价值,将给许多领域带来变革性的发展。与传统数据相比,大数据具有海量性(Volume),支持PB级甚至ZB级文件的处理、数据类型多(Variety),支持日志文件、音视频文件、图片文件等、时效性(Velocity),处理效率高、价值稀疏性(Value),价值大但价值密度低、准确(Veracity)和复杂性(Complexity)等特征。基于大数据的应用系统可高效存储大量结构化、半结构化以及非结构化数据,可处理瞬间爆发的大量数据以及对现有的数据进行有效分析。典型的大数据系统可分解为数据生成、数据获取、数据存储和数据分析4个连续的阶段,可提供数据生命周期的不同阶段数据处理功能的复杂系统。从数字档案馆角度来看,大数据技术可理解为利用现有的档案数据转化为知识、帮助档案馆做出决策的工具,主要目标是借助于科学的分析手段和挖掘算法从大量、杂乱、繁复的数据中,整理和分析数据[8],以提高数字档案利用率,提高数字档案馆决策能力、决策效率、决策准确性。
区块链(Blockchain)是源自于比特币(bitcoin)数据层、网络层、共识层的底层技术。区块链是基于互联网的分布式账本技术,同时也是一个去中心化的数据库,不依赖中心机构的管理,不存在中心服务器,每个运行区块链软件的计算设备都可以当作区块链网络的一个对等节点,节点之间无需考虑信任问题,改区块链网络中的任意节点通过密码学算法加密数据并记录到一个数据区块,同时生成该数据区块的指纹(哈希)用于链接下个数据块和校验,并通过集体验证和维护的方式来建立一个可靠数据库[9]。区块链依靠密码学,使得区块链网络中的任意两个节点可以直接交易,解决了中介信用问题,其核心技术有分布式账本技术、非对称加密算法以及智能合约。区块链特殊的工作原理赋予了其四大特征,即去中心化(Decentralized)、共识机制、可追溯性、高度信任。这些特征能够有效解决实际交易中的用户隐私安全、中介信用、交易成本高等问题。
大数据时代,随着信息技术的不断深入发展,档案管理也更倚重基于各类信息技术衍生的管理平台。为解决档案管理现实中遇到的各类问题,尤其是电子档案数据存储、流转、利用、安全等方面短板,投入了大量资金来建设管理平台,现有管理平台在一定程度提升了档案管理水平,但随着档案数据自身发展和积累,也存在如下问题:
现阶段,随着信息系统在档案馆的广泛使用,档案馆馆藏信息资源增长迅速,信息量越来越大。以北京市档案馆为例,经数字扫描形式转换的纸质档案(含图纸、地图)、照片档案、音像档案(含电影、幻灯片)和用数码相机拍照形成的实物图片文件将要超过10PB,面对如此大的数据,存储和查询成为了问题,更谈不上利用。此外,由于多媒体涌现和档案单轨趋势,更多的档案数据以电子格式存在,以后档案数据的格式、类型将更加繁多。这和早期数字档案馆数据单一,以结构化数据为主产生明显区别。随着档案数字化深入和数字档案的进一步发展,档案馆产生了大量结构化、半结构化、非结构化的档案数据,且这些半结构化、非结构化的数据所占比例越来越大。这些格式、类型复杂多样的数据对数据的存储方式和处理能力提出了更高的要求。
档案资源的最终价值体现在查阅利用,现阶段档案资源整体利用率不高,难以挖掘出档案最大的价值。从档案资源应用的角度出发,档案馆资源数据量大且格式、类型复杂多样,这是导致档案数据难以有效利用的直接原因。从技术角度出发,影响档案馆馆藏资源利用的主要问题,就是如何不失真、不泄密地进行档案信息传递。馆藏资源只有有效传递,才能提高其利用率。利用率提高了,才能更好地体现档案资源自身价值。如果不在档案馆馆藏资源流通利用上下功夫,而是沿用过去传统档案的管理方式,则无法有效挖掘档案资源的全部价值,丧失了档案资源的生命意义。
随着档案信息化进程的加快,许多档案馆建设了各自的管理平台。这些管理平台存放的数据无法流通、共享,形成了一个个档案信息孤岛,不利于档案数据的共享和档案管理工作的开展,难以满足用户多样化需求。所谓的档案“信息孤岛”广义上指档案部门与其他部门无法互通信息和交流而形成的孤岛,狭义上指档案馆内部各个信息系统之间没有关联,比如,档案馆内部著录、检索、利用等环节数据不流通,信息工作不衔接。分析档案信息孤岛产生的条件,本文认为是各个档案信息系统之间没有信息交流和有效整合,缺乏满足新的信息共享需求能力所致。分析档案信息孤岛产生的原因,本文认为跟传统“重藏轻用”的思想和“档案都是秘密”的认识分不开,并缺乏保障共享数据安全的有效技术手段。
档案信息安全对档案馆来说至关重要。在信息化环境下,电子档案信息资源的开发和利用过程中产生的数据可能会面临被泄露、丢失和篡改的风险,这些数据包括数字档案数据、知识产权、个人信息等数据;纸质档案数字化过程中存在档案保密安全、失真、失窃等风险。数字档案信息安全风险的主要表现有三个方面:信息失真、信息泄密、信息缺失。信息失真即数字档案数据在传输和迁移的过程中被人篡改或数字档案信息无法识别;信息泄密即因数字档案馆计算机和网络受到病毒或木马攻击,导致数字档案数据泄露或破坏;信息缺失主要因存储介质发生故障而起,目前大多数字档案馆的电子档案数据都存储在磁盘上,一旦磁盘出现损坏,就会发生数字档案信息缺失的情况。
区块链技术能以其独有的优势保证数据质量、数据安全、数据透明性,当然也可以改善大数据背景下档案管理工作存在的问题。由于档案管理更倚重数据安全、数据质量、和数据流转,在大数据背景下区块链技术应用于档案管理的前景更加广泛切合。下文重点论述了大数据背景下区块链技术在档案馆的应用(以下讨论都是基于大数据背景下,区块链技术在档案管理上的应用)。
要解决档案数据规模急剧增长以及数据格式、类型的复杂多样的问题,就必须借助于大数据应用系统。现有的大数据应用系统以分布式的方式存储数据,完美解决了数据分布问题、分布式系统中的容错问题,处理大数据时的冗余问题。成熟的大数据应用系统有基于存储的分布式文件系统GFS(Google file system)、Hadoop,以及李浩源等研发的基于分布式内存的文件系统Tachyon。分布式文件系统利用RCFiIe、Parquet等存储格式优化存储,节约了存储空间。以Hadoop平台为例,首先,数字档案馆通过ETL(数据仓库技术)方法对分散、异构的档案信息资源进行抽取、清洗,然后利用MapReduce编程模型对清洗后的数据进行深层次挖掘分析,最后利用Hadoop或NoSQL等大数据集成技术将处理后的数据存在到各自的数据仓库。大数据应用系统可存储、分析、挖掘不同类型的档案数据,分析前需要在数据的海洋中甄别出那些真正有价值并且真实的东西。众所周知,做数据挖掘和数据分析时,大量时间成本或精力成本花费在了有效数据的收集和数据清洗上。区块链技术为用户解决了大数据分析中的数据质量、数据存储和管理的问题,减少了收集和清洗数据的时间,降低了数据分析和挖掘成本。
运用大数据系统可管理海量档案数据,用户只需简单的操作就可以对海量的档案数据进行查询和分析,建立数据与数据之间的关系模式,提升了整个档案数据的价值[10]。运用大数据技术可以对数据档案馆的资源数据进行深度挖掘,找出资源数据的内在联系,可提高数字档案资源的利用率,提升数字档案资源价值。大数据技术进行挖掘时对服务器等硬件要求很高,容易造成MDB(message driven bean)损坏,在吞吐量非常大的环境下还很容易发生数据丢失。针对数据挖掘中可能出现的数据安全问题,可采用区块链技术解决。区块链的数据大多都采取了云存储技术,这种技术在不需要经过数据中心的情况下自动处理结构数据和非结构数据,解决了MDB损坏的问题。同时现有的区块链协议可以使用全新的共识模型在几秒内完成极为庞大的信息之间的互相传送与交换,并且利用可伸缩的数据模型来降低运行负荷。同时区块链自身的特性决定了一个节点数据的丢失并不会影响整个数据的完整性,因为还有其他节点可用来恢复。这种技术解决了吞吐量非常大的环境下的数据丢失问题,保障了数据传输安全,保证了档案馆馆藏资源数据挖掘的准确性,解决了档案最为关键的安全问题。
为了消除档案信息孤岛,制度上可制定统一、可行的行业规范,加强馆际合作;技术上可建立档案大数据共享平台,对现有的档案信息系统进行整合,实行档案信息资源共建,切实奉行档案数据共享。提到档案数据共享,很多学者认为这很有必要,的确能消除档案信息孤岛,有利于档案大数据分析和挖掘。但现实中,很多数字档案馆对于档案数据共享总是顾虑重重,担心泄露个人隐私,担心泄露国家机密。基于此,大家一直在寻找共享数据安全解决方案。本文发现区块链技术凭借不可篡改、可追溯等特性,通过“加戳”和“加密”两种方式解决了数据共享中的关键问题。所谓的“加戳”是在数据流通过程中对其打上烙印,可以实现对是否使用、使用过几次的登记,这样就可以让档案数据资产化,保障原作者的利益。“加密”则通过多种加密技术保障档案数据不被泄露。两种技术的结合可以有效保障档案数据共享的安全性。
众所周知,传统的档案保存依赖于纸质材料,所需成本较高,管理人员工作量大。国家档案局印发《全国档案事业发展“十三五”规划纲要》强化了档案电子化管理的,要求加快档案管理信息化进程。档案管理目前趋于单轨制雏形,更倚重电子数据管理和电子数据流通。基于大数据的档案管理系统依靠分布式数据库和并行处理算法,不仅可以有效管理海量档案数据,而且能快速处理海量档案数据,提升了档案管理效率,降低了档案管理成本。针对数字档案管理中出现的信息安全,可利用区块链技术解决。数字档案管理的核心目标就是保障其安全,而区块链技术的安全、便捷特性就是保障流通数据安全。本文认为,区块链技术的开放性、去中心化、公开透明、双方匿名、不可篡改、可追溯的特点在提升数字档案管理便捷性的同时,也提高了数字档案的安全性,保障了数字档案的真实性,解决了操作数据、原数据与数字档案本身的信息数据相分离的问题,维护了数字档案的完整性。
针对大数据背景下档案管理工作存在的问题,本文引入区块链技术进行解决,且区块链技术应用于档案管理工作是可行的。大数据背景下区块链技术可以打破数据孤岛现象,提升大数据流通的安全性,保护数据安全。基于以上观点,文章认为大数据背景下区块链技术能解决目前档案馆存在的数据存储和数据管理问题,有助于档案数据的共享和流通,有助于保护档案数据的安全,提升档案管理工作水平。