摘 要:从传统的信息化时代跨越到大数据时代,人类经历的是翻天覆地的巨大变革。在档案学领域,為了顺应时代发展的必然需要,大数据背景下的档案也逐渐由数字化管理转向数据化管理。大数据背景下的档案有来源广、数量大、格式杂等特点,使得原有的档案管理模式发生了转变。本文根据大数据背景下档案的特点,从收集、整理、保存三个方面对档案管理模式的转变进行了阐述。
关键词:大数据;档案数据化;档案管理模式
1 大数据背景下的档案由数字化管理转向数据化管理
1.1 从政策方向上来看,大数据背景下的档案由数字化管理转向数据化管理
大数据时代的来临给我们的生活带来了方方面面的变化,海量数据的产生让我们面临着更加纷繁复杂的外部环境,而大数据技术的运用又在无形之中解决了很多我们原先无法解决的难题。为了顺应大数据时代发展的整体趋势,国家档案局在档案信息化“十三五”发展研讨中提及了档案数据安全、档案数据内容、档案数据挖掘、档案的数据建设与共享、数字化成果数据化等概念 [1]。《全国档案事业发展“十三五”规划纲要》中提出要“采用大数据、智慧管理等技术,探索电子档案与大数据行动的融合[2]”。《“十四五”全国档案事业发展规划》中提出要“推动档案全面纳入国家大数据战略”这一大方向,并提到了“数据治理” “完善政务服务数据归档机制”“大力推动科学数据与科研档案协同管理”等实施举措[3]。
1.2 大数据时代,从数字化管理到数据化管理是各项管理工作变化的整体趋势
在档案学领域,于英香认为“档案数字化不能代替档案数据化,建设应以著录标引等标准化和规范化工作为基础,以推动档案数据化,进而创新档案服务模式[4]”。刘永等针对数据时代档案管理面临的数字化和数据化认知问题和服务问题基于链式管理理论和方法提出了档案原生数据源全链式管理的数据化管理思路[5]。钱毅通过总结档案信息形成的技术环境的发展历程,提出了档案对象管理的概念,阐述了不同技术环境所对应的模拟态、数字态、数据态三种形态,深入理解了数字化到数据化转型的趋势[6]。从数字化管理到数据化管理,档案管理的模式也发生了相应的改变。
大数据背景下,很多新的名词应运而生,例如档案大数据等,而对于已有的名词,像档案数据,其在大数据时代的内涵与外延均发生了变化。大数据时代的档案管理,可以借鉴数据管理理论,运用大数据技术,进行档案管理与数据管理的融合。我们不仅需要考虑数据管理的方式方法,还需立足于档案学本身,把握住档案数字化到档案数据化的趋势,对档案管理模式的改变进行整体性把握。
2 档案收集模式的转变
2.1 档案收集对象的转变
大数据背景下的档案收集对象由电子文件转向了更细致的档案数据。档案数据来源广泛,档案数据的提供主体涉及国家级、省市级档案馆、档案数据产生的业务部门等不同的机构。涉及主体的增多使得档案数据容量加大,分布广泛。除此以外,来源于不同机构、不同平台的数据格式往往不会相同,图片、音频、视频等各种未经处理、不同形式的数据混杂在一起。数量巨大而又纷繁复杂的档案数据使得传统的人工形式的收集方式难以运用到档案数据的采集中,因此需要借助大数据技术来完成收集模式的转变。
2.2 从人工收集到自动采集的转变
大数据背景下的档案数据收集可以以ETL数据仓库技术为支撑。ETL(Extract-Transform-Load)是用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,是构建数据仓库中的第一步,也是最重要的一步。数据采集过程中的ETL工具负责将分布的、异构数据源中的不同种类和结构的数据如文本数据、关系数据以及图片、视频等非结构化数据等抽取到临时中间层后进行清洗、转换、分类、集成,最后加载到对应的数据存储系统如数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础[7]。数据抽取(extract)阶段,即从不同渠道,抽取出不同格式的传统档案数据和新型档案数据,同时定义数据抽取的方式,对相关数据进行定时或实时抽取。数据转换、清洗(transform)阶段,即针对上一阶段抽取到的文本文件、图片文件、音频文件、超链接等不同格式、不同类型的档案数据进行合并、聚合、格式转换等,确保转换后的数据一致性。然后对转换后的数据进行清洗,去除冗余和错误的数值,保证数据的准确性。数据加载(load)阶段,把转换、清洗过的准确一致的档案数据放入档案数据仓库中,完成初步的存储工作。ETL技术可以解决档案数据多元异构带来的收集困境,通过抽取阶段对来源广泛的档案数据进行实时自动收集,并且在转换、清洗阶段过滤掉冗余错误的数据,保证了档案数据格式的一致性。目前,ETL技术发展较快,针对传统ETL横向扩展产生了分布式ETL,加快了数据处理的速度,商业类ETL工具和开源类ETL工具两大类别使得ETL工具的选择面较关。因此,运用ETL技术可以较为便捷地实现档案数据的自动采集。
除了ETL数据仓库技术,大数据背景下的其他技术例如智能Agent技术、网络爬虫技术等也可以辅助档案数据的收集。智能Agent技术是一种处于一定环境下包装的计算机系统,为实现设计目的,能在该环境下灵活自主地活动 [8]。依据档案管理员制定的收集规则,运用智能Agent技术可以自动地抓取电子文件并转换成统一的格式。网络爬虫是一个自动提取网页的程序, 它为搜索引擎从Web上下载网页,是搜索引擎的重要组成部分[9],其种类多样。运用不同的网络爬虫技术相结合的方式可以很好地实现容量大、离散型高的档案数据收集。
3 档案整理模式的转变
3.1 大数据背景下档案整理理念变化
在档案整理漫长的历史长河中,一般遵循“历史联系”和“逻辑联系”两大基本联系,两者相互碰撞融合,构成了档案整理理念的主体。历史联系也被称为“有机联系”“内在联系”,主要包含档案文件之间的来源、内容、时间、形式等的联系[10]。而“所谓逻辑联系用在文件管理中主要指依据逻辑思维规律推演形成的文件间的联系。用于文件分类,则指的是按形式逻辑进行划分。并且往往特指对文件按事由内容主题进行的分类[11]”。纸质档案整理工作更多考虑的是文件间的历史联系,代表着历史联系的来源原则在与代表着逻辑联系的事由原则的碰撞中一直处于压倒性的地位中。而电子文件的产生,则让人们不得不重视起文件间的逻辑联系,“新来源观”的产生就是来源原则与事由原则的有机结合,就是历史联系与逻辑联系的兼顾考虑。大数据时代,档案数据的载体、格式等维护着档案的历史联系,通过大数据思维与技术挖掘出的档案数据价值维护着档案的逻辑联系。档案数据作为档案,需要考虑档案间的历史联系;档案数据作为数据,需要挖掘数据间的逻辑联系。因此,对于档案数据的整理还是需要秉持历史联系与逻辑联系统一的理念。
3.2 大数据背景下档案整理尺度变化
传统的档案整理工作主要包括了全宗內档案的分类、立卷、案卷的排列和目录编制等。立卷改革之后,又提出“卷”改“件”的概念,传统档案整理的尺度从“卷”到“件”,逐步细化。大数据时代,档案内容从档案载体中抽离出来,档案数据碎片化、非结构化等的特点使得“卷”和“件”难以成为整理的衡量尺度,我们只能以一条条独立的档案数据为单位,进行数据信息的挖掘整理。档案数据整理尺度的缩小使得“卷”“件”等组织形式难以适用,甚至连全宗这一概念也受到了大数据的冲击。全宗的本质是维护档案间的历史联系,而大数据时代基于数据挖掘技术,则对档案间的逻辑联系提出了更高的要求。全宗的分类模式是一种自上而下的单线型分类模式,“除个别情况外,同一全宗的档案不能分散,不同全宗的档案不能混杂[12]”,这一特性使得其对于大数据背景下的多元对应关系难以适应。大数据时代大量的数据呈现出半结构化、非结构化的特点,档案数据在整理时对组织形式的要求越来越低,全宗这一严谨系统的文件组织形式反而不利于数据关系的挖掘。因此,大数据背景下的档案整理需要重新确立档案整理理念,改变档案组织形式,构建新的档案整理模式。新的档案整理模式是历史联系与逻辑联系的兼顾,也是档案管理与数据管理的接洽。
4 档案保存模式的转变
大数据背景下,时间跨度大、来源广泛的海量档案数据对传统的档案保存方式发起了挑战。首先,档案数据的容量大,庞大的体积对存储空间提出了要求。考虑到载体损坏、技术过时等问题,我们需要对档案载体、存储介质等进行重新选择。同时,档案数据不断积累,对有些需要长期保存的档案数据如何实现数据的原位更新、保证数据的长期有效性也是需要攻克的技术难题。其次,档案数据具有多元异构的特点。来自不同部门、不同渠道、不同平台的数据结构复杂,数据格式不一样,处理方式不同,可能存在不兼容的情况。大量非结构化、分布式的档案数据同样对存储空间有很大的要求,同时如何将这些杂乱无章的数据进行统一的存储管理也需要相关技术的支持。最后,档案数据存储的安全性问题也需要考虑。面对海量的档案数据,在存储时可能存在系统崩溃,数据丢失等问题。如何保障档案数据的安全存储,在数据丢失之后是否有办法恢复等,这些问题都对技术的应用和改进提出了要求。
4.1 从本地存储到云存储
档案数据来源广泛、数量庞大,依照原有的U盘、光盘、硬盘等介质进行存储的方式无法进行海量存储,对不同格式的档案数据也难以实现统一的存储。同时,面对海量的档案数据,空间和基础设备的限制也使得本地存储变得非常困难。因此大数据背景下的档案数据存储应该由本地存储向着云存储转变。云存储可以通过无限地扩容,解决存储空间不足的问题。在云存储环境下,如果存储容量不足,服务商可以通过购买新服务器的方式实现容量的扩充。同时,基于虚拟化技术,用户本人也可以对存储空间进行自主调整。云存储技术通过虚拟化技术可以实现存储空间的随意扩充,其成本控制在初期投入上而不需要进行持续性的投入,节约存储成本。除此以外,云存储不具有对基础设备的依赖性,云存储通过大量的、对等的分布式节点来满足海量数据的存储需求,如果一个节点出现故障也不会影响整个系统的使用,当故障节点恢复后,又可以继续扩展成新的节点使用。因此,云存储的引入可以解决本地存储空间不足、需要耗费大量的人力物力维护存储设备等问题。
4.2 从可信数字仓储建设到可信区块链建设
电子文件的产生使得原有的纸质文件保存方式不能满足数字时代的需求,海量的档案信息促成了数字仓储的出现。“数字仓储是在网络环境下提供对数字对象保存、访问和管理的系统[13]”,它可以存放大量的数字档案资源。而档案的真实可信性一直是档案保存中一个重要的议题,只有将数字仓储转换为可信数字仓储,才能保证数字档案资源存储的安全性。数字仓储需要通过认证的方式来赢得信任,“既要赢得数字资源提供方的信任,以便赢得存放数字资源的机会;又要赢得使用者对仓储的信任,从而让仓储内保存的数字资源被认可[14]”。这就对相关认证标准的建立和第三方认证机构的选择有很高的要求。而大数据背景下,借助区块链技术,可以在档案数据的真实可信性维护方面实现新的突破。区块链是“利用块链式数据结构来验证与存储数据、利用分布式节点共识算法来生成和更新数据、利用密码学的方式保证数据传输和访问的安全、利用由自动化脚木代码组成的智能合约来编程和操作数据的一种全新的分布式基础架构与计算范式[15]”。区块链具有去中心化的特点,区块链中的各个节点都是对等的,任何数据的修改、存储都需要经过其他节点的认证,整个系统中不存在中心处理节点,任何一个节点的损坏也不影响整个系统的运行。这一特点实现了信任机制的突破,使得档案数据的真实可信性验证不再需要依靠第三方机构认证的方式,而可以直接由区块链技术来实现。目前将区块链运用于档案数据真实可信性维护方面已有部分实例。例如,英国的ARCHANGEL项目通过构建对等网络,建立共识机制,应用非对称加密,来创建一个用于保障公共档案馆数字文件完整性的分布式架构[16];中国石化通过档案系统与区块链平台的集成来实现电子档案的真实性验证[17]。
大数据背景下档案数据容量大、格式杂等特点使得原有的存储方式难以满足档案数据的存储。因此,在大数据技术的支持下,档案保存模式要从本地存储向着云存储转变,从可信数字仓储建设向着可信区块链建设转变。
参考文献
[1]胡小明.从政府信息公开到政府数据开放[J].电子政务,2015(1):67-72.
[2]国家档案局.国家档案局印发《全国档案事业发展“十三五”规划纲要》[EB/OL].(2016-04-07)[2019-12-20].http://www.saac.gov.cn/daj/xxgk/201604/4596bddd364641129d7c878a80d0f800.shtml.
[3]国家档案局.中办国办印发《“十四五”全国档案事业发展规划》[EB/OL].(2021-06-09)[2023-1-30].https://www.saac.gov.cn/daj/toutiao/202106/ecca2de5bce44a0eb55c890762868683.shtml.
[4]于英香.档案大数据研究热的冷思考[J].档案学通讯,2015(02):4-8.
[5]刘永,庞宇飞.档案数据化之原生数据源全链式管理分析[J].档案管理,2018(05):11-18.
[6]钱毅.技术变迁环境下档案对象管理空间演化初探[J].档案学通讯,2018(02):10-14.
[7]赵勇,林辉,沈寓实.大数据革命——理论、模式与技术创新[M].北京:电子工业出版社,2014:92
[8]刘珂.人工智能在档案管理中的应用探析[J].兰台世界,2019(02):19-23+12.
[9]刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007(10):26-29+47.
[10]唐霜.信息化环境下档案整理理论研究[D].南昌:南昌大学,2015:31.
[11]崔杰,王福亮.新技术下档案整理历史原则的发展[J].浙江档案,2008(5).
[12]陈兆,和宝荣,王英玮.档案管理学基础[M].北京:中国人民大学出版社,2005:100.
[13]董秋生,黄文.数字仓储及其应用[J].中华医学图书情报杂志,2008(03):60-63.
[14]楊璐.可信数字仓储认证:必要性、标准与主体[J].北京档案,2014(05):19-22.
[15]刘越男.区块链技术在文件档案管理中的应用初探[J].浙江档案,2018(05):7-11.
[16]杨茜茜.基于区块链技术的电子档案信任管理模式探析:英国ARCHANGEL项目的启示[J].档案学研究,2019(3):135-140.
[17]档案那些事儿.中国石化如何基于区块链技术实现电子档案的真实性验证[EB/OL].(2019-07-22)[2020-3-20].https://www.sohu.com/a/328429168_734807.
作者简介:顾睿涵,上海市疾病预防控制中心助理馆员。