摘 要:档案馆拥有海量馆藏档案资源,加快推进数字档案馆建设是构建数据强国、实施国家大数据战略的重要内容。本文从数字档案收集、存储和管理方面,深入分析了大数据在数字档案馆中的具体应用,并分析了大数据在数字档案馆建设中面临的档案资源建设、档案安全保密、档案标准规范和档案人才队伍方面的现实挑战,有针对性地提出了应对这些挑战的具体举措,具有积极的现实指导意义和参考价值。
关键词:大数据;数字档案馆;挑战;数据库
概述
2015年,十八届五中全会首次提出“国家大数据战略”,在全球数字融合背景下,数据资源已成为国家战略性资源。在《“十四五”全国档案事业发展规划》中,先后三次提到“大数据”,即“推动档案全面纳入国家大数据战略”“加强大数据、人工智能等新一代信息技术在数字档案馆(室)建设中的应用”“开展大数据环境中电子文件与电子档案一体化”。此外,还明确提出“加速数字档案馆(室内)建设”。2010年,国家档案局颁布了《数字档案馆建设指南》,详细规定了数字档案馆建设目标、内容和步骤。这些规定和要求,进一步明确了新时代数字档案馆建设、管理及理论研究的重点,为新时代数字档案馆工作指明了方向。
1 大数据在数字档案馆中的应用
大数据(Big Data)包括了各种来源的非结构化数据或结构化数据。大数据技术主要应用于数字档案馆建设中的数字档案收集、存储和检索利用等。《数字档案馆建设指南》明确了数字档案馆总体建设的主要内容,提出要运用现代信息技术对数字档案信息进行“采集、加工、存储、管理”,使建立的数字管理系统要具备“收集、管理、存储、利用”等功能要求。具体到大数据在数字档案馆中的应用,主要体现在收集、存储和检索领域。
1.1 数字档案的收集
收集,就是数字档案馆接收、征集数字档案和其他有关数字文献活动。即,按照国家规定收存数字档案、征收散存、散失数字档案和其他数字文献。包括:(1)系统推送。办公OA系统、局域网数字档案管理系统、电子档案长久保存系统等中大数据应用,主动推送各种归档数字档案信息。大数据应用于系统推送,由归档者录入信息、信息在线归档及接收数字档案归档流程构成。系统推送实现业务办理与档案收集无缝衔接,需要归档人员与档案管理双方共同协作完成。(2)数据库导出与导入[1]。即存放数字档案的仓库。利用数据库技术,按照标准格式将数字信息从MySQL、Oracle、SQLServer等各个应用系统数据库中导出,然后再导入档案管理数据库。利用ODBC数据源、Excel中间介质或专门数据库接口程序,实现数据库中数字信息导入导出。(3)RSS信息订制。RSS是一种描述和同步网站内容格式[2],将具有保存价值的档案数据编辑成XML文件形式,将其整理成RSS数据包,再利用RSS阅读器生成检索目录,与数字档案馆中的数字档案资源同步更新。(4)网络爬虫。作为专用程序,分为通用网络爬虫、主题网络爬虫、专用网络爬虫类型[3],网络爬虫技术可以在海量互联网信息中爬取、收集数字档案信息。欧美等国家数字档案馆应用Heritrix(專门用于档案收集)、Wget(后台运行)、Teleportp(互联网环境)等网络爬虫技术,做好数字档案的收集。
1.2 数字档案的存储
数字档案收集完成,还需要按照一定顺序排放,并形成定位数据,即数字档案存储。目前,数字档案存储分为直接存储和网络存储。其中,直接存储就是利用光盘、磁带、硬磁盘、磁带库技术、光盘塔技术存储数字档案,是数字档案馆主要数据存储技术[4]。网络存储技术包括DAS(直接附加存储)、NAS(网络附加存储)、SAN(存储区域网络)、iSCSI(小型计算机系统接口)。其中,直接存储具有成本小、共享度差、信息读取效率低,易因介质损坏导致数字档案丢失等特点。而网络存储则具有存储性能高、扩容升级易管理、容灾性强、成本低,但也面临非传统安全因素威胁。在数字档案馆建设中,数字存储系统应用有Hadoop云平台、HBase数据工厂、Hive数据仓库等。(1)Hadoop云平台。由HDFS、MapReduce、HBase三大核心技术组成[5]。其中HDFS采用主/从结构,是Hadoop分布式文件系统,也是Hadoop云平台数字档案存储与访问基础。MapReduce是Hadoop编程框架,保障数字档案存储过程中数字档案传输、分析和处理。HBase是Hadoop云平台数据库,只能存储文件类型数据。(2)HBase数据工厂。HBase是分布式、高性能、面向列、可伸缩的开源数据库。能够用以存储非结构化、半结构化松散数据。以存储电子图片档案为例,先将电子图片转换为Base64编码,服务器接到存储请求时系统会调用元数据解析器获取电子图片元数据,利用Base64编码器将二进制图片文件编码成Base64格式,存储至HBase数据库,访问时则反向操作,从HBase数据库中读取Base64编码,利用解码器将其还原成二进制形式(见图1)。
(3)Hive数据仓库。Hive是基于Hadoop平台上的数据仓库[6]。通过Hive工具将数据提取、转换、加载,并将hadoop集群中的数据映射成数据库表,利用类SQL语言进行数据存储、分析,具有良好的扩展性。与RDBMS数据库相比,其存储数据规模大,运用HQL查询语句,数据存储于HDFS,执行延迟高。
1.3 数字档案的管理
这里的管理主要是指信息挖掘和检索,涉及管理利用两个方面。其中,信息挖掘是指将大数据技术应用于各种数据对象间的内在特征分析,并在此基础上有目的的信息提取。数字档案馆建设中常用的信息挖掘技术有Mahout、MapReduce等。其中Mahout是ASF旗下的开源项目,包括数字信息聚类、分类、推荐过滤、频繁子项挖掘等。运用Mahout技术,可智能分析数字档案借阅及关联分析,分析预测档案者喜好,有针对性地推荐数字档案信息。MapReduce作为编程模型,基于MapReduce技术应用,通过档案数据库信息抓取、档案业务解析、索引,实现数字档案查询(见图2[7])。此外,还包括Solr全文检索引擎、ORC技术检索,实现数字档案馆全文内容检索。
2 大数据在数字档案馆中的挑战
数字档案馆是建立在现代信息技术普遍应用基础上,利用数字化手段,以综合档案信息资源为处理核心[8]。大数据技术应用于数字档案馆中的数字档案收集、存储、信息挖掘和检索等,是对传统档案馆档案管理的系统重构,在此过程中,对档案资源建设、档案安全保密、档案标准规范及档案人才队伍均提出全新挑战。
2.1 档案资源建设
大数据技术应用于数字档案馆,无论是档案资源存储、内容结构及检索利用都发生了深刻变化,也对其产生了新挑战。从档案资源内容结构来看,由传统的纸质等介质的档案以及存储于计算机中的二进制档案信息,逐步转变为数字档案,主要为结构化、半结构化和非结构化,档案内容信息更为松散,也会产生大量冗余档案信息,做好数字档案信息筛选,并及时归档。档案管理系统与其他业务应用系统无缝衔接,实现电子文件元数据的自动形成、捕获和归档,对数字档案分类、鉴定、系统整理以及目录数据库条目建设提出更高要求,既要剔除冗余电子信息,又要建立半结构化、非结构化电子档案内在联系。
2.2 档案安全保密
大数据技术应用于数字档案馆建设,使数字档案存储环境发生了巨大变化,也使数字档案面临诸多非传统安全因素威胁,主要表现在数字档案信息安全、非传统存储载体安全、数字档案馆系统安全以及档案检索利用安全等。如数字档案应用系统参数设置不当而导致无法访问、数据不兼容无法存储、电源断电、强磁场、温湿度过高等灾变应对不足,网络病毒、黑客攻击、非法访问、篡改、删除电子档案信息等等因素,都是数字档案安全保密的隐患和挑战。
2.3 档案标准规范
标准规范是数字档案馆建设的重要保障。大数据应用于数字档案馆建设,对标准规范的要求更高。随着信息技术的发展,尤其是大数据技术的快速发展,日新月异,要求标准规范适时更新,始终要保持数字档案结构、标准、内容的一致性以及数字档案管理系统之间的兼容性。档案标准规范修订完善的滞后性,影响数字档案资源描述、标识、传输、检索和利用,也是构成数字档案馆建设的挑战之一。
2.4 档案人才队伍
数字档案馆建设是一项专业性、技术性很强的工作,既要具备档案情报专业知识,又要掌握一定的档案馆理论知识,还要具备很高的数字信息素养。当前,基层档案馆建设人才队伍信息化素养相对薄弱,数字视野不够开阔,数字信息业务知识储备不足,大数据实践应用经验不足,这些都是制约大数据在数字档案馆建设中应用的挑战之一。
3 大数据在数字档案馆中的应用对策
3.1 档案资源建设
数字档案馆档案资源安全保密是整个安全保密的核心。一方面,要严格按照最新的标准、规范做好新增电子档案的接收、存储、录入、挂接和开放利用。另一方面,要做好存量档案的分类、鉴定、系统整理,做好数字档案索引与目录数据库条目相对应,构建全文数据库。并实时做好数据库系统的优化升级,为档案资源营造安全存储环境。此外,還要选用适宜的大数据技术,建立具体的专题档案数据库,保障专题档案存储需要。按照“突出重点、分布实施”的方针,持续做好馆藏档案资源的数字化。要从数字档案采集、接收、传输、存储和管理利用等全过程的规范管理,确保档案数字化前、中、后的全链条符合标准要求。
3.2 档案安全保密
要从人防、物防、技防方面全面做好数字档案信息、载体及网络安全保密,织密织牢数字档案馆安全保护网。数字档案馆管理人员要树牢安全保密意识,严格执行《档案法》《档案法实施条例》《保密法》等法律法规以及数字档案馆安全管理规章制度。要从物理环境与数字档案信息本身做好内容安全保密。档案馆建设要按照“八防”标准,控制温度湿度以及磁场等传统安全因素威胁。重点要运用先进技术,保障数字档案馆安全保密。例如,运用网络隔离、数据隔离等隔离技术、防火墙技术、防病毒技术,还要引入数字加密技术、数字签名技术以及区块链、时间戳等技术,做好计算机日志和文档管理。制定完善的数字档案馆安全保密制度,并抓好制度的贯彻落实。
3.3 档案标准规范
数字技术发展日新月异,档案标准规范也要常态化做好立改废,为大数据技术应用于数字档案馆建设提供可靠保障。首先是立。《档案法》《档案法实施条例》颁布实施后,数字档案馆档案公布、开放、利用等领域发生了新的变化,要持续做好新的国家标准、行业标准规范的制定,指导数字档案馆数字档案业务规范开展。其次是改。围绕档案目录数据库、档案全文数据库、档案声像数据库、档案图片数据等业务,及时把规章制度中的不符合《档案法》《档案法实施条例》以及最新标准规范的内容予以修订,确保标准规范一致性,增强标准规范的可执行性。如根据档案数字化新标准和要求,国家相继出台了《纸质档案抢救与修复规范》第1、2、3、4部分。再次是废。就是把已经过时的标准规范,该废止的及时废止,为新的标准规范制定、修订扫清障碍。如《档案交接文据格式》《缩微摄影技术用35mm卷片拍摄技术图样和技术文件的规定》等,随着信息技术的发展,这些技术和标准格式已经滞后,及时废止,停止实施。最后,要确保立改废的常态化。标准规范的立改废是一项常规性工作,要始终围绕数字档案馆建设领域技术、形势变化,实时进行。
3.4 档案人才队伍
档案人才队伍是大数据应用于数字档案馆建设的具体执行者。因此,打造一支高素质、复合型人才队伍至关重要。首先,要具备良好的思想素质,尤其是信息素养、信息思维。此外,还要具备良好的敬业精神和职业素养。其次,要具备过硬的业务素质。要善于学习,既要掌握档案理论专业知识,又要掌握一定的大数据技术以及数字档案馆日常维护管理技能,熟练运用大数据技术。再次,要具备熟练处理信息的能力。要围绕数字档案馆建设中的档案信息收集、存储、管理及利用等,掌握全链条信息处理技能,为数字档案馆建设提供可靠的人才支持和保障。
参考文献
[1]杨文刚,韩海涛.数字档案馆中的大数据应用技术研究[J]云南档案,2015(2):57-59.
[2]王萍,张卫东,李丹.RSS技术在数字档案馆中的应用研究[J]情报科学,2008(3):422-426.
[3]刘晓瑛.校园网环境下档案数据的自动收集技术研究[J]西安文理学院学报(社会科学版),2021(3):101-105.
[4]米彪.档案信息数字化存储载体与存储方式选择探讨[J]办公室业务,2013(11):132-133.
[5]徐娟,张杰.基于Hadoop云平台的高校档案馆数字资源存储研究[J]兰台世界,2019(1):53-56.
[6]陈新房,刘义卿.分布式系统数据仓库工具Hive的工作原理及应用[J]科学技术创新,2021(36):104-107.
[7]刘亚静.基于MapReduce的档案信息数据库快速检索系统设计[J]电子设计工程,2020(13):45-49.
[8]王建华.当前基层科研院所数字档案馆建设面临的挑战[J]机电兵船档案,2019(3):66-69.
作者简介:徐霞(1981.12—),女,大学学历,济南护理职业学院馆员,研究方向:档案管理。