我国电子档案存储与备份研究评述

2024-05-03 09:43丁海斌杨昱
档案管理 2024年1期
关键词:备份课题文献

丁海斌 杨昱

关键词:电子档案;档案存储;档案备份;质性分析;光盘;云计算;区块链;标准规范

近年来,随着信息化技术的不断发展,档案工作面临着革命性的挑战与机遇,具体体现在档案的生成、存储、传递、利用与开发等各个方面。正如《“十四五”全国档案事业发展规划》中指出的:“新一代信息技术广泛应用,档案工作环境、对象、内容发生巨大变化,迫切要求创新档案工作理念、方法、模式,加快全面数字转型和智能升级。”[1]其中,海量电子档案的生成及档案安全的需要,给档案的存储和备份工作带来了极大的挑战。目前,我国对电子档案的存储与备份这一课题已进行了二十多年的研究工作,特别是近几年来,形成了较大的研究规模,取得了丰硕的成果。但学界忽视了对相关研究成果的总结与反思,使得针对目前的成果,尚未有文章进行系统的总结,缺乏对不足的反思和对未来研究的展望。

本文将基于已形成的相关文献从文献计量学的角度切入,通过文献计量软件对当前相关文献进行较系统的定量分析,并加以定性分析,梳理目前学界对电子档案存储与备份这一课题的研究脉络,并总结目前取得的主要研究成果和尚存的不足。

1 研究要素的计量分析

1.1 数据来源与研究方法。本文的数据来源为CNKI数据库,在检索过程中以“档案+存储+备份”作为主题词进行高级检索,时间限制为1998年1月1日至2023年4月1日。经过筛选,共得到1968篇主题文献。

本文在这里主要采用文献计量学的方法,通过CNKI数据库可视化分析总结发文年份,同时对关键词进行关键词共现、关键词突现,时间共现和作者共现以及知识图谱分析,揭示国内档案存储与备份的研究现状和研究热点问题。

1.2 我国档案存储与备份研究现状的多角度分析

1.2.1 发文时间分布。基于CNKI检索可获得有关档案存储和备份这一课题的发文量情况。从总体上来看,呈现出先上升后下降的趋势。学界对这一问题的研究自1998年开始,到2008年相关文献量呈缓慢上升的趋势;而2008年至2014年发文量则增长迅速;2015年至2017年相关文献发文量虽呈下降趋势,但总体上一直保持着较高的数值;2017年至今相关文献的发文量下降趋势显著。对此,可以关注到几个关键的时间节点:

第一阶段是该课题研究的开始时间,即1998年。1998年全德敏在《四川档案》上发表的《浅谈计算机档案文件的保存》一文[2],是目前在CNKI数据库中检索到的关键词为“档案、存储、备份”的最早的文献,其主要介绍了对计算机软盘和计算机硬盘中存储的档案文件如何进行载体和数据的保存。由此可以看出,对于档案存储与备份这一问题的研究之初,主要是从载体介质上切入的,这个时间节点发生在我国档案信息化的初期,符合我国档案工作信息化发展的需要。

第二阶段是2008年至2014年,这一时期关于电子档案存储与备份这一问题的研究文献数量快速增长,主要有自然灾害频发、电子档案快速增长、电子信息安全广泛关注等三个原因。[3,4]

第三阶段是2015年至2017年,该问题的讨论热度虽然仍处于高位运行,但疲态已现,热点不再,进入下降通道。根据对相关文献的研究,笔者认为有成果应用初现成效、云计算等技术应用初探、研究范围扩大等三个原因。[5,6]而2015年到2017年国内新研究热点的出现,很明显借鉴了国外的相关研究。

第四阶段是2017年至今。档案存储与备份这一主题的文献发文量明显下降。根据文献老化规律,该主体发文量的下降有技术已经逐渐成熟、研究逐渐被包含在其他的课题之中、研究进入瓶颈时期等三个主要原因。[7,8]

1.2.2 关键词分布。通过对关键词的共现分析,得到关键词的词频以及中心性。研究发现,与档案存储与备份相关性最强的两个关键词为“档案管理”和“电子档案”,分别出现了197次与162次。这说明“档案存储与备份”这一主题主要是在“档案管理”和“电子档案”范畴内进行研究的,其实质是“电子档案”的问题,特别是档案管理中的档案信息的安全性和可靠性问题。

次高频词有“电子文件”“数字档案”“档案”“异地备份”“数字化”“档案数据”“大数据”“管理”“信息化”“云存储”“云计算”等等,次高频词共献有交叉性和多元性[9,10]、热词性、关联性等三个特点。

在交叉性和多元性方面,缺乏统一名词、用语多元、交叉混乱恰恰是事物新生阶段的特有现象,说明了人们正试图在事物多变的表象中,慢慢靠近事物的本质。而“电子时代下新生的档案”也是这个道理。

在热词性方面,出现了现阶段热門的研究领域相关的词语。例如“云计算”“云存储”等,这也成为研究档案存储与备份这一课题的新热点,体现出伴随着计算机领域中“云”的兴起和发展,“档案”与“云”的结合成为必然,“云计算”已经渗透到档案工作中来,“档案云”的研究迫在眉睫。[11 ]

在关联性方面,多个关键词之间均有十分密切的联系。在关键词聚类中,两个主题在同一篇文献中出现的次数越多,则两个关键词之间的距离越近,按照高频词之间的距离远近划分为不同的研究子领域,形成了一个一个的类团。[12]通过分析可以发现,各个关键词之间交织十分密集,这说明在该领域下目前研究处于一个学科之间相互交融、技术之间相互共享、资源之间相互穿插的过程。

通过突现词检测,可以分析出有关档案存储与备份这一主题的研究热点和关注侧重点。以2015年为时间节点,在2015年之前存储方式和备份手段是该领域研究的重心,这一时段侧重强调档案存储与备份的技术指导;而2015年之后,“大数据”“数字化”“数据安全”“数据管理”等词的突现,表明了在此之后,在大数据背景下生成的海量电子档案数据的安全性已成为档案存储与备份过程中攻克的重点和难点。王善柏在《档案数字资源长期存储介质》一文中谈道:“数字档案安全面临着人为因素和载体本身因素两方面风险。”[13]其中“存储载体”“信息系统”体现了载体与管理系统的要素,或者说技术层面的安全性研究;而“管理模式”“策略”则体现了人为因素方面的安全性研究。同时正如王平、安亚翔在《大数据时代的档案信息平台建设》一文中所说:“档案信息化管理正在进入大数据时代。如何应对大数据时代对海量档案信息收、存、管、用的需求,实现对档案大数据的长期保存和高效利用是一个重要的课题。”[14]在这一时期,关于档案存储与备份的研究整体滑向如何对海量电子档案数据收集、存储、管理和利用。

分析发现大多数关键词的产生相对聚集且时间较为靠前,例如“信息安全”“异地备份”“档案管理”等,均在2012年之前产生,而“存储技术”“数字资源”“安全风险”“功能建模”等词则出现时间较晚,这表明在该课题的研究过程中,研究的重心逐渐从体量较大的课题逐步过渡到体量较小的课题,从较表面的问题向较深入、具体、功能性强的问题过渡。同时,也可以发现,早期词汇的出现十分密集,而伴随着时间的增长,新词汇出现的概率相对减少。这一方面表示档案存储与备份这一主题的研究已相对成熟,并已经形成了特定的术语团和研究范式;同时,新的相关术语出现减少,也说明该问题的研究目前发展到了一个瓶颈,需要着手寻找新的突破点。

结合三方面的总结,对于我国档案存储与备份关键词的分析,基本可以寻觅到此前的研究热点、研究视角和发展走向,并呈现出热点聚集性、视角与词汇多元性、方向固定性等特点。

1.2.3 作者分布情况。作者分布情况和高频作者群体分析也是信息分布和信息评价研究的重要指标,对作者分布可视化研究可以概括出该课题目前的研究深度与广度且具有三个明显的特点。

一是这一课题下涉及的发文作者十分广泛,但作者与作者之间关联性较低,没有形成大的聚合群体,且多数作者对相关问题的研究的追踪性较差,没有形成系统性研究。导致这一情况的主要原因是档案存储与备份这一课题的跨学科性较强,且不同的学科领域对该问题的分析角度和研究侧重点不同。例如在档案学视角下,档案存储与备份研究的侧重点多为“电子档案管理策略”“管理体系构建”“可行性方案”等,偏向于从总体的角度研究管理策略;而在计算机科学的视角下,则更多是从微观角度研究数据库具体运营的算法、备份技术等问题。这一问题的研究,究其根本是用档案学的管理理论来不断追踪计算机科学在数据存储过程中的新问题和新方案。而二者都精通的学者或研究团队目前数量相对较少,所以尚未形成规模较大的聚合群体和追踪性较强的研究项目。

二是绝大多数作者的发文量在2篇以下,相关文献发文没有形成高产作者群,只有少数作者在该领域贡献较明显。这与多数作者的来源机构相关,除部分高校学者外,该领域文献作者的所属机构多为具体的业务机构、行政部门以及企业相关部门。不同的单位来源导致作者們工作内容有一定的屏障,问题的聚焦更偏重于特定情况,这类文章相对来讲很难做到持续发文。除此之外,分散在各个单位的档案工作人员和技术人员,投入在文献写作上的精力也十分有限。

三是涉及的投稿期刊十分广泛,主要包括档案学相关刊物、计算机科学相关刊物,而这些刊物的影响因子大小差异较大。在对该课题文献的来源分析过程中发现,绝大多数是核心期刊偏向于档案学方面的期刊,例如档案学通讯、北京档案、档案与建设等。计算机科学方面的刊物则涉及面很广,但影响因子相对较低。这与课题本身的命名和侧重点有很大关系。此外,还有许多文献为硕士论文和博士论文,这也说明了越来越多的青年学者在关注这一命题。

2 基本成果及研究不足

2.1 取得的基本成果概述。基于对已有文献的分析,笔者认为目前学界对电子档案存储与备份问题已取得了较多成果。

一是提出了不断总结目前电子档案存储备份的方式方法:不同的学者通过比较冷备份、温备份和热备份的特点,从而分析总结不同的应用场景对不同档案备份方式的选择;除此之外,相关文献也对于备份工作的步骤流程进行了概括与总结。在电子档案存储备份方式上,异地异质档案备份这一问题形成了研究热点。[15-22]二是积极探索了电子档案存储与备份的技术手段:从脱机备份研究到云服务器信息共享与备份,从传统硬盘到如今使用的高性能蓝光光盘等。[23-26]但作为一种存储的外存载体,蓝光光盘的磨损和存储年限、数据迁移的速度和接触设备问题、库房空间预算和具体各单位使用蓝光光盘的成本预算等问题,都需要进一步讨论。对集成电子档案数据载体讨论,笔者对相关文献进行了筛选和比较,发现学者对集成电子档案数据的存储与备份问题研究的焦点主要集中在两个领域——区块链技术的应用和云技术的运用。

二者的发文数量都较多,并都得出了相应的成果。如何将区块链技术与电子档案存储的真实需求更紧密地匹配、解决区块链技术在电子档案管理与存在中适用性问题,仍是该课题研究的重中之重。除了区块链技术的应用研究,云技术在电子档案存储与备份中的应用也广受学者关注。[27-29]如何将云技术与电子档案存储备份问题具体落实在业务工作和现实档案管理工作中,是我们进一步研究该问题的思路。现已有大量相关文献对电子档案存储与备份的手段进行了介绍。同时发现了电子档案存储与备份的一系列关键问题。现有文献中已有大量文献对电子档案存储与备份中存在的安全问题、存储容量问题,以及电子档案存储与备份等内容进行了分析并取得了相应的成果。

三是对目前已出台的电子档案存储与备份规范与标准进行了讨论,并通过解读和分析,提出了相关意见和建议。[30,31]对新出台的《电子档案管理系统通用功能要求》(GB/T 39784—2021),目前学界的相关研究和解读较少,有待学者进一步分析和解读。

2.2 研究的不足和研究的方向。基于对研究现状的考察,笔者认为仍有一些不足需要改进。

一是目前的研究还没有完全解决电子档案存储与备份这一研究的主要矛盾,即如何建立档案信息安全与信息高效管理与利用之间的联系。在今后的研究中,我们应该更多地从档案管理者和档案利用者的角度出发,从存储与管理、利用的关系出发,认真思考“什么样的存储方式与备份方式能最大程度地使管理者和利用者受益”或者“什么样的存储备份方式能最大程度地满足管理者和利用者的双重需求”。

二是电子档案存储与备份研究应该进一步与实践相结合,对实践中出现的具体问题进行更多的针对性研究。例如在具体的业务工作中,电子档案备份过程中的水印备份问题;异地备份中的数据传输安全隔离和应急处理;云环境下电子档案备份的逻辑路径研究等。对于电子档案存储与备份这一课题,我们的研究不能仅仅进行单薄的理论论述,更应该扎根实践,尤其是将研究的重点聚焦于目前技术先进、实践能力强的企业和单位,从具体的实践中不断获取灵感和研究思路,再进一步完善理论。同时研究过程中要更加重视理论与技术的结合,多使用实践数据,用数据支撑理论,用数据说话,这样才能真正地去解决实践中存在的问题。

三是电子档案存储与备份问题的研究仍需要不断细化和深入。档案界的学术研究普遍缺乏“问到底”精神,作为一种应用性学科,却普遍缺乏深入实践、实事求是的学术态度。这一点在本问题上亦有表现,目前对本问题的研究仍然较为空泛,从关键词中我们可以看出现阶段的研究存在着针对性不足、实证研究不深入的缺点。例如电子档案存储与备份在设备选择、管理模式现状上的实证性的成本分析、耐用性对比、自动存储过程中的智能设备介入、备份过程中的智能化数据监测。真正隐藏在社会实践活动第一线中的针对性问题仍需要我们去深度关注,切实解决。

四是电子档案存储与备份问题的研究应对接新技术的发展。该问题探讨的重难点是在档案存储与备份的过程中如何对新技术进行配对与应用,这包括以下具体环节:第一,选择和构建什么样的数据库结构才能更好地满足对档案原文和元数据装载的同时兼容不同的系统和安装环境;第二,选择什么样的信道和系统环境才能满足海量数据的流畅传输和阅读;第三,如何更好地处理档案存储格式问题,如非结构化数据的存储问题以及移动过程中的格式兼容问题;第四,选择什么样的技术手段可以更好地对备份数据进行数据溯源和风险监测以及如何与主服务器构建风险预警;第五,选择什么样的技术能更好地解决电子档案热备份中宕机等数据安全隐患问题。就目前而言,计算机领域的相关技术已经较为成熟,所以上述问题的关键在于档案工作者提出什么样的备份需求,以及如何寻找相关的技术支持。

五是相关标准、规范的制订与完善方面,目前尚有不足。第一是对已有的相关政策法规解读仍不充分。例如,如何理解“异质备份”这个概念,是物理介质的不同,还是不同的版式格式?以前对“异质备份”的认识尚停留在传统纸质档案和电子档案的区分,而目前单轨制运行下是否要对“异质”进行新的界定?第二是对现存实际问题仍没有归纳上升到政策法律的层次。例如,档案系统的开发方对系统尚存的风险的责任归属问题;或是档案外包工作的格式管理规范和行业标准的制定问题等。相关问题尚需在实践过程中进一步发现和处理。

六是該问题的研究本身没有形成一个完整的专题研究,课题的后续追踪性也相对较差。究其原因是档案学学者和技术人员直接的交流密切程度不够。这需要档案学学者与相关技术人员深度交流并保持长期合作,并不断关注和追踪实践过程中的新问题,进而推动理论研究,并继续指导新的实践。随着大数据时代的到来,档案存储与备份过程中已出现了诸多尚未解决的问题。例如,如何实现备份数据零丢失,数据传输灵活安全;不同网络环境下的多接口和多类型数据备份;档案数据共享与保密的更好结合;数据后台如何合理分区保障数据安全等。这些问题随着海量数据的不断生成和数字化办公而亟待解决。这就要求相关学者对这一系列问题进行更深入的研究,以满足现实生产生活的需要。

3 结语

事物总是以螺旋式的状态不断上升和发展的,而就目前来看,档案存储与备份这一研究课题从产生到发展,符合事物发展的总体规律。通过对相关文献的分析,可以总结并提出以下几点建议:一是加强学科之间的相互交融,尤其是加强档案管理理论研究领域与技术领域、实操领域之间的联系。在研究问题的过程中,切实深入到具体的实践过程中去,深入地结合当前最新的信息技术解决档案工作的实践问题。二是在研究问题过程中进一步加强专业特色,不论是原理阐释还是技能阐释,都应该更多地体现本领域的研究特色,我们不排斥移植和借鉴,但它们一定要服从档案工作的实践。三是研究要着眼未来,要有前瞻性,不能只是跟在实践身后跑,要在不脱离现实的前提下,适当引领实践。既要对相关法律法规和政策行业规范进行更深入的解读,又要密切关注最新的技术发展,使档案事业健康、积极地发展,跟上社会发展的步伐,不拖时代发展的后腿。

(作者单位:1.广西民族大学管理学院、广西数字档案管理研究所 丁海斌,博士,教授,博士生导师;2.广西民族大学管理学院 杨昱,硕士研究生 来稿日期:2023-09-06)

猜你喜欢
备份课题文献
“备份”25年:邓清明圆梦
Hostile takeovers in China and Japan
党的建设的永恒课题
创建vSphere 备份任务
第一次写课题
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
The Role and Significant of Professional Ethics in Accounting and Auditing
“十三五”医改的新课题
旧瓶装新酒天宫二号从备份变实验室