罗丹 黄夏基
摘要:目的 通过对国外档案数据研究的分析,了解国外相关研究的现状,根据研究热点的变化,在一定程度上推测国外今后的研究方向。方法 选取Web of Science作为数据来源,对国外关于档案数据2013—2023年的文献通过可视化软件CiteSpace从年代分布、期刊、重要作者、研究热点等方面进行统计分析。结果 国外对于档案数据的研究一直处于较高的水准,以如何将档案数据应用于社会科学领域、自然科学领域和档案学领域为主。结论 国外未来的研究趋势应是探索长期保存档案数字资源的方法以及加大档案数据研究的深度。
关键词:档案数据 数据档案 研究热点 CiteSpace软件
中图分类号:G270.7
Comparative Research on Archival Data Hotspots Abroad in the Past Decade
—Based on the Visual Analysis of CiteSpace
LUO Dan HUANG Xiaji (HUANG-XIA Ji??)
(School of Management, Guangxi Minzu University, Nanning, Guangxi Zhuang Autonomous Region, 530006 China)
Abstract: Objective To understand the current situation of related research abroad through the analysis of archival data research abroad, and speculate the future research direction abroad to a certain extent according to the changes in research hotspots. Method Web of Science was selected as the data source, and the literature from 2013 to 2023 in archival data abroad was statistically analyzed by visualization software CiteSpace from the aspects of age distribution, journals, important authors and research hotspots. Result Research on archive data abroad had always been at a high level, focusing on how to apply archival data to the fields of social science, natural science and archival science. Conclusion The future research trend abroad should be to explore methods for the long-term preservation of archival digital resources and increase the depth of archival data research.
Key Words: Archival data; Data archive; Research hotspot; CiteSpace soft
互联网技术的出现,推动数字化的兴起,大数据技术的出现,推动着数据化的兴起。大数据及随之而来的数据化浪潮对档案行业的冲击已经显现。2021年,中共中央办公厅、国务院办公厅印发《“十四五”全国档案事业发展规划》明确将数据归档作为“十四五”期间全国档案工作的重要任务,标志着国家档案局正在将数据档案管理作为档案部门当前和今后长期的重要工作[1]。国家档案局原局长杨冬权提出:我国档案馆(室)建设的新方向应该是智慧档案馆。他还指出,智慧档案馆首先是把档案或档案数字化图像的内容全文输入电脑,即把档案全部“数据化”,使档案里包含的智慧能够成为人类智慧,是对数字档案馆的升级[2]。由此可见,档案数据化趋势愈发明显,在信息时代的影响下,档案数据总量增长迅猛,已经成为档案管理的重要战略资源。因此,通过探析国外档案数据的研究热点,能为国内今后的档案数据研究方向和档案事业的未来发展提供一定参考。
1数据来源与研究方法
1.1数据来源
文献数据以Web of Science为来源,检索方式为:TS="archival data",(TI="archival data*") AND TS="archival data*";检索范围:Web of Science核心数据库,文献时域定为2013—2023年,检索时间为2023年10月5日,共检索到1 294篇文献,经过数据清洗、去重、剔除文献记录,最终获得有效数据1 181条。
1.2研究方法
本文运用信息可视化软件CiteSpace对检索得到的数据进行分析,可以梳理出国外档案数据领域的研究现状和研究热点,能较为直观地了解到这一领域今后发展的大致方向。
2文献时间分布
发文数量的变化可以直观地发现某个学科领域在特定时期或某一时间段研究热点的变化,是判断该学科在该时期发展趋势的重要指标。如图1所示,在2013—2015年间,国外以“档案数据”为主题的研究发文量呈稳定增长状态,2016—2017年虽有少许回落,但随后两年的增长较快,到2021年达到最高发文量165篇,之后发文量有所下降,尤其是2023年发文量下降了50.49%(截至2022年10月5日,国外已有103篇文献)。
由图1可知,国外关于“档案数据”的研究发文量在2021年达到最高。主要是受到了联合国教科文组织(United Nations Educational, Scientific and Cultural Organization,UNESCO)、国际档案理事会 (International Council on Archives -- ICA) 的影响,2021年,ICA在国际档案周开展了以“建立数字桥梁”为主题的研讨会,该会重点关注教科文组织成立75周年的教科文组织章程文件的数字化,以探索数字化为全球档案界赋权的挑战和机遇,以及档案数据的价值应用为主。因此,国外学者在这一时期也发表了大量以“档案数据”为研究主题的成果。从整体的发文量呈增长趋势来看,档案数据仍是国外学者的研究热点。
3档案数据研究分析
3.1核心期刊分析
在CiteSpace中构建期刊共被引知识图谱,得到的档案数据研究的核心期刊共被引知识图谱如图2所示。每个节点表示一个期刊,节点越大,表示期刊被引频次越高。
由图2可得,有关档案数据的研究主要分布在ASTROPHYS J、MON NOT R ASTRON SOC、ASTRON ASTROPHYS、ASTROPHYS J LETT等天文物理学领域期刊,NATURE、SCIENCE等自然科学领域期刊。
其中,被引频次较高的期刊有ASTROPHYS J、MON NOT R ASTRON SOC、ASTRON ASTROPHYS,被引次数依次为479次、468次、437次,这些都是天文物理学领域的期刊,说明也是档案数据研究的重要文献来源。而中心度较高的期刊分别为ASTROPHYS J、IEEE T GEOSCI REMOTE、SCIENCE,中心度依次为0.28、0.28、0.23,说明这3种期刊中有关档案数据研究的文章质量较高,对该学科的研究有重要的支撑作用。
从期刊共被引图谱来看,国外档案数据研究主要是分布在天文学这一自然科学领域,原因是天文学领域的“档案数据”更重视档案数据对科学研究的价值[3],对档案数据的定义、内容、本质研究较少。
3.2重要作者分析
首先确定出被引频次较高的作者,图谱中的连线表示作者与作者之间的合作关系,节点代表作者,节点越大,作者的被引频次就越高,如图 3 所示。
从图中可以看出,被引频次最高的作者是Christine L. Borgman,被引60次。Christine L. Borgman的研究领域又以信息研究和计算机科学为主, Digital data archives as knowledge infrastructures: Mediating data sharing and reuse一文被引76次,这篇文章通过研究荷兰档案数据和网络服务研究所DANS打开了档案数据的“黑匣子”[4]。Rene Hudec对塔尔拉天文台底片档案实现了完全数字化和部分数据访问,并提出天文摄影资料档案仍在等待数字化,需要既复杂又简单的数据归档工具,为科学界提供对这些数字数据的访问操作(包括元数据搜索)[5]。
3.3研究热点分析
将Web of Science的样本数据导入CiteSpace软件进行研究热点分析,得到国外档案数据研究的关键词知识图谱,如图4所示,节点代表关键词,节点越大,代表关键词出现的频率越高,对关键词共现图谱进一步分析,得到关键词的中心性,中心性越高,其影响力和重要程度越大,具体如表1所示。
根据关键词词频排序和中心性可知,近10年来国外档案数据研究热点主要是档案数据在社会科学领域(Social Science Field)、自然科学领域(Natural Science Field)以及档案学领域(Field of Archival science)的定义与应用。
档案数据保存的一项要求是能够更新记录的元数据,为了保证数字保存操作后的真实性以及与其他记录的关系,STANI H等人[6]提出一个支持元数据更改的数据库系统,探讨了在基于区块链的档案系统中实现档案绑定的问题。KRISHNAN S等人[7]认为利用档案数据可以探索电子政务对民族国家腐败、经济繁荣和环境恶化的作用和贡献,虽然电子政务的成熟度无助于经济繁荣和环境恶化,但其价值可以通过对腐败的影响间接实现;RANADE S[8]探讨了将现代数据分析技术应用于历史档案数据的挑战,考虑了计算方法为遗产收藏创建新的访问路线的潜力,为从业者提供了数字时代档案描述影响的视角。
运用CiteSpace软件,对国外档案数据文献关键词进行聚类分析,得到图5。由图5可知Web of science档案数据关键词聚类共14类,其中有两个聚类:聚类#1,聚类#10直接以档案数据为中心,侧重两个不同的方面,分别是数据共享和档案数据。
MARKIEWICZ C 等人[9]描述了一个大脑倡议数据档案(Open Neuro)它提供了根据FAIR数据共享原则公开共享各种大脑成像数据类型的数据的能力,对确保科学研究的可重复性和最大限度地发挥公共投资的影响至关重要;CHENG S S等人[10]认为对于需要归档的大量数字化信息,实现档案存储的稳定性,才能使数字化档案的信息资源得到持久的利用。
4结语
随着时代的信息化和数据化发展,如何将档案数据更好地和其他领域融合应用仍然作为国外学者的研究热点,档案数据的发展以及相关技术在档案学领域的成功应用,可以证明研究档案数据和其他领域交叉的可行性与有效性。本文梳理国外相关文献综合分析可以预判:国外档案数据在未来的研究趋势应是加大档案数据的研究深度,探索长期保存档案数字资源的方法。
参考文献