(黑龙江大学信息管理学院 哈尔滨 150080)
2016年4月,国家档案局印发的《全国档案事业发展“十三五”规划纲要》明确指出,““四个全面”战略布局、国家大数据发展战略和“互联网+”行动计划的推进,深刻影响档案工作的理念、技术、方法及模式”,要“采用大数据、智慧管理、智能楼宇管理等技术,提高档案馆业务信息化和档案信息资源深度开发与服务水平”,并“探索电子档案与大数据行动的融合”[1]。档案大数据研究是近些年研究的热点问题,也是我国档案学基础理论与档案实践问题研究的重要组成部分。
本文以中国知网(CNKI)作为文献的来源,运用文献计量的方法,结合CiteSpaceⅢ可视化分析软件,对我国档案大数据研究的有关文献进行统计分析。希望能更好的把握该领域的研究现状,厘清现存问题,明晰发展趋势。
本文使用“档案”并含“大数据”作为关键词组,在“中国期刊全文数据库”中, 以“篇名”作为组合检索项进行精确检索(检索时间:2019年12月16日),共查检出与检索词相关的文献1918篇,去除外文文献、会议通知、新闻报道等非研究类文献,确定其中1853篇中文学术文献作为本文的分析对象。
文献计量法是一种定量化研究方法,有利于揭示某学科领域的发展规律。知识图谱能够通过共引分析和共现分析,以可视化的方式呈现出某一领域在特定时期内的研究热点、演进历程和发展趋势[2]。本文利用统计表格和CiteSpaceⅢ可视化分析工具对国内档案大数据研究论文的时间分布、发文期刊、研究机构、作者分布和研究热点等进行定量统计与定性分析。试图全面解析我国档案大数据研究的发展趋势、研究进展、热点前沿、学科知识结构及其动态演化的关系[3]。
文献数量的变化可以直接反映出科学知识量的变化情况,故文献数量的多少是衡量知识数量的重要标准之一[4],本文的文献增长变化规律是以年度文献数量为标准。
图1 2012~2019年我国档案大数据论文年度数量趋势
我国关于档案大数据研究的论文最早发表于2012年。从图1中检出文献的统计结果来看,2014年~2018年,研究文献数量逐年增多,该领域进入了快速发展阶段。自《全国档案事业发展“十三五”规划纲要》发布后,我国档案大数据研究的文献数量于2016~2018年高速增长,至2019年该领域的相关文献增长的速度有所放缓。从学术成果发表数量上看, 2012年至2019年,我国档案大数据相关研究已有稳定的研究热度。
表1中文献的被引用次数均达到45次以上。这些文献,从发表时间来看,大部分发表于国家档案局印发的《全国档案事业发展“十三五”规划纲要》之前;从期刊分布来看,档案大数据研究吸引了不同学科背景的研究者的关注,包括档案学、社会学、经济与管理科学等,但主要分布在档案学领域;从作者分布情况来看,文献作者来源除高校档案学专业及其档案馆(室)外,有相当一部分来自于企事业单位;从主题来看,主要围绕着我国档案大数据的理论探索和实践应用两个方面展开,理论方面不仅包括档案大数据概念、特性、价值等的基础研究,还涉及档案管理思维、大数据思维方式的转变等深层次研究;实践应用方面,一是对大数据环境下的档案事业宏观层面面临的挑战和变革进行分析,二是针对大数据语境下的档案工作的微观领域展开研究,如档案利用服务、档案信息化建设等。
从以上分析结果可看出,这些文献作者敏锐的学术眼光,得到了广泛的认可;档案大数据研究主要集中于在大数据在档案领域的实践应用方面。
分析档案大数据研究发文期刊的分布和层次,可以更好地把握该领域的研究现状,进一步明晰该领域的研究水平。
表2为我国档案大数据研究载文量排名前十的期刊,其中档案学期刊有八种,经济管理与电子信息科学综合期刊一种,社会学期刊一种。由此可知,档案大数据研究在其他学科领域有所涉及,但主要集中于档案学领域。《办公室业务》以312篇载文量,成为我国档案大数据研究主要发文期刊。载文量排名第二位的《兰台世界》(156篇)是辽宁省档案局(馆)和辽宁省档案学会主办的档案学专业刊物。从我国档案大数据研究载文量排名前十的发文期刊的CNKI综合影响因子方面来看,我国该领域研究还未受到高层次期刊的深度关注。
表1 被引频次排名前十的档案大数据研究论文
表2 我国档案大数据研究载文量排名前十的期刊
2.4.1 高产作者分析
表3列出了档案大数据研究发文量排名前9的作者。韩海涛和张倩是档案大数据研究的高产学者。韩海涛主要从事档案大数据的实践应用方面的研究,而且他与田伟均来自天津工业大学,他们之间保持着稳定的合作关系。南京艺术学院的张倩对高校档案大数据平台建设的研究相对系统深入。王兰成、席畅、于英香等是档案大数据研究的中坚力量。陈艳杰对医学档案信息资源开发与利用中大数据技术应用进行深入探讨,大数据技术已广泛应用于医学档案实践。
表3 档案大数据研究发文量排名前九的作者
2.4.2 合作者分析
本文选择“作者”作为CiteSpaceⅢ分析的网络节点,数据抽取对象为“Top50”,运行CiteSpaceⅢ,得到作者合作网络知识图谱。从图2可看出,国内档案大数据研究形成了3个比较明晰的合作团队:①田伟、韩海涛和陈静等,主要研究大数据语境下的档案工作、档案信息服务、基于数据库的大数据档案信息资源处理等问题。②胡树煜、孙士宏和金丹等,对大数据时代档案信息资源共享平台的建设、安全策略、服务策略进行深入的研究。③窦梅孙仁诚和葛兆富等4人,对大数据语境下公共交通档案信息服务与利用问题进行研究。
从图2中可以看出,合作者分布较为分散,作者之间连线较多,但多为两两相连,未形成稳定的研究团队,且发文数量大于2的合作团队较少,说明作者之间的合作意识还不够,合作研究深度还应当进一步加强。
图2 档案大数据研究作者合作情况分析
2.5.1 机构科研实力分析
分析论文发表机构分布,有助于了解我国档案大数据研究领域的核心机构群体[5]。
表4 档案大数据研究发文量排名前十的机构
表4中档案大数据研究机构发文量均在5篇以上。档案大数据研究文献核心发文机构来自于高校及其档案馆(室),表明高校档案学专业师生和档案馆工作人员是档案大数据相关科学研究的中坚力量。其中,上海大学的研究实力最强,以较大的优势处于领先地位;天津工业大学内形成比较稳定的合作者团队,发文量排名第四。社会上的其他机构对档案大数据研究还不够深入。
2.5.2 科研机构合作情况分布
本文选择“机构”作为CiteSpaceⅢ分析的网络节点,数据抽取对象为“Top50”,运行CiteSpaceⅢ可视化分析软件,进行数据筛选后得到发文量在三篇及三篇以上的机构合作网络图谱,图4所示,我国档案大数据科研机构是分布情况是分散的,科研机构之间连线的很少,表明科研机构之间合作意向不强,互动合作关系较弱。从图4中可以看到存在比较明显的合作关系,且发文量较多的只有:中国人民大学信息管理学院与辽宁大学历史学院。
图3 档案大数据机构合作情况
研究热点及演绎路径分析关键词其实是对文献主题的概括和总结,通常高频次的关键词就认为是科研领域的研究热点[6]。使用 CiteSpaceⅢ 中的关键词共现工具对我国档案大数据研究现状进行进一步解析,选取网络节点为“关键词”,数据抽取对象为“Top50”,主题聚类词来源为标题、摘要与标示符等,将来源文献时区跨度设为2012-2019年,运行CiteSpaceⅢ成功绘制了基于最小生成树的期刊引用关系知识图谱(如图4所示)。同时,对1855篇文献分析获得2819个中文关键词,其中个别词汇重复出现,表5列出了2012-2019年档案大数据研究中前30个关键词。
档案大数据研究热点主要有3个: ①对我国大数据时代档案事业发展趋势进行阐释和解读,包括大数据/大数据时代/大数据背景等,将大数据与档案工作实践和理论研究相结合,是“挑战”,是 “创新”,也是“发展”的必然要求。②我国大数据环境下的档案管理工作研究,包括档案管理/档案工作/档案管理工作等,其中高校、人事和医院档案管理是研究的重点。③我国大数据环境下的档案信息化建设,研究如何利用大数据技术对档案信息资源/档案数据/档案资源进行整合,其中电子档案是研究的基础。
表5 档案大数据研究高频关键词
图4 档案大数据关键词聚类图谱
我国的档案大数据理论研究主要集中于对档案大数据的定义、特征、核心价值、档案与大数据关系及档案大数据研究对档案学发展的影响等基本问题的讨论。
在档案大数据的定义方面,学界关于档案大数据的概念、内涵的研究较多,依据本文前文论述的内容来看,本文倾向于鲁德武档案大数据的定义:档案中的大数据[7]。康蠡、金慧对“档案中的大数据”这一概念进行了补充,从来源、特征、定位和本质四个方面对档案大数据的内涵进行分析,结合大数据相关定义将档案大数据界定为:“在档案业务活动 (包括档案产生、管理及利用活动) 中形成, 跟档案及档案业务活动密切相关的各种有价值的、难以在可接受时间内分析处理的数据集[8]。”。
在档案大数据的特征方面,有学者认为我国的档案大数据基本符合大数据的“数据量大”、“速度快”、“类型多”以及“价值密度低”的“4V”基本特征;于英香从档案大数据存在形态和价值取向的角度指出“滞后静态性”和“证据解惑性”是目前档案大数据本质特征[9]。
在档案大数据的核心价值方面,于英香从历史记录的角度出发,认为档案大数据“具有提供证据、给予公众解惑”的核心功能[10]。“挖掘提取有价值的信息是学界比较一致的倾向”[11]。但对于目前的档案大数据决策和预测的功能实现问题,学界还存有分歧。
在档案与大数据的关系方面,张丹从档案与大数据同属信息领域、档案与大数据同是社会记忆、档案与大数据互相包含三个方面论证了档案与大数据之间的紧密关系[12]。也有学者指出:档案与大数据存在价值取向、存在形态、处理时效的差异[13]。
在档案大数据研究对档案学发展的影响方面,张芳霖、唐霜通过对大数据时代档案现象和档案理论面临问题的分析,从档案学研究对象与内容、档案学研究方法论、档案工作模式、档案学理论体系等方面着手,梳理出大数据时代档案学的发展趋势[14]。王宁、李晶伟从实践需求环境视角,分析大数据从档案信息的组织和管理方式、档案事业发展的理论需求以及档案人才选用和储备三个方面影响档案学发展,指出在此影响下档案学的三大发展趋势:档案数据学的产生,档案数据思维与数据素养的建立培育,档案数据管理能力的全面拓展等[15]。王晨、李耀庭指出大数据对“相关关系”的探索,或将拓宽全宗内部档案及全宗之间的关系边界;大数据对全数据的关注,或将延长非永久保存电子档案的保管期限;大数据对关联数据进行共享和深度挖掘的需求,或将不利于目前档案信息咨询服务模式[16]。
档案大数据实践研究成果丰富,本文主要从档案管理工作与档案学科建设两个进行归纳总结。
档案管理工作方面的研究主要从宏观和微观两个层面开展。宏观层面表现为大数据环境下的档案大数据战略规划[17][18][19]、业务流程建设[20][21]、档案职业发展[22][23][24][25]等的顶层设计方面的研究;微观层面一方面是针对大数据环境下的档案管理工作的具体内容开展研究,包括大数据环境下档案资源建设、档案利用服务、档案信息开发、档案信息保全等;另一方面是从高校、企业、医院等档案形成机构角度解读大数据时代对其档案管理的影响。除此以外还有大数据时代对某一专门档案的管理工作的影响,例如人事档案[26][27][28]、户籍档案[29]、公共交通档案[30]等。
在档案学科建设方面,金波等从大数据时代档案工作的变化出发,指出大数据时代档案专业高等教育面临的挑战与变革:转变传统的教育观念,改革教学内容和课程体系,加强信息技术和数据管理类课程的教学,注重学科交叉,培养跨界复合型人才;创新教学方式和培养机制,引入互动式、实践性、项目制教学,创建延伸课堂;开展校、局、馆合作,校企合作,强化产学研联盟等[31]。 何振等分析了大数据时代档案学教育的大数据常态,并提出基于这种新常态,“档案学教育亟须实践拓展,要着重转变档案学教学思维,重构档案学课程内容,创新档案人才培养模式,构筑档案学教学平台,完善档案学教学方式方法。[32]”。 徐辛酉从档案学专业课程设置中数据管理模块入手,通过对全国开设档案学专业的29所高校课程设置的调研,指出目前数据管理相关课程的设置存在层次结构不成体系、教学环节理论与实践权重失衡、重信息系统使用轻数据内容分析、课程名称与专业特色结合度不高等问题,并提出了课程设计的指导思想,并依据该指导思想设计了灵活的课程体系,供各高校参考[33]。卞昭玲、张艳欣以河北大学档案学专业教学为例,提出从档案信息服务环境和档案信息服务内容两个方面入手建设大数据时代的档案信息服务课程内容,并指出高校档案学教育应注重培养学生的档案信息服务能力,促进档案大数据预测功能的实现[34]。
档案大数据是2012年兴起的一个研究热点,通过以上对国内有关档案大数据研究的文献增长、文献引用、期刊分布、作者分布以及研究热点的分析,得出以下结论:第一,国内档案大数据研究文献年度发文统计表明,我国档案大数据研究方面的文章一直在持续增加,这一现象反映了我国档案大数据研究正在稳步发展,国家大数据战略在档案工作中的推进与实践,促进了档案大数据研究与发展。第二,通过对期刊分布的情况分析后发现,我国档案大数据研究层次不高,档案大数据研究集中在档案学领域,虽存在与其他学科交叉的研究,但数量有限。档案大数据研究是一项需要由多个学科门类共同参与的工作,档案学与其他学科交叉、渗透,将促进档案大数据研究向跨学科、综合性、多元化的方向发展[35]。第三,通过对作者与科研机构的分析发现,我国学者研究持续性不高,学者之间合作较少,合作研究普及度不高。第四,通过对引文、研究热点及典型文献观点的分析发现,档案大数据研究受到社会广泛关注,该问题的研究基本上是围绕大数据环境下档案理论和实践两个方面展开,实践方面的研究成果更为丰富,宏观层面研究成果具有较大现实价值;具有针对性的微观研究较为深入,但研究实例较少,实践性略显不足。
自2015年至今,国家大数据战略的提出与实施之于档案工作、档案学发展影响深远,档案大数据研究是档案人积极响应并推动国家大数据战略理论应用与创新实践的结果。随着大数据在档案领域的融合发展,档案大数据研究层次将逐步深入,档案大数据实践领域依然是研究重点,其宏观层面的研究场域将更为拓展,微观具体的研究实例将不断涌现,理论研究也将随着实践研究的深入而日趋完善,学术交流合作的增加与多元学科交流将大大促进档案大数据的研究与发展。