李江瑶 崔旭
(西北大学公共管理学院 陕西西安 710127)
2008年,《科学》杂志上发表文章《Big Data:Science in the Petabyte Era》,此后,“大数据”一词开始广泛传播。一般意义上, 大数据是指无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合,其特点可以总结为4个V, 即Volume (体量浩大)、Variety (模态繁多) 、Velocity (生成快速) 和Value (价值巨大但密度很低)[1],而其组成要素则是开放、在线、关联。由大体量数据推动的数据计算、数据管理、数据分析、数据安全、可视化等理论与技术当中蕴含的关于数据的科学,即是我们所称的数据科学。档案学作为信息管理学科的重要组成部分,数据科学的发展势必给我们学科的理论与实践带来巨大影响。由此,笔者统计了近5年档案类中文核心期刊(2017)的文章以及国家社会科学基金项目,探究数据科学驱动下档案学的研究热点及动态[2-4]。
本文选取中国学术期刊网CNKI期刊全文数据库,以刊名为检索对象,检索档案学核心期刊《档案学研究》、《档案学通讯》、《中国档案》、《档案管理》、《档案与建设》、《浙江档案》、《北京档案》自2014年1月1日至2019年6月13日发表的论文,共计10990篇,剔除会议通知、学会简介、征稿启事等无关文章后,获得有效论文9722篇。本文将下载的题录信息采用ROST CM6进行预处理后,对文章标题进行了分词及词频分析。
标题分词使用了ROST CM6自带的分词词表,并辅以笔者自己整理的档案学常见关键词表,整理出了档案学核心期刊词频前100的关键词(见表1)。笔者利用ROST CM6中的社会网络与语义网络分析功能,选取了词频前150位的关键词,使用NetDraw绘制了语义网络图(见图1)。
表1 档案学核心期刊标题词频前100的关键词
笔者又以全国哲学社会科学工作办公室官网公布的2014至2018各年度《国家社科基金重大项目立项名单》、《国家社科基金年度项目、青年项目和西部项目立项名单》为检索来源,以“档案”、“文件”、“记录”、“归档”、“政府”、“政务”为关键词,共检索出了2014至2018年档案学立项106项。笔者将其著录信息导入Excel表格,并使用ROST CM6对其标题进行分词与词频统计,词频前30位的词汇排列如下(见表2),又以NetDraw绘制了语义网络图(见图2)。
表2 2014—2018国家社科基金项目词频前30位的词汇
由此可见,国家社科立项项目的关注重点与核心期刊的发文重点基本符合,除了传统的“保护”、“服务”、“归档”、“档案法”、“信息资源”之类的长期研究主题,还聚焦于“大数据”、“数据”、“数字”、“数字档案”、“媒体”、“社交媒体”、“电子文件”等与计算机技术紧密相连的主题。将期刊论文与基金项目进行比较,发现国家社科基金项目对于技术前沿的嗅觉更加敏锐,更善于对新兴技术领域进行探索,受到数据科学的影响也更加明显。
通过上述的词频分析、语义网络绘制,加之对相同主题的论文与项目的聚类,笔者总结出在数据科学的推动下,档案学近五年的研究热点如下:
2008年大数据这一概念提出,2011年起研究热度渐升,近五年以大数据为背景的研究依然热度不减。档案学领域研究的大数据主要是网络环境中的大数据,它有多源异构、交互性、时效性、社会性、突发性和高噪声等特性, 不仅非结构化数据多, 而且数据的实时性强, 大量数据都是随机动态产生的。郑金月[5]、何嘉荪[6]以思辨的方式从大数据的本质、档案是不是大数据、大数据是不是档案、“档案大数据”的内涵等方面解读了档案与大数据的关系;安小米[7]、杨来青[8]、陶水龙[9]、肖秋会[10]宏观上讲述了大数据在档案领域的应用现状与发展趋势、数字档案资源整合、社会化媒体信息挖掘、档案信息化建设、信息安全等方面的问题;谈清辉[11]、顾宁红[12]、张婉莹[13]、顾珂[14]等针对科技档案、城建档案、会计档案、人事代理档案等专门档案领域展开研究;于英香[15]则另辟蹊径,对档案学的大数据研究热进行了冷思考,得出了大数据时代档案信息化建设应在创新中坚守传统的结论。国家社科基金项目方面,近五年有十个项目立项,覆盖了大数据环境的档案管理理论、治理体系、平台构建、服务创新等诸多方面。
此外,大数据时代的编研工作创新受到了格外的重视。档案的开发利用、编研是档案馆工作的最终目的和重要组成部分。大数据时代,不仅数据来源拓宽,支撑研究的硬件系统与应用软件也能辅助档案工作人员进行更高效、更有深度的编研。李莉[16]、阮发俊[17]、王永梅[18]等对信息时代编研工作的发展趋势、管理体系构建、编研与开发方式进行了阐述;黄夏基[19]从“恒”与“变”的视角,结合实践中的案例和数据,分析了档案编研的主体、客体、行为和成果产生的变化,但仍面临档案编研成果界定、档案编研成果重“编”轻“示”、经济效益低下的问题。
社交媒体的广泛应用使得官方政务微博、微信开始遍地开花,社交媒体中的信息也更加具备了存档价值。因此,对社交媒体档案部门对社交媒体的利用研究以及社交媒体中信息的归档范围和标准的确定两大类型。张江珊[20]、蔡明娜[21]等作者对国外档案部门应用方式、状况等进行了概述;高晨翔[22]、蒋冠[23]、何思源[24]等作者则对社交媒体档案的定位、归档、保存、鉴定、管理策略等全过程进行了探讨。近三年国家社科基金项目亦有五项针对于社交媒体归档、管理、资源聚合等方面展开研究。
数据时代,不仅是档案类型拓展到文本之外的图像、音频和视频等,档案的来源平台也已经不止于纸质档案的收集,而是扩展到了电子文件、政务网站、社交媒体、机构数据库等多平台。因此,需要把各种类型文件、各个平台的数据进行有效的整合势在必行。梁孟华[25]、吕元智[26]两位学者依托其国家社科项目对数字档案资源跨媒体、跨平台的知识集成、语义关联、资源架构、检索框架等方面进行了全面的探讨。
信息载体从纸质转向电子之后,数字载体、网络环境下的信息安全保障也是一个新的研究重点。国家社科基金项目有三项专门针对数字档案风险治理与生态安全的研究。在期刊论文方面,高晨翔[27]、吴晓红[28]、管先海[29]等从档案馆的层面出发,从宏观角度对其安全体系建设、评估进行研究;孙大东[30]、白茹花[31]、袁双云[32]等使用区块链等手段,对电子文件保密性、凭证性、流转中的安全控制进行了研究;聂云霞[33]则对数字档案用户信息安全保障问题加以关注。他们之中的共性认识即信息安全的关键是在档案管理的全过程中就进行安全控制,而非事后再来弥补。
传统互联网时代, 人们主要使用PC机来获取信息资源和相关服务。如今,移动互联网时代,移动通信、无线网络等移动网络技术迅速发展,手机、平板电脑等终端极大普及,开展移动服务是顺应潮流的有益探索。黄丽华[34]、王协舟[35]对当前档案部门使用微信、手机APP等移动服务的现状进行了调查;薛辰[36]、刘春年[37]、王晓雪[38]对移动档案馆服务方式、服务体系、实现功能等进行了框架构建;国家社科项目也对档案信息服务与移动数据终端的融合进行了研究。
物联网是一个基于互联网、传统电信网等信息承载体,让所有能够被独立寻址的普通物理对象实现互联互通的网络[39]。物联网技术的核心和基础仍然是互联网技术,它是一种在互联网技术基础上延伸和拓展的网络技术,它将互联网技术的终端由传统的信息技术设备延伸和扩展到了任意物体,并使任意物体之间可以通讯[40]。具体在档案学领域,学者们将物联网技术与档案馆建设相结合,搭建出一套智能档案馆的构建体系。杨智勇[41]提出档案馆提供的“智慧服务”应是网络化、感知化、系统化和智能化的服务;陈勇[42]指出了档案自动入库、智能调节库房环境、智能化追踪管理、安全防盗自动报警等能使物联网技术融入到档案管理实践当中;另有学者将档案馆建设置于智慧城市、智慧养老的大背景下进行探讨,并引入了人工智能、边缘计算等新技术、新理论发展智慧档案馆的技术与实践。三项国家社科基金项目研究对物联网环境下档案信息化以及资源建设进行了新的思考。
在数据科学的推动之下,档案学的研究视野越来越宽,不止于文件领域的管理,而是将目光投射于更广阔的网络平台、数据环境。档案服务不停留于档案馆当中,走向了网络服务、社交媒体、移动终端,越来越想走进寻常百姓的生活。传统档案学研究主要是面向资源的研究,现如今,电子商务等领域推出了更多面向用户的服务之后,也更加激发了档案学的服务意识,档案领域对于用户的研究也开始跟进,更加注重面向用户的优化服务,在“管”“用”关系的平衡之间向着便于社会公众利用的方向迈进。
身处于这样一个技术领域发生着巨变的时代,盲目追求新技术与执着固守老观念,二者都不可取。或许认清发展潮流,找到技术前沿与档案学最恰当的契合点,取长补短充实档案学理论与实践,才能在保持本学科相对独立性的基础上实现档案学在数据科学时代的融合性、跨越式发展。