徐 芳 马 丽
(1.苏州大学社会学院 江苏苏州 215123)(2.苏州大学文正学院 江苏苏州 215104)
21世纪以来,伴随着大数据、云计算、移动互联网、物联网等技术的涌现与发展,信息与通信技术(Information and Communication Technologies,ICTs)和人类的生产生活越来越密不可分。同时,ICTs在人类生产生活过程中的应用,也产生了巨大的数据,各种数据量呈几何级数增长,以“PB(Petabytes,拍字节,计算机存储容量单位,1PB=1024TB=2^50字节)”为单位的海量数据悄然在我们身边出现,宣告着大数据时代的来临[1]。2012年3月,奥巴马政府发布了美国政府的大数据计划,希望“提高从大型复杂的数字数据集中提取知识和观点的能力”[2],这意味着美国政府开始将大数据战略上升至国家战略。在我国,2014年大数据首次写入政府工作报告;2015年国务院印发《促进大数据发展行动纲要》,提出要全面推进我国大数据发展和应用,加快建设数据强国;国务院总理李克强在十三届全国人大一次会议上作政府工作报告三次提到“大数据”;习近平总书记更是多次表示:“要实施国家大数据战略,加快建设数字中国”。在此背景下,各行各业对大数据的应用越来越重视。
与此同时,大数据的研究也引起了学界的高度重视。许多学者对大数据的研究现状进行了文献计量分析[3-5]。文献调查表明:关于图情档领域大数据研究的文献计量分析,英文文献一直都有人连续地进行计量分析,而中文文献最近的文献计量研究发表在2016年且统计的范围为18种CSSCI图书情报领域的期刊,非CSSCI期刊的论文尚未有人做过统计分析。在CNKI中收录的我国图情档领域关于大数据的研究文献在2016—2018年有4 064篇,可见其发展速度之快。本研究以CNKI中近五年(2014—2018年)收录的图情档领域大数据研究的5 214篇文献为研究对象,从研究的热点问题、研究的新方向、期刊分布情况、作者机构分布情况以及作者分布情况等方面对近五年图情档领域大数据研究的现状进行了较为系统的分析。在文献计量分析的基础上,归纳和总结了近五年我国图情档领域大数据研究的5个发展趋势。希望可以为系统地了解近五年图情档领域大数据研究的现状和后续研究提供参考。
以中国知网(CNKI)作为数据来源,以“主题词”为检索入口,以“大数据”为检索词,将研究学科限定在信息科技下的“图书情报与数字图书馆、档案及博物馆”,时间限制在近五年(2014—2018年),检索截止日期为2019年3月24日共检索到5 416篇文献。删除杂志社的通知、会议通知、会议报道等非学术论文后,共得到5 214篇文献,。
词频分析法是利用能够揭示或表达文献核心内容的关键词或主题词,在某一研究领域文献中出现的频次高低,来确定该领域研究热点和发展动向的文献计量方法[6]。关键词是文献主题内容的浓缩,对于关键词词频进行统计分析,能够反映研究领域的研究趋势、热点所在以及相关领域等信息,是文献计量学中常用的分析方法。
社会网络分析(Social Network Analysis)被广泛应用于社会学研究中,图情领域也多有运用[7]。社会网络分析法工具有MultiNet、NetMiner、NetDraw、Pajek、UCINET等,本研究选取UCINET和NetDraw对相关关键词进行矩阵分析,进而得到可视化结果。
共词分析法主要是对同一篇文献中词汇或名词短语共同出现的次数进行统计, 以此为基础揭示相关关系,进而分析它们所代表的学科和主题的结构变化[8]。一般来说,不同词汇在同一篇文献中出现次数越多,表明二者关系越紧密。可以有关键词共现、参考文献与作者共现、作者与机构共现等方式。本文则主要研究国内大数据关键词共现情况。
CNKI中收录的我国图情档领域大数据研究文献数量统计如下:2010年,1篇;2011年,0篇;2012年,15篇;2013年,134篇;2014年,493篇;2015年,877篇;2016年,1 197篇;2017年,1 310篇;2018年,1 557篇。从数据分布来看,我国图情档领域大数据研究大致可以分为三个阶段:萌芽期、快速发展期以及平稳期。①第一阶段为萌芽期。图情档领域关于大数据的相关研究在2012年之前非常少,每年发表的论文数量较少,特别是2010和2011年,说明研究尚处在萌芽期。②第二阶段为快速发展期。自2013年后,与图情档领域大数据相关的研究数量急剧增长,特别是2013至2015年,几乎每年以翻倍的数量增加,可见图情档领域关于大数据的研究热情高涨。这可能与美国和中国相继将大数据发展提升到国家战略层面,引起了学界的广泛关注,大数据及其应用的研究迅猛发展,产出了数量较多的文献等因素有关。③第三阶段为平稳期。2016年至2018年间,图情档领域关于大数据的相关研究论文数量增长速度稍微减缓,但总体而言每年的发文数量依然处于上升的趋势,只是不再翻倍式增长,我们将该阶段称之为平稳期。
关键词是从文献中提取或凝练出的能够表示文献主题概念的自然语言词汇。统计分析文献关键词词频,可得出研究内容的集中与分散情况,高频关键词更是能反映国内大数据研究的重点和热点[9]。
4.1.1 高频关键词分析
经SATI软件统计分析得出,2014—2018年间关于图情档大数据的中文文献中涉及到的关键词有5 467个,其中出现一次的关键词有322个,反映出图情档专业关注焦点的密集性。同时根据Donohue.J.C在1973年提出的高频词低频词界分公式[10]来确定高频关键词:
其中I1指只出现过一次的关键词数量,本次研究中,I1=322,T=24.88,推出阀值约为25,即高频关键词是大数据、图书馆、大数据时代等165个词。其中前50个高频关键词如表1所示。
表1 高频关键词词频统计(Top50)
从上述的高频关键词中可以看出:相较于以往传统的背景,在大数据时代下,图书馆、情报学、档案、信息资源等基础核心词仍然是图情档领域不可忽视的重点。同时开放获取、数据服务、知识发现、智库、移动图书馆、智慧档案馆等一系列高频关键词的出现也反映出图情档领域紧跟时代潮流,更加注重用户服务体验,运用新兴技术手段更好地为人们服务,揭示了图情档领域一贯注重夯实基础又与时俱进的学科特点。
4.1.2 高频关键词聚类分析
关键词的聚类能够集中地反映热门内容[11],在UCINET中对前50个高频关键词进行聚类分析,共获得13个聚类(称为聚类1到聚类13)。集群中的每一个聚类都可以被视为研究主题。总的来说,近五年来我国的图情档领域研究主要集中于大数据、图书馆和情报档案、大数据时代的Citespace工具与互联网、图书馆的知识情报分析与管理、大数据环境下数字化管理与信息服务、信息化建设下的学科服务与数据资源的利用、数据分析与企业、电子文件管理服务模式与阅读推广、大数据技术对读者服务与信息素质影响、档案工作的信息化与服务创新、档案数据与人工智能、图情档领域的个性化服务、信息资源的创新与挖掘这13个主题集群,同时这13个主题集群能够在一定程度上反映出我国图情档领域大数据相关的研究现状。
低频关键词能够在一定程度上反映出图情档领域大数据研究新兴热点以及研究的发展趋势,因此我们对词频为1的关键词进行了分析,20个代表性的低频关键词分别为:特色资源服务、数据质量控制、社会化媒体、战略性阅读、读者隐私、新媒体营销、数字保存、数据安全保护、科学数据共享、政府信息增值、情报价值、逻辑性思维、空间数据库、数字不平等、服务生命周期、个人信息世界、信息不平等、复杂云计算、数字地图以及城市记忆工程。
特色资源服务、战略性阅读、新媒体营销、复杂云计算、数字地图等关键词的出现,说明随着时代发展,大数据已经渗透到图情档研究的各个领域,体现出大数据对图情档领域的应用价值;而数据质量控制、政府信息增值、空间数据库、数字不平等、城市记忆工程等低频词的出现,则表明在大数据时代,图情档领域新的研究领域正在悄然兴起,将来很可能会成为新的研究热点主题。
为了分析图情档领域大数据研究的期刊分布,我们对期刊名称出现的词频进行统计。运用UCINET工具进行统计分析,可以得到图情档领域发表大数据相关研究论文数量前30名的期刊,如表2所示。
表2 前30名期刊统计
上表列出了我国图情档领域大数据研究载文量前30的期刊。可以看到,《图书情报工作》《情报理论与实践》《现代情报》《图书馆工作与研究》《图书与情报》《图书馆理论与实践》《情报杂志》等CSSCI期刊、核心期刊均在其列。这表明:虽然图情档领域的大数据研究载文量前6的期刊都是一般期刊,即一般期刊的载文量占多数;但是前30名中也有10多种CSSCI来源期刊或核心期刊。总之,图情档领域大数据研究的期刊分布呈现出核心期刊与非核心期刊并重的特点。
表3是运用UCINET工具统计出的发文数量排名前30的作者机构分布情况。
为了客观、准确地体现作者的机构分布情况,我们对搜集到的机构数据没有做合并处理。从上表所统计的核心单位机构来看,位居前列的是武汉大学信息管理学院,发文量达到了162篇。而前十名中图情档领域权威单位武汉大学、北京大学、中国人民大学、南京大学都在其中,符合当前图情档领域对于本专业领域权威单位机构的认知,说明在大数据领域,资历老、技术雄厚的单位机构影响仍然很大。同时也可以看出,发文量的核心单位机构仍然以高校为主,高校学术研究氛围浓厚,拥有较强的科研队伍和科研力量,是呈现这一结果的主要原因。此外,兰州财经大学信息工程学院本科设有信息管理与信息系统专业,并设有该专业的硕士点,同时拥有省级人文社科重点研究基地——甘肃经济发展数量分析研究中心;安徽财经大学管理科学与工程学院下设有情报学专业硕士点。
表3 发文数量排名前30的作者机构分布
我们还运用UCINET工具的频次统计功能对作者出现的频次进行了统计,前30名高产作者的发文数量统计如表4所示。
表4 前30名高产作者与发文数量
从表上列出的核心作者来看,我国图情档领域的知名学者,如武汉大学的李纲、马费成、邱均平等人,南京大学的邵波、苏新宁等人以及北京大学的李广建等人都不同程度地对大数据进行了研究,成为了图情档领域大数据研究的高产作者。而发表文献量前三的兰州财经大学马晓亭与陈臣、江苏理工学院的何胜发文总量有100多篇,这表明图情档领域关于大数据的研究已经形成了一批稳定的学者。
从对高频关键词的共现可视化分析以及聚类分析中可以看出,我国图情档领域大数据的研究在重视该领域的基础理论研究基础上,显现出一些新的研究热点:如大数据、图书馆服务、档案管理、创新、数字图书馆、互联网+、数据素养、个性化服务、云计算、情报学、数据管理、数据挖掘、智慧图书馆、大数据技术、文献计量学、数字档案馆、情报分析、竞争情报、智慧服务、知识图谱、图书馆用户等,现有研究中图情档专业领域与时代背景的联系更加紧密。开放获取、数据服务、智库、移动图书馆等一系列关键词的频繁出现,凸显了在大数据背景下,图情档领域的技术手段更加智能化、人性化。而聚类分析得到的13个主题集群集中体现了大数据背景下新兴技术手段与学科融合发展的新趋势。
以上文献计量结果表明,在大数据时代,图情档的各个领域都相应地将大数据相关的新兴技术应用到各自的业务与管理活动中,涌现出了一些新的研究方向。例如,特色资源服务、情报价值、数据质量控制、逻辑性思维、社会化媒体、空间数据库、战略性阅读、数字不平等、读者隐私、服务生命周期、新媒体营销、个人信息世界、数字保存、数据安全保护、复杂云计算、科学数据共享、数字地图、政府信息增值以及城市记忆工程等。其中,数据质量控制、政府信息增值、空间数据库、城市记忆工程等低频关键词的出现,表明已经有学者开始探索大数据在图情档前沿领域的应用,涌现出了一些研究的新兴领域,而这些新兴领域在不久的将来会成为大数据在图情档领域应用的研究热点。
从统计的期刊分布表中可以得知,虽然发文量排名前30名的期刊中,一般期刊占大多数,前6名都是一般期刊,且发文量也占大多数;但是仍有10多种CSSCI来源期刊或核心期刊在列,如《图书情报工作》《情报理论与实践》《现代情报》《图书馆工作与研究》《兰台世界》《山西档案》等。可见,我国图情档领域大数据研究期刊分布呈现出核心期刊与非核心期刊并重的趋势。
在以上统计的图情档领域大数据研究作者机构分布的表格中,图情档领域双一流高校武汉大学、北京大学、中国人民大学、南京大学位列前十名,武汉大学信息管理学院发文量更是高达162篇。同样值得注意的是,黑龙江大学、安徽大学、兰州财经大学、国家图书馆、辽宁大学、南京图书馆等单位机构也位列在前,且发文量占比不小。可见,图情档领域大数据研究的作者机构分布表现为分散状态,图情档领域大数据研究呈现出百花齐放、百家争鸣的局面。
通过以上对图情档领域大数据研究的高产作者统计可知,一方面,大数据自出现以来便受到了我国图情档领域知名学者的连续关注与重视,如武汉大学的李纲、马费成、邱均平等教授,南京大学的邵波、苏新宁等教授,北京大学的李广建教授以及南京理工大学的王曰芬等,他们均出现在了高产的核心作者中,是我国图情档领域大数据研究的中坚力量;另一方面,排名前三的马晓亭、陈臣、何胜等人发表的大数据相关的论文都在25篇以上,为大数据在我国图情档领域的应用研究作出了很大的贡献。这些高产的核心作者往往有着相对成熟的研究领域且研究工作较为连续,他们的研究成果对于图情档领域大数据的后续研究具有很大的参考价值。
本研究利用词频分析法、社会网络分析法、共现分析法,对CNKI中2014—2018年间收录的我国图情档大数据的相关研究,利用SATI、Excel进行相应的筛选、合并、统计等处理,同时借助UCINET和NetDraw对关键词进行进一步的分析。结果发现,我国图情档领域关于大数据研究的发展正处于快速发展阶段。未来随着大数据及其相关技术的迅猛发展与成熟,我国图情档领域大数据的相关研究也会随着时代的发展形成更多的研究热点,涌现出更多的新研究方向,同时也会出现更多的大数据相关的研究成果。此外,虽然我们力求客观、准确地搜集原始数据,并采用人工的方式对数据进行了清洗,在此基础上进行了文献计量分析,研究结论的信度一定程度得到了保证;但需要注意的是,本文也存在一些局限,由于初始文献有5 426篇,最终用于文献计量的相关文献也有5 214篇,数量巨大且数据清洗采用的是人工处理方式,可能受到数据清洗人员的知识水平的局限,一定程度上会影响分析结果的精确程度。