图书情报学视角的大数据研究主题和内容分析

2020-11-26 01:37张韬赵丽淳孙瑜时雨姜毅
消费导刊 2020年35期
关键词:图情情报学方向

张韬 赵丽淳 孙瑜 时雨 姜毅

浙江理工大学管理科学与工程系

近年来,大数据已经逐步成为了政府、产业界和学术界的研究热点。2012年,国家发展改革委发布《“十二五”国家政务信息化工程建设规划》,提出我国大数据融合应用应取得突破性进展。2017年,习近平总书记指出,应实施国家大数据战略,加快建设数字中国。这标志着大数据战略已经上升到了国家战略的高度,运用大数据技术推进政府管理和各行业治理模式的创新,已经成为了社会各界的广泛共识。

在不同学科领域内,大数据研究的发展根据各领域需求和应用的不同产生了一定的差异性和特异性。图书情报学是一门涉及管理学、信息科学、服务科学等多学科领域的交叉学科和边缘学科,重视现代信息技术在图书馆和信息服务机构中的应用。在大数据概念和相关技术产生后,国内图书情报学领域的研究者积极地把大数据引入到本学科中。国内第一篇图情领域的大数据研究论文发布于2012年,是杨海燕所著的《大数据时代的图书馆服务浅析》,主要阐述了大数据概述、大数据时代的图书馆数据处理和服务[1]。近年来,图情领域的学者密切关注着大数据技术的发展,积极探索大数据技术在图情工作中的应用。

为了对大数据在图书情报学领域的研究现状进行分析,本文选取了2012到2019年度图书情报学领域CSSCI期刊收录的以大数据为主题的相关研究论文,以及国家自然科学基金和社会科学基金中图情领域大数据相关的基金项目作为数据源,用多种定量方法分析了研究主题和研究内容。

一、文献统计

本节通过对研究论文和立项项目进行统计与分析,客观真实地反映大数据在图书情报学的基本研究情况。

(一)研究论文统计

以“中国期刊全文数据库”为数据源,把来源期刊限定为CSSCI(中文社会科学引文索引)中“图书馆、情报、文献学”学科所涵盖的20种期刊[2],于2019年12月5日进行检索。共获得782条数据。按年代进行统计,如图1所示。

图1 国内图书情报学领域大数据研究论文的年度分布

2012年的10篇论文中,两篇论文的研究方向为文献与知识计量方向[3-4],另两篇论文的研究方向分别为大数据在公共交通和企业竞争情报方向的应用[5-6],其余的论文研究方向均为大数据给图书馆带来的影响与挑战[7-11]。这说明在研究初期,图书情报学主要关注于图书馆方向的大数据研究。从2012年到2016年,论文数量保持稳定增长,直至2016年达到最高峰,为150篇。后几年有小幅回落。说明大数据在图书情报学领域的研究经过发展,已经趋于成熟,这体现了在图书情报学方向大数据已经得到广泛认可并获得了较高的关注。

(二)国家基金立项项目分析

为了研究大数据的立项情况,分别以国家自然科学基金委的科学基金网络信息系统[12]、国家社科基金项目数据库[13]中的国家基金立项数据为数据源进行系统检索,共检索到73条数据。由于2012年立项数量为0,所以不计入统计。2013~2019年国家社科基金、自科基金项目及总体立项情况的年度分布结果如图2所示。

图2 2013~2019年各类型项目及总体立项情况图

从图2中可以看出,社科基金和自科基金立项总数于2013年起步,2014年大幅增加,2015年后略有减少但保持稳定,2019年立项数减至零。这说明大数据已经成为了图书情报学领域的一个重要研究子方向,但随着研究内容的深入,立项数有所下降。

以所采集的国家立项项目数据样本作为数据源,以受资助单位的地理位置分布作出国家立项项目资助的可视化地图,如图3所示。发现受资助的省份大多集中在沿海、中部和东北地区,西北部和西南部相关单位课题资助覆盖率较小。

图3 图情领域大数据方向国家项目地理分布图

二、主题研究

本节对图书情报学中“大数据”主题的相关文献进行分析与总结。首先基于因子分析确定了核心的研究主题,聚焦大多数研究者关注的研究热点。再对所得因子进行分类汇总,阐述并总结了研究现状。

(一)基于因子分析的核心主题确定

因子分析法用于通过一定数量的因子描述较多指标或元素之间的关联,是一种用较少的因子反映大部分信息的技术。

从CSSCI(中文社会科学引文索引)的相关文献中提取关键词。因为国家立项项目没有关键词,所以使用jieba分词工具对其名称进行分词作为关键词,共得到2421个词。对不相关关键词进行清洗,将处理后的2335个关键词作为此研究领域的主要研究方向。

出现次数越多的关键词,说明在此方向的研究越多,即关注度越高。具有这一特点的关键词称为高频词,并用前N位选取法从全部关键词中确定高频词[14]。取词频数不小于6的关键词作为高频词,共确定43个高频词。

根据高频词的两两共现频次,使用python生成高频词共现矩阵。通过使用SPSS软件对高频词进行因子分析。通过分析得到的共同度表、总方差分解表和旋转后的因子载荷矩阵,确定大数据在图书情报学的主要研究方向。

共同度表示全部的因子对原变量方差的解释水平。根据分析因子总方差解释表,把高频词分为13个因子,如表1所示。从而得到大数据在图书情报学的主要研究方向。根据每个因子包含的高频词,为核心主题命名。

表1 因子及其关键词

(二)主要研究方向详述

根据因子分析的结果,大数据在图书情报学方向共有13个主要研究方向,对研究热点进行整合归类,可以分为三个主要研究方向。(1)大数据理论:包括大数据思维、数据管理与素养等;(2)大数据方法:包括数据挖掘与可视化、Hadoop、共词分析、聚类分析等;(3)大数据应用:包括图书馆服务、数据服务、情报工作、情报学、突发事件、高校图书馆、数字图书馆、企业信息分析、竞争情报等。下面对这三个方向进行详细阐述。

1.“大数据”理论

在图情领域,大数据理论的研究热点涉及数据管理与素养、大数据思维等方面。完善大数据的相关理论是发掘图情领域大数据的深层价值的基础。

许多图情领域的研究者提出和丰富了大数据思维相关理念的内涵和外延。和婷提出了有助于扩大信息服务范围和提高信息服务质量的创新图书馆的信息服务模式[15]。张丽娜、夏庆利探讨了高校人事档案信息化建设[16],从而提高资源整合度,防止人才资源的流失。张浩如从大数据视角转变思维、实施数据分析,提出了新的图书馆的品牌建设与营销方法[17]。

随着大数据在图书情报学领域的重要性日益提升,数据素养与数据管理逐渐被研究者重视。数据素养是组织、理解和评价信息,使用数字技术进行数据处理的能力。数据管理是先进的管理技术方法,更是全新的思维理念。金波、晏秦分析了数据管理对档案信息服务的影响,研究了探索数据管理背景下档案信息服务的创新内容[18]。邓李君提出了高校图书馆应当针对不同的培训对象采取不同的数据素养教育策略等数据素养教育建议[19]。

大数据思维、数据管理与素养等大数据理论是图书情报学领域大数据方法与应用研究的基础。由于图情领域有大量的信息与数据,重视对大数据理论的研究与学习有助于更充分地理解数据、分析数据、挖掘数据蕴含的海量信息。

2.“大数据”方法

在图情领域,要将“大数据”落到实处,必须考虑如何将先进的技术和方法与大数据结合,应用于图书情报学中。众多图书情报学领域的研究者对数据挖掘与可视化、Hadoop、共词分析、聚类分析等方法技术进行了深入地探索。

数据挖掘技术的重要性及其巨大的价值在图书情报学领域日益凸显。许多学者通过对文本进行数据挖掘,研究不同学科的研究热点,从而对各个领域的研究主题进行统计和预测。吴晓英、明均仁等以技术挖掘技术为核心,构建了基于数据挖掘的大数据管理模型[20]。 洪亮、李雪思、周莉娜等结合近三年国内外相关研究文献,分类探讨了数据挖掘在不同领域的应用,如商业智能、医药卫生、学术文献、社交媒体等[21]。此外,可视化技术进一步推动了大数据背景下的信息分析工作。赵蓉英、魏明坤通过可视化分析,直观地呈现大数据发展情况,揭示大数据的研究现状和研究热点[22]。

随着开源分布式计算框架Hadoop的迅速兴起和逐步完善,众多研究者发现了Hadoop高传输性、硬件低廉等优点,把Hadoop应用于网络舆情与信息分析。马梅等人把Hadoop引入到舆情分析,基于大数据建立了网络舆情分析系统模型[23],黄晓斌等人也建立了基于 Hadoop构架之上的企业竞争情报数据分析系统模型[24]。同时,Hadoop与图书情报学结合时也存在一些缺陷,如缺乏精细化的数据管理,支持迭代计算的性能较差等问题[25]。

在图书情报学领域,共词分析用某一领域相关文献中的高频关键词表示该领域的热点研究主题,常与聚类分析相结合,不同的簇表示不同的研究分支。李信等人对WOS题录数据进行共词分析与聚类分析,挖掘图书情报学科的热点方向[26]。

数据挖掘与可视化、Hadoop、共词分析、聚类分析等方法并非完全独立,互相存在一定交叉。因此在对大数据的研究中,应将先进的技术方法综合使用,才能更充分地在图书情报学领域利用大数据。

3.“大数据”应用

大数据在图情领域的应用非常广泛,主要包括基于图书馆和数据的服务方案设计、高校数字图书馆的建设、各领域的情报分析和档案信息数据应用等。

通过总结人们在大数据时代下的行为规律,研究者提出了一系列能够满足新需求的服务方案。夏一雪、兰月新等根据网络舆情的大数据特征,通过微分方程、数值仿真方法分析了网络舆情的反转及其预测机理[27]。电子政务在大数据和云计算的推动下逐渐朝着“智慧政务”转型,如将云计算的结构融入进了政务体系[28]、量化自我行为的解决措施[29]。

图书馆既是进行读者教育的主角,又是高校的文献中心和科研服务中心。学者们从应用、建设、服务模式等方面深入探讨了图书馆应如何顺应大数据时代发展,高效地为社会贡献价值。孟祥保等研究了国外的高校图书馆在培养数据素养方面设置的课程,总结了值得借鉴的经验[30]。邓李君等进一步提出了针对不同角色的数据素养的教育策略[31]。在数字图书馆基础设施建设[32-33]、服务模式[34]等方面有颇多研究成果。

大数据环境为情报行业源源不断地提供着新的研究方向。刘小琳、曾祥效从科技情报的需求出发,提出了围绕情报服务链条部署相关情报服务的构思[35]。研究者探索了情报分析工作在不同领域方面的应用(如公安情报、科技情报、企业信息等),讨论了关于“城市病”的决策方案、以纽约为例的城市管理方案[36]。

大数据在图书情报学领域的应用非常丰富,解决了图书馆异构数据集成、数据素养欠缺等众多现存问题。

三、核心主题结构分析

学科的主题结构可以表达任意主题间的关联。 通常在共词网络的基础上构建主题结构,并将主题关系使用网络图谱进行展示。在主题结构中,通过使用寻径网络图谱研究学科主题的发展方向。在寻径网络图谱中,节点越靠近中央,代表在研究中处于越主要的地位。

把高频关键词作为节点、相关性系数作为权重,使用Ucinet和Netdraw绘制了寻径网络图谱,属于同一因子的关键词颜色相同,每个节点代表了一个热点关键词[37]。热点关键词与标号的对应关系如图4所示,进而研究分析大数据在图书情报学领域的核心主题结构。

图4 大数据在图情领域的高频词寻径网络图谱

从图4中看出,自2012年到2019年存在多个中心子群,“图书馆”、“知识发现”、“数据挖掘”、“信息服务”位于中心位置,说明“图书馆”、“知识发现”、“数据挖掘”、“信息服务”是大数据在图书情报学最基本最核心的内容。由此演变出云计算、知识图谱、数据管理、科学数据等方向。

四、核心主题分析

为分析各主题在图书情报学领域大数据方向中的研究情况,本文采用战略坐标分析法,通过绘制战略坐标图对研究领域中各主题类团的内部发展状况进行具体分析,从而体现研究领域中各主题的研究情况。

战略坐标图可以体现某个学科领域中各主题的研究情况。本文将因子分析所得的各类关键词间共现之和的平均值定义为向心度,作为坐标图的横坐标;将各因子的贡献率定义为密度,作为坐标图的纵坐标。根据以上数值的平均值定义坐标原点,对应于坐标轴上的(0,0)点进行战略坐标图的绘制[38]。图情领域大数据核心主题战略坐标图如图5所示。

图5 核心主题战略坐标图

对图5中的点按象限分类。处于第一、四象限的为学科研究的核心主题,其中处于第一象限的是发展较成熟的研究热点,而处于第四象限的为发展尚未成熟的研究热点。综上得出,情报工作和数据管理与素养为2012~2019年的主流研究主题。

五、结语

通过对上述研究成果的梳理发现,研究者关注的大数据应用领域广泛。围绕大数据在图书情报学领域的后续研究,不仅需要进一步深化大数据主题的研究,而且需要逐步形成内容框架和方法体系,产生更有价值的理论、方法与应用研究成果。在以下方面值得更深入探索:

在研究视角上,大数据在图书情报学的研究实践超前于理论。针对大数据方法与各领域的应用较多,但是对其理论的研究较少。研究者可以从现有的应用中精炼归纳出大数据理论与规律,有助于产生更有价值的理论与应用研究成果。

在研究主题上,大数据应用中的高校图书馆、数字图书馆和情报学处于核心位置,其中图书馆、知识发现是最核心关注度最高的研究方向,但是尚不成熟。因此,建议研究者在这些方向上继续深入研究。

在应用领域上,目前大数据在图书情报学的成熟应用领域在情报工作、图书馆服务、突发事件等方面,研究者还可以继续深化到企业大数据、竞争情报等领域。

研究者还需加大在图书情报领域中对大数据的研究力度,深入探索大数据应用的切入点,不断推动图书情报学领域的发展。

猜你喜欢
图情情报学方向
数字时代图情档学科教育的数据化创新
开放与融合:公安情报学进入情报学方式研究*
2022年组稿方向
2021年组稿方向
2021年组稿方向
新文科建设背景下的图情档学科建设(笔谈)“新文科”呼唤图情档成为“硬”学科
构建中国特色的情报学
聚青年学者之睿智 窥图情档学科之未来
——写在《图书与情报》“图情档青年学者专辑”出版之前
中国盲人数字图书馆服务情况及展望
位置与方向