国内图书情报领域大数据研究的文献计量分析

2017-09-06 02:09雷水旺
新世纪图书馆 2017年8期
关键词:图书情报文献计量大数据

雷水旺

摘 要 大数据是国内图书情报领域近几年的研究热点。论文以中国知网学术期刊网络出版总库为数据来源,采用文献计量和可视化方法,利用Excel、Sati3.2和Ucinet软件,对国内图书情报领域大数据研究文献的年代分布、期刊分布、研究作者、研究机构、知识基础和研究主题进行梳理和分析,以了解我国图书情报领域的大数据研究现状,并针对存在的问题提出相应建议。

关键词 图书情报 大数据 文献计量

分类号 G250

DOI 10.16810/j.cnki.1672-514X.2017.08.019

Bibliometrical Analysis of Big Data in Library and Information Science of China

Lei Shuiwang

Abstract Big data is a hot spot in library and information science of China in recent years. This paper selects CNKI as data sources and uses bibliometrical analysis and visualization methods. It uses Excel, Sati3.2 and Ucinet software to comb and analyze papers of big data in library and information science of China from the aspects of chronological distribution, journal distribution, the authors, research institutions, knowledge basis and research topics, in order to understand the present situation of big data research in library and information science of China, and put forward corresponding suggestions to the existing problems.

Keywords Library and information science. Big data. Bibliometrical analysis.

我国图书情报领域的大数据研究起步于2008年,已有众多学者对大数据在图书情报领域进行了相关研究,2014年公布的国家社科基金年度项目和青年项目立项名单中,“图书馆、情报与文献学”学科与大数据相关的有18项,占总数量的13.7%,2015年有11项,占总数量的8.3%[1] ,虽然比重稍有下降,但仍可看出图书情报领域学者对大数据研究的持续关注。在对大数据研究中,陆静[2]采取文献阅读和系统分析法,对国内图书情报领域的大数据研究文献进行梳理和综合述评;王春华[3]等人运用共词分析法、借助SPSS软件分析国内图书情报领域大数据的研究热点;于雪[4]从大数据概念、大数据与图书馆、大数据与服务、大数据与资源建设、大数据与图书情报研究五个角度探讨国内图书情报领域大数据的发展趋势。但已有的研究成果中还未出现运用文献计量方法对国内图书情报领域大数据研究进行梳理的文献,因此本文试图从文献计量的角度出发,对图书情报领域大数据研究的研究阶段、核心期刊、高产作者、重要研究机构、知识基础和研究主题进行梳理和分析,以期为国内图书情报领域大数据的后续研究提供参考。

1 数据来源和数据处理

鉴于中国知网的中国学术期刊网络出版总库是我国影响力最大、收录最全的学术期刊全文数据库,本文以中国知网(CNKI)为数据来源,在CNKI中国学术期刊网络出版总库的高级检索中以“大数据”和“big data”为主题精确检索字段,时间不限,来源不限,学科类别限定为图书情报与数字图书馆,检索出国内图书情报领域与大数据研究相关的1312条记录,检索时间为2016年3月2日。为提高检索结果的准确性和真实性,通过浏览文献的篇名、摘要或全文,剔除一些内容相关度不高的文献,如会议通知、期刊征稿通知等,最终得到1104条文献记录。

以上的1104条文献记录为本文研究的基础,从中国知网中导出并保存为所需要的Endnote格式,利用Excel、Sati3.2和Ucinet软件对数据进行处理,采用文献计量和可视化方法对1104条文献记录的年代分布、期刊分布、研究作者、研究机构、知识基础和研究主题进行梳理和分析,以了解国内图书情报领域大数据研究的研究现状和发展规律。

2 文献计量分析

2.1 年代分布分析

国内图书情报领域大数据研究论文的年代分布情况可以反映图书情报领域学者对大数据的关注趋势,以及大数据研究在我国图书情报领域的发展阶段和发展水平。按年代分布统计国内图书情报领域大数据研究每年的发文量,得出发文量变化趋势图,如图1所示。

由于学术界2008年才正式提出“大数据”概念,因此将2008年以前图书情报领域发表的大数据研究论文综合统计。通过图1可知,2008年以前国内图书情报领域共发表大数据研究论文11篇,进一步阅读和分析全文,发现论文更多提及的是“大数据量”“大数据集”“大数据流”“多媒体数据库”“图书馆自动化数据”“网络数据”“数据元”等,主要以图书情报机构业务开展过程中产生的或应用的规模较大的数据为研究对象。从2008年到2011年,国内图书情报领域大数据研究论文的发文量缓慢增加,研究对象以数据仓储、语义网、网格、数据挖掘、云计算为主,为大数据研究的快速增长奠定了坚实基础。2012年以后,国内图书情报领域大数据研究论文的发文量迅速增加且增长幅度较大,2015年已高达462篇,平均每月38篇,可见大数据已迅速成为国内图书情报领域的研究热点,研究视角多样,研究内容广泛,涉及大数据对图书情报领域的影响和变革、大数据与图书情报机构的关系、大数据在图书情报领域的应用等多方面内容。2012年8月发表在《图书与情报》上的《大数据时代图书馆服务浅析》[5]一文,是國内第一篇正式公开发表的图书情报领域大数据研究学术论文。综合上述分析,2008年以前是国内图书情报领域大数据研究的萌芽阶段,2008—2011年是国内图书情报领域大数据研究的起步阶段,2012年至今是国内图书情报领域大数据研究的快速发展阶段,随着研究机构和研究力量的增加,国内图书情报领域的大数据研究将更加稳定和成熟。

2.2 期刊分布分析

通过对国内图书情报领域大数据研究论文的期刊分布情况进行统计分析,可以确定国内图书情报领域大数据研究的核心期刊,为研究作者查找资料、发表论文提供指导和帮助。对1104篇文献的来源期刊进行统计,并按期刊载文量降序排列,发现国内图书情报领域的大数据研究成果分布在244种期刊上。其中,刊载1-5篇论文的期刊有202种,共载文402篇,占论文总数量的36.4%;刊载6-10篇论文的期刊有20种,共载文153篇,占论文总数量的13.9%;刊载11篇(含)以上论文的期刊有22种,共载文549篇,占论文总数量的49.7%,表1列出了载文量在11篇(含) 以上的期刊。

通过表1可以发现,国内图书情报领域大数据研究载文量较多的期刊有《农业图书情报学刊》 《图书情报工作》《科技情报开发与经济》《现代情报》 《图书馆学刊》《图书与情报》 《情报杂志》 等,这些期刊是国内图书情报领域大数据研究的核心期刊,其中《农业图书情报学刊》 最多,载文57篇,《图书情报工作》次之,载文53篇。在这22种期刊中,有13种期刊是图书情报学科CSSCI来源期刊,所占比重为59.1%,可见图书情报领域的核心期刊紧跟时代热点,重视大数据研究,但在载文量排前五的期刊中只有2种CSSCI来源期刊,说明国内图书情报领域的大数据研究还没有形成相对稳定和高质量的核心期刊群。

2.3 作者分布分析

通过作者分布分析,可以了解国内图书情报领域大数据研究的主要研究作者和研究作者群,有利于了解其研究内容,促进学术交流与合作[6]。对1104篇文献的主要作者进行统计分析并按作者的发文量降序排列,发现1104篇文献共涉及1320位作者,其中1184位作者仅发表1篇文献,占作者总数量的89.7%,可见国内图书情报领域大数据研究还没有形成稳定的核心作者。根据普赖斯定律,高产作者最低发文量N=0.749* ,其中为统计年限内最高产作者的发文量[4]。经统计,国内图书情报领域大数据研究发文量最多的作者是马晓亭,共发文16篇,那么高产作者最低发文量N=0.749*=2.996,因此发文量≧3篇的作者为国内图书情报领域大数据研究的高产作者,共34位,占作者总数量的2.58%,说明国内图书情报领域对大数据的持续研究还有待提升,需要这些高产作者继续重视研究大数据,形成较大规模的研究体系,表2列出了发文量≧4(篇)的作者及其主要研究内容。由表2可知,国内图书情报领域大数据研究的领军人物大多来自于著名高校的管理学院和图书馆,研究内容集中于大数据环境下的信息服务、知识服务、企业竞争情报、数字图书馆、用户隐私保护、科学数据管理和数字资源融合等,这些高质量的研究成果为其他学者的大数据研究提供了研究基础。

为进一步了解国内图书情报领域大数据研究的合作情况,利用Ucinet软件生成国内图书情报领域大数据研究的高产作者知识图谱,如图2所示。从图2可知,国内图书情报领域大数据研究的高产作者形成了少量的研究群体,其中规模最大的是以张兴旺为中心,包括李晨晖、麦范金、钟辉新、黄晓斌在内的合作网络,张兴旺来自桂林理工大学图书馆,李晨晖、麦范金来自桂林理工大学现代教育技术中心,钟辉新来自电子科技大学中山学院图书馆,黄晓斌来自中山大学资讯管理学院,这是一个跨地区跨机构的合作网络,合作强度较大,主要研究方向是大数据时代的企业竞争情报和知识服务。此外,国内图书情报领域大数据研究形成了“吴金红-张玉峰-陈强”“王锰-陈雅-郑建明”“董瑞玉-陈锐-冯占英”的三人合作群,共同发表大数据研究成果,合作关系较为稳定。

综上分析,国内图书情报领域大数据研究的高产作者之间合作关系不强,合作度较低,没有形成比较稳定的规模较大的合作群。大数据是一个新兴研究领域,具有典型的多学科性和跨学科特征,研究内容丰富,作者之间尤其是高产作者之间应加强跨地区跨机构的学术交流与合作,取长补短,互相吸收研究成果,共同推进大数据研究在国内图书情报领域的发展速度和发展水平。

2.4 机构分布分析

通过机构分布分析,可以确定国内图书情报领域大数据研究的主要研究机构,了解其研究内容,把握国内图书情报领域大数据研究的研究进展和研究前沿。对1104篇文献的发文机构进行统计并按发文量降序排列,发现1104篇文献共涉及831所研究机构,表3列出了发文量≧5(篇)的重要研究机构。从表3可以看出,国内图书情报领域大数据研究的主要研究机构有兰州商学院信息工程学院、桂林理工大学图书馆、武汉大学信息管理学院、兰州商学院网络中心和武汉大学信息资源研究中心等,其中兰州商学院信息工程学院发文量最多,共发文19篇,桂林理工大学图书馆次之,发文16篇,这些机构在国内图书情报大数据研究领域处于领先水平。

为进一步了解国内图书情报领域大数据研究机构的分布状况,对831所发文机构按不同的类型分类,发现国内图书情报领域大数据研究的研究机构涵盖高校图书馆、公共图书馆、信息管理/管理学院、信息工程/计算机学院、研究中心/院/所、法/经济/人文学院、企业和其他类型的事业单位等多种类型。图3显示了不同类型机构的发文量占文献总数量的比重,可以说高校图书馆、研究中心/院/所、信息管理/管理学院、公共图书馆是国内图书情报领域的主要研究阵地,尤其是国内著名的武汉大学信息管理学院、中山大学资讯管理学院、南京大学信息管理学院、北京大学信息管理系等图书情报院校和各省市的情报研究所以其独有的人才、技术和资源优势,在大数据研究领域发挥着领军作用。大数据环境下,用先进的大数据技术处理和挖掘大数据的价值是其重心所在,因此大数据研究尤其需要信息工程、计算机等专业技术人才的投入,信息工程/计算机学院是大数据研究的重要研究机构,其研究成果能极大地为图书情报领域提供参考。

2.5 知识基础分析

一个领域的知识基础是该领域文献的引文及其相互引用关系的集合,由于中国知网不提供引文数据,本文主要从被引频次和下载量两方面来分析国内图书情报领域大数据研究的知识基础。借助中国知网本身的统计数据,表4列出了国内图书情报领域大数据研究的高被引频次和高下载量的文献,这些文献是国内图书情报领域大数据研究的经典文献,对国内图书情报领域大数据研究的发展起到了关键性奠基作用。其中被引频次和下载次数最高的是2012年11月发表在《图书馆杂志》上的《图书馆需要怎样的“大数据”》[7],论文分析了图书馆大数据的主要数据来源,并结合图书馆知识服务现状探讨大数据给图书馆带来的机遇和挑战。从研究內容来看,这些高被引下载文献主要涉及大数据给图书馆带来的影响、大数据时代的知识服务和企业竞争情报等研究主题,说明国内图书情报领域的大数据研究更注重基础理论研究,也取得了很多高质量的研究成果。从期刊来源来看,10篇文献中有5篇来源于《图书与情报》,可见《图书与情报》走在了领域前沿,是我国图书情报领域大数据研究的重要文献载体。

2.6 研究主题分析

关键词是文献研究内容的精炼概括,提取高频关键词并构建高频关键词共现知识图谱有利于把握图书情报领域大数据研究的研究主题。利用Sati3.2软件抽取关键词并进行频次统计,发现国内图书情报领域的1104篇大数据研究文献共包含1957个关键词,选取频次排前51位(频次≧7) 的高频关键词,如表5所示。从表5可知,国内图书情报领域大数据研究围绕“大数据”产生了一系列高频关键词,研究内容丰富,“大数据”的出现频次最多,为539次,“图书馆”次之,出现239次。分析这些高频关键词可以发现,从研究对象上来看,大数据环境下高校图书馆、公共图书馆、专业图书馆、数字图书馆、移动图书馆、智慧图书馆等实体或虚拟图书情报机构的发展与创新是图书情报领域学者的主要关注对象;从研究内容上来看,围绕“资源、服务、用户、技术、管理、评价”,大数据时代的思维与技术变革对图书情报机构的运作管理、资源建设、服务创新、人才培养产生的影响是图书情报领域学者的重点关注内容;从研究前沿上来看,学者们对云计算、物联网、数据挖掘、信息安全、竞争情报、知识服务、数据可视化等内容保持着较高的研究热情。

为进一步了解国内图书情报领域大数据研究高频关键词之间的关系,构建了51个高频关键词的共现矩阵,导入Ucinet软件中生成高频关键词共现知识图谱,如图4所示。图4中的圆圈代表高频关键词,圆圈越大,表示关键词出现的频次越高,连线代表关键词之间的共现强度,线越粗,表示共现强度越大。

从图4可以看出,国内图书情报领域大数据研究的高频关键词共现网络以大数据、图书馆、高校图书馆、信息服务为核心,這四个关键词有较高的词频,与其他关键词共现次数也较多,是国内图书情报领域大数据研究的核心研究热点,相关研究已趋于稳定和成熟。此外,数字图书馆、知识服务、数据挖掘、数据分析、云计算与其他关键词也联系紧密,是国内图书情报领域大数据研究的重要研究内容,随着时间的推移,这些研究内容也可能会成为核心研究热点。结合表5和图4,对国内图书情报领域大数据研究的研究主题进行了归纳,如表6所示。

3 结语

本文采用文献计量和可视化方法对国内图书情报领域大数据研究文献的发文年代、期刊分布、机构分布、作者分布、知识基础和研究主题进行了梳理和分析,可以看出,国内图情领域的“大数据”相关研究目前正处于快速发展阶段,其研究视角多样,研究主题丰富。但不可否认,从分析中我们也发现了对“大数据”研究存在着不足之处,如核心期刊对大数据的关注有限,没有稳定的核心研究团队等等。因此,笔者提出如下几点建议。

3.1 加强大数据基础理论研究,推进完整研究体系的形成

目前,国内图书情报领域对大数据的研究正处于研究高峰,发文量急剧增长,但没有出现体系化的研究成果,已有的研究成果以大数据在图书情报领域的应用为主,大数据理论方面的权威成果相对匮乏,难以为大数据在图书情报领域的实际应用提供理论支撑。因此,国内图书情报领域的学者应加强对大数据的基础理论研究,推进大数据完整研究体系的形成。

3.2 加强不同研究主体之间的学术合作与交流

从前文对我国图书情报领域大数据研究作者的合作情况分析可以发现,虽然国内图书情报领域大数据研究涉及的作者数量众多,但很多研究者只是对大数据进行基础性的探讨,没有形成高质量的核心作者和大规模的合作群体。大数据是一个具有典型多学科性和跨学科特征的领域,图书情报领域的学者应大力开展学术合作,通过知识的交流碰撞和资源的优势互补,提高国内图书情报领域大数据研究的竞争力和影响力。

3.3 深入探讨已有研究主题,拓展新的研究主题

根据前文对研究主题的分析结果,国内图书情报领域对大数据的研究在大数据对图书馆的影响与变革、大数据与资源建设、大数据与服务创新等研究主题上已取得较为显著的研究成果,但研究成果重复率较高,还有很多未涉及的领域,与其他学科领域相比,在研究深度上还存在一定差距。因此,国内图书情报领域的学者应加强对大数据的创新性研究,寻找新的研究视角和突破口,以期在国内大数据研究领域发挥重要作用。

参考文献:

[1]全国哲学社会科学规划办公室.通知公告[EB/OL]. [2016-02-03].http://www.npopss-cn.gov.cn/.

[2]陆静.我国图书馆界大数据研究述评与展望[J].图书馆杂志,2014(1):20-25.

[3]王春华,李维,文庭孝.我国图书情报领域大数据研究热点分析[J].图书情报知识,2015(4):82-89.

[4]于雪.我国图书情报领域大数据研究趋势探讨[J].现代情报,2014(12):134-137.

[5]杨海燕.大数据时代图书馆服务浅析[J].图书与情报,2012(4):120-122.

[6]蒋娟,蒋逸颖.图书情报领域信息资源管理研究的文献计量分析[J].图书馆,2016(1):69-73.

[7]杨瑞仙,任丽娟,李雪芹,等.基于文献计量的我国高校图书馆移动服务研究[J].现代情报,2015(8):108-112.

[8]樊伟红,李晨晖,张兴旺,等.图书馆需要怎样的“大数据”[J].图书馆杂志,2012(11):63-68.

[9]韩翠峰.大数据时代图书馆的服务创新与发展[J].图书馆,2013(1):121-122.

猜你喜欢
图书情报文献计量大数据
图书情报服务中的现代信息技术应用分析
科研单位图书情报档案一体化管理可行性探索
浅谈图书情报档案一体化的发展趋势
我国医学数字图书馆研究的文献计量分析
国内外智库研究态势知识图谱对比分析
国内外政府信息公开研究的脉络、流派与趋势
基于文献计量分析我国生物科学素养研究状况(2001~2016年)
基于大数据背景下的智慧城市建设研究