杨玉梅 黎仁国 兰鹰
摘 要:通过CNKI核心期刊数据库,收集了近10年大数据在图书馆应用的文献,并运用CiteSpace的计量统计功能对文献的关键词进行统计,通过对关键词的分析,掌握该领域研究现状、热点以及趋势,把握研究重点,明确研究方向,为数据化浪潮下的相关研究提供参考。结果表明,当前大数据在图书馆的应用研究主要集中在数字图书馆、数据分析、信息服务、云计算、知识服务、人工智等领域,但学术无止境,研究人员应该尝试找到新的突破口,从而进行更多的创新性研究。
关键词:大数据;图书馆;知识图谱;Citespace
中图分类号:G35 文献标志码:A 文章编号:1673-291X(2024)06-0129-04
引言
大数据是伴随云计算、物联网和移动互联网等技术发展起来的新兴事物。大数据时代,数字已经渗透到当今各个行业和业务职能领域,成为重要的生产因素。在此过程中,海量的结构化、半结构化和非结构化的数据应运而生。这些数据具备体量大(Volume)、类型多(Variety)、价值密度低(Value)和速度快(Velocity)的4V特征。图书馆承载着知识的收集、存储、加工以及开发与创新的任务。随着大数据时代的到来,图书馆数据种类不断增加,数据量日益增长,智能化、个性化服务和对海量数据的实时分析和潜在价值挖掘的需求也在快速增长,因此图书馆在一定程度上也具备大数据的4V特征[1]。中国知网上不乏关于大数据在图书馆应用的研究文献,而其中篇名最能反映文献研究内容,所以课题成员限定检索字段为“篇名”字段,不限制时间,文献来源类别限定为北大核心、CSSCI、CSCD,检索日期为2022年4月30日,以“大数据”和“图书馆”作为检索词,共检索出404篇文献。根据知网检索结果统计,这些文献中应用研究占66.67%,开发研究占25.93%,行业研究占3.7%,管理研究占3.7%。在大数据背景之下,图书馆具体做了哪些方面的工作或研究,单凭阅读几篇文献还不足以深入了解。因此,为了准确把握图书馆在大数据环境下的成长过程及发展趋势,本文以图书馆在大数据时代的研究文献为研究对象,并运用CiteSpace的计量统计功能对文献的关键词进行统计,通过关键词的分析,掌握该领域研究现状、热点以及趋势,把握研究重点、明确研究方向,以应对当今时代下的数据化浪潮,并为今后的研究提供参考。
一、数据来源与研究方法
(一)数据来源
通过在中国知网数据库查阅相关文献了解到,如今大数据背景下的图书馆研究越来越受研究人员的关注,但是鲜有人对其做系统化分析。本文以中国知网数据库相关文献为研究对象,对收集的文献数据进行梳理归纳,对作者、关键词等做统计以及图谱分析,并根据分析结论总结目前国内大数据背景下图书馆的研究现状、热点及趋势,为图书馆数据化实践提供理论指导。
(二)研究方法
本研究采用了文献调研法和文献计量法。知识图谱可以对学科知识的结构、规律和分布情况进行可视化呈现,同时可以对学科领域的历史脉络、发展动态、研究热点和研究前沿进行科学绘制、全景勾勒和重点凸显[2]。Citespace可以构建可视化知识图谱,能够直观反映某一领域的研究热点、趋势等。笔者通过在中国知网数据库期刊库收集大数据在图书馆应用的相关研究文献,借助Citespace和中国知网的分析功能,对论文年度发文量、关键词共现、关键词突现图等进行分析,揭示其研究现状、热点、前沿和趋势。
二、文献统计与知识图谱分析
(一)年份发文数量统计分析
通过对文献的年代发文量统计,可以在一定程度上发现某一個主题的研究发展速度和规模。本文对通过之前提到的条件下检索出来的文献进行了统计,发现基于大数据的图书馆研究方面的文献最早发表时间为2012年8月,从2012—2022年,核心期刊文献发表数量统计如表1所示。
从表1可以看出2012—2022年基于大数据的图书馆研究文献数量变化过程。2012—2014年是逐步上升的阶段,2014年增加明显,2016到达高峰。2015—2018年文献增量相较之前有所减少,但该期间数量变化幅度不大,相对较稳定。从2019年开始发文量呈下降趋势,随后逐年降低。
(二)关键词共现分析
关键词是文献作者提取出来的体现文献主要内容或主要内容某一方面的词汇。高频关键词共现图谱能够有效地帮助研究者了解某一领域的研究文献主题分布情况,并能掌握某一领域的研究热点。本研究运用Citespace的关键词分析功能,设置时间为1992—2022年,Time Slicing设为1年,将节点类型设置为“Keword”,节点阙值设置为50,选择Pathfinder算法,得到高频关键词知识图谱见图1。图1中,节点数量N=315,节点间连线数量E=609,节点间联系紧密。图中“大数据”节点最大,代表该关键词在所研究文献中出现频率最高;其次是“图书馆”“数据挖掘”“知识服务”“信息服务”“云计算”等。因为关键词“图书馆”和“大数据”是研究主题确定的关键词,所以虽然这几个高频词汇出现频率高,但是体现不出大数据在图书馆应用研究的具体方向,而排名随后的高频词汇则更能体现图书馆大数据应用研究的具体情况。表1列出了排名前20的高频词汇,除去“大数据”“图书馆”,其他高频关键词,如“大数据”“图书馆”“学科服务”“信息服务”“数据挖掘”“知识服务”“数据分析”“精准服务”“数据处理”和“服务模式”等的中介中心性值较强,是该学科领域关注的焦点,也是研究热点。
(三)关键词聚类分析
聚类分析是一种探索性的分析,指将物理或抽象对象的集合分组为由相似的对象组成的多个聚类的分析过程。聚类过程中,研究人员不必事先定义分类标准,聚类分析能够从样本数据出发自动进行分类,将数据分类到不同的类或者簇这样的一个过程,因此同一个类或者簇中的对象有很大的相似性,可以定义为一个研究领域。本文运用Citespace对样本数据进行聚类分析,通过LLR算法提取数据标签为聚类名,得到关键词聚类图谱为图2。聚类结果显示,聚类模块值Q=0.5005>0.3,说明聚类结构显著;聚类平均轮廓值S=0.8781>0.7,说明该聚类可信。主要聚类有“#0图书馆”“#1数字图书馆”“#2数据分析”“#3知识服务”“#4信息服务”“#5云计算”“#6精准服务”“#7区块链”“#8人工智能”“#9大数据服务”“#10知识管理”“#11协同过滤”。
图2 大数据在图书馆的应用研究关键词聚类图谱
通过“timeline”绘制关键词聚类的时间图谱,如图3所示。从图3中可以看出每个研究领域的时间跨度及研究主题。
“#0图书馆”“#1数字图书馆”“#2数据分析”“#4信息服务”和“#5云计算”聚类对象最早出现时间为2012年。其中,“#0图书馆”聚类内部时间跨度最长,从2012年一直延续至今;其次是“#4信息服务”,从2012年延续至2020年。除此之外,聚类对象出现时间较2012年晚,且持续时间较长的是“#3知识服务”“#6精准服务”“#7区块链”和“#8人工智能”。
(四)关键词突现
关键词突现是某一时期内关键词出现频率突然增加,关键词突现图谱能够体现某一时期内研究领域的研究热点。通过Citespace提供的Burst detection功能对高频关键词进行统计,本研究共统计出25个突现词,结果如图4所示。突现关键词的Strength值越高,说明这一时期在该关键词方面的研究越多。不同时期内突现词的变化反映了研究热点随时间推移产生的变化,通过对突现因时间变化的推移研究,可以进一步了解研究领域的发展趋势。
从图4看出,2012—2014年间突现关键词有“数据挖掘”“数据处理”“数据分析”和“云计算”,其中“数据挖掘”突现强度最大。2013—2017年间突现关键词有“知识服务”“信息服务”“保护”“信息素养”“敏感数据”“微服务”“服务创新”“服务模式”和“互联网+”,其中“微服务”突现强度最大。2018—2022年间突现关键词有“精准服务”“区块链”“共词分析”“图像资源”“人工智能”“数据驱动”“系统设计”“读者服务”“智慧服务”“化学科学”和“智慧化”,其中“精准服务”突现强度最大,且持续时间最长。
三、结论
本研究通过Citespace对2012年至2022年4月CNKI中核心期刊收录的404篇关于大数据在图书馆的应用方面的文献进行了统计,通过统计分析得到以下结论。
1.通过聚类时间线可以看出,图书馆聚类、数字图书馆聚类、数据分析聚类、信息服务聚类、云计算聚类的相关研究从2012年开始持续到最近时间为2022年。知识服务聚类、精准服务聚类、区块链聚类、人工智能聚类,相关主题最早研究时间开始于2013年,持续研究时间到2021年。持续性最长的是图书馆聚类,计算和数据分析等关键词的出现频率较高,表明当前大数据在图书馆的应用研究主要集中在这些方面。
2.从核心期刊发文量统计来看,2012—2017年的发文量基本呈上升趋势,2014—2017年4年间是发文量顶峰时期,但是从2018年开始发文量开始减少,到2021年仅有17篇,2022年在设定的检索日期内仅检索到1篇。从文献数量上可以看出,大数据在图书馆的应用研究在前期备受研究人员关注,但随着时间推移研究文献数量逐渐减少,研究似乎进入疲软状态。由此可见,要在该领域做好持续性的研究,研究人员应该尝试找到新的突破口,进行更多的创新性研究。
3.关键词突现图中,根据突现强度的强弱可以看出,2012—2015年的研究主要集中在“数据挖掘”“数据处理”“数据分析”“知识服务”等主题上。2018年—2022年,“精准服务”“系统设计”“读者服务”“智慧服务”“智慧化”这些关键词突现强度值较大,这类主题是目前研究的主流。
参考文献:
[1] 何胜.高校图书馆应用模式与实证研究[M].兰州:兰州大学出版社,2020.
[2] 佘世红,杨锦玲.计算传播研究的起源、演进与展望:基于SSCI数据库的知识图谱分析(2006—2020)[J].新闻与传播评论,2022,75(3):84-99.
[3] 文怡.数字人文背景下高校图书馆特藏资源建设策略探析[J].图书馆工作与研究,2023(1):48-55.
[4] 赵竹青,刘佳静,郑建明.图书馆智慧服务模式的基本要素与逻辑架构[J].图书馆,2023(1):28-35.
[5] 杨格格,朱荀,徐双培.数据素养视角下高校图书馆阅读推广策略研究[J].图书馆,2023(1):82-87.
[6] 文佩丹,杨新涯,尹伟宏.智慧图书馆零数据分析系统的设计与构建[J].图书馆学研究,2022(11):39-46.
[7] 程健,娄佳.美学视角下的图书馆管理艺术的改革创新路径:《图书馆管理艺术与信息化应用研究》荐读[J].情报理论与实践,2022,45(11):206.
[8] 施雨,茆意宏.新一代信息技术环境下的阅读服务国内外研究综述[J].图书馆杂志,2023,2(2)1-16.
[9] 董曉莉.数据化视角下图书馆数字资源长期保存系统平台模型构建[J].图书馆工作与研究,2022(10):31-37.
[10] 周玉林.数字图书馆知识产权保护的立法体系完善[J].西南民族大学学报(人文社会科学版),2022,43(9):82-88.
Analysis of Library Big Data Application Based on Knowledge Graph
YANG Yumei1, LI Renguo2, LAN Ying1
(1. Library and Archives, North Sichuan Medical College, Nanchong 637100, China;
2. School of Mathematics and Information, China West Normal University, Nanchong 637001, China)
Abstract: Through the CNKI core journal database, literature on the application of big data in libraries in the past 10 years was collected, and CiteSpaces econometric statistical function was used to statistically analyze the keywords in the literature. Through the analysis of keywords, the research status, hotspots, and trends in this field were grasped, the research focus was grasped, and the research direction was clarified, providing reference for relevant research under the trend of dataization. The results indicate that the current research on the application of big data in libraries mainly focuses on digital libraries, data analysis, information services, cloud computing, knowledge services, artificial intelligence, and other fields. However, academic research is endless, and researchers should try to find new breakthroughs in order to conduct more innovative research.
Key words: Big data; Library; Knowledge graph; Citespace
[責任编辑 柯 黎]