徐小莹 李辉
摘 要 进行学术期刊关键词分析对于掌握学科主题和学科构成脉络具有重要意义,由此本研究利用网络嵌入技术提取了大型关键词关联网络的高阶信息,并利用聚类算法对“图书馆学;情报学”学科进行关键词主题可视化分析。首先,刻画了关键词之间的局部聚集和全局分布,并分析了最近四年中该学科的热度持续、热度增加和热度减退主题,最后通过国内外关键词关联网络对比揭示了中外研究热点异同。
关键词 图书情报学 聚类算法 关联网络分析 大数据 共詞分析
分类号 G252.8
DOI 10.16810/j.cnki.1672-514X.2021.04.016
Hot Topics Detection of Discipline of Library and Information: by Analyzing a Large Scale of Co-Keywords Based on Network Embedding
Xu Xiaoying, Li Hui
Abstract Keyword analysis of academic journals is of great significance for mastering the subject theme and discipline structure. Therefore, this study uses network embedding technology to extract high-order information of large-scale keyword association network, and uses clustering algorithm to carry out keyword theme visualization analysis of “library science; information science”. Firstly, it describes the local aggregation and global distribution of keywords, and analyzes the topics of popularity persistence, popularity increase and popularity decrease in the past four years. Finally, it reveals the similarities and differences between domestic and foreign research hot spots through the comparison of keyword association networks at home and abroad.
Keywords Library and information science. Clustering algorithm. Association network analysis. Big data. Co-word analysis.
0 引言
学术论文是学科研究及其发展的重要呈现形式之一,其中论文关键词是一种表述特定学科主题的重要手段。关键词作为学术期刊所发表文献中的重要组成部分,通常由作者给出或由期刊建议,它们是对文献内容的浓缩和提炼,是能够反映文献主题概念和主要内容的自然语言词汇。每一个学科领域在特定时间内均积累了大量的关键词。通过对关键词集合的深入分析,可揭示所在学科领域的总体特征、研究重点内容、研究主题及其内在联系,以及发展脉络与发展趋势[1-2]。常见的关键词分析方法可分为单词出现频次分析[3]、双词共现频次[4]、关键词关联网络分析[5-6]等方法。单词出现频次分析法认为频次越高的关键词重要性越大,双词共现频次分析方法认为一对关键词共同出现次数越多,则代表它们的关系越紧密,频繁共同出现的关键词能够反映所代表学科的构成以及热点主题[7-10]。关键词关联网络分析方法扩展了双词共现词频,将所有共同出现的双词相互关联而形成一个网络,进而可描述关键词重要性及其在学科领域内的全局和局部联系[11-16]。
近几年,关键词关联网络成为了学科领域的研究热点,已经被广泛应用多个方面,包括创客、图书情报规划、学术出版服务、图书馆学研究热点发现等。然而,当前关键词关联网络方面的研究文献仅仅对100个之内的高频词汇进行网络分析,缺乏对学科关键词整体布局刻画,也缺乏对某个研究方向的细节描述。针对这一问题,本文以我国“图书情报”学科领域学术期刊上刊登的关键词为实证,利用网络嵌入技术实施大型复杂关键词关联网络分析,从而揭示该学科领域的主题结构、重点与热点问题、研究主题的特征,以及该学科逐年的发展趋势变化。同时,也通过对比中国与国际期刊关键词关联网络,阐明该学科领域国内外的研究主题特点与差异。
1 基于非负矩阵分解的网络嵌入分析方法
对于关键词分析的现有方法通常采用直接的网络可视化方法进行网络分析,即选取网络中由高频词构成的子网络进行显示。考虑到所研究对象是由上万个关键词及其数万条共现关系组成的大型关键词关联网络,为了也能显示次高频、中高频和低高频词,本文应用网络嵌入对关键词关联网络进行分析。
网络嵌入是一种能够适用大型网络分析和推理的热门技术,旨在将网络中的每一个节点表示成低维实值向量,使原网络的拓扑结构信息被高效地保存于学习到的向量中,进而可将得到的向量表示运用到网络分析中常见的应用中,如可视化任务、链接预测以及社区发现等任务。
对于本文的关键词关联网络,采用非负矩阵分解(NMF)实现网络嵌入[17-18],将关键词映射到低维甚至二维空间,不仅便于人眼观察,而且可使用机器学习算法进行深入分析,从而以定量的方式刻画关键词之间的局部聚集和全局分布关系。其数学描述如下:关键词关联网络可用权重图G(V,A)来表示,其中V={vi}表示结点集合,vi表示第i个关键词,称为结点;Ak×k={αi,j}称为权重矩阵,αi,j对应于两个结点共现词频。对于任意给定一个包含非负元素的关联矩阵Ak×k,NMF能够寻找到一个非负矩阵Uk×l和另一个非负矩阵Vl×k,使得满足A≈UV [18],其中L≤K。对于关键词关联网络而言,V的每一列将每一个关键词结点映射为L维向量,描述了该关键词的高阶统计信息。利用这种低维向量表示可以计算关键词之间的相似性和局部紧密连接关系。图1显示了网络嵌入的实施流程。
(2)属于热度增加主题的关键词一般来说是指排名逐年上升而且词频绝对值也逐年增加的词汇。热度增加的主题关键词有“智慧图书馆”“人工智能”“数字人文”“公共文化服务”“智慧服务”“用户画像”“扎根理论”“深度学习”“区块链”“空间再造”“机器学习”等。它们的出现词频和词频排名自2016起大幅度提升,其中2016年和2019年的数值突显了这些主题关键词的热度变化量。例如,“人工智能”在2016年出现了7次、排名第766,但在2019年出现了99次、排名第8。可以看出,大部分热度增加主题关键词涉及到“智能智慧”这个主题,顺应了2017年国务院颁布的《新一代人工智能发展规划》。
(3)属于热度减退主题的高频关键词一般来说是指排名逐年下降而且词频绝对值也逐年减少的词汇。热度减退的主题关键词有“建筑物”“MOOC”“微信”“读者服务”“移动图书馆”“数字资源”“云计算”“图书馆员”“微博”“学科馆员”“图书馆联盟”“元数据”“医学信息学”等。它们的出现词频和词频排名自2016起大幅度降低和下降,其中2016年和2019年的数值突显了这些主题关键词的热度变化量。例如, “MOOC”在2016年出现了109次、排名第12,但在2019年仅出现了10次、排名第350。此外,还有一些热度减退主题关键词,如“信息服务”“互联网+”“服务创新”等,其词频数值呈现出逐年的显著减少或其词频排名呈现显著下降。可以看出,大部分热度减退主题关键词涉及到已经成熟的信息平台,如MOOC、微信等;又或者涉及新技术相关主题,如“数据挖掘”已经被“人工智能”等先进技术所取代。
4.2 从网络嵌入空间的角度分析关键词变化趋势
基于网络嵌入方法的四个年度关键词共现网络分析,不仅能够揭示关键词个体热度变化,而且能够揭示关键词群体的年度变化趋势。共现关系密切的关键词在该空间中相距较近。根据上述关键词的三个类别,下面阐述高频和中频等重要关键词的变化趋势,其可视化结果如图9所示。
(1)热度持续主题关键词共现关系变化。四年中学科核心关键词在网络嵌入空间的位置分布中,词频最高的“高校图书馆”通常远离其它学科核心关键词,且在不同年份中与之相邻的热度持续主题词和热度变化关键词也不相同。这种多样性说明“高校图书馆”的相关研究内容变化较快。
学科核心关键词“图书馆”与“公共图书馆”在四年内始终保持较近的距离,不仅聚集了学科核心关键词中的“阅读推广”,而且也聚集了其它重要关键词,形成了学科核心关键词簇,但社区内的内容在不同年份中稍有变化。这些词汇正是图书馆学的核心研究主题。此外,另一个学科核心关键词“大数据”的变化也较为显著。
(2)热度增加主题关键词共现关系变化。以热度增幅最大的关键词“智慧图书馆”为例。在2016年,“智慧图书馆”邻近“高校图书馆”“大数据”“数字图书馆”和“云计算”,但与热度增加主题关键词中的“人工智能”较远;在2017年和2018年,它紧密靠近“人工智能”“智慧服务”“深度学习”“数字图书馆”,并位于“图书馆”关键词簇当中;但在2019年,它逐渐远离智能和智慧相关词汇,但非常靠近“公共文化服务”和“读者服务”,说明“智慧图书馆”在四年当中已经从理论概念逐渐落地。此外,“人工智能”“数字人文”“智慧服务”“用户画像”等热度增加词汇的位置变化较大,这说明此类热度增加主题关键词的热度传播范围逐渐增加。
(3)热度减退主题关键词共现关系变化。热度减幅最大的关键词“建筑物”只在前两年出现,且与“读者服务”和“数字资源”紧密相关。热度减退关键词“MOOC”在2016年、2017年和2019年与“信息素养”密切相关,而在2017年却与学科核心词“高校图书馆”密切相关,2018年进入“图书馆”簇,2019年逐渐远离其它重要词汇。另一个热度减退关键词“微信”,在2016 年、2017年和2018年与其他两个热度减退“移动图书馆”和“扎根理论”以及一个热度增加关键词“数字人文”联系紧密,具有较高的共现频率,但在2019年远离它们。结合这两个关键词减退的热度,这说明“MOOC”和“微信”应用已经成熟。此外,“读者服务”与“数字资源”在四年内都是邻近词汇,同隶属于学科核心“图书馆”关键词簇,是该领域的基础主题但热度逐渐减退。
5 国内外图情学科关键词横向对比
为了分析国内外“图情”学科的研究主题差异,对比了2019年国内和国外关键词网络。从Journal Citation Report上收集“Information Science & Library Science”学科的63个SSCI期刊于2019年发布的SSCI学术论文,并抽取其关键词共现数据,共包含了10 163个关键词和38 232条共现关系。由于每一个英文期刊年平均论文数目为58篇,远低于每一个中文期刊年平均论文数目214篇,因此中文关键词的词频要远大于英文关键词,例如,中文关键词里有词频为近782次的超高频词“高校图书馆”,而英文关键词的最大词频仅为77次(social media),相差10倍。因此,在后续的分析当中,只关注关键词的词频排名和关键词共现关系。
5.1 国内外排名前20名的高词频关键词
分别以国内外关键词排名为基准,对比国内外排名前20名的高词频关键词,从表2所示,国内外高频关键词的内容差异很大,国内侧重具有图书馆内涵词汇,而国外侧重社交媒体和定性分析。
(1)总的来看, 17个关键词的内容均不同,只有“高校图书馆”“大数据”和“信息素养”三个共同关键词。他们的国内外排名顺序一致,但其具体排名有差別,国内排名分别为1、5和18,国外排名分别为5、15和16。另外,对于两个相似词汇“人工智能”和“机器学习”,国内倾向于前者而国外倾向于后者。
(2)以国内关键词排名基准来看,有6个国内关键词找不到对应的国外关键词,分别是“阅读推广”“智慧图书馆”“学科服务”“情报学”“全民阅读”“互联网+”,剩下11个国内关键词的国内外排名差别很大,例如,“知识图谱”的国内外排名分别为14和2200。
(3)以国外关键词排名来看,有5个国外关键词找不到对应的国内关键词,分别是qualitative、breast cancer、classification、Facebook、communication,剩下12个国外关键词的国内外排名差别很大。例如,“定性研究”的国内外排名分别为5152和17。
5.2 对比分析国内外关键词共现网络
在网络嵌入空间里对比了国内外关键词共现网络,形成聚类图。特别地以国外关键词为基准选择了词频大于15英文关键词,总共62个词汇,同时在国内关键词中选择了词频排名前62以内的中文词汇。这些中高频词汇称为重要关键词,分别在嵌入空间内姨这些重要关键词的分布状况进行分析,可视化结果如图10和图11所示,每一个点表示一个关键词,点的数字标签表示该关键词的词频排名,虚线圆圈标记了邻近重要关键词形成的簇,每一个簇至少包括三个关键词,通常反映了一个研究主题。
(1) 按照包含关键词数目的大小,在国外关键词网络嵌入空间呈现的研究主题分别是:定性知识分析、社交媒体分析、文献计量学、图书馆员、文献计量方法、高校图书馆、信息、知识传播。主要内容如下:
定性知识分析主题包含了“qualitative \ knowledge management \ open access \ qualitative research \ case study”5个高频词和“e-government \ literature review \ scholarly communication \ adoption \ open data”等中频词。
社交媒体分析主題包含了3个高频词“social media \ Twitter \ Facebook”,及其邻近的中频词“sentiment analysis \ text mining \ online reviews”。
文献计量学主题包含了1个高频词“bibliometrics”及其5个邻近中频词“citation analysis \ research evaluation \ bibliometric analysis \ library and information science \ web of science”。
图书馆员主题包含了1个高频词“machine learning”和4个中频词 “collaboration \ librarian \ research \ natural language processing”,对应于图书馆员及其所需技能,同时该主题邻近定性知识分析主题。
文献计量方法主题包含了1个高频词“h-index”和3个中频词“citations \ social network analysis \ altmetrics”,同时该主题邻近文献计量学主题并于该主题关键词密切相关。
高校图书馆主题包含了2个高频词“academic libraries \ information literacy”和2个中频词“library instruction \ higher education”等中频词,同时该主题邻近定性知识分析主题。
信息主题包含了3个几乎重叠的中频词“knowledge \ information \ data”,且三者意义相近。
知识传播主题包含了相邻的1个高频词和2个中频词“knowledge sharing \ communication \ internet”。
剩下一些重要关键词相近较为散乱或没有与其它重要关键词形成簇。
(2) 按照包含关键词数目的大小,在国内关键词网络嵌入空间呈现的研究主题分别是:图书馆服务、服务数字化、高校学科建设、智库与舆情、服务模式、移动图书馆、大学。主要内容如下:
图书馆服务主题包含了“图书馆\公共图书馆\阅读推广”3个超高频词、“智慧图书馆\全民阅读\信息服务\互联网+”4个高频词以及“公共文化服务\服务创新”等12个中频词。
服务数字化主题的关键词均聚类包含了3个高频“数字图书馆\数字人文\知识图谱”以及“知识服务\研究热点\文献计量\用户画像\可视化分析”等9个中频词。
高校学科建设主题的关键词聚类包含了排名第一的超高频词“高校图书馆”和其它两个高频词“图书馆学\情报学”,以及2个中频词,其中“双一流”几乎与“高校图书馆”重叠,“图书情报工作”与其它的高频词邻近。
智库与舆情主题包含了“大数据\智库\高校\网络舆情\情感分析”5个关键词,其中“智库”与“高校”几乎重叠,共现关系紧密。
服务模式主题的包含了4个共现频繁的关键词“图书馆服务\服务模式\深度学习\空间再造”。
移动图书馆主题包括3个相互邻近的中频词“扎根理论\社交媒体\移动图书馆”。
大学图书馆主题涉及1个高频词“信息素养”和两个“大学图书馆\大学生”。
此外“人工智能”和“学科服务”2个高频词几乎重叠,两者共现频次很高,说明人工智能技术已经应用于图情学科服务当中,将为图情学科的理论研究与实践发挥出更多的作用。
6 结论
本文根据图书情报领域学术论文关键词共现信息构建了大型期刊论文关键词关联网络,利用网络嵌入技术将关键词映射为低维实值向量,进而在该嵌入空间内实施关键词主题可视化分析,其主要结论有如下几点。
(1)关键词之间全局分布和局部聚集关系表明,“高校图书馆”“图书馆”“公共图书馆”“阅读推广”“大数据”等超高频关键词是图书情报领域的核心构成词语,阅读和服务仍然是该领域的核心内容;“文献计量”“网络舆情”“美国”“高校”“公共文化服务”是该领域的研究热点;以这些关键词为中心形成了该领域的多个研究主题,主要集中在技术创新、服务模式创新、图书馆数字化建设与服务、计量表现形式、数据资源整合、精准服务、高校舆情分析、高校学科服务、文献计量研究等方面。
(2)2016—2019年连续四年的关键词关联网络对比结果表明,“高校图书馆”等超高频学科核心词汇与和“图书馆服务”等服务类词汇属于热度持续主题的高频关键词,而且与之相关的共现关键词内容呈现多样化;“智慧图书馆”“人工智能”等“智能智慧”主题属于热度增加主题关键词,而且其热度传播范围逐渐增加;“MOOC”和“微信”等涉及到已经成熟的平台应用词汇属于热度减退主题关键词,“数据挖掘”等已经逐渐被“人工智能”等先进技术所取代的词汇也呈现热度减退现象。随着2017年国务院颁布《新一代人工智能发展规划》以及近几年人工智能领域各种标准化白皮书的发布,预计人工智能及其相关应用仍是未来5年内图情领域的研究热点。
(3)2019年国内外关键词关联网络对比结果表明,“社交媒体”“定性”“文献计量”“知识管理”和“高校图书馆”为国外图书情报领域的核心构成词语;国内外排名前20高频关键词的内容差异很大,国外的研究主题侧重定性知识分析、文献计量工作、社交媒体分析和互联网知识传播,而国内的研究主题更加侧重图书馆服务、高校学科建设、智库以及互联网+等互联网扩展应用。从分析也发现,国内外共同认为互联网是知识传播的重要渠道,但国外侧重互联网本身,而国内侧重移动图书馆等互联网扩展应用。建议国内图情领域加强专业性社交媒体的信息传播以及文献计量方面的研究,以便更好地与国际图情研究接轨,从而扩大国内图情研究工作的国际影响力。
参考文献:
尹相旭,张更平,李晓菲.基于关键词统计的情报学研究现状分析[J]. 情报杂志, 2009, 28(11): 1-4.
刘奕杉,王玉琳,李明鑫. 词频分析法中高频词阈值界定方法适用性的实证分析[J].数字图书馆论坛,2017(9): 42-49.
魏瑞斌.基于关键词的情报学研究主题分析[J].情报科学,2006,24(9):1400-1404,1434.
冯璐,冷伏海. 共词分析方法理论进展[J]. 中国图书馆学报, 2006, 32(2):88-92.
闵超, 孙建军. 基于关键词交集的学科交叉研究热点分析:以图书情报学和新闻传播学为例[J]. 情报杂志, 2014,33(5):76-82.
陈新花. 基于关键词的图书馆知识服务研究分析[J]. 图书情报工作, 2015,59(S2):128-131.
唐果媛. 基于共词分析法的学科主题演化研究方法的构建[J ].图书情报工作,2017,61 (23): 100-107.
李纲,巴志超. 共词分析过程中的若干问题研究[J].中国图书馆学报,2017,43 (4): 93-113.
张明鑫. 基于共词分析的国内图书馆领域微信研究热点分析[J]. 图书情报导刊, 2017,2(5):30-35.
张俊, 洪诗佳. 国内图书馆创客空间热点研究及发展趋势[J]. 图书馆研究, 2017,47(5):128-134.
杨建林. 学术个体研究方向的关联分析:以中国情报学领域为例[J]. 情报科学, 2015,33(2):132-138.
李娜. 国内图书馆嵌入式服务研究主题分析:基于知识图谱的视角[J]. 現代情报, 2016, 36(10):156-163.
詹婧, 张仁琼. 基于文献计量的图书馆MOOC研究[J]. 图书馆学刊, 2017,39(8):106-113.
林龙. 基于共词网络分析法探析2017年图书馆研究特点[J]. 西部皮革, 2018, 40(8):136-137.
严珊. 基于共词与社会网络分析的图书馆大数据现状研究[J]. 图书馆研究与工作, 2018, 167(5):15-20.
徐坤, 毕强. 次高频关键词的选择及在共词分析中的应用[J]. 情报理论与实践, 2019, 42(5):152-156.
李乐,章毓晋. 非负矩阵分解算法综述[J]. 电子学报,2008,36(4):737-743.
申国伟, 杨武, 王巍, 等. 基于非负矩阵分解的大规模异构数据联合聚类. 计算机研究与发展, 2016,53(2):459-466
杨爱青,马秀峰,张风燕,等. g 指数在共词分析主题词选取中的应用研究[J]. 情报杂志,2012,31 (2):52-55,74.
陈果,肖璐,赵雪芹. 领域知识分析中的关键词选择方法研究:一种以学科为背景的全局视角[J].情报学报,2014,33 (9): 959-968.
刘敏娟,张学福,颜蕴. 基于词频、词量、累积词频占比的共词分析词集范围选取方法研究[J]. 图书情报工作,2016,60 (23): 135-142.
徐小莹 西北工业大学图书馆馆员。 陕西西安,710072。
李 辉 西北工业大学图书馆副馆长、副研究馆员。 陕西西安,710072。
(收稿日期:2020-05-20 编校:刘 明,陈安琪)