朱猛男,张耀军
(1.上海出版印刷高等专科学校信息化办公室;2.上海出版印刷高等专科学校规划发展处,上海 200093)
软件工具对于科学研究具有重要辅助作用,可用于问题识别、数据存储、数据分析、数据建模、可视化结果呈现等。然而,长久以来,软件的学术价值一直被低估甚至被忽略[1]。在科研大数据时代,基于科学文献挖掘研究内容的知识关联、结构关系与发展趋势已成为一种新方向,科学知识图谱的理论、技术与方法应运而生,为科学研究提供了一种新范式。知识图谱软件运用数据分析技术和信息可视化技术展示学科领域的发展进程和结构概况,辅助文献计量分析和可视化研究,逐渐受到学术领域的重视,一些学者指出软件应被视为学术研究产出。据不完全统计,目前国内外开发的免费使用的知识图谱软件有几十种,其 中CiteSpace、VOSviewer、SCI 2、BibExcel、HistCite、CitNetExplorer、Gephi、Pajek、NetDraw、Ucinet、CRExplorer 较为流行。
国内外对知识图谱软件的研究持续升温,从理论、绘制方法、实证分析、应用等诸多方面展开研究,研究领域已扩展到计量学、工程学、生物学、管理学、文学等学科。如Liao 等[2]使用GraphPad Prism 5、VOSviewer 和CiteSpace 软件对医学大数据(Medical Big Data,MBD)进行文献计量分析,从多层面可视化展现MBD 的发展现状和趋势;Yeung等[3]将299 602 篇有关抗氧化剂的文献题录及引用文献导入VOSviewer 软件进行文献计量分析,通过标签视图的形式可视化展示研究关键词,并绘制出关键期刊的引文网络标签图谱;徐建国等[4]基于CiteSpace 和VOSviewer 绘制出国内深度学习领域相关文献的知识图谱,通过分析关键词时区、突变词检测、关键词共现权重等图谱,发现该领域的研究热点主要集中在卷积神经网络模型及其应用、深度学习模型创新改进等方面。
目前,较多学者开始关注软件工具的学术价值及影响力,将学术文献作为载体研究软件的扩散规律和扩散模式[5-6],还有一些学者尝试采用被引次数、使用频次、下载次数等指标定量分析软件的影响力[7]。如Pan 等[8]以扩散广度、扩散时间、扩散速度为指标衡量CiteSpace、HistCite 和VOSviewer 的使用、引用和传播情况;Cobo 等[9]对9 个代表性知识图谱软件的核心功能进行比较研究,运用科学计量和绘制知识图谱的方法突出不同软件工具之间的主要差异和协同合作关系。然而学术界对知识图谱软件扩散的定量研究较少,缺少对软件扩散特征、学科扩散规律、扩散网络以及扩散路径等多维度的研究。
本文基于创新扩散理论,对2000-2019 年Web of Science 核心合集中提及知识图谱软件的论文进行实证分析。首先对文献进行计量,绘制出知识图谱软件的扩散曲线;然后运用主路径分析法从引文网络中析出关键主路径,识别出扩散过程中的重要人物和重要事件,揭示重要软件的传播影响力;最后构建主路径扩散网络,梳理扩散脉络。探索知识图谱软件的扩散规律可以丰富和发展软件技术扩散的理论和研究方法,追溯软件扩散轨迹,了解软件发展过程,加深学术界对知识图谱软件学术价值的认知,促使其更新迭代与持续创新扩散。
以Web of Science 核心合集为数据来源,对CiteSpace、HistCite、VOSviewer、BibExcel、Ucinet、Pajek、Gephi、NetDraw共8 种主流知识图谱软件的名称或扩展词进行主题检索,检索表达式为:TS=(CiteSpace)OR TS=(“Cite Space”)OR TS=(HistCite)OR TS=(“Hist Cite”)OR TS=(VOSviewer)OR TS=(“VOS viewer”)OR TS=(BibExcel)OR TS=(“Bib Excel”)OR TS=(Ucinet)OR TS=(Pajek)OR TS=(Gephi)OR TS=(NetDraw)OR TS=(“Net Draw”),时间跨度为2000-2019年。共检索得到1 494篇文献,以此作为实证分析的数据集。
创新扩散理论指出创新的扩散是一种社会过程,需要经过一定的时间,通过某种渠道在特定的社会系统中进行传播。大多数创新的扩散过程符合S 型曲线规律,即某项创新的累积采纳数随时间变化呈现为S 型趋势。扩散过程可分为3 个阶段,即起步阶段、起飞阶段和稳定阶段[10]。知识图谱软件是一种技术创新,其扩散可定义为:在科学研究系统中,知识图谱软件被应用到研究论文中,在一定的时间范围内通过科学文献或专利等载体进行知识交流,逐渐被研究学者等潜在使用者所接受。
知识图谱软件被研究学者采纳的过程类似于科学文献的被引过程,本研究从提及知识图谱软件的文献数量、文献内容和文献间的引用关系方面研究知识图谱软件的扩散规律。将1 494 篇文献导入VOSviewer 软件建立原始引文网络,其中789 篇文献之间存在引用关系。使用Pajek软件进行主路径提取,深入研究关键文献和重要知识图谱软件,借助Gephi 工具绘制主路径成分引文网络,采用社会网络分析法分析扩散网络的结构特征、扩散中心性。
将论文累积数量表示为累计采纳数,每年新增的文献数量定义为采纳速率,绘制出2000-2019 年知识图谱软件总体扩散曲线,如图1 所示,基本显示为一条S 型扩散曲线。近20 年提及知识图谱软件的文献数量稳步增长,增幅较为稳定。2000-2011 年采纳速率较低,只有少数学者的研究论文提及知识图谱软件,累积采纳曲线坡度平缓,扩散速度慢,这一阶段为扩散起步阶段;2012 年起扩散曲线上升趋势明显,且没有回落趋势,因此2012 年开始进入扩散起飞阶段;2012 年以后扩散采纳速率持续增长,没有出现扩散曲线的拐点,尚且不能描述S 型曲线的全貌。
Fig.1 Overall diffusion curve of knowledge domain visualization software图1 知识图谱软件总体扩散曲线
Bass 模型主要用于时间序列预测,知识图谱软件根据时间顺序向外扩散,呈现出上升或下降的变化趋势,因此可采用Bass 模型对知识图谱软件的扩散趋势进行预测。Bass 模型的一般表达式为:
以发文年作为自变量t,如2000 年为第一年,则t=1,将累积采纳数作为因变量N(t),采用非线性最小二乘法,利用SPSS 软件进行回归分析,得到估计参数值m=88 964,p=0.000 044 19,q=0.286 5。然后利用MATLAB 软件对扩散曲线进行拟合,拟合图见图2,参数估计值如表1 所示,可决系数R2的值接近于1,表示曲线拟合效果良好。根据Bass 模型对知识图谱软件未来30 年的累计采纳数进行预测,得出知识图谱软件的扩散过程符合S 型曲线规律,预计2036 年进入扩散稳定阶段。
Table 1 Estimation of cumulative adoption number diffusion model parameters based on Bass model表1 基于Bass 模型的累积采纳数扩散模型参数估计
Fig.2 Bass model fitting curve图2 Bass 模型拟合曲线图
扩散路径是扩散过程的重要体现,从原始引文网络中析出的扩散主路径有两条(见图3),分别为路径1:3→6→9→30→41→68→161→176→189→201→225→298→334→366→372→420→447→627→704→709→766;路径2:3→6→10→41→68→161→176→189→201→225→298→334→366→372→420→447→627→704→709→766。 图 中 节 点标签采用“文献编号+第一作者+发文年”表示,箭头方向表示知识图谱软件的扩散方向,连线上的值表示权重,主路径上共有22 篇关键文献,详见表2。可以看出,扩散主路径结构简单、样式单一,没有复杂的分支结构。
Fig.3 Diffusion main path diagram of knowledge domain visualization software图3 知识图谱软件扩散主路径图
主路径文献的第一作者中,Garfield E 出现了4 次,Merigo J M 出 现4 次,Chen C M 和Yu D J 各 出 现2 次;主 路径文献的其他作者中,Pudovkin A I、Istomin V S、Cancino C A、Wang X X、Xu Z S 各出现2 次,Merigo J M 出现10 次。表2 中,编号41 的文献被引频次为1 063,编号10 的文献被引842 次,对应的第一作者分别为Van Eck N J 和Chen C M。综上分析可知,在知识图谱软件的扩散过程中核心人物有4 位,分别为Garfield E、Merigo J M、Van Eck N J 和Chen C M。Garfield E 是美国著名的情报学家,编制出版了《科学引文索引》,被誉为“SCI 之父”,其致力于研究可视化图谱并开发了HistCite 软 件;Van Eck N J 和Waltman L 合作开发了VOSviewer 软件;Chen C M(陈朝美)开发了CiteSpace 软件;另有核心作者Merigo J M。
主路径关键文献最早于2002 年出现在计算机科学、信息学与图书馆研究领域,2012 年扩散到生物技术与应用微生物学、医学研究和实验等领域,2016 年逐渐扩散至其他研究领域,以工程学为主,还涉及商业与经济学、社会科学、运营研究与管理、化学、食品科学与工程、营养学与膳食学以及自动化及控制系统等学科领域。
Table 2 List of key literatures on the main path of knowledge domain visualization software diffusion表2 知识图谱软件扩散主路径关键文献
主路径上关键文献使用频次较多的知识图谱软件为HistCite、CiteSpace 和VOSviewer,是扩散主路径上的3 个重要事件。结合扩散曲线的分析结果,将扩散主路径分为2002-2010 年和2012-2019 年两个阶段。
2.2.1 第一阶段:2002-2010 年
Garfield E 于2001 年开发出HistCite 软件,随后发表一些实证分析论文推广HistCite,其中文献[11](对应表2 编号3)发表于2002 年,遍历权值最高,介绍了HistCite 软件的主要功能,展示了引文数目列表、引文关系以及“gene flow”的引文编年史图。HistCite 经过优化功能逐渐完善,书目列表和可视化图谱比上一版本更加美化。文献[12](对应表2 编号6)采用研究主题、期刊、作者等数据实证展示文献列表和图谱。文献[13](对应表2 编号9)使用HistCite 对特定研究领域的知识进行实证分析,将文献计量分析方法与可视化图谱相结合。文献[14](对应表2 编号30)考察了从科学到科学计量学的历史发展轨迹,论证强调了科学计量学的重要性。综上可知,正是得益于Garfield 对文献计量学和可视化研究的贡献和影响,知识图谱研究才有如今的发展。
2003 年,陈超美教授基于Java 平台开发了CiteSpace 这款用于分析科学文献的可视化软件,并于2004 年发表了论文《Searching for intellectual turning points:progressive knowledge domain visualization》,该篇文献[15]在Web of Science 核心合集中被引355 次。其对CiteSpace 软件识别关键节点的方法进行了详细阐述,介绍了软件的核心功能与实现方式,并实证展示了共被引网络图谱。2006 年,陈教授发表了文献[16](对应表2 编号10),被引842 次,为高被引论文,该篇文献通过恐怖主义和大规模灭绝两个案例实证了CiteSpaceII 的聚群视图和时区视图功能。CiteSpace 自对外发布以来不断更新迭代,软件使用简单、功能强大,被研究学者广泛使用,产出的研究论文也随之快速扩散,由最初的计算机科学领域传播到多个学科领域。
VOSviewer 软件于2009 年被开发出来,文献[17](对应表2 编号41)于2010 年发表,其作者即为VOSviewer 软件的开发者Van Eck N J 和Waltman L。该篇文献被主路径上14篇文献引用,是扩散过程中的一个重要文献。其介绍了VOSviewer 的4 种视图,阐述了可视化图谱的技术实现方式,同时实证展现了5 000 个主要科技期刊的共引标签视图,以及计算机科学和经济学领域之间的文献分布视图。VOSviewer 既能分析标题和摘要中的共现词汇,又能以网络图谱的形式直观展现文献、期刊、作者、机构的共引与耦合关系,其功能和可视化效果优于其他同类软件,基本实现了成功扩散。
2.2.2 第二阶段:2012-2019 年
该阶段较少出现新研发的知识图谱软件,主要是对已有软件进行更新和版本迭代,不断优化产品功能,实现知识图谱软件的再创新。2012-2019 年间,Web of Science 核心合集中发表了大量实证分析类论文,充分体现了知识图谱软件的学术价值,促进了不同研究领域的学术发展。表2 中编号为68、161、176、189 的文献使用CiteSpace 进行实证分析,编号为709 和766 的文献同时使用CiteSpace 和VOSviewer 软件进行实证分析,余下文献均使用VOSviewer开展实证研究。以上文献的研究内容可以概括为检索并获取数据库中特定研究领域、主题或期刊在特定时间范围内的文献数据,将文献计量分析法与可视化图谱相结合,研究领域内的研究热点、发展趋势,识别出关键作者、核心期刊、主要研究机构/国家等。其中,使用VOSviewer 软件的实证分析类论文研究内容体现在4 个方面:①通过统计词频、关键词共现聚类图谱、主题标签图、密度图以及引文共被引聚类图谱识别领域研究热点;②绘制出作者共引分析标签图,识别出核心作者或核心作者群及其互引关系;③通过期刊共被引聚类分析和多维度分析展示期刊标签图或密度图,识别出核心期刊及其相关性,揭示核心期刊的影响力;④通过国家/机构的共现分析,展示国家/机构分布标签图或密度图,识别主要国家/机构及其合作关系,发现国家/机构间的关联程度。
主路径文献仅识别出HistCite、CiteSpace 和VOSviewer 3 种知识图谱软件工具,不能完全反映出其他知识图谱软件在扩散过程中形成的精细结构。为扩大扩散范围,根据表2 关键主路径文献的最低遍历权值0.060 469(文献编号709),选取0.06 作为截断阈值,提取出46 个文献组成主路径成分,绘制出有向主路径扩散引文网络图谱(见图4,彩图扫OSID 码可见),共有46 个节点和212 条有向边,节点文献标签用“文献编号+第一作者”表示,根据文献被引频次设置圆圈大小,箭头由被引文献指向引用文献,节点颜色按照知识图谱软件进行分类:紫色代表VOSviewer、青色代表CiteSpace、橙色代表HistCite、粉色代表Pajek。需要说明的是,编号为709、766、777 的文献同时使用了VOSviewer 和CiteSpace 软件。为方便描述引文网络图谱的特征,根据VOSviewer 和CiteSpace 描述内容占文献篇幅的比例,将其划分到VOSviewer 类别。可以看出紫色约占圆形面积的2/3,青色点亮右半边一小部分面积,粉色和橙色在边缘零星分布,可见VOSviewer 在扩散网络中占据重要地位。
图4 的网络直径为6,密度为0.102,节点平均度为4.609,提示网络中的节点关系密切程度不高,连通性不强,不利于知识图谱软件的扩散。网络的平均路径长度为2.34,平均聚类系数为0.272,可见主路径成分之间关系疏远,知识扩散路径离散,知识图谱软件的传播效率不高。结合扩散网络节点的度和中介中心性指标,可以发现编号为41 的文献中介中心性为104.79(最高),位居中心位置,在扩散网络中处于重要地位,其入度为31,出度为29,在扩散过程中为其他文献提供知识,表现积极。编号为334、298、10、225 的文献出度排名靠前,对外扩散表现活跃,构成了扩散网络的重要知识源,是知识交流的积极推动者。整体来看,节点的入度值不高,可见主路径成分不太重视吸收知识。文献编号为176、41、189、627、68 的文献中介中心性较高,在扩散网络中具有一定影响力。编号为778、760、766、777、754 等文献的中介中心性值为0,表明其位于扩散网络边缘,对整体扩散没有太大影响。综合来看,主路径成分之间的引用行为主要集中在靠近网络中心位置的文献之间,越靠近网络边缘,文献之间的引用活动越不积极,知识扩散效率越低。
Fig.4 Main path component diffusion network map图4 主路径成分扩散网络图谱
主路径成分文献使用的知识图谱软件工具共有4 种,分 别 为HistCite、CiteSpace、VOSviewer 和Pajek,其 中 提 及Pajek 软 件 的 有3 篇、HistCite 4 篇、CiteSpace 12 篇、VOSviewer 30 篇,表明VOSviewer 软件对于知识图谱软件的传播发挥着重要作用。HistCite 和Pajek 出现在2002-2008年,扩散起步早,持续时间短,可见该阶段HistCite 和Pajek软件并没有得到广泛传播,这与软件自身功能与可视化效果有关。CiteSpace 在该阶段出现两次,还未实现有效扩散,而此时VOSviewer 还没有被开发出来。2010-2019 年VOSviewer 和CiteSpace 开 始 快 速 扩 散,VOSviewer 一 出 现 就凭借其自身功能的完善性、易操作性以及美观的可视化效果被研究人员所接受。
综合上述分析内容可知,8 个知识图谱软件中Hist-Cite、CiteSpace 和VOSviewer 为扩散的主力军。在扩散过程中,HistCit 软件是领头羊,开创了从引文角度研究科学文献的新领域;扩散初中期,CiteSpace 成为文献计量学领域的新星,此后CiteSpace 软件不断升级迭代,丰富完善了文献、期刊、作者、机构、国家等不同维度的可视化图谱,版本从CiteSpaceI 到CiteSpaceV 实现多次再创新,促使CiteSpace 软件循序渐进地扩散;VOSviewer 软件是后发突起,在扩散中后期被大范围采纳,占据扩散主路径成分的半壁江山(占比61.2%)。2014-2019 年,提及VOSviewer 软件的研究论文数量、被引频次均占领先地位,可以认为VOSviewer 是知识图谱软件扩散路径上的获胜者。
本文以Web of Science 核心合集在2000-2019 年间提及知识图谱软件工具的研究论文为研究对象,主要运用主路径分析法和社会网络分析法进行研究,得出知识图谱软件的扩散规律如下:①知识图谱软件在2000-2010 年处于扩散起步阶段,2012 年开始进入起飞阶段,扩散速度仍持续增长,通过建立Bass 模型进行验证可知,知识图谱软件的扩散过程基本符合S 型曲线规律,并预计在2036 年进入扩散稳定阶段;②随着时间的推移,知识图谱软件扩散路径分化出两条关键主路径,主路径上有4 个核心人物(Garfield E、Merigo J M、Van Eck N J 和Chen C M)和3 个重要事件(HistCite、CiteSpace 和VOSviewer)。结合S 型曲线规律可将扩散过程划分为两个阶段:2002-2010 年为第一阶段,主要介绍知识图谱软件的功能和展示实证分析图谱;2012-2019 年为第二阶段,该阶段较少出现新开发出来的软件,大多是优化已有软件功能,升级用户使用体验,但是知识图谱软件的实证分析研究成果逐渐增多;③8 个知识图谱软件中HistCite、CiteSpace 和VOSviewer 是扩散的主力军,其中VOSviewer 在扩散网络中占据重要地位。
本文以知识图谱软件为研究对象,丰富了知识扩散的研究内容,创新性地对主路径成分文献使用的知识图谱软件工具进行聚类,识别出关键软件和核心人物。但研究仍存在一定的局限性:由于软件评测尚未有统一标准,数据来源单一,选取的8 个主流知识图谱软件不能充分说明整个知识图谱软件的扩散情况。此外,根据知识图谱软件名称检索获得的文献不能完全保证使用知识图谱软件开展实证分析,也有可能是对知识图谱软件进行理论分析和文献综述。本文采用主路径分析法析出的关键文献是粗线条的,未能直接反映出知识图谱软件的扩散归集,也没有添加时间轴分析其随时间的演化过程。后续研究将扩大数据范围,优化检索表达式,将主路径分析法与文献内容分析法等多种方法相结合,从学科、作者、期刊、机构等多个角度展开全面细致的研究。