两种文献计量可视化工具之功能比较分析:以国外电子政务研究为例

2014-02-23 01:09
新世纪图书馆 2014年11期
关键词:结点图谱可视化

两种文献计量可视化工具之功能比较分析:以国外电子政务研究为例

李燕波

论文对目前常用的两种文献计量可视化工具CiteSpace和HistCite的功能进行比较分析。通过设计八个文献计量学指标作为两种工具的实验分析指标,以SCI中2003—2012年电子政务主题的1388篇研究性文献为实验文献样本,对这两种工具在事先设定好的八个文献计量学指标中的功能表现进行分析。最终从具体分析功能、图谱可读性和支持的数据格式三个角度对这两个工具的功能进行了对比。

文献计量学可视化分析CiteSpace HistCite电子政务

1 文献计量可视化工具研究现状

从1926年洛特卡定律的发现[1],到美国化学家格罗斯兄弟文献学史上的第一次引文分析研究[2],再到1934年布拉德福定律[3]和1948年齐普夫定律[4],国外学者二十世纪二十年代到六十年代为文献的定量研究做出了重要贡献,但这些先驱者早期的定量研究均是分散、不系统的。直到1969年,英国情报学家阿伦·普里查德发表《文献统计学还是文献计量学?》一文[5],首次使用“文献计量学”这一术语,取代了“文献统计学”。这就将研究对象从期刊扩展到所有的书刊文献,使有关文献的定量研究统一在文献计量学学科之下,至此文献计量学研究逐渐走向系统化、广泛化。为适应文献信息量的增加,计算机、数学等方法在文献计量学中的应用研究逐渐展开,由此便产生了文献计量可视化的研究。20世纪50年代开始,加尔菲德开发的科学引文索引开始大规模的商业性应用,为文献计量可视化的发展奠定了坚实的基础。大量的文献计量学研究转向基于引文分析的可视化研究中,这其中的先驱当属加尔菲德对DNA研究历史图的产生,是在1964年用手工绘制的[6]。从那以后,文献计量可视化研究逐渐成为计算机科学、图书情报学研究的热点。经过近70 年的发展,在引文分析理论、复杂网络与社会网络分析理论、信息可视化技术的推动下,信息可视化逐渐成为国内外文献计量学一个崭新的研究热点[7]。文献计量可视化工具是文献计量可视化研究的具体实现手段,总体来说,时下常用的文献计量可视化工具主要源于三大领域。一是计算机科学领域的数据、信息、知识与知识域可视化研究;二是图书情报领域的引文分析可视化、知识地图和知识网络等研究;三是复杂网络系统和社会网络分析的研究。目前三者的研究方向和内容正在走向融合。文献计量可视化工具可以分为两类:一类为各种文献数据库附带的文献计量工具,(如Web of Science、中文社会科学引文索引、中国知网等),但可视化功能较弱;另一类为提供文献计量功能的软件,如美籍华人陈超美开发的CiteSpace、加菲尔德开发的HistCite、佩尔松开发的Bibexcel、Vladimir Batage lj和Andrej Mrvar开发的Pajek、印第安纳大学开发的Science of Science、荷兰莱顿大学开发的VOSViewer等,而这其中CiteSpace、HistCite由于其较强的可视化功能被国内外学者所广泛使用。

2 CiteSpace与HistCite功能分析

2.1 CiteSpace核心功能

CiteSpace软件主要基于共引分析理论和寻径网络算法等,对特定领域文献(集合)进行计量,以探寻出学科领域演化的关键路径及其知识拐点(以关键论文为代表),并通过一系列可视化图谱的绘制来形成对学科演化潜在动力机制的分析和学科发展前沿的探测。其所应用的主要数据包括Web of Science论文、Derwent 专利、Scopus等外文数据库论文,近几年由于国内用户的广泛使用,该软件又通过增加数据格式转换模块而实现了中文CSSCI、CNKI数据库格式的计量分析。CiteSpace软件的核心功能是探测和分析学科研究前沿的历时性变化趋势以及研究前沿与其知识基础之间的关系,陈超美博士在软件中设计了四个核心分析指标以实现这一功能,见表1。

表1 CiteSpace核心分析指标

2.2 HistCite功能

该软件系SCI的发明人加菲尔德开发,能够用图示的方式展示某一领域不同文献之间的关系。可以快速帮助我们绘制出一个领域的发展历史,定位出该领域的重要文献,以及最新的重要文献。HistCite目前用于分析的文献信息只能来源于Web of Science数据库(以下简称WoS),HistCite核心分析指标见表2。

表2 HistCite核心分析指标

3 CiteSpace与HistCite功能实验比较研究:以国际电子政务主题文献为例

3.1 数据来源

在WoS数据库中获取电子政务相关的研究性论文(包括期刊论文、会议论文和综述)1388篇。本文主要采用CiteSpace与HistCite两种可视化软件对电子政务这一主题的八种文献计量学指标进行比较分析,见表3。

表3 文献计量学指标

3.2 作者、机构和国家及其合作分布

3.2.1 CiteSpace的发文量和合作关系分析功能

(1)发文量及合作关系分析功能。CiteSpace可以形成作者、机构和国家及其合作分布可视化分析图谱。其中每一个结点代表一个作者、机构或国家,结点大小反映的是发文量的多少,结点年轮颜色反映的是发文时间分布,色调由暖及冷指的时间由近及远,点击在任何一个结点上通过点击鼠标右键,便可具体了解某个结点所代表的作者、机构或国家的发文按时间分布的具体数值。结点之间的连线反映的是作者、机构或国家具有合作关系。CiteSpace的这些功能不仅有助于研究者发现相关主题的权威研究作者、机构或国家,而且对研究者挖掘该主题的研究团队、跨越机构或国家的合作具有十分有效的帮助,这为考察该主题的知识流动及共享提供了一个清晰的线索。而且由CiteSpace生成的图谱颜色丰富、信息量大。

(2)作者共被引分析。CiteSpace可以根据作者发文被引及共被引情况,生成作者共被引分析图谱。其中结点大小反映的是该结点所代表的作者被引频次的高低,结点的年轮颜色反映的是该作者被引历史,通过在该结点点击右键可以具体了解该作者的被引频次随年度变化数值;结点之间的连线代表作者之间具有共被引关系(以下同)。结点外圈的颜色若是紫色,则代表该结点的中心性≥0.1(以下同),点的中心性是一个用以量化点在网络中地位重要性的图论概念,它是指网络中经过某点并连接这两点的最短路径占这两点之间的最短路径线总数之比。中间中心性高(在CiteSpace可视化图谱中,中心性≥0.1便认为较高)的点往往位于连接两个不同聚类的路径上,是十分重要的结点,需重点考察其研究内容。CiteSpace的作者共被引分析可以使众多的著者按照同被引关系形成一个著者相关群,揭示出学科专业人员的组织结构、联系程度,进而反映出学科专业之间的联系及其发展变化状况[1]。

3.2.2 HistCite的发文量及其被引分析功能

HistCite可以显示阈值范围内(即本研究中设置的被引频次≥30次的论文)的总作者数、机构数和国家数。也可以对作者、机构和国家的发文量、作者发文当前主题内被引频次、WoS被引频次三个文献计量学指标的分布进行分析,而且通过点击、、三个按钮可以分别对这三个指标进行排序,这些功能有助于研究者通过不同指标识别电子政务研究的发文情况、相关重要论文以及在WoS范围内具有较高影响力的论文,为发现重要的作者、机构和国家和经典文献提供线索。但是该工具无法直接对作者、机构、国家发文的文献计量学指标进行可视化图形分析,只能在数据基础上借助EXCEL作图分析。而且该工具无法进行合作分析。为节省篇幅,仅列出作者发文分布分析,见表4。

表4 HistCite的作者分析二维表

3.3 期刊及其共被引分布

3.3.1 CiteSpace的共被引分析功能

期刊的共被引关系强弱反映了期刊的亲疏远近关系,通过期刊共被引分析可以挖掘学术期刊之间的关系并且进行期刊分类,考察学科的内部知识结构和联系情况[9]。CiteSpace可以按期刊被引情况生成期刊共被引分析图谱,由此可以揭示对某一主题研究具有重要推动作用的期刊以及期刊的共被引关系。但是,CiteSpace无法实现期刊载文量分析。

3.3.2 HistCite的载文量及其被引分析功能

表5显示了HistCite对电子政务研究主题的期刊载文分布结果。这一功能与前述作者、机构和国家分布分析所具有的功能一致。但该工具只提供了期刊的主题内和WoS范围内的被引分析,未能提供期刊的共被引分析。

表5 HistCite的期刊发文及被引分析二维表

3.4 学科分布及共现关系

CiteSpace是根据WoS数据库的学科划分标准而对相关主题的研究学科进行划分的,而WoS数据库的学科划分是依据期刊所属学科进行划分的。因此,CiteSpace学科共现图谱中结点较大的学科说明这个学科的相关期刊上发表这一主题的论文较多。学科之间的连线同样是学科共现关系的揭示,通过这种学科共现考察可以了解跨学科研究情况。

3.5 关键词及其共现分布

3.5.1 CiteSpace的关键词频及其共现分析功能

一般认为词汇对在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密。统计一组文献的关键词或主题词两两之间在同一篇文献出现的频率,便可形成由这些词对关联所组成的关键词共现网络,关键词共现分析可应用于研究领域的识别和热点分析、横向和纵向分析领域、识别学科的发展过程和特点、找出领域或学科之间的关系等[10],同时可以了解某一特定主题的微观研究领域。CiteSpace不仅能够揭示高频关键词,还能够揭示具有共现关系的关键词,这为深入、细致的研究某一主题提供了十分有效的途径。CiteSpace生成的关键词共现图谱可以将具有共现关系的关键词按其研究的主题进行人工聚类分析。

3.5.2 HistCite的关键词频分析功能

HistCite的关键词分布分析是以“words”(即单个关键词)进行统计分析的,而且不具备“words”之间共现关系的分析,只能按“words”的词频数、当前主题内被引频次、WoS被引频次三项指标定量统计(见表6),而且无可视化的图谱,只能以二维表格的形式呈现。HistCite由于不能反映关键词的共现关系,因此在微观主题揭示方面具有较明显的缺陷,如表3列出了按词频排序的前5位电子政务有关的“Word”,其中的很多单词专指性很低,如GOVERNMENT、BASED、INFORMATION等,这使得无法通过这些高频词进行微观主题的分析。

表6 HistCite的关键词词频及被引分析二维表

3.6 文献被引分析

3.6.1 CiteSpace的文献共被引分析功能

CiteSpace除可以生成文献共被引图谱以揭示文献被引频次高低和文献间的共被引关系外,还可以生成时间线图谱和时区图谱。时间线图谱可以将研究主题各微观知识领域进行聚类,同一聚类排在同一水平线上,并根据时间顺序进行排列,从而展示研究主题各微观知识领域的历史成果,从中可以研究主题的重要奠基性文献。时区图是另一种侧重于从时间维度上来表示知识演进的视图,可以清晰地展示出文献的更新和互相影响情况,它将结点定位在一个二维坐标系中。根据结点首次被引用的时间,结点被放在不同的时区中,并且所放位置的高度依次增加。一个从左到右,自下而上的知识演进图就直观的展示出来,位于坐标系靠左、靠上的结点可以认为是该知识领域的研究前沿。

3.6.2 HistCite的文献被引分析功能

HistCite可以通过对从WoS下载的文献依据被引频次编制引文编年图,这也是该工具的主要功能。点击HistCite主界面最上方的“Tools”-“Graph Maker”-“Make Graph”按钮,即可得到相应的引文编年图。引文编年图可以从GCS和LCS两个角度进行编制,如果引文编年图编制时选择所有文献,则用GCS和LCS编制的结果是一样的;在实际绘制过程中,以LCS 为依据编制引文编年图更能体现研究的外延和分析的针对性,因此选择LCS较为合适。图1为采用HistCite编制的引文编年图,每一个圆圈表示一篇文献,圆圈大小代表文献被引频次的多少。被引频次越高,圆圈就越大。带箭头的连线代表文献节点之间的引用关系,箭头指向的文献是被引文献,圆圈内所标数字指明该节点文献在文献集合中的顺序号。引文编年图以从上到下的空间顺序表示由先到后的时间顺序,各文献按照其发表年份的先后给予序号并安排在图中相应位置。通过HistCite生成的引文编年图,可以清楚地观察到电子政务研究的历史沿革、研究文献之间的继承关系以及在各研究阶段的发展程度。图中,2010—2012年的文献节点是空白,表明在这个时间段内没有具有一定影响力的经典文献,这与文献被引与时间的累积性相关。而较大的结点如158、220、324、343、225等代表的文献具有较高的被引频次,因此可以认为是电子政务研究中较经典的文献,通过对这些经典文献的分析,可以一定程度上了解电子政务研究的知识基础与研究前沿。

然而,被引频次仅仅是文献影响力高低的反映,而文献的共被引却能够反映文献与文献之间的研究方向或研究主题的关联,两篇文献共被引的频次越多,说明它们学术研究方向的关联性越强。由此推而广之,由多篇文献间的共被引关系形成的文献共被引聚类,反映了聚类文献之间共同的研究方向和关注的热点主题[11]。HistCite无法实现文献共被引分析,因此通过该软件提供的引文编年图不能够实现文献的聚类,也就无法从引文分析的角度揭示解释热点主题以及知识结构。

3.7 两种工具比较结果

表7 两种可视化工具的比较结果

CiteSpace和HistCite均是基于引文分析的文献计量可视化分析工具,因此其基本的原理依据是一致的。CiteSpace的核心特色是可以实现文献计量学指标网络结构的揭示(共现、共被引网络),相对而言,HistCite无法揭示网络结构,其核心特色表现在可以实现各文献计量学指标的文献集内和WoS两种范围的被引频次分析,而CiteSpace的被引频次分析只限于考察主题的文献集内。具体来讲两种工具在功能上存在以下差异,如表7所示。

4 结语

通过CiteSpace和HistCite两种可视化工具的比较可知,CiteSpace的功能更加丰富,而HistCite功能较为单一。但无论使用多么智能的可视化工具,在进行某一主题研究时,可视化工具只能提供我们一个研究线索,在具体研究时需要我们辅以深入、全面的文献调研和专家咨询才能使研究结果更科学。笔者认为,未来文献计量可视化研究重点一方面要在知识单元间的测度更加精确与合理上下功夫。例如,通过计算机语义理解,解决一词多义和一义多词等词形与词性问题等;另一方面要进一步实现方法的融合与改进,进一步完善相关算法。例如,在共引分析中,根据两被引文献(或作者等)在同一文献中的共被引强度给予不同的权值。

[1]Lotka A J.The frequency distribution of scientific productivity[J].Journal of the Washington Academy of Sciences,1926,16(12):317-323.

[2]Gross P L K,Gross E M.College libraries and chemical education[J].Science,1927,66(1713):383-406.

[3]Bradford S C.Sources of information on specific subjects[J].Engineering,1934,23(3):85-88.

[4]Zipf G K.Selected studies of the principle of relative frequencies oflanguage[M].Cambridge:Harvard University Press,1932.

[5]Pritchard A.Statisticalbibliography or bibliometrics?[J]. JournalofDocumentation,1969,25(4):348-349.

[6]Garfield E,SherIH,Torpie RJ.The Use ofCitation Data in Writing the History ofScience[M].Philadelphia:Institute forScientific Information,1964.

[7]Milgram S.The SmallWorld Prolem[J].Psychology Today,1967(2):60-67.

[8]邱均平.信息计量学[M].武汉:武汉大学出版社,2007:408-409.

[9]王贤文,刘则渊.基于共被引率分析的期刊分类研究[J].科研管理,2009(5):187-195.

[10]吴晓秋,吕娜.基于关键词共现频率的热点分析方法研究[J].情报理论与实践,2012(8):115-119.

[11]潘黎,侯剑华.国际高等教育研究的热点主题和研究前沿:基于8种SSCI高等教育学期刊2000—2011年文献共被引网络图谱的分析[J].教育研究,2012(6):136-143.

李燕波洛阳师范学院图书馆馆员。河南洛阳,471022。

Analysis of the Functions of the Two Bibliometrics Visualization Softwares based on the E-government Research

Li Yanbo

Under the purpose of the two bibliometric visualization tools CiteSpace and HistCite comparative analysis,eight bibliometric indicators are designed as the comparative indicators for the functions,and 1388 papers on e-government research are download from the Web of Science during 2003-2012 as the experimental literature sample.Based on these, functions of these two tools are compared by this paper.It compares their functions from the analysis functions,the knowledge mapping readability and the data format.

Bibliometric.Visualization analysis.CiteSpace.HistCite.E-government.

G250.252

2014-04-14 编校:刘勇定)

猜你喜欢
结点图谱可视化
“植物界大熊猫”完整基因组图谱首次发布
基于伪谱法的水下航行体快速操舵变深图谱研究
数据可视化设计在美妆类APP中的应用
思维可视化
LEACH 算法应用于矿井无线通信的路由算法研究
复变函数级数展开的可视化实验教学
复变函数级数展开的可视化实验教学
复变函数共形映射的可视化实验教学
复变函数共形映射的可视化实验教学
图表