郑 娜,邵党国
(昆明理工大学 信息工程与自动化学院,云南 昆明 650504)
信息可视化分析工具的比较分析
——以CiteSpace、SATI分析关键词共现为例
郑 娜,邵党国
(昆明理工大学 信息工程与自动化学院,云南 昆明 650504)
CiteSpace和SATI都是应用比较广泛的可视化分析工具,为分析其两者的共性及各自的特点。首先介绍了CiteSpace和SATI的基本功能界面,然后分析了他们对数据格式的转换处理,最后通过两个软件在相同数据(通过中国知网检索“煤炭去产能”领域相关文献)下以分析关键词共现为例,对生成的关键词共现图谱进行分析。从多角度归纳总结可视化软件CiteSpace和SATI的共性特点,期望能为用户选择信息可视化分析工具提供参考。
信息可视化分析;煤炭去产能;SATI;CiteSpace
可视化是指数据信息转化为图形图像表示的一种方法[1]。可将数据信息通过计算机处理技术后以图形图像的形式输出,对源数据的表达更加直观形象[2]。可视化软件利用其强大的数据处理功能,将数据信息转化成图像形式,并通过绘制可视化图谱[3],可以达到更好的帮助研究人员的目的。
CiteSpace软件是国际上应用较为广泛的可视化软件,它由美国陈超美博士使用Java语言开发,可处理国际上的WoS数据以及国内的CNKI数据等[4]。而 SATI是国内应用比较广泛的文献题录信息统计分析可视化软件[5]。它是基于.NET开发平台使用C#编程开发的[6],可处理最常见的 EndNote格式数据以及NoteFirst和NoteExpress的格式数据。本文首先介绍了数据来源以及对数据的处理,然后再具体介绍了CiteSpace和SATI两种软件,最后以关键词共现为研究实例,使用CiteSpace与SATI对相同的数据(通过中国知网检索“煤炭去产能”领域相关文献)进行研究,通过可视化结果分析总结两个可视化软件的共性及各自的特点。
1.1 数据来源
作为文献计量分析的基本步骤,数据收集和预处理这两个过程尤为重要[7-8],它们直接决定了后面生成结果的分析。在中国知网(CNKI)以主题词“煤炭去产能”进行高级检索[9],检索时间范围设置为2007年1月1日-2017年3月4日,文献来源类型为全部,检索日期为2017年3月4日,得到我国关于煤炭去产能相关文献3562篇。数据预处理是把收集的数据经过处理导入到分析软件的过程。此过程是整个分析过程的基础,它根据软件的要求把收集到的数据进行格式转换以便进一步分析。
1.2 数据处理
从中国知网将收集到的我国煤炭去产能研究数据导出,格式分别设置为Refworks和Endnote格式[10]。其中Citespace可导入Refworks格式的数据,再通过格式转换后重新导入 Citespace软件可生成关键词共现知识图谱。而SATI软件可直接导入Endnote格式数据,通过转化为 XML的格式数据,可得到关键词共现矩阵,并借助Ucinet,Netdraw软件也可得到关键词共现知识图谱。
2.1 Citespace简介
Citespace可视化软件是由美国博士陈超美先生使用Java语言开发的软件,主要功能为研究相关领域的发展过程[11]。通过基于共现、共引和网络算法对相关领域文献进行分析,绘制可视化图谱作为结果来分析具体的变化过程并探测其进一步发展趋势。并且著名教授刘则渊曾通过“一图展春秋,一览无余;一图胜万言,一目了然”对Citespace软件进行了高度评价概括,可见Citespace是非常强大的一个可视化软件。
2.2 文献题录信息计量分析工具SATI简介
文献题录信息统计分析工具 SATI通过导入预处理后的数据[12],利用其内部的数据分析处理方法,可使数据转化为可视化的图像形式并借助屏幕显示出来。方便后期进一步使用分析数据,SATI可通过对导入数据进行预处理,将其转化为 XML格式(SATI专用格式)数据文件。SATI主要功能包括数据格式转换、抽取字段信息、词频统计以及构建知识矩阵。
2.3 界面设计比较
CiteSpace和SATI这两款软件的主界面均包含菜单项、参数设置项以及显示框。CiteSpace只有英文版本而 SATI提供中英文两种版本,其中如图 1所示,CiteSpace的菜单项又包含了File(文件)、Project(项目)、Data(数据)、Network(网络)、Visualization(可视化)等栏目,参数设置项包含了Time Slicing(时间切割)、Term Source(术语来源)、Term Type(术语类型)、Links(节点类型)、Selection Criteria(选择标准)、Pruning(图谱精简)和Visualization(可视化类型)等部分,显示框包含了Process Reports(软件运行结果报告)和Space Status(数据基本信息)两部分。如图2所示,SATI菜单项包括Welcome(欢迎)、Bibliography(文献目录)、Tools(工具),其中在Bibliography菜单项下包括文件格式转换(形成SATI专用的XML文件)、参数设置(如数据的处理内容、矩阵的类型、行列设置等)以及运行过程的操作(字段抽取、频次统计、矩阵生成、保存文件)。通过运行软件发现CiteSpace可以同时执行多种操作即运行多个窗口,而 SATI仅可运行一个窗口。
2.4 数据处理功能比较
首先根据CiteSpace和STAI软件对数据格式的要求,从中国知网分别获取Refworks和Endnote格式的数据。接下来需要进行数据转换,其中Refworks格式的数据需要借助 CiteSpace进行格式转化使之成为CiteSpace专用数据。如图3所示,在CNKI选项下,选择数据的源目录以及处理后数据的存放目录,这里需要注意下在中国知网获取的Refworks格式的txt文件应以download开头[13],因为CiteSpace只能识别名为download_xxx.txt的文件,点击Format Conversion按钮,当在信息栏出现 Finished则表示转换成功。而对于SATI也需要对Endnote数据转换成SATI内部需要的XML格式的数据,首先在Bibliography选项下点击单文件选着已经在知网获取到的Endnote格式数据文件,在格式下拉框里选择EndNote-(推荐知网),最后点击转换按钮,如图4当出现“XML格式题录文件转换成功”这表明数据处理成功。相比两软件的数据转换不难发现它们设计的数据转换都具有良好的操作体验,不过 SATI进行数据转换后可以直接使用,而Citespace在进行数据转换后还需要把数据再次导入才可进行后续操作,这主要是由于CiteSpace是国外开发可视化应用软件。
图2 SATI软件主界面Fig.2 SATI software main interface
图3 Citespace软件数据格式转换Fig.3 Citespace software data format conversion
图4 SATI软件数据格式转换Fig.4 SATI software data format conversion
煤炭不仅是重要的工业原料,还是我国最重要的传统基础能源,对社会的发展起着决定性的作用[14]。而煤炭生产厂家在巨大利益的诱惑下,没有遵循经济发展的客观规律,忽视了市场供求关系,导致煤炭行业的盲目投资扩张[15]。现阶段我国煤炭行业出现了严重的产能过剩问题,也得到了社会各界的高度关注[16]。而通过 SATI和Citespace两种可视化软件分别生成关键词共现知识图谱,并对可视化图谱进行深入解读、分析和比较,以展示我国煤炭领域去产能的研究全貌,了解我国煤炭去产能研究现状及趋势。
3.1 基于Citespace可视化软件的关键词共现分析
通过 Citespace软件对数据处理后可进一步获得关键词共现知识图谱,如图5首先新建一个项目命名为“煤炭去产能”,然后选择一个目录作为项目运行结果保存目录(Project Home)和处理转换之后的数据目录作为数据输入目录(Data Directory),选择数据来源为CNKI,CSSCI,其余选项默认即可,最后点击Sava保存,项目创建成功。然后在图6中Time Slicing选择分析的时间区间为 2007-2017,Years per Slice的意思是以多长时间作为一个时间单位进行分析,我们选择每一年为一个时间段,Term source 是关键词来源,不需要更改维持默认即可。Term type代表关键词类型,这里一般选择最后一个burst terms,也就是关键词以爆发性出现。因为一个研究热点出现时,一般关于这个热点的关键词会出现爆发性的增长,这也是 CiteSpace主要功能的体现。Node Types选择Keyword,Selection Criteria中Top N 的意思是每个时间段(slice)选择被引用最多的前 50个文献进行分析,引用多相对而言研究较为热门。为了使得到的知识图谱更加清楚,我们在pruning(修剪)选项中,勾选pathfinder(探测)和pruning sliced network(修建切片网络),这样可以使得到的知识图谱不至于太乱。最后点击go按钮即可运行得到关于关键词共现的知识图谱(图7)。
图5 Citespace创建研究项目Fig.5 Citespace to create a research project
图6 Citespace项目参数设置Fig.6 Citespace project parameter settings
图7 Citespace关键词共现知识图谱Fig.7 Citespace keyword co-occurrence knowledge map
图7中的环形圆圈被称为引文年轮,代表了包含该关键词的文章出现的年份。其中中心部分的颜色代表了文章的发表时间。引文时间对应着引文年轮的每环颜色。环的厚度与时区中引用的数目成正比。可以看到产能过剩、结构性改革、动力煤、过剩产能、煤炭企业等节点较大,并与其他节点联系较为紧密。说明其在引文中出现的次数较多,也代表了它们在煤炭去产能领域的重要性。虽然图7已是修剪过的知识图谱,但是看起来还是比较繁杂,为更好地分析煤炭去产能的研究热点我们可以使用Citespace的Timeline功能生成在时间轴上的知识图谱如图8所示。
图8 Citespace基于时间轴的知识图谱Fig.8 Citespace based on the time axis of the knowledge map
为得到图8所示图谱,首先在输出结果图(图7)的右侧对话框中,选择Labels栏,在Visualizations里面选择Timeline选项,即可得到每一个时间段内的研究热点图谱。从Timeline的图中我们可以得前三十个关键词的分布。其中关键词曲线的长短与时间跨度成正相关,并且不同年份对应不同颜色。结合图 7和图 8,可以看到产能过剩、经济发展等关键词贯穿了整个时间段,说明它们在煤炭去产能过程中的重要性。动力煤、常务会议、企业兼并重组等关键词在2011年开始涌现,说明在2011年国家高度重视煤炭去产能,并且实施了一系列应对措施。僵尸企业、结构性改革、职工安置等关键词出现在2015年,说明随着煤炭去产能一系列措施的实施,消化过剩产能的过程中不可避免的出现了一些僵尸企业,并随着产能的减少,一些职工也面临着重新安置的问题。所以优化产业结构才是煤炭去产能的必行之路。
3.2 基于SATI可视化软件的关键词共现分析
同样通过 SATI软件进行数据格式转换后也可以进一步得到关键词共现知识图谱,不过相比于Citespace较多的设置项来说,SATI的设置较为简单。如图9所示,首先在选项栏里选择“关键词”选项,时间和来源选择数据中的全部(ALL),矩阵选择输出共现矩阵,每单元代表出现的次数。Rows/Cols选项栏里输入 30,即结果中只保留共现
次数最多的前三十个词。然后依次选着“字段抽取”、“频次统计”、“矩阵生成”之后在 Excle里面出现关键词共现矩阵,进一步借助Ucinet、Netdraw软件[17]可以得到可视化的关键词共现知识图谱(图10)。如果关键词节点之间存在连接,这意味着它们之间存在一种共现的关系,连线的厚度和共现关系的强度呈正相关[18]。如果结点的位置越处于中心则代表其地位越核心,在图10中可以看到节点最大为产能过剩,其次较大节点还包括结构性改革、过剩产能、动力煤、煤炭生产、国家发改委等,而且也都比较居中,说明了这些关键词在能源去产能中有着重要的地位。由于煤炭去产能形势一直严峻,所以持续被各界广泛的关注。并且在图10中还可以发现产能过剩节点与上述节点分别有较粗的连线,说明产能过剩与这些节点都有比较强的联系,可以看出煤炭去产能和国家层面的相关政策联系较紧密,比如国家发改委出台一系列关于煤炭产业结构性改革调整的政策等,并且影响着经济发展。再看图10中位于中心部分的节点,大多都是很多煤炭行业行业都涉及到的东西,比如过剩产能等。而其他边缘节点则主要体现的是煤炭去产能涉及的一些具体应对措施,并且不同颜色的节点代表着不同的领域,如煤化工、节能减排、产业结构、分流安置说明发展煤化工是煤炭去产能的有效途径,这属于产业结构调整,所以面临着职工的分流安置,这一过程中还有可能出现僵尸企业。关键词常务会议则代表的是政治领域对煤炭去产能的调节。煤炭行业、煤炭企业、煤炭产业则在煤炭去产能过程中在行业、企业、产业的范畴中扮演着主要角色。图10中各节点均是煤炭去产能领域排名前三十的关键词,可见它们在一定程度上代表了煤炭去产能行业的发展现状。
图9 SATI运行参数设置Fig.9 SATI operating parameter settings
图10 SATI关键词共现知识图谱Fig.10 SATI keyword co-occurrence knowledge map
通过使用可视化软件Citespace和SATI对我国煤炭行业相关文献关键词共现分析,可以发现Citespace所具有的的功能更加强大,它不仅可以生成关键词共现知识图谱,而且还可以通过 Timeline选项得到每个时间段内的研究热点。不过 SATI也有其自己的优势,生成的可视化图谱较清晰简洁,并可以以 Excle表格的形式保存关键词共现矩阵,这使得其生成的结果可以被很多研究者方便使用。而且两者对数据格式的转换处理速度很快,不过CiteSpace是国外开发可视化应用软件,主要针对(WoS)数据,所以其需要单独的数据转换过程。CiteSpace只有英文版本而SATI提供中英文两种版本,不过CiteSpace可以同时执行多种操作即运行多个窗口,而 SATI仅可运行一个窗口。综上所述,这两款软件各有千秋,我们还是应根据具体的需要选择相应软件。
[1] 邝野, 马璇. 信息可视化过程中色像差的补偿方式研究[J].软件, 2012, 33(12): 218-221.Kuang Y, M a X. Compensation method of chromatic aberration in the process of information visualization[J]. Software,2012, 33(12): 218-221.
[2] 李慧玲, 张俊霞. 计算机图形图像处理与制作专业教学改革分析[J]. 软件, 2014(2): 184-185.Li H L, Zhang J X. Computer Graphics, Image Processing and Analysis of the Production of Teaching Reform[J].Software, 2014(2): 184-185.
[3] 孙金升. 数据可视化技术的研究及其在教务信息数据库中的应用[D]. 合肥工业大学, 2006.Sun J S.Research on Data Visualization and the Application in Educational Administration Information Database[D].Hefei University of Technology, 2006.
[4] 陈超美, 陈悦, 侯剑华, 等. CiteSpaceⅡ: 科学文献中新趋势与新动态的识别与可视化[J]. 情报学报, 2009, 28(3):401-421.Chen C M, Chen Y, Hou J H, et al. CiteSpace II: Detecting and visualizing emerging trends and transient patterns in scientific literature[J]. Journal of the China Society for Scientific and Technical Information, 2009, 28(3): 401-421.
[5] 刘启元, 叶鹰. 文献题录信息挖掘技术方法及其软件SATI的实现——以中外图书情报学为例[J]. 信息资源管理学报,2012(1): 50-58.Liu Q Y, Ye Y. A Study on Mining Bibliographic Records by Designed Software SATI:Case Study on Library and Information Science[J]. Journal of Information Resources Management,2012, 2(1): 50-58.
[6] 赵蓉英, 李飞. 基于社会网络分析方法的国内外信息计量比较研究[J]. 情报科学, 2013(2): 7-12.Zhao R Y, Li F. A Comparative Study of Informetrics in China and in Foreign Countries Based on Social Network Analysis[J]. Information Science, 2013(2): 7-12.
[7] 郭婷, 郑颖. 数据挖掘在国内图书情报领域的应用现状分析——基于文献计量分析和共词分析[J]. 情报科学, 2015(10): 91-98.Guo T, Zheng Y. Research on the Application of Data Mining in the Field of Library and Information Science in China--Based on Bibliometric Analysis and Co-word Analysis[J].INFORMATION SCIENCE, 2015(10): 91-98.
[8] 周晓分, 黄国彬, 白雅楠. 科学计量可视化软件的对比与数据预处理研究[J]. 图书情报工作, 2013, 57(23): 64-72.Zhou X F, Huang G B, Bai Y N, et al. Comparison Between Scientific Visualization Metrology Software and the Data Pretreatment[J]. Library & Information Service, 2013, 57(23):64-72.
[9] 谭捷, 张李义, 饶丽君. 中文学术期刊数据库的比较研究[J]. 图书情报知识, 2010(4): 4-13.Tan J, Zhang L Y, Rao L J. A Comparative Study of Chinese Academic Journal Databases[J]. Document Information &Knowledge, 2010(4): 4-13.
[10] 周春雷, 王伟军, 成江东. CNKI输出文件在文献计量中的应用[J]. 图书情报工作, 2007, 51(7): 124-126.Zhou C L, Wang W J, Cheng J D. Application of CNKI Output Files in Bibliometric Analysis[J]. Library & Information Service, 2007, 51(7): 124-126.
[11] 侯剑华, 胡志刚. CiteSpace软件应用研究的回顾与展望[J].现代情报, 2013, 33(4): 99-103.Hou J H, Hu Z G. Review on the Application of CiteSpace at Home and Abroad[J]. Journal of Modern Information, 2013,33(4): 99-103.
[12] 王玮. 我国创客空间研究热点可视化分析[J]. 现代情报,2015, 35(12): 92-98.Wang W. Visualization Analysis on Research Hotspots of Makerspace in China[J]. JournaL of Modern Information,2015, 35(12): 92-98.
[13] 刘高勇, 汪会玲. 国内外引文分析研究热点的可视化分析[J]. 情报科学, 2011(5): 700-705.Liu G Y, Wang H L. Visualization Analysis on the Research Hotspots of Citation Analysis between the Whole World and China[J]. Information Science, 011(5): 700-705.
[14] 贺佑国, 叶旭东, 王震. 关于煤炭工业“十三五”规划的思考[J]. 煤炭经济研究, 2015(1): 6-8.He Y G, Ye X D, Wang Z. Consideration on the 13th Five Year Plan of Coal Industry[J]. Coal Economic Research,2015(1): 6-8.
[15] 陈月生. 我国经济发展方式转变与战略性新兴产业的发展[J]. 天津大学学报(社会科学版), 2011, 13(3): 217-221.Chen Y S. Transformation of Economic Development Mode and Development of Strategic Emerging Industries in China[J]. Journal of Tianjin University, 2011, 13(3): 217-221.
[16] 管馨, 李文臣. 我国煤炭行业经济效益下滑的原因分析[J].煤炭工程, 2015, 47(1): 136-138.Guan X, Li W C. Cause Analysis on Economic Benefits Decline of China's Coal Industry[J]. Coal Engineering, 2015,47(1): 136-138.
[17] 文庭孝, 刘晓英等. 我国非物质文化遗产研究的可视化分析——基于三种可视化工具的比较分析[J]. 图书馆, 2016(2): 21-27.Wen T X, Liu X Y. Visualization Analysis of Intangible Cultural Heritage in China[J]. Library, 2016(2): 21-27.
[18] 王晓光. 科学知识网络的形成与演化(Ⅰ): 共词网络方法的提出[J]. 情报学报, 2009, 28(4): 599-605.Wang X G. Formation and Evolution of Science Knowledge Network(I): A New Research Method Based on Co-word Network[J]. Journal of the China Society for Scientific &Technical Information, 2009, 28(4): 599-605.
A Comparative Analysis of Information Visualization Analysis Tools -- CiteSpace,SATI Analysis of Keywords Co-occurrence as an Example
ZHENG Na, SHAO Dang-guo
(School of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650504, China)
CiteSpace and SATI are the application of a wide range of visual analysis tools for the analysis of the two common and their respective characteristics. First introduced the basic functions of CiteSpace and SATI interface, and then analyzed their conversion of the data format processing, and finally through the two software in the same data (through the Chinese knowledge network "coal to produce capacity" in the field of relevant literature) to analyze keywords For example, the generated co-occurrence of the keyword analysis. Summarize the common features of the visualization software CiteSpace and SATI from multiple perspectives and look forward to providing a reference for users to choose information visualization analysis tools.
: Information visualization analysis; Coal to produce capacity; SATI; CiteSpace
G350
A
10.3969/j.issn.1003-6970.2017.10.007
本文著录格式:郑娜,邵党国. 信息可视化分析工具的比较分析——以CiteSpace、SATI分析关键词共现为例[J]. 软件,2017,38(10):39-46
国家博士后科学基金(2016M592894XB);云南省科技厅面上项目:(KKS0201703015)
郑娜(1994-),女,硕士,学生,昆明理工大学信息工程与自动化学院学生,研究方向:WEB数据挖掘。
邵党国,博士,讲师,主要研究方向:图像处理、自然语言处理、数据挖掘、机器学习。