钟秀梅 崔 雷
(中国医科大学医学信息学系 沈阳 110013)
科学映射工具在医学知识图谱构建中的比较
钟秀梅 崔 雷
(中国医科大学医学信息学系 沈阳 110013)
选择HistCite,NWB,ROST CM,Sci2,SATI,SciMAT,Bibexcel,BICOMB,UCINET,gCLUTO,VOSviewer 11款科学映射工具进行对比分析研究,并对各自特点简要介绍及总结评述,以期有助于医学领域知识图谱的构建。
科学映射工具;医学知识图谱;比较
20世纪50-60年代以来,科学计量学不断发展,已成为科学学领域的重要分支。科学映射(Science Mapping)是科学计量学的重要研究领域,其意在研究并揭示科学研究活动中各要素的行为模式与规律以及科学知识结构中各类别元素的相互关系[1],以期展现学科的发展历程、研究现状、前沿领域以及知识脉络等[2-3]。科学映射的结果被称作科学图谱或知识图谱,是指学科知识元素的结构和相互关系的可视化表达[4-5]。借助科学知识图谱,人们可以透视庞大的人类知识体系中各个领域的结构,理顺复杂的知识网络,预测科学技术前沿发展的最新态势。科学映射工具多种多样,大多为特定的领域、目的或工作流程而设计,各有其优劣。本文选取一些国内广泛应用的科学映射工具[6-9]进行介绍,分析比较其在医学知识图谱绘制中的作用。
2.1 11款软件概况
本文对比研究了HistCite[10],NWB[11],ROST CM(国内)[12],Sci2[13],SATI(国内)[14],SciMAT[15],Bibexcel[16],BICOMB(国内)[17],UCINET[18],gCLUTO[19],VOSviewer[20]11款软件用于绘制医学知识图谱的相关功能,总结评述其功能特点。其中HistCite,NWB,ROST CM,Sci2,SATI,SciMAT为综合性工具,Bibexcel,BICOMB为处理统计性工具,UCINET,gCLUTO,VOSviewer为可视化工具,均可在Windows平台下使用,部分还可在其他平台使用;除UCINET需付费使用外,其余均为免费使用。11款软件全称及官网,见表1。
表1 11款科学映射工具全称及官网
2.2 输入数据格式
WOS和PubMed是国际上重要的科技文献数据库,富含医学研究资源,尤其是WOS的引文数据和PubMed的MeSH词表最具特色[21-22]。但目前,科学映射工具多以WOS数据为分析对象,如表2所示,有8款明确指明接受WOS数据;此外ROST CM虽未明确指出,但也可对其处理。而以PubMed为分析对象的则相对较少。此外,中英文数据皆可处理的工具,仅Bibexcel,BICOMB,ROST CM和SATI,见表2。
表2 11款科学映射工具可接受数据格式比较
注:“_”表示软件不接受原始文献题录格式。
2.3 数据预处理、统计功能
原始数据往往存在条目重复、拼写错误、格式不规范、坏数据等问题,故需预处理后再行统计分析。预处理是整个科学映射中非常重要的步骤,直接关系着结果质量的高低,故需谨慎处理。除UCINET和gCLUTO外,其余9款都具有一定数据预处理和统计功能,见表3。
表3 11款科学映射工具数据预处理功能比较
2.4 知识矩阵网络构建功能
该功能主要围绕知识表达的主体和载体等知识元素展开,如作者、关键词、文献、引文、期刊等,以表示其直接或间接联系。除UCINET和gCLUTO外,其余9款软件均可构造出一定类型的知识矩阵网络,见表4。
表4 11款科学映射工具可构建知识矩阵网络比较
2.5 矩阵网络指标关系整理功能
上步所得矩阵网络仅为原始频数矩阵,需加以规范,即依据具体数据形式选择适当规范化指标进行关系整理。尽管有学者直接使用原始频数矩阵进行分析[23],但有许多学者认为,指标关系整理是科学映射必不可少的步骤,它能使相互关系研究尽可能不受混杂因素影响[24-25]。规范化指标包括相似性度量指标和相异性度量指标,且多种多样。除BICOMB、HistCite两款不具此功能外,其余9款的指标都各具特色,见表5。
表5 11款科学映射工具的规范化度量指标比较
2.6 矩阵网络关系发现功能
除Bibexcel和BICOMB不能进行后续分析外,其余均能进行一些分析,详细情况,见表6。但需注意对于某特定数据源数据,软件可能会缺失其中某项分析功能,如Sci2暂不具有对WOS数据的空间地理分析功能。
表6 11款科学映射工具分析方法比较
注:突发监测指根据知识元素频率随时间的变化情况,监测出短期内波幅较大的对象,目前多采用Kleinberg的bumt detection algorithm[13];空间分析指基于地图(如google地图),分析研究对象的地理分布情况;时序分析指知识元素随时间的变化情况;网络分析指根据知识元素间联系,以网络图形式呈现分析结果;双聚类指对二维数据的行列变量均进行聚类。
3.1 HistCite
HistCite专注于引文分析,以时间轴为基础,绘制施引文献与被引文献间关联,意在识别出领域中重要研究成果。其特色是与WOS的衔接性很好,中间数据可经由WOS获取、修正和链接,在引文分析方面有其独特优势。但其仅限于引文分析和一定元素统计,缺失合著、共词以及其他多种关联的分析,可接受数据格式较局限,不能处理中文。
3.2 NWB
NWB相对较成熟完善,接受多种数据格式;根据具体需求进行相应的数据预处理;构建多种知识矩阵网络,根据用户自定义进行规范化;分析方法多种多样;嵌合了GUESS,GnuPlot,DrL等多种可视化插件;但不能处理中文。因提供多种自定义设置,较灵活,要求用户具有较高信息分析能力,较适合熟悉科学计量学分析方法的用户。
3.3 ROST CM
ROST CM主要用于情感分析和社会网络分析领域,也可用于科学计量学,以进行分类聚类、共现分析、依存分析、语义网络、社会网络等。该软件具有较强的数据预处理功能,可处理多种数据格式且中英文数据均可处理;借助插件NetDraw完成可视化。
3.4 SATI
SATI专门用于处理文献题录数据。其优势在于:(1)除基本预处理功能外,还能去停用词及提取词干。(2)可进行时间切分,划分不同时间段子集。(3)通过插件NetDraw完成可视化。但该软件在矩阵截取方面不便捷,矩阵行列数相同且不得超过100,若行列数不同或行列超过100则无法自动截取。
3.5 Sci2
Sci2在界面、设计和功能上与NWB相像,但二者又不尽相同。相对NWB来讲,Sci2的功能更为全面、完善:(1)除GUESS,GnuPlot,DrL等外,还嵌合了Gephi。(2)嵌入了R语言功能模块。(3)保有空间分析。但NWB操作相对简便。
3.6 SciMAT
SciMAT出现较晚,融合了多款综合性科学映射工具和可视化工具的优点,其数据预处理、知识矩阵网络构建和分析方面功能强大,但其主要分析对象是WOS,对其他格式数据的处理还相对欠缺,尤其是中文数据。
3.7 Bibexcel
Bibexcel是一款文献计量学软件,擅长引文分析。其特点在于:(1)除英文数据外,还可处理CSSCI数据。(2)灵活多变、功能强大,但设置上较繁琐,适合较熟悉科学计量学研究的用户。(3)可全面构建共现矩阵,但缺失直接关系矩阵构建功能且输出行列数受Excel本身的限制。(4)不具可视化功能,需借助其他可视化工具。
3.8 BICOMB
BICOMB主要用于文献计量学,也可用于其他结构化数据,中英文均可。其优势在于:(1)除预设数据格式外,用户还可自定义处理格式。(2)频次阈值截取功能,允许研究者进行典型或高频数据的知识矩阵网络构建。(3)可自动获取除引文耦合矩阵外的其他矩阵。其劣势为无规范化、可视化功能,需结合可视化工具使用。
3.9 UCINET
UCINET主要用于社会网络分析,也可用于科学计量学,是一款功能齐全的可视化工具,整合了Pajek,Mage,NetDraw这3款软件,涵盖大量矩阵计算、转换算法以及网络布局算法。但由于其不能直接处理原始数据,所以需与处理统计工具相结合使用。
3.10 gCLUTO
gCLUTO用于矩阵聚类。该软件特色在于:(1)除对共现矩阵聚类外,还可对直接关系矩阵双聚类。(2)提供多种聚类算法、相似函数和标准函数。(3)经过多维标度法生成三维彩色山丘聚类图形。(4)根据相似度度量给出各类的特征属性,用以描述和区分各类。其不足之处在于:(1)仅能接受矩阵格式数据,不能直接处理原始数据。(2)除聚类外,不涉及其他分析方法。
3.11 VOSviewer
VOSviewer主要用于知识矩阵网络的可视化。自2012年3月后增加处理统计功能模块,可处理WOS和Scopus记录格式数据。尽管如此,但因该功能尚不完善,故归为可视化工具,仍需与其他处理统计分析工具相结合。此外,在数据规范化方面,所提供的规范化度量指标仅关联强度一种,其适应性较弱。
科学知识图谱是显示科学知识发展进程与结构关系的一种图形,以数学方程式表达科学发展规律,用图谱的形式加以呈现,是科学计量学具有前景的研究方向。分析科学知识图谱映射工具的特点,有利于知识图谱的构建,本文简要介绍11款科学映射的工具,对各映射点进行简要评述,希望有助于医学领域知识图谱的构建。
1 黄亚明.科学映射模式及其方法论基础的探讨[J].科学学研究,2008, 26(5):904-912,931.
2 秦长江,侯汉清.知识图谱——信息管理与知识管理的新领域[J].大学图书馆学报,2009,27(1):30-37,96.
3 王海燕.基于知识脉络分析的ICD-10热点研究[J].医学信息学杂志,2013,34(3):73-75.
4 Small H.Update on Science Mapping:creating large document spaces[J].Scientometrics,1997,38(2):275-293.
5 Morris SA,Van der Veer Martens B.Modeling and Mapping of Research Specialties[J].The Annual Review of Information Science and Technology,2007,42(1):213-295.
6 王超,吕俊生,吴新年,等.学术网络研究进展[J].情报杂志,2013,(10):93-98.
7 岳晓旭,袁军鹏,高继平,等.常用科学知识图谱工具实例对比[J].数字图书馆论坛,2014,(5):66-72.
8 侯月明,乔晓东,孙卫,等. 开源分析工具在中文文献分析中的应用[J]. 现代图书情报技术,2013,(3):71-76.
9 李维,李毅.转化医学信息学研究热点双向聚类计量分析[J].医学信息学杂志,2014,35(4):15-19.
10 Garfield E.Using HistCite to Map the Output of Small World,Walson-Crisk 1953,Cell Death and Differentiation,and Gene Flow[EB/OL].[2014-07-28]. http://garfield.library.upenn.edu/papers/leocester071103.pdf.
11 NWB Team. Network Workbench Tool. Indiana University, Northeastern University, and University of Michigan. 2006[EB/OL].[2014-07-28].http://nwb.slis.indiana.edu.
12 ROST工具列表[EB/OL].[2014-07-28].http://hi.baidu.com/ietynxalzidjoye/item/77fa3d392e5f8b6f7c034bae.
13 Sci2 Team.Science of Science(Sci2) Tool.Indiana University and SciTech Strategies[EB/OL].[2014-07-28].http://Sci2.cns.iu.edu.
14 刘启元,叶鹰.文献题录信息挖掘技术方法及其软件SATI的实现——以中外图书情报学为例[J].信息资源管理学报,2012,(1):50-58.
15 Cobo MJ,López-Herrera AG,Herrera-Viedma E,et al.SciMAT:a new science mapping analysis software tool[J].Journal of the American Society for Information Science and Technology,2012,63(8):1609-1630.
16 Persson O, Danell R,Wiborg Schneider J. 2009. How to Use Bibexcel for Various Types of Bibliometric Analysis[C].Belgium: Celebrating Scholarly Communication Studies: a festschrift for Olle Persson at his 60th birthday, 2009:9-24.
17 崔雷,刘伟,闫雷,等.文献数据库中书目信息共现挖掘系统的开发[J].现代图书情报技术,2008,(8):70-75.
18 Borgatti SP,Everett MG,Freeman LC.Ucinet for Windows:software for social network analysis[EB/OL].[2014-07-28].http://www.analytictech.com/ucinet/.
19 Rasmussen M,Karypis G.gCLUTO-An Interactive Clustering,Visualization,and Analysis System[EB/OL].[2014-07-28].http://glaros.dtc.umn.edu/gkhome/node/174.
20 Van Eck NJ,Waltman L.VOSviewer:a computer program for bibliometric mapping[C].Proceeding of the 12th International Conference on Scientometrics and Informetrics,2009:886-889.
21 张玢,梁芳,许培扬,等.Web of Knowledge在医学信息分析评价研究中的应用[J].医学信息学杂志,2007,28(6):536-540.
22 廖一平.PubMed,Web of Science,Scopus以及Google Scholar比较研究[J].医学信息学杂志,2009,30(5):18-20,23.
23 White HD.Pathfinder Networks and ACA:a remapping of paradigmatic information scientists[J].Journal of the American Society for Information Science and Technology,2003,(5):423-434.
24 Leydesdorff L.Should Co-occurrence Data be Normalized:a rejoinder[J].Journal of the American Society for Infomation Science and Technology,2007,58(14):2411-2413.
25 Waltman L,Nees Jan van Eck.Some Comments on the Question whether Co-occurrence Data Should be Normalized[J].Journa of the American Society for Information Science and Technology,2007,58(11):1701-1703.
Comparison of Science Mapping Tools in Constructing Medical Knowledge Maps
ZHONGXiu-mei,CUILei,
DepartmentofMedicalInformatics,ChinaMedicalUniversity,Shenyang110013,China
The paper carries out comparative analysis among 11 science mapping tools,including HistCite,NWB,ROST CM,Sci2,SATI,SciMAT,Bibexcel,BICOMB,UCINET,gCLUTO,VOSviewer, introduces and summarizes their characteristcs for helping to construct the knowledge maps in medical domain.
Science mapping tools;Medical knowledge map;Comparison
2015-01-06
钟秀梅,在读硕士研究生,发表论文2篇;通讯作者:崔雷。
R-058
A 〔DOI〕10.3969/j.issn.1673-6036.2015.04.011