ESI高被引论文及热点论文多角度可视化分析
——以数学研究领域为例

2022-06-04 05:12吕天宇
江苏科技信息 2022年12期
关键词:原始数据发文可视化

吕天宇

(江苏师范大学图书馆,江苏 徐州 221116)

0 引言

数学是一门有着悠久历史且一直在人类生产生活中发挥极为重要作用的自然学科。数量关系以及空间形式是联系数学这门学科与人类生产生活的两座重要桥梁[1],并且其研究成果被广泛应用于绝大部分的自然学科,甚至人文社会学科。这些学科的很多科研方法、模型或者工具都极其依赖数学学科的科研发展,所以对于数学领域的研究或者创新都在某种程度上反映了一所高校甚至一个国家的科研水平。当前时代是信息化、数据化以及智能化的时代,计算机学科的发展就和数学学科有着千丝万缕的联系,所以在当今时代背景下,对于数学学科的研究或者说对于数学与计算机科学结合应用的研究就显得格外重要,谁掌握了数学研究领域的前沿科技成果,谁就掌握了时代发展的主动权。本文选取数学研究领域作为研究方向也是结合了当下的时代背景与科研需要。

基于希望真实可信地分析近年来全球数学研究领域的论文成果以及科研特征,本文选择目前全球领先的专业信息服务提供商[2]科睿唯安(Clarivate)公司旗下的数据库产品ESI(Essential Science Indicators)作为数据挖掘的起始点。ESI数据库可以揭示在某个研究领域有影响力的国家、机构、论文和期刊以及研究前沿,其中高被引论文代表了近十年的引文数据中相同学科相同年度被引次数排名在前1%的文献,而热点论文则是最近两个月以来被引次数排名在前0.1%的文献[3]。这些特征保证了原始数据的权威性与完整性。

在获得所需要的论文原始数据后,本文对其进行了必要的扩展以保证多角度可视化分析的可行性。拓展时选用了能够基于ESI数据库信息提供文献全记录数据的WoS(Web of Science)数据库作为原始数据获取的第二来源。此平台把WoS核心合集和其他多个区域性平台中的资源包括引文索引、专利数据等建立连接,从而保证了用户检索数据的广度[4]。

同时,本文选择了较为权威的可视化分析工具,将所有的数据转换成清晰易读的表格、图片等可视化结果,使得读者能够直观地理解本文的分析过程与结论,并且希望对有意向在此主题上作进一步研究和分析的读者能够有所参考和启发。

1 研究工具选择与原始数据获取

1.1 研究工具选择

本文的研究重点为多角度可视化分析,所以在挑选研究工具上主要基于以下3点标准:

(1)与WoS数据库中获取的原始数据格式高度兼容且能直接读取并制作图表,因为从WoS数据库中下载的数据具有一定的格式特异性。

(2)可视化图表需要清晰明了、简单易读,保证读者可以高效地掌握文章的中心思想。

(3)同一工具基于同一份数据可提供不同角度可视化的变换,有效提高研究的效率并为后续研究提供有价值的参考。

通过筛选,本文最终选取了两个可视化工具,分别为InCites和VOSviewer。

1.1.1 InCites简介

InCites可视化分析工具同样作为科睿唯安公司旗下的产品,正是基于WoS中各类丰富的数据信息并利用其极强的定制化、可视化分析特性,能够帮助研究人员获得详细的、客观的并且有说服力的信息[5]。InCites分析工具同时满足了上述所提到的3个标准,所以本文选取它来研究较为宏观层面的论文特征。

1.1.2 VOSviewer简介

VOSviewer软件的开发初衷就是要展现其对于处理规模较大数据时的优势,尤其是在展现共现聚类图谱时,可以允许研究成员进行各种微观信息层面的查看及分析;而且在展现一些核心数据图时(例如:作者、机构或者国家合作网络图,关键词聚类图等),VOSviewer的直观程度相较于其他文献可视化分析软件会更高一些[6]。

在中国知网(CNKI)数据库中搜索使用VOSviewer作为研究工具的相关文献时发现:既有像本文一样研究一个大的学科领域,例如使用VOSviewer可视化分析中国环境生态学领域的研究热点;也有使用该工具研究一个较为微观的知识点,例如研究人体肠道菌群的相关研究热点[7-8]。

1.2 原始数据获取

本文所需原始数据的第一来源为ESI数据库。由于ESI数据库数据每两个月就滚动更新一次,具有时效性,所以特此说明数据下载时间为2021年10月19日。

首先,在ESI数据库的筛选器中,将“Research Fields”(研究领域)设置为“Mathematics”(数学),同时将文献筛选范围分别设置为“Highly Cited Papers”(高被引论文)和“Hot Papers”(热点论文)进行下载,分别得到4 771条和110条引文数据,至此就获得了ESI数据库中所需的所有原始数据。

如引言中所述,由于从ESI数据库中下载的原始数据广度有限,所以需要使用WoS数据库来对这些数据进行扩展,具体过程如下:将从ESI数据库中得到的4份数据中的入藏号全部挑选出来,并按照格式“入藏号1 or入藏号2 or…”复制到WoS核心合集数据库中检索,将所得检索结果按照“全记录与引用的参考文献”的形式导出纯文本格式文件,同样也是按照ESI数据库中的分类方式分为高被引论文数据和热点论文数据,至此本文所需要的所有原始数据获取完毕。

2 多角度可视化分析结果

本文最终选取了两个可视化软件作为研究工具,所以按照研究工具类别来介绍最终的研究结果。

2.1 InCites可视化分析结果——高被引及热点论文发文数量排名前10位机构分布

WoS数据库中的检索结果可直接导出至InCites数据库工具,得到两份WoS的原始数据时依次点击按钮“导出”-“InCites”,就可以同步至同一账户下的InCites数据库中,之后在InCites中就可以直接选择相应原始数据集进行可视化分析。

对数学领域高被引论文进行表格化分析,表格内容包括发文机构和国家或者地区、发文数量、被引频次及引文影响力等方面。被引频次和引文影响力是两个能够反映一个机构甚至一个国家或者地区在某一领域内发文水平的重要指标[9]。

高被引论文发文数量排在前10位的机构中,有4个机构(高校)都属于中国内地,其余机构分布在台湾地区、中东部分地区以及西方少数的发达国家地区,如表1所示。由此可以看出发展中国家及地区,尤其是中国大陆,在近十年对于数学领域的研究发挥了重要的作用。从被引频次及引文影响力的角度来看,这10所机构的发文水平也是非常高的,充分证明了这些论文研究领域的实用性、前瞻性以及权威性。总体来说,发文数量占优势的国家或者地区也能够同时保证其发文的引文影响力。

表1 高被引论文发文数量排名前10位机构分布数据

从中国国内的角度来看,山东科技大学在数学研究领域的发文数量、被引频次以及引文影响力3个指标都遥遥领先于其他高校,甚至其他国家的高校或者机构。其他上榜的国内高校依次是长沙理工大学、湖州师范学院以及曲阜师范大学,由此可以看出国内理工类及师范类高校特别重视数学领域的研究。从中还可以得出一个结论就是,国内数学领域的科研及人才资源并没有特别集中于第一梯队的重点高校,国家也在大力扶持二三线高校及学院在科研上的产出。

图1是从具体的数学领域研究方向绘制的占比饼图。从图1中可以看出,应用数学方向论文占比达到50%,也就是说近十年以来整个世界对于数学领域的研究都集中在其具体的应用层面。占比其次的是理论数学,论文占比达到27%,虽然不及应用数学方向的比例,但也同样是数学领域的研究重点,因为理论是一切实际应用的基础。剩余的一些重点方向包括统计概率学、多学科应用以及数学与生物学计算等,表明了数学领域正更多地去和其他学科交叉渗透,相互发展。

图1 高被引论文研究方向占比

对于数学领域热点论文,同样用以上两种图表的方式进行分析。近两个月以来被引频次较高的论文都集中在中国大陆地区、台湾地区、埃及等地,说明这些地区是当下世界范围内数学研究领域的第一梯队,如表2所示。其中,台湾地区近期对于数学领域的研究势头较为迅猛,发文数量占绝对优势;其引文影响力及被引频次也有较大优势。中国大陆上榜的高校有河南理工大学、山东大学、武汉大学以及西安建筑科技大学4所高校,说明中国大陆目前仍处于数学研究的世界前沿。其中,相比于高被引论文的分布表可以看出,中国大陆的一些高校成为数学研究领域的后起之秀,说明有更多的国内高校在关注数学领域的研究,提升学校的综合实力。

表2 热点论文发文数量排名前10位机构分布数据

图2是热点论文研究方向占比饼图。从图2中可以看出,热点论文研究方向占比分布和高被引论文基本一致,除了在多学科应用和统计概率学上有微小差别。占主流的研究方向仍然为应用数学,论文占比高达50%。由此可以看出,整个数学领域的研究方向在近十年以来几乎没有改变,而且预计今后的很长一段时间都会保持目前的方向特征,即关注于应用类数学方向。

图2 热点论文研究方向占比

2.2 VOSviewer可视化分析结果——高被引论文作者关键词聚类及国家间合作网络

本文运用VOSviewer软件从关键词聚类图以及合作网络图两个方向对数学研究领域发文进行可视化分析。由于在数据条目达到一定量级而生成的聚类或者网络图才有实际参考意义,所以本章节只基于高被引论文的原始数据进行研究。

将高被引论文的WoS原始数据(已整理好的纯文本文件)导入该软件中,并选择作者关键词共现,关键词最低出现次数的阈值设置为5次。最后得到571个关键词满足筛选条件,其中有557个关键词组成了最大的连接网络,从而得到高被引论文作者关键词聚类图(见图3)。从图3中可以看出,出现频率排在前3位的关键词为stability(稳定性)、fixed point(定点)以及chemotaxis(趋化性),分别出现了89次、76次和63次。其实这3个关键词都是数学建模过程中会频繁用到的3个重要数学概念,与InCites数据库中分析出的应用数学占比最大的特征保持一致。数学模型与应用数学是相辅相成的,建模的不断改进也会大力促进数学领域思维的不断创新[10]。

图3 高被引论文作者关键词聚类

合作网络图的生成过程与聚类图类似,也是首先导入已整理好的纯文本格式的WoS原始数据,待软件读取完毕后选择生成合作作者网络图,研究单位规模为国家层面。同时,设置网络图中的国家至少有5篇发文的阈值并且同一篇文章的合作国家不超过25个,从而得到64个国家的发文满足此条件,如图4所示。

图4 高被引论文国家合作网络

从图4中可以看出,中国作为发文数量最大的国家的同时也是合作网络广度最大的国家,与其中的58个国家都有合作发文。合作的国家既有像美国、英国和德国等西方发达国家,也有中东地区大量的发展中国家,其中与美国的合作深度最大,连接权值达到286。由此可以说明中国在数学领域的研究上与世界的合作非常紧密,同时也将重点放在与科研领先的发达国家合作上。总体来说,合作网络图中的64个国家都与其他国家有着或多或少的联系,说明数学领域的研究需要合作与交流,从而达到共同进步的目的,毕竟数学领域上的突破创新会极大带动人类社会诸多方面的发展。

3 总结与展望

3.1 研究总结

本文以ESI数学研究领域的高被引论文、热点论文数据及WoS扩展数据为研究对象,采用InCites及VOSviewer等软件为可视化研究工具,从发文数量、被引频次、引文影响力以及作者关键词聚类图和国家合作网络图等多个角度对原始发文数据进行了分析。

在用InCites数据库分析后发现,近十年的高被引论文主要都集中在发展中国家或地区,其中中国大陆占比排名第1位,而且发文数量和被引频次及引文影响力基本成正比。研究主要集中在应用数学方向,占比达到50%,说明数学领域对于多学科的应用较为重视。而分析热点论文后发现,数学研究领域近两个月以来的顶尖高被引论文也都基本集中在发展中国家或者地区,其中台湾地区的发文量表现比较突出,印度及中东地区的引文影响力较高。对于研究方向的特征,与高被引论文特征相似,都是集中在应用数学方向,论文占比同样达到50%。

在用VOSviewer软件生成作者关键词聚类图后可以发现,出现频率最高的三大聚类关键词都与数学模型和数学建模有关,再次说明了应用数学在多学科渗透甚至整个数学领域中的重要地位。而生成国家合作网络图可以发现,中国大陆与其他国家的合作最为广泛,几乎遍及了世界上最主要的国家或者地区;同时其与美国的联系最为紧密,也表现出我国对于世界先进科研水平的追求。

3.2 未来展望

本文虽然从多个角度可视化地分析了ESI数学研究领域相关发文的特征,但展现的文献特点依然有限,希望有兴趣的研究人员可以在本文研究成果的基础上从其他文献计量学的角度来进行分析,从而获得对数学科研有价值的信息。

本文中也提到目前中国大陆在数学研究领域发文表现较为突出的机构有山东科技大学和长沙理工大学等高校,希望这些机构可以继续发挥数学领域的科研优势,坚持先进的研究方向,培养科研人才并带动其他科研院所共同提高我国的数学科研水平。

猜你喜欢
原始数据发文可视化
GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
基于CiteSpace的足三里穴研究可视化分析
思维可视化
受特定变化趋势限制的传感器数据处理方法研究
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶
世界经济趋势