韩建民 蒋琤琤 李 婷 楼小龙 杜恩龙
(1.杭州电子科技大学 融媒体与主题出版研究院, 浙江 杭州 310018; 2.浙江传媒学院 新闻与传播学院, 浙江 杭州 310018)
高被引论文是国际学术界通行的评价高影响力研究成果的重要指标。近年来,基于引用进行文献情报计算、知识关联分析已成为科学监测和科学评价的重要手段。然而,除了基于引用的期刊影响力分析之外,还可以进行文献计量指标的深度分析,特别是针对高被引作者的高被引指数分析,从而了解顶尖作者在某一学科领域的影响和贡献,获得其个人及其所在领域学术研究的进展、影响和趋势报告。
高被引学者是国际公认的科研活跃分子,同时也是科技发展在关键技术和重点领域取得突破的重要支撑。对这个群体的相关信息进行研究不仅具有现实的统计学意义,更具有长远的战略意义。杭州电子科技大学融媒体与主题出版研究院研究团队在爱思唯尔所发布的中国高被引学者榜单的基础上,对该群体信息进行采集,多维度地可视化其特征信息,分析高被引学者的特征及其演变,发布了《2016—2018年中国高被引学者信息分析报告》(以下简称“报告”),旨在对中国科技发展和人才培养起到推动作用。
国际上对高被引论文的研究较多,但对高被引学者的信息研究较为缺失,且相对集中在地理分布与学科领域,对学者特征信息并无系统研究。国内对高被引学者的研究更是相对落后,少数研究者如彭正霞等对高被引学者的受教育机构与工作机构所构成的社会网络类型和特征进行了研究(1)参见彭正霞、陆根书、康卉《高被引学者的受教育机构与工作机构的社会网络类型与特征》,载《高等教育研究》2014年11期,第19-30页。。
基于国际数据库的高被引学者的榜单发布机构主要有爱思唯尔和科睿唯安,基于国内数据库的有中国知网等。本研究的高被引数据只涉及爱思唯尔所发布的榜单,不涉及其他数据库统计信息。近几年对高被引学者与高被引论文的关注度逐渐增高,同时也产生了很多讨论。本报告将2016—2018年爱思唯尔所发布的中国高被引学者榜单中的学者作为研究对象,其榜单是采用累计被引次数的方法作为遴选中国高被引学者的基础手段,分学科产生中国高被引学者,并利用学科标准化后的论文影响力过滤不具世界影响力的中国学者,其结果一定程度上代表了中国科研的国际影响力。其榜单主要包含高被引学者的姓名、学科领域与工作单位等信息(2)参见https://www.elsevier.com/zh-cn/solutions/scopus/most-cited。,本报告在此基础上,对该群体的年龄梯度、性别比例、论文与专著数量、海外留学经历、杰青获得者等信息进行采集,多维度地可视化其特征信息。
报告的意义主要体现在三个方面:
1.分析科学专题方向,寻找“卡脖子”问题。高被引学者榜单的核心意义是体现科研成果的国际认可度和为分析研究热点提供方向性指标。因此,报告针对2016—2018年高被引学者进行了系统的特征信息分析,并通过高频词分析,深入分析高被引学者所在学科领域对应的科学专题,寻找我国科技创新重要领域的“卡脖子”问题。
2.关注卓越学术团队和拔尖人才。近年来,我国基础科研的进步可圈可点,多数学科发展迅速,科研论文质量稳步上升,年轻科学家成长较快,高被引学者的数量和影响力都取得了显著进步。但总体上我国高影响力、原创性工作仍然较少。报告旨在进一步摸清我国高被引、高影响力学者的学术成长和发展规律,希望对有潜力的青年科学家给予有效的支持。
3.开启公众理解科学的新通道和科学传播新路径。普及科学知识是国家的重要任务,对国家基础科学的发展有着重要意义。报告旨在从大众关注的排名引出背后的科学技术信息,推动公众理解科学。
报告统计了2016—2018年中国高被引学者的数据,学者人数分别为2016年的1 776人、2017年的1 793人以及2018年的1 899人。报告运用Python网络数据爬虫技术、支持向量机数据分类算法、深度神经网络与关键词推理算法等分析工具与方法,通过对学者进行基于人口统计学数据的统计分析、数据挖掘和知识链接,再以可视化软件编制图表等方式展现,来深入剖析高被引学者群体。数据挖掘共包含七个维度,而通过对同一维度或两个维度交叉筛选得到的整合信息是十分重要的数据解读维度,如论文与专著的关系。数据来源于Scopus、百度百科、Wiki、百度学术、Google Scholar Library。
报告从各学科类别高被引人数,学者归属单位,年龄梯度,论文与专著数量,性别比例,海外学历背景,杰青获得人数比例这七个维度,分析高被引学者的特征及其演变。
1.爱思唯尔高被引学者榜单涵盖38个学科门类,从2016年至2018年三年统计数据来看,第一,国内高被引学者群体相对固定,高达90%以上的高被引学者连续三年入选该榜单;第二,高被引热门学科相对固定,前五名分别为计算机科学、材料科学、化学、物理和天文学、医学。整体看来,自然科学领域高被引学者比社会科学领域高被引学者的年均论文产出力高,实验性较强的领域高被引学者比理论性较强的领域高被引学者的年均论文产出力高。
2.从高被引学者归属单位来看,中国科学院在高被引学者人数上稳居第一位,其三年数据都是第二名清华大学的两倍,可见其在中国高水平科学研究队伍中处于绝对领先地位。三年来,排名前十二的单位基本稳定,说明我国高校和科研机构自然科学研究顶级人才布局和位次相对稳定。报告经与《优青八年数据汇总分析》(2012—2018年数据,里瑟琪智库发布)对比发现,高被引学者归属高校排名与优青获得者在高校的分布高度吻合,这说明高被引学者和优青获得者有着高度的关联性,两者是相辅相成的关系,值得深入研究。
3.学者的科研产出是否具有某种规律性特征,譬如学者科研活动的哪一个阶段最具产出力?国内外学者对此问题的回答集中在对学者论文产出力的年龄问题研究上。对高被引学者论文产出力的年龄分析,可以揭示学者论文产出最佳年龄分布的规律,为相关主管机构制定科学的人才管理政策提供理论依据,为制定科技政策提供实证性较强的数据基础和决策参考(3)参见刘俊婉、金碧辉《高被引科学家论文产出力的年龄分析》,载《科研管理》2009年第3期,第96-103页。。高被引学者论文产出力随着年龄的增长呈现出增长趋势,产出高峰期为50—55岁,次主力军为45—50岁学者,55—60岁年龄段的高被引学者人数逐年增加(图1),说明应充分发挥学者在黄金年龄的科研潜力,并注重青年科技人才的培养(4)参见尹志欣、谢荣艳《我国顶尖科技人才现状及特征研究——以汤森路透2015高被引科学家为例》,载《科研管理》2017年第1期,第136-140页。。同时,不同学科学者论文产出力的高峰期存在差异。
4.在论文与专著数量分析中,平均值是指截至2019年高被引学者的累计发文量和出版著作量的历年平均值(图1)。报告发现,我国自然科学的论文数量、专著数量呈现明显的上升趋势且增速很快;不同学科高被引学者的年均论文数量有较大差别;重论文轻专著的情况有所改善,专著数量增速明显高于论文数量,专著受重视程度逐年提高。
5.科技人才总会向一流大学流动,即使这一过程有反复,但最终还是会在一流大学形成集聚。报告对高被引学者的最终学位进行追溯统计,此处最终学位是指学者所取得的最高学位(图1)。从2016—2018年高被引学者的国外学位统计情况来看,三年比例均超过30%且逐年攀升,潜在高被引学者受教育单位也具有明显的国际化特征。
图1 2016—2018年中国高被引学者论文与专著数量对比及国内外学位比例
6.女性在科研队伍中的人群比例和贡献度一直是国内外学术界热议的问题。报告显示,尽管现在女性是科研工作中一支重要的力量,但在高层次的科研中所占比例比男性低很多(5)参见鲍雪莹、陈贡、刘木林《基于履历信息的国际科技人才特征分析——以近十年诺贝尔物理、化学、生理或医学奖得主为例》,载《现代情报》2014年第9期,第4-9页。,三年均未超过3%,女性占比提升空间很大。
7.报告统计的杰青数量和比例结果截止于2019年8月(国家自然科学基金委公布资助结果)。统计发现,2016—2018年中国高被引学者中杰青获得者分别为19.65%、22.54%、31.70%,呈现逐年增长的态势,体现了高被引学者与杰青获得者这两个指标之间的双向互动和累积效应。
作为初次尝试高被引学者的系统特征分析,报告还存在不足之处。随着研究的深入以及大数据挖掘工具的改进和优化,后续研究将尝试拓展高被引学者的社会网络分析,开展高被引学者定量评估和分类评价,将报告精细化、专题化、国际化。目前,我国对顶尖人才科研水平的定量评估指标还未达成共识。测度学者科研产出力的指标有很多,第二期报告将以高被引学者的论文产出力作为测度指标,提炼若干影响因素进行计量分析。由于高被引学者论文产出力的评价是一项非常复杂的工作,涉及人数众、领域广,学科差异大,影响因素多,因此需要综合评价,建立综合评价指标体系,以期更加客观、全面和准确。
后续的研究将反思过去的研究成果,以处理特定的焦点问题,如数据与理论的关系、概念的应用及方法的改进、高被引学者本土化与国际化间的张力等,还将从更长的时间维度展示中国高被引学者的多维信息。
(《2016—2018年中国高被引学者信息分析报告》全文请见《浙江大学学报(人文社会科学版)》网站,http://www.zjujournals.com/soc/CN/article/downloadArticleFile.do?attachType=PDF&id=12341)