生命科学与基础医学全球科研机构产出评价π指数分析报告

2019-09-10 07:22张永娟张丽雯阮梅花毛开云施慧琳于建荣
智库理论与实践 2019年1期
关键词:机器学习

张永娟 张丽雯 阮梅花 毛开云 施慧琳 于建荣

摘要:[目的/意义]科技评价对于优化资源配置、提高科研能力具有重要参考作用,建立科学合理的科技评价体系具有非常重要的意义,在生命科学与生物技术迅猛发展的当下,科研产品层出不穷,学科日益交叉会聚,我国的科研创新亟需一套具有中国特色的原创评估体系及方法。[方法/过程]基于此,中国科学院上海生命科学信息中心(生命健康科技智庫)依托生命科学、基础医学及相关学科领域的专家和学者,聚焦“生命科学与基础医学”领域,结合本领域的学科特点,立足专家评议、期刊影响力、领域权重、第一作者/通信作者权重等定性和定量指标,提出“π指数”的概念和算法。[结果/结论]每年发布生命科学与基础医学领域全球机构π指数分析报告、5年π指数趋势分析报告、国家重点实验室π指数分析报告,2018年还尝试了探索基于多层引文和支持向量机相结合的“单篇论文学科分类”方法,对单篇文献进行学科分类,并推出了“学科领域π指数分析报告”。本文对π指数的评价方法以及2018年发布的π指数系列报告进行了分析和阐释。

关键词:科技评价  π指数  多层引文  机器学习  生命科学与基础医学

分类号:G251

DOI: 10.19318/j.cnki.issn.2096-1634.2019.01.13

1 引言

科技评价对于优化资源配置、提高科研能力具有重要的指导作用,因此建立科学合理的科技评价体系具有非常重要的意义。目前常用的科研评价指标,如用于评价期刊的影响因子IF、评价成果影响力的被引频次、考察科研人员高被引论文数的h指数,Nature Index以及基于这些指标的扩展形式,都有一定的合理性和普适性。但是,不同领域和学科有其自身特点,评价体系也应有所不同。我国《关于深化科技体制改革加快国家创新体系建设的意见》对深化科技评价改革也提出要根据不同类型科技活动特点,注重科技创新的质量和实际贡献。

鉴于此,中国科学院上海生命科学信息中心(生命健康科技智库)聚焦“生命科学与基础医学”领域,依托相关学科领域的专家和学者,结合现存评价指标和本领域特点,立足专家评议和论文影响力等定性和定量指标,于2015年开始构建具有领域特色的科研产出评价指标——“π指数”,即生命科学与基础医学全球科研机构产出评价指数(机构产出评价指数的英文productivity index缩写PI与π同音,“π指数”),每年发布生命科学与基础医学领域全球机构π指数分析报告,力求客观评价领域内科研机构的科研产出、质量和贡献,为科研评估和决策创新探索新的思路和方向。

与2016年相比,2017年的π指数相关指标增加了π因子(PIF,π值除以100)、π5(5年π因子)、PIV基线(PIVbl,全球发文10篇以上的机构π值的平均数)、PIQ基线(PIQbl,全球发文10篇以上的机构π商的平均数)等4个指标;在年度报告的基础上增加了“2011—2015年π指数趋势分析”报告,“生物与医学领域75个国家重点实验室5年(2011—2015)π指数分析”报告,以及“CNS发文分析”和“国际合作度分析”两个主题报告。

2018年,又尝试探索基于多层引文(multi layer reference,MLR)和支持向量机(support vector machine,SVM)相结合的“单篇论文学科分类”方法,对单篇文献进行学科分类,并推出了“学科领域π指数分析报告”,以满足学科分类的个性化需求,这是对更精细的学科分类、学科评价进行的有益探索和初次尝试,未来将在更丰富的学科领域、主题领域以及团队科研产出评价等方面推广使用。

下文将详细介绍π指数的的评价主体、计算方法、指标说明、创新点以及2018年π指数系列报告的主要内容,分析目前π指数的使用情况,并展望未来规划。

2   评价方法

2.1 π指数评价的主体和范围

评价的主体是发表在期刊中的研究型论文。研究型论文的评价是基础科学领域中最直接的国际性评价标准,生命科学和基础医学领域的研究均属于基础研究,科研产出以论文为主要载体,鉴于此,π指数主要以研究型论文为评价主体,专利等和实际应用紧密相关的产出形式暂时不在评价范围内。

评价的范围是由领域专家联合评议推荐的期刊上发表的论文。生命科学和基础医学有其自身特点,比如植物学和生物化学领域影响力相当的期刊其IF却相差甚远。因此,π指数研究小组分别邀请生命科学和基础医学领域的科研人员和期刊(《Cell Research》《Molecular Plant》)编辑等成立了咨询专家小组,联合评议推荐相应领域的高质量期刊,形成期刊列表,再在全球范围内发放问卷,咨询专家,最终形成期刊群。2016年首次入选的期刊共119种,每两年增选一次,2018年新增《Nature Plants》《Nature Microbiology》《Science Advances》等3种,共122种,详见π指数官方网站。

2.2 π指数的计算方法

π指数评价的标准分为期刊影响力评分标准和作者贡献度权重标准两个核心部分,其中期刊影响力评分标准依据专家咨询组评议评分,将入选的期刊影响力按照学科领域分为5个档次,并赋予不同的权重;作者贡献度权重标准考虑了第一作者(含并列第一作者)、通信作者以及署名作者排序不同而贡献不同等因素。

目前π指数包括π值、π商、发文量(AC)3个核心指标,以及π因子、π5值、π值基线、π商基线等基于π值的扩展指标,其中π值的计算方法是基于期刊影响力评分标准和作者贡献度权重标准进行的,算法如下。

其他指标均在π值的基础上进行扩展,详见表1。

2.3 π指数的创新点

π指数作为国内首创的生命科学与基础医学领域的科研评价指数,该指数瞄准高质量期刊上发表的研究型论文,结合学科领域的特点平衡权重,对相关科研产出质量和机构贡献度进行科学分析,客观反映生命科学与基础医学领域相关机构和世界机构之間的位置,创新点主要表现在如下4个方面。

(1)π指数瞄准了各学科领域高质量期刊,以定性和定量相结合的方式进行评价。中国SCI论文的数量已跃居世界前列,但是质量参差不齐,仅从SCI发文量来看并不能客观反映科研产出水平,故π指数瞄准全球高质量期刊,参考了影响因子IF、F1000、生命科学与基础医学领域科研人员的评议、《Cell Research》及《Molecular Plant》等期刊编审推荐等定性与定量相结合的方式遴选期刊,并根据发放问卷、召开专家咨询会等方式通过同行评议对期刊影响力权重赋值。

(2)π指数平衡了生命科学与基础医学的不同学科领域期刊数量和影响力不均衡的问题。如生物化学与分子生物学学科领域和植物学领域,不同的学科受学科大小、引用频次的影响,影响因子相差悬殊,但是从专家咨询的建议来看影响力相当,则被赋予相同的权重,如《Blood》(IF,15.13)、《Plant Cell》(IF,8.23)虽影响因子相差较大但是被赋予了相同的权重。

(3)π指数区分了作者贡献度,突出考虑了第一作者(包括并列第一作者)、通信作者的重要性,也区分了其他作者的排序与贡献,并对单篇论文做标引与精确计算,在此基础上对作者对应机构的科研产出进行评价。

(4)π指数的算法和指标是基于RDF和关联数据语义知识库完成的,对语义数据驱动情报学发展做了一次尝试和探索。该知识库采用语义网轻量级实现技术关联数据技术和图数据库Virtuoso做支持,将文献数据结构化、内容细粒度化、知识化,作者、机构、基金、文献等规范知识库的建立,让知识从点连成线再结成网,使得π指数数据分析高效、准确,团队关系评估也更容易被发现和揭示,同时也为机器学习、知识计算以及知识图谱的构建奠定基础。

3.1  全球机构年度π指数分析

3.1.1  全球发文量TOP10国家分布  2017年,在生命科学与基础医学期刊上发表论文量排名前10位的国家分别为:美国(23,678)、英国(6,423)、德国(5,350)、中国(5,055)、法国(3,520)、加拿大(3,191)、日本(2,607)、澳大利亚(2,240)、荷兰(2,161)、瑞士(2,107)。

全球发文量TOP10国家中,美国CNS发文量及CNS第一/通信作者发文量均排名第一,但瑞士CNS论文占比最高,为5.10%(图1)。中国与美国相比,论文量、CNS发文量、CNS第一/通信作者发文量及CNS论文占比均存在较大差距。

3.1.2  全球π指数TOP500机构分析

(1)π因子TOP10的机构

π因子TOP10机构中(图2),美国有6个,法国2个,德国1个,中国1个。π因子排名前3的机构分别为:哈佛大学、霍华德休斯医学研究所及法国国家科学研究中心。

中国科学院π因子(74.17)全球排名第8,较2016年排名上升2位,与排名第1的哈佛大学的π因子(276.42)差距明显。

(2)π商TOP10的机构

π商TOP10机构中(图3),美国有7个,以色列、中国、英国各有1个。π商排名前3的机构分别为:洛克菲勒大学、博德研究所及麻省理工学院。其中清华大学以π商8.12排名第8。

(3)全球π指数TOP500机构各国分布

全球π指数TOP500机构中,美国占绝对优势,有164个,其次分别为:德国(47)、英国(41)、中国(39)、法国(26)、澳大利亚(21)、加拿大(19)及日本(17)等(图4)。

进一步分析发现2017年国际π值基线为501.266,π商基线为4.537。在TOP500机构中,π值基线与π商基线以上的机构共288个,其中美国99个,英国31个,德国27个,中国22个,法国20个,澳大利亚11个等。

(4)全球π指数TOP500机构中国机构分布

中国共有39个机构进入全球π指数TOP500(见表2),其中中国台湾有3个,分别为:台湾大学、台湾中央研究院及台湾阳明大学。中国香港有2个,分别为:香港大学及香港中文大学。

排名前3位的机构分别为:中国科学院(π因子74.17,发文量1,101)、北京大学(π因子26.05,发文量397)及清华大学(π因子22.40,发文量276)。

3.2  全球机构5年π指数趋势分析

3.2.1  中国和全球发文总量对比分析  2012—2016年全球发文量总体保持稳定,其中2012—2014年全球年度发文量总量呈上升趋势,2014—2016年呈下降趋势;中国年度发文量持续稳健增长,年均增长约250篇,且中国/全球论文量比例一直呈现增长趋势,2016年比例达11.02%(图5)。

3.2.2  10个国家π5排名第1的机构π因子分析   不同国家π5排名第1的机构π因子大小及发展趋势存在一定的差距,从TOP500机构中选取10个国家机构进行分析,发现2012—2017年美国π因子基本保持稳定,均占有较大优势,中国π因子自2012年开始呈现增长趋势,2017年增长迅速,但与美国存在较大差距(图6)。

3.2.3  全球π5TOP500机构国家分布  全球π指数TOP500机构中,美国占绝对优势,有165个,其次分别为:英国(44)、德国(40)、中国(39)、法国(30)、澳大利亚(17)、西班牙(15)及意大利(14)(图7)。进一步分析发现在TOP500机构中,2012—2016年π值基线与π商基线以上的机构共266个,其中美国97个,英国27个,法国19个,中国18个,德国17个,荷兰12个。

3.2.4  全球π5 TOP500中国机构  中国共有39个机构进入全球π5 TOP500(见表3),其中中国台湾有6个,分别为:台湾大学、台湾中央研究院、台湾阳明大学、长庚大学、中华医科大学及台湾成功大学;中国香港有2个,分别为:香港大学及香港中文大学。

排名前3位的機构分别为:中国科学院(π5 283.74,发文量4,172)、北京大学(π5 87.94,发文量1,387)及上海交通大学(π5 63.81,发文量1,186)。

3.3  学科领域π指数分析

学科分析报告基于MLR及SVM算法定位到单篇文献,将11个学科领域(生物化学与分子生物学、心血管、进化与生态学、遗传与发育、免疫学、微生物学、神经科学、营养与健康、肿瘤学、病理与生理、植物学)的相关论文从122种刊中进行抽取与分类,并以此为基础进行相关学科机构的科研产出评价。

11 个学科领域中全球发文总量最多的3个学科领域分别是生物化学与分子生物学(biochemistry& molecular biology)、遗传与发育(genetics & development)、微生物学(microbiology)。除了植物学科领域,美国发文量占据其他10 个学科领域的发文总量的60% 以上,以绝对优势位居第1,中国在生物化学与分子生物学、遗传与发育、营养与健康、肿瘤及植物学等学科领域发文量进入全球TOP3。

从π因子来看,哈佛大学在11个学科领域π因子排名中位于10个学科领域的榜首,科研产出整体实力全球领先,各学科均衡发展,中国科学院在植物学科领域位居第1。从π商来看,洛克菲勒大学在9个学科中π商进入全球TOP3,中国科学院神经科学研究所进入神经科学学科领域π商排名全球TOP3(第3名)。

以植物学学科领域为例,在全球TOP100机构中,中国科学院以π因子(12.87)位居第1,其次为法国国家科学研究中心(11.91)、德国马普学会(8.40)。中国共有17个机构进入植物学科领域TOP100,分别为:中国科学院、中国科学院遗传与发育生物学研究所、中国科学院上海生命科学研究院植物生理生态研究所、中国科学院植物研究所、华中农业大学、中国农业大学、中国农业科学院、北京大学、浙江大学、清华大学、南京农业大学、福建农林大学、台湾中央研究院、山东农业大学、华南农业大学、复旦大学及厦门大学等(图8)。

4.1  π指数的应用情况

自2016年始,中国科学院上海生命科学信息中心每年定期发布π指数系列报告,除此之外,还接受各机构根据自己的需求提出的定制报告,近年来曾服务中国科学院生物物理研究所、中国科学院植物生理生态研究所/中国科学院分子植物科学卓越创新中心、中国科学院生物化学与细胞生物学研究所/中国科学院分子细胞科学卓越创新中心、中国科学院神经科学研究所/中国科学院脑科学与智能技术卓越创新中心、中国科学院昆明动物研究所、广州医科大学、澳门大学等机构。

语义数据的驱动使π指数更具灵活性和可扩展性,便于为用户提供个性化数据定制和报告定制服务,特别是基于机构规范库的可扩展性,可将用户提供的对比机构细化到二级或者更小的机构。

如某研究所由于体量较小,其他评价指标如果按照总量来计算不具有优势,也不能客观说明其科研产出实力。能体现机构单篇论文质量的π商则能相对客观的对体量较小的研究机构进行评价。

4.2  π指数的未来展望

未来,π指数力求客观地反映领域内科研机构的科研产出、质量和贡献,为相关管理层和科研人员提供有益的咨询参考。希望在目前工作的基础上,持续完善,深入到内容和领域,团队和个人,从更广的角度、更多的维度和更细的粒度,进行研究和开发,希望给予科研人员和管理工作者有价值和积极意义的参考和引导,促进机构学术质量和特色特长学科的发展,集中优势力量发挥学科竞争优势,提高资源配置经济效益,提高科研效率,创造出更多高质量的科研成果。

参考文献:

[1]    GARFIELD E. The history and meaning of the journal impact factor[J]. JAMA, 2006, 295(1): 90-3.

[2]    GARFIELD E. Citation indexes for science: a new dimension in documentation through association of ideas[J]. Science, 1955, 122(3159): 108.

[3]    PhysOrg. Physicist proposes new way to rank scientific output[EB/OL]. [2019-01-07]. https://phys.org/news/2005-11-physicist-scientific-output.html.

[4]    Nature. Nature index[EB/OL]. [2019-01-07]. https://www.natureindex.com/.

[5]    中共中央, 国务院. 关于深化科技体制改革加快国家创新体系建设的意见[EB/OL]. [2019-01-07]. http://www.gov.cn/jrzg/2012-09/23/content_2231413.htm.

[6]   FAN R E, CHANG K W, HSIEH C J, et al. Liblinear: A library for large linear classification[J]. Journal of Machine Learning Research, 2008, 9(9): 1871-1874.

[7]    LING W. Mu-ming Poo: China brain project and the future of Chinese neuroscience[J]. National Science Review, 2017, 4(2): 258-263

[8]    π-index[EB/OL]. [2019-01-07]. http://bm.pi-index.com/.

Reports of π Index: Metrics of Research Productivity in Life and Basic Medical Sciences

Zhang Yongjuan  Zhang Liwen  Ruan Meihua  Mao Kaiyun  Shi Huilin  Yu Jianrong

Shanghai Information Center for Life Sciences, Shanghai 200031

Abstract: [Purpose/significance] Scientific evaluation is important for optimizing resources allocation and improving the research ability, therefore, it is of a great significance to establish a scientific and reasonable evaluation system. With the rapid development of life science and biotechnology, scientific research achievements are endlessly emerging and disciplines are increasingly converging. In China, it is extremely urgent to build an original evaluation system and method with Chinese characteristics. [Method/process] π index, first released by Shanghai Information Center for Life Sciences (Life & Health Technology Think Tank), focuses on the area of life science and basic medicine, relies on the experts in the life science and basic medicine field, combines the problems and characteristics of the existed evaluation index, bases on the qualitative and quantitative factors, i.e., expert review, journal impact, first and corresponding author weight. [Result/conclusion] The 2018 Reports of π Index include four individual parts: annual π index, 5-year trend analysis, China’s state key laboratory analysis, and subject analysis, which is a newly developed report based on multi layer reference and support vector machine. This paper detailedly illustrates the evaluation method and 2018 Reports of π Index.

Keywords: scientific evaluation    π index    multi layer reference    machine learning    life science and basic medicine

猜你喜欢
机器学习
基于词典与机器学习的中文微博情感分析
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
下一代广播电视网中“人工智能”的应用
基于支持向量机的金融数据分析研究
基于Spark的大数据计算模型
基于朴素贝叶斯算法的垃圾短信智能识别系统
基于图的半监督学习方法综述
机器学习理论在高中自主学习中的应用
极限学习机在图像分割中的应用