诺贝尔奖与科学家论文数量、被引频次的相关性——基于2000-2010年诺贝尔化学、物理学获奖者的实证研究

2016-01-19 02:52鲍玉芳马建霞中国科学院兰州文献情报中心兰州730000中国科学院大学北京0090
图书馆理论与实践 2015年8期
关键词:诺贝尔奖相关性

●鲍玉芳,马建霞(.中国科学院兰州文献情报中心,兰州 730000;2.中国科学院大学,北京 0090)

诺贝尔奖与科学家论文数量、被引频次的相关性
——基于2000-2010年诺贝尔化学、物理学获奖者的实证研究

●鲍玉芳1,2,马建霞1
(1.中国科学院兰州文献情报中心,兰州730000;2.中国科学院大学,北京100190)

[关键词]诺贝尔奖;发文数;被引频次;相关性

[摘要]通过统计2000~2010年诺贝尔化学、物理学奖获奖者从其出生年至今的所有Web of Science发文数据,包括论文发表量与被引频次,在化学、物理学的学科差异基础上,对这两个指标进行分析,发现:(1)科学家在获奖之前都经过大量积淀;(2)获奖者在获奖前大多数拥有被引频次很高的论文;(3)获奖之后有论文再发表;(4)获奖之后所发论文的被引频次没有显著增大;(5)物理化学两个学科的发文量与被引频次都没有直接关联。

为了研究诺贝尔奖对科研效率的影响,本文以2000~2010年诺贝尔化学、物理学奖58位获奖者为研究对象,统计从其出生年至今的所有Web of Science发文数据,包括论文发表量与被引频次,根据他们在得奖前后的论文发表数量与引用情况,在学科差异的基础上,结合一些其他的影响因素,探讨诺贝尔奖是否可以推动科学家在获奖后继续进行更加深入的研究、发现更多创新成果,研究诺贝尔奖与科学家论文发表数量、被引频次的相关性。

1 数据来源及处理

诺贝尔化学、物理学奖都始于1901年,至今已有166位科学家获化学奖,196位科学家获物理学奖。本文研究对象是2000~2010年两个奖项58位获奖者,[1]并调查了其基本信息,包括姓名、出生年代及国家、是否逝世、获得诺贝尔奖的原因、获奖时所在机构或单位、科学家的研究领域等。

利用Web of Science的“唯一作者记录集”功能,结合作者获奖时所在机构、研究方向,根据特征作者记录集,选择查看相应的记录集,最后得到作者在Web of Science核心合集所有的发文数据。其中,唯一作者记录集[2]与作者的研究方向、所在机构有关。所以,某些情况下作者涉及多个记录集,比如更换单位地址、从事多个研究方向、引用不同著作等。因此,使用“唯一作者记录集”能够通过更多条件限制作者,在一定程度上提高了检索结果的准确率,降低检索噪声。

因为Web of Science数据库中作者署名多为缩写,故存在查准率偏低的现象。为了减少这种情况对数据分析造成的影响,需要对数据进行进一步清洗。根据全记录集显示的字段信息,将与作者基本信息有较大反差的结果剔除。例如,AU字段表示作者,对比AF作者全名字段将与所查作者简称一致的其他作者删除;PY字段表示出版年,把PY字段值与作者出生年过于接近的数据剔除,对出现作者署名的论文全部计入,最后经过筛选和整理,最终得到58位获奖者的发文总数(检索日期是2014年3月5日)。

2 数据分析

2.1发文数量分析

经过统计得到58位科学家在Web of Science (WOS)上发表论文的数量,如图1、图2所示。显而易见,物理学获奖者的发文量要明显低于化学奖,化学奖2000年获奖者Alan J.Heeger发表论文1109篇,物理学奖2000年获奖者Zhores I. Alferov发表论文522

篇,两个学科最大发文量竟相差587篇,而且大约50%的作者其发文量都集中在200篇以下。

图1 诺贝尔化学奖2000~2010年获奖者WOS发文总数

图2 诺贝尔物理学奖2000~2010年获奖者WOS发文总数

图3 诺贝尔化学奖2000~2010年获奖者WOS发文周期分布

为了更加直观清楚地显示每位作者的论文发表情况,降低由发文周期不同而导致的影响,提出了年均发文数量指标,即发文总数/发文周期,具体数据如图5、图6所示。

图4 诺贝尔物理学奖2000~2010年获奖者WOS发文周期分布

图5 诺贝尔化学奖2000~2010年获奖者WOS年均发文量

图6 诺贝尔物理学奖2000~2010年获奖者WOS年均发文量

本文将Web of Science中论文发表时间的统计初年与统计末年的差值定义为发文周期,由于年龄以及获奖时间的差异,每个作者的发文周期并不相同。比如2000年获奖者Alan J.Heeger,论文发表时间是1961~2013年,那么发文周期为52年,按这种方法计算,58位获奖者的发文周期分布情况,如图3、图4所示。

仅从年均发文数量看,尽管这是一个相对平衡的指标,但是,从图5、图6可以看出,每位作者的年均发文量依然存在很大差异,比如在化学奖方面,2000年获奖者Alan J.Heeger年均发文20.92篇,位列第一;其次是2007年获奖者Gerhard Ertl,年均发文15.24篇;发文量最少的科学家是2001年获奖者William S. Knowles,他的发文周期为65年,总发文数是33篇,年均发文0.51篇,也就是说平均每两年生产一篇论文,论文产出率相对较低;其获奖前所发论文的均被引频次是86.63次,获奖后所发论文的均被引频次是69.67次;比较图6显然可知,物理学奖获得者的WOS年均发文量普遍要低于化学奖,也存在

各作者的发文量差异大的现象。从引文分析角度说,论文发表数量并不能充分衡量其对科学的贡献。

总体而言,2000~2010年诺贝尔化学奖、物理学奖的58位获奖者的论文产出量并不均等,而且数量具有明显差异。那么,科学家一年要发表几篇论文合适呢?这是一个未知的难题,论文数量如果被“教条化”,想必也就失去了原本的意义,加之学科属性,有些学科发表论文是很有难度的,而且某些成果是没有办法以论文的形式展现出来,比如研究成果需要大量时间、人力物力消耗的实验物理学,还有些科研团体并不非常看重SCI。所以,仅仅把WOS发文量作为评判科研实力的硬性指标,可能会埋没一位优秀的科学家。[3]

2.2获奖前后被引频次分析

以获奖年为界限,将作者发文周期分成两部分,即获奖前和获奖后,分别统计两个阶段所发表文章的数量、最大被引频次论文的出版时间,计算每个阶段全部论文的被引频次之和,得到阶段平均被引频次。

(1)平均被引频次。通过这个指标,可以看出每位作者在获奖前后两个时间段内所发表论文的被引频次是否会受到诺贝尔奖的影响。分别以2000~2010年作为分界线,相应统计58位获奖者在获奖前后的论文发表情况,将获奖年计入获奖前阶段。一般情况下,获奖前阶段的时间跨度要明显大于获奖后阶段,所以,计算各阶段每篇论文的平均被引频次,即获奖前(后)被引总数除以发文总数,以消除时间跨度导致的误差。比如,2000年化学奖获得者Alan J.Heeger发文时间是1961~2014年,那么其获奖前阶段是1961~2000年和获奖后阶段是2001~2014年;获奖前发表论文838篇,总被引频次是75070次,平均被引频次是89.58次;获奖后发表论文271篇,总被引频次是27709次,那么平均被引频次是102.23次。由此计算58位获奖者获奖前后每篇论文平均被引频次分布,如图7、图8所示。获奖后所发表的论文平均被引频次几乎全部低于获奖前的平均被引频次,除了化学奖2000年得主Alan J.Heeger、2001年得主K. Barry Sharpless、2006年得主Roger D. Kornberg以及物理学奖2006年得主George F. Smoot。其中,获奖后所发论文比获奖前平均每篇被引频次提升最大的是George F. Smoot,由151.36次增至231.12次,涨幅约为80次。尽管获奖后论文被引频次增长这种认知结果更容易接受,比如,有些作者为了抬高自身论文的“质量”而去刻意引用一些诺贝尔获奖者的文章,这种引用行为目的是提高自身论文的受关注程度。[4]然而,这种总体下降的趋势可能与年代划分方法有关,因为本文把获奖年划入了获奖前阶段,难以避免由于获奖使得论文受到“蜂拥、追捧”的现象。而且诺贝尔委员会采取“延迟授奖”的方式,使得有些科学家获奖的原因是多年前的研究成果,如1946年化学奖获奖者萨姆纳、1953年化学奖获奖者赫尔曼,都经过了漫长的等待才获得诺贝尔奖。[5]足以见得他们在获奖前的大量积淀,因此,不能排除获奖前就已经发表被引频次高达上千次论文的可能性。

图7 诺贝尔化学奖2000~2010年获奖者得奖前后论文篇均被引频次比较

图8 诺贝尔物理学奖2000~2010年获奖者得奖前后论文篇均被引频次比较

(2)最大被引频次。评价论文质量的一个重要指标是论文的被引频次。一般而言,被引频次越高,说明论文受关注程度高,学术影响力越大,那么该论文可能就是某一领域的研究热点,甚至是学科发展中的重要事件。[6]当然,引用动机的不同,一篇文章中如果出现错误的观点,也可能会带来很高的被引频次。[7]本文对第二种情况不作统计,默认被引频次在一定程度上代表了论文质量。58位作者获奖前后的论文最大被引频次如图9、图10所示,其获奖后所发表论文(以出版日期为标准)的最大被引频次几

乎都低于获奖前。为了更清晰地表现出作者论文被引的差异,两位获奖者的论文最大被引频次在图中没有完全体现,分别是2008年化学奖获得者Roger Y. Tsien在1985年发表于Jouenal of Biological Chernistry的文章A new generalion of Ca2+ indicalors wilb greally improved flnorescence ptoperties,被引次数为19369次;2010年物理学奖获得者Andre Geim、Konstantin Novoselov在2004年发表于Science?的文章Electric FieldEffect in Atomically Thin Carbon Films,被引频次为12751次。有些作者获奖前后论文的最大被引频次差值非常显著,如上所述Roger Y. Tsien,获奖后最大被引频次217的论文是2009年发表于Journal of Biological Chemistry的文章A new generalion of Ca2+ indicalors with greally improved fiuorescence properties,最大被引频次差值为19152次。最大被引频次正向差(即,获奖后所发论文的最大被引频次上升)的作者仅有2位,即2002年化学奖获得者Koichi Tanaka,最大被引频次由4次上升到98次;2006年物理学奖获得者George F. Smoot,最大被引频次由3717次上升到4056次。

图9 诺贝尔化学奖2000~2010年获奖者论文最大被引频次比较

图10 诺贝尔物理学奖2000~2010年获奖者论文最大被引频次比较

(3)学科共性。通过对化学、物理两个学科获奖者的发文数量与被引频次的计算,已知诺贝尔2000~ 2010年化学奖28位获奖者共计发文数量9366篇,平均每位获奖者一篇论文被引(计算方法:作者全部文章被引频次和除以发文总数,得到每位获奖者一篇文章的平均被引频次,然后加和除以获奖者数量,得到算术平均值)为97.59次;物理学奖30位获奖者共计发文数量6077篇,平均每位获奖者一篇论文被引102.56次。虽然在发文量方面,化学奖获得者论文数量要高一些,但是平均每位获奖者一篇论文的被引频次都在100左右波动。而且,无论是平均每篇论文被引频次(获奖前所发表论文的平均每篇被引频次与获奖后所发表论文的平均每篇被引频次比较)还是最大被引频次,两个奖项几乎都是获奖后低于获奖前。同时,都出现了个别获奖者被引频次的峰值,其被引频次显著高于其他获奖者。

2.3年均被引频次分析

本节主要针对作者的全部文章进行被引频次的分析,即在发文周期跨度中收录在Web of Science核心合集的所有论文,将其每一年所发表论文的被引频次相加,得到年度被引频次和,除以每一年的发文总数,按年份绘制出作者该年每篇论文平均被引频次的变化曲线,研究作者每年的发文情况以及在获奖后是否迎来科研创作的新高潮、被引频次是否发生明显变化。由于同一年获奖者的发文量、被引量都有很大区别,所以为了更清楚地体现每位作者的变化趋势,特将个别年份中平均被引频次超出普遍水平的文章作为离群点,没有完全显示其平均被引情况,现将这些离群点汇总如下:化学奖——2002年获奖者John B. Fenn 1989年平均被引1579次、2004年获奖者Avram Hershko1998年平均被引2210次、2008年获奖者Martin Chalfie 1994年平均被引1388次、2008年获奖者Roger Y. Tsien 1985年平均被引1997次;物理学奖——2004年获奖者H. David Politzer 1973年平均被引2026次、2004年获奖者Frank Wilczek 1973年平均被引1971次、2005年获奖者Roy J. Glauber 1963年平均被引2274次、2006年获奖者George F. Smoot 2008年平均被引4956次、2008年获奖者Yoichiro Nambu 1961年平均被引1063次、2008年获奖者Toshihide Maskawa1973年平均被引1449次。

通过观察这58位作者在发文年时间跨度中每年所有文章的平均被引频次,可以发现如下共同点。(1)被引频次由小到大。所有的成功都不是一蹴而就的,都经过了大量的积累与沉淀,获得诺贝尔奖更是如此。被引频次的增长代表了作者学术影响力逐渐增

大的趋势,仅靠首篇论文就大获成功的作者实属罕见,作者都是在不断的尝试与努力过程中得到锻炼和提高的。(2)被引频次差值显著。每一年中论文的最大被引频次之间的差值很明显,化学、物理文献的半衰期相对较长,研究成果的更新速度相对缓慢。当有新成果出现时,就可能会出现被引频次较高的论文,以推动学科发展与科研进步。(3)出现一个或多个科研峰值。峰值表示当年出现了某一篇被引频次很高的论文,或者所发论文被引频次普遍相对较高,代表科研活动顺利进行,出现了良好成果。(4)诺贝尔奖并未有效提高被引频次。大多数科研峰值并没有出现在作者的获奖年,而且获奖年后发表的论文被引频次没有出现显著提高,甚至有明显下降趋向。(5)学科差异并不显著。无论化学还是物理,两个奖项获得者的论文数量与被引频次,并未由于学科的不同而出现显而易见的变化。此外,2000年物理学奖获得者Jack S. Kilby,自1980年以后年均被引频次曲线相对较为平缓,没有出现显著的被引频次差值,其中一个很重要的原因是年龄。获奖者的年龄偏大是影响科研的一个因素,有人统计1901~2001年诺贝尔化学奖获得者最早做出与获奖有关成果的年龄,表明35~39岁这个年龄段是化学家出成果的最佳时期,但是获奖者的年龄却越来越大。[8]2000~2010年化学奖、物理学奖获得者的年龄分布参差不齐,按照获奖时的年龄计算,年龄最小不超过40岁,最大接近90岁。

3 结论

结合2000~2010年诺贝尔化学奖、物理学奖获奖者的基本信息,对他们的发文数量与被引频次进行分析,探讨诺贝尔奖是否可以推动科学家在获奖后继续进行更加深入的研究、发现更多的创新成果。通过研究诺贝尔奖与科学家论文发表数量、被引频次的相关性发现以下五点。

(1)科学家在获奖之前都经过大量积淀。尽管除了仅有的几位科学家发表的论文数量很高外,大部分科学家都不是所谓的“高产作者”。毋庸置疑,所有的成功都不是一蹴而就的,攀登科学的高峰更是如此。虽然每位科学家的论文产出量并不均等,数量存在明显差异,最多高达1098篇(2000年化学奖得主Alan J.Heeger)、最少只有15篇(2009年物理学奖得主George E. Smith),然而不能仅从发文数量说明学术影响力,比如爱因斯坦的发文量并不高,但其对科学的贡献程度无人不知,况且这与发文年的时间跨度等其他因素也是有关的。

(2)获奖前大多数拥有被引频次很高的论文。论文被引频次峰值的出现预示着科学家的受关注程度增大,在一定程度表示学术影响力增强。大部分论文被引峰值出现在获奖年之前,获奖后所发表论文的平均被引频次、最大被引频次几乎全部低于获奖前,而且有些作者论文的最大被引频次差值非常显著。另外,平均被引频次总体下降的趋势可能与年代划分方法有关系,除了2001年化学奖获得者K. Barry Sharpless、2006年化学奖获得者Roger D. Kornberg、2006年物理学奖获得者George F. Smoot在获奖后明显出现了最大峰值。

(3)获奖之后有论文再发表。从数据统计结果看,这58位科学家获得诺贝尔化学奖后,除2010年化学奖获得者Richard F. Heck都有新的论文发表。截至统计末年,2000年获奖者Alan J.Heeger获奖后又发表了260篇论文,2010年化学奖获奖者Akira Suzuki在获奖后发表了1篇论文,这是科学家在获奖后发文数的两个极值,说明获得诺贝尔奖并不是科学的最终目标,科研是一个持续的过程。

(4)获奖之后所发论文的被引频次没有显著增大。被引频次高的论文可能与得奖有关系,但是延时授奖的办法使得被引频次的峰值不一定出现在获奖年。科学家获奖后所发论文的被引频次没有显著增大,反而出现了降低现象,可能与其论文质量下降有关系[3]或者可能因为“挂名”而发表论文,加之获奖者年龄增大,论文产出效率减少,而且论文创作压力在获奖之后明显减小,在一定程度上也是论文发表量下降一个不可避免的现实因素。

(5)学科差异影响不明显。物理学和化学领域诺贝尔奖获得者都有较大的发文数量和较高的被引频次。因此,两个学科获奖者的发文数量与被引频次之间没有直接关联性,也就是说发文数量高并不一定意味着有高的被引频次。反之亦然。

综上所述,对于2000~2010年诺贝尔化学奖、物理学奖获奖者而言,诺贝尔奖并未使科学家在获奖后所发论文的被引频次显著提高,“马太效应”并不显著。在一定程度上可以认为,诺贝尔奖是对科学家研究成果的奖励,记录了科学史上的重要贡献,但并没有促进科学家的科研创新。

[参考文献]

[1]Nobel Media.诺贝尔官网[EB/OL].[2014-03-05].http://www.nobelprize.org/nobel_prizes/chemistry/lau

reates/index.html.

[2]Webof Science.帮助[EB/OL].[2014-03-05]. http://images.webofknowledge.com/WOKRS512B4.1/help/zh_CN/WOS/hp_results_tellmemore.html.

[3]徐保军,刘华杰.科学家每年应发表几篇科研论文[J].科技导报,2008,26(14):96-97.

[4]郭红梅,等.对诺贝尔奖获得者论文施引行为的马太效应初探[J].情报科学,2011,29(6):830-832.

[5]门伟莉,张志强.科研创造峰值年龄变化规律研究[J].科学学研究,2013,31(8):1623-1629.

[6]金碧辉,等.论期刊影响因子与论文学术质量的关系[J].中国科技期刊研究, 2000, 11(4):202-205.

[7]杨思洛.引文分析存在的问题及其原因探究[J].中国图书馆学报,2011,37(193):108-117.

[8]葛君,岳晨.诺贝尔化学奖获奖者的统计分析[J].图书馆理论与实践, 2004(2):55-58.

[收稿日期]2014-12-16 [责任编辑]菊秋芳

[作者简介]鲍玉芳(1990-),女,中国科学院兰州文献情报中心硕士研究生,研究方向:情报分析技术;马建霞(1972-),女,研究馆员,学科咨询部主任,研究方向:知识发现与分析。

[基金项目]本文系国家自然科学基金项目“基于科学基金项目及知识产出的研究前沿探测”(项目编号:71373260),中国科学院西部之光联合学者项目“基于计算情报方法的甘肃省战略新兴产业技术创新竞争与发展研究”(项目编号: Y200201001)的研究成果。

[文章编号]1005-8214(2015)08-0040-05

[文献标志码]B

[中图分类号]G250.252

猜你喜欢
诺贝尔奖相关性
搞笑诺贝尔奖
诺贝尔奖知多少
基于Kronecker信道的MIMO系统通信性能分析
小儿支气管哮喘与小儿肺炎支原体感染相关性分析
脑梗死与高同型半胱氨酸的相关性研究(2)
脑梗死与高同型半胱氨酸的相关性研究
会计信息质量可靠性与相关性的矛盾与协调
诺贝尔奖的由来
决策有用观下财务会计信息质量研究
诺贝尔奖离我们有多远