编译 张文韬
太多没有引用率的论文代表了一堆无用或没有意义的研究?实际上,Web of Science的记录表明,只有不到10%的科学文章没有被引用过。不过没有引用率的比例不高不等于说取得越来越有价值的科学发现。
曾获得诺贝尔奖的遗传学家奥利弗·史密斯(Oliver Smithies)2017年 1月去世,享年91岁。他是个非常谦逊的科研工作者,生前经常提及自己“最大的失误之一”——1953年他发表了一篇有关测量渗透压的文章。他表示该文从来没有被引用过。不仅如此,在2014年德国林道会议上,他对学生们说:“没有人引用过这篇文章,也没有人采用过这个方法。”
事实上,史密斯没有意识到,他的论文并非完全没有吸引力。在文章发表后的10年内,有9篇论文引用了它。类似的错觉很容易理解。不管是对其数量还是对学术界的影响,很多科学家对于没有引用率的论文怀有错误印象。
1990年,《科学》期刊发表了一篇具有争议性的文章:一项广泛、重复的估算表明,超过一半的学术文章在发表之后5年中没有被引用过。信息学家叶温·韦斯特(Jevin West)在西雅图市华盛顿大学从事大规模的学术文献样本研究,他表示科学家确实为此烦恼。毕竟,引用率是被广泛承认的学术影响力的衡量指标。阅读量不仅是一个标志,而且也证明其对后续实验是否有用。研究人员担心,太多没有引用率的论文代表了一堆无用或没有意义的研究。韦斯特说:“在晚宴上,不知有多少人问过我,有多少论文从来没有被引用过?”
实际上,没有引用率的科研论文并非总是无用的。另外,加拿大蒙特利尔大学的信息学家文森特·拉里维埃尔(Vincent Larivière)指出,实际上并没有那么多无引用率的文章。
在已经发表的研究工作中,这个黑暗的角落常被人遗忘。为了更好地了解情况,《自然》期刊通过数据挖掘的方法,希望找出到底有多少论文实际上是没有被引用过的。当然,不可能得出非常准确的答案,因为引用的数据库不够完整。但是很显然,对于科学引文索引数据库——Web of Science上的12 000种核心期刊,零引用率的论文比普遍认为的要少得多。
Web of Science的记录表明,只有不到10%的科学文章没有被引用过。但是实际数字可能更低,因为这个数据库里大部分的零引用率文章实际上被人在其他地方引用过。
这并不一定意味着我们无须担心低水平研究的数量,因为还有数千种期刊没有被Web of Science收录,同时,对于科学工作者用毫无意义的文章填充自己简历的担忧也是真实存在的。
有人也许会被过去的报道中所说的有大量文章未被引用而吓到,新的数字可能会使他们放心一些。仔细审视某些未被引用的论文,发现它们仍然是有用的,有人阅读过,尽管这个数据经常被忽略了。Clarivate公司的高级分析师戴维·潘朵贝瑞(David Pendlebury)说:“没有引用率不能简单与文章是无用或者是没有价值的划等号。”
“大量无引用率的论文充斥着各种期刊”这个观点可以追溯到1990年和1991年在《科学》期刊上发表的2篇文章。1990年发表的文章指出,在1981年至1985年发表的论文中,发表后5年中没有引用记录的有55%。但是这个分析有误导性,主要因为作者统计的发表文章包括了读者来信、稿件更正、会议摘要和其他编辑资料等,这些文章本身就不可能获得引用。如果排除这些文章、仅留下研究论文和综述的话,零引用率就会直线下降。如果超过5年进行统计的话,零引用率更为减少。
2008年,拉里维埃尔等人对Web of Science的数据开展新的研究发现,不仅无引用率的文章比预想的少,而且数十年来,无引用率的文章比例也在下降。《自然》期刊请拉里维埃尔和卡西迪·杉本(Cassidy Sugimoto)做了无引用文献分析的更新和详细说明。
新的数据统计了研究论文和综述文章,表明在大部分学科中,在发表后5~10年零引用率的论文比例趋于稳定,尽管每个学科的比例有所不同(参见前图)。在2006年发表的所
有生物医学论文中,只有4%至今没有获得引用。在化学领域,这个数字是8%,物理学的数字接近11%(如果把科学家引用自己论文的情况剔除,这个比例还会升高,在某些学科甚至会升高50%)。在工程技术学科,2006年Web of Science数据库中无引用率是24%,大大高于自然科学。拉里维埃尔表示,这个更高的比例可能与很多论文的技术性质有关,只能解决特定的问题,而不是为其他人的进一步研究提供经验。
整体来看,1900年至2015年,Web of Science中收录了各个学科的3 900万篇研究论文,其中约21%没有被引用。这并不令人吃惊,这些无引用率的论文发表在不知名的期刊上,而几乎所有发表在知名期刊上的论文都获得了引用。歌学术网站上搜索时,黑内贝格发现,很多零引用率论文实际上是被Web of Science索引的其他工作引用,但是由于数据录入错误或者拼写错误而被遗漏了。此外还有不在Web of Science索引中的期刊和书籍中的引用。黑内贝格工作了20小时后,发现比例又缩小了5倍,仅仅只有0.3%了。
类似的问题导致我们不可能知道无引用率论文的准确数量:想大规模重复黑内贝格的手工核对要耗费大量时间。此外,不同的学科受到类似错漏的影响也不同。例如,Web of Science记录,2006年发表的65%人文学科论文没有引用率。的确,大量人文科学文献没有被引用,部分原因是:与自然科学相比,人文科学的新研究成果更少依赖于之前累积的知识。但是,Web of Science没有准确反映这个方面,因为它忽略了许多相关期刊和书籍。
国家之间进行比较也有类似情况。Web of Science 表明,与美国和欧洲科学家的论文相比,由中国、印度和俄罗斯等国科学家撰写的文章更容易被忽视。但是拉里维埃尔说,如果考虑到这个数据库没有追踪很多地区性的期刊,差距其实并没有那么大。
拉里维埃尔指出,尽管绝对数值很高,但是Web of Science上零引用率文章比例还是明显下降。互联网让搜索和引用相关论文变得易如反掌(推动论文的开放获取可能也有帮助)。但是拉里维埃尔警告说,对于图中的趋势不要过度解读。他的团队在2009年的一项研究中发现,从未引用的比例正在下降,因为科学家们发表更多的论文,在参考文献处提到了更多的文章。荷兰莱顿大学的文献统计学研究人员卢多·沃尔特曼( Ludo Waltman)表示同意,“这个图并不能说明,产生了越来越多有用的科学工作。”
沃尔特曼指出,很多的论文只是勉强逃离了“从未被引用”的窘境:沃尔特曼和拉里维埃尔的独立计算表明,在Web of Science的论文中,只有1~2次引用的文章数量超过0次引用的文章数量。“我们知道,很多引用是很肤浅的或者敷衍的。”他说到。而在纽约Marxe公共和国际关系学院的健康经济学家达利亚·雷勒(Dahlia Remler)看来,它们可能只是学者之间互助引用,“即使高引用率的研究也可能是一个游戏,学者们互相引用,却没有为任何人带来进步。”她说。
这些数据只是给出了部分答案。但是要想分析全部文献还是不切实际的。
要核对一小部分论文已经很困难。例如,2012年,为了验证一篇论文的荒谬结论(它声称大约10%诺贝尔奖获得者的研究从未被引用过),布拉格查尔斯大学的生物学家彼得·黑内贝格(Petr Heneberg)决定审查13位诺贝尔获奖人在Web of Science的记录。他最初在Web of Science上查找,无引用率的数字接近1.6%。随后,在谷
有些研究人员可能还是会把无引用率的文章视为没有价值。毕竟,如果这些文章重要,怎么会没有人提到它们呢?
这只是一种可能性,而并不绝对。美国路易斯安那州立大学的植物学家迈克尔·麦克罗伯(Michael MacRoberts)说,对研究人员产生影响的论文实际上比体现在引用中的论文多得多。在2010年的一篇分析引文缺点文章中,麦克罗伯引用了他自己1995年在德克萨斯州发现石松(Palhinhaea cernua)的论文。这是该文第一次也是唯一的一次被引用,但是这个信息早已被记录在植物地图集和大型在线数据库中;利用这些数据库的人其实是在使用这篇文章和数以千计类似的植物报告中的数据。“这些所谓的从未被引用的文章中的数据被人们使用,但是它们确实没有被引用。”他说。
没有引用率的文章也有人读。2010年,纽约市卫生与心理健康署的研究人员发表了研究论文,用软件分析唾液检测HIV的不足。几年前,在临床上曾经暂停使用检测试剂盒(后来恢复)。作者想用临床经验作为个案研究,探讨在出现问题时,软件是否能被用于分析试剂盒效用。
这个图并不能说明产生了越来越多有用的科学工作
漫长的等待 对于希望自己的论文获得首次引用的研究人员来说,阿尔伯特·佩克(Albert Peck)的故事是很励志的。佩克1926年发表了有关玻璃缺陷的论文,直到2014年才获得了第一次引用。在20世纪50年代,制造厂家能够在没有缺陷的情况下制造出平滑玻璃,这篇论文完全没有引起重视。而2014年,英国剑桥大学的材料学研究者凯文·诺尔斯(Kevin Knowles)在Google上偶然发现了这篇论文,当时他正在研究如何利用玻璃缺陷产生散射光。他现在已经在4篇论文中引用此文。他声称:“我喜欢在写论文时,挑选不引人注目的文章。”
错过引用期 2016年,里斯本大学的医学生弗朗西斯科·皮尼亚-马丁斯(Francisco Pina-Martins)发表了一篇论文解读基因序列数据,他很肯定该文不会被引用,因为文中提到的技术是由454生物技术公司开发的,已经被淘汰了。早在2012年,他就在GitHub程序分享网站上上传了他的数据分析软件,其软件被一些论文所引用。但是,他表示,之所以这个研究的论文发表用了4年,主是因为涉及罕见的问题,连进行评议的同行也看不懂。
死胡同 很多关于无引用率文献的故事结局是不愉快的。2010年,神经科学家阿德里亚诺·切卡雷利(Adriano Ceccarelli)在PLoS ONE上发表了有粘菌基因调控的论文。他要求继续进行研究的项目申请被拒绝,论文也没有得到引用。“研究有时候就是这样,辛苦了很久最后却进入了死胡同。”他说,“在资助者看来,我的想法是没有价值的。现在我只能教书,等着退休的那一天。假如我得到了资助,我明天就开始研究工作。”
他们发表在PLoS ONE上的论文没有被引用过,但是有超过1 500次的阅读量,下载量也接近500次,文章的共同作者,如今杜克国际健康研究所的乔·埃格尔(Joe Egger)注意到,“这篇文章的目标是改善公共卫生实践,而不是真正推动科学领域的发展。”
还有其他一些文章,可能会因为终结了进一步研究的可能性而没有引用率,英国卡迪夫大学的化学家尼克拉斯·布尔马(Niklaas Buurma)说。2003年,布尔马和他的同事发表了一篇关于“等容性争议”的论文:关于在反应过程中阻止溶剂收缩或膨胀是否有用的争论,通常发生在温度变化时。从理论上讲,这个技术上具有挑战性的实验可能会有助于了解溶剂如何影响化学反应速率。但布尔马的测试显示,化学家不会从这种类型的实验中学到新的信息。他说:“我们就是要证明有些事情是不值得去做的。对于这篇完全无引用的论文,我感到非常自豪。”
奥利弗·史密斯在林道会议上发言时说,尽管他自己那篇1953年的论文没有被引用,但是他认为那篇论文还是有价值的。他告诉听众,为论文所做的工作帮助他获得博士学位,成为一名完全成熟的科学家。实质上,它是未来诺贝尔奖获得者所受到的科学训练的代表。 “我享受当时的过程,”他说,“我学会了如何做好科学研究。”在史密斯的目录里确实至少有一篇真正没有引用率的论文:1976年的一篇文章表明一种特定的免疫系统基因位于人类第15号染色体上。但即使这样也是重要的。美国马萨诸塞州波士顿哈佛医学院遗传学家拉朱·库切拉帕蒂(Raju Kucherlapati)是这篇论文的共同作者,他说,这篇文章是与史密斯实验室长期合作的开始,在小鼠遗传学方面的工作最终为史密斯赢得2007年诺贝尔生理学或医学奖。 “对我来说,”库切拉帕蒂说,“那篇论文的意义是让我认识了奥利弗。”