影响因子是可以操弄的

2016-09-22 22:29江晓原穆蕴秋

读书 2016年9期

江晓原+穆蕴秋

拙文《影响因子是用来赚大钱的—剥开影响因子的学术画皮（一）》在《读书》今年第五期刊出后，反响颇大，有点出乎我们的意料。也许这和“A类期刊”风波恰好在此时发生也有关系。这些反响让我们感觉到，不妨将原先计划中第二篇文章的写作稍稍提前一点。

友人告诉我们，本刊第五期上的拙文已经“严重伤害”了某些人士朴素的感情—他们是如此热爱美国《科学引文索引》（SCI）和影响因子，以至于当他们发现任何打算“诋毁”影响因子的企图时，都会产生由衷的义愤，而拙文就被认为具有这种企图。

关心此事的读者想必还记得，拙文第一篇其实只完成了一个任务—揭示影响因子游戏背后的“科学情报研究所”（ISI）的纯粹商业性质。这一点之所以有必要揭示出来，是因为国内学者、官员、管理人员和广大公众都长期忽视了这一点，所以笔者认为有必要提请各方注意到影响因子背后的商业性质。

然而，热爱影响因子的人士对拙文的质问有一个共同点：商业化就必然不公正吗？非商业化而不公正的例子不是也很多吗？

但是，仔细阅读拙文第一篇，其中有任何一句话可以被解释为“商业化就必然不公正”这样的意思吗？当然没有—因为笔者并不这样认为。事实上，那篇文章根本没有涉及影响因子的公正性问题。既然如此，上面的质问岂非无的放矢？

让我们言归正传，本文的任务是：揭示影响因子可以如何被操弄。先声明一点：限于篇幅，关于影响因子游戏的种种问题，包括它的不合理、不公正之处，并非本文所能尽举，笔者准备在下一篇文章中进一步揭示。

虽然商业化并不必然导致不公正，但具体到影响因子游戏，它的这些不公正之处和商业性质之间，则既有表面的直接联系，更有内在的本质联系。所以热爱影响因子的人士在阅读本文之前有必要做好思想准备—你们热爱的对象，行将遭到进一步的“诋毁”。

两栖化：中国读者不熟悉的杂志形态

《自然》（Nature）、《科学》（Science）之类的西方科学杂志，能够在学术江湖中获得“顶级”的名头，确实有一些中国公众不熟悉的“神功”。其中一项，简单地说，就是让杂志两栖化—既刊登学术文本（包括原创的论文以及综述文章），也刊登各种各样的大众文本。

就以《自然》杂志为例，目前它每期刊登的文章中，属于学术文本的仅三个栏目：论文（article）、归类于“原创研究”的通信（letter）以及综述评论（review）。通信比较简要，是对某项科研成果的初步介绍，论文篇幅稍长，是对某项研究工作更全面的介绍。但是一定要注意，《自然》杂志还有另外的十五个栏目呢！它们是：

消息和评论（News and Comment）、读者来信（Correspondence）、讣告（Obituaries）、观点（Opinion）、书籍和艺术（Books & Arts）、未来（Futures，就是那个发表科幻小说的栏目）、书评（Book Reviews）、消息和观点（News & Views）、洞见（Insights）、评论和视野（Reviews and Perspectives）、分析（Analysis）、假想（Hypothesis）、招聘（Careers）、技术特征（Technology Features）、瞭望（Outlooks）。

那么，前三个栏目和后十五个栏目的篇幅比例如何？从SCI数据库逐年统计的文章篇数来看，《自然》杂志目前大致是一比二，也就是说，学术文本只占总篇数的三分之一左右。

这或许会使许多一直跪倒在“国际顶级科学期刊”面前的人大跌眼镜：不会吧？按照中国读者习惯的观念，这样的杂志不就几乎是一本“科普杂志”了吗？

许多人一直习惯将《自然》和《科学》当成“国际顶级科学期刊”，在他们心目中，这样的杂志应该是何等的“学术”！

这里不妨先看看中国人自己办的科学期刊，在二○一五年的影响因子游戏中，成绩最好的是《细胞研究》（Cell Research），影响因子为14.8，这仅比《自然》杂志同年影响因子的三分之一稍稍高一点。而二○一四年能够“有幸”加入影响因子游戏的一百七十三份中国期刊（二○一五年增至一百八十五份）中， 90%以上的影响因子都低于3.0，当真是瞠乎其后。可是这些中国科学期刊都是极度、完全、纯粹学术的，通常没有任何非学术文本。那些影响因子数倍、数十倍于中国科学期刊的“国际顶级科学期刊”，难道不应该比低影响因子的中国科学期刊更“学术”数倍、数十倍吗？

相信许多跪倒在“国际顶级科学期刊”面前的人心里，一直就是这样想当然的吧。“国际顶级科学期刊”怎么可能三分之二都是非学术内容？

但是事实就是如此。不仅《自然》是如此，《科学》和《柳叶刀》（Lancet）也是如此。这个名单中还可以加上《美国医学会杂志》（Journal of the American Medical Association）、《新英格兰医学杂志》（The New England Journal of Medicine）……它们都是在影响因子游戏中遥遥领先的“国际顶级科学期刊”。

再看看这几个影响因子游戏“顶级玩家”的成绩吧，下面是它们二○一五年的影响因子数据（四舍五入保留一位小数）：

《自然》：38.1

《科学》：34.7

《柳叶刀》：44.0

《美国医学会杂志》：37.7

《新英格兰医学杂志》：59.6

在这几个“顶级玩家”中，说实话《自然》杂志相对已经要算最“规矩”的了—如前所述，它的学术文本目前好歹还占到了约三分之一（这个比例在它的历史上曾经有过大幅变动），《柳叶刀》和《新英格兰医学杂志》就更放得开了，它们的学术文本只占约四分之一到五分之一（文章篇数）。

对数字较为敏感的读者是不是已经开始有一点朦胧感觉了：莫非杂志的两栖化和杂志的影响因子之间有着某种神秘关系？你看：《自然》杂志非学术内容约占三分之二，影响因子38.1；《柳叶刀》非学术内容约占四分之三，影响因子44.0；《新英格兰医学杂志》非学术内容约占五分之四，影响因子59.6……

当然，事情不像你想象的那样简单。这里先看一组尚不过时的数据：

二○一四年全球被SCI收录的科学杂志共八千六百五十九种，其中影响因子最高的二十种杂志中，符合我们中国学者想象习惯的“纯学术杂志”，即只刊登原创科学论文的杂志，只占一种！其余十九种杂志中，两栖类占九种（上面提到的五种都在其中，《自然》杂志名列第七）；综述类，即全部刊登综述文章的杂志，占据十种。

二○一五年的影响因子数据已经新鲜出炉，SCI收录的期刊增加到了八千七百七十八种，前二十名“顶级玩家”名次稍有浮沉，比如《自然》杂志下降到了第九名，《柳叶刀》仍保持在第四名，但总体上没有多少变化。

常识告诉我们，能够在影响因子前二十名中占据九席，无论如何不可能是偶然现象，这一数据至少强烈提示了这样一点：两栖化是提高影响因子的“王道”之一。至于具体怎么提高，机制如何作用，详见下文。

中国改革开放已逾三十年，许多国外杂志出版了中文版，中国学者在图书馆或网上阅读国外杂志也越来越容易了，按常理来说，中国的读者，中国的杂志编辑或出版人，应该不难注意到上述“国际顶级科学期刊”的两栖色彩，为什么未见中国杂志起而仿效呢？

笔者对二○○○年以来被SCI收录的中国科学期刊中影响因子前二十位的刊物做了考察，发现全部是以发表原创研究论文为主的论文类期刊。我们估计即使对目前被SCI收录的中国科学期刊全部考察一遍，也还是相同的结果。事实上，中国几乎不存在《自然》《科学》《柳叶刀》这种类型的两栖杂志（这一现象将在下文的讨论中显现出更为重要的意义）。

国内对影响因子计算公式表述的普遍错误

现在我们终于不得不面对影响因子的计算公式了。这个公式甚至在《读书》第五期上的拙文中也没有来得及提到。

尽管这个公式每年都会在ISI发布的JCR报告（期刊引证报告）上被表述一遍，但国内许多学者和媒体在表述这个公式时，却普遍是错误的。举例来说，在二○一六年六月二十日（本文撰写中的日子），从百度上搜索对这个公式的表述，包括“百度百科”中的表述，几乎全是错的（只有维基百科表述正确；至于它们为何都错，详见下文）。

影响因子计算公式的准确表述，当然应该以ISI每年发布的JCR报告上的文本为准，是这样的：

一份期刊前两年中发表的“源刊文本”在当年度的总被引用数，除以该期刊在前两年所发表的“引用项”文章总篇数，即为该期刊当年度的影响因子数值。

这个公式从提出到今天，中间曾有过修改；公式中“两年期限”的合理性，多年来也在学术界备受质疑和争议。但为了保持我们思路的简洁，这些都将留待下一篇文章中讨论。此处我们先要注意的，是这个公式中分子部分的措辞。

上述公式中分子部分的“源刊文本”一词，迹近“学术黑话”，其实就是“杂志上刊登的全部文章”。而“源刊文本”又被区分为“引用项”和“非引用项”两类，在通常情况下，“引用项”对应着学术文本，“非引用项”对应着非学术文本。

公式的意思是：在分子部分，它包括了该期刊上前两年所刊登的全部文本在当年度所产生的全部引用。

这就是说，对于《自然》《科学》《柳叶刀》这类两栖杂志而言，占据杂志大部分篇数的非学术文本所产生的所有引用，都会被计入影响因子计算公式的分子值中。

这首先会产生这样一个问题：《自然》《科学》《柳叶刀》这类杂志上的非学术文本，会产生SCI引用吗？

这个问题并非没有意义，因为对于长期跪倒在“国际顶级科学期刊”面前的人来说，他们习惯性的想象是：这些杂志的全部篇幅都是用来刊登“高大上”的学术论文的，这些杂志之所以有很高的影响因子，是因为它们刊登的学术论文质量高、影响大，所以人人引用。对这些人士来说，《自然》或《柳叶刀》这样的杂志上，竟然会有三分之二以上甚至五分之四的文章是非学术文本，已属难以想象；更难以想象的是，这些非学术文本（比如十一岁小姑娘写的幻想小说），难道也会产生SCI引用？

答案竟是肯定的。

两栖杂志上非学术文本对影响因子的直接贡献

上述影响因子计算公式中，关于“引用项”和“非引用项”两类文本的区分虽然至今仍不无争议，但对于公式中的分子部分则一直没有争议，因为规则定得非常简单明确：所有文本（即无论是“引用项”还是“非引用项”）所产生的引用全部计入分子。

加菲尔德一九七五年开始出版JCR报告，最初确立上述分子规则时，理由是“非学术文本很少会被引用”。然而有意思的是，在一九八一年一篇介绍《自然》的文章中，他自己开列了一九六一至一九八○年间杂志被引用排名前二十的物理学文章，其中就有一篇被引一百九十六次的文章属于“非引用项”，这就表明，《自然》上“非引用项”也能产生可观的引用次数。

关于“非引用项”对影响因子的贡献，多年来一直受到学界诟病。二○○五年加菲尔德受邀出席在芝加哥举行的同行评审及生物医学出版国际会议，做了题为《影响因子的历史及其意义》的报告，其中他为自己制订的规则辩护，这次他提出了两条理由：

第一，“非引用项”虽然也会被引用，但主要集中在文章发表的当年，所以不会对影响因子的计算结果产生明显影响（因为上述公式中需要计入的是文章发表后第二、第三年产生的引用）。

第二，影响因子公式尽管包括了“非引用项”的被引用次数，但只会对小部分杂志的影响因子产生相当有限的影响—他估计的幅度在5%—10%。

但是加菲尔德在上述报告中，并未提供任何数据来支持他的辩护。没有数据支持，他的辩护是否可信？学术界当然不会人人都信。事实上，已有学者对此进行过专门研究，他们用实际数据表明：加菲尔德上述两条辩护理由都不能成立。

先看学者海内伯格（P. Heneberg）二○一四年发表的研究成果：他选择了十一家高影响因子刊物：《自然》《科学》《自然医学》（Nature Medicine）、《自然免疫学》（Nature Immunology）、《科学信号》（Science Signaling）、《细胞》（Cell）、《细胞代谢》（Cell Metabolism）、《细胞干细胞》（Cell Stem Cell）、《新英格兰医学杂志》《美国医学会杂志》《柳叶刀》，测算它们二○○九年发表的各栏目文章，在当年度和接下去两年的被引用情况。结果表明，加菲尔德的第一个辩护理由完全不能成立。这些期刊上非学术文本，比如“社论”“读者来信”“消息”，甚至“更正”之类，在发表后第二、三年度产生的有效引用，普遍明显高于当年度的引用。也就是说，这些引用必然对影响因子的计算结果产生明显影响。

另一项研究成果则明确否定了加菲尔德的第二条辩护理由。一九九六年，学者莫伊德（H. F. Moed）等人为了验证ISI关于“可引用项”定义的合理性，挑选了一九八八年的三百二十份SCI期刊，将“非引用项”的引用次数从影响因子算式分子中完全排除，对“可引用项”（文章、评论和技术通信）的影响因子进行单独计算。结果表明，其中一些刊物上的“非引用项”栏目，其实对影响因子有着很大贡献。

文章着重列出十家知名杂志（包括《自然》），它们的“非引用项”对影响因子的贡献，比值在6%—50%。其中《自然》算是非常小的，也有11.28%，而《柳叶刀》则高于50%，十家杂志中有九家大幅超出了加菲尔德所宣称的5%—10%的限度。

值得注意的是，莫伊德等人的论文，发表于加菲尔德二○○五年的报告之前九年，而且颇有影响，“谷歌学术”统计显示它在正式刊物上被引已达两百余次。但奇怪的是，加菲尔德在报告中对莫伊德等人研究的结论居然只字未提—很难想象加菲尔德会对此一无所知，因为仅仅一年之前（二○○四），加菲尔德和莫伊德两人还合作发表过论文！

操弄影响因子的捷径：减少分母！

上一节只是揭示了两栖化杂志上的非学术文本对于杂志影响因子的直接贡献，而实际上两栖杂志的这些非学术文本，对于影响因子还有非常重要的隐性贡献，本文暂且将其放上一放。但是热爱影响因子的人士心中可能仍然不服，他们的义愤正在一系列设问中酝酿起来：好吧，就算我们顶礼膜拜的“国际顶级科学期刊”《自然》《科学》是两栖化期刊，就算它们的影响因子中有非学术文本的贡献，那总还有学术文本的贡献吧？就算非学术文本对《柳叶刀》影响因子的贡献高达50%，那至少还有一半来自学术文本吧？再说了，两栖化又怎么了？两栖化就不公正吗？

笔者当然也可以故伎重演，反问在本文中有任何一句话可以被解释成“两栖化就不公正”这样的意思吗？当然没有。不过在影响因子这个问题上，规则到底公不公正，到底什么是公正，请先抛弃成见，请先压抑一下对影响因子热爱的情怀，看看下文再下结论。

笔者在上一节已经指出，国内对影响因子计算公式的表述普遍是错误的。想想许多热爱影响因子的人士，其实连自己热爱的对象是什么都没搞清楚，也真是够悲摧的。而造成这种普遍错误的根本原因，则是因为在中国不存在两栖化的杂志，所以影响因子计算公式的表述者们，都想当然地将分母中的“引用项”数等同于分子中的“源刊文本”数。

也就是说，对于中国杂志而言，如果是学术杂志，那在绝大多数情况下，它的全部文本都是“引用项”，所以“源刊文本”数就等于“引用项”数；而如果它不是学术杂志，那它的“引用项”就是零，因而也就不可能加入影响因子游戏—因为这将导致在影响因子计算公式中分母为零。

中国人将公式理解错了，但洋人们可没理解错，尤其是那些影响因子游戏的“顶级玩家”，它们不仅正确理解了公式，而且从公式中看出了操弄影响因子的捷径！

根据公式，影响因子是一个分数值，要将一个分数值变大，途径当然有两条：一条是增加分子的数值，在影响因子游戏中，就是设法追求更多的引用；而另一条则是减小分母的数值—在影响因子游戏中，这可以通过减少“引用项”数量来达到。

为此笔者考察了被中国学界顶礼膜拜的《自然》杂志。简而言之，《自然》杂志大幅提升影响因子的捷径之一，就是利用影响因子的计算公式的分母规则，逐渐减少“引用项”（即学术文本）的数量。对《自然》这样的周刊而言，它还有先天的优势—庞大的发表数量，使得它可以在不引人关注的情形下，逐年减少引用项数量。如果把多年数据进行逐年统计和对比，结果颇为惊人，数据表明：

从“科学情报研究所”（ISI）开始出版JCR报告至今，《自然》杂志一直在持续减少“引用项”的数量，从一九七四年的一千五百零二篇，减少到二○一四年的八百六十二篇。

与引用项大幅减少形成鲜明对应的是，过去四十年里，《自然》杂志的影响因子一直在逐年攀升，一九七四年为2.3，二○一四年为41.5。对应《自然》杂志的影响因子排名，一九七四年位列第五十五，八十年代后期开始跃升，一九九○年至今一直稳居前十的位置。

减少学术文本数量可以提升影响因子，原是显而易见的，事实上并非仅《自然》一家有此做法。据二○○七年《皇家医学会杂志》（Journal of the Royal Society of Medicine）上的一项研究，一九九四至二○○五这十余年间，《内科学年鉴》（Annals of Internal Medicine）、《英国医学杂志》（British Medical Journal）、《美国医学会杂志》《新英格兰医学杂志》《澳大利亚医学杂志》（Medical Journal of Australia）、《加拿大医学联合会杂志》（Canadian Medical Association Journal）等著名医学期刊，学术文章数量都在逐年大幅下降。

这项研究还考察了一个学术文本数量直接左右影响因子的典型案例：《柳叶刀》的学术文本在一九九七至一九九九这三年间曾大幅增加，结果《柳叶刀》影响因子随之大幅下滑，从一九九六年的17.9下降到一九九九年的10.0，排名则从第二十名下降为第五十六名。

《柳叶刀》主编后来在《自然》杂志上发表文章谈论此事，说此事纯属意外。一九九七年杂志把原本不计入影响因子公式分母的“通信”（letters），分为读者来信（Correspondence）和研究通信（Research Letters），前者不计入公式分母，后者由于走同行评审程序，ISI就将其归为“原创论文”计入分母，这直接导致杂志的“引用项”数量大幅增加。

《柳叶刀》二○○○年原本计入“引用项”的数量是八百二十一项，经与ISI讨价还价“沟通”之后，“纠正”为六百八十四项。此后《柳叶刀》及时进行“矫正”，大幅削减学术文本数量，影响因子随之一路回升，二○○○年为15.0，二○○五年升至23.8，二○一四年高达44.0，跻身影响因子游戏“顶级玩家”之列。而二○一四年《柳叶刀》的“引用项”已经减少到只剩二百七十一项了。

另一奥妙：减少哪些学术文本？

实际上，杂志在“利用两栖性质减少学术文本以提升影响因子”的策略实施过程中，还另有隐性机制作用于其间：既然决定减少计入分母的“引用项”文章，当然就可以尽量减少以往低引作者或低引主题的文章，而这一点完全可以通过考察该杂志前几年学术文本的引用情况来做到。

例如，《自然》杂志二○○五年就曾发表过一项统计表明：二○○四年《自然》杂志89%的引用数是由25%的文章贡献而得。二○○二和二○○三年《自然》共发表约一千八百篇引用项，其中只有不到一半的文章在二○○四年被引超过一百次—排名第一的文章引用超过一千次，其余绝大部分被引都少于二十次。

上述统计结果还表明，论文引用和学科类别直接相关，从二○○三年度《自然》发表的论文来看，热门领域如免疫学、癌症学、分子生物学、细胞生物学的论文，引用在五十至二百次之间。而冷门专业如物理学、古生物学和气候学，论文引用通常少于五十次。

所以，杂志完全可以多登高引文章，少登甚至不登低引文章。

这里需要特别补充一点：一本杂志要实施上述“自主选择”，前提条件是，它不能是国内学者想象中的“学术公器”—匿名审稿并由编委会决定稿件的刊用与否。而《自然》这样的杂志恰好不是这种“学术公器”。

《自然》杂志现任主编坎贝尔（Philip Campbell），在《〈自然〉百年科学经典》一书的前言中，对中国读者说了一段“掏心掏肺”的大实话，对于我们理解《自然》杂志的性质非常有帮助：

我们在编辑方针上是独立的，我们应当发表什么内容由我们自己来判断。……但我们没有编委会，所以我们经验非常丰富的编辑人员可以不受约束地就哪些论文会对不同领域产生重大影响做出自己成熟的判断。完全独立的另一个好处是，在判断我们的读者喜欢阅读什么样的内容时，我们可以不必苛求意见一致，我们的学术思想可以更加灵活。

这段话的要点是：《自然》杂志并非国内通常意义上的学术刊物—因为它既不实行学术同行的匿名审稿制度，也没有编委会。

讨价还价和黑箱操作

上文《柳叶刀》案例中，同一类型的文本，归入“通信”栏目就不算“引用项”，归为“研究通信”栏目就算“引用项”，还暴露了影响因子规则存在的另一漏洞：两栖刊物栏目繁多（比如《自然》目前就有十八个），而各刊物对栏目的命名并不统一，除了“综述评论”和“论文”之外，ISI对刊物其余栏目是否归属“引用项”，界定并不明确。

《自然》和《科学》杂志就都有这种情况，加菲尔德在早年文章中，曾专门指明，除“评论”之外，《自然》归为“引用项”的栏目是“论文”和“通信”，《科学》归为“引用项”的栏目是除“评论”之外的“论文”和“报告”（report）。而对《科学》上的常设栏目 “通信”不算为“引用项”的做法，加菲尔德的解释是：“不可将《科学》的‘通信混同《自然》的‘通信，因为后者相当于《科学》上的‘报告。”

按实际发表内容而不仅凭名称来决定栏目归属，虽合乎情理，但问题在于，由于人力的限制，ISI很难仔细甄别所有两栖刊物的每一期、每一栏目，这就为刊物提升影响因子留下了操作空间。

二○○六年，美国《公共科学图书馆医学杂志》（PLOS Medicine）在题为《影响因子游戏》（The Impact Factor Game）的文章中披露，杂志二○○五年首次被SCI收录的时候，他们曾通过邮件、电话、面谈等方式展开说服工作，试图让其时已归属汤森路透旗下的ISI少算分母项，而类似做法在行内已是公开秘密，“编辑们都试图说服汤森路透减少杂志的分母数，而公司拒绝把挑选‘引用项的过程公之于众”。几番接触下来，他们意识到，除原创论文之外，汤森路透公司对余下哪些文本应该归入“引用项”，完全含糊其辞。《公共科学图书馆医学杂志》的情形是，分母项如果只包括原创论文，影响影子将达到11，如果将所有文本全部包括在内，影响影子将直降为3。从最终结果来看，杂志的这番讨价还价似乎产生了效果，二○○五年它的影响因子是8。

照这样看，为了影响因子计算公式的分母数值大小，和汤森路透讨价还价的事是经常发生的。计算公式虽然年年在JCR报告上公开表述，但具体到某本杂志，其中的分母数值到底怎么计算，却大有上下其手的空间，而汤森路透是不会将计算过程公之于众的。

果如《公共科学图书馆医学杂志》所言，期刊和汤森路透公司之间“讨价还价”的做法已如此普遍，公司又坚持黑箱操作，则其间是否存在“权力寻租”性质的问题，很难不引人遐想。比如，我们可不可以进一步设想，作为一家精明的商业公司，这样的规则漏洞有没有可能是“科学情报研究所”最初有意留下的呢？