编译 许林玉
美我们认为,在过去半个世纪中,科学的激励和奖励机制发生了变化,使学术研究者之间形成了过度竞争。如今,兼职教师和客座教授占学术劳动力的76%,这使得大学可以像企业一样运作,终身教职也变得更加稀缺、令人向往。新出现的量化绩效指标注重论文数量、引用次数和研究经费。由于对这些指标的依赖性日益严重,对社会相关结果和质量的重视程度反而降低。还有人担心,这些压力可能会诱使面临这种过度竞争环境的STEM(科学、技术、工程和数学)学者进行不道德的行为。我们认为有必要对此进行改革,以使学术界和社会契约重新实现科学与社会之间的平衡,从而确保科学作为公共利益的未来角色。
在传统上,对终身教职的追求几乎影响着所有决策、优先事项以及研究型大学中年轻教师的科研活动。然而,最近学术界的变化,包括对量化绩效指标的重视、对保持不变或不断减少的联邦科研经费的过度竞争以及公立和私立大学的私营商业模式的实施,都产生了不良后果和意想不到的结果(见表1)。
量化指标越来越多地支配着教师的招聘、晋升和终身教职、奖励和经费的分配等决策,并对出版物数量、引用次数、引用-出版联合数量(其中最常用的是h指数)、期刊影响因子、总研究经费和专利数量予以密切关注。所有这些措施似乎都遵循古德哈特定律(Goodhart’s law)。该定律认为:当一项措施成为目标时,它就不再是一个合格的衡量标准。因此,量化指标可能会误导科研评估工作,最终对科研评估产生负面影响。
越来越依赖于量化指标不仅可能造成不公,还可能带来比它们所取代的体系更糟糕的后果。具体来说,如果奖励是按比例分配给那些操纵指标的人,那么古老的主观性范式(比如朋友体系,或称私人关系网络)的著名问题就显得简单而又容易解决。大多数科学家认为,因量度问题造成的损害已经显而易见。事实上,71%的研究人员认为,他们所在机构的评估工作可以做得更好。
已有记录表明,有人在对评估指标进行操纵。最近曝光的内幕披露了一些期刊操纵影响因子的计划,研究人员利用P值篡改技术(p-hacking)得出一个在统计学上显著且适宜公布的结果,操纵同行评审过程和过度引用的做法。格勒诺布尔约瑟夫·傅立叶大学的计算机科学家西里尔·拉贝(Cyril Labbé)甚至创造了一个虚构的人物艾克·安特卡雷(Ike Antkare),他通过发表102篇计算机生成的伪造论文,在谷歌学术搜索上获得了94的高h指数,这超过了爱因斯坦的h指数。实际上,只要在谷歌上搜索就能看到介绍如何在不进行直接欺诈的情况下提高你的h指数的博客。
自第二次世界大战以来,以引用著述进行衡量的科学成果每9年翻一番。从本质上说,这一知识产业的增长有多少是虚幻成分,或是古德哈特定律的自然结果呢?这才是真正的问题所在。
我们需要考虑质量与数量的作用。如果一个过程过于注重质量而非数量,那么可能需要更多的盲法研究(参加者不知情的研究),并需要通过“独立方能复制结果”的考核以及在公开发表前对所有数据进行同行评审。由于过于谨慎,这种体系收效甚微,而且会对稀缺的研究经费造成浪费。在另一个极端,过分强调数量会产生大量不合格的论文。它们缺乏严格的实验设计,几乎无法或根本无法复制,质量控制不够、同行评审低于标准(见图“相对于真实科学进步的数量与质量关系”)。以量化指标来衡量,则会取得明显的科学进步,但同时也会出现很多错误的结果,而研究群体则会陷入困惑:到底什么是有效的,什么是无效的?这种体系仅仅制造了一种科学进步的假象。显然,我们应当在数量和质量之间寻求平衡。
表1 激励机制与效果
不妨假设一下,在一个没有量化指标、不过分强调数量的环境中,学术评估(由同行评审实施)有可能会发展到接近生产力的最佳水平。但我们怀疑,现有的不当激励环境正在促使研究人员过分强调数量,以便在竞争中脱颖而出,进而导致真实科学生产力低于最优水平。过度竞争的环境还会增加不端行为发生的可能性和频率,那么整个科学界最终都会遭到质疑。尽管实际上并没有任何研究探讨过不当激励对科学生产力的确切影响,但学术界的大多数人都会承认研究的重心正在向数量转变。
偏重产出而非成果,或者说偏重数量而非质量,也可能导致出现“自然选择的反例”。这种体系更有可能淘汰那些遵循道德和毫无私心的研究人员,同时选择那些能够更好地适应不当激励机制的人。普通学者会被迫采取不道德的做法,以获得或维持职业生涯。而根据马克·格兰诺维特(Mark Granovetter)的《集体行为阈值模式》(Threshold Models of Collective Behaviour,1978),不道德的行为会根植于职业文化结构和过程中。在这一点上,认为腐败可以容许或者甚至还有必要的想法占据上风。引人入胜的轶事式证词,即那些由功成名就、热心公益的教授所撰写的关于他们为什么要离开曾经热爱的事业的内容,不断出现。《高等教育编年史》(Higher Education)甚至为这一流派取了一个名字——Quit Lit。在这一群体中,即使是资深研究人员也会十分理性地解释他们为什么会辞去位高权重、报酬丰厚的职位,而不是在一个竞争过度、激励不当的环境中妥协自己的原则。
简而言之,尽管与主观衡量标准相比,量化指标提供了一种表面上具有吸引力的方法来评估科研生产力,但这些指标一旦成为目标,就不再有效,甚至可能适得其反。继续过分强调量化指标可能会迫使除了最具道德意识的科学家之外的学者降低工作质量,尽可能“走捷径”,降低真实生产力,并选择在那些激励不当的环境中继续坚持并从容应对。
许多科学团体、研究机构、学术期刊和个人都在试图纠正量化指标的一些过度行为,其中有些已经签署了《旧金山科研评估宣言》(DORA)。DORA认识到需要改进对科学研究成果进行评估的方法,并呼吁对研究评估实践提出挑战,尤其是目前正在使用的期刊影响因子参数。截至2017年8月1日,共有871个组织和12 788个人签署了DORA,其中包括美国细胞生物学学会、美国科学促进会、霍华德休斯医学研究所和《美国国家科学院学报》《自然》《科学》和其他期刊的出版商呼吁淡化影响指标。美国微生物学会最近采取了原则性立场,删除了所有期刊上的影响因子信息,以避免继续引导人们对期刊影响因子的不恰当关注。其目的是减缓在研究评估中占主导地位的不可靠绩效指标出现“崩塌”。和其他人一样,我们并不提倡放弃度量标准,而是在资助机构的决策过程中降低它们的重要性,直到我们可能制定出客观的措施来更好地体现科学研究的真正价值。
在现代科学竞争激烈的筹资环境中,联邦政府一直是经费资助不可或缺的来源。在资助研发、创新知识、国家安全、农业、基础设施和环境卫生等公共事业方面,它一直充当着最重要的角色。从第二次世界大战开始,联邦政府在很大程度上承担了高风险的长期科学研究所需的大部分经费。这类科学研究的前景并不明朗,有时也缺乏明显的短期社会效益,而且其研究日程往往是由科学家和资助机构制定。联邦资助基金会已经建立了一个由大学和行业辅助的研究和知识生态系统,它们一起为人类的共同进步做出了历史性贡献。
然而,至少在过去10年里,美国联邦政府在研发方面的支出一直在下降,研究强度(研发预算占国内生产总值的比例)从20世纪60年代约2%降至0.78%(2014年)。与此同时,预计到2020年,中国的研发经费支出将超过美国。
历史上,美国的大学也培养出了下一代研究人员,他们为公众传授教育和知识。但随着大学逐渐转变为专注于生产新产品和专利的利润中心,它们不再强调科学是一项公益事业。
在进入了半个世纪以来资助环境最差的时代之后,研究人员之间的竞争从未如此激烈。在1997年至2014年期间,美国国立卫生研究院(NIH)的资助率从30.5%降至18%。美国国家科学基金会(NSF)的资助率在过去10年停滞不前,一直保持在23% ~ 25%。得益于一些小小的举措,上述资助率仍远高于6%,当经费获取人撰写经费申请的净成本等于从研究经费中获得的净值时,这种状况接近收支平衡点。尽管如此,经费拨付环境仍然竞争激烈,容易受到评审者的偏见的影响,严重依赖于先前通过数量指标进行衡量的成功之举。甚至在金融危机爆发之前,诺贝尔奖得主罗杰·科恩伯格(Roger Kornberg)就曾说过:“如果你计划做的工作实际上无法确保获得成功,那么它就不会得到资助。”这些变化将宝贵的时间和资源从科学发现和转化中分离出来,迫使研究人员花费大量时间撰写经费申请报告,填写的文件也越来越多,以便获得研究经费。
相对于真实科学进步的数量与质量关系
不当激励机制的稳步发展以及它们在教师研究、招聘和推广实践中发挥的重要作用,构成了危及科学完整性的系统性功能障碍。越来越多的证据表明,当今的研究类出版物过于频繁地受到缺乏可复制性的影响,依赖于带有偏见的数据集,采用较低或低于标准的统计方法,未能防止研究人员产生偏见,并夸大他们的发现。换句话说,就是过分强调数量而非质量。因此,审查揭示出来的不道德活动水平令人不安。最近,《经济学人》对大行其道的劣质且不可复制的现代科学研究及其对社会带来的高经济成本进行了重点报道。这些报道明确指出,现代科学是不值得信赖的,因此亟需改革。鉴于曝光、披露或承认科学不端行为必须付出高昂代价,我们可以相当肯定地说,我们所看到的远远不止这些。对系统性问题的警告至少要追溯到1991年,时任NSF负责人的沃尔特·梅西(Walter E Massey)指出,面对日益激烈的竞争,研究的规模、复杂性和增加的跨学科研究,使科学和工程更容易受到错误信息的影响。
NSF将科研不端行为定义为“在研究的计划、开展或审查过程中,或在报告研究结果时有意伪造、篡改或剽窃的行为”。在美国卫生与公共服务部(包括NIH)和NSF调查的科研不端行为中,有20% ~ 33%的案例被判有罪。在机构层面上,美国调查所有这类科研不端行为需花费1.1亿美元。从1992年至2012年,在NIH的资助下发表的291篇科学论文由于行为不端被撤回,而这些科研项目从该机构获得的直接经费达5 800万美元。显然,还有更多的不端行为未被曝光,每年都有一些案例被判定属于此类。
真实的不端行为发生率很难预测。1987年至2008年对科研不端行为调查的综合分析表明,有2%的科学家承认至少有过一次不端行为(伪造、篡改或修改数据),有14%的科学家知道自己的同事曾经有过不端行为。最可能的是,考虑到所问问题的敏感性和低反应率,这些数字要低于真实的发生率。自1975年以来,在生命科学和生物医学研究中,科学论文撤回的比率增加了10倍,其中67%是由于不端行为造成的。这种增长可能源于以下因素:高规格期刊的诱惑、“病态出版”、不当的不端行为政策、学术文化、职业阶段以及不当激励。从气候科学到电化学腐蚀,我们都看到了一些已发表的否定科学风气、损毁科学界信誉的研究成果。
学术界的自治原则强而有力,这是现代研究型大学的一个显著特征。科学应该具有自我监督和自我修正的能力。然而,我们已经开始相信,在整个系统中,激励机制会诱导所有利益相关方“假装不会发生不端行为”。值得注意的是,科学从未建立一个有效的体制来报告和调查对科研不端行为的检举。在汇报研究成果、撰写研究经费申请书和推广研究思路方面是否公平的问题上,学者们在很大程度上依赖于不可执行的、不成文的荣誉制度。如今,有令人信服的理由怀疑,科学作为一个整体是否能够自我修正。我们不是首批认识到这一问题的人。科学家们提出了诸多建议,如开放数据、开放获取、发表后公开同行评审、元研究以及复制具有里程碑意义的研究作为实践,以弥补现代科学中高错误率的问题。尽管这些纠正措施可能大有裨益,但对个人和机构的不当激励仍然是根本问题。
也有一些情况例外,即有人对过度炒作的科研新闻稿进行核实,尤其是在那些被认为具有潜在变革能力的领域。然而,热门研究领域的局限性往往被忽视。因为在现代科学领域,每出现一次热潮都会给参与者带来可量化的意外之财,而当科学泡沫破灭时,那些负责人却几乎无需承担什么后果,所以针对病态科学和资源分配不当的问题唯一有效的审查就是荣誉制度。
不端行为并不局限于出现在学术研究人员身上。在联邦机构中,同样存在不当激励和过度竞争,并因此引发新的机构科研不端行为发生。例如,美国疾病控制与预防中心(CDC)发表了一份关于哥伦比亚特区饮用水危机的错误报告,声称饮用水中含铅量极高并未导致当地儿童血液铅含量升高。在CDC拒绝纠正或为他们的研究成果辩解之后,国会调查人员不得不介入此事,并发现这份报告在科学上站不住脚。遭到国会强烈谴责几个月后,同一个CDC分支机构撰写了一个被路透社称为“有缺陷的”的报告。该报告称,印第安纳州东芝加哥的土壤、水体和空气均遭到铅污染,脆弱的儿童和少数族裔会因此受到至少长达5年的伤害。
美国环境保护署(EPA)也在行业期刊发表了基于不存在数据的科学报告。最近,在密歇根州弗林特市出现水危机期间,EPA让告密者保持沉默。机构之间的竞争日趋激烈,为了获得被削减的可自由支配经费以及维持现有现金流,他们似乎更倾向于发布“好消息”而非科学数据。在一个可自由支配资金不断减少的时代,联邦机构和私营企业类似,都存在资金利益冲突和生存的恐惧。鉴于人们普遍认为联邦资助机构不存在此类冲突,其科研不端行为的危险性可能与行业资助的研究相当,甚至会超过行业资助的研究,因为没有任何制衡制度,而这类工作的群体可能会过度信任。
如果我们不对学术型科研企业进行改革,就会对科学造成重大破坏,并损坏科学的声誉,造成公众对科学的不信任。被《经济学人》嘲讽为“庞氏骗局”的现代学术型科研企业依靠的是一套不正当的激励机制,而50年前,这一制度几乎是不可想象的。我们相信这一机制对科学的未来构成了真正的威胁。如果不立即采取行动,我们极有可能会创建一种腐败的职业文化。它类似于职业自行车赛领域暴露的职业文化(即在1999—2005年间,站上领奖台的21名获胜者有20人被查出服用了兴奋剂),不受控制的不当激励机制营造出来的环境,让参加比赛的运动员觉得自己不得不作弊。失去利他主义的行动者以及对科学的信任会给公众和全世界带来更大的伤害。
所有科学家都渴望科学这个领域能够比我们刚刚踏足时状况更佳。国家和联邦资助经费等重要问题超出了我们的直接控制范围。然而,当涉及到健康、完整性和公众对科学及其价值的认识时,我们才是关键的行动者。
我们可以公开承认并解决不当激励和过度竞争的问题,这些问题扭曲了科学,对作为一种公共利益的科学研究构成了危险。要更好地理解这些问题,可以采取一些相对简单的措施,包括通过对优秀的研究生和成果优异的研究人员进行全面调查,系统挖掘STEM领域专业人士的经验和理念。
其次,NSF应该委托一个由具有不当激励方面专业知识的经济学家和社会科学家组成的小组,让他们来收集和审查来自各学术领域的意见,包括退休的美国国家科学院成员和杰出的STEM学者。从长远来看,将科学作为一种公共利益来培养,该小组还可以制定一份“最佳实践”清单,以指导对招聘和晋升的候选人进行评估。
第三,我们再也不能假装科研不端行为的问题不复存在。在本科生和研究生阶段,科学和工程专业的学生应该接受有关这些学科的实际指导,这样他们就可以在遇到问题的时候(而不是假设遇到问题时)采取行动。课程应当包括对现实压力、激励机制的评述,因为它们可能提高实施科研不端行为的可能性。
第四,大学可以立即采取措施保护科学研究的完整性,并宣布采取措施减少不当激励,支持阻止科研不端行为的政策。
最后,也许是最简单的,除了教学技能,博士课程本身应该接受存在不当激励的现实,同时促进个性发展,尊重作为公共利益的高质量科学对于人类未来的重要作用。