撤销论文的学术不端行为新特征及启示

2019-12-30 05:18任艳青翁彦琴
中国科技期刊研究 2019年12期
关键词:不端客体学术

■任艳青 靳 炜 翁彦琴

1)中国科学院文献情报中心,北京市海淀区北四环西路33号 1001902)中国科学院生态环境研究中心,北京市海淀区双清路18号 1000853)中国科学院大学经济与管理学院图书情报与档案管理系,北京市海淀区中关村东路80号 100190

撤销论文是对有缺陷的科学结论进行纠错的有效措施之一。当文章中存在不科学、不客观的研究内容影响了论文结论,导致该论文不再适合发表与传播时,论文出版商可以通过发表声明撤销已发表的论文,以避免产生进一步的不良影响。因此,撤稿分析是研究学者学术不端行为的方式之一。一般而言,被撤销论文的相关信息可以通过以下两种方式获得:(1)各数据库收录科技期刊所刊载的撤稿声明;(2)Retraction Watch(撤稿观察)网站[1]。

国内对于撤销论文的研究主要集中在各数据库收录的中国学者被撤销论文的特征分析[2-8],研究者分别在某一时间区间内对Web of Science[2-3]、ScienceDirect[4]、PubMed[5]、Scopus[6]、万方数据库[7]、CNKI数据库[8]收录的中国学者发表的被撤销论文的时间间隔、学科分布、撤稿原因、期刊特征等进行了分类分析。关于撤稿原因,田瑞强等[9]对美国国立医学图书馆、出版道德委员会(Committee on Publication Ethics,COPE)等界定的论文撤稿原因进行了分类对比,并归纳出学术论文的主要撤稿原因是数据造假、错误、不可再现、抄袭、重复、作者争议、未获得授权或许可、出版错误和其他情况。

近些年,多种新型的学术不端形式被曝光。2017年4月,出版商展开调查,撤掉《肿瘤生物学》的107篇论文[10],将第三方中介机构代写代投、伪造作者信息、伪造评审专家信息和评审意见等学术不端行为曝光。来自于美国研究诚信办公室(Office of Research Integrity,ORI)的数据表明,Photoshop发布后,他们所处理的涉及图像处理的案件比例有所增加。

本研究拟通过撤销论文分析学术不端行为的新特征,为期刊加强出版诚信建设提供思路和参考。Retraction Watch因对各数据库的撤稿数据进行了汇总整理,撤稿数据体量较大,并对撤稿原因进行了相对统一、标准的阐述和标注,成为本文首选的数据来源。2016年初,刘清海[11]借助Retraction Watch对我国学者被撤销论文情况进行分析,认为排名前5的撤稿原因分别为图像造假、抄袭剽窃、重复发表、数据造假和结果不可重复。2018年,Retraction Watch和Science杂志合作,对近期的撤稿情况进行全方面的报道[12],并公布了一个可检索的数据库,本研究将其称为撤稿观察数据库,该数据库包含了18000多篇可以追溯到20世纪70年代的撤销论文和会议摘要,每篇撤销论文的数据都包含了题目、作者、国家、撤稿原因、学科、发表期刊、出版商、作者单位、链接等详细信息。

撤稿观察数据库的数据显示,第一篇因虚假同行评议被撤销的稿件出现在2012年,因此,本研究把撤稿分析的时间起点设置为2012年。本研究基于撤稿观察数据库,对2012—2018年撤销论文的撤销原因进行汇总整理,对撤销论文的责任主体、责任客体等进行归类和讨论,归纳近年来撤销论文呈现的新特征,从而为科技期刊加强学术质量建设和出版诚信建设提出针对性建议。

1 数据来源与研究方法

在撤稿观察数据库[1]中,搜索发表于2012年1月1日到2018年12月31日、撤销于2019年8月31日之前(“Nature of Notice”选择Retraction)的论文,对撤销论文的归属国家和撤销原因进行分析。按照撤稿观察数据库的字段设置,若一篇文章是多个国家学者的合作成果,则所有参与国的撤稿数量加1。同样,撤稿也考虑了多种撤稿原因,若一篇文章因多种原因被撤,每个原因的撤稿数量加1。

使用Excel 2013软件中Vlookup函数、数据透视表/透视图等功能模块对数据进行分析。

2 撤销论文的概况

在撤稿观察数据库中,符合本研究搜索时段的全球被撤销论文共有6263篇,各年度的撤稿数量分布如图1所示,2014—2015年撤稿较多,均超过了1000篇。

图1 2012—2018年撤稿观察数据库中撤稿数量的分布

在撤销稿件的国家分布上,撤稿数量排在前10位的国家分别是:中国(1804篇)、美国(1112篇)、印度(595篇)、 伊朗(415篇)、英国(245篇)、韩国(228篇)、意大利(221篇)、日本(210篇)、德国(197篇)和加拿大(149篇)。

在撤销稿件的发表类型上,撤稿数量排在前5位的稿件类型是研究论文(4671篇,占比74.58%)、临床研究(433篇,占比6.91%)、综述论文(372篇,占比5.94%)、病例报告(174篇,占比2.78%)、会议摘要/论文(139篇,占比2.22%)。

3 撤稿原因分析

撤稿观察数据库将撤稿原因归为95条,一篇论文因一条或者多条原因被撤。在本研究调查的时间区间内,6263篇文章共涉及14867条撤稿原因记录。

3.1 撤稿原因概述

不考虑信息不全或者不明确原因的记录,在14867条撤稿原因中,排名前20的撤稿原因及所导致的撤稿数量如表1所示。典型的学术不端行为,即伪造、抄袭、剽窃占主流,同行评议的伪造、文章/图片的复制抄袭等均占较大比例,同时还有数据错误、结果不可重复等可能存在错误的原因。

表1 排名前20的撤稿原因及其所导致的撤稿数量

稿件是因为学术错误被撤,还是因为学术不端被撤,需要具体问题具体分析。本研究不对撤稿的性质作深入分析,仅对撤稿数据反映出来的科技期刊(或出版商)在论文学术质量筛查方面可能存在的薄弱点进行挖掘,即基于撤销论文的基础数据,对撤稿的责任主体和责任客体进行归类和深入分析,为进一步提高科技期刊的学术质量提供一定的参考。

3.2 责任主体的归类与分析

责任主体是指论文从撰稿、投稿、审稿到出版全流程中涉及的相关人,主要包括作者、期刊/出版商、评审专家、第三方、公司/机构等。根据撤稿观察数据库中的定义[13],第三方指的是除了作者、期刊或者出版商之外的人员或者组织,公司/机构指的是作者单位。

为了明确撤稿的责任人,根据Retraction Watch对撤稿原因的详细解释[13],本研究对95条撤稿原因进行责任主体归类:(1)与论文撰写相关的撤稿原因,例如文章复制、分析错误、结果不可靠、图像剽窃等,撤稿的责任主体为作者;(2)因虚假同行评审、评审人剽窃被评审稿件导致的撤稿,该撤稿责任主体为评审专家;(3)因期刊/出版商的错误、误传等撤稿的责任主体为期刊/出版商,由表1可知,因“被期刊/出版商调查”而撤销的稿件数量较多,其责任主体标注为期刊/出版商有关;(4)类似地,因作者单位的指控或者不当行为被撤稿的责任主体为作者单位,而因被作者单位调查而撤稿的责任主体标注为作者单位有关;(5)对于第三方和第三方有关的定义作类似处理。对于版权声明、利益冲突、民事诉讼等无法判断责任主体的撤稿原因不在本研究的讨论之列。根据以上分类,能够明确责任主体的撤稿原因的归类结果如表2所示。

对6263篇文章的14867条撤稿记录的责任主体进行归类,有9807条撤稿记录的责任主体为作者,占所有撤稿记录的65.96%;有679条撤稿记录的责任主体为评审专家,占所有撤稿记录的4.57%;有360条撤稿记录的责任主体为期刊/出版商,占所有撤稿记录的2.43%。因此,作者、评审专家、期刊/出版商为撤稿的三大主要责任主体。此外,有905篇稿件接受了期刊/出版商的调查,有540篇稿件接受作者单位调查。各责任主体的撤稿记录所占比例的年度变化如图2所示。

(1)从各责任主体相关撤稿记录所占比例的绝对值来看,因作者原因导致论文被撤销的比例最高,每年的撤稿比例均超过60%,这与“文责自负”的观念一致;而其他责任主体导致的撤稿,其比例均在10%以下;因作者单位的学术不端或者错误行为而撤稿的比例较低,每年撤稿比例均在0.1%以下。(2)考虑时间维度,与作者和第三方相关的撤销论文所占比例的年度分布相对较平稳;接受期刊/出版商调查的论文、同行专家相关的撤销论文比例均呈先升后降的走势,虚假同行评议这一学术不端行为自2012年第一次曝光,在2014—2015年引起较多撤稿;接受作者单位调查、因第三方学术不端撤销的稿件比例呈降低趋势;而因期刊/出版商错误引起的撤稿占比有逐年增加的趋势。

表2 撤稿观察数据库中撤稿原因的责任主体归类

图2 2012—2018年各责任主体相关撤稿记录 所占比例的年度变化趋势

3.3 责任客体的归类与分析

责任客体是指论文组成、评审及出版过程中与物相关的因素,主要包括数据、图像、结果、文本、署名、评审意见、参考文献等。

为了解一篇文章哪一部分更容易出现问题,根据Retraction Watch对撤稿原因的详细解释[14],笔者对95条撤稿原因进行了责任客体归类:对于撤稿原因中明确提到数据、图像、结果、文本的撤稿记录,将其责任客体分别归类为数据、图像、结果、文本;将与同行评审相关撤稿的责任客体归类于评审意见;将与实验设计、实验过程相关的授权、材料等相关撤稿的责任客体归类于实验。 根据以上分类,能够明确责任客体的撤稿原因的归类结果如表3所示。

对6263篇文章的14867条撤稿记录的责任客体进行归类,有2007条撤稿记录的责任客体为数据,占所有撤稿记录的13.50%;有1193条撤稿记录的责任客体为结果,占所有撤稿记录的8.02%;有1073条撤稿记录的责任客体为图像,占所有撤稿记录的7.20%;责任客体为评审意见的撤稿记录(672条)排在第4位,超过责任客体为文本的撤稿记录(641条),署名相关的撤稿记录也超过了500条。各责任客体所占比例的年度变化趋势如图3所示。

(1) 从各责任客体相关撤稿记录占比的绝对值来看,因数据、结果、图像相关的错误、造假、剽窃、不可靠等问题被撤销的论文数量占比较高,这是在论文评审和出版过程须特别关注的部分;因版权声明、参考文献、伦理审批、费用相关的原因被撤销的论文数量占比较低,平均占比不足2%,尤其是费用相关撤稿数量的平均占比不足0.1%。(2)考虑时间维度,2016—2018年,因数据和结果而被撤销的论文占比较大,且较2015年增长了3个百分点;因图像导致的撤稿在2013年占比最高,达到10.68%;因评审意见导致的撤稿在2014—2015年所占比例较高,较其他年份提高了3~4个百分点;因文本导致的撤稿在2012—2016年占比相对比较平稳,在2017—2018年占比逐渐减小;而因署名导致的撤稿,其所占比例呈逐年增加的趋势;与实验相关的撤稿,其占比相对比较平稳;与版权声明和伦理审批相关的撤稿比例有增加的趋势;与参考文献相关的撤稿比例整体呈下降趋势。

图3 2012—2018年各责任客体相关撤稿记录占比的年度变化趋势

为了更清晰地了解不同国家的表现,笔者从责任客体角度分析了撤销论文的国家和地区分布情况。表4列出了每个责任客体分类下撤稿记录数量最多的5个国家/地区(因与费用相关的撤稿较少,仅7条撤稿记录,所以未在表4中显示)。从具体数据看,中国的情况不容乐观,每一个责任客体分类下,中国作者的被撤销论文数量占比均超过20%,中国除了在与参考文献相关的撤稿记录数量排名中位居第二外,其余均名列榜首。与评审意见相关的撤稿记录占该分类的一半以上,与署名和实验相关的撤稿记录占该分类的1/3左右,这些数据需要引起我国有关部门的重点关注。

4 撤稿数据呈现的学术不端行为新特征

数字化改变了科研数据记录、科研成果传播、学术交流的方式,促使科研环境更加开放,促进了科研数据的共享,在此过程中会产生新的学术不端形式。例如,Photoshop的出现加剧了与图像相关的学术不端行为,数字化投审稿系统在一定程度上使得虚假评审专家成为可能,但同时,数字化有利于不当署名、公式或图表抄袭及跨语种抄袭等隐形学术不端行为[14]被发现和曝光。考虑数量和时间的双重因素,本研究通过对2012—2018年撤稿记录的归类和分析,提炼出数字环境下撤销论文及其学术不端行为的新特征。

(1) 数据是撤稿的重灾区。根据对责任客体的分析,因数据相关问题导致的撤稿占所有撤稿的1/6左右,是撤稿的重灾区。实验数据、仿真数据、调研数据等构成了科学研究的核心内容,科学家们通过分析、挖掘数据背后的科学机理,推动科学技术不断进步。数据的科学性、全面性、准确性等是数据审核的重点,数据的收集、记录、处理等环节都潜藏着学术不端的可能,而这些学术不端行为,如捏造数据、虚报样本量、篡改数据等,相对比较隐蔽,不容易被审稿专家和期刊编辑发现[15]。

(2) 图像造假成为隐形学术不端行为。图像作为科研数据的展现形式之一,根据对撤稿数据的分析结果,2012—2018年间与图像相关的撤稿数量超过1000篇,通过对图像进行拉伸、旋转或者一图多用等发表学术论文是非常隐蔽的学术不端行为。

(3) 出现虚假同行评议。同行评议是科研成果评价的重要方式,是维护科技期刊学术质量和学术声誉的重要保障,而虚假同行评议、通过同行评议窃取论文等学术不端形式的出现破坏了科技期刊对评审专家及其评审意见的信任。虚假同行评议这一不端行为自2012年第一次被发现以来,2015—2017年因虚假同行评议撤稿的数量最多,而所有因虚假同行评议导致的撤稿中,有一半以上来自于中国。

(4) 不当署名不容忽视。与署名相关的撤稿数量虽然不多,但随着时间的推移呈上升趋势,须引起关注。2019年7月1日正式实施的《学术出版规范 期刊学术不端行为界定(CY/T 174—2019)》将不当署名列在了作者学术不端行为的第4位,仅次于剽窃、伪造、篡改,说明署名问题在撤稿或者不端行为中具有重要地位。

(5) 撤稿责任主体多元化。通过对撤稿的责任主体进行归类与分析,发现除了论文的第一责任人——作者之外,期刊/出版商、评审专家、第三方、组织/机构(即作者单位)等论文组织、评审和出版链条中的各个行为主体均有可能造成论文被撤销。尤其除了作者和出版商之外的第三方的出现,使得撤销责任主体更加多元。近些年诸多撤稿引起了期刊/出版商的调查,应加强期刊的出版管理,将质量审核放在出版前端,避免因撤稿过多损毁期刊的学术声誉。

表4 各责任客体撤稿记录数量最多的5个国家/地区

5 对科技期刊加强诚信建设的启示

无论撤稿是因为学术错误还是学术不端,稿件撤销均造成了专家资源、学术资源、出版资源的浪费,更有可能误导学术研究的方向,分析撤稿数据呈现的学术不端行为新特征,可以为科技期刊提高学术质量、防范学术不端行为、加强出版诚信建设提供参考。

5.1 规范科研数据的管理与审查

(1) 制定详细、具体的期刊数据政策,引导作者正确收集和处理数据,明确指出数据收集要真实、完整,记录要准确、完整,不得涂改或者销毁实验数据,推动数据开放与共享,有研究表明数据的开放与透明有利于促进可重复性研究,有利于科研诚信建设[15]。在期刊的投审稿系统或者学科公共平台中,提供相应的接口,鼓励作者上传原始实验数据,以便于审稿专家评估数据的有效性与可靠性。例如,在化学领域中,晶体结构需要在剑桥晶体学数据中心(Cambridge Crystallographic Data Centre,CCDC)注册,获得相应的编号,预防晶体结构重复或伪造。

(2) 期刊编辑和同行专家加强对数据的审查,审查重点除了李侗桐等[16]提到的编辑通过熟悉专业背景、关注实验方法描述、对比修改内容、梳理论证逻辑等防范作者捏造数据外,期刊编辑还应重点审查实验伦理及实验备案资料,尤其是涉及人体和动物的实验。除了资质审查外,更重要的审查责任落在同行评议环节,在审稿单中请专家重点审查科研数据的科学性、合理性、完整性和有效性等。

5.2 规范论文图像的管理与审查

(1) 明确期刊对于图像及原始数据的要求。例如,作者须提供可编辑的矢量图及原始数据,仅可对图像的大小、对比度、亮度等进行整体调整,避免对图像的某一部分进行编辑加工;明确图像版权,提供已发表图像的版权许可模板等。

(2) 充分借助软件,例如,JPEGsnoop、美国科研诚信办公室提供的Photoshop插件Droplets、艾普蕾公司的猫图鹰图像检测平台等可对图像的复制、旋转、删除等进行筛查[17]。

5.3 规范同行评议制度与专家信息审查

加强对科技期刊同行评议阶段的审查,提高同行评议的质量,有利于减少相关撤稿,在最大程度上防范学术不端行为。

(1) 明确科技期刊的利益回避原则,提供利益冲突声明范本,最大程度避免“人情”等主观因素的干扰,保证同行评议的客观性、公正性。

(2) 加强对评审专家的指导和培训,提供详细、具体的专家审稿指南,在指导专家提高审稿质量的同时,提高专家的保密意识,严禁专家盗用审稿内容谋取不当利益。

(3) 加强对专家研究背景与研究履历等信息的审查,寻找与论文最相关的“小同行”进行评审,确保评审专家对论文的研究问题最了解、最有发言权。同时,加强专家信息的动态维护,充分借助人工智能新技术,自动筛选、智能推荐评审专家,例如,ScholarOne Manuscript中的Reviewer Locator模块可根据论文情况与Web of Science数据库收录论文的作者进行匹配,智能推荐评审专家。

5.4 规范作者署名与作者资格审查

(1) 明确期刊对作者署名的规定,包括第一作者、通信作者、共同第一作者等的界定,鼓励使用CRediT(贡献者角色分类)声明作者贡献,并依据作者贡献声明给出作者署名排序。宣贯学界关于署名的政策规定,如中国科学院科研道德委员会于2018年4月发布的《关于在学术论文署名中常见问题或错误的诚信提醒》[18]等。

(2) 加强作者资格审查对于防范署名相关的撤稿具有非常重要的作用,主要审查内容包括:①审查作者的研究背景、研究履历是否与稿件内容相符,例如,若一名经济学背景的研究人员署名在一篇人工智能相关的稿件中,则需要认真审查,排除挂名可能;②作者所在单位是否具备开展相关领域研究的条件,尤其是需要实验数据、大型实验设备支撑的论文,需要注重审查作者单位的情况;③作者邮箱审查,可以通过邮箱名称粗略判断是否为作者本人邮箱,是否为作者单位邮箱。作者邮箱在审稿过程中具有非常重要的作用,稿件的评审进度、修改意见均会通过邮箱转发,对防范作者挂名、第三方违规代投具有重要作用。

6 结语

本研究基于撤稿观察数据库中2012—2018年的撤稿数据,对撤稿的责任主体和责任客体进行归类和分析,研究发现,数据成为撤稿的重灾区,图像造假、虚假同行评议、不当署名等隐形不端行为是学术不端的新特征,科技期刊有针对性地制定数据管理、图像处理、同行评议、作者署名的规范细则,加大编辑部的审查力度,能最大程度地防范学术不端行为,推动出版诚信建设。

猜你喜欢
不端客体学术
社会公正分配客体维度与道德情绪的双向互动
关于采用《科技期刊学术不端文献检测系统(AMLC)》的声明
学术是公器,不是公地
学术动态
论文作者学术不端行为类型
浅议犯罪客体
浅议犯罪客体
《中国粮油学报》关于学术不端稿件的认定和处理办法
对学术造假重拳出击
浅谈知识产权客体