管茜 董克 夏义堃
摘 要:数据管理直接影响科研数据和科研结果的可发现、可获取、互操作和可重用性,是规范学术行为的重要前提。论文撤稿是保证论文科学性,建立学术信任的重要手段,近年来生命科学领域频发撤稿事件反映了包括数据管理在内的多种学术不端行为。在分析生命科学领域撤稿论文基本特征基础上,对撤稿原因进行归类,对与数据、图像有关的撤稿论文进一步分析,发现其在时间、时滞、国家、学科、期刊等方面的相对发展趋势。数据、图像问题是生命科学论文撤稿的主要原因之一,并呈现波动上升趋势,数据、图像问题发生频率与学科、期刊等级有关。应当从能力提升、制度完善、主体责任机制、过程监督、约束激励手段等方面来加强科研数据管理。
关键词:数据管理;撤稿;生命科学数据
Abstract Data management has a direct impact on the Findable, Accessible, Interoperable and Re-usable of scientific research data and results, and is an important prerequisite for standardizing academic behavior. The retraction of papers is an important means to ensure the scientificity of papers and build academic trust. In recent years, the frequent retraction of papers in the field of life science reflects a variety of academic misconduct, including data management. Based on the analysis of the basic characteristics of retractions in the field of life science, this paper classifies the reasons for retractions, further analyzes the retractions related to data and images, and finds out their relative development trends in terms of period, time lag, country, discipline, journal and so on. Data and image problems are one of the main reasons for retractions of life science papers, and the frequency of data and image problems is related to discipline and journal level. The management of scientific research data should be strengthened from the aspects of ability promotion, system perfection, subject responsibility mechanism, process supervision, restraint and incentive means, etc.
Key words data management; retracted papers; life scientific data
撤稿是学术界自我净化、自我完善的机制[1],也是维护学术诚信、保障期刊质量的基本制度保障。“更好地理解撤稿的潜在原因有助于改变当前的学术文化,并为阻止公众对学术失去信任而提供信息、寻找改进的方向”[2]。近年来,因数据误用、图像重复以及数据伪造等数据管理问题引发的生命科学论文撤稿成上升趋势,如2018年10月,哈佛医学院Anversa教授的多篇论文被举报存在数据、图像伪造等问题,进而导致其发表在《NEJM》《Nature》《Cell》《Lancet》等顶级学术期刊的31篇研究论文被全部撤稿[3]。从撤稿现象背后的数据管理问题进行深度探索,有助于从根源上找出症结与解决方法。
1 研究回顾与问题的提出
1.1 研究回顾
(1)生命科学撤稿论文中的数据问题认知研究。生命科学领域是撤稿的重灾区。Fang等[4]研究发现,自1975年以来,PubMed数据库中已撤稿文章的百分比增加了约10倍。美国科研诚信办公室(ORI)发布的《科研不当行为的发现与后果》报告指出,医疗与公共卫生领域24起结案调查中有21起涉及到数据伪造和/或捏造等情况[5]。韩磊[6]分析了2010-2019我国生物医学领域国际论文撤稿,发现自2016年起,因数据问题、方法与结果问题被撤销的论文数量连续4年位于第1和第2位,因图片问题被撤稿的论文数量多数年度居第4或第5位。Elisabeth等[7]结合数据欺诈调查的具体案例,深入探讨了撤稿事件背后的数据/图像操纵、误用等数据管理问题。Mike Rossner和Hill[8]进一步指出,修改、重组和伪造数据/图像的部分内容以得到想要的但是不客观的结果等行为,均属学术不端。Fecher等[9]结合案例将数据滥用行为归纳为四种类型,即“伪造、商业滥用、竞争性滥用、有缺陷的解释和不明确的意图”。
(2)生命科学撤稿论文中的数据问题原因分析。多位学者通过挖掘期刊数据库和Retraction网站的撤稿声明,发现数据问題成为引发生命科学撤稿的重要因素。如针对PubMed数据库2013年1月1日至2016年12月31日撤稿论文的研究发现,主要撤稿原因包括剽窃(32.7%)和数据处理(32.5%)等相关问题[10]。医学类最常见的撤稿原因是欺诈(数据伪造或操纵),占比近一半(49.4%)[11],其中,麻醉学领域的主要撤稿原因包括数据操作/捏造/欺诈(49.4%)、伦理问题(28%)、其他数据/方法问题(4.2%)等[12]。
在撤稿论文数据问题的原因细分中,既有学者从生命科学研究对大规模实验数据以及对假设检验的高度依赖等角度分析其研究过程与数据管理的复杂性,指出容易导致结果选择性偏差、数据不完整、不一致以及研究结果假阳性等数据问题[13-15],Christian和Solmaz[16]从生命科学研究的团队性以及资助机构、期刊出版等利益相关者角度分析数据管理与监督的单一性和薄弱性,还有Arturo等[17]从学术发表焦虑、职业晋升等评价因素角度对撤稿论文数据问题的影响。
(3)生命科学撤稿论文中的数据问题应对策略研究。目前,国内外学者对于撤稿问题的对策研究主要从期刊撤稿管理与学术诚信管理两方面展开。针对数据问题引发的撤稿处理,一方面,站在期刊管理角度,早在1987年,国际医学期刊编辑委员会(ICMJE)就提出,应对不宜在文献资源中继续保存的,或有错误的学术论文进行撤稿[18]。张维[19]、叶青[20]、Arturo[17]等认为期刊应采取数据可访问性审核等手段,运用数据库、图片分析软件开展原始数据审查与图片原创性比对,并制定图像完整性标准,提高数据/图片鉴别力;另一方面,从加强学术诚信角度,有学者主张撤稿论文不应被移除,而应被清晰标记,并提供访问,“去除痕迹只会帮助不当行为研究人员隐藏该行为”[10]。Esmée等[21]指出团队合作完成的撤稿论文因人员协调问题容易出现数据管理漏洞,导致严重的数据完整性、真实性问题,应对团队论文进行系统性调查。李侗桐等[22]进一步指出应强化科研人员学术诚信教育,提升对数据问题引发的学术不端行为的防范能力,在项目资助方、科研机构、期刊等实施科学数据审核策略,识别和防范各种形式的数据造假。
1.2 撤稿与生命科学数据管理关系
Karp[23]指出,“生物医学数据管理是一项昂贵且费时的工作,但也是共享、管理、集成和分析现有数据和新数据的最佳方法”。撤稿论文中形形色色的数据问题,既检验了生命科学数据管理制度实施中的现实困境与不足,也折射出深层次的科学数据管理与学术诚信之间紧密的内在关联。
(1)撤稿揭示了生命科学数据管理的重要性。因数据问题引发撤稿论文数量的激增,表明数据管理及数据共享已经成为生命科学基础设施的重要组成部分,数据采集方法、分析技术以及计算工具等有助于研究人员以新的方式和尺度查询并利用数据产生新的数据洞察。换言之,“一旦描述了数据并进行了数据融合与分析,就应进行数据管理。完成此操作后,才可以将数据公开访问(共享)或提供再利用[24]”。任一环节、任一方面的数据管理缺失/疏漏都有可能连带出研究结论/方法的偏差,相应的论文撤稿在所难免。
(2)撤稿折射了生命科学数据管理规范的复杂性。实验数据和研究结论的再现性、可重复性问题是引发各方关注和论文撤稿的重要因素。现代生命科学属于数据驱动型交叉科学,基因测序、遗传育种等大量生物学研究建构在充分准确的实验数据基础之上。同时,数据类型的多样性、术语逻辑的错综复杂以及对特定实验环境、对象客体的高度依赖,导致实施标准化数据描述、数据组织等数据管理工作量的激增。BLAUSTEIN[25]对《PLOS Biology》的调查发现,研究人员的数据共享标准不一,许多人没有恰当的方法保存实验数据和成果,这些数据问题不仅造成后续研究的不可复制,也为论文撤稿埋下了隐患。
(3)撤稿反映了生命科学数据管理制度实施的脆弱性。“从原始观察到科学发现,科研合作中的信息流涉及一系列的转换和简化,流程管理中各项分工的无意疏忽或故意改变,都有可能导致撤稿[26]”。如实验数据记录的不完整、实验室笔记数字化缺失或将数据记录在过时的存储介质……,都会造成数据复用的无效,并引发数据再现危机。同时,生命科学数据管理制度的实施还牵涉到多方主体,相关数据活动并未完全遵循常规的数据管理线性路径(如专注于原始数据采集和分析的项目可能会绕过数据发现和整合步骤直接进入数据发布和存储环节),需要全员参与数据管理,特别是“沟通和集体监督可以让合作者确保数据收集、存储、处理和分析的完整性”[27]。
(4)撤稿凸显了生命科学数据管理与学术诚信管理的共生性。数据是生命科学学术记录的关键组成部分,撤稿论文的数据组织与利用方式不仅反映出作者的数据管理态度与能力,也对学术诚信以及数据监管、共享和复用发挥着不可替代的影响。Tijdink[28]对315名比利时生物医学研究人员的调查发现,出于学术发表和職务晋升压力,15%的受访者承认他们在过去3年中有伪造、篡改、剽窃或操纵数据的嫌疑,数据利用行为成为检验学术诚信的标尺。“许多已发布的科学数据生命周期管理模型反映了基本的学术诚信原则,如质量控制以及隐私和保密的法律/道德问题[29]”。因而,负责任的生命科学研究应包含详细的数据管理计划与数据管理实施、检查与评估方案。
2 基础生命科学领域撤稿数据分析
2.1 数据来源
本研究数据来源于Retraction Watch,该网站创建于2010年,旨在关注科研不端行为,收录了多个学科领域的撤稿文献,基于该数据进行的相关研究已经得到了学界的一致认可[30-31]。Retraction Watch数据库中基础生命科学领域(不含健康、医学),共包含18个二级学科,本研究采集了数据库中基础生命科学领域截至2021年4月30日的6146篇学术论文撤稿记录,每条数据包括被撤稿论文的标题、学科、期刊、出版商、机构、作者、撤稿原因、原始文献发表日期、撤稿日期、国家10个字段,对于部分字段信息缺失的数据,由人工补齐。
研究首先分析了基础生命科学领域撤稿论文原因的总体分布情况,进一步从时间、二级学科以及期刊的角度,分析了因数据问题撤稿论文的分布特征,最后,对这些撤稿论文的数据问题进行细分。
2.2 撤稿原因分布
一篇论文可能涉及一条或者多条原因被撤,Retraction Watch对每条撤稿原因均单独计次。通过数据整理发现,被撤稿的6146篇学术论文共涉及12146条撤稿原因记录,去除通知不全、通知无法获取、通知用语模糊等原因不明确的相关记录,共获得撤稿记录11018条。Retraction Watch用户指南将撤稿原因归为100条[32],可以总结为12个类别,分别是数据、方法与结果、作者、文章剽窃或重复发表、第三方、作者机构、期刊/出版商、版权、同行评审、实验、引用、伦理、法律纠纷等(基础生命科学领域12类撤稿原因的统计分析结果见表1),从表中可以发现,因图像和数据的错误、复制、伪造、不可信、缺失、操纵等造成的数据质量问题已经成为基础生命科学领域论文撤稿的首要原因,占撤稿记录比例达到了39.30%。
生命科学研究在复杂的实验过程中形成了海量多源异构的研究数据,实验技术缺陷、数据假阳性及数理统计分析过程中方法谬误等非主观因素,以及数据和图像的伪造、操纵、剽窃、重复等学术不端行为都会导致生命科学论文撤稿。数据问题可能是由于数据收集不全面、方法操作有误、结果分析错误等造成的假阳性;也可能是实验描述错漏、不充分等,既涉及数据质量问题,也包括了数据采集描述的标准与处理加工的方法等。
2.3 数据问题撤稿论文分布
由于一篇论文可能因多个原因撤稿,因此,4307条与数据相关的撤稿记录对应2686篇撤稿论文(基础生命科学领域总体撤稿论文及数据问题相关撤稿论文的时间分布见图1)。从时间来看,从2004年起,基础生命科学领域论文撤稿数量开始出现快速增加的趋势,数据问题导致的撤稿与总体撤稿在时间分布上表现出一致性。从占比角度来看,2008年以来因数据问题导致的撤稿占比呈现出波动上升的趋势,特别是在2020年,因数据原因造成的撤稿论文达到了669篇,占基础生命科学领域撤稿论文的58.0%。
数据问题导致的撤稿在二级学科的分布上存在明显差异。从总量来看,细胞生物学、生物化学、遗传学、分析生物学相关论文占撤稿总数的比例较高。这与上述学科的研究内容有关,随着高通量测序技术的发展和应用,上述学科体现出明显的数据驱动特征,涉及到大量的基因测序、蛋白质结构等研究数据,具有更高的数据管理风险。进一步分析各二级学科因数据问题导致的撤稿比例,可以发现植物生物学/植物学(Plant Biology/Botany)、遗传学(Genetics)、细胞生物学(Biology-Cellular)、神经科学(Neuroscience)、解剖学/生理学(Anatomy/Physiology)、法医科学(Forensic Sciences)、毒理學(Toxicology)、癌症生物学(Biology-Cancer)等二级学科数据质量撤稿论文占比均在50%以上,明显高于平均水平;而营养学(Nutrition)因数据问题导致的撤稿论文占比仅为3.5%,表明各二级学科内部数据问题的表现程度存在差异,相比较而言,依赖大规模数据集的学科撤稿论文比例相对较高。
从期刊的角度来看,2686篇数据质量撤稿论文来源于841个不同期刊,撤稿论文在15篇及以上的期刊有20个,撤稿论文共972篇,占2686篇撤稿论文的36.19%。进一步结合JCR的期刊分区域与撤稿时滞的分析结果(见图2),从图中可以发现,数据问题相关撤稿论文的平均时滞要高于平均撤稿时滞,说明数据问题相比于其他学术不端行为的发现更具隐蔽性。此外,随着期刊影响因子的提升,因数据问题的撤稿论文数量增加,撤稿平均时滞更长,这可能是因为高水平期刊拥有更为严格、规范的论文审查和数据核验程序,因此其撤稿用时随着期刊等级而提升,撤稿论文数量也随之增加。
2.4 撤稿论文数据问题分析
与数据、图像相关的撤稿原因较为复杂,从数据管理角度来看是一个多维度概念,是一系列数据特征的集合,诸多框架中形成了关于数据形式、数据内容、数据效用、数据渠道的可获得性、可理解性、完整性、准确性、客观性、可靠性、有效性、有用性、增值性等多层次的质量指标。从基础生命科学领域撤稿论文的数据问题的统计分析结果(见表2),不难发现,数据的准确性、可靠性和有效性问题与数据质量撤稿论文高度相关;与准确性要求相关的数据/图像操纵、非主观错误、不可信等因素导致的撤稿记录1584篇,占比36.78%;与可靠性要求相关的数据/图像重复、伪造和剽窃等导致的撤稿记录共1538篇,占比35.71%;有效性强调数据的效用,相关撤稿记录共1179篇,占比27.37%;数据完整性问题出现频率较低,相关撤稿记录仅6篇,占比0.14%。因此总体来看,基础生命科学领域撤稿论文的数据问题主要集中在准确性、可靠性和有效性三个方面。
此外,根据数据问题的产生是否具有主观故意统计的结果(见表3)。从表中可以发现,与数据/图像相关的2686篇被撤论文中,存在数据/图像的伪造、捏造、重复利用与剽窃等主观故意的论文1937条,占比45.97%;由于非主观故意的誊写、记录、分析、计算错误导致的撤稿记录2370条,占比55.03%。两者的比例大体上相当。
3 撤稿背后的数据管理问题归因
科研过程中的数据问题历来受到关注,纵观生命科学领域形形色色的撤稿事件,不难发现撤稿背后掩藏着形式多样、错综变幻的数据管理问题,其中数据不完整、数据误用等非主观因素导致的撤稿,反映了数据管理实施的薄弱,而数据捏造、数据篡改等数据造假行为实质上是学术不端行为的升级变种。特别是网络信息技术的发展,如图片编辑软件的出现,客观上也为数据/图片修改合成等不当数据行为提供了便利,有必要从问题归因角度找出症结根源,以便对症下药,制定针对性改进举措。
3.1 数据管理意识与数据管理能力不足
在数字化时代,自由而负责任的生命科学研究需要研究人员及相关主体拥有敏锐的数据意识和较高的数据开发利用能力,以保障人们公平获取生命科学数据、信息和其它研究资源。但在现实中,“对于大多数生物学家来说,公共数据的计算和统计分析(如跨多个研究的元分析)在技术上仍然具有挑战性。如对于缺乏生物信息学培训的生物学家来说,获得或匹配基因表达特征的能力在很大程度上仍遥不可及”[33]。美国的一项调查发现,很多人缺乏发现数据、识别数据集以进行恰当分析以及确定数据质量等技能[34]。许多撤稿事件当事人在撤稿声明中承认了数据加工处理能力不足、管理不规范的问题,可见,要真正降低撤稿事件的发生,需要生命科学数据管理文化以及数据技能培训的普及和提升。
3.2 数据管理制度不完善
“现代数据管理的目标不仅仅是简单地用电子笔记本取代实验室笔记本,而是要创建一个复杂的、内部一致的、可扩展的数据管理制度体系,该体系将不同个人在不同设备上进行的各种实验数据进行集成并提供利用”[35]。撤稿声明中提到的数据记录错误、实验描述偏差以及标准使用不一等问题,反映出深层次生命科学数据管理制度体系建设尚不能满足和适应生命科学研究发展的现实需要,还存在着一定程度的制度遗漏。集中表现在以下两方面:
(1)术语、格式等数据管理标准与规范的统一问题。生命科学标准体系复杂,仅术语标准就有多种形式,“从可控词表、术语表、分类词表、叙词表到本体,其形式化程度逐渐增强,功能逐步丰富,复杂度也大幅度提升[36]”,加之生物医学本体本身有较大的异质性,本体间术语的映射关系错综复杂,为用户标准术语的使用带来了困惑。同时,并非所有的数据类型都有规范的定义标准,需要重新注释大量现有数据。“即使在某些子领域(如系统生物学)具有标准化的数据表,选择标准格式来描述数据和元数据也不是那么容易,许多现有标准非常复杂,难以适应并且容易出现错误陈述”[37]。如果没有使用标准化的数据标识,可能会造成数据丢失或数据理解的误用,进而难以实现研究成果的再现与复用,直至论文撤稿。
(2)数据规范执行的操作性规则不健全,数据评估与检查监督制度缺位。论文的数据质量展现了生成它们的生命科学理论应用和实验条件以及处理数据的程序方法。鉴于生命科学研究过程中的数据管理涉及到实验设计、样本采集状态、实验方法、实验仪器、数据采集与加工、分析方法与存储公开等多个流程,每个流程又触及更多更为细致的数据环节,需要有健全完善的实施方案或数据规范来具体引导各类人员的数据行为。如面对数据环境的丰富性,“仅通过对数据进行匿名化或征得用户的同意使用数据就不能可靠地保护隐私[29]”,需要在数据采集、加工与发布共享的各个操作性层面制定相应的隐私安全保护条款。再如因实验注释不足而引发的撤稿论文,不仅要有严格的实验室数据管理规则,“而且还需要开发易于使用的实验注释工具,以实现更好的可重复性[38]。”
3.3 数据主体责任机制不健全
有效的数据管理源自各方主体的数据共识与履职约束,生命科学领域的数据管理制度的执行源于研究人员、资助机构、科研管理部门以及期刊等多主体的共同努力。尽管相关机构已经发布一系列数据管理制度,从项目申请的数据管理计划制定到各研究机构的《科学数据管理规定》乃至期刊的《数据提交规范》等,但不同主體在数据管理责任的实施中仍存在较大偏差,未形成多主体数据管理的协同合作机制。
(1)科研团队未能实现数据管理的团队合作。从实证比较中发现,生命科学撤稿论文绝大多数为团队合作成果,少数涉及两个作者,多数为三到六位合作者[10]。“发表文章的作者数量反映了生物医学研究的复杂性,需要多专业知识和合作机制来增加样本量和提高研究的普遍性[39]”,因而也增加了数据管理的协同性要求,即从实验设计到从实验材料中提取有价值数据、对数据进行分析、图片编辑和撰写论文的所有环节,由研究设计者、实验观察记录者、数据采集者、数据统计与分析人员、研究人员以及实验设备技术人员等不仅组成了一个紧密的合作研究网络,同时也承担着相应的数据记录、描述、采集与加工管理职责。但从实际执行来看,相较于团队科研攻关的一致性,数据管理职责分散、缺乏统一协调组织等现象尤为突出,导致个别人员的数据造假行为未能及时发现和制止。
(2)项目资助机构、高校/研究机构以及期刊等部门未能形成数据管理合力。目前,相关主体对数据行为的约束主要通过研究人员的主动报备来体现,如提交数据管理计划、隐私保护知情同意书、论文相关数据资料等,既存在着部门内部数据管理形式单一、手段粗放的问题,也存在着部门间数据管理的各自为政与职责推诿现象。如许多高校/研究机构依赖学术期刊评估研究成果及价值,进而将数据管理与学术诚信管理责任转让给了学术期刊,使得“期刊编辑在学术交流中居核心地位,在确保其出版记录诚信方面具有最重要的作用”[40]。事实上,“尽管生物学期刊已经开始要求作者提供数据,但通常是在审阅者专门要求提供数据时才这样做[24]”。对于期刊而言,发现和纠正投稿论文的图像/数据问题既费钱又费时,即便在出版前增加了图像筛选、数据审核环节,限于资源和人力仍无法独自履行数据管理的核验、评估职责。《生物化学杂志》(Journal of Biological Chemistry)自2017年起就聘请专职人员负责图像审核,而有关图像复制、剽窃或操纵引发的撤稿现象仍难以杜绝[41]。
3.4 数据管理过程监督不到位
负责任的数据管理需要有持续的数据检查与监督评估环节。Howe[42]指出,“在建立数据管理的正式流程方面,生物学(35%)处于较低水平”。对生命科学数据采集、汇聚、存储、加工等全生命周期管理与检查监督缺乏有效实施是导致撤稿论文数据问题的重要诱因。其中,项目首席科学家数据管理总体职责的落实问题不容忽视,如诺贝尔奖获得者Laureate David Baltimore因未跟踪检查其博士后实验数据的收集与分析而导致的多篇论文撤稿与学术诚信调查[43]。由于大多数生物医学实验主要由研究生、博士后或技术人员充当主体来完成,一旦首席科学家以及其他项目组成员间的数据/图像核验检查不到位,即数据管理的第一道防线缺失,论文写作中的数据/图像造假与误用就在所难免。因为,对于那些出现数据不当行为或产生可疑数据结果的人员而言,严谨的数据审计与过程监督既是必要的撤稿防范举措也是有益的数据素养与学术诚信教育。当然,实验数据生产加工过程与结果的公开透明也是数据管理参与和监督的有益补充,但 “由于工作流程(数据提取、选择、操作、分析和报告)通常没有公开,通常无法检查已发布结果的有效性[44]”,高质量数据管理的检查监督仍然十分薄弱。
3.5 数据管理激励约束手段不完善
撤稿论文中的数据问题促使人们重新思考如何完善数据管理的激励与约束。目前,期刊发表以及论文和数据发布后的引用已成为研究人员加强数据管理和共享数据的主要推动力。eLife的调查显示,人们不愿意公开数据的主要原因包括没有任何激励机制促使他们花费时间和精力分享数据,数据过于复杂而不知该如何分享,对数据质量、知识产权的担忧等[45]。可见,除学术发表外,总体上依然缺乏有效数据管理与数据贡献的衡量标准,包括对研究过程中数据管理的可持续资助不足,未能减轻相关人员数据管护的成本负担,客观上有可能导致数据管理的不作为。为此,美国国家科学基金会下属的科学研究学会在其数据管理工作坊活动中建议设立数据共享奖,以提高高质量数据存档和共享的知名度和认可度[46]。同时,除严重数据造假引发大规模撤稿和学术不端的惩处外,对于数据误用等问题并没有相应的数据管理责任追惩制度,包括撤稿声明的模棱两可,容易使人产生诊疗过失致死要追究责任,而数据造假没有责任成本的错觉。
4 启示与思考
“我们生成复杂、海量数据的能力已经超过了我们存储、管理和使用数据的能力[47]”。论文撤稿的数据问题不仅反映了当前生命科学数据管理的薄弱与不足,也揭示出学术诚信與数据管理二者之间紧密交织、互为促进的依存关系,促使我们从科学研究的本质与学术诚信管理的更广阔视角来理性看待和分析生命科学数据管理问题:即科学研究过程以及结果的数据公开与共享有助于防范各类数据问题引发的撤稿现象,有效的数据管理既是负责任的科学研究行为的应有之义,也是保障学术诚信的重要组成部分(见图3)。
当前,生命科学数据以前所未有的速度和数量产生和传播,迫切需要有健全完善的数据管理制度和规范统一的数据管理标准,还需将数据管理贯穿于生命科学数据生成、利用、存储等所有阶段,以挖掘数据背后的规律,加速推动生命科学研究的创新,并从数据管理的源头杜绝数据造假等学术不端行为和撤稿事件的发生。同时,对学术不端行为的审查,包括对撤稿论文的及时处理,一定程度上也是对生命科学数据管理结果的纠正和约束行为的补充,从而推动了良好数据共享生态的营造,有利于生命科学数据管理工作的开展。
2007 年,美国国家自然科学基金会发布的《面向21世纪科学研究的信息化基础设施》报告中指出“未来美国科学和工程上的国际领先地位将越来越取决于在数字化科学数据开发利用方面的优势,取决于通过成熟的数据挖掘、集成、分析和可视化工具将其转换为信息和知识的能力”[48]。包括生命科学数据在内的科学数据管理已经受到国内外各界的高度重视,撤稿论文中的数据问题表明,生命科学数据管理的有效实施还需要从系统性角度,如相关主体数据责任的履职监督、学术诚信管理制度、数据共享激励约束机制等深入寻找解决问题的答案与对策。
近几年来,我国生命科学领域论文撤稿情况屡见不鲜,2018年,国家卫健委制定了《医学期刊编辑出版伦理规范》,提倡期刊建立规范的伦理政策和学术不端行为处理流程,包括规范的撤稿机制。总体而言,加强研究人员的数据素养培训,强化学术诚信教育,完善数据管理标准和制度,“建设符合我国科研人员和数据管理人员数据管理流程和数据建设环境,是提升生物医学领域数据质量的重要前提和支撑条件[54]”,也是根除学术不端、规避撤稿事件发生的可行要素。
参考文献:
[1] 魏眾,蒋颖.中国人文社会科学学术期刊撤稿问题研究[J].澳门理工学报,2020(4):122-133.
[2] Steen R G,Casadevall A,Fang F C.Why Has the Number of Scientific Retractions Increased?[J].PLoS ONE,2013,8(7):e68397.
[3] 哈佛大牛被疯狂撤稿31篇,心肌干细胞领域要凉?[EB/OL].[2020-05-01].http://iras.lib.whu.edu.cn:8080/rwt/401/https/P75YPLC/sohu.com/a/260243674_100293365.
[4] Fang F C,Steen R G,Casadevall A.Misconduct accounts for the majority of retracted scientific publications[J].Proc Natl Acad Sci USA,2012,109(42):17028-17033.
[5] Findings and Consequences of Research Misconduct[EB/OL].[2021-05-31].https://ori.hhs.gov/education/products/RIandImages/misconduct_cases/findings_of_misconduct.pdf.
[6] 韩磊.2010-2019年中国生物医学论文的撤稿趋势及学术不端演变特征[J].中国科技期刊研究,2021,32(2):158-165.
[7] Elisabeth,M,Bik,et al.The Prevalence of Inappropriate Image Duplication in Biomedical Research Publications[J/OL].[2021-05-31].https://mbio.asm.org/content/7/3/e00809-16.
[8] Rossner M,Hill E E.Show me the data[J].The Journal of Cell Biology,2007,179(6):1091-1092.
[9] Fecher B,Friesike,S,Hebing M.What drives academic data sharing?[J/OL].[2021-05-31].https://pubmed.ncbi.nlm.nih.gov/25714752/.
[10] IsabelCampos-Varela,AlbertoRuano-Ravi?觡a.Misconduct as the main cause for retraction.A descriptive study of retracted publications and their authors[J].Gaceta Sanitaria,2019,33(4):356-360.
[11] Tijdink J K,Smulders Y M,Vergouwen A,et al.The assessment of publication pressure in medical science;validity and reliability of a Publication Pressure Questionnaire(PPQ)[J].Quality of Life Research,2014,23(7):2055-2062.
[12] Nair S,Yean C,Yoo J,et al.Reasons for article retraction in anesthesiology:a comprehensive analysisRaisons justifiant la rétractation d'un article en anesthésiologie: une analyse exhaustive[J].Canadian Journal of Anaesthesia,2019(67):57-63.
[13] Ioannidis JPA.Why most published research findings are false[J].PLoS Med,2005;2(8):e124.
[14] Borisas B,Ramona B,Benoit B,et al.Minimizing proteome redundancy in the UniProt Knowledgebase[EB/OL].[2021-05-31].https://academic.oup.com/database/article/doi/10.1093/database/baw139/2742069#.
[15] Casadevall A,Steen R G,Fang F C.Sources of error in the retracted scientific literature[J].Faseb Journal Official Publication of the Federation of American Societies for Experimental Biology,2014,28(9):3847.
[16] ChristianBerggren,Solmaz FilizKarabag.Scientific misconduct at an elite medical institute:The role of competing institutional logics and fragmented control[J].Research Policy,2019,48(2):428-443.
[17] Arturo,Casadevall,Lee,et al.A Framework for Improving the Quality of Research in the Biological Sciences[J].mBio,2016,7(4):e01256-16.
[18] 姜天华,陈静,耿波,等.数据库中关于撤销论文处理的实证分析——PubMed数据库与国内数据库的对比[J].中国科技期刊研究,2014,25(5):616-619.
[19] 张维,吴培红,汪勤俭,等.国内外生物医学期刊撤稿规范分析及应对学术不端行为的防范策略[J].编辑学报,2020,32(3):251-256.
[20] 叶青,林汉枫,张月红.图片中学术不端的类型与防范措施[J].编辑学报,2019,31(1):45-50.
[21] An investigation of seven other publications by the first author of a retracted paper due to doubts about data integrity[J].European Journal of Obstetrics & Gynecology and Reproductive Biology,2021,261(6):236-241.
[22] 李侗桐,馮秋蕾,韩鸿宾.科技论文伪造数据的识别与防范[J].中国科技期刊研究,2019(8):827-831.
[23] Karp P D.How much does curation cost?[J].Database the Journal of Biological Databases & Curation,2016(110):1-2.
[24] Renaut S,AE Budden,Gravel D,et al.Management,Archiving,and Sharing for Biologists and the Role of Research Institutions in the Technology-Oriented Age[J].BioScience,2018,68(6):400-411.
[25] BLAUSTEIN,RICHARD.Reproducibility Undergoes Scrutiny[J].Bioscience,2014,64(4):368.
[26] Latour B,Woolgar S.Laboratory Life: The Construction of Scientific Facts[J].Medical History,1986,25(3):341-342.
[27] Resnik David B,Smith Elise M,Chen Stefanie H.What is Recklessness in Scientific Research The Frank Sauer Case[J].ACCOUNTABILITY IN RESEARCH-POLICIES AND QUALITY ASSURANCE2017(24):497-502.
[28] Tijdink J K,Verbeke R,Smulders Y M.Publication pressure and scientific misconduct in medical scientists[J].J Empir Res Hum Res Ethics,2014,9(5):64-71.
[29] Gundersen L C.SCIENTIFIC INTEGRITY AND ETHICAL CONSIDERATIONS FOR THE RESEARCH DATA LIFE CYCLE[M].John Wiley & Sons,Inc,2017.
[30] R Dal-Ré,Ayuso C.Reasons for and time to retraction of genetics articles published between 1970 and 2018[J].Journal of Medical Genetics,2019,56(11):734-740.
[31] M D Ribeiro,Vasconcelos S.Correction to:Retractions covered by Retraction Watch in the 2013-2015period:prevalence for the most productive countries[J].Scientometrics,2018(114):719-734.
[32] Retraction Watch Database User Guide Appendix B:Reasons[EB/OL].[2021-04-23].https://retractionwatch.com/retraction-watch-database-user-guide/retraction-watch-database-user-guide-appendix-b-reasons/.
[33] Sparks R,Lau W W,Tsang J S.Expanding the Immunology Toolbox:Embracing Public-Data Reuse and Crowdsourcing[J].Immunity,2016,45(6):1191-1204.
[34] Curty R G,Crowston K,Specht A,et al.Attitudes and norms affecting scientists' data reuse[J].PLOS ONE,2017,12(12):e0189288.
[35] Matthew,D,Zimmerman,et al.Data Management in the Modern Structural Biology and Biomedical Research Environment[J].Structural Genomics and Drug Discovery,2014(1140):1-25.
[36] 朱彥,贾李蓉,高博,等.中医临床术语系统v2.0设计与构建[J].中国中医药图书情报杂志,2018,42(3):10-15.
[37] Figueiredo S.Data Sharing: Convert Challenges into Opportunities[J].Frontiers in Public Health,2017,5(4):327.
[38] Rung J,Brazma A.Reuse of public genome-wide gene expression data[J].Nature Reviews Genetics,2013,14(2):89-99.
[39] Christopher King.Multiauthor Papers:Onward and Upward[J/OL].[2021-05-31].https://archive.annual-report.thomsonreuters.com/2012/_files/pdf/MultiauthorPapers_ChrisKing.pdf.
[40] Marusic A,Katavic V,Marusic M.Role of editors and journals in detecting and preventing scientific misconduct: Strengths,weaknesses,opportunities,and threats[J].Medicine and law,2007,26(3):545-566.
[41] McCook A.Job alert:biology society hiring editors to screen images[EB/OL].[2021-05-31].http://retractionwatch.com/2017/04/21/job-alert-biology-society-hiring-editors-screen-images/.
[42] Howe N,Giles E,Newbury-Birch D,et al.Systematic review of participants' attitudes towards data sharing:a thematic synthesis[J].Journal of Health Services Research & Policy,2018,23(2):123-133.
[43] D E Chubin,E J Hackett.Peerless Science[M].State University of New York Press,Albany,NY,1990:267.
[44] Malika I,Winney I S,Anna K,et al.Striving for transparent and credible research:practical guidelines for behavioral ecologists[J].Behavioral Ecology,2017,28(2):348-354.
[45] Understanding the demand for reproducible research articles[EB/OL].[2021-05-31].https://elifesciences.org/inside-elife/e832444e/innovation-unde rstanding-the-demand-for-reproducible-researcharticles.
[46] Jane Maienschein,John N Parker,Manfred Laubichler and Edward J.Hackett[J].Data Management and Data Sharing in Science and Technology Studies.Science,Technology,& Human Values,2019,44(1):143-160.
[47] Coates H.Ensuring research integrity:The role of data management in current crises[J].College & Research Libraries News,2014,75(11):598-601.
[48] Cyberinfrastructure vision for 21st century discovery[EB/OL].[2021-05-31].https://www.nsf.gov/pubs/2007/nsf0728/nsf0728.pdf,2007.
[49] 楊啸林,杨晟,潘虹洁,等.FAIR准则与生物医学数据标准应用服务[J].中国医学伦理学,2020,33(2):153-159.
作者简介:管茜,女,武汉大学信息管理学院硕士研究生;董克,男,武汉大学信息管理学院副教授,研究方向:文献计量与科学评价;夏义堃,女,武汉大学信息资源研究中心教授,研究方向:政府数据治理。