杨明芳 袁曦临
预印本是指科研工作者的研究成果还未在正式出版物上发表,而出于和同行交流目的自愿先在学术会议上或通过互联网发布的科研论文、科技报告等文章[1],以满足学校交流需求。预印本(Preprint)包括“无同行评议发表”“提前获取”“开放获取”和“作者自存档”科研论文、科技报告等文章,可实现出版的“零等待”和“即时出版”。作为一种新的学术交流和学术出版模式,预印本能够确认首发权,且其透明、多元的评审机制,不仅为数字网络时代的研究者提供了更为广泛的发表研究成果的空间,而且能够显著缩短学术成果共享的时间,加快学术创新成果的交流传播速度,提升学术交流的广度。
2014年5月15日,中国科学院、国家自然科学基金委员会联合发布《关于实施开放获取政策的声明》, 此后OA出版论文越来越成为主流的出版模式。2020年OA出版数量首次超过传统订阅出版。学术出版和科学传播进入“后期刊时代”,ORCID、DOI和出版发布平台成为新学术出版范式的“三元素”,拥有新一代学术出版和服务技术的数字平台取代传统期刊成为科学传播的主渠道[2]。
预印本和OA出版对于学术交流和学术出版具有深远影响,无论是出版者、出版地、学科范围、同行评审标准、商业模式、APC价格、影响因子、作者来源、出版周期、创办停办时间等基本信息都和传统的期刊不同,传播渠道也日趋多样。一些出版商已经开始将预印本平台纳入自己的出版体系,实现“预印本+期刊”一体化出版。目前尽管对预印本已经受到了社会各界普遍的关注,但对预印本的出版和交流模式的认识仍不够深入,就现状而言,对于在开放学术交流环境下的预印本论文的文献特征与规律,以及其对学术文献资源管理等方面的影响研究还比较欠缺,有待深入探讨。
COVID-19爆发后,出于学术交流快捷的需要,全球的医务和科研工作者全力以赴应对,一些科学家在预印本平台不断推出创新性、最具时效性的研究成果,其发文量增长迅猛。大量的COVID-19论文发布在了预印本上,引起了国际学术界和学术期刊界的广泛关注,其中MedRxiv和BioRxiv预印本平台是国际上公认的生物医学领域最重要的两个预印本平台,其开放性和重要性在国际学术界得到高度认可。由此,本文以MedRxiv和BioRxiv电子预印本平台上收录的COVID-19专题论文为研究对象,具有数据的典型性、代表性及完整性,以此分析疫情期间生物医学电子预印本出版情况,可以增进对预印本文献特征和出版模式的认识。
预印本论文的发表异于传统学术期刊论文的出版,其出版实现了流通介质的数字化,交流渠道的网络化,运营形式的媒体化及出版流程的信息化,并产生了一些全新的概念和出版问题,而其中预印本论文的版本情况就是较为突出的一个问题。
在传统学术期刊的出版模式中,同一个研究成果是绝不能够重复发表在正式出版的期刊中的,论文重复发表被认为是学术失范。而在预印本平台上,论文的发表情况则有所不同。预印本论文可以有多个版本,甚至可以说,有多个版本是预印本论文的典型特征之一。第一次发布的预印本论文及其后续修改的版本具有相同的DOI号,预印本平台上显示的论文是同一个DOI号论文的最新版本,同时将同一个DOI号的历史版本链接在该最新版本论文页面的“Info/History”功能中。这说明预印本平台是将具有同一个doi号的论文认为是同一个成果,且最终只认可最后的更新版本论文,而历次修改的版本则作为研究过程作为历史记录予以保留和呈现。DOI号将同一作者不同修改版本的文章关联在一起,显示出不同版本修改标记,以方便读者阅读和鉴别。
预印本论文的另一个突出特征是相当数量的预印本论文最终在通过同行评议后获得学术期刊正式发表的机会,但仍不一定是最终版本,作者还可能进一步修改或完善,并仍可在预印本平台发表自己进一步修改更新后的版本。可见,预印本的版本会随着预印本交流和出版而不断变化,并由此产生了一系列新的概念。
预印本(Preprint,也称pre-print)与后印本(Postprint,也称post-print),其最主要的区别在于是否通过了同行评议的审核。预印本即作者提交在预印本平台上未经同行评议和出版发表之前的任何版本的论文,包括作者在撰写过程中不断完善修改的若干“修订本”;换言之,自存档时间先于期刊在线出版时间的版本均可被称为预印本;而提交给学术期刊的预印本,且经过同行评议后发表,就成为后印本。后印本出版后,再进行的修改更新的版本被称作勘误本(Corrigenda),等同于待论文正式发表后再补充勘误表。由此就出现了预印本“发表时滞”(Preprint Delay)的概念,即预印本从首次存档预印本平台到期刊网络在线发表的时间差,而更新间隔则是指预印本最新更新时间与期刊网络在线发表的时间差(Update Lag)[4]。
2013年11月,美国冷泉港实验室(Cold Spring Harbor Laboratory,CSHL)宣布启动一项生命科学领域的免费电子预印本服务BioRxiv。2019年6月,该实验室与耶鲁大学及世界顶级综合医学出版商BMJ出版集团共同创立了MedRxiv,收录医学、临床和相关健康科学的电子预印本,至此BioRxiv不再接收临床试验和流行病学主题类别的新提交的论文,科研人员需将这两种类别主题的预印本提交给MedRxiv[5]。
目前,MedRxiv和BioRxiv预印本平台已经成为生物医学领域最重要的两个预印本平台。Nicholas Fraser等[6]人以生物医学研究中正在发展的两个预印本服务器BioRxiv和MedRxiv为研究对象,研究了2020年1月1日至4月30日期间COVID-19预印本的属性、访问和使用率及跨平台共享的特点,研究结果突出了预印本服务器在COVID-19科学传播中的前所未有的作用,以及对科学出版前景可能产生的长期影响。程冰[7]等人对2020年1月至2月11日的301篇国内外COVID-19相关论文进行分析,中国学者发文贡献最大,专业文献主要以开放获取的形式发表在预印本文献平台和权威期刊上,其中约72%的预印本文献发布在MedRxiv和BioRxiv预印本平台上。
基于MedRxiv平台(https://www.medrxiv.org/,以下称MedRxiv平台) 于2020年7月23日至7月30日期间对“COVID-19 SARS-CoV-2 preprints from medRxiv and bioRxiv”专题组(以下简称COVID-19专题组)的2020年上半年数据(公布日期posted)进行了采集,采集到的COVID-19专题组数据包括MedRxiv和BioRxiv数据。需要说明的是,COVID-19专题组数据包含最早一篇文献首次公布日期为2019年9月25日,这篇文献发布时疫情尚未爆发,而该作者在2020年2月4日对首版论文修改并发布了第2版,故该论文被系统平台收录在COVID-19专题组中[5]。
由于MedRxiv平台不能直接获取所有COVID-19专题论文的发表状态等信息,故采取以下步骤进行采集处理,具体方法及步骤如下。
(1)利用MedRxiv平台提供的API(http://api.biorxiv.org/details/medrxiv/help)服务,分别下载了MedRxiv和BioRxiv预印本上2020年1月1日到2020年6月30日的所有数据,并下载了2019年9月25日最早的那篇文献,共31 548篇文献。MedRxiv平台的API服务提供的数据包括doi、title、authors、author_corresponding、author_corresponding_institution、date、version、type、license、category、abstract、published、server信息,数据比较完整。其中,published数据给出了正式发表的期刊分配的新的doi号,数据中有新doi号的文献即为已经正式发表的文献。
(2)利用MedRxiv平台提供的COVID-19专题组JSON格式下载功能,下载COVID-19专题组JSON格式数据并转换成excel,2020年7月30日采集到7087篇文献(包括5622篇MedRxiv,1465篇BioRxiv),COVID-19专题组的数据中整合了MedRxiv和BioRxiv平台上的新冠肺炎论文数据。数 据 包 括rel_title、rel_doi、rel_link、rel_abs、rel_num_authors、rel_authors、rel_date、rel_site信息。
(3)由于下载的31 548篇文献中的DOI数据就是COVID-19专题组7087篇文献中的rel_doi数据。在excel中根据此DOI号关联,比对以上2组数据,得到两组数据中的重合数据为7992篇文献。这7992篇文献即为本研究所需的包含了正式发表等完整信息的样本数据组,时间区间为2020年1月1日至2020年6月30日。
查看这7992篇文献的数据,发现与下载得到的COVID-19专题组7087篇文献并不一致。其一,数据时间范围不完全一致:7087篇文献是COVID-19专题组数据从2019年9月25日最早一篇文献至采集日2020年7月30日止的数据,而7992篇文献是从2019年9月25日最早一篇文献到2020年6月30日这半年的数据;其二,预印本上的论文未经同行评审,预印本上论文发布后,可以对论文进行多次修正,同一篇文献可以有重复记录。通过DOI号和version(版本)发现,7992篇文献中同一个DOI号有几条不同的记录,这些重复记录是作者修改后上传的不同修改版本记录,修改的版本是对同一研究论文的完善,这些修正的版本和第一次发布的论文具有相同的DOI号,即7992篇文献中存在同一篇文献(有相同的DOI号)有不同修改版本的重复记录。有重复修改版本的论文最终只认可一个研究成果,并最终在同行评议后获得正式发表。这类似于有相同ISBN号的图书就是同一本书,而有相同ISSN号的期刊就是同一种期刊。
因此,在这7992篇文献中,去除重复修改版本后得到5950篇文献,即从2019年9月25日最早一篇文献到2020年6月30日止,实际有5950篇文献发布在预印本COVID-19专题组中。
为了更好地对所采集的COVID-19专题组论文数据进行分析,本研究对王智琦等人绘制的预印本出版过程说明图[4]进行了修正,依据时间轴绘制出预印本出版与期刊出版过程中的版本说明,如图1所示。
图1 预印本发表与期刊发表的版本及时滞说明图
就图1中时间轴上部的预印本出版(Preprint publication)过程而言,需要重点关注的是三个阶段:预印本首次提交(Pre-print submission,v1);通过同行评议进程(Peer-review process),被期刊接受(accepted),成为后印本(Post-print);完成后印本最新更新(Post-print latest update)后,正式提交发表(Post-print submission)。而在这一过程中,后印本是一个关键节点,它是联结预印本出版和期刊出版的最为关键的环节,表明该预印本论文通过了同行评议,可以进入期刊出版(Journal publication)过程,实现论文的期刊在线发表(online Publish),并最终获得出版(print)。
基于上述预印本发表流程及采集到的COVID-19论文组数据,发现在所采集的预印本上关于新冠的论文中,有一部分已经被学术期刊评审通过后正式发表,成为后印本。在这些正式发表的后印本论文中,又有一部分被Web of Science 核心合集收录。
根据published字段筛选,在7992篇预印本文献中,已经正式发表的有735篇文献,成为后印本。而没通过评审的7257篇依然叫做预印本。仔细考察,可以发现在预印本论文中还存在着大量的修改版本,即修订本。由于预印本平台上的论文可以发布不同的版本,可以不断更新,因此如果从这7992篇预印本文献仅筛选了第一版本,并去除修订版本,实际则为5950篇文献。而在这735篇后印本中,如果去除同一个文献的多个修改版本,那么,仅有505篇文献正式发表成为期刊论文。
由于scopus数据库能便捷获取论文更新信息,数据库中论文若更新会在明显的地方提示更新信息,故本研究将这505篇文献期刊发表后的DOI号输入scopus中得到471篇文献(数据采集时间为2021年6月),数量基本接近505篇,发现更新版本的论文有20篇,这20篇文献在scopus中的更新提示的类型有Corrigendum、Correction、Erratum、Publisher Correction、Author Correction,说明这20篇即为勘误本。但在MedRxiv和BioRxiv预印本平台上,则未见对这20篇论文的预印本进行同步更新,说明MedRxiv和BioRxiv预印本平台未关注已经发表的后印本的后续更新。
将正式发表的505篇文献期刊发表后的DOI号输入到Web of Science 核心合集中,得到399篇文献(其中,ESCI文献13篇,此为2020年10月22日检索数据)。此399篇SCI论文无疑是高质量的关于新冠肺炎的论文,同时也是核心期刊论文。由此可见,预印本论文的出版过程是一个动态的发展过程,在此过程中,论文的版本形态在不断地调整,存在着一系列目前尚未被普遍关注且存在认识和理解差异的问题。基于本研究所采集的数据集合,可以将COVID-19专题组论文分成了预印本论文、后印本论文(期刊论文)、勘误本期刊论文-Web of Science 核心合集论文这四个分区,如表1所示。
表1 预印本COVID-19专题组论文的版本分布
(1)去除重复的修订版本后,Web of Science核心合集区论文非常接近正式发表的期刊论文区,Web of Science 核心合集区论文在后印本中占比79%,说明截止到本研究采集数据的时间,预印本上通过同行评议的COVID-19论文绝大部分正式发表在高质量的核心期刊上。随着时间的后续,可能会有更多的论文通过同行评议,被学术期刊接受。
(2)预印本区论文数量很大,而能正式发表的后印本文献数量较少,包含修订本中后印本占比预印本9.2%,而去除修订本后,后印本占比预印本8.5%,即截止到本研究采集数据的时间,预印本上有接近十分之一的论文能够被期刊正式发表。这表明预印本文献的总体质量良莠不齐,因此论文质量控制是一个不容忽视的问题,而同行评议在论文质量把关和正式学术出版中占据极为重要的位置。
(3)同一论文的修订版本数量占比较大,值得注意。发布在预印本平台上的文献中,有2042篇(7992篇减去5950篇)文献是反复修改发布的修订版本,修订本文献占预印本文献总数的25.6%。在正式发表的期刊论文中,即后印本论文区,有230篇(735篇减去505篇)是反复修改发布的版本文献,占正式发表期刊文献的31.3%。这说明预印本文献中有近三分之一的文献是几经修改后才得以正式发表在学术期刊上。当论文提交在预印本平台后,作者就可以接收到读者同行的评论反馈,进而不断修正自己的论文,修改包括科研数据的更新,结论的更正与完善,甚至论文标题也会有所调整,可以认为作者最后修正的论文是更成熟和完整的。这一现象充分揭示了学术研究是一个不断优化和完善的过程,而预印本提供了真实呈现这一过程的平台,一方面为相关领域研究者提供了围观和评价研究发展变化过程的可能,另一方面也提供了研究的真实性和可靠性的循证。
(4)勘误本是对被学术期刊接受发表的预印本文献的进一步修正和完善,勘误本在后印本中的占比接近4%。本研究的勘误本数据来源是通过scopus获得的,这一方面说明学术研究是一个严谨的过程,并不因论文已经正式发表而终结;另一方面也反映出一个现象,即目前的预印本平台MedRxiv和BioRxiv尚未对已正式发表的后印本的后续更新和勘误给予足够的关注。
学术交流供需链主要由四个部分构成,即产生和利用学术成果的科研人员;支持科学研究的资助者和科研机构;控制论文质量、加工、传播学术成果的出版商;获取、组织学术资源并开展服务的图书馆。当学术出版和交流环境发生改变,走向越来越开放之后,学术文献的整体生态发生了变化。研究表明,疫情显然加速了研究论文的出版和交流模式的发展,改变了学者们的交流合作的方式[8],而预印本更是加速了学术交流和出版的速度,缩短了学术传播时滞。经过反复修改后再投稿及预印本版本可多次更新的开放出版方式,在形成学术文献出现多版本等新特征的基础上,也对学术文献资源管理产生了新影响,出现了预印本论文版本的归档、预印本论文的引用分流、预印本论文的筛选与保存等问题。
如以上分析结果所示,半年的预印本新冠肺炎论文中有约占25.6%的重复修改版本,正式发表的期刊论文中有约31.3%的论文是重复修改版本后才发表。这说明预印本文献中有近三分之一的文献在发布后作者通过读者反馈不断修正论文,并最终正式发表在期刊上。这同Lin jialiang等人研究结果一致,其研究结果表明,在arXiv预印本平台上的计算机领域,大多数出版的预印本比未出版的预印本呈现出适当的修订、多作者、详细的摘要和介绍、广泛权威的参考文献和可用的源代码等共同特征[9]。由此可见,预印本这种开放出版方式有助于作者论文的正式出版。
传统出版模式下,正式出版的论文经同行评议和出版机构严格把关才得以出版发表,质量和内容相对可靠。就传统的论文出版而言,无论期刊的优劣级别,一旦出版了就是一次定稿,不可以修改。因此在传统期刊论文中,看不到作者在研究过程中的思想演进,因为发表论文只保留了作者最终的研究成果和结论。而预印本网络论文和传统的期刊发表不一样,发布在预印本平台上的论文,作者可以进行修改后多次发布,因此预印本论文往往具有几个修改版本。这些版本的论文都记录在预印本平台上。当浏览和检索预印本时,可以根据DOI号检索到最新版论文,在这个最新版论文页面的“Info/History”栏目中可以查看该论文的历史版本及全文。这些修改的版本论文具有和第一次发布论文同样的DOI号。
预印本论文这种开放出版发表方式,无疑是更具有灵活性,也更利于学术交流和知识传播。但由此产生的文献版本的更新迭代却增加了读者检索、阅读论文的甄别难度。面对未经同行评议的预印本论文,以及不确定的论文版本和不确定的最终研究结果,不仅要求阅读参考和引用该论文结论和成果的人具有更高的辨别力及更为慎重的态度,也对预印本论文的保存和管理提出了新的要求。由此也就产生了预印本论文的版本归档问题。20世纪80年代后伴随电子文件的日渐增多,对档案保存和管理提出了新的要求,文件连续体理论(Records Continuum)应运而生。澳大利亚档案学者弗兰克·阿普沃德认为,由于纸质文件从生成到处置的直线运动过程不再适用于电子文件,因此电子文件的生命周期可以理解为“往复运动于从生成到处置的连续体中的一个过程”,提出了对电子文件形成、保存和长久利用应实施一体化管理的理念[10]。电子文件连续体理论对于预印本论文的保存管理是具有指导意义的。具体而言,就是在对那些通过同行评议最终被期刊接受,正式成为期刊论文的学术成果的保存过程中,不能仅仅关注其最终的成果版本,还需要保存其预印本平台的历史修订版本。因为预印本平台不仅记载了科研过程不同的修改版本,同时记录了科研数据的演进过程,保存了研究者为完善研究所作出的研究思路的调整,而这些数据和记录正是科研档案的一部分,也是科研数据管理的内容范畴。
随着预印本学术交流形式日益被认可,对预印本的引用行为必然受到关注。通常论文的被引量是作为学术影响力评价的一个重要指标看待的。由于印本网络论文存在多个版本,不同时期看到的同一个DOI号论文的版本可能并不一样,论文内容会存在差异,有时候标题名称都会发生变化。有研究显示,2008年至2017年间提交arXiv的计算机科学领域的预印本中,66%以相同的标题正式出版发表,11%的预印本以不同的标题和其他修改版本正式出版发表[9]。不同时期检索和浏览的论文也可能产生变化,且由于论文标题可能出现变化,因此直接用标题检索或许都找不到当时的文献,只能用DOI号来进行确认和检索。DOI号检索后在预印本平台上显示出的是该文的最新版本,发布时间是该论文的版本标记,在该最新版本页面的“Info/History”栏目中可以链接到同一个DOI号的历史版本。如果有研究者引用该论文的特定版本,就需要标记出DOI号及版本,例如:需要引用biorxiv预印本文献DOI:10.1101/2019.12.11.123456 version 2,其引用格式为:https://www.biorxiv.org/content/ 10.1101/2019.12.11.123456v2[11]。在预印本论文未正式期刊发表前,研究者只能引用其预印本,因此预印本对正式发表的期刊论文版本被引量产生分流效应,导致该文期刊正式版本论文被引量减少[12]。此外,由于预印本论文存在不断更新,研究者引用预印本又存在引用不同版本情况,这又进一步增加了引用分流。因此在统计分析论文被引量时,就需要考虑以上多种引用的情况。这一变化,对于文献计量学的研究无疑会产生较大影响。
由以上结果得到,从文献数量来计算,预印本论文被正式发表的文献占发布总文献的8.5%(505篇/5950篇),被Web of Science 核心合集收录的核心论文占正式发表论文的79%(399篇/505篇)。最终被期刊正式发表的预印本论文和被Web of Science 核心合集收录的预印本论文在数量上很接近,这在一定程度上反映出一个现象,即预印本的不断修改和更新版本迭代,提高了论文的最终质量,使得经同行评审后发表的文章大部分都是较高水平的核心文献。ArXiv及BioRxiv等权威预印本平台受到出版商及期刊的普遍认同,这些出版商和期刊鼓励和允许作者将论文发布到这些预印本平台上[13]。Richard J Abdill等人[14]2019年的研究发现,在2017年之前发布的BioRxiv预印本中,有三分之二文献后来在同行评议期刊上发表。随着时间的推移,预印本平台上的新冠COVID-19专题组论文是否也能满足这个结论,将有待时间来验证。
随着科研活动向开放、共享、协同方面的深化,预印本平台正日益被学界认可,需要打通预印本平台与期刊开放出版的关联通道,通过预印本平台与期刊投审稿系统、出版系统的互联,实行优秀稿件向期刊出版的推送机制[15]。期刊编辑可利用预印本寻找优质稿源、缩短评审周期、尝试新型评审方式、探索开放获取模式、期刊平台网络化建设及尝试与预印本网站建立合作等举措[16]。而在出版环节,将知识工作自动化算法应用于预印本环境下,提出论文发表“预印本+自组织同行评议”新模式[17]。更令人激动的是,在开放出版的新生态下,Gowers于2016年创立基于预印本平台的新型期刊Discrete Analysis,该期刊是基于arXiv的虚拟化期刊,其组稿和出版流程是:作者先向arXiv投稿,同时通知期刊并将链接附上,期刊组织专家直接到arXiv评阅,决定录用后将论文以链接方式发布,读者直接通过链接跳转到arXiv平台阅读。期刊以每篇论文为单位进行发布,不按年、卷、期组稿,这种出版模式既避免了传统期刊的出版时滞,又融入传统期刊的同行评议,加强了质量控制,代表预印本和正式出版融合发展的新方向[13]。新型期刊Discrete Analysis的出现,预示着新的出版方式,这将倒逼图书馆的资源采购与保存做出适当的调整。
就本研究结果显示,MedRxiv和BioRxiv预印本作为权威的生物医药领域预印本平台,平台上通过同行评议正式发表的期刊论文绝大多数是被Web of Science 核心合集收录,说明MedRxiv和BioRxiv预印本平台已经成为期刊优质稿件来源,成为集论文发布、期刊评审、出版一体的开放式平台。事实上新型期刊Discrete Analysis模式中,期刊论文是存储在预印本平台上,读者通过链接可直接跳转到arXiv平台阅读论文。对于期刊论文的使用机构来说,不需要保存预印本论文,只需要将预印本论文链接整理,组织起来揭示即可,既节约了采购经费又节省了使用机构的存储空间。而图书馆则不仅要在用户中宣传开放出版,同时也需要为用户预印本投稿时提供作者投稿指引,投稿指引除了包含预印本投稿政策外,还需要提供各学科投稿期刊所在的预印本平台信息。
已有图书馆将预印本平台作为开放获取资源纳入馆藏建设和服务中[18]。未来将有更多图书馆可能根据馆藏需求和计划,在资源采购时选择不购买期刊数据库,而只要从这些权威的预印本上筛选已正式出版的论文,搜集论文在预印本上的链接和DOI号,组织整理后,以学科导航或建立知识库方式揭示。
开放学术交流和出版将日趋成为主流,而国内的作者普遍对开放出版认可度不高,图书馆作为信息和知识服务中心,肩负着知识传播的职责,培养用户使用开放出版的意识,并在用户使用开放学术交流和出版中提供帮助。鉴于目前图书馆资源建设存在资源经费不足、各种数据库采购价格上涨、纸本资源使用率较低等问题,图书馆应该与时俱进,同步采用新的知识交流与传播模式,从预印本资源的采集、组织及相关资源的采购方面展开工作,改善图书馆的资源配置,调整图书馆资源建设策略。同时,根据预印本的独有特征,图书馆为用户提供包括预印本在内的学术资源揭示、预印本论文发布及投稿指引、考虑引用分流及替代计量的学术评价等相应服务,提升图书馆的服务水平。