王 霞,蒋 伟,曾桂芳,王维朗,季淑娟
(1.北京科技大学期刊中心,北京 100083;2.《北京大学学报(医学版)》编辑部,北京 100191;3.重庆大学期刊社,重庆 400044)
2021年8月由中国科学技术协会举办的“第四届科技期刊论坛”以“推动开放科学 共享·共赢·可持续”为主题,拉开了在我国大力发展一流国际期刊背景下对开放科学的深度思考与探讨。预印本服务作为开放科学的一部分得到了学者们的关注。2000年,朱天慧[1]、张志洁[2]、许淳熙[3]都对预印本的发展及引用等进行了思考与探讨。随着“中国预印本服务系统”的成立[4],更多的图情研究人员加入到对预印本研究的行列[5-7]。周阳[8]通过调查国内外的预印本在运营管理方式、资金支持、数据内容、存储政策等给出建议。王智琦等[9]重点从活跃国家和机构、作者学术年龄、预印本影响力及作者选择偏好4个维度对arXiv和non-arXiv论文进行了对比分析。从期刊的角度,付江阳等[10]以同行评议为切入点对预印本服务平台进行了研究。预印本服务平台在国外已经发展的比较成熟,Bouton等[11]从天文学图书管理角度介绍从 20世纪70年代至90年代这20年预印本的起源及发展,思考电子时代下预印本的问题;Eysenbach[12]探讨了在生物医学领域预印本和电子文献的影响。预印本是开放科学重要的一环,其高效的传播交流速度得到了学者的肯定[13]。在全球开放共享的大趋势下,期刊的开放存取在国内期刊业已经受到一定的重视,但基本局限于英文科技期刊,最主要的原因在于国内还未有知名的相关平台。预印本作为期刊开放的模式之一在国内期刊界和科研人员中受到的关注度普遍不高,更有甚者即使文章对预印本的文献进行了引用却对“预印本”一无所知。预印本作为可以快速交流研究进展的渠道,即可以高效推广分享科研成果,又可以极大地保障科研成果归属权。几乎每次科学理论或者科研技术的重大进展都是由无数小的进步促成。因此及时、快速而又平等的将科研进展进行交流和分享对科技进步起着巨大的作用;另外,为应对全球开放共享的大趋势,应加快我国开放成熟度,预印本服务是其中重要的一环。本文首先对国内外8个预印本平台的体量、学科范围、服务内容等进行整理分析,通过学科范围的分析给科研人员及出版从业人员第一时间掌握优秀稿件提供参考,通过国内外预印本服务平台的比较,发现国内预印本服务平台的差距,思考探析预印本服务平台的发展之路。
预印本定义:所谓的“预印本”一般指科研工作者的研究成果还未在正式出版物上发表,而出于交流或征询意见的目的自愿先在同行中传播的手稿。最早是物理学家、天文学家们通过信件往来沟通,对手稿提出意见,后来被越来越多的学科采用,主要用于科研团体之间进行学术交流。
预印本特点:预印本最大特点是高效和开放。预印本保证了学术成果的快速交流和传播,摒弃了传统期刊审稿的复杂过程,预印本可以在数天内完成上线,可以将最新的学术成果以最快的方式进行发布和传播,保证了科研成果的首发优势。另外预印本是开放获取的模式,对全球的科研人员都是免费开放的,可以促进科研成果的共享。
预印本平台的发展大体可分为两个阶段:
第一个阶段,是20世纪90年代至21世纪初。1991年创建了arXiv;1994年成立了SSRN;美国能源部建立了电子预印本档案搜索引擎“PrePRINT Network”,通过该搜索引擎可以查到物理、化学、数学、材料科学、生物、环境科学,以及与能源部其他研究有关的领域的电子预印本档案和数据库[14];Vitek Tracz于2002年创立F1000的雏形Faculty of 1000。国内,2003年教育部科技发展中心主办中国科技论文在线(CSPO)[15];2004年中国科学技术信息研究所与中国科技图书文献中心联合创建“中国预印本服务系统”。
第二个阶段,是2010年至今,这10年是预印本平台发展的繁荣期,原有的服务平台继续发展壮大,并不断创新:ArXiv宣布斥资300万美元推动平台化建设[16],SSRN被爱思唯尔收购,学科范围扩大,于2018年正式与《柳叶刀》进行合作;同时这期间也成立了不少新的有重大影响的预印本服务平台,例如BioRxiv(MedRxiv)、ChemRxiv、ChinaXiv等,预印本平台进入了大繁荣时期。
arXiv由物理学家Ginsparg于1991年创建,运营由arXiv领导团队和康奈尔大学的arXiv员工维护。目前收录8个学科领域近200万篇学术文章,学科领域见图1。
图1 arXiv收录学科领域
arXiv 2020的总体情况及每月稿件提交量如图2~图3所示。由图可知2020年总的稿件提交量为180万篇,截至2021年8月8日总的稿件提交量已超过190万篇,下载量约为11亿篇。而且在2020年全球疫情期间每月平均稿件提交量为1.6万篇,2020年单月最高提交量为1.7万篇。
图2 arXiv 2020的总体数据情况[17]
图3 arXiv月度稿件提交量[18]
BioRxiv创建于2013年,用于生命科学领域未发表的预印本。它由非盈利研究和教育机构冷泉港实验室运营。所有稿件都经过了基本筛查,文稿在提交的同时可以给期刊投稿,但是如果已经被期刊接收发表,则不能发布。文稿发布后被期刊接收之前可以自由修改,但是不允许删除。
BioRxiv接受涵盖生命科学研究各个方面的文章的预印本。物理科学、数学或社会科学方面的文章只有在与生命科学有直接关系的情况下才能发表在生命科学上。MedRxiv是BioRxiv为临床医学稿件提交而成立的预印本平台。截至2021年9月4日共接受13万多篇文章。BioRxiv每年的收录量见表1。从表1可以看出,BioRxiv的发展非常迅速,尤其在前期以大于2的指数成倍增长。
表1 BioRxiv的年度收录
SSRN成立于1994年,最初专注于社会科学,现已发展成为同类服务中跨学科最多的服务,代表了整个研究领域的学科,包括应用科学、健康科学、人文科学、生命科学、物理科学和社会科学6大领域。2016年7月,SSRN被爱思唯尔公司收购[19]。SSRN根据下载和引用提供排名,设置了“热点文章”和“顶级作者” “顶级机构”。
SSRN为访问传统研究文章之外的各种内容类型提供了空间,包括灰色文献、书评、多媒体文件和数据集。SSRN的电子图书馆提供来自60多个学科的503 172名研究人员的950 733篇研究论文,SSRN数据2021-08-12数据统计如图4所示。
图4 SSRN 电子图书馆统计
由传奇企业家和出版创新者Vitek Tracz于2002年创立,最初命名为Faculty of 1000,这是供 1 000名生物医学研究人员小组作为参考,在这里他们的建议被用来确定值得注意的论文。F1000培养创新文化,以加速知识的传播,并将其交到那些可以塑造未来的人的手中。F1000的董事总经理Rebecca Lawrence在2021年7月29日北京召开的“第四届科技期刊论坛”中强调F1000的理念是精英文化。F1000提供三项独特的服务:Faculty Opinions、Sciwheel以及F1000Research。F1000Research是2012年成立的一个涵盖所有生命科学领域的全球开放获取平台。在获得编辑部基本的科学性以及完整性审核后,未经审稿人审稿的论文会立即被刊发在网站上。随后,来自受邀审稿人的评议意见也会与论文列在一起公开发布(包括评审专家的姓名以及评议报告)。作者可以上传文章的新版本,以回应审稿者的评议。一旦通过了同行评议,论文就会被编入PubMed、Scopus和其他数据库的索引。每篇文章背后的数据也会被发布,并且可以自由下载,以便于审稿者和其他研究人员进行分析。F1000Research刊发各种形式的文章,既包括传统的科研文章、综述、单项发现、案例报告、观察、实验指南、也包括了一些其他科学出版商不可能发表的科研重复、无效结果或者阴性结果,F1000Research文章分为如图5所示的6类。可以看出文章主要集中在自然科学和医疗健康科学。2015年F1000Research发表了它的第1 000篇文章,截至2021年9月4日总文章数为4 407篇。今年F1000在中国签署首笔平台交易,打造全球首个致力于数字孪生技术和协作机器人的开放式出版平台。
图5 F1000Research文章所属的6类及每类收录文章数量比例
ChemRxiv是2016年上线,由世界5大化学学会:美国化学学会(ACS)、中国化学会(CCS)、日本化学会(CSJ)、德国化学会 (GDCh)和皇家化学学会(RSC)共同拥有和管理,是一个免费的提交、分发和存档服务,ChemRxiv为化学科学相关广泛领域的研究人员提供了在正式同行评审和发表之前与同事分享早期结果并获得改进建议的机会。用于化学和相关领域未发表的预印本的发布。ChemRxiv在发表之前也会对稿件进行基本筛查。可被分为以下几类:农业和食品化学;分析化学;生物和药物化学;催化;化学教育;化学工程和工业化学;地球、空间和环境化学;能量;无机化学;材料科学;纳米科学;有机化学;有机金属化学;物理化学;高分子科学;理论和计算化学。
截至2021年9月5日共收录文章9 805篇,其中近3年收录9 295篇,占94.8%。在所有16大类中,收录文章超过2 000的有3类,分别是理论和计算化学(2 796)、有机化学(2 055)、物理化学(2 054)。
CSPO即中国科技论文在线建立于2003年,由中华人民共和国教育部主管,教育部科技发展中心主办,首发论文10万余篇,总浏览量6 000万次,总下载量5 000万次,包括8大领域:数理科学;地球资源与环境;生命科学;医药健康;化学化工与材料;工程与技术;信息科学领域;经济管理。从2003—2021年每年的首发论文量如图6所示。从图6可以看出2009年首发的论文达到峰值,当年收录文章量达到11 130篇,随后未再出现更高的论文量,尤其从2018年开始年均收录量均不到2 000篇。
图6 从2003—2021年CSPO年度的论文量
中国预印本服务系统成立于 2004年[1],是中国早期的三大预印本服务系统之一[9],由中国科学技术信息研究所与国家科技图书文献中心联合建设的以提供预印本文献资源服务为主要目的实时学术交流系统,是国家科学技术部科技条件基础平台面上项目的研究成果。中国预印本服务系统存取免费,只接受学术性文章,文章一旦被传统期刊收录,可以进行状态修改和标注。文章按学科分为5大类,大类下细分二级子类。5个大类及论文收录情况见表2,统计时间2021年9月7日。从表中可以看出中国预印本服务系统主要接受的是自然科学类文章,占比为86.70%,其次为工程与技术科学,占比6.76%。接受的文章体量为1.89万篇。
表2 中国预印本服务系统学科分类及收录文章数量
2016年,中国科学院启动“中国科学院科技论文预发布平台(ChinaXiv)”项目,由中国科学院传播局组织实施,中国科学院发展规划局提出具体指导,中国科学院文献情报中心承担建设[20]。截至2021年9月5日该平台的总文量已超过1.5万篇。ChinaXiv合作共建预印本子库:中国心理学预印本平台PsyChinaXiv;中国生物工程预印本出版平台ChinaXiv;岩土力学预印本平台;中国语音乐律预印本平台;中国图情档预印本平台(试用);贵州省学术预印本平台(试用)。ChinaXiv平台将论文分为30多类,其中收录文章最多的是生物学,已收4 453篇文章,其次为物理学(1 947),计算机科学(1 432),医学、药学(1 152)。
对8家预印本平台创建时间、体量、提供的服务及学科范围进行比较,如表3所示。
表3 8家预印本平均比较分析
arXiv平台创建时间最早,是预印本服务平台的里最成熟也是最有影响力的,随后的预印本平台建设基本是以此为参考的,从体量来看 arXiv更是以 180万篇的绝对优势稳居龙头,SSRN以80万+占据第2,SSRN与其他平台不同的是对文章进行了类期刊的划分,根据下载引用设置影响力指数。BioXiv建立之初就是要做生命科学领域的arXiv,现已收录约13万篇的文章。中国科技论文在线(CSPO)已有10万篇的论文,是中国预印本平台运行较早也是发展较好的平台。而中国预印本服务系统虽然创建的时间也较早,但是总体量不到 2万篇。ChemRxiv和ChinaXiv建立时间相同,5年多时间里,论文总量为1万篇左右,而以精英文化为原则的F1000体量最小,不到5 000篇。
本文比较的8个预印本平台,BioXiv和ChemRxiv分别是生命科学和化学领域的预印本平台,具有明显的专业特色。arXiv从最初的物理学领域扩展至8大领域,但是从收录资源来看超过半数的资源还是集中在物理学科,如表 4所示,然后是数学和计算机学科,分别占总量的54.69%、20.69%和16.39%。F1000reserch则集中于医疗与健康和自然科学学科,如图5所示。SSRN则是以社会科学为主。中国的3家预印本平台中中国预印本服务系统是包含社会科学,CSPO和ChinaXiv也主要是自热科学的综合性服务平台。从学科来看,可以将预印本服务平台分为 3类:第一类是包含自然科学和社会科学的大综合性平台,第二类是自然科学的大综合平台,第三类是专业平台。
表4 arXiv学科资源分布
预印本的雏形可以追溯到17世纪科学家们以通信的方式进行研究进展分享,其目的在于交流和意见征求,它突破了传统期刊的束缚,为科学家第一时间分享研究成果提供了便利。随着时间的推移,科技的发展,专业的预印本平台应运而生。预印本最为诟病的也恰恰是因为不经同行评议,担心其学术质量甚至科研诚信无法得到有效保障。预印本主要作用是提高学术成果的传播速度,引发学术交流与争鸣,并对学术成果的归属起保障作用,其前提是科研诚信。为了进一步促进学术交流,部分预印本平台采取了公开的同行评议,并就评议内容作者进行公开回复方式,加强了学术讨论与争鸣。科学的一个重要特征是可证伪性,因此科学应该允许百家争鸣,允许不同观点、不同理念的存在,现阶段正确的或者主流的观点可能在不久的将来会被证伪,相反现阶段不被认可的、非主流的观点不久之后可能被证明是正确的。因此传播科学并不等同于传播主流观点,否则地心说将会一直统治人类,作为义务教育阶段的主要内容——经典物理学将会因为相对论的提出而被彻底推翻。证伪的过程也是科学进步的过程,预印本恰恰提供给学者一个学术研究成果快速传播、极度共享、平等交流和学术争鸣的平台。而对于学术不端,科研诚信问题应该从制度机制等方面采取必要的措施。中国社会科学报报道称:美国《公共科学图书馆·生物学》2022年2月1日刊发的两篇文章《追踪疫情期间预印本与期刊发表之间的变化》和《预印本与出版物之间的语言变化评估》,对预印本内的文章和最终发表的版本进行比较,发现均未有本质的区别,变动大多为版式、格式及补充材料等,因此研究人员表示这为包括疫情期间所产出的科研成果在内的预印本的可靠性提供了证据支持,同时对因同行评议而投入的大量资金和时间产生了质疑。相反,近几年传统期刊却屡屡发生已刊发文章因学术不端,同行评议违规等行为而大规模撤稿事件。因此对于预印本不能因噎废食,在全球科学共享的驱使下,应加大我国预印本平台的发展。由上文分析可知我国的预印本平台还未形成自己的品牌。在开放科学发展的大趋势下提升我国预印本的发展主要从以下几点进行着手:
加大预印本平台服务的宣传与培训。如同将论文写在祖国大地上一样,开放科学环境下,将新结果新结论首发到国内的预印本平台应该给出官方的引导与倡导。在期刊引用中预印本的占比越来越大,因此在建设一流国际期刊的同时不能忽略预印本服务的发展,同时因其具有极快的传播速度,学术科研成果在第一时间得到展示,是抢占科研成果首发权的一个极佳措施。
着手打造预印本平台的影响力。打造专业领域内影响力极高的预印本服务平台。国内预印本的发展意识并不非常落后,CSPO和中国预印本服务平台成立于21世纪初,虽然比世界早期的预印本平台晚了十几年,但是也保持了对预印本服务发展的警觉性。2016成立的ChinaXiv是在第二次的发展浪潮中建立起来的。但是纵观这3大平台,均属于综合性平台,并未树立起某一专业领域内的品牌效应。因此需要打造具有arXiv特质的品牌服务平台。
与期刊进行对接。同行评议为期刊提供了质量保证,但是同时也减弱了科研成果传播时效,而且稿件遭遇退稿,作者需将稿件转投不同的期刊,从而造成同一篇稿件反复进行送审工作,如果预印本平台能打通期刊之间的壁垒将会加速稿件的处理,节约时间、资金和人力成本。此外期刊的发展离不开优质的稿源,在预印本平台中优先发掘优质稿件进行租约有可能是提升稿源质量的一个有效方式。此方向将会是笔者下一步的研究方向。
2021年UNESCO第41届会议通过了《开放科学建议书》,标志着开放科学迈入全球共识的新阶段。2022年9月中国科学院文献情报中心发布“关于促进预印本交流的原则性意见”,“意见”“积极鼓励中心主办的学术期刊参与ChinaXiv建设”“支持高质量预印本论文作为阶段性研究成果纳入学术评价参考”是我国预印本平台为应对全球开放开学做出的积极响应。综合国内国际主要预印本平台的发展过程,文章范围和规模等,可以发现国内的预印本服务仅从体量上就与国际存在量级的差距。在当前开放科学,开放办刊的大环境下,在国家对学术期刊发展的大力推动下,如何更好地发展预印本平台以助力一流期刊、一流刊群的发展,需要进一步思考与探索。
展望:通过政策及各方面的共同努力,打造初自己的预印本平台。在中国 SCI发文量跃居第一的背景下,国人的科研成果应优先在国内的预印本平台发布,使得中国的科研成果可以快速的发布和共享。另外对于急于寻找优质稿源以提高期刊影响力的出版从业人员,从预印本平台寻找优质稿源是租约稿件的又一重要途径。对于数量庞大的中文期刊来说,这一途径的实施依赖于中国预印本平台的发展。而具有梯队结构的刊群可以尝试发展自己的预印本平台,既能以快速的传播科研成果以吸引高水平的稿件,也可以刊群内资源共享节约成本,缩短出版流程。