丁 晓 萍
(商丘师范学院 图书馆, 河南 商丘 476000)
近年来, 预印本文献越来越受到广大科研工作者的喜爱。预印本是指科研工作者的研究成果尚未正式在学术期刊上发表,而出于快速与同行交流的目的,自愿在互联网上发布的科研论文[1]。预印本系统是专门收集预印本的一种网络数据库,其内容由科研人员自愿上载,大都未经历同行评议程序,任何同行均可对系统内的论文进行评价[2]。预印本系统有着传播速度快、范围广、无出版时滞的时效性、避免审稿人偏见、有利于科学优先权的确立等特点。
arXiv是一个收录科学文献预印本的在线数据库系统,其网址为arxiv.org。数据库包括物理学、数学、非线性科学、计算机、定量生物学、定量金融学和统计学几大学科门类[3]。 arXiv最早由物理学家保罗·金斯巴格在1991年建立网站,本意在收集物理学论文预印本,随后也包含天文、数学等其他领域。保罗·金斯巴格因为这个网站获得了2002年的麦克阿瑟奖。arXiv最初挂在洛斯阿拉莫斯国家实验室,在早期被称为“LANL预印本数据库”。目前的arXiv落脚康奈尔大学,并在全球各地设有镜像点,1999年更名为arXiv.org。
arXiv是全球知名度最高、最成功的预印本数据库,上载arXiv的论文一般分为以下三种类型:第一类, 部分作者较为谨慎,在其论文被专业的学术期刊接收后,便将论文上载到arXiv; 第二类,有一部分作者论文完稿后,在投稿前或投稿的同时,即将论文上载到arXiv(这一类论文将会经历很多版本,因为作者会根据审稿人的意见修改论文,甚至论文被拒后还需改投其他学术期刊);第三类,少部分论文一直保持预印本形式,即不会以任何形式发表于学术期刊或会议文集, 其中也不乏有一些极具影响力的作品,如格里戈里·佩雷尔曼对庞加莱猜想的证明。
ArXiv之所以受到广大科研工作者的欢迎,主要有以下几个方面的原因:首先是及时性,一般专业学术期刊审稿时长约为2-4个月(与学科有关,数学有时长达半年甚至一年),接收后一般1-4个月见刊,所以arXiv上的论文将领先专业期刊1-8个月,这有利于科研人员及时掌握本领域的国际研究动向,以便及时调整其研究计划。其次是影响力,更早地将即将出版的论文公之于众,将有利于提高其研究工作的引用次数。其三是经济性,几乎所有专业学术期刊都需支付昂贵的订阅费用,一些科研单位由于预算等原因不可能订阅所有的学术期刊,arXiv则为他们提供了一个免费的学术交流平台,在这里既可以下载未订阅的数据库论文,也可以将自己的研究工作免费与他人共享。
arXiv的早期运营经费由康奈尔大学图书馆(每年资助其总运营经费的15%)和美国国家科学基金共同资助[4]。为了arXiv的稳定性和持续发展,康奈尔大学图书馆形成了一个多方筹措经费的机制。2010年起,康奈尔大学图书馆要求从arXiv获利的各会员单位(如学术机构、研究中心和政府图书馆)根据其近三年的平均下载量收取会员费(见表1)。这一机制的引入收到了良好的实效,2010年就收到来自11 个国家的123 家会员机构共计36万美元的会员费[5]。2016年,arXiv收到了超过200家会员机构共计53万美元的会员费, 加上康奈尔大学图书馆和Simons科学基金的资助,总运营经费达104.6万美元[6]。
表1 arXiv机构会员费列表
2018年1月,arXiv有11.35 FTE( Full Time Equivalent)工作人员,其中arXiv的预算直接资助10.9 FTE, 剩下的0.45 FTE由康奈尔大学图书馆提供,包括财力支持、技术战略指导、会员档案管理。arXiv有6名工作人员从事信息技术和相关工作,共计5.5 FTE。6名员工和流动的学生参与运营和管理工作,共计4.9 FTE。此外,arXiv还设置了一个科学总监,工作量为0.5 FTE[7]。
截止到2017年12月,arXiv共收录论文1342742 篇,平均每年上载论文111895篇, 其学科分布参见表2。数学、高能物理、凝聚态物理和天体物理4个学科论文数均超过20万篇,约占总论文数的70%。非线性科学、统计学、数量生物学和数量经济学4个为小众学科,论文数占比不到5%[8]。如果将高能物理、凝聚态物理、天体物理、物理、量子物理、广义相对论和量子宇宙学、原子能合并为大物理学科,将数学、非线性科学、统计学合并为大数学学科,则两大学科论文的比例分别为63.8%、24.9%。过去27年中,arXiv的主要贡献是大物理、大数学和计算机三大学科, 占比例为98.6%。大物理学科中也形成了高能物理、凝聚态物理和天体物理的三足鼎立局势, 它们的比例分别为15.9%、15.7%和15.3%,共占据大物理学科总论文数的73.5%。从1991年到2017 年arXiv收录论文中各个学科所占的比例看,物理学是发展最好最成熟的一个学科,这也与arXiv是从最初的物理学科发展起来的情况相符合。同时,也表明物理学科领域已经广泛接受开放获取这一较为先进理念。
表2 1991-2017年arXiv各学科论文数和比例
2017年,arXiv共上载论文123523篇,平均每月上载10293篇, 其学科分布参见表3[8]。与过去27年的平均比例相比,计算机学科占比由9.9%上升为21.9%, 统计学占比由1.3%上升为3.2%, 均较平均数翻了一番,这两个学科在排位上均上升了3个位次,一方面是由于这两个学科研究人员和研究成果的数量在大幅增加,另一方面也可能是开放获取在这两个学科领域被逐渐接受,导致其在arXiv上的活跃度上升。 高能物理的排序由第2下降为第6,其占比由15.9%下降为7.8%, 降为平均值的一半。大物理学科由平均占比63.8%降为2017年的46.4%,下降了约四分之一。随着arXiv的发展,物理学论文比例的下降,可能是因为该学科的研究达到了一个相对成熟的阶段而发展缓慢,或者该学科领域的研究人员相对饱和。计算机科学所占比例的飞跃,很显然这是全球信息化进程日益加快所导致的必然结果。统计学论文比例的大幅上升也与近年来社会上统计学专业人才紧缺是一致的。
值得注意的是,所有学科2017年的上载论文数量均较前27年的平均数有所增加,这表明开放获取这一先进理念已逐渐被各学科领域科研人员所接受。但是,论文数的增幅在不同学科中差异性很大。例如,计算机学科论文数量从平均年上载量4904篇增至2017年的27031篇,增幅超过4倍。数学学科论文数量从平均年上载量11075篇增至2017年的31577篇,增幅近两倍。然而,高能物理论文数量只从平均年上载量7885篇增至2017年的9590篇,只增加了20%,因此其排名下滑较多。
表3 2017年arXiv各学科论文数和比例
作为开放获取模式的先驱,arXiv为广大科研工作者提供了便捷的学术交流平台,其运营模式也应该被国内预印本系统所效仿。希望越来越多的科研工作者能很好利用arXiv为其科研工作服务,也希望arXiv能够吸引大学科如生命科学、化学和材料学等学科入驻。