■解贺嘉 刘筱敏 景 然
1)中国科学院文献情报中心,北京市海淀区中关村北四环西路33号 1001902)中国科学院大学经济与管理学院图书情报与档案管理系,北京市海淀区中关村北四环西路33号 100190
开放科学运动促进开放获取、开放数据的迅速发展。预印本平台是基于互联网的新型数字学术交流系统、学术出版平台,在最大程度上实现了学术成果的开放交流、开放评论、开放获取、开放存缴、开放利用,在新知识环境中迎来了重要发展契机。1991年物理学家保罗·金斯帕(Paul Ginsparg)建立了第一个电子化的预印本平台arXiv,成为开放获取运动的里程碑[1]。自2013年,美国开放科学中心(Center for Open Science)推出了免费、开源的预印本集成平台OSF(Open Science Framework),目前平台数量达到30个,预印本及其由作者保存在预印本平台上的文献达220万篇[2]。2017年Science将预印本评为当年十大科技进展之一,生物学bioRxiv[3]和化学Chemrxiv[4]在更大范围内受到关注。
预印本的诞生和发展与科学研究过程、成果的共享有紧密的联系,也与学科特质有密切的关系。例如arXiv物理学、数学的预印本已被高度认可,撼动了学术期刊的主导地位。生物科学对人类社会产生极大影响,bioRxiv也获得巨大反响,例如美国普渡大学的研究团队在bioRxiv发表了关于NgAgo的文章,再一次引发关于基因编辑技术的学术争鸣[5]。Abdill等[6]研究发现bioRxiv月提交量、下载量、发表率不断提高,具有显著的先见优势,首次发布预印本的作者数量持续上升。
预印本平台作为一种新兴的学术出版模式已在许多学科领域得到充分应用,并对学术期刊产生重大冲击,受到学界与出版界的广泛关注,因此它在科学共同体中的影响力是值得探究的问题。国际上的相关探讨主要集中在arXiv,有关bioRxiv的研究已开始产生,但仍缺乏多维度的定量研究。综合以上分析,本文以新兴的预印本平台bioRxiv为研究对象,获取全部预印本数据,通过多维度全面评价bioRxiv的影响力,为预印本平台建设、学术期刊转型发展提供建议。
为全面分析与动态跟踪bioRxiv的发展现状与趋势,本研究以bioRxiv自诞生至今5年多的全部论文数据为分析对象。截至2019年2月22日,bioRxiv共积累论文41418篇。使用Python语言编写网页爬取程序,根据网站结构建立数据库,获得论文表(BIORXIV_PAPER)、作者表(BIORXIV_AUTHOR)、版本表(BIORXIV_VERSION)、使用量表(BIORXIV_USAGE),使用Navicat软件对数据本地结构化处理后,获取数据。在指标选取方面:共性上,发文量、使用量等是学术出版平台评价的常规指标。核心机构和学科专家高发文量是高影响力的标志;个性上,预印本在高质量学术期刊上发表是影响力的重要标准。预印本平台具有论文版本更新和保存的功能,版本更新次数能直观反应平台的活跃度。据此,本研究通过文献量、使用量、浏览量、机构、作者、出版流向、版本更新分布综合评价bioRxiv的影响力。
本研究采用的研究方法主要为文献计量法,文献计量学[7]是以文献或文献相关媒介为研究对象,采用数学、统计学等的计量方法,研究文献和文献工作系统的规律与科学管理,揭示文献情报发布规律和学科的科学技术发展趋势。本文使用Excel、SPSS统计分析工具对各指标进行数据清洗、数据对照和数据分析。
图1 bioRxiv发文量变化趋势
文献量的时间演变规律与科研活动密切相关[8],预印本平台的文献量反应了科学共同体对其关注程度,是衡量预印本平台发展趋势和影响力的重要指标。图1显示了bioRxiv近6年发文量的变化趋势,呈现指数增长(y=52.303e1.0583x,R2=0.9531)。自2016年起,发文量出现大幅上升,2018年为22030篇,超过前5年的总和。其原因主要有以下几点:(1)基金资助机构的强制性和鼓励性政策。2016年,陈-扎克伯格倡议资金(CZI)[9]要求受其资助的论文在提交给期刊之前先发布在公共预印本平台。2017年,美国国立卫生研究院(National Institutes of Health,NIH)[10]、英国医学研究委员会(UK Medical Research Council,MRC)[11]、威康信托基金会(Wellcome Trust)[12]、英国癌症研究中心(Cancer Research UK,CRUK)[13]允许研究人员发布预印本,在项目申请、奖学金申请、结题报告中引用预印本,从而推动预印本在学术评价中发挥作用。(2)出版集团的积极预印本政策,如大型出版集团Elsevier、Springer Nature、John Wiley 接收预印本[14]。(3)科研人员,特别是青年研究者和具有一定学术地位的学者对bioRxiv的认可度提升[15]。
统计已在学术期刊发表和未发表的预印本数量以及相应的使用量(全文下载次数)、浏览量(摘要阅读次数),结果如图2所示。预印本的总体发表率为42.84%,2013—2017年的平均年度发表率为67%,预印本的学术质量得到同行评议专家的认可。2018年该比例偏低的原因是生物学论文发表需经历100天左右的审理周期。由图2可知,预印本的使用量和浏览量较高,数量上达到千万量级并呈现逐年上升的趋势,且这两个指标在已发表预印本中表现更好,直观上看与数量有直接关系,发表状态是否会有影响,有待进一步研究。
图2 bioRxiv使用量、浏览量年度变化趋势
机构的发文量反映了机构在某一主题领域的科研竞争力,也反映了机构对学术出版平台的关注和认可程度。通信作者是论文的主要负责人,在合作关系和科学研究中处于主导作用。对41418篇预印本通信作者机构进行识别,观察发文量(n)Top20的机构。就样本总体而言, Top20机构发文量以及累计发文量占比(σ)如图3所示。20个机构在机构总量中占比为11.8%,累计发文量仅占总量的17.4%,机构发文具有分散性。这20个机构隶属于3个发达国家,其中美国13个,英国5个,法国2个,美国在发文上具有集中效应。机构类型分别为研究院所和大学,研究院所中发文量最高的为法国国家科研中心(n=658,σ=1.59%),大学中发文量最高的为斯坦福大学(n=641,σ=1.55%)。
使用基本科学指标(Essential Science Indicators,ESI)数据库 2019年5月统计的近11年论文总被引频次位于全球Top1%的研究机构确定Top20机构的影响力,为最大限度地保障ESI的参考价值,选择与bioRxiv细分学科相关的9个研究领域,即生物与生物化学、临床医学、环境/生态学、免疫学、微生物学、分子生物学与遗传学、神经科学与行为、药理学和毒理学、植物与动物学。Top 20机构均为所选研究领域全球Top1%的高被引机构,平均排名为31.5,排名高以及高影响力机构相对的高发文量反应了bioRxiv已具有一定的学术影响力。
图3 发文量Top20机构及累计发文量占比
中国机构在bioRxiv上发文1532篇,仅占总量的3.7%,预印本量较小。中国Top 20机构发文量以及累计发文量在中国发文总量中的占比如图4所示。20个机构在中国机构总量的占比为39.2%,累计发文总量占比为53.2%,说明中国机构发文同样具有分散性。机构类型分别为研究院所和大学,研究院所中发文量最高的为中国科学院(n=193,σ=12.6%),大学中发文量最高的为北京大学(n=74,σ=4.83%)。20个机构除深圳华大基因研究院外,其他均为所选研究领域全球Top1%高被引机构,平均排名为517.7,说明中国高影响力机构已经感知、认同bioRxiv的发展。
图4 中国发文量Top20机构及累计发文量在中国发文总量的占比
对bioRxiv预印本通信作者进行统计分析,经过数据清洗后共有26838位通信作者,作者平均发文1.5篇,标准差为1.22,bioRxiv作者发文量较小,离散程度较低,说明作者发文量普遍较少,bioRxiv尚未形成稳定的作者队伍。
对发文量Top20通信作者进行统计,结果如表1所示,发文量最大的作者是来自于昆士兰科技大学的年轻教授Simpson Matthew,他的研究领域主要是数学科学、应用与计算数学。随着新兴交叉学科的发展,bioRxiv的影响力已经广泛拓展并推动跨领域合作创新。为评价作者的影响力,在WoS中统计Top20作者的h指数,排名最高的是加利福尼亚大学伯克利分校的Banfield F Jillian,是一位年长的著名学者,其研究团队主要从事生物多样性与环境、环境变化等问题的研究。通过上述分析可以发现,青年的和年长的高影响力作者都开始认同预印本平台。
表1 发文量Top20通信作者情况
41418篇预印本中,有17743篇发表在1678种学术期刊上,发表在PLoSONE上的预印本最多,达895篇。大型开放出版集团PLoS大力支持发布预印本,并建立预印本评论社群探索开放同行评议的新形式。PLoS的积极预印本政策产生了作者投稿的集中效应[16]。通过数据统计发现,14193篇(80%)预印本发表在205种(12%)期刊上,出版流向具有高度集中的特点。与2018年的DOAJ(Directory of Open Access Journals)和SCI收录期刊列表进行比对,进一步研究205种集中发文期刊的开放度和质量,明确作者的投稿行为。发现OA期刊为65种,占比为31.7%;SCI收录期刊为166种,占比为81%,其中Q1区期刊为115种,占比56.1%,Q2区为48种,占比23.4%,Q3区为8种,占比3.9%。从205种集中发文期刊特征可以推断出,作者倾向于将预印本发表在高影响力的OA期刊上,也从侧面反映了预印本具有较高的学术水平。
中国作者发表的1532篇预印本中,313篇发表在160种期刊中,发表率为20.43%,远低于总体的发表率,说明中国作者预印本质量有待提升。通过统计分析,发现同样是发表在PLoSONE上的预印本数量最多,为27篇。56.23%的论文发表在20%的期刊上,中国预印本出版流向的集中效应较差。发文量Top10期刊如表2所示,有7种为Q1区的OA期刊,说明中国作者也倾向于将预印本发表在高质量的OA期刊中。
表2 发表中国预印本Top10期刊
传统封闭式的同行评议存在专家对主题不了解、审稿意见质量低、评议过程缺乏相应记录等问题[17]。预印本平台为科学共同体提供了广泛参与的开放评论途径,实现了对学术成果公开透明的评议过程,有利于防止学术不端,确保学术严谨和科研质量,增强科研的参与度,同时为编辑提供有价值的评议结果,缩短学术出版周期。预印本平台有版本更新的功能,版本更新频率可以反映作者思想发展和论文内容完善的历程,能够评价开放讨论的途径是否对论文的研究质量、科学价值、学术规范产生积极的作用。
bioRxiv预印本版本更新数据统计结果如图5所示。41418篇预印本中有11500篇(27.77%)有版本更新。已发表的17743篇论文中有5969篇(33.64%)有版本更新。两个样本集更新一次的论文所占的比例较大,更新两次及以上的占比均较低。
从图5可以看出,版本更新的已发表论文数量占比(分母为已发表论文量)高于版本更新的预印本数量占比(分母为预印本总量),为进一步探究版本更新对预印本发表的影响,使用SPSS 25软件对两者进行相关性分析,两变量都不符合正态分布,因此选用Spearman相关性分析,结果如表3所示。从表3可以看出两者之间的相关系数为0.107,呈现弱相关,版本更新对发表影响较小。综合以上分析,bioRxiv开放评论活跃度较低,作者更倾向于将其作为成果发布而非交流讨论的平台,修改完善预印本的驱动力不足。
表3 论文发表和版本更新的Spearman相关性分析
注:**表示在 0.01 级别(双尾)相关性显著。
通过上述的定量分析可以得出以下结论:(1)bioRxiv已具有一定的影响力,呈现繁荣发展的态势。bioRxiv的年度提交量呈指数增长,月提交量突破2000篇,同时预印本的年平均发表率超过60%,与发展成熟的arXiv接近[18]。(2)机构、科研人员对bioRxiv的认同度不断提升。全球生物学以及交叉学科领域的高影响力机构与作者在bioRxiv上的大量发文表明其已成为重要的学术出版渠道。(3)权威的学术期刊日益接受bioRxiv。作者倾向于将预印本投到高质量的OA期刊上,也证明了这些期刊以开放、包容的态度接受预印本的发表。(4)bioRxiv尚未达到成熟稳定的发展阶段。机构的发文较为分散,作者平均发文量普遍偏低,发表1篇预印本的作者数量较多,作者队伍有待稳定。该平台尚未建立有效的开放评论机制,在提升论文质量上的贡献度较低。
根据bioRxiv发展中存在的问题,结合学术出版的最新进展,为预印本平台建设与学术期刊转型发展提出如下建议。
在开放科学、开放创新的环境下,预印本平台得到学术团体、学术出版界的大力支持,仍然具有广阔的发展前景。主办机构、发文机构、使用机构的权威性是其中关键影响因素,科技管理部门、科研基金组织、学会组织、出版机构、大学图书馆、专业图书馆应充分发挥各自的政策、资金、技术、资源、人才优势,由学科专家参与建设,遵循国际通用规范,继承并发展现有的运行管理机制、质量控制方法、知识产权规则、元数据管理规范、相关政策标准,合力打造高影响力预印本平台。联合科研院所、信息服务机构、学术期刊的力量,组建预印本平台的服务工作组,建立、运行、维护镜像网站,将预印本平台纳入到本机构开放资源、开放信息环境建设中,促进国际专业预印本平台的应用与发展[19]。
在学术出版周期中,作者、编辑、同行评议专家、读者形成的学术社群是作用主体,预印本平台解构了期刊、出版集团的外力作用,实现了上述主体在整个周期的融合与完全参与,建立了全新的学术成果信任机制。越来越多的高影响力科研人员在预印本平台发文,并参与管理、开放讨论。但也存在部分科研人员对预印本平台缺乏认知,只浏览、不投稿等问题,其主要原因为预印本平台的服务能力、发展水平、流程规范还有待提升。预印本平台是多主体共同运作的学术出版渠道,需要联动各方扩大其影响力。首先,需要加大对预印本平台的宣传力度:(1)了解用户需求,定期对学科专家进行访谈,开展用户反馈的问卷调查,改进预印本平台功能,不断提升其服务能力;(2)评价发展水平,发布定量评价预印本影响力的相关论文;(3)规范政策制定,在预印本著作权、出版伦理方面做出明确的规定,加强科研诚信建设。其次,预印本平台可与期刊合作,推动期刊建设预印本编辑,在扩大期刊稿源的同时提升预印本的录用率。预印本平台作为重要的开放资源,应与图书馆等科研支撑机构合作,主动融入知识服务的过程中,在用户信息素质、学术出版素质的培训与教育中发挥作用。最后,在开放科学数据迅速发展的科研环境中,预印本平台可参与到国际数据管理计划中,加入国际数据存储平台,制定规范的科学数据管理政策,将预印本的数据变为数据资源,在国际开放科学事业中产生更大的影响力。
预印本平台打破了单本期刊的概念,它的发展将有效推动学术资源的整合、利用,为学术期刊的数字化、集群化建设提供全新的思路。《STM报告:科学和学术出版概览》中指出,随着预印本平台的增加,新的服务和平台开始监管和利用预印本,主要包括:(1)开放科研平台。例如F1000可同时发表预印本和最终版本论文,具体做法为首先发表预印本,然后邀请专家对其进行开放同行评议,最终版本论文和评议将与预印本一起发表。(2)Overlay 期刊。通过链接到预印本平台选择优质的论文,开展同行评议并开放出版。依托于预印本平台大大降低了论文出版的成本,其中具有代表性的是由菲尔兹奖得主Timothy Gowers创办的期刊DiscreteAnalysis[20]。学术出版集团面临开放与共享的压力,在转型升级中纷纷构建预印本平台[21],在出版前端积累优质资源,不断提升出版产业的价值,其中影响较大的事件为Elsevier于2016年5月收购了人文社科领域的预印本平台SSRN(Social Science Research Network),在出版商“资源为王”的战略布局下,SSRN完成多领域扩张和知识服务能力提升,争夺预印本交流的学术话语权。
作为开放的学术出版平台,预印本平台为开放评论的创新探索提供了实践的沃土。结合预印本平台的发展现状和学术期刊的开放同行评议模式,提出如下发展路径:(1)多指标评价。当前预印本平台使用Altmetrics、下载量、浏览量指标评价预印本的社会影响力。排序是基于单一论文的提交时间。基于此,可将预印本纳入到学术引文网络,通过被引频次指标评价预印本的学术影响力,并通过综合的评价结果对预印本进行排序,使优质的、具有学术争议的预印本被更多的学者发现和关注。(2)全媒体融合。新媒体技术的不断进步,为学术交流、学术出版的媒体融合提供了深入发展的源动力[22]。当前预印本平台主要利用Twitter、Blog、学术论坛等社交媒体平台公开交流以获得关于新兴成果及时、建设性的反馈。需在此基础上拓展媒体融合的深度和广度,充分利用各个新媒体的传播特征,构建传播媒体矩阵,全面覆盖社交化聚合平台、个性化内容分发平台、学术移动数据平台、搜索引擎、大众传播平台,实现全媒体、多方位、个性化的传播与互动,增加公众评议[23]。(3)优质评论整合。部分学术期刊将预印本的评论意见作为论文录用的重要参考。可将关于预印本的建设性评论整理成报告,反馈给作者,并赋予DOI号与论文一同发布在预印本平台,将开放评论结果作为可发现和可引用的科研产出在科学社群内共享,从而提升开放评论的质量和活跃度。
在开放共享的知识环境中,预印本平台已经成为学术交流不可阻挡的趋势、学术出版界关注的重要议题。权威的预印本平台在特定学科领域已经占据学术出版的主导地位,新兴的预印本平台发展迅猛、影响力广泛,但尚未到达成熟稳定的发展阶段。学术期刊应正视新兴学术出版模式带来的挑战,抓住转型发展的机遇,打破现有体制机制,与预印本平台融合发展,加强学科专家参与的集群化出版平台建设,打造互通互联、开放包容的学术交流、学术出版生态圈,促进科学成果快速传播、有效利用。