■王海燕 杨代庆 冯家琪 杨 帅 宋 扬
中国科学技术信息研究所,北京市海淀区复兴路15号 100038
预印本是作者在进行同行评议之前或提交同行评议的同时,发布在开放平台上的学术成果[1]。预印本作为推动科学界迈向开放科学的重要因素[2],不仅转变了科学信息的处理方式,也为一些重要发现的快速发布、传播与交流互动提供了极好的工具,为研究成果提供了有效的时间戳[3]。更重要的是,预印本可公平地确认科学发现归属权[4],已成为科学交流的有效载体。目前,还未有关于国际预印本的发展态势、影响力等的大规模数据的计量分析,这不利于掌握我国发布预印本的现状,也不利于我国预印本话语权提升。
预印本平台是提供在线提交、存档和分发服务功能的开放获取知识库。在全球范围内,预印本平台蓬勃发展,自然科学、医学、社会科学、人文学科、工程技术等领域的预印本平台涌现。世界上首个预印本平台arXiv是由美国物理学家Paul Ginsparg于1991年创立的,收录物理学、数学、计算机科学、生物学、金融、统计学、电气工程、系统科学以及经济学领域的学术文章[5]。此后,面向不同学科领域的预印本平台不断推出,包括2013年美国冷泉港实验室推出的生物科学领域的bioRxiv[6],2019年美国冷泉港实验室、耶鲁大学和《英国医学杂志》共同创立的医学领域预印本平台medRxiv[7],美国化学会、中国化学会、英国皇家化学学会、德国化学会联合创立的ChemRxiv[8],以及PrePubMed、PeerJ Preprints、F1000、SSRN(Social Science Research Network)等。
国外学者对预印本的认识经历了从整体到具体的过程,研究内容主要聚焦于预印本在学术交流中发挥的作用和影响,包括预印本在科学生产中的作用[9]、科学影响力[10]、不同预印本平台引用/提及/分享能力[11]。Sever等[12]提出了Plan U计划,希望所有资助者要求作者将研究成果先发布在预印本平台上,并以此推动同行评议、文本挖掘、数字资源的长期保存。此外,学者还围绕预印本平台建设进行了政策、运行模式、系统发展等方面的研究。
国内关于预印本的研究起步较晚。1985年吴光伟[13]撰写的《预印本——一条重要的情报渠道》一文为我国预印本研究奠定了基础。近年来随着信息传播技术的发展和政策指引,国内研究集中在开放科学背景下的预印本质量控制、运行模式[14]、学术交流模式[15]、平台建设[16-17]等方面。
国外预印本平台较为成熟,预印本学术质量较高,具有一定的引用优势,社会影响力较广泛[18]。已有研究较少对国际预印本发展态势及影响力进行探讨,不能很好地反映预印本对于现有学术传播模式的学术影响以及社会影响。2023年,中国科学技术信息研究所建立了国际预印本数据库,发布了《2023开放科学环境下预印本产出状况报告》,本文数据来自该报告。本研究以国际主要预印本平台发布预印本为数据来源,构建学术影响力、社会影响力指标模型,把握国内外预印本发展态势及影响力,为提升我国预印本影响力提供支撑。
在预印本平台上,作者可以实时地发布自己的研究成果,预印本可被学界甚至大众阅读,获得关注。本文预印本数据来自Web of Science(WoS)平台Preprint Citation Data数据库,数据检索时间为2023年9月。以WoS集成的预印本数据库为基础,选取arXiv、bioRxiv、medRxiv、ChemRxiv、Preprints等主要预印本平台数据,数据覆盖自然科学、医学、社会科学、人文学科、工程技术等领域。其中:arXiv收录物理学、数学、计算机科学、生物学、金融、统计学、电气工程、系统科学以及经济学领域的学术文章;bioRxiv收录生命科学研究各个方面的学术文章;medRxiv收录医学相关学科的学术成果;ChemRxiv收录化学相关学科的学术成果;Preprints是一个多学科预印本平台。预印本学术影响力相关引用数据采集自WoS平台。社会影响力相关指标数据采集自Altmetric.com。本次分析最终获取2022年发布在主要预印本平台上的17.5万篇预印本,学术影响力相关记录16万余条,社会影响力相关记录295.9万条。由于ChemRxiv、Preprints数据量较少,文中的总量统计包含这两个平台的预印本数据,学科、机构等单项统计数据中未全部体现这两个平台的数据。
初景利[19]认为预印本“是作者在提交期刊出版前未经严格同行评议的手稿,经过初步的评议审核后,即借助于预印本平台在最短的时间内以开放获取的形式发布,为作者获得最新研究成果的网络首发权,为学术交流系统提供最新、最快速的研究成果传播与利用渠道”。学界借由预印本平台可以快速地获取最新的研究成果,预印本较快积累学术影响力和社会影响力。
本文所指预印本学术影响力包含两个指标:预印本被论文引用和预印本被预印本引用。预印本被论文引用数据体现SCI(Science Citation Index)、SSCI(Social Science Citation Index)、CPCI-S(Conference Proceedings Citation Index-Science)、BKCI(Book Citation Index)、ESCI(Emerging Sources Citations Index)等数据库国际论文或图书引用主要平台预印本的情况。预印本被预印本引用数据体现arXiv、bioRxiv、medRxiv、ChemRxiv、Preprints等主要平台预印本引用情况。
针对预印本社会影响力设计3个指标:新闻媒体报道状况,指近期各国新闻媒体报道预印本相关内容情况;文献管理平台阅读状况,指大众通过CiteULike、Mendeley、Connotea等文献管理平台阅读预印本情况;社交平台提及状况,指Twitter、Facebook、Wikipedia等社交平台提及预印本内容情况。
通过学术影响力和社会影响力两个维度的5个指标,反映预印本在学界以及社会的综合影响力。
1991—2022年,国际主要平台发布194.6万篇预印本,数量整体处于上升趋势,如图1所示。2019年底出现的新冠疫情给人们的生活和社会发展带来了巨大的冲击和改变,各国学者打破空间限制,在网络上进行广泛的学术交流与合作,有效地加快了全球抗击新冠疫情的步伐,也加速了学术出版模式的变迁。2022年主要平台上生物医学领域预印本数量迅速增加,预印本平均发布时滞明显短于期刊论文。相较于与新冠疫情无关的研究发现,发布在预印本平台上的新冠疫情相关文章的出版时间明显缩短(约36天)[20]。在新冠疫情出现的前10个月内(2020年1月1日至10月31日),预印本平台托管了近25%(30260篇预印本)的相关科学研究成果[21]。预印本逐渐成为全球科研人员发布科研成果、进行科学交流的重要载体。
图1 1991—2022年国际主要平台发布预印本趋势
2018—2022年,国际主要平台发布预印本79.6万篇,占1991—2022年预印本总量的40.9%,预印本规模高速增长。观察2018—2022年预印本数据,发现arXiv发布量显著高于bioRxiv、medRxiv、ChemRxiv、Preprints等预印本平台,如图2所示。
图2 2018—2022年国际主要平台发布预印本趋势
着重分析2022年预印本状况。国际主要平台arXiv、bioRxiv、medRxiv、ChemRxiv、Preprints发布预印本总量为17.5万篇。相较于2021年,预印本总量增加了2.3万篇,增幅为15.1%。
如图3所示,美国是产出预印本的主要国家。2022年,按照第一作者国别统计,美国以4.5万篇预印本居首位,中国1.9万篇,位居第2。
图3 2022年国际预印本产出量排名前10的国家
国际预印本表现出学科集中性。预印本总量较多的学科领域分别是数学(3.4万篇)、计算机科学人工智能(2.5万篇)、物理粒子场(2.1万篇)、计算机科学软件工程(2.0万篇)、计算机科学跨学科应用(1.5万篇),如表1所示。
表1 2022年国际主要平台预印本学科领域分布
国际预印本集中分布在国际知名高等院校、科研机构和医院,如表2所示。牛津大学、斯坦福大学、麻省理工学院3所高等院校发布预印本数量分别达到了2535、2416、2349篇。中国科学院发布预印本3103篇,位居科研机构之首。排名前3的医疗机构为美国马萨诸塞州总医院(609篇)、美国布莱根妇女医院(297篇)、美国波士顿儿童医院(173篇)。
表2 2022年国际预印本产出量较多的机构
2.2.1 学术影响力
目前,许多顶级期刊,如《自然》《科学》等,以及一些资助机构,如美国国立卫生研究院、英国癌症研究所等,都明确表示允许引用预印本。
论文引用状况如图4所示。2022年,按照第一作者国别统计,各国发布预印本被SCI、SSCI、CPCI-S、BKCI、ESCI等数据库国际论文引用5.6万次,其中美国以1.7万次居首位,中国0.7万次,位居第2。
图4 2022年各国预印本被国际论文引用表现
预印本引用状况如图5所示。2022年,按照第一作者国别统计,各国发布预印本被预印本引用10.4万次,其中美国以3.4万次居首位,中国1.2万次,位居第2。
图5 2022年各国预印本被预印本引用表现
预印本更多被预印本利用。在arXiv平台,相较被国际论文引用,预印本更多在预印本层面传播。以美国2022年发布的3.1万篇预印本为例,同年被国际论文引用1.3万次,被预印本引用3.0万次。中国2022年发布1.7万篇预印本,同年被国际论文引用0.7万次,被预印本引用1.2万次。
2.2.2 社会影响力
(1)新闻媒体报道状况如图6所示。2022年,按照第一作者国别统计,各国发布预印本被新闻媒体报道5.4万次,其中美国以23816次居首位。英国为5341次,位居第2。德国为2621次,位居第3。中国为2612次,位居第4。
图6 2022年预印本新闻媒体报道量排名前10的国家
(2)文献管理平台阅读状况如图7所示。2022年,各国发布预印本主要在文献管理平台CiteULike、Mendeley、Connotea等上被阅读。美国以30.6万次阅读量居首位,中国居第2位,阅读量为14.0万次,英国以6.0万次排在第3位。
图7 2022年预印本文献管理平台阅读量排名前10的国家
(3)社交平台提及状况如图8所示。2022年,各国发布预印本主要被Twitter、Facebook等社交平台提及。美国以被社交平台提及116.8万次居首位,中国居第2位,提及量为24.0万次,英国以23.4万次排在第3位。
图8 2022年预印本社交平台提及量排名前10的国家
(1)中国预印本发布状况。2022年,按照第一作者国别统计,中国预印本总量为19109篇,其中:arXiv上有16990篇,占88.9%;bioRxiv上有1465篇,占7.7%; ChemRxiv上有299篇,占1.6%;medRxiv上有311篇,占1.6%;Preprints上有44篇,占0.2%。
中国科研人员作为第一作者发布预印本数量较多的地区包括:北京、上海、广东、江苏、浙江、湖北、安徽、陕西、四川、湖南等。
(2)中国预印本学科领域分布如表3所示。中国预印本数量较多的学科为计算机科学软件工程(5051篇)、数学(4429篇)、计算机科学人工智能(4316篇)、物理粒子场(3315篇)、计算机科学跨学科应用(2363篇)。
表3 2022年主要平台中国预印本学科领域分布
(3)中国预印本机构分布如表4所示。
表4 2022年发布较多预印本的中国高等院校
2.4.1 学术影响力
(1)中国预印本的论文引用状况如图9、表5所示。中国科研人员作为第一作者发布的预印本被国际论文引用。被引频次居前3位的地区为北京、上海和广东,其中发布在arXiv上的预印本显示度相对更高。被引频次居前3位的高等院校为清华大学、北京大学和上海交通大学。
表5 2022年预印本被国际论文引用较多的中国高等院校
图9 2022年中国预印本被论文引用表现
(2)中国预印本的预印本引用状况如图10、表6所示。中国科研人员作为第一作者发布的预印本被预印本引用。被引频次居前3位的地区为北京、上海和广东。被引频次居前3位的高等院校为清华大学、北京大学和上海交通大学。同样地,arXiv上的预印本受到更多关注。
表6 2022年预印本被预印本引用较多的中国高等院校
图10 2022年中国预印本被预印本引用表现
2.4.2 社会影响力
(1)中国预印本的新闻媒体报道状况如图11、表7所示。中国科研人员作为第一作者发布的预印本被新闻媒体报道2612次,报道量居前3位的地区分别为北京、江苏和广东。2022年预印本新闻媒体报道量居前3位的高等院校为北京大学、南京大学和中国科学技术大学。2022年预印本新闻媒体报道量居前10位的科研机构均来自中国科学院,前3位分别为中国科学院国家天文台、中国科学院云南天文台和中国科学院高能物理研究所。
表7 2022年预印本新闻媒体报道量较多的中国高等院校
图11 2022年中国预印本社会影响力表现
(2)中国预印本的文献管理平台阅读状况如表8所示。中国科研人员作为第一作者发布的预印本的CiteULike、Mendeley、Connotea等文献管理平台阅读量居前3位的地区分别为北京、上海和广东,居前3位的高等院校分别为清华大学、北京大学和浙江大学。
表8 2022年预印本文献管理平台阅读量较多的中国高等院校
(3)中国预印本的社交平台提及状况如表9所示。中国科研人员作为第一作者发布的预印本被社交平台提及量居前3位的地区分别为北京、上海和广东,居前3位的高等院校为清华大学、北京大学和浙江大学。
表9 2022年预印本社交平台提及量较多的中国高等院校
2022年国际主要预印本平台,如arXiv、bioRxiv、medRxiv、ChemRxiv、Preprints,发布预印本总量为17.5万篇,主要集中在数学(3.4万篇)、计算机科学人工智能(2.5万篇)、物理粒子场(2.1万篇)、计算机科学软件工程(2.0万篇)、计算机科学跨学科应用(1.5万篇)等领域。2022年,按照第一作者国别统计,各国发布预印本被SCI、SSCI、CPCI-S、BKCI、ESCI等数据库国际论文引用5.6万次,被预印本引用10.4万次,预印本更多在预印本层面传播。
观察近10年数据,发现预印本平台逐渐受到重视,尤其是2020年全球突发公共卫生事件后,生物医学领域快速响应,新冠疫情下国内外医学期刊广泛采纳数字外包式同行评议的数字预印本,加速了相关研究成果的出版与传播[22-23],使得新冠疫情防治与预印本间的互动关系受到高度关注。预印本不仅在学界获得引用,也逐渐得到了社会的广泛传播。新闻媒体报道、文献管理平台阅读、社交平台提及数据持续提升。
以上分析结果显示,预印本成为学术交流的重要渠道,也是学术快速传播和利用的有效途径之一。但是,长期以来,预印本存在的隐患,包括缺乏严格的同行评议[24]、存在学术不端问题[25]等,一直是预印本发展的影响因素,这对预印本发展提出了要求。
按照第一作者国别统计,2022年主要平台发布中国预印本总量为19109篇。北京、上海、广东、江苏、浙江等地区发布预印本数量较多,预印本主要集中在计算机科学软件工程(5051篇)、数学(4429篇)、计算机科学人工智能(4316篇)、物理粒子场(3315篇)、计算机科学跨学科应用(2363篇)等学科领域。
中国科研人员作为第一作者发布的预印本被SCI、SSCI、CPCI-S、BKCI、ESCI等数据库国际论文引用频次居前5位的高等院校为清华大学、北京大学和上海交通大学、浙江大学、中国科学技术大学,这与被预印本引用频次排名基本一致。
被新闻媒体报道、文献管理平台阅读和社交平台提及的预印本主要来自高等院校。3种平台的兴趣点不同,关注的预印本来源高等院校不同。国际新闻媒体更加关注来自北京大学、南京大学、中国科学技术大学等的预印本,被文献管理平台阅读和社交平台提及的预印本更多来自清华大学、北京大学和浙江大学。
以上分析结果显示,我国逐渐认识到预印本在快速交流与开放利用学术成果方面的作用,国内一流高校产出较多预印本,但受到国内科技评价制度、预印本认可度的影响,我国发布总量与美国存在较大差距。虽然中国预印本发布量逐年上升,但影响力有待提高。就学术影响力而言,在篇均被论文引用频次、篇均被预印本引用频次方面,中国与美国差距较小,但篇均新闻媒体报道量、篇均社交平台提及量低于美国、英国、加拿大、瑞士、日本和德国等国家,这与数据采集更多关注国外新闻媒体、社交平台有一定关系。
(1)预印本发布与引用政策。期刊是否接受预印本?预印本能否作为参考文献被引用?目前,许多顶级期刊以及一些资助机构都明确表示接受预印本,或允许引用预印本。在开放科学的背景下,提升我国期刊对此的接受程度有利于提高我国预印本显示度。
(2)负责任预印本科学传播。应促进负责任的科学传播,衡量学界和大众对预印本局限性的理解程度。为此,需要公开讨论预印本的潜在不足,提高研究人员、研究机构、预印本提供方对预印本质量的责任意识,推动良好科学规范形成,促进我国预印本良性发展和传播。
(3)科技评价导向。现有科技评价对学术成果的界定基本限于公开发表的文献,如专著、论文、报纸文章、报告、专利、标准等,研究人员对预印本的接受意愿不高。为此,应加强科研人员对预印本的认知,建议评价体系纳入预印本,从而在一定程度上提升预印本发布意愿,更多地为作者获得最新研究成果的网络首发权,促进研究成果快速传播和利用。
预印本的发展还处于起步阶段,学界对于预印本的发展现状缺乏了解。本文以WoS平台集成的预印本数据库为基础,以arXiv、bioRxiv、medRxiv、ChemRxiv、Preprints等国际主要预印本平台发布预印本为数据来源,构建学术影响力、社会影响力指标模型,把握国内外预印本发展脉络、发展态势及影响力,为提升我国预印本影响力提供建议。未来,将进一步结合已有预印本平台发布的预印本数据,拓展学术影响力和社会影响力评价维度,如增加国内新闻媒体报道和社交平台提及指标、增加预印本技术影响力维度等,完善影响力指标模型,探索提升我国预印本话语权的可行途径。