田 稷
(浙江大学图书馆,杭州,310027)
随着信息技术的发展和时代的进步,开放科学日益成为科技与社会创新的基础、促进科研人员合作与交流的重要环境。开放科学的重要基础包括科技论文开放获取与科学数据开放共享。数据出版作为科学数据开放共享非常重要的新模式,近年成为出版界、图书馆界、政府相关机构、研究人员关注的热点。由于数据成果并不包括在当前的学术评价体系中、数据共享缺乏原生动力、数据出版增量迅猛引发评议瓶颈等,科学数据出版目前仍存在许多需要克服和解决的问题和挑战。
本文提出一种科学数据混合出版新模式:采用混合评议对规模化的出版数据进行质量审核;采取免费或有条件使用数据的灵活机制来提升学术交流效率,促进数据交换与共享;将集成出版模式、数据仓储出版模式和数据期刊独立出版模式的功能融合到同一平台,以提高作者的参与度和认可度,并为数据期刊提供优质的稿件来源。最后探讨了高校图书馆在科学数据混合出版中可以发挥的重要作用。
科学数据出版目前并无统一的定义。有研究认为,科学数据出版是遵循规范的质量管理和控制流程前提下的正式的科学数据发布。广义的数据出版可包括任何数据上传到网络并支持开放获取的行为,但一般更被认可的,是指包含数据提交、同行评议、数据发布和永久存储、数据引用、影响力评价等具有完整生命周期的学术数据发布行为。
目前国内外对科学数据出版及其模式的研究与实践尚处于初级阶段。在研究方面,国外文献主要集中在数据出版的技术、安全、隐私保护等方面,如范登·爱因登(Van den Eynden)等介绍了社会科学研究数据自出版系统ReShare,期刊可选择同行评审员访问已发布数据集,通过同行评议实行期刊发表;侯赛尼· K(Al-Hussaeni K)等研究了数据出版中不同级别的隐私保护技术;赖利(Reilly S)等研究了集中出版模式中生成或重用原始数据的研究人员,提供交流机制的出版商,以及提供并保存支持学术交流和已发表记录的证据的“图书馆与数据”人员的角色与利益;亚森(Yaseen S)等研究如何在数据出版中的隐私安全和应用中取得折衷的技术等。国内文献主要涉及不同模式的比较研究,如黄国彬根据科学数据产生情形,将科学数据出版分为集成出版和独立出版两种模式,得出独立出版模式的质量审核更为完善的结论,并讨论不同的出版模式的不同费用标准和承担主体;梁子裕在分析评价数据论文出版、独立出版、合作出版等三种国外科学数据出版模式的优缺点的基础之上,提出对我国数据出版模式的借鉴与优化策略;张静蓓等将科学数据出版分为数据独立出版、数据论文出版、合作出版和期刊自行出版四种模式,分析每种模式的数据出版流程,研究其引用策略。
在实践方面,科学数据出版主要分成如下三种模式。
集成出版:学术论文公开发表在传统期刊或开放获取期刊上,支撑该论文的数据则提交给期刊认可的知识库,这是目前大多数期刊对发表需要数据支撑的论文时采用的模式。如《自然》()、《科学》()、PLoS等推荐或者强制要求科研人员将论文所涉数据提交到指定知识库或公共知识库中。
数据期刊独立出版:与开放获取期刊类似,只是用数据代替了论文。如中国科学院的《中国科学数据》,是目前中国唯一的专门面向多学科领域的数据学术期刊。整个出版设计与传统期刊类似,有正式的刊号及具体的期号,经同行评议后正式发表和公开。
数据仓储独立出版:数据也是独立存在,但并不要求同行评审及强制全部公开,如Figshare和ResearchGate。它们接收作者上传数据、图表、多媒体、海报、论文(包括预印本)和文件等,可以存储暂时不想公开的数据。Figshare强调体现数据的优先发布,平台提供浏览、下载和引用统计等功能。
以上三种模式中,集成出版的数据仅是期刊论文的支撑,量少且并不一定完整;数据期刊独立出版的数据均通过同行评审,质量高,但能够出版的数据非常有限。这两种出版模式能接纳数据的量都很少,存在数据孤岛和创新孤岛,不利于实现大规模的数据开放与共享。数据仓储独立出版模式实现了以存储和公开为主要目的的广义的数据出版,可以实现大范围的数据共享,但平台“重存储,轻利用”,对数据的审核侧重于技术质量和元数据的全面性、准确性,并不审核数据的科学质量。这样,优质数据淹没在海量数据中,难以辨识和获取;而且作者可能提供完全免费的数据,也可能仅存储而不公开,存在作者与用户激励和平台认可度等问题,对平台的可持续发展和深度利用带来困扰。针对这些问题,本文以数据仓储独立出版模式为基础,将上面三种出版模式功能结合在一起,提出一种能将高质量、高价值数据从海量数据中显现出来,促进数据的利用和共享的科学数据混合出版模式。
科学数据混合出版模式,是将所有能支撑学术论文的数据、独立的研究数据或成果等作为出版对象,用户、图书馆馆员或同行评议专家均可对通过规范审查的数据进行有偿或无偿的质量审核,基于免费、收费、交换或合作署名等机制共享与利用数据,通过数据仓储平台公开或数据期刊独立公开的形式出版数据。即所谓混合,是在质量评议、收费机制和出版形态等方面多种机制的混合,力争打造一个良好的数据出版生态环境。混合出版模式的流程如图1所示。
图1 科学数据混合出版流程图
作者向数据出版平台提交其研究过程或成果数据。简单易操作等良好的用户体验是影响作者选择平台的重要因素。出版平台需要提供专门的提交模板,作者只需在模板上按规定格式填充相关内容即可。除常规的题名、作者、学科分类选项、文档类型(数据集、图表等)、描述、基金、参考文献链接、许可等选项外,混合出版模式的数据提交模板还包括质量评议选项、数据公开条件(免费、收费或交换)选项、研究要素公开选项。
平台根据规定格式,审核作者提交的内容是否符合规范,如数据类型和格式是否符合要求,数据描述等必要选项是否完整等。由平台管理方和系统完成规范审核,并不对数据的科学性和质量进行评定。
通过规范审核的数据在平台上公开发布,未通过审核的返回作者修改。
出版平台一旦发表某一数据,所有访问数据的用户都可以直接对之进行网络评议、打分、讨论等互动与交流。混合出版模式采用三种方式对数据进行质量评议,具体包括用户评议、图书馆员评议和同行专家评议。
用户评议:类似豆瓣点评和淘宝买家评价,平台设置评议选项,用户可以对数据的各种要素进行打分和评价,包括内容质量、应用价值等。此处的用户包含所有访问数据的人,可以是同行,也可以是跨学科使用的研究者。
图书馆员评议:图书馆员利用其专业素养,实现:(1)对用户评议的内容进行整理;(2)利用数据的下载量、引用量和Altmetrics指数等,形成计量学意义上的数据影响力评价;(3)通过对数据的描述文档进行分析,对数据的创新性进行评议。在这些基础上形成评议结论,作为同行专家选择数据并进行评议的重要参考。
同行专家评议:由平台构建开放性的网络同行评议专家库,同行专家自愿加入。同行专家主要对数据的科学性和内容质量进行评议,然后形成供用户和数据期刊选择优质数据的重要参考意见。
为激励更多人参与评议,评议行为可以是收费方式,也可以是免费方式。对于收费评议,评议费用可由数据作者提供、用户(包括个人或数据期刊)提供和平台提供等。
科学数据利用主要涉及数据下载和数据引用。此外,用户可能不仅仅对数据本身感兴趣,还对实验流程、方法、材料、经验教训等科学数据研究要素感兴趣,由此将催生对数据研究要素的需求和利用。
数据可以在平台永久保存,实现自出版;数据期刊可以基于数据评议结果选择合适的对象进行正式出版。
相对当前主要的数据出版模式,数据混合出版模式具有如下创新特征和优势:
任何出版都意味着对出版对象的内容质量给以一定程度的认可,传统出版采用同行评议方式来实现。虽然数据出版并不需要强制进行同行评议,但同行评议仍然是保证出版质量的最佳方式。但对于集成出版模式和数据仓储独立出版模式,数据质量审核存在缺乏评议标准、评议时间成本高昂(如评议一份数学或物理数据需要6—8个小时)、目前科学共同体尚未给数据同行评议专家以相应的社会及学术认可而严重影响评议者的积极性等困难,特别对于数据仓储独立出版模式,最大的困难在于提交给平台的数据数量和增长速度远远大于传统出版,数据同行评议的专家严重缺乏,无法实现对规模化的数据进行质量审核。
混合出版模式的一个重要特征和优势就在于它采用混合评议方式实现规模化的出版数据质量审核。数据用户根据自己对数据的利用情况给以质量评议;图书馆员基于用户评议结果,或者直接基于数据的下载量、引用量等计量学指标表现,选择数据并对之进行更深入的创新性和影响力评价,形成评价结论;同行专家参考图书馆员评议或数据的计量学指标表现,有目的地选择数据进行评价,然后形成可供用户选择或数据期刊选择优质数据的推荐意见。由于包括作者与读者的所有用户和图书馆员都可参与质量评议,平台的同行专家库对所有同行专家开放,这种具有社交网络属性的评议方式时效性高、参评人员数量有保障、评议完全透明和公开,混合评议将在很大程度解决数据出版的质量评议瓶颈问题。
由于目前科学数据出版平台大多是由公共资金支持建设与运维,社会资金运营的出版平台所收取的费用也仅是数据存储与管理费用,不能像传统出版那样从成熟的产业链中获得稳定利润来支付同行评议专家劳动报酬,这样的资金运作方式不能长远支持对科学数据的同行评议。
混合评议将通过收费与免费相结合的评议方式来解决此问题。用户、图书馆员和同行专家都可以自愿提供对数据的免费评议,但合理的收费机制将激励更多的人参与。如渴望得到质量评议的作者可以主动提供费用,吸引他人对自己公开的数据进行质量评议;用户可以提供评议费用,让他人帮助自己尽快在海量数据中找到想要的优质数据;数据期刊可以提供评议费用,让大家帮助选择和审核自己期刊想组稿发表的数据;平台管理方也可以有意提供评议费用,吸引更多人评价更多的数据,从而进一步提升平台的学术价值和影响力,费用来源可以是平台广告费、政府或社会机构支持等。这样的混合评议收费机制在极大提升出版数据的评议比例的同时,也为长远解决数据出版中的质量评议费用问题提供有效方案。
虽然出版的科学数据很多是公共资助项目的产物,但也必须认可不同科研人员的不同劳动与智慧,开放科学并不应该总是向所有人员全部无偿开放。如果一刀切地要求作者都无偿共享数据,那么部分人可能会选择不发表或有保留地发表。笔者曾就此对浙江大学4个学院10位不同专业的老师进行了访谈调查,他们都愿意在合适的平台上公开自己长期研究积累的各种数据。其中2人愿意无条件公开,8人表示主要是希望让人知道这些数据的存在,以及存在何处,5人希望是有条件的共享,如数据交换、合作署名,或者收取一定费用。另一方面,他们表示,如果可以基于别人的数据进行研究,也愿意通过类似喜马拉雅平台的知识付费方式满足自己的数据需求。
当前主流的数据出版模式中,平台对数据作者免费或收取一定费用,数据利用方一般并不付费,这种单向收费方式不利于数据的完全开放与利用。为了鼓励更多的人共享与利用数据,促进数据的交换和研究人员之间的合作,混合出版模式采取灵活机制来多样性鼓励大家利用数据。数据的下载既可以是免费的,也可以是收费的,收费与否及收费多少由作者或传播者自行确定。数据引用则分两种情况,一种是传统意义上的引用,另一种是借用作者的数据进行自己的研究。对于传统意义的引用,应该是完全免费;但对于将别人出版的科学数据作为自己研究的一部分,用户应根据原数据作者或传播者的要求进行免费或收费引用,或者通过数据交换或共同署名的方式进行引用。
开放科学环境下,科研人员担心各种开放模式带来的变化有可能影响到对他们的学术认可与评价。混合出版模式融合了数据仓储出版和数据期刊出版功能,平台可以根据混合评议及数据利用的综合表现,向数据期刊推荐数据。数据期刊选择表现优秀的数据,进行同行评议或直接在数据期刊上正式发表,这个过程让作者得到了学术共同体的认可。而对于未能在数据期刊上发表的数据,平台不仅提供永久的公开与保存,而且由于有用户评议和图书馆评议机制的保障,高质量数据的可发现性将得以大幅度提升,进而提高平台的社会认可度。学术认可度与社会认可度的提升将吸引更多作者将自己的研究成果公开到平台上出版,以及更多的用户关注和利用平台数据。
开放科学为图书馆事业的发展带来了新的挑战和要求,也带来了新兴机遇。图书馆深度参与科学数据出版,是未来高校图书馆的发展趋势之一。
馆员的职业素养为图书馆参与科学数据出版打下了坚实的基础。开放科学环境下,出版商、图书馆、集成商和作者将在信息的创造和传播过程中进一步融合,图书馆馆员在科学数据的描述、组织、选择、评价、服务等过程中都可以发挥重要作用,如制定数据规范与标准、质量评议、数据分析与服务、永久存储与管理等:
元数据是推进科学数据共享、实现数据出版、支持数据的可发现和利用的重要基础。目前的数据仓储独立出版平台(如图文数据共享(Figshare))上数据的元数据只是按都柏林核心(Dublin Core,DC)元数据标准创建后,由作者进行核查和修改,这样简单的元数据并不能很好地支持对数据的深度揭示与利用。另一方面,科学数据有实验数据、测量数据、统计数据、观察数据、调查数据等,各个学科特点不尽相同,数据种类和格式存在多样性和复杂性,给数据出版的平台设计和数据的共享与利用带来挑战。而且相对学术论文而言,科学数据缺乏独立性,为了使数据更易于获取、互连和可发现,需要高质量的元数据来帮助理解和使用。高校图书馆在元数据标准制定与数据标引方面具有极其丰富的经验和专业的人才队伍,馆员可以制定更为专业和科学的元数据标准,借助工具和技术,实现对大规模数据的有效标引。
由于混合出版模式中数据质量评议的开放性和众包性,数据出版平台将汇集各种反馈意见和积淀各种利用数据。高校图书馆近年引进了大量具有一定学科背景的高学历馆员,可以利用他们的专业知识和职业素养对这些信息进行梳理与挖掘,基于用户利用信息进行质量评议;可根据数据的关注度、下载量、引用量等的统计分析出数据的受众面、影响力等,构建相应的质量评价等级标准,对数据进行分类分级;可以利用科技查新等技能深入分析数据描述文档,对数据内容的创新性给以评价,为数据的后续利用提供指导性意见。而且,可以借鉴文献传递机制,以联盟的形式制定统一的评议标准,让众多图书馆及馆员参与,从而实现数据质量评议的标准化和规模化。
科学数据混合出版模式不仅实现数据的公开与长期保存,更关注如何进行有效的利用。高校图书馆可以借助其服务师生和科研人员的专业知识与技能,在科学数据利用与服务方面发挥重要作用。如引导师生积极出版自己的科研数据,帮助查找和使用研究数据;帮助研究人员发现与寻找合作对象,促进科研合作与交流、学科交叉与科学创新。
科学数据蕴含巨大的应用价值,图书馆馆员可以开展针对科学数据的多种增值服务。如根据研究人员、课题组或学科需求,检索收集专题数据并按主题或学科进行二次分类、标引等,形成特定数据集,帮助用户在海量数据集中专注跟踪了解自己的研究领域;对特定数据集进行数据挖掘与可视化关联分析,帮助用户对数据进行深层利用,使其隐藏的重要价值得以显现;帮助交叉学科项目收集、整理数据,形成相应的交叉学科数据利用平台;跟踪收集与整理失败数据,形成极具利用价值的失败数据检索与利用平台等等。
科学数据将与传统文献一样,成为人类发展历程中非常重要的知识类型。图书馆一直担负着人类知识积淀与传承的重要历史使命,必然将这一新型知识纳入图书馆统一收藏、管理、揭示与应用。目前科学数据出版平台的承建主体和运维经费来源多种多样,有的承建主体是政府或行业学会、协会等(如《中国科学数据》),也有承建主体是社会资本支持的商业机构(如图文数据共享);出版数据的学科领域、要求、标准等也各不相同,在平台连续性、永久性、标准统一性等多方面都存在问题。解决这些问题,需要数据出版平台最终从多元化向归核化转变。而科学数据混合出版模式由于有图书馆的多重参与,无论平台的承建主体是谁、运维经费来源何处,由图书馆永久保存数据,将可以最大程度地保障科学数据出版的完整性、连续性、公共性和服务性。
过去两年产生了全球迄今为止50%的数据,但仅有2%的数据得到了分析。科学数据混合出版模式采用开放性的混合评议机制,大大提升数据的质量评议比例,将更多的高质量数据从海量数据中突显出来,为用户选择和使用数据提供了有效参考;设置免费、收费、数据交换与共同署名等灵活多样的激励机制,可以提升数据出版内生动力,实现平台运维的自主造血,从而打造一个能长效运行的数据出版生态环境,积极推进开放科学环境下数据出版的健康长远发展。混合出版模式集聚了当前主流数据出版模式的优点,克服了它们的弊端。文章尚未对混合数据出版模式中涉及到的法律与隐私,收费的实现方法及其可能带来的其他问题,图书馆评议与打分标准、专家评议标准,科学数据的增值服务中包含的知识产权问题,图书馆如何实现永久保存等问题进行深层次的探讨,有待今后进一步研究。但无论如何,作为数据出版体系中一个重要角色,高校图书馆需要未雨绸缪并积极参与,才能为其在数据时代的转型升级赢得更强的竞争力。
注 释
[1][11]黄国彬,王舒,屈亚杰.科学数据出版模式比较研究[J].大学图书馆学报,2018,36(1):34-40+33
[2]何琳,常颖聪.国内外科学数据出版研究进展[J].图书情报工作,2014,58(5):104-110
[3]Eynden V,Corti L.Advancing research data publishing practices for the social sciences: from archive activity to empowering researchers[J].,2017,18(2):113-121
[4]Al-Hussaeni K,Fung B C M,Iqbal F,et al.Differentially private multidimensional data publishing[J].,2018,56(3):717-752
[5]Reilly S,Schallier W,et al.Report on integration of data and publication [EB/OL].[2019-10-07].https://zenodo.org/record/8307#.XZqkmWZ5vIU
[6]Yaseen S,Abbas S M A,Anjum A,et al.Improved Generalization for Secure Data Publishing[J].,2018,6:27156-27165
[7]梁子裕.国外科研数据出版模式研究[J].出版发行研究,2017(3):82-85
[8]张静蓓,任树怀.科研数据出版模式、流程及引用策略研究[J].图书情报工作,2015,59(9):21-27
[9]《中国科学数据》编辑部.中国科学数据[EB/OL].[2019-03-04].http://www.csdata.org/
[12]Figshare[EB/OL].https:// figshare.com/
[13][14]刘凤红,张恬.开放科学背景下新兴学术论文出版类型:研究要素出版[J].中国科技期刊研究,2017,28(02):138-144
[15]屈宝强,王凯.数据出版视角下的科学数据同行评议[J].图书馆杂志,2017,36(10):71-77
[16]frontier[EB/OL].[2019-04-04].https://www.frontiersin.org/
[17]BahlaiCA,BartlettLJ,et al.Open Science Isn't Always Open to All Scientists[J].American Scientist,2019,107(2):78-82
[18]国际科学编辑.中国相关机构明确力挺论文开放获取、支持S计划[EB/OL].[2019-10-08].http://m.sohu.com/a/281258891_100191228
[19]科塔学术.Figshare 数据知识库[EB/OL].[2019-08-08].https://www.sciping.com/18605.html
[20]Purohit S,Chappell A.Effective Tooling for Linked Data Publishing in Scientific Research[C].2016 IEEE Tenth International Conference on Semantic Computing(ICSC),2016:24-31
[21]Smith M.Communicating with data : new roles for scientists,publishers and librarians[J].,2011,24(3): 203-205
[22]Paige.「上云」不是终点,释放数据价值才是数字经济时代的「加油站」[EB/OL].[2019-10-07].https://www.geek-share.com/detail/2780650703.html