白云朴 李 果
(1.南京邮电大学管理学院 南京 210093;2.南京航空航天大学经济与管理学院 南京 211106)
如今科学数据开放共享已成为世界各国推进科技创新、提高国家核心竞争力的重要举措。已有文献从多学科视角对科学数据共享研究领域展开了大量系统的研究,主要集中于科学数据共享的影响因素[1-2]、共享机制与模式[3-4]、共享政策[5-6]、共享中的数据治理和管理[7-8]等方面。随着科学数据共享重要性的日益凸显,相关研究文献爆发式增长,少部分学者对当前科学数据共享研究领域的相关文献进行了系统梳理,如:张静蓓等(2014)从制度因素、技术因素与个人因素3个方面对国外科学数据共享影响因素的相关文献进行梳理和总结[9]。黄如花和邱春艳(2013)从科学数据共享的动力和障碍、共享带来的实质性影响、不同主体的认知态度与责任、相关政策法规等方面综述了国外科学数据共享研究的现状[10]。马慧萍(2020)利用文献计量分析方法对近10年国内图书馆科学数据共享的研究成果进行归纳与总结[11]。总体来说,国内对科学数据共享文献进行梳理的研究多以定性分析和主观综述为主,在文献梳理的系统性和客观性方面有所不足,而且涵盖内容不够全面。此外,现有为数不多的定量分析文献以关键词共现研究为主,对研究路径演进和文献内容分析有所欠缺。如今,科学数据共享领域的研究文献时空范围不断扩大,研究主题也更加丰富,鉴于此,本文采用文献计量学的研究方法,对科学数据共享领域研究文献进行系统、科学的梳理,挖掘该研究领域的知识基础,探索该领域的研究热点,厘清科学数据共享研究的演化路径及其阶段特征,为促进国内相关理论研究与实践发展提供参考。
本研究数据来源于2001—2020年期间Web of Science核心数据库的社会科学索引,以TS=“scientific data sharing”为检索关键词,文献类型为“Article and Review”,语种为“English”,一共检索到4567篇,通过剔除条件不符的(包括会议摘要、会议论文等)文献,最终筛选得到有效文献3 816篇。
本研究运用科学知识图谱法,科学知识图谱法是将某研究领域的科学知识进行可视化从而展示某研究领域的知识基础、研究热点、演化路径的一种分析方法。通过使用Citespace软件对科学数据共享相关文献进行关键词共现和文献共被引分析,以探索科学数据共享研究领域的文献产出情况、研究热点、知识基础以及研究演化历程。
论文发文量反映了学者对于科学数据共享研究领域关注的变化。为了解全球科学数据共享研究领域的发文量变化趋势,以时间为横轴,以每年发表论文的篇数为纵轴,绘制出近20年的发文量变化趋势图(图1)。从年度论文发表数量来看,2001—2020年期间,科学数据共享研究领域发文量总体呈上升趋势。由于科学数据的开放共享离不开政策的支持和推动,因此,本文按照文献发表的年度变化趋势和世界主要国家的数据开放共享政策制订的关键事件,将近20年科学数据共享研究分为三个时期,即“起步探索期”、“快速发展期”和“高速爆发期”。
图1 年文献发表数量
“起步探索期”是2001—2008年。此阶段国内外科学数据开放共享处于起步阶段,发文量虽然较少,但呈逐年上升趋势。自1991年7月美国总统行政办公厅科技政策办公室发布《全球变化研究数据管理政策声明》要求实行“完全与开放”的科学数据共享以来,学术界和科学界逐渐认识到了科学数据共享对科学研究的重要性,世界各国政府、资助机构和出版机构也开始积极出台一系列推动数据开放共享的政策。2001年,我国提出了“实施科学数据共享工程”的建议,并于2002年11月正式启动“科学数据共享工程”[12]。2003年11月,欧盟议会最终通过了《公共部门信息再利用指令》;2006年12月,经合组织(OECD)颁布了《OECD获取公共资助的研究数据的原则与指南》,开启了国际组织科学数据开放共享政策制定的先例。
“快速发展期”是2009-2012年。2009年是一个重要的转折点,随着数据开放获取的推进和科学数据潜在价值的挖掘和重视,科学数据共享相关文献发文量突破一百。同时,美国总统奥巴马于1月签署了《开放透明政府备忘录》,要求建立更加开放透明、参与合作的政府,体现了美国政府对开放数据的重视。同年,美国政府数据门户网站Data.gov于5月上线,美国行政管理和预算局向白宫提交的《开放政府令》于12月获得批准,“开放政府数据”(Open Government Data,OGD)运动在全球范围内迅速兴起。此后,2011年9月20日,巴西、印度尼西亚、墨西哥、挪威、菲律宾、南非、英国、美国等8个国家联合签署《开放数据声明》,进一步推动了“开放数据”运动的快速发展。
“高速爆发期”是2013-2020年。随着国际“开放数据”运动的迅猛发展,学术界对科学数据共享研究日益活跃,每年的文献发表数量持续攀升。2013年也是一个重要的转折点。科学数据共享相关文献发文量突破两百。同年6月,八国集团首脑在北爱尔兰峰会上签署了《G8开放数据宪章》(G8 Open Data Charter),法国、美国、英国、德国、日本、意大利、加拿大和俄罗斯承诺,在2013年年底前,制定开放数据行动方案,此举成为开放数据运动的标志性事件[13]。2013年5月,美国总统奥巴马发布了具有历史意义的《开放数据并让机器可读》(Making Open and Machine Readable the New Default for Government Information)行政令,具有法规性质。此外,美国白宫建立了一个名为开放数据项目(Project Open Data,POD)的开源项目。自从2013年以来,越来越多的国家政府、科研资助机构和出版期刊等利益相关者机构等开始大量密集的颁布科学数据共享政策来促进科学数据的开放共享。比如国家层面:美国政府于2014年颁布了《美国开放数据行动计划》(U.S. Open Data Action Plan);英国于2016年制定了《英国开放数据行动计划》(Concordat on Open Research Data);中国国务院办公厅于2018年4月颁布《科学数据管理办法》,这是我国确立大数据国家战略以来,首个从国家层面制定的明确以推动科学数据管理与开放共享的政策。科研机构和出版期刊层面:Nature期刊将“开放获取S计划”列入“2019年十大科学事件”;PLOS ONE于2014年发布了新的开放数据政策,要求作者在提交论文的同时提交支持论文结论的数据。资助机构层面:欧洲研究理事会(ERC)在2017年发布《科学出版物与科学数据开放获取实施指南》;美国国家科学基金会(NSF)在2015年发布《NSF公共获取计划》;欧盟委员会(EC)在2016年发布《2020计划框架下的FAIR数据管理指南》等政策。
通过对2000-2020年期间科学数据共享研究热点进一步分析,提取top15的高频关键词:data sharing(数据共享)、data management(数据管理)、system(系统)、framework(框架)、big data(大数据)、information(信息)、knowledge(知识)、database(数据库)、challenge(挑战)、citizen science(公民科学)、health care(健康医疗)、network(网络)、ecology(生态学)、open science(开放科学)、technology(技术)等(见表1),这些关键词不是孤立存在和发展的,而是相互联系,相互影响,共同反映了国外科学数据共享的两大研究热点,即数据共享的技术研究和行业应用研究,其中关键词“system”“framework”“database”“technology”“network”反映了科学数据共享的技术研究,“management”“information”“knowledge”“ecology”“health care”反映了数据共享的应用研究。
表1 国外科学数据共享研究领域的高频关键词列表(TOP15)
自开放数据运动在全世界范围内兴起后,众多学者就开始探讨如何开发技术以支持科学数据的安全共享。迄今为止,支持科学数据共享的基础技术主要有两种。一是语义网技术。语义网技术提供了一种数据集成和共享的方法,可用于广泛分布在网络上的各种数据资源,这种方法特别适用于从公共领域的大量数据中获利的科学领域。Zhang、Li和Zhao(2007)提出利用地理空间语义网技术解决地理空间数据共享问题[14]。Machado等人(2015)提出将语义网技术运用到转化医学中,形成一个共享数据的解决方案网络,以便将新的科研成果更快地应用于临床实践中[15]。二是区块链技术。区块链作为最广泛使用的分布式账本技术之一,能够降低数据泄露的风险,近年来被广泛应用于金融领域和医疗健康领域。Zheng等人(2019)提出将区块链技术与物联网技术相结合建立健康数据共享系统,以解决医疗健康数据共享中的数据安全和隐私问题[16]。Sultana等人(2020)基于零信任原则和区块链技术提出了一种防止医疗健康数据泄漏的安全医疗图像共享系统,提高了医疗卫生数据传输的安全性[17]。同时,由于区块链技术也有一些缺点,比如,固有的交易速率限制、交易费用高、算力门槛高等,使它不能用作物联网数据共享的通用平台。
通过对科学数据共享研究的相关文献进行领域共现分析,得到领域共现图谱(见图2),发现科学数据共享涵盖诸多学科,其中主要包括计算机科学、生态环境科学、生物科学和健康医疗科学等。
图2 领域共现图谱
a.计算机科学领域。计算机科学作为实现数据共享的技术基础,被广泛的应用于构建科学数据共享基础设施中。Schuchardt等人(2007)提出了基集交换(BSE)体系结构,BSE提供一个共享的、网络可访问的环境,用以跨组织管理数据和在用户社区之间共享知识[18]。Shifeng Fang等人(2014)提出了一种将物联网、云计算、地理信息学(遥感、地理信息系统、全球定位系统)和环境监测与管理电子科学相结合的新型信息集成系统,用于地理环境信息和数据的采集、存储、共享等[19]。美国学者Paul A.Harris等人(2019)为采用研究电子数据集数据管理软件(REDCap)的任何学术、非盈利机构或政府机构创建了更广泛的数据共享和支持模型,REDCap作为一个安全可靠的web应用程序,用于构建和管理在线调查和数据库,旨在支持研究机构之间的研究数据共享[20]。
b.生态环境科学领域。随着环境观测系统和环境传感器网络用于实地研究和监测的迅速增长,以及公民科学项目的不断推进,生态学和环境科学进入一个数据密集型科学时代。生态环境学家越来越多地生成和共享大量的数据,这些数据不仅可用于学科领域内的科学研究,如元分析和研究再现性等,还被用于学科研究范围之外,包括决策、自然资源管理、教育等。Michener(2015)基于生态学数据共享的历史,研究生态数据共享的社会障碍,资助者、期刊出版商以及网络基础设施在数据共享中的作用,并总结了一套共享生态数据的最佳实践[21]。Kervin等人(2014)通过研究发现虽然大多数环境和生态科学家愿意共享他们的数据,但他们将面临数据管理经验不足,缺乏有效和易于使用的元数据管理工具、数据管理的机构支持和资源较少等一系列挑战[22]。Hampton(2015)认为思维方式的转变是数据共享的基础,比如考虑数据管理而不是数据所有权,在数据生命周期和项目持续时间内保持透明度,以及愿意在公开场合接受批评等[23]。
c.生物科学领域。目前,全球生物数据分散在相互独立的不同数据库中,生物科学界正通过一些科研项目致力于实现不同数据库之间的共享。数据共享和再利用在现代生物多样性研究中尤为重要。Goddard等人(2011)通过回顾生物多样性数据存储的现状,讨论了影响数据共享的技术和社会障碍[24]。Candela等人(2015)提出用于支撑生物数据共享的基础设施D4Science,该设施可用于共享实践的两个关键阶段,即数据采集和数据准备,研究人员可以直接使用该设施共享生物数据[25]。Kim和Burns(2016)利用制度理论和计划行为理论模型研究制度环境(资助机构、期刊出版商等)对生物科学家共享规范、行为和态度的影响程度[26]。
d.健康医疗领域。物联网的快速发展正在推动医疗保健从数字化向智能化发展。由智能设备产生的大量健康数据,大多分散在不同的医疗保健系统和公共或私人数据库中,安全地共享这些健康数据,既可以使所有利益相关者受益,还可改善公共卫生保健系统。Xueping Liang等人(2017)提出了一个以用户为中心的健康数据共享解决方案,该方案利用一个分散化的许可区块链来保护隐私,并采用会员制度加强身份管理[27]。Rankin等人(2020)提出可以使用完全合成的数据替代真实数据进行共享,合成数据是从真实数据中模拟出来的,通过使用真实数据的基本统计特性来生成具有相同统计特性的合成数据集,这能够避免患者真实信息和敏感数据的泄露[28]。神经影像学作为医学的一个重要分支,其领域内的数据共享近年来呈指数级递增趋势。Poline等人(2012)等人通过分析神经影像数据共享的现状、技术障碍和社会伦理障碍,指出未来神经影像学的研究将取决于多种类型数据的整合,研究将倾向于知识管理,而不是数据管理[29]。
为获取科学数据共享研究领域的知识基础、研究前沿及其发展趋势等有价值的信息,对文献进行共被引分析,形成科学数据共享研究演化图谱(见图3)。根据科学数据共享研究的三个发展阶段(起步探索期、快速发展期、高速爆发期)划分为三个相应的知识群,然后分析每个知识群基础知识网络架构的关键节点文献、具有影响力的文献及高频关键词,揭示该研究领域在近20年来的研究演化趋势和每个阶段特征。
通过对2001-2008年期间科学数据共享研究领域所发表文献的参考文献进行文献共被引分析,发现此阶段该研究领域知识基础网络中一共有3篇关键的节点文献,这些节点文献的中心度较高,被引频次较多,是科学数据共享研究领域早期的奠基之作,如表2所示。1995年发表的《自然科学期刊的共享授权政策》(Mandating Sharing: Journal Policies in the Natural Science)探讨了期刊出版商所出台的各项数据共享政策,指出期刊在数据共享中发挥了“把关人”的作用[30]。1994年发表的题名为《从伦理、制度、法律和专业视角探究生物医学和健康科学的统计数据共享》(Sharing Statistical Data in the Biomedical and Health Sciences: ethical, institutional, legal, and professional dimensions)的文献,该文基于国家统计委员会在1985年发布的一份关于共享研究数据的报告,从伦理、制度、法律和专业角度分析了生物医学和健康科学中的研究数据共享[31]。这两篇文章都研究的是制度环境对科学家共享数据的影响,是制度理论的应用,这表明此阶段数据共享研究理论部分受到了制度理论的影响。1988年发表的《科学家对数据共享的态度》(Scientists’ attitude toward Data sharing)就数据共享问题对来自不同领域的研究人员进行调查,研究发现大部分研究人员表示他们的同事不愿意共享研究数据,其原因众多,并根据不同的研究领域有所不同[32]。通过研究态度来解释科学家数据共享行为的合理性,是计划行为理论的观点,这表明此阶段的科学数据共享研究领域还受到了计划行为理论的影响。总体而言,通过对本阶段科学数据共享研究领域的知识基础共被引关键节点文献分析,可以获知此阶段科学数据共享研究领域受到了制度理论和计划行为理论的影响。
图3 科学数据共享研究领域文献共被引时区知识图谱
表2 2001-2008年期间知识基础共被引关键节点文献(中心度大于0.1)
本阶段数据共享研究领域一共发表了468篇相关文献,其中有6篇文献在该领域具有较大的影响力,如表3所示。《Taverna: Lessons in Creating a Workflow Environment for the Life Sciences》介绍了一个用于生物学研究领域的科学工作流系统Taverna[33]。该文的引用频次是326次(谷歌检索被引频次是992次),是本阶段引用频次最高的文献。《Knowledge Sharing Behavior of Physicians in Hospitals》首次基于理性行为理论和计划行为理论探讨影响医院医生知识共享行为的因素[34]。《Data withholding in Academic Genetics - Evidence from a National Survey》详细、系统、定量地描述了遗传学研究领域中的数据保留现象[35]。《The New Bioinformatics: Integrating Ecological Data from the Gene to the Biosphere》详细描述了信息学框架,提出将信息学与自动数据集成技术和科学工作流系统相结合应用于生态学数据的收集和管理[36]。《A Taxonomy of Data Grids for Distributed Data Sharing, Management, and Processing》研究了科学数据共享模式数据网格概念特征,并将其与其他数据共享和分发模式进行了比较[37]。《Sharing Neuroimaging Studies of Human Cognition》研究了功能磁共振成像数据的共享现状和动机等[38],引起了神经影像学界的广泛关注,也是本阶段最具有影响力的文献之一。
表3 2001-2009年期间发表的最具有影响力的6篇文献(被引频次大于100)
提取本阶段科学数据共享研究领域出现的高频关键词,如表4所示。通过对高频关键词以及背后的文献内容进行分析,发现此阶段科学数据共享研究领域的研究热点有:科学数据共享平台尤其是科学数据库的研究、科学数据共享技术研究和科学数据共享模式研究。其中科学数据共享平台包括数据网格、对等网络和分布式数据库等,科学数据共享技术有数据网格技术、语义web技术等。
表4 2001-2008年期间发表文献的高频关键词(Top10)
综上所述,通过对本阶段科学数据共享研究领域最具有影响力的文献进行分析和高频关键词挖掘,发现此阶段学术界的研究热点有科学工作流系统研究、科学数据共享平台研究、科学数据共享技术和科学数据共享模式研究。此外,学科领域主要集中在生物信息学、神经影像学和生态学,这与生物学和医学数据的暴增以及生态科学的学科属性是分不开的。
通过对2009-2012年期间科学数据共享研究领域所发表的文献进行文献共被引分析,得到本阶段该研究领域知识基础网络中4篇关键的节点文献,如表5所示。《Cyberinfrastructure for E-science》研究了英国e-science项目中如何应用网络基础结构来实现科学家之间的协作式研究,共享信息和数据[39]。该文的被引频次为11,中心度为0.16,是科学共享研究领域知识基础网络中最重要的一篇文献。《Cyberinfrastructure: Empowering a “Third Way” in Biomedical Research》提出了信息基础设施可以实现在虚拟社区中储存、管理、访问和共享生物医学数据的文献[40]。《Data Sharing in Genomics — re-shaping Scientific Practice》研究了当前机构(包括资助机构和期刊)所采取的各种数据共享政策以及其对科学实践的影响[41]。《Data Sharing by Scientists: Practices and Perceptions》通过调查研究了科学家数据共享的现状,以及他们影响科学数据共享的因素[42]。通过分析这四篇关键节点文献,可以发现此阶段科学数据共享研究领域受到了英国e-science计划和虚拟组织理论的影响,其中e-science计划是英国研究理事会科技办公室主任约翰·泰勒(John Taylor)博士在2000年提出并宣布实施,是为了应对当时各学科研究领域所面临问题的空前复杂化,利用新一代网络技术和广域分布式高性能计算环境建立的一种全新科学研究模式,即在信息化基础设施支持下的科学研究活动。
表5 2009-2012年期间知识基础共被引关键节点文献(中心度大于0.1)
在本阶段科学数据共享研究领域一共发表了535篇文献,其中有6篇文献在该领域最具影响力,如表6所示。《The Conundrum of Sharing Research Data》探讨了当前讨论的热点、“数据”本身存在的问题、支持数据共享的政策措施、利益相关者的不同观点以及研究数据的相关伦理和认识论方面[43]。《The Global Index of Vegetation-Plot Databases (GIVD): a new resource for vegetation science》提出由于使用新的方法和信息技术,使得个体研究人员和团队能够收集前所未有的大量观测数据,科学的“长尾”变得更加数据密集[44]。《The Tension Between Data Sharing and the Protection of Privacy in Genomics Research》提出在基因组学研究中需要改进现有的研究治理体系,使之既能保护研究参与者的个人隐私,又能确保有效的数据共享[45]。通过对科学数据共享研究领域最具有影响力的5篇文献进行分析,发现基因组学领域、神经影像学领域是数据共享的先行者,学术界给予了充分的关注。此外,学术界的研究是基于阻碍数据共享的因素和激励数据共享的政策展开。
表6 2009-2012年期间发表的最具有影响力的6篇文献(被引用频次大于100)
通过对2009-2012年期间科学数据共享领域出现的高频关键词及其背后的文献内容进行分析,如表7所示。发现除传统的关键词外,该领域在本阶段出现许多新的高频关键词,比如“Ecology”“Biodiversity”“Policy”“Impact”“Collaboration”等。高频关键词“Biodiversity”和“Ecology”的出现,说明本阶段学术界日益关注生物多样性科学和生态学的数据共享问题。
表7 2009-2012年所发表文献出现的高频关键词(Top10)
原因在于生物多样性科学和生态学作为一门数据密集型科学,需要解决的问题涵盖了时间和空间尺度。
综上所述,通过对本阶段科学数据共享研究领域最具有影响力的文献进行分析和高频关键词挖掘,发现此阶段学术界的研究热点有科学数据共享政策、科学数据共享数据库建设和科学数据共享模式。此外,学科领域主要集中在生物学、基因学、生态学领域。
通过对2013-2020年期间科学数据共享研究领域所发表的文献进行文献共被引分析,得到本阶段该研究领域知识基础网络中4篇最关键的节点文献,如表8所示。2012年所发表的《Ecoinformatics: Supporting Ecology as a Data-intensive Science》基于数据生命周期,提出了将生态信息学纳入主流生态学研究中的观点[46]。该文的被引频次是35次,中心度是0.22,是此阶段科学数据共享研究领域基础知识网络中的重要节点文献。2011年所发表的题名为《Data Sharing by Scientists: Practices and Perceptions》[47],该文被引用81次,在谷歌搜索频次高达1033次,中心度为0.11,也是此阶段科学数据共享研究领域基础知识网络中的一篇重要节点文献。2013年发表的题为《If We Share Data, Will Anyone Use Them? Data Sharing and Reuse in the Long Tail of Science and Technology》研究指出科技长尾中的数据共享是由需求驱动的[48]。通过对2013-2020年期间科学数据共享研究领域的4篇知识基础文献分析,发现这4篇的研究思想都是基于数据生命周期研究科学家数据共享实践过程以及对数据共享的态度,并从政策、技术层面提出建议,表明本阶段的数据共享研究受到数据生命周期理论的影响。同时,此阶段的研究范围从“大科学”数据拓展到“长尾”科学数据,表明此阶段该领域还受到“长尾”理论的影响。
表8 2013-2020年期间知识基础共被引关键节点文献(中心度大于0.1)
此阶段科学数据共享研究领域总共发表了2 815篇文献,表9列出了该领域最具有影响力的8篇文献。其中被引次数最高的文献是2016年Kidwell等人在PLos One期刊上发表题名为《Badges to Acknowledge Open Practices: A Simple, Low-Cost, Effective Method for Increasing Transparency》的文献,该文研究了期刊《心理科学》采取的促进开放实践的激励措施[49]。《How Open Science Helps Researchers Succeed》从出版、资助、资源管理和共享、研究人员的职业发展四个方面探讨开放科学实践,并为学术界实施开放科学提供建议[50]。《Materials Science with Large-scale Data and Informatics: Unlocking New Opportunities》研究了材料科学领域利用信息学技术分析材料数据的现状,探讨了与数据密集型材料研究相关的挑战和机遇,并提出未来材料科学领域中材料信息学的发展方向[51]。《Making Data Sharing Work: The FCP/INDI Experience》提出神经影像学界开放存取模式下共享数据的关键在于:尊重参与者的隐私和保密性、数据共享的平台保障以及长期可持续性[52]。《Changes in Data Sharing and Data Reuse Practices and Perceptions among Scientists Worldwide》研究了科学家之间的数据共享、重用感知和实践的现状,以及在不同年龄、地理区域和学科之间的差异[53]。《What Drives Academic Data Sharing?》提出了数据共享的概念框架,并分析了每个类别中的子类别以及数据共享的阻碍因素和促成因素[54]。《Big Data from Small Data: Data-sharing in the 'long tail' of Neuroscience》研究了由单个神经科学家产生的小数据集共享的问题,即所谓的长尾数据共享[55]。
通过对2013-2020年期间科学数据共享研究领域出现的高频关键词进行筛选分析,如表10所示,发现一些高频词如“Data sharing”“Model”“Impact”“System”等仍然出现,这说明数据共享的基础设施系统、数据共享的影响仍然是重要议题。关键词“Management”在本阶段中出现的频次尤为突出,表明各学科领域中的数据管理是本阶段的重点研究热点。高频关键词“Framework”的出现,表明数据共享基础设施成为研究热点,因为随着工程技术和科学技术的进步,研究人员利用云计算等信息技术实现数据安全可靠的数据传输、共享和访问。关键词“Knowledge”“Information”说明了学术界已经开始由数据共享逐渐拓展到信息共享和知识共享,并将三者结合起来研究。此外,“Citizen science”的高频出现,是因为近年来,公民科学变得越来越流行,在全球范围内,数千个公民科学项目吸引了数以百万计的公民参与其中,公民科学项目被当作一种非常高效的工具,已经被广泛地用于生物学领域和生态环境科学领域。在本阶段学术界对数据共享的研究日益活跃,研究热点多元化。
表10 2013-2020年所发表文献出现的高频关键词(top10)
总之,通过对在本阶段科学数据共享研究领域最具有影响力的8篇文献和高频关键词进行分析,发现本阶段该领域的主要研究热点包括:科学数据存储库、科学数据管理、数据共享基础设施建设、长尾科学数据共享。此外,学科领域主要集中在材料科学和神经影像学领域。
本文运用科学知识图谱法对Web of Science核心数据库所收录的2001-2020年间科学数据共享领域3816篇文献进行了全面梳理和总结,对其研究发展阶段、研究热点及其研究路径演化展开深入剖析,较为清晰地展现出了科学数据共享研究的发展脉络和演化过程,为该领域后续研究者把握该领域的研究热点、新动态、新方向提供了基础参考。
本文研究的主要贡献有:一是对科学数据共享研究领域的研究热点进行分析和总结。从总体上看,科学数据共享研究领域的研究热点主要集中在技术研究和应用研究两大方面。技术研究主要是利用语义网技术和区块链技术实现科学数据共享技术难关突破。应用研究涉及到在计算机科学、生态环境科学、生物科学和健康医疗科学等领域的科学数据共享的应用。二是对科学数据共享研究阶段进行划分。按照科学数据共享研究文献发表的年度变化趋势和世界主要国家的数据开放共享政策制订的关键事件,将近20年科学数据共享研究分“起步探索期”“快速发展期”和“高速爆发期”三个阶段。三是科学数据共享研究的演化路径分析。基于对科学数据共享研究阶段的划分,对每个阶段所发表的文献进行共被引分析,挖掘该研究领域在各个发展阶段的知识基础网络结构和研究热点。“起步探索期”的相关研究受到制度理论和计划行为理论的深刻影响。研究热点集中在科学工作流系统研究、科学数据共享平台研究、科学数据共享技术和科学数据共享模式研究,学科领域主要集中在生物信息学、神经影像学和生态学领域。“快速发展期”的相关研究受到英国e-science计划和虚拟组织理论的较深影响。其研究热点集中在科学数据共享政策、科学数据共享数据库建设和科学数据共享模式,学科领域主要集中在生物学、基因学、生态环境学领域。“高速爆发期”的相关研究受到数据生命周期理论和长尾理论的深刻影响,其研究热点主要集中在科学数据管理、数据共享基础设施建设、科学数据存储库、长尾科学数据共享,学科领域主要集中在材料科学和神经影像学领域。
随着我国科技的快速发展,中国已经发展成为国际上推动科学数据资源建设与发展的重要参与者,越来越重视提升科学数据的管理能力,推动科学数据的开放共享。但我国目前仍面临诸如对科学数据共享的重视度不够、科学数据主权流失、科学数据共享技术不成熟、科学数据共享范围不广等问题[56]。根据对国外科学数据共享的研究,首先发现国外科学数据共享是由国家政府、资助机构、出版期刊等多方利益相关者共同推动的结果。而我国对科学数据共享的重视程度不够,无论从国家层面还是其他利益相关者层面颁布的政策较少,政策力度不够,对科学数据的分级分类开放也没有详细的操作指南。因此,我国要促进科学数据共享的深度和广度,就要加快构建科学数据共享开放的政策体系,充分调动科学数据多方利益相关者的共享积极性,尤其是我国出版期刊的积极性,将科学数据主权掌握在我们自己手中。其次,科学数据的有效保存和积累是实现数据共享的前提。国外从20世纪初就已经开始科学数据共享平台和科学数据库的建设,以及科学数据管理软件的开发和应用,并贯穿至整个科学数据共享演化历程。我国虽然已经在多学科领域建设了一批科学数据中心和科学数据库,但在国际上具有知名度和较高权威优势的科学数据中心和科学数据库还很少,其根本还是我国科学数据共享技术不成熟,尚未形成系统的科学数据管理体系。最后,进一步拓展科学数据国际合作方式和渠道。目前,我国在国际上科学数据共享实践中以交流为主,缺乏深入的国家合作实践。科学数据的共享需要加强国际合作与交流,国际上已经存在一些科学数据合作组织和计划,比如欧盟委员会、美国国家科学基金会和美国国家标准与技术研究院、澳大利亚创新部等于2013年共同组建的科学数据联盟(RDA)。