我国科学数据开放共享模式、标准与影响因素研究

2021-01-07 21:23温亮明
图书情报研究 2021年1期
关键词:科学

温亮明 李 洋

(1.中国科学院计算机网络信息中心 北京 100190;2.中国科学院大学 北京 100049;3.成都体育学院图书馆 成都 610041)

1 引言

随着数据获取、数据存储、数据处理等技术的不断发展,技术创新和科学研究也走向了以数据为资产的科学大数据时代,数据密集型科学与发现成为新的研究范式,也顺势出现了一批以数据为基础的新兴交叉学科[1],科学数据的概念逐步被提及。科学数据是在领域或学科知识指导下,在科学研究过程中对研究对象进行抽象和概念化后所形成的、以科学证据形式存在的基本数据、资料以及经系统加工而成的数据产品和相关信息[2-4]。科学数据被认为是证实或者证伪科学发现或科学观点的事实、证据或者论证推理的基础[5],既是科学研究不可或缺的重要组成部分,又是科技创新活动中最基本的要素,还是科技创新、经济发展和国家安全的重要对象与基础条件,具有很大的潜在价值和开发价值,是信息时代最基本、最活跃且影响面最宽的基础性和战略性科技资源,对国家科技发展具有重要意义[6]。

尽管科学数据储量大、价值高,但传统的“自给自足”式科研理念已经不足以完全支撑当前科研活动的需求[7]:一方面数据生产者不知如何使用所掌握的大量数据资源,另一方面以数据为原材料的科学研究无法获得可供分析的数据。此困境的缘由之一即是科学数据未在数据生产者和数据使用者之间进行有效的开放共享。因此,推动科学数据开放共享已成为现代科学研究的必然诉求[8]。一些组织机构开始呼吁或要求数据生产者将所拥有的科学数据以标准、规范的形式对科学共同体开放,以供他人获取和重用。科学数据之所以需要被开放共享有一定的理论依据[9]:其一,任何个人或单个组织的能力是十分有限的,为了适应当前基于海量科学数据的科研发展趋势,必须借助其他相关领域的科学数据;其二,科学数据是科技活动长期积累的一种科技资源,其具有特殊的排他属性,具有很大的潜在价值并且可以在应用中不断增值;其三,国家投资所产生的科学数据对外共享是对纳税人纳税义务的一种补偿,信息公开是政府应当对公众承担的一项法定职责。此外,还有学者提出了科学数据共享的4个理由[10]:便于证明或证伪现有结果、使公共资助产生的结果实现效用最大化、使其他人利用现有数据提出新的科学问题、提升研究水平和创新能力。

目前,已有众多专家学者从不同层面对我国科学数据开放共享实践及其理论研究的相关问题进行了有益探索,如科学数据开放共享政策调查、科学数据共享行为分析、科学数据平台/中心案例分析、科学数据开放共享路径探索、科学数据共享平台构建、国外科学数据共享经验推介等,但关于共享模式、标准规范、影响因素三个主题的研究较少。共享模式和标准规范的形成说明科学数据共享已经存在成熟的运行机制,准确识别影响因素可为后续优化科学数据共享服务策略提供参考借鉴,因此本文将归纳总结以上三个主题现有研究成果的核心观点,以期对现有研究成果内容体系进行补充和完善。

2 科学数据开放共享的模式选择

科学数据开放共享在实践中逐步形成了适合当前共享工作需要的普遍范式,按照不同的分类标准可以划分出不同的共享模式[11]。目前国内研究大多以数据所依托的组织机构形式对科学数据共享模式进行分类,如政策驱动模式、部门交互模式、企业驱动模式、国际合作模式等[12-14],本文从数据依附关系角度,将科学数据共享的模式归纳为以下科学仪器共享、数据平台共享、数据出版共享、众包处理共享、数据交易共享五种。

2.1 科学仪器共享模式

科学仪器是进行科学研究实现科学发现的重要基础之一,其在多个领域实时的、持续的产生着大量的科学数据。按照科学仪器的类型/用途可以将科学仪器共享模式划分为两类:(1)科学装置模式,以500 米口径球面射电望远镜(FAST)、北京正负电子对撞机(BEPC)、中国散列中子源(CSNS)等为代表的大型仪器设备及工程,源源不断生产和捕获超大规模数据资源以支持长期持续的科学技术活动[15]。根据科学装置中数据生产周期,又可以将其数据共享分为即时共享和延时共享两种类型[16]:①即时共享型,所生产的数据仅经过必要的标准化处理后即提供给数据用户;②延时共享型,所产生的数据必须首先满足项目组内部成员的科研需求,经过数据分级后再有选择、有目的、有计划的向社会公众与科研机构逐步开放。(2)监测网络模式,以国家生态系统观测研究网络(CNERN)为例,该网络建立了分布式的“野外台站——综合中心”二级服务体系[17],资源服务网站展示了各野外台站、综合中心的资源信息、资源实体,针对不同类型的资源提供不同的服务方式,实物资源实行在线申请、在线审批、线下服务的服务模式,数据资源实行在线下载、在线订单申请、在线订单跟踪、在线传送数据的服务模式,专题服务、示范模式在网站上均作了介绍和宣传,各野外台站、综合中心也公布了自己的资源共享目录和联系方式等。

2.2 数据平台共享模式

科学数据共享平台以数据源单位为主体,通过集成、整合、引进、交换等方式聚合国内外的科学数据资源[18],并对其进行规范化加工处理、分类存储,形成覆盖全国、联结世界,可提供科学数据共享服务的网络体系[19-20]。按照科学数据平台收录数据的学科领域范围可将数据平台共享模式划分为两种:(1)垂直模式,垂直模式是针对某一个学科领域或行业的数据共享平台,是对某学科领域专门的科学数据进行集成整合、加工处理,进而向特定的相关专业或学科领域需求者提供有一定价值的科学数据服务,该模式具有明显的领域特色与行业色彩,专、深、精是其特点,以组学原始数据归档库(GSA)为例,作为组学原始数据汇交、存储、管理与共享系统,其是国内首个被国际期刊认可的组学数据发布与共享平台,自2016年2月建成以来已获得包含PNAS、Cell、Cell Research等国际知名期刊60余种的认可,允许其作为本刊所发表论文支撑数据的存储与共享平台[21],已支持文章总数百余篇。(2)综合模式,综合模式是面向多学科或跨领域的科学数据共享平台,用户可以通过统一的访问界面对分布在不同节点的多个不同的数据平台进行联合检索,进而满足自己对科学数据的多元化、综合化、复杂化、高效化的需求,以中国科学院数据云(Data Cloud of CAS)为例,该平台已汇聚化学、天文、空间、地球科学、生物、农田水利、材料科学、信息技术等多个学科的1 100 多个数据集,配合科学数据存储库(Science DB),中国科学院数据云面向期刊、机构、项目、个人提供数据发布和获取服务[22]。

2.3 数据出版共享模式

数据出版不是对数据进行分析总结,而是强调在数据发布过程中遵循数据质量管理和控制流程而出版数据[23],使数据达到可发现、可获取、可理解、互操作、可重用的状态,从而实现数据增值[24],为科学数据开放管理提供了新的途径。国内已经出现了《全球变化科学研究数据出版系统》、《中国数据科学》等多种数据期刊,它们用人类可读的结构性描述数据,为学术界提供了一种具有公信力的出版物[25]。按照数据与论文的关系可以将数据出版划分为两种模式[26]:(1)数据集成出版模式,将研究数据作为论文的附件与论文集成出版,在这种模式下,数据并不独立,而是与已经发表的期刊论文密切相关。依据数据存储的位置该模式又可细分为期刊自存储自行出版和期刊与公共数据存储库合作共同出版两种形式,如《数据分析与知识发现》要求所有投稿论文必须提供支撑论文结论的内在数据和附加数据,数据可交由编辑部存储或作者自存储;(2)数据独立出版模式,依托出版渠道将科学数据以独立的研究成果形式出版,根据出版流程可细分为数据知识库出版和数据期刊出版两种形式,如《中国数据科学》和《全球变化科学研究数据出版系统》就是通过发表多领域的科学数据论文来推动科学数据的开放共享与规范引用。此外,还有部分期刊如《图书馆杂志》以混合出版的形式不定期收录一定数量的本学科领域的数据论文,以促进科学数据的开放共享。

2.4 众包处理共享模式

基于集群或平台的科学工作流方式已经很难满足结构复杂的科学大数据的处理需求,众包模式由于可以整合大众资源来完成机器单独难以完成的任务,因此被开始用于科学数据处理的各个环节[27]。众包的工作流程可以概括为[28]:任务请求人设计任务并在线发布——任务领取人查找、接收、回答并提交任务——任务请求人接收、整理答案。众包的本质是大众创新[29],根据大众参与形式,科学数据众包处理可以分为三种形式[30]:(1)协助集成模式,将科学数据处理任务分解成简单任务后对外公布,公众仅需具备基本科学素养即可参与;(2)竞争选择模式,将科学数据处理任务在线发布,发布方对公众提交的解决方案进行评估,择优选取并付予一定报酬;(3)微任务市场模式,将科学数据处理大任务分解为若干小任务后基于第三方平台分配给不同的公众处理。中国科学院计算网络信息中心相关团队从2015年5月开始,基于地理空间数据云平台(http://www.gscloud.cn/)累计发布并完成了53个遥感影像解译、专题图制作、数据预处理等任务,均取得了良好的实践效果[31]:在任务分发时,提出详细的任务需求并规定数据处理方法;专家按要求对任务领取人提交的数据处理结果进行质量评估,根据评估结果发放报酬;任务领取人的完成结果记录在数据众包人才库中,成为未来任务分配的主要参考依据。

2.5 数据交易共享模式

科学数据已经体现出强大的应用价值,而要想让科学数据持续推进社会发展,则还必须让其具有经济价值[32],数据交易平台则为数据经济价值的实现提供了场所。根据交易内容,可以将数据交易平台分为三种模式:(1)数据产品交易模式,如专注于人工智能数据服务的数据堂主要出售基础数据,其有两种主要的出售方式,一是根据需求方要求对采集的数据处理后出售,二是与其他数据拥有者合作开发数据产品而后出售;(2)大数据分析结果交易模式,如贵阳大数据交易所不进行数据交易,而是根据需求方要求对数据进行加工处理后再出售;(3)交易中介模式,如中关村数海大数据交易平台以第三方网上商城的形式存在,其本身不存储和分析数据,而是为数据需求者提供调用交易渠道。此外,根据数据所有者的组织形式,数据交易平台又可以分为数据专卖店和数据集市两种,数据专卖店是指由集成化、统一化的单一主体提供单领域数据,如遥感集市(遥感数据)、钱塘大数据交易中心(工业数据)、百度APIStore(API 接口数据)等数据交易平台;数据集市则为供需双方提供了交易场所,用户自主进行交互共享,如发源地、数粮等数据交易平台。

除了以上提出的几种科学数据共享模式外,还有学者梳理出其他共享模式[33],如以数据来源、组织形态、技术应用等为分类基准的一般共享模式,以学科/专业领域为分类基准的特定领域共享模式等。科学数据共享实践通常是多种模式自治的综合体,以上所列的模式之间势必会存在一定交叉重叠。当然,科学数据共享模式也在不断发展完善,不同学科领域、组织机构或国家的模式选择均不尽相同,不同的共享模式意味着不同的驱动机制、权责关系以及不同的管理方式与质量绩效等。科学数据共享实践会受制于科学共同体的既有框架,共享模式的变革会更倾向于一种循序渐进式的温和路线,它们将互相补充,共同推动科学数据共享。

3 科学数据开放共享的标准规范

标准化是为了在某一领域内获得最佳秩序,对现实问题或潜在问题制定共同遵守与重复使用规则的活动[34]。从目前的实践工作来看,我国科学数据相关的标准规范主要有描述标准、发布标准、引用标准和评价标准,四项标准层层递进,共同促进科学数据开放共享的效率和质量。

3.1 科学数据描述标准

科学数据共享的首要前提是数据能够被用户及时发现,特定的标签符号能准确详细地展现数据资源的内外部属性,便于需求者检索到所需数据资源,这为后续数据访问、操作和重用提供了条件。刘峰等提出了一种包含33项元素的通用型科研元数据标准框架[35],涵盖了元数据的标识、时空要素、数据归档、主体职责、主题范围、派生分类等方面的内容。2017年11月1日,国家标准化管理委员会官方网站发布了《中华人民共和国国家标准公告(2017年第29号)》,由中国科学院计算机网络信息中心(CNIC)主持研制的《信息技术 数据溯源描述模型》(GB/T 34945-2017)国家标准位列其中[36],该标准确定了数据溯源的主要元素、各元素之间的关联关系、语法规则以及模型结构图等。此外,《信息技术 大数据 术语》(GB/T 35295-2017)国家标准也于2017年12月29日发布,对信息技术大数据领域中的常用术语和定义做出了规范说明,这有助于在国内统一大数据的相关概念和术语,为科学数据研究的术语规范化提供了依据。

3.2 科学数据发布标准

开放共享并非无限制地自由共享,明确数据产品的发布标准,为不同层级、不同类型的数据资源限定共享范围、共享方式、共享程度,是保障数据所有者合法权益和维护国家数据安全的必要手段。国家地震科学数据共享中心编制的《地震科学数据 数据发布规范》包括数据分级、发布要求、发布对象、发布方式等内容[37],其中对各级别的数据发布范围作了明确的要求:一级数据可向社会公众开放、二级数据能够向国内外用户提供、三级数据只向国内用户提供、四级数据仅面向特定范围的用户,对数据的发布方式也有明确规定即一至三级数据通过网站查询、浏览、下载等在线方式发布,面向特定范围用户的四级数据则通过光盘、纸质媒介等离线方式发布。中国科学院微生物研究所微生物资源与大数据中心联合世界微生物数据中心(WDCM)通过与国际标准化组织生物技术委员会(ISO/TC276)的合作,于2017年7月制定了《微生物资源中心数据管理和数据发布标准(草案)》,预计经过论证、反馈、修正之后该国际标准将在2020年内正式颁布实施,届时这将是微生物资源数据领域的第一个ISO 国际标准[38],该标准的研究、制定与实施将有助于规范全球范围内微生物领域科学家的数据发布行为,保证微生物学领域资源数据开放共享的效果与质量,并提高各国微生物学领域数据的兼容性和互操作性,进而为高效的数据共享和大数据分析提供基础。

3.3 科学数据引用标准

目前,越来越多的学者和学术机构认为科学数据与学术论文同等重要。2020年4月9日发布的《关于构建更加完善的要素市场化配置体制机制的意见》中,数据作为一种新型生产要素出现在官方文件中[39],合理规范的引用标准有助于科学数据被更广泛的科学共同体参考引用。CNIC 一直在积极探索如何有效地引用科学数据:2012年,CNIC 制定的《科学数据引用规范》发布,提出科学数据引用分为必选元素式引用和全选元素式引用两种格式,八个必选要素包括作者、名称、发布机构、发布年份、传播机构、传播时间、唯一标识符和解析地址,版本为可选要素。2017年12月29日,CNIC 主持研制的《信息技术 科学数据引用》(GB/T 35294-2017)正式发布[40],该标准规定了科学数据引用元素描述方法、引用元素详细说明、引用格式等方面的内容,科学数据传播机构可根据该标准设计数据引用系统并声明数据引用规则,数据使用者可根据该标准著录科学数据引用信息[41]。《科学数据引用》国家标准已于2018年7月1日起正式实施,该标准的正式发布,标志着科学数据可以像学术论文一样被学术同行标准化引用[42],这必然在一定程度上促进科学数据的开放共享,进而促进科学交流的水平和质量。

3.4 科学数据评价标准

当一次完整的科学数据共享活动完成时,需要对数据产品和服务质量进行评价及时回顾总结共享过程的不足之处,数据评价标准一方面有助于数据质量控制,另一方面为数据价值鉴定和数据贡献程度量化提供了参考依据。2011年4月,CNIC 发布了《数据质量评测方法与指标体系》,总结出数据质量评测的方法包括定性方法(第三方评测法、用户反馈法、专家评议法)、定量方法(访问量统计、计算机辅助检查)和综合方法(层次分析法、缺陷扣分法),构建了包括基本层、准则层、指标选取要求、指标权重、冲突处理原则的数据质量评价指标体系。司莉等提出了一种科学数据价值鉴定的通用标准[43],包含价值标准(如科学价值、历史价值、经济价值)、质量标准(如准确可靠、非冗余、数据完整、内容有效)、成本效益标准(如保存成本、潜在成本)、法律限制性(如有无知识产权纠纷、合法性、保密性)、相对价值等要素(如与保存机构的相关性、数据相对完整性)。

4 影响科学数据开放共享的关键因素

科学数据开放共享是一项包含人、数据、设备、制度等的系统化工程,涉及到众多利益相关方,众多学者从不同角度分析了科学数据开放共享的影响因素。依据现有研究成果,本文将影响科学数据开放共享的因素总结为政策制度因素、技术平台因素、个人主体因素以及其他因素等。

4.1 政策制度因素

Stanley 等认为,数据共享不仅是一种自愿行为,更是一种科学责任的体现,资助管理机构的政策有助于监督数据共享职责的履行[44]。任何性质活动的开展均离不开与之相适应的制度的推动、引导与鼓励,在当前科学数据拥有主体仍然存在不愿或不敢共享现象的阶段,则更需要政策制定的积极推动,因为完善的机制体制可在科研数据环境中发挥积极作用,相关政策文件的出台、法律法规的制定则有利于促进科学数据的共享[45],制度与规范制定的不完善、政策与机制激励的不充分是制约我国科学数据开放共享的主要因素之一。目前科学数据开放共享的政策主要来自于政府部门、管理部门、资助部门、服务部门和使用部门等。因此,各级政府部门应该制定自上而下的法律法规与数据管理政策,鼓励和引导科学工作者将数据以合理、合规的方式共享出来,发挥数据价值、促进科学交流。管理部门要尽可能的实现对科学数据的全生命周期管理,制定针对各个周期或阶段特征的规范与政策,使科学数据在采集、存储、发布、共享、重用、归档等整个过程中有据可循,依规做到井井有条、层次清晰,进而便于科学数据的管理及其价值利用的最大化。资助部门作为科学研究活动所需经费的提供者,可以将科学数据开放共享作为资助的条件之一,在对涉密数据、重点数据、隐私数据等敏感科学数据进行保护的基础上要求将受资助科研项目产出的科学数据进行有益的开放共享,由企业资助的可在不影响企业利益的前提下要求开放共享。服务部门要对获得知识产权的数据进行规范化处理,做到结构化存储,研究制定数据服务政策,主动探索数据服务流程,做到数据服务过程的程序化、服务方式的规范化,积极提供数据管理服务、数据检索服务、数据咨询服务、数据分析服务、数据出版服务、数据评价服务、学科数据服务、数据知识产权服务、个性化数据服务等相关服务。使用部门应该制定相应的科学数据使用规范,约束使用者对共享数据的处理行为,保证数据能够被合理、合规、合法的使用,尽可能打消数据拥有主体对数据滥用的顾虑与担心,从而促进数据的开放共享。

4.2 技术平台因素

技术是影响科学数据开放共享的关键因素之一,技术的可操作性、易用性、有用性等均会对科学数据的开放共享产生一定的影响[46]。国家的繁荣发展带动了技术的日新月异,技术作为科学数据发挥效用的支撑与保障,在科学数据全生命周期的每个阶段均非常重要,其中在数据采集、数据存储、数据共享三个关键阶段,技术的重要作用则更为明显。各个学科领域的科学数据均有其鲜明的行业特征,因此在数据采集阶段要针对不同的学科领域选择合适的采集设备并使用不同的采集技术,做到数据资源的精准识别,尽可能全面且有效的做到数据采集的完整性与多元性,保证数据的质量,提高数据采集的效率。数据共享平台/中心作为科学工作者存储科学数据的主要工具,对数据保存与共享起着至关重要的作用,其友好性、有用性、安全性等均会对用户科学数据开放共享的意愿与行为产生一定的影响,进而影响科学数据开放共享的成效,如何将相近行业领域的异构数据、非结构化数据按照相应的元数据标准存储为可易被统一检索利用的结构化数据以保证数据的互联互通也值得思考。对于科学工作者来讲,必须掌握相应的科学数据共享技术,否则即使其有共享意愿也无法对所拥有的数据进行有效共享,相关数据分享平台/中心、数据期刊等必须对其接收数据分享的操作流程、标准规范、格式要素、元素描述及其使用、引用、重用等方法与规定进行充分的解释与说明,有条件的还可定期做用户培训,使其尽可能地掌握数据共享方面的技术,促进科学数据的开放共享,同时也要与时俱进创新数据共享的技术与方法,保证数据共享技术的可用性与易用性,尽量减轻用户的认知负担。科学数据开放共享的目的是尽可能地将其价值最大化,充分发挥其效用以促进科学交流与科学发展,因此数据的个性化服务、定制化服务、推荐服务等数据服务方面技术的开发与应用应该值得重视。此外,针对自然科学领域尤其是天文学、高能物理、生物医药等数据密集型领域,如何实现超高数量数据的实时保存和处理、关联数据集的瞬间发现与过滤,数据的自动化流转与加工等也是应该思考的问题。而且,要加强社会科学领域数据共享平台/中心的建设力度,并着力提升其影响力与吸引力,创新数据采集、存储、共享等方面技术也至关重要。

4.3 个人主体因素

虽然相关制度与政策正在逐渐的建立健全,也促进了科学数据的有效开放共享,但其效果还不尽人意,依然存在由于当前相关制度的不完善、激励措施的不充分、政策机制的不合理等问题而导致的科学数据开放共享效果不理想,有相当一批科学工作者不愿意将自己拥有的科学数据共享出来[47],一方面其私有观念认为数据共享后会威胁自己的利益失去数据给自己带来的竞争优势[48],另一方面个人隐私、知识产权、科学伦理等问题会造成其心理上的不安全,进而影响数据共享。科学数据共享需要以时间、精力等一定的成本作为支撑,如果没有相应的激励措施或制度的强制性要求,科研人员很难主动将自己的数据共享出来,还有部分共享意愿较为强烈的数据拥有者,由于其开放共享的能力不够或知识技能欠缺而无法参与到数据共享的过程中来,进而导致数据无法共享。此外,科学工作者个人的背景因素及其是否认同科学数据开放共享理念也会对数据的开放共享产生一定的影响。科研成果的出版作为研究者劳动付出的回报和名誉的保证早已成为共识,而科学数据的共享则需要思考建立何种机制来评价科研工作者的工作成效,采取何种方式来保证对数据共享者的回报以及激发他们共享科学数据的积极性[49],如何保证其数据开放共享的预期收益也值得思考。

4.4 其他相关因素

除上文述及的政策制度、平台技术、个人主体对科学数据开放共享的影响因素外,科学工作者所处的工作环境、文化氛围、机构内部的激励措施等组织因素,科研项目所处的研究阶段、同行之间学术优先权的争夺等学术因素,数据资源的质量评价、数据价值的鉴定判断、数据时效性的把握、数据安全与产权的保障、异构数据的统一化处理等资源因素,也会对科学数据的开放共享产生一定的影响。

5 结语

随着科学数据开放共享理论研究与实践探索的不断深入,用户的数据共享意识与效果均有显著提升,以此为基础而产生的一系列积极效应也在逐渐凸显,科学数据的开放共享促进了科学交流向更精准、更详尽、更深刻、更全面的方向发展。成绩固然显著,但问题也日益突出。我们应该注意到科学数据共享面临着越来越多的新问题[50],在科学数据管理的进一步研究中必须针对这些问题进行专门探讨,要在厘清数据权责、保护数据隐私、治理数据污染、缩小数据鸿沟等方面进行深入研究。此外,数据论文发表于国外数据期刊、数据集合存储于国外数据平台、重点/涉密数据违规出境等科学数据外流现象也应该引起科学共同体关注[51]。

科学数据开放共享是一个长期的系统化过程,在共享前需要准确回答什么数据应该被共享、被谁共享、和谁共享、在什么条件下共享、为什么共享以及要做什么努力等问题[52],共享时需要聚力多方资源协同操作,共享后要加强服务效益监管。相信随着各利益相关方对科学数据共享重要性认识的不断加深、各国在政策管理机制上的不断完善以及共享技术的不断升级,积极温和的共享趋势仍将占据主流,数据公私权力的争论也将会持续激烈[53]。未来的科学数据共享活动将不仅围绕“共享”这一单一环节,而是围绕科学数据全生命周期管理的需求,形成聚合数据获取、数据存储、数据分发、计算分析、服务应用等多种功能于一体的融合型、智能化、FAIR 化数据共享生态体系[54]。

猜你喜欢
科学
点击科学
走进科学
走进科学
点击科学
点击科学
点击科学
走进科学
科学大爆炸
科学怪咖
科学汇