贾丽琼,郭 慧,吴 轩,李丹丹,孟 洁
(1.中国地质调查局发展研究中心,北京 100037;2.全国地质资料馆,北京 100037)
信息技术与网络技术的不断飞速发展产生了大量的科学数据资源。“大数据”时代,各种各样的科学数据成为了经济社会重要的新型战略资源,是科技创新与发展的重要保证之一。然而除了极少数以学术论文和图书等形式发布的科学数据外,大多数科学数据仍然被保存于科学家个人和科研团队手中或数据生产单位中。随着时间推移,或因为技术原因,或因为个人主观原因,大量科学数据被遗忘或损坏从而无法继续使用,造成了数据资源的极大浪费。这种情况在地学界也普遍存在。为了解决科学数据的存储、共享和再利用,一种新型的出版形式——科学数据出版应运而生。国内外基于科学数据管理、共享、出版及知识产权保护等领域的研究众多[1-8],然而针对我国地质科学领域的数据出版及其知识产权保护择鲜有研究。本文对全国地质资料馆开展的地质科学数据出版工作及数据出版的知识产权问题进行了探讨,以期让更多地质工作者了解科学数据出版,共同推进地质科学数据共享。
全国地质资料馆(以下简称“全国馆”)是我国馆藏数量最多、内容最全的国家级地质资料馆藏机构[9]。经过多年努力,全国馆已实现馆藏地质资料数据的全数字化,2005年后汇交至全国馆的地质资料全部为矢量化地质数据[10]。截止到2018年8月31日,全国馆馆藏资料总计144 814档,涵盖矿产勘查(88 072档)、区域调查(10 641档)、水工环勘查(12 886档)、物化遥勘查(13 327档)、海洋地质调查(316档)、地质科学研究(17 499档)、技术方法研究(1 746档)和其他地质资料数据(327档)。在这些海量数据的支撑下,全国馆完成了多个不同比例尺的矢量化地质数据库建库工作。目前全国馆共有三十多个全国性数据库,三千多个区域与专题性数据库及数万个点源性数据库[11],其他各类地质科学数据更是不计其数。为了使馆藏的地质科学数据能够被高效利用,推动地质科学数据共享的同时保护数据作者的知识产权,增加地质科技工作的创新产出,提高我国地质工作的国际化水平,全国馆经过多年的政策解读与技术研究实践,开展了地质科学的数据出版工作。
科学数据是指在各种科技科研工作(实验、观测、探测、调查等)或通过其他方式获取的反映客观世界的本质、特征、变化规律等的原始基本数据,以及通过加工整理后获得的各类数据集[12]。地质数据是非常重要的科学数据,是一种时空大数据,是与地球空间位置相关,揭示地球,尤其是地壳物质组成、结构及演化过程状态属性的数据,产生于各种地质调查、勘探、观测和相应的地质科学研究工作中。地质科学数据具有形成成本高、应用范围广、难以重复获取、可以反复利用等特点[9]。地质科学的研究对象是复杂的地球系统,这就决定地质科学的研究需要海量、多样化的试验、调查、观测、探测数据,需要多学科、多来源、多类型、综合性地质数据的支撑。
地质科学数据出版是地质工作者按照地质调查勘查工作规范的质量管理和控制流程,通过互联网公开发布其观察、实验、计算分析等科研过程中所产生的原始地质数据,或者是通过对已有的地质数据进行系统的收集、整理和再加工后形成的地质数据产品,使得其他地质工作者能够便捷地发现、获取、理解和再分析利用,并且可以在地质科研论文及相关的地质科研成果中引用[13]。
与普通的学术论文出版不同,地质科学数据出版既包括了数据论文,也包含实体地质科学数据两个部分。数据论文是描述实体数据及其元数据信息,实体数据则包括各种地理地质信息、地质图和数据库、数据表格、工作过程记录形成的文献、档案,以及各种以数据为中心的应用、数据库接口和专题服务等[11]。
作者将撰写好的数据论文和处理好的实体数据提交至全国馆。目前实体数据主要来源于两部分,一是由地质工作者投稿的阶段性地质工作形成的科学数据;二是根据每期的主题,从全国馆丰富的馆藏中筛选成果数据进行出版。
实体数据是否可公开是地质科学数据能否顺利出版的关键环节。地质科学数据是国家战略性的信息资源,所包含的信息与国家的经济发展、能源资源安全和社会公共安全密切相关[9]。数据论文和实体数据必须是经数据作者所在单位保密审核通过后方可投稿。全国馆经过多年研究与实践,形成了保密主管部门认可的比较完善的定密、解密和公开化处理机制与方法[14],对收到的稿件进行二次保密审查,确保数据确实可公开发表。
编辑对收到的数据论文和实体数据进行初步审查,主要审查数据论文结构及内容是否完整清楚,图表是否合乎规范,实体数据是否完整,误差范围是否准确等。初审若不通过则反馈给作者进行修改;若初审通过则进行同行评议。
同行专家评议包括数据论文和实体数据的评审。同行专家对数据论文和实体数据的完整性、科学性、质量、应用价值、可重用性等方面进行审议。
作者根据同行评议对数据论文和实体数据进行修改后返回至全国馆,由责任主编确定该数据论文和实体数据能否出版和发布,若能发布,数据论文将以实体期刊和网络在线的形式同步出版发行,实体数据则发布在地质科学数据出版中心(http:∥geodb.cgs.gov.cn/)。
地质科学数据出版中心是一个可以长期稳定运行的数据中心,即使实体数据的物理地址发生改变,也可以通过再解析的方式使得数据的逻辑地址不变,以保证用户可以长期访问和追溯数据。
数据论文和实体数据通过唯一标识符(DOI)和数据URL等属性链接起来,同时在数据论文的正文或者脚注等位置,标注实体数据的引用格式。2018年7月1日正式实施的中华人民共和国国家标准《信息技术科学数据引用》(GB/T 35294—2017)[15]规定了科学数据的通用引用格式为:作者.名称(版本).创建机构[创建机构],创建时间.传播机构[传播机构],传播时间.唯一标识符;解析地址。这一标准的发布实施,对于科学数据的规范化引用非常重要。
3.8数据论文和实体数据评价
评价机制是评判地质科学数据的共享成效和重用价值的重要标准。科学数据的评价可以从两个方面体现:①地质科学数据出版中心的数据访问量、下载量指标,以及通过DOI的唯一永久标识作用追踪科学数据的引用量指标;②将地质科学数据出版纳入科研成果评价体系中,促进科学数据的规范评价,激励地质工作者积极公开地质科研数据,从根本上推动地质科学数据的共享。
长期以来,地质科学数据开放共享广为科研人员及国家政府部门、科研资助机构、出版机构和社会公众所认同,然而对于广大地质科研工作者而言,困扰地质科学数据开放共享的重要因素是科学家的科研贡献和学术评价机制没有发生改变,科学数据作者的学术权益无法得到有效保护,即科学数据的知识产权保护机制不够完善,这从根本上影响了科学数据的共享。从全国馆的实际工作来看,由于目前地质工作经费来源多样,部分数据作者出于自身学术权益的考虑不愿意将具有创新性的地质科研数据成果完整汇交至全国馆,因此存在地质科学数据少交漏交的情况发生。对于数据作者的学术权益保护问题,目前科技界公认,以及我们通过长期研究和前期实践都证明,在数字对象唯一标识符(DOI)技术支撑下的数据出版是一个可持续发展的解决途径。
DOI是美国出版协会于1998年提出的用于标识网络环境下的任何数字化对象,以便有效管理数字出版物,保护数字出版物的知识产权的一套应用体系[16-20]。2005年德国国家科技图书馆申请成立了国际首个科学数据DOI注册机构,后又在此基础上建立了Data Cite系统[21]。DOI由命名系统、注册管理和维护系统、解析系统三部分组成[22-23]。命名系统规定了DOI遵守的统一命名规范,保证了DOI的唯一性;注册管理和维护系统通过元数据对数字对象进行描述,实现对数据物理地址的实时维护,保证DOI的解析地址永久有效;解析系统负责将DOI转换为相应的网络地址,让用户可以通过DOI直接搜索到相关资源[23]。通过DOI保护地质科学数据作者的知识产权,主要是通过要求地质科学数据使用者在使用数据的同时要对实体数据本身进行引用,也要对与实体数据相关联的数据论文进行引用,因为DOI提供了标准化的引用格式供用户进行参考。同行评议过程中,审稿专家也应该要求作者对所使用的地质科学数据进行引用,从而共同推进地质科学数据的标准化规范化引用。对地质科学数据进行引用,一方面保护了数据生产者的智力产出与知识产权,另一方面也能更好的追踪地质科学数据的使用情况,验证并评价数据作者的研究成果。
全国地质资料馆基于丰富的馆藏地质科学数据和多年的政策解读与技术研究实践,开展了地质科学的数据出版工作。地质科学数据出版包括数据论文出版和实体数据出版两个部分。数据出版对于地质科学数据的管理、共享、出版及知识产权保护具有很好的推动作用。地质科学数据出版包括提交数据论文和实体数据、对实体数据进行公开化审查、编辑进行初审、同行评议、实体数据的永久存储、实体数据引用以及对数据论文和实体数据进行评价八个环节。在对于数据作者的学术权益保护方面,目前公认DOI技术支撑下的数据出版是一个可持续发展的解决途径,既能保护数据生产者的智力产出与知识产权,也能更好的追踪地质科学数据的使用情况,以此来评价数据作者的研究成效。