■高瑜蔚 朱艳华 孔丽华 胡良霖* 周建设 李 坤
1)首都师范大学中国语言智能研究中心,北京市海淀区西三环北路105号 100048 2)中国科学院计算机网络信息中心,北京市海淀区东升南路2号 100083 3)国家基础学科公共科学数据中心,北京市海淀区东升南路2号 100083
随着开放科学蓬勃发展[1]以及数据密集型科学发现的科研第四范式到来,数据成为科研和创新的基础驱动力,科学数据对科学研究的重要价值日益凸显。科研成果的开放共享,尤其是科学数据的开放共享,是科研结果可验证、可分享、可重现的基础支撑[2]。数据出版是激励数据传播、促进数据共享的重要方式之一[3],数据论文出版的作用和价值也日益受到重视。近年来国际学术出版界在开放共享学术研究过程产生的数据上也逐步达成共识[4-5],越来越多的出版机构在混合型期刊(Overlay Journal)、纯数据期刊(Pure Data Journal)[6]等载体上以同时发布数据论文(Data Paper)和科学数据集的方式[7]进行科学数据出版。基于数据论文出版的新型学术出版形态已初步形成。
我国鼓励关联数据论文的科学数据出版。政策方面,《科学数据管理办法》[8]提出“应积极推动科学数据出版”,《中国科学院科学数据管理与开放共享办法》[9]提出 “鼓励有条件的科研机构创办数据论文期刊”。在期刊管理方面,国家新闻出版署和中国科学技术协会近年陆续采取举措,将论文关联数据平台建设[10]、论文关联数据汇交[11]、科学数据开放共享标准研制[12]纳入重点工作。传统出版机构对数据出版的关注与日俱增,如《中国科技术语》杂志社[13]等陆续通过与数据存储平台合作启动数据论文形式的科学数据出版。但是关于如何实现该工作,业界尚无公开成熟的标准可供参考。具体实践方面,我国数据论文出版起步较晚但发展较快。2015年起《中国科学数据(中英文网络版)》(以下简称《中国科学数据》)、《全球变化数据学报(中英文)》(以下简称《全球变化数据学报》)、BigEarthData[14]、GigaScience等数据期刊相继创立,将数据论文和关联数据集在互联网上进行关联发布,实现公开检索。目前,各个出版机构的数据信息描述及平台运行模式差异较大,相关国家标准和行业标准缺乏,有些数据并未遵循国家要求取得中国科技资源标识(China Science and Technology Resource,CSTR)、运用中文描述、落实科学数据引用规范。这不仅阻碍我国科学数据出版工作总体进展,还不利于未来数据期刊管理、数据互操作及数据共享再利用等。
随着20个国家科学数据中心正式成立[15]和中国科学院科学数据中心体系建设[16],越来越多的科学数据管理机构启动数据期刊建设,数据论文形式的数据出版工作迎来大发展,标准化需求愈发急迫。在此背景下,笔者团队基于实践,总结前期国内外相关工作,对数据论文及其关联科学数据集出版元数据标准开展研究,拟提出切实可行的标准方案,以期为创办和运行数据期刊、推动传统科技期刊落实数据论文出版工作提供规范化指导。此外,在此工作基础上,笔者团队牵头制定的国家标准《数据论文出版元数据》(GB/T 42813—2023)于2023年8月正式发布[17],这对于我国数据论文出版标准化工作具有重要意义。
目前学界尚未明确数据出版的概念,对于数据出版内涵等认识主要来源于对实践的归纳和提炼,本文在此基础上初步梳理核心概念。
(1)数据出版。数据出版是指通过一定的公共机制发布科学数据集,使得公众根据一定规则发现、获取、评价和应用这些数据的过程,其中数据论文出版是得到广泛认可的重要形式。作为复杂的系统工程,数据出版既有传统学术出版的特点,又有由发布数据且与数据论文关联等带来的新需求。
(2)数据论文。国外学者先后对数据论文概念进行定义[18-19],强调描述科学数据集的收集方式、特征等,而不关注数据处理分析过程和学术创新。Candela等[20]认为数据论文至少包含2个具体信息对象——数据集和数据论文本身。具体来说,数据论文是通过网络在线方式出版的一种学术出版物[21],其目的是让科研群体更好地发现、获取、理解与复用数据,从而促进科研创新[22]。一般情况下,数据论文发表在数据期刊上, 而科学数据存储在数据知识库中, 但数据论文须与其描述的公开发布的科学数据链接, 这个链接通常是URL或由数据知识库分配给数据集的DOI[23]。
(3)数据期刊。数据期刊是指出版数据论文的期刊,已成为一种重要的出版形态[24]。习妍等[25]基于相关学者的研究统计发现目前全球出版的数据期刊数量在160种以上,其中纯数据期刊(即出版的数据论文占比在50%以上)有20余种。
笔者团队较早开始研究数据论文出版问题,胡良霖等[26]、孔丽华等[27]先后给出定义和实践方法。相关学者在同行评议方法方面开展研究[28]。关联研究方面,陈帅印等[29]基于元数据研究特定领域数据论文与期刊论文的关联关系。技术标准方面,我国学者多聚焦传统学术成果和相关科学数据集的关联分析[30-32],目前暂时没有面向数据论文及其关联科学数据集一体化出版的元数据标准实践。笔者认为,数据论文是指对科学数据集进行规范化描述并按照学术规范在线联合出版的文章,一般由出版系统管理和发布。关联数据集一般由独立的科学数据存储库管理,并通过下载链接、标识和引用方式与数据论文实现关联。
调研分析和实践表明,数据论文出版能够解决我国科学数据共享的五大问题:一是缺乏明确的激励机制,作为数据生产者的科研人员及数据工作者缺乏开放共享数据的内生动力;二是知识产权模糊,将公共资助产生的数据置于公共领域而不保留任何权利的做法也并不能有效促进高质量数据共享和应用;三是数据来源和质控措施不清晰,数据质量无法保证;四是科学数据溯源困难,不完善、不规范的数据描述信息为理解和重用带来阻碍;五是缺乏持久性的标识和访问支持,数据难以在学术论文中规范引用。作为一种数据期刊出版形式,数据论文起到重要的描述作用,同时也是将数据转为传统意义学术成果的重要手段。但由于已发布的数据期刊数据论文出版标准不统一,加上科学数据具有抽象性和大规模性,用户很难根据数据内容实现对科学数据的查询和定位,这影响了科学数据的精准发现与再利用。因此,制定数据论文及关联科学数据集出版元数据规范是指导数据期刊规范化出版数据论文、促进科研人员实现数据再利用的主要途径。
通过文献分析和网络调研,以期刊网站和数据平台发布的信息为主要依据进行内容对比分析和归纳总结,梳理研究对象的要素信息和关联关系。数据期刊方面,基于对我国科研工作者发文量和认可度的调研结果,主要调研ScientificData、EarthSystemScienceData(ESSD)、GeoscienceDataJournal(GDJ)、BiodiversityDataJournal(BDJ)、DatainBrief、GigaScience、《地质科学数据专辑》《全球变化数据学报》《中国科学数据》等数据期刊,分析数据期刊出版数据论文的流程与特征。数据论文出版要素方面,重点分析数据论文在数据期刊出版平台上的要素信息,并充分考虑我国对在线数据出版的政策及标准要求(如须依据CSTR、科学数据引用方面国家标准)。数据集出版要素方面,考虑到通用性和代表性,选取受数据期刊ScientificData认可的6个通用数据存储库进行关联数据集要素的调研分析,主要包括Dryad Digital Repository、Figshare、Harvard Dataverse、Open Science Framework、Zenodo、Science Data Bank。标准研究方面,具体采用《科技平台 元数据标准化基本原则与方法》(GB/T 30522—2014)规定的摘要表示的方式定义和描述元数据属性等。应用实践方面,结合《中国科学数据》实践给出标准应用实例,验证标准有效性。作为一种面向多学科领域科学数据出版的学术期刊,《中国科学数据》致力于科学数据的开放、共享和引用,推进科学数据的长期保存与数据资产管理,探索科学数据工作的有效评价机制,推动数据科学的发展,促进科学数据的可发现、可访问、可互操作、可重用[33],目前已经成为中国科学引文数据库(Chinese Science Citation Database,CSCD)核心库来源期刊。
目前出版科学数据还只是各期刊出版单位或数据存储中心(库)的单独行动,对领域之间乃至全社会各类数据资源的统一有效检索和关联使用尚未实现[34]。而要达到此目标,则有必要进一步规范科学数据出版过程中的出版规范和引用标准,以使数据能够互联互通,像学术论文那样广泛传播、检索、阅读和引用。
元数据是推进科学数据共享、实现数据出版、支持数据可发现和利用的重要基础[35-37]。建设元数据标准规范是完成数据集成整合、实现数据检索与使用的关键环节[38]。目前,国际上已有一些通用标准,如《都柏林核心元数据集》[39]、W3C DCAT[40]、《机器可读目录》(Machine-Readable Cataloging,MARC)、《地球空间数据资产元数据》(美国国家标准)、《政府信息资源元数据》(Government Information Locater Service,GILS)等。我国也启动相关标准研制工作,先后发布了《科技平台 资源核心元数据》(GB/T 30523—2014)、《科技平台 服务核心元数据》(GB/T 31073—2014)、《土壤科学数据元数据》(GB/T 32739—2016)。一些学者也在科学数据场景下对元数据标准适用性进行了比较研究[41-42]。总体上现有元数据标准不能有效规范当前数据论文及其关联数据集出版,无法厘清数据论文出版特征、数据论文和科学数据集的关联关系。
从实践分析来看,目前的数据出版平台(如Figshare)数据的元数据仅按《都柏林核心元数据集》创建[43],由作者进行核查和修改[44],元数据过于简单,并不能很好地支持对数据的深度揭示与利用,也无法描述数据论文这一新形态出版物。此外,科学数据有实验数据、测量数据、统计数据、观察数据、调查数据等,各个学科数据的特点不尽相同,数据种类和格式存在多样性和复杂性,这给数据出版平台设计和数据共享与利用带来挑战[45]。为了使数据更易于获取、互连和发现,需要获取高质量的元数据来帮助理解和使用[46],并定义数据论文和其关系。因此,在相关元数据标准制定方面,需要提出一套通用方案,再扩展更为专业的元数据标准,借助工具和技术实现对大规模数据的标引,最终实现科学数据的高质量出版和有效应用。
基于上述分析,本文以数据论文和其关联的科学数据集为主要规范对象,通过分析和提炼特征要素定义二者在互联网平台上的出版状态和关联关系,实现标准研究。对国内外的主要数据期刊的学科领域覆盖、数据共享协议、数据库关联情况、数据引用规范等进行调研和对比分析,分析数据论文及其关联数据集出版元数据特征,见表1。
表1 国内外主要数据期刊数据论文及关联数据集出版情况
根据调研可以看出,数据期刊在出版方面和传统期刊具有一定的相似性。一般数据期刊面向特定学科领域,拥有ISSN,经过同行评议对数据论文和数据内容进行质量控制,有明确的论文引用规范,并收取一定出版费用。目前有两种数据期刊出版模式:一是数据期刊独立出版模式,数据期刊建设统一的出版平台并发布数据论文及其关联科学数据集,如《全球变化数据学报》;二是“数据期刊+数据存储库”合作模式,以ScientificData为例,数据论文在其期刊出版平台发布,数据集在其认可的存储库中在线发布,《中国科学数据》也采取类似模式,指定 Science Data Bank为其数据集在线发布平台[47]。因为大多数期刊并不具备存储数据的技术条件,采用后者的数据期刊数量较多[48]。一般情况下,数据期刊出版平台是数据论文的发布与共享平台,处理数据论文的收集、评审和出版等。科学数据存储库收集、长期存储、在线展示数据,原则上支持多种数据格式,并提供科学数据归档、获取、认证和引用服务。本文主要基于通用概念提出元数据的标准化建议,数据期刊可以根据自身情况选择上述两种模式。
数据论文出版的不同之处在于在线出版发布、论文关联实体数据、期刊与关联数据存储库合作、遵循数据共享协议等。数据论文出版以数据为核心,内容包括数据加工、数据整理、质量控制等。其在借鉴传统学术文献出版流程基础上,充分体现了数据在线发布和服务特征,通过唯一标识等关联关系构建数据论文和实体数据关系,为数据追溯和增值服务奠定基础。具体流程见图1。
图1 数据论文及其关联科学数据集出版一般流程
2.2.1 数据论文出版要素分析
通过对部分数据论文及关联数据集出版元数据要素进行调研和对比分析,总结通用元数据要素,并构建数据论文和数据集实体间的关联关系,见表2。从表2中可以看出,一般数据论文及关联数据集出版都包含了数据论文作者信息、内容信息、出版信息和服务信息。
表2 国内外主要数据期刊的数据论文出版元数据要素对比分析
2.2.2 关联数据集出版要素分析
一般情况下,数据期刊会通过认定第三方独立数据存储库或自建存储库的方式为用户提交的数据提供关联、保存和共享服务。作为最有影响力的数据期刊之一,Springer Nature旗下的ScientificData认可了6个通用存储库和30多个学科领域数据存储库作为其关联数据存储平台[49]。考虑到通用性和代表性,选取6个通用存储库进行关联数据集出版元数据要素调研分析,主要包括Dryad Digital Repository、Figshare、Harvard Dataverse、Open Science Framework、Zenodo、Science Data Bank,见表3。科学数据存储库通常在发布数据集过程中提供作者信息、描述/服务信息和出版信息,用户可以通过相关元数据快速检索和认知数据内涵,并按照数据协议获取数据。需要说明的是,作为2个独立实体,数据集和数据论文通常会被分配不同的唯一标识,通过标识、数据引用和页面链接实现强关联。同时,数据集和数据论文的作者信息、服务信息可能存在差异(有的数据集作者并非数据论文撰写者),因此须单独定义。此外,相关存储库采用了多种数据标准及机器可读格式以提升可读性和互操作性。
表3 数据论文关联数据集出版元数据要素对比分析
数据论文出版元数据以描述具有一定主题的科学数据集为核心,融合学术论文出版特征、描述在线出版过程要素,能够反映其来源、加工方式、质量控制和使用方法等信息,可实现规范引用和跟踪统计服务,为我国数据期刊的创办提供标准化指导。根据分析与实践,数据论文及其关联数据集出版元数据应满足如下要求。(1)描述性:能够依据系列准则来描述数据论文和其关联数据集出版状态的关键特征,实现对数据论文出版的标准化管理。(2)复杂性:既满足国家战略需要,又与现行国家标准协调一致,同时符合实际应用场景,根据数据论文出版阶段按需使用。(3)多层次性:能够以数据论文及其关联数据集描述和关联,可规范数据期刊编辑部、数据论文出版平台、科学数据存储库、数据用户等多方职责。(4)扩展性:具备强描述力和高可扩展性,以满足不同的学科领域应用场景和出版机构实际工作需要。
数据论文出版的主要标准化对象包括数据论文及关联数据集,其出版元数据主要包括数据论文出版元数据和数据集出版元数据两部分。本文提出数据论文及其关联数据集出版元数据架构(图2),以满足我国科学数据出版管理实际需要,同时面向国际通用交换共享服务的需要充分融合FAIR原则(可发现、可访问、可交互和可重用)思想。具体采用《科技平台 元数据标准化基本原则与方法》(GB/T 30522—2014)规定的摘要表示的方式定义和描述元数据,使用以下9个属性进行定义:中文名称、英文名称、短名、定义、类型、值域、可选性、最大出现次数、注释。受限于篇幅,仅列举其中关键内容,并兼容其他国家标准规定。数据集出版元数据主要包括数据集描述信息、数据集出版信息和数据集服务信息,数据论文出版元数据主要包括数据论文内容信息、出版信息、服务信息,并支持领域扩展。
图2 数据论文及其关联数据集出版元数据标准架构
3.1.1 数据集描述信息
数据论文出版的核心是数据集,因此对数据集的描述既要与数据论文描述一致,又要反映丰富的数据描述信息,以便用户检索和精准获取。数据集描述信息详见表4,主要包括唯一标识符、数据集标题、摘要、范围、数据集作者等。其中,为满足我国科技资源管理实际需要,保障数据安全,标识符应符合《科技资源标识》(GB/T 32843—2016)规定,出版机构也可根据实际需要采取双标识或多标识并兼容国际标识(如DOI等),但须保证标识符在每类标识系统中永久唯一。
3.1.2 数据集出版信息
数据集出版信息是数据集元数据的重要组成部分,主要定义数据集的发布日期、发表期刊和版本信息,可以全面呈现其出版过程关键信息,见表5。具体使用方式遵照数据出版机构的流程要求。
表5 数据集出版信息
3.1.3 数据集服务信息
数据论文提交至数据期刊的同时,关联的科学数据存储库须为数据集分配资源唯一标识符、列明引用格式等,并为论文作者提供获取服务,服务信息定义详见表6。资源唯一标识符主要赋予数据论文关联数据唯一标识编码,支持永久在线解析、安全服务和关联发现。作者能够通过数据署名保护数据自主知识产权,他人应遵循共享协议和期刊政策利用公开出版的数据,同时以规范形式明确引用数据实体,如遵循国家标准《信息技术 科学数据引用》(GB/T 35294—2017)[50]。此外,数据期刊应在国家数据安全分类分级要求下出版数据,遵循开放共享协议(如CC0、CC BY等)或数据期刊独立的数据政策,明确数据在线获取和下载使用过程中应遵循的基本规则。
表6 数据集服务信息
3.2.1 数据论文内容信息
与传统学术论文不同,数据论文的首要目的是描述数据及其生成、收集条件,一般不包括学术论文中的假设分析和结论成果[51]。数据论文内容信息结合传统期刊论文结构化描述模式,对具有科学价值的某类或某个数据集进行规范化描述,使数据符合FAIR原则。数据论文内容信息主要包括标题、摘要、数据论文作者等,见表7。其中,引言、数据采集和处理方法、数据样本描述、数据质量控制和评估、数据使用方法和建议体现了数据论文的核心内容特征。数据期刊可根据实际需要定义扩展内容,如ScientificData建议数据论文描述“软件可用性声明”等。唯一标识符单独为数据论文分配,且根据我国科技资源管理需要,使用《科技资源标识》(GB/T 32843—2016)编码方式。此外,需要说明的是,数据论文作者可能与数据集作者有差异,因此须单独定义。
表7 数据论文内容信息
3.2.2 数据论文出版信息
数据论文出版流程的规范性和严谨性通过丰富的出版信息体现,见表8。主要通过科技期刊数据论文出版系统完成收稿日期、录用日期、出版日期等信息的记录,同时也对数据论文的同评日期、版本信息进行记录和发布,以提高评审透明性和公众参与度,提升用户对数据的检索和利用效率。
表8 数据论文出版信息
3.2.3 数据论文服务信息
数据论文服务信息建立在传统科技期刊要素基础上,通过数据论文下载地址、关联数据集访问地址、共享许可协议等体现,见表9。
表9 数据论文服务信息
基于元数据标准建议架构,通过获取公开数据论文及关联数据集信息给出元数据应用示例,说明数据论文及其关联数据集出版元数据的描述方法,验证该架构的可行性和有效性。图3所示为数据集元数据示例,图4所示为数据论文元数据示例,其中部分文字和图表受限于篇幅略去。通过示例可以看出,该架构提供了支持数据论文出版平台信息描述的最小子集,能够实现定义和描述,并可构建数据论文和数据集的关联关系。数据出版机构或数据管理机构可以根据数据期刊定位或出版平台建设需要进行元数据扩展。
注:示例仅为说明数据论文及其关联数据集出版元数据的描述方法,具体情况以实际为准。图3 数据集元数据示例
注:示例仅为说明数据论文及其关联数据集出版元数据的描述方法,具体情况以实际为准。图4 数据论文元数据示例
数据论文是被国际科研界认可的数据出版形式。在我国,《中国科学数据》《全球变化数据学报》等数据期刊迅速发展,传统期刊纷纷开展数据论文出版工作,这说明数据论文形式出版工作受到广泛关注。但各个出版机构的数据信息描述及平台运行模式差异较大,相关国家标准和行业标准缺乏,这不仅阻碍工作进展,也不利于未来数据期刊管理、数据互操作及数据共享再利用。建设数据论文及其关联科学数据集出版元数据标准规范是完成数据集成整合、实现数据检索与使用的关键环节,因此亟需制定通用的元数据标准方案。
本文在梳理核心概念基础上,通过文献分析和网络调研,以期刊网站和数据平台发布的信息为主要依据进行内容对比分析和归纳总结,梳理研究对象的要素信息和关联关系。重点分析了数据论文及科学数据出版元数据研究与实践,分析数据论文出版特点。根据国家政策和标准要求,提出适应我国实际的数据论文及关联数据集出版元数据标准,明确元数据要素定义和实践方法,推动数据论文及其关联数据集出版元数据标准化,为科技期刊开展相关创新实践提供参考,以期推进我国科学数据产权保护,促进科学数据开放共享,充分释放数据生产要素的深层次价值。
数据论文形式的科学数据出版作为创新数据共享模式,与传统的文字出版物相比对技术要求较高。随着2021年《中华人民共和国网络安全法》[52]、《中华人民共和国数据安全法》[53]、《中华人民共和国个人信息保护法》[54]、《数据出境安全评估办法(征求意见稿)》[55]等法律法规陆续发布,科学数据安全储存、有序共享服务将面临基础设施建设、软件技术升级、政策机制保障等方面的新挑战。应根据不同学科领域,建立更符合数据伦理规范和数据使用习惯的数据政策;在激励机制建设方面,进一步提倡用户在学术成果中规范引用数据论文;在人员方面,遴选一批有数据处理经验和科研能力的外审专家,全面推进数据论文联合出版工作。