刘桂锋 陈帅印 韩牧哲
关键词:FAIR原则;数据论文;期刊论文;数据期刊;科学数据;数据科学
在数据要素化的大背景下,科学数据的开放、共享、合作成为科研活动的常态。数据增长也促使着科学研究进入了数据密集型时代,科学数据的积累对科学研究越来越重要,分析数据并从中提取有价值的内容转换为信息和知识的能力开始备受关注。
2019年,党的十九届四中全会指出“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制”,这是数据首次被列为新的生产要素。加快构建数据基础制度体系,促进数据高效流通使用、赋能实体经济,统筹推进数据产权、流通交易、收益分配、安全治理的重要意义被反复强调。相关政策与方法都强调了科学数据的有效管理和利用、开放共享、高效流通的重要性与必要性。
在对科学数据的有效管理与应用方案的探索上,欧洲开放科学云(European Open Science Cloud,EOSC)提出了科学数据治理的FAIR原则,即可发现(Findable)、可访问(Accessible)、可互操作(Interoperable)、可重用(Reusable)。为了促进科学数据的共享和有效利用,世界数据系统(WDS)在2018年联合90多个国际组织签署《赋能FAIR数据承诺声明》(Enabling FAIR Data CommitmentStatement),发布《WDS 2019-2023战略计划》。2021年,中国科学院计算机网络信息中心牵头的国家标准《数据论文出版元数据》正式立项,为数据期刊以数据论文的方式出版科学数据提供统一的标准认定。传统的期刊论文主要以科技文献、学术文献、科学文献等文献类型为主;数据论文则是科研人员或科研团队按照统一规范的出版要求,通过相关受认可的数据共享平台发布科研数据集,使得其他用户可以访问、发现、引用数据集。
因此,本文通过对数据论文和期刊论文的内外部特征元数据和文献服务角度的分析,构建了科学数据在数据论文和期刊论文间的关联模型,并选取代表性的数据期刊Data in Brief,对其中发表的数据论文及其关联的期刊论文进行文献内外部特征、期刊互联机制、数据关联应用等方面的研究,以此把握科学数据关联应用的路径,推动科学数据的开放共享和重復利用,促使科学数据在多层维度数据价值上的释放。
1相关研究现状
1.1FAIR原则的产生、发展与研究现状
FAIR原则于2014年在荷兰莱顿的洛伦兹研讨会上被首次提出,于2016年正式发布。同年,Sci-entific Data杂志发表的《科学数据管理的FAIR指导原则》一文,探讨了FAIR原则具体的内容和准则,此后FAIR原则逐渐受到科学研究领域尤其是科学数据管理和开放共享领域学者的广泛关注,并逐渐向其他领域和行业拓展,如人文社科、生物信息学、医学等领域。
现阶段,FAIR原则也成为了科学数据出版的新目标和新共识,成为落实科学数据建设规划、推动科学数据开放共享的有效方式和重要手段,也是推动科学数据共享的根本途径。基于此,各个国家(地区)出台诸多数据管理政策及相关的实践探索。我国在2001年底首次提出科学数据共享,启动科学数据共享工程。以政府部门、研究机构等为主导建设的23个科技平台被认定为国家首批科技基础条件平台,如国家地球系统科学数据中心、国家人口与健康科学数据中心、国家农业科学数据中心等。Springer Nature、Elsevier等在出版过程中采用分级的数据共享政策:部分国际出版集团与数据存储库、期刊编辑协同合作;Springer Nature、Elsevier等出版社区分于传统的学术期刊,开设数据论文或者创建新的数据期刊以支持数据出版,推动数据共享。同时,国内外学者对FAIR原则的关注持续升温,包括对FAIR原则内容解读、FAIR原则的实践应用、FAIR原则评估模型与框架等,这些研究都在FAIR原则从“数据对象”推广到更广泛的“数字对象”过程中起到了推动作用。
1.2科学数据与期刊论文的关联研究现状
期刊论文是研究人员或者研究团队向社会展现其科研成果和动向的重要途径之一,在科研过程、学术研究过程中产生的科学数据与科研成果保持着同等重要的地位。目前,科学数据与期刊论文的关联研究现状主要分为理论研究和实践研究。
理论研究主要是研究人员通过引用特征、论文元数据、内容特征等进行关联关系的阐述。期刊论文的科学数据引用特征研究主要涉及图书情报领域、体育领域、生物医学领域、地学等。尚渡新等通过分析科学数据和期刊论文中的关联属性以及国家科学数据元数据标准,基于关联数据对科学数据与期刊论文的互联机制进行了研究。郭庙琴以用户需求为研究视角,构建基于用户需求的科学数据与科技文献关联模式。黄筱瑾基于元数据描述元素、内容特征,对科学数据与科技文献之间的3种关联模式进行描述与总结,即作者关联、学科分类号关联、关键词关联。
基于实践研究的科学数据与文献关联主要是学者从不同研究角度探究数据服务实例、关联路径,部分学者也通过已有的平台或研究,对相关的典型案例、平台等展开研究或者提出优化建议方针等。实践研究对象主要涉及期刊出版主体、ELIXIR数据平台、OpenAIRE、Elsevier等;研究领域主要包含高能物理、地学、生物医学等,学者们通过对该领域的科学数据与科技文献关联的现状和已有平台进行研究,深入分析科学数据与文献的各种关联方式以及选取具有代表性的案例展开实践分析,为各个领域的科学数据与期刊论文的关联提供研究基础和思路。
综上可知,国内外关于FAIR原则、科学数据与期刊论文关联已有一定的研究基础,部分学者从引用特征、元数据、关联数据等视角对科学数据与期刊论文的关联理论研究作出阐述,从数据平台、实践路径等视角对科学数据与期刊论文的关联实践研究展开分析。但目前已有研究仍有一定局限性:①研究方向大都是从期刊论文出发,研究人员从论文的内容特征或参考文献中挖掘其相关联的科学数据,从而发现二者的关联性、映射性,研究方向单一,缺乏以数据论文为主体进行数据论文与期刊论文关联研究,无法实现二者之间互相关联性的揭示;②研究内容的关联强度不高,大多数的研究仅仅从论文的内外部特征进行相关研究,缺乏内容层面的深度关联挖掘,无法实现科学数据与期刊论文深度关联的准确阐述。
本文认为,期刊论文与其相关联的数据论文关联融合出版是未来期刊出版新形态的发展趋势。因此针对以上问题,本文立足于FAIR原则,从数据流向视角对数据论文和期刊论文进行互关联模型的构建和相应的实际案例验证,以支撑数据论文与期刊论文关联研究的深入发展。
2数据论文与期刊论文的关联模型设计
近年来,科研人员关注的对象不再局限于期刊论文、会议论文、学术报告等文献资源,科学数据也逐渐成为科研人员需要的重要资源。在现实科学研究中,科研人员侧重于科研成果即科学研究的终端产物,如论文、著作、报告等。而科学数据贯穿着科学研究全过程,目前的大多数科学研究以科研成果为研究视角,并没有回溯到科学研究过程的开始乃至全过程。因此,从科学数据流向视角出发,尝试对数据论文与期刊论文之间的关联进行探索,能够进一步推动科学数据的开放共享和二次应用,使科学数据在多层维度释放数据价值。本文基于FAIR原则,从科学数据组织呈现的不同角度构建科学数据在数据论文和期刊论文间的关联模型,并结合具体案例展开理论模型验证。
2.1关联总模型构建
数据期刊的关联是使科学数据系统统一化、共享最大化、应用最优化的过程,在推进科学数据开放共享的过程中起着重要作用。与此同时,FAIR原则在科学数据的可访问、可发现、可互操作、可重用等方面提供了规范的行动指南,激发科研人员或科研团队在研究项目刚开始就着手关注科学数据管理过程中的可访问和可重用等问题,FAIR原则的简单性和灵活性也为科学数据管理的开放共享以及建立关联元数据标准等方面提供了理论依据。
因此,基于FAIR原则构建数据论文与期刊论文之间的互关联模型更加有理论意义,也对科学数据开放共享有着一定实践意义。通过前期调研发现,数据期刊的具体关联主要涵盖元数据关联、文献服务关联两个方面。为此,本文以数据流向为视角,设计基于FAIR原则的数据期刊与期刊论文间的关联模型框架,以期实现对数据论文与期刊论文之间的关联应用研究。
2.1.1科学数据出版流向分析
科学数据流向是对科学数据在科学研究过程的开始乃至全过程中的数据流动展现形式、方向的描述。在构建数据论文与期刊论文之间互关联模型前对科学数据的数据流向进行数据格式、数据类型的研究分析,为进一步构建互关联模型奠定理论基础。
随着科学研究的不断深入,科学数据也以不同的呈现方式作为研究成果展现出来。研究者对原始数据如勘测数据、实验数据、调查数据等进行初步的数据整理后形成初始数据,一般以file.、table.、txt.等数据格式存储,研究者借用多种软件或方式对初始数据进行数据处理,形成科学数据集,而部分研究者会将科研过程中产生的科学数据集根据规范统一的要求进行数据出版,在数据期刊上出版,使科学数据开放共享,便于其他学者检索、访问和重用,其数据出版的一般流向如图1所示。
2.1.2数据论文与期刊论文的互关联模型
随着科学研究的数据密集型第四范式的兴起,科学数据对科学研究的支撑作用日益显著,科学数据和期刊论文共同构成了科学研究的主要素材。而在实际研究中,科学数据和期刊论文对科学研究的支撑过程是相对独立的,这导致数据孤立于研究之外,对科学数据和期刊论文之间关联关系的研究意义显著。具有系统化、统一化特征的数据期刊使得科学数据有了规范统一的数据出版平台,对数据期刊与期刊论文之间的关联进行探究能够使科学数据内容更加完整,充分发挥其数据价值,更好地支撑科学研究的发展。本文基于FAIR原则构建的数据论文与期刊论文互关联模型共分为3层,分别是平台层、数据层、结构层,以数据流向为导向展示了数据论文和期刊论文的整体关联性。
平台层主要以文献服务为视角,揭示数据期刊、数据存储库、传统期刊之间的关联关系。平台层的主体达成互联互通机制,为科研人员提供一站式文献服务,主要通过语义关系、聚合关联、链接方式等形成文献互联,用户在搜索到数据论文的基本文献信息外,还能够通过提供的文献链接快速查阅相关联的期刊论文。
数据层从数据流向的视角梳理科学数据流动方向及应用领域,科学数据通过整理、分析、可视化等方式,最终以不同的形式在期刊论文中呈现,部分科研人员(科研团队)会根据规范統一的出版要求,将产生的科学数据刊登在数据期刊上,并且可以通过文献检索服务快速查询和访问数据论文和期刊论文。
结构层从元数据视角对数据论文和期刊论文进行论文内外部特征的深度关联研究。期刊论文的元数据用来描述期刊论文的属性信息,包括内容特征元数据、外部特征元数据;数据论文的元数据用来描述科学数据集特征、内容等信息,除内外部特征元数据以外还包括专用元数据。
基于FAIR原则的数据论文与期刊论文互关联模型3个层级实现了数据流在各层级的流动,使各层级关联紧密。在显性层面,科学数据在数据层通过规范统一的出版要求流向平台层,又基于“可发现”原则流向结构层:在隐性层面,科研人员的发表行为和对数据的检索、引用动机等都促进了3个层级间关联关系的演进发展。数据论文与期刊论文互关联模型各层级之间的关联关系明确,最终实现层层关联、逐层关联,如图2所示。
2.2分层关联模型构建
通过前期对数据期刊的大量调研,可以发现数据期刊的具体关联主要体现在元数据关联、文献服务关联两个方面。针对元数据元素、文献服务两个研究视角进行分析,构建论文内外部特征视角的元数据框架和文献服务视角的关联模型,能够让数据论文与期刊论文之间的关联更紧密、更清晰。
2.2.1论文内外部特征视角的元数据框架
数据论文和期刊论文在元数据框架上存在相似元素,从论文内部特征角度可以发现数据论文的元数据主要是数据集的名称、摘要、主题等,而期刊论文的元数据涉及论文题名、摘要、关键词等;从论文外部特征角度可以发现数据论文和期刊论文有着重合相似度较高的元数据元素。
以DC元数据标准为例,数据论文的外部特征元数据包括数据集贡献者、所属机构、出版时间、论文下载、论文引用、参考文献等元素,对应着期刊论文的论文作者、所属单位、发表时间、论文下载、论文引用、参考文献等外部特征元素。科学数据、数据论文、期刊论文三者通过元数据框架形成牢固的数据流向三角关系,两两之间互相关联、互相联系,如图3所示。
2.2.2文献服务视角的关联模型
由于科学数据在科学研究中的重要作用,部分搜索引擎、数据管理中心、研究机构等与数据存储库之间通过自动推理建立不同学科的科学数据与资源之间的语义关系,将科学数据集与资源聚合关联等研发并推出互联互通的科学数据关联发现、文献发现服务,数据存储库也与期刊出版社之间创建互联机制,确保科学数据与文献之间的可发现性、可关联性。
越来越多的期刊出版社、数据存储库、研究机构在遵循FAIR原则的前提下,建立协作共享机制,并且为研究人员(研究团队)提供一站式科学数据检索服务、文献服务,如PANGAEA、Dry-ad等专业领域科学数据存储库除了提供科学数据的相关基础信息,还提供与其相关联的文献链接,提高科学数据与期刊论文的关联紧密性。因此,从文献服务的视角出发,在科学数据和期刊论文之间构建关联模型,切实有效地提高数据论文与期刊论文之间的可发现性、可关联性、可重用性,如图4所示。
3基于FAIR原则的Data in Brief开放共享与关联应用研究
上文所述构建的互关联模型共分为3层,分别是平台层、数据层、结构层,3层之间的科学数据流向过程体现着FAIR原则的可访问性、可发现性、可互操作性、可重用性。因此,选取支持FAIR原则的Data in Brief期刊,对构建的数据论文与期刊论文互关联模型进行实例验证具有一定的代表性。
Data in Brief是Elsevier旗下的一类侧重于数据存储、共享及引用的数据期刊,科研人员可将其整个学术研究周期中收集的数据发布在此期刊中,将原本只是补充材料的数据资料转化成有价值的学术论文。Data in Brief包含的数据论文涉及的学科范围广泛,数据论文涵盖初步研究、概念验证研究、研究结果等阶段的科研数据。
Data in Brief基于严格的同行评审、灵活的开放获取、详尽的数据描述等机制,不仅能最大化提升数据的行业认可度、访问展现量及研究引用数,还能大大缩短相关行业的研究周期,使得科学数据和相关科学研究更容易被访问、被发现,为学者协作提供平台,有效减少科学数据重复工作,提高科学数据可重复性,为开放科学做出贡献。Data inBrief支持FAIR原则,该数据期刊规定研究数据是可访问的、可发现的、可互操作的和可重用的,如表1所示。
3.1基于“可访问”“可发现”的开放共享研究
3.1.1基于“可访问”的开放共享
Data in Brief支持FAIR原则的“可访问”原则体现在可以使用标准化通信协议,通过相关元数据字段进行检索,即读者能够通过Science Direct和主要研究指标易于查找到数据期刊,立即免费访问数据文章。Science Direct数据库提供数据检索功能,可以在“Journal/Book Title”字段中直接搜索“Data in Brief’即可跳转至期刊介绍和期刊发文情况,读者也可以在Science Direct数据库中通过檢索“Title” “Keywords” “Author Name” “Terms”“ISSN or ISBN”等主要研究指标的字段查找到相关数据论文。Data in Brief官网提供“Title”“Ab-stract or Author-specified Keywords” “Author(s)”“Author Affiliation” “References” “ISSN or ISBN”等主要研究指标的检索字段。读者能快速通过检索字段查找并阅读相关数据论文,同时也能够通过数据论文的构成即数据论文的内外部特征大致了解数据集的部分内容。
数据期刊和常见的学术期刊一样有着数据论文的内外部特征,这些内外部特征能够反映发文学科领域、作者合作群、研究主题等要素。本文选择以Data in Brief数据期刊发表的数据论文作为研究对象,该期刊的数据论文正文部分主要由多个子部分构成,分别为Abstract(摘要)、Keywords(关键词)、Specifications Table(说明表)、Value of theData(数据价值)等,如表2所示。
Data in Brief的数据论文构成部分包含一般学术论文常见的标题、作者、作者单位、摘要、关键词等文献元数据元素,也包含着数据论文特有的说明表、数据价值、数据描述、数据可用性等元数据元素,其中,Specifications Table(说明表)有着规范的元数据、数据内容的描述要求,如表3所示。
Specifications Table(说明表)会将本篇数据论文涉及的数据主题、领域、数据格式等详细的数据说明,读者通过Specifications Table能够大致了解数据内容,该数据期刊的每一篇数据论文都会在摘要、关键词后附有Specifications Table,使得科学数据描述有一定的系统性、规范性,同时也可以提高科学数据开放共享及应用的效率,并且提供数据源位置的信息,加快数据的查找和访问。
3.1.2基于“可发现”的开放共享研究
Data in Brief支持FAIR原则的“可发现”原则体现在学者能够通过Science Direct和主要研究指数使数据文章易于查找和下载。学者在数据论文页面通过“View PDF”及“Download Full Issue”可以直接下载该篇数据论文。Data in Brief的数据文章首页左侧“Outline”字段会明确显示该篇数据论文的构成及撰写大纲,便于学者快速跳转至想要阅读的内容,数据论文的Tables、Extras部分单独展示了该篇文章提供的表格和其他格式的科学数据呈现形式,使科学数据的研究成果快速被查找、阅读,如表4所示。
Data in Brief定期、定量的发文使得提供开放共享的科学数据涵盖多个学科,便于不同领域的学者在此数据期刊中查找和下载研究所需的科学数据。通过调研发现,Data in Brief每两个月更新1次,1年共6卷,2020-2022年共18卷,3年共发表1771篇数据论文,主题主要分布在Agricultur-al Sciences、Biological Sciences、Microbiology、FoodScience、Arts and Humanities等多个学科领域。本文主要收集到了2020-2022年内主题为Agricultur-al and Biological Sciences/Agricultural Sciences的数据论文,该主题的数据论文每卷都会更新,共发表了447篇,其中提供相关期刊论文共享链接的数据论文共有141篇(占31.54%)。
图5显示可知,Data in Brief近3年主题为Ag-ricultural and Biological Sciences/Agricultural Sciences的数据论文在2020年第3 1卷达到峰值,3年的发文量逐步下降,但数据论文的发文量中,相关联期刊论文的数据论文数量占比处于稳定的状态,这也反映了科学数据有着规范统一的出版要求,实现了科学数据的出版价值,反映了数据论文与相关的期刊论文的关联性更加紧密。
3.2基于“可互操作”“可重用”的关联应用研究
3.2.1基于“可互操作”的关联应用
论文之间的关联主要体现在“Refer”或者“Cite”(引用)两种方式。论文与论文之间的关联一般来说就是引用,这是一种时序性的、单向的关联:但是期刊论文与数据论文添加了一种Refer关联,这是与期刊论文伴生的,是一种没有时序性的、双向的、直接的关联。Data in Brief提供的“Refers to”“Referred to By”链接字段服务,将数据论文与其关联的期刊论文以链接的方式直接关联,关联强度高且方式便捷,为用户提供了数据论文与期刊论文的直接互联的文献服务。
通过数据论文提供的“Refers to”字段链接可以直接访问关联的期刊论文,在期刊论文页面能通过“Referred to By”字段链接快速跳转回到数据论文页面。对期刊论文的发刊类型进行统计可以发现,收集到共89种类型的期刊,其中Food Chem-istry发文量较大,3年内共有7篇期刊论文与数据论文是互联的,该期刊类型也与论文主题是匹配的,如图6所示。
数据论文与期刊论文的内外部特征的异同特点使得二者基于元数据框架的关联便于发现。Data inBrief通过“Refers to”字段使得期刊论文与数据论文产生外部链接形式的关联。对部分论文进行元数据映射情况研究可以发现,除了外部链接形式的直接关联,二者之间还存在着基于元数据的内部深度关联。
从Data in Brief选取部分论文作为代表性案例研究发现,二者的“标题”“作者”“关键词”等元数据元素内容都是存在着联系的。标题通常能够反映研究的主要内容,标题内容的相似度反映着二者研究方向的一致性。如图7所示,数据论文描述的是古巴西北部地区前礁八爪珊瑚组合数据集,与其关联的期刊论文则是利用该数据集对古巴西北部地区八爪珊瑚群落進行沿水梯度时空变化展开研究。对部分元数据进行关系构建,彰显数据论文与期刊论文的相同元数据框架之间基于细粒度、基于语义的共指关系。“作者”这一元数据元素能够直接反映研究团队以及研究内容的紧密性,数据论文与期刊论文的作者群很大程度上是同一作者群或者有部分研究人员变动,但核心研究团队是不变的,使得二者的作者群存在着全包含或半包含的关系;“关键词”也可以直观反映数据论文与期刊论文之间的研究领域、研究方向的一致性。因此,基于元数据元素视角,二者之间关联关系通过多个元数据元素、多个案例论文数据皆可得到验证。
Data in Brief依托Elsevier直接在平台为研究者提供体现科学数据应用结果的期刊论文链接,科研人员能够快速跳转到相关期刊论文并且了解科学数据成果转化的最终呈现结果。基于此,本文通过元数据挖掘二者之间的深度关联关系,“Refers to”“Referred to By”链接字段服务体现了数据论文与期刊论文的直接关联,二者之间的关联强度高,实现了数据论文与期刊论文的“可互操作”性。
3.2.2基于“可重用”的关联应用
目前,引用行为的研究大都是对期刊出版的期刊论文进行探究,但随着数据论文在学术交流、数据开放共享过程中起到越来越重要的作用,对数据论文的引用特征进行探索也具有一定的研究价值。与文献引用类似,数据论文被引用也意味着引用者在某种程度上认可了数据论文及其数据的学术价值与参考价值。
同时,数据提供者可以在说明表(SpecificationsTable)写出研究过程的Raw and Analyzed的数据格式。通过对样本论文的数据格式收集与分析,可以发现原始数据(Raw Data)主要是尚未进行研究或者加工的数据,格式主要有(*/.cdf)(*/.CSV)(*/.jpg)等,与此同时,科研人员上传的研究过程中产生的研究数据(Analyzed Data),数据形式主要以Fig-ure、Table为主,如图8所示。
数据提供者在发表期刊论文的同时,按照规范在Data in Brief发表数据论文,研究者的科学数据以不同的数据格式、数据形式在Data in Brief开放共享,其他研究者能够发现、访问并进行引用行为,从而进行科学数据的重用。引用特征主要分为3种:二次重用、直接引用或直接关联、间接引用。
1)科学数据二次重用
科学数据的二次重用是指基于已有数据资源对科学数据进行复用和挖掘,以获取新知识或新规律的过程。科学数据的二次重用是实现科学数据价值挖掘和使用的重要手段,对于提高科学数据利用率、推动科技创新具有重要意义。
在过去的几年里,包括谷歌、亚马逊、微软和Facebook在内的科技巨头都在不断地调整数据的处理、管理方式。随着科学数据越来越多地被用于提高各种科学研究的速度和准确性,各个领域和行业也越来越多地使用其他研究人员已经分析过的科学数据来推动科学进步,但科研人员并不是需要再次收集、处理所存储的科学数据,如一些科研人员可能想要使用来自不同实验室的多个研究团队所收集到的数据,但在不同实验室之间迁移或复制科学数据会花费大量时间且导致研究进展缓慢、重复实验。部分科研人员会将存储的科学数据上传至科学数据共享平台,使得科学数据被发现、共享并能够被他人二次重用。部分研究人员在科学研究中,利用已有的或新获得的科学数据中发现可用于后续研究、与其他数据整合成新的科学数据集,进而实现对相关问题的多源异构数据融合利用,以提高科学数据的二次重用,减少重复科研的可能。
2)直接引用或直接关联
由于数据期刊Data in Brief的规范性出版规定,学者在访问该数据期刊的文章时,发现对研究有所帮助的数据或内容可以直接引用,并且研究者能够在撰写学术论文时直接引用Data in Brief的数据论文,并在参考文献中标注。研究者将自己的科研数据在Data in Brief发表时,也可以将引用到的数据或论文以“Referred to By”“Cited”字段上传且相应的期刊论文会通过“Refers to”字段链接直接与数据论文相关联。如图9所示,一篇数据论文有两篇关联的期刊论文,都以“Refer to”链接字段相关联,两篇期刊论文各与此篇数据论文通过“Re-ferred to By”链接字段相关联。
Data in Brief不仅支持数据论文与期刊论文相互关联,也支持数据论文与数据论文的相互关联,展现科学数据之间的可重复利用性。如图10所示,图中所示的两篇数据论文通过“Refer”外部链接方式相互引用、相互关联。
3)间接引用
科学数据的间接引用与直接引用在内容上存在一些区别。直接引文是直接引用或直接关联科学数据,而间接引用是间接从科学数据中提取出引文信息后再进行引用,间接引用的目的主要是科研人员能够间接引用科学数据,更方便、更快速。
由表5可知,间接引文的评价指标主要涵盖作者影响力、期刊影响力和引用行为等,数据论文发表数量、引文数和被引次数等是间接引文的主要影响因素。科学数据间接引用与期刊论文之间也存在较强的相关性,间接引用主要涉及研究人员通过在访问过数据期刊及其共享的科学数据后,仅是在撰写研究成果时会提及数据期刊或者科学数据的部分内容,只是作为自己观点的案例论证,并非直接引用。
综上所述,本文对数据期刊的开放共享研究体现在基于“可访问”“可发现”两个原则,通过对具有代表性的数据期刊Data in Brief所收录的数据论文元数据进行采集、处理与分析,从数据论文和期刊论文的内外部特征、数据期刊的文献服务两个角度切入,探索数据期刊的开放性、共享性;对数据期刊的关联模型验证研究体现在基于“可互操作”“可重用”两个原则,通过对数据论文提供的“Refers to”“Referred to By”字段链接,对数据论文和期刊论文二者之间元数据进行深度关联的探索,进一步验证了关联模型的可行性与合理性。
4结语
科学数据与期刊论文关联融合发展是各个学科领域发展的需求和大数据时代的期刊出版形态必然发展趋势,更加利于科学数据开放共享、高效流通。因此,本文基于FAIR原则通过对Data in Brief所收录的3年内主题为Agricultural and BiologicalSciences/Agricultural Sciences的数据论文元数据进行收集和处理,首先对数据论文的元数据如标题、作者、关键词、涉及学科等进行收集和处理;其次根据论文的属性特征,对DC元数据进行复用后构建数据论文与期刊论文的互关联模型,主要体现在论文内外部特征视角的元数据元素框架、文献服务视角的关联模型,并选取具体的具有代表性的数据论文作为实证研究对象,对数据论文和期刊论文的各个部分的属性之间关联性展开阐述与验证。
本文以数据流向的视角构建基于FAIR原则的关联模型,完成数据论文元数据框架的构建、数据论文与期刊论文的互关联模型的设计,并且对科学数据的开放共享、數据论文与期刊论文的关联研究不再局限于知识组织和理论研究,而是将理论研究应用于实践验证中,更富有实践性、可行性,为今后的科学数据的开放共享、关联研究打下基础。
在后续的研究中可以增加更多学科领域的样本数量,并探索针对多源异构特性的科学数据元数据框架的映射性与关联性,以及数据论文与期刊论文关联模式研究视角的创新性。