韩蓓蓓
(武汉大学信息管理学院,湖北 武汉 430072)
随着大数据技术的发展和应用,自然科学和社会科学的科研过程会利用或者产生海量的科学数据,科学数据逐渐成为驱动各领域科学研究发展的重要推动力量之一。科学数据是人们科学活动所产生的基本数据,具有明显的价值,是信息时代最具影响力的科技资源。
科学数据引用(Data Citation)是指类似于参考文献的方式提供数据引用的做法。通过一定的机制和标识技术,描述所使用的科学数据资源,表示出数据的相关信息,这种做法可以推动科学数据的知识产权保护。数据规范引用有利于保护数据创建者的知识产权,便于统计和分析数据的引用情况。为用户提供数据定位和参考机制,增加数据的重用与共享,为科研过程的验证提供依据。在我国,科学数据引用规范的制定和研究还在初期阶段:2017年12月29日,国家标准化管理委员会发布了中国科学院计算机网络信息中心主持研制的《信息技术科学数据引用》(GB/T 35294—2017),自 2018 年 7 月 1日起正式实施。在国家标准的指导下,数据仓储Data Repository(DR)和学术期刊对于科学数据的规范引用有着重要的作用,本文将对国内外部分数据仓储和学术期刊的科学数据引用要求情况进行现状调查,主要通过网络调查和文献调查等方法,调查时
数据仓储是保存、管理、共享科学数据的重要平台,是科研人员发现和使用科学数据的重要平台。
2.1.1 调查对象。选择了十个具有代表性的国际上的数据仓储为调查对象,分别:Data-PASS(社会科学数据保存联盟)、IASSIST(国际社会科学信息服务技术协会)、Dataverse、ICPSR(校际社会科学研究联盟数据中心)、DCC(英国数据管理中心)、OECD(世界经合组织)、ESIP(地球科学信息联合会)、PANGAEA、ESRC(经济和社会研究委员会)、STD-DOI(Publication and Citation of Scientific Primary Data)。
2.1.2 现状调查。
(1)引用元素。通过表1可以看出,国外的机构组织规定的科学数据引用元素的种类和数量有所不同。但有四个引用元素是必备的,那就是作者、名称、出版商和标识符,这四个基本元素已经得到了各个组织的认可。在可选元素方面,各个机构和组织所要求的数量和内容差异较大,但基本原则都是尽可能详细地描述所引用的数据,大部分都包括出版日期、版本、UNF、资源类型等元素。大部分机构或数据仓储的科学数据引用元素组成和Datacite等国际组织的引用元素组成基本相同。
表1 引用必备元素列表
(2)引用格式。国外各类型的组织机构和数据仓储在引用格式上具有一定的共性,但也存在一些差异,大部分都有自己的格式要求和范例。地球科学信息联合会(ESIP)、国际社会科学信息服务技术协会(IASSIST)以及英国数据管理中心(DCC)等机构,都选择使用Chicago通用格式;英国数据管理中心(DCC)、校际社会科学研究联盟数据中心(ICPSR)等机构的科学数据引用格式是建立在Data-Cite的基础之上;OECD世界经合组织对科学数据引用格式做出了更详细的要求,对数据集和电子表格等不同格式的科学数据都做了相应的规定。
2.2.1 调查对象。首批23个国家科技基础条件平台中的6个数据共享平台以及3个常用的数据共享平台作为研究对象,如表2所示。
表2 调查对象列表
2.2.2 现状调查。
(1)国内数据仓储科学数据引用要求现状。
表3 国内数据仓储科学引用要求
续表3
(2)比较分析。如表3所示,在被调查的这9个数据仓储中,对于科学数据引用有明确要求的只有5个,分别是地球系统科学数据共享平台、地震科学数据共享中心、中国西部环境与生态科学数据中心、国家基础科学数据共享服务平台以及中科院计算机网络信息中心国际科学数据镜像网站。
在这五个平台中,只有国家基础科学数据共享服务平台在2012年发布了《TR-REC-069科学数据引用规范》,在这个要求中不仅对于科学数据引用要求适用的范围、科学数据引用语法等进行了详细的规定,还在附录中整理了国际科学数据引用标准调研等,其引用元素设置和引用格式等与后来制定的《信息技术科学数据引用标准》基本一致。
地球系统科学数据共享平台、中国西部环境与生态科学数据中心、地震科学数据共享中心以及中科院计算机网络信息中心国际科学数据镜像网站这四个平台对于本平台科学数据引用的要求是在文中标注数据出处或是在致谢中写明数据出处。但是在地球系统科学数据共享平台的每一个数据集下面又会特别标注出该数据集的文献引用方式。
除此之外,也出现了数据平台中每一个数据集文献引用格式不同的情况,比如在地球系统科学数据共享平台中,出现了“中科院地理所地球数据科学与共享研究室。四川雅安地区气候要素数据(平均降水、积温、辐射数据,2010年)。地球系统科学数据共享平台”和“中科院地理所地球数据科学与共享研究室。四川雅安地区地震资料数据库(地震目录数据、地磁台分均值数据)。地球系统科学数据共享平台,2014”等不同的数据引用方式,这说明数据共享平台的科学数据引用要求没有完全统一。
通过对国内外主要的数据共享平台的科学数据引用要求进行对比,可以看到国内数据共享平台在科学数据引用要求的发展上是远远落后于国外的,主要有以下几点差别:
首先,国外的科学数据共享平台基本都有明确的科学数据引用要求,它们有的是沿用国际组织已经发布的科学数据引用规范,有的则是自行制定,都对科学数据的引用有规范化的指导。国内的数据共享平台没有全部都有科学数据引用要求。
其次,国外的数据共享平台的科学引用要求更为规范化、具体化和专业化,在引用格式、引用元素等方面都有明确的规定,国内数据共享平台的科学数据引用要求较为简单,多以致谢中标明的方式对科学数据进行引用说明,缺乏专业性和规范性。国内的数据共享平台还存在平台内数据集的引用格式不统一等情况。
科研人员的很多成果都会发表在学术期刊上,学术期刊的投稿要求、投稿格式等指南性文件中对于文献资源的引用也有一些相应的要求。
选取SCI收录的期刊中影响因子大于20.000的期刊,一共有41个。对所选择的国外学术期刊进行调查,调查其投稿格式、投稿指南、作者手册等内容,在这41个期刊中,明确写出了相关参考文献格式的有26个,其中16个使用的是温哥华格式,5个使用的是EndNote中的格式,使用AMA格式、ACS格式和哈佛格式的各1个。EndNote和AMA中有科学数据引用的要求,其他几种格式的引用规范中没有对科学数据引用有明确的要求。国外的学术期刊大多使用通用的参考文献著录格式,大部分期刊没有对科学数据引用有明确的要求,少数期刊在声明中指出统计数据应该被引用。学术期刊对科学数据引用有一定程度的关注,缺乏对于科学数据引用的指导。
在中国知网核心期刊导航中,各学科复合影响因子排序大于3.000的96本期刊为样本。以96个期刊为样本,对每个期刊的投稿要求进行调研,调研期刊的“投稿须知”“论文模板”“参考文献格式”等内容,判断该期刊是否发布有关科学数据的引用要求,如表4所示。
表4 学术期刊科学数据引用要求情况
如表4所示,在所调查的96本学术期刊中,只有5本学术期刊在其“投稿须知”“论文模板”“参考文献格式”等内容中对于数据引用有所要求,其中有四本期刊是来自自然科学领域,一本来自法学领域。《法学研究》《岩石学报》《地学前缘》《地球物理学报》这四本期刊只是在相关指南和要求中提到要对数据进行标注,但没有提供相关的引用要求。在《植物生态学报》的投稿指南中没有明确指出对数据的引用要求,只是要求了对站点资料的引用格式。国内外学术期刊的参考文献著录要求大多是使用已有的参考文献著录规范,因此大部分学术期刊都没有对科学数据引用做出专门的指导和说明。但是,国外的一些参考文献著录规范中包含科学数据引用的要求,国内的参考文献著录规范中没有包含科学数据引用要求,这不仅导致国内学术期刊缺乏对于科学数据引用的指导,也导致科学数据引用规范的统一性、专业性较低。
目前我国在科学数据引用规范上的研究还处于初级阶段,和国外的相关研究相比,还有很大的差距。国内数据仓储、学术期刊等对于科学数据引用要求的缺失说明国内相关主体的数据引用规范化的意识不强,相关机构也没有制定合适的政策来加强研究人员的科学数据引用意识。国内已经实施的各类科学数据引用要求大部分都缺乏统一性和专业性。国内的数据引用要求中引用元素的数量、种类和可拓展性都不如国外的相关要求。国内的数据引用要求中很少体现数据生产者个人的价值和贡献,仅标明了科学数据的发布机构和传播机构。国内的出版商、数据仓储、科研人员等科学数据引用相关主体缺乏沟通与合作。在已经制定出的引用规范中的引用元素、引用格式等也有很多不同,规范化程度较低,差异性大,元素设置等内容不够详细,对于科学数据引用标准的研究还处于初级阶段。除此之外,也能看到出版商、数据仓储等机构对于科学数据引用标准的重要性认识不足,研究不够,没有认识到科学数据在未来科学研究中的重要地位,也没有认识到科学数据规范引用的重要性。这些问题都阻碍了国内的科学数据引用要求的发展。
针对国内科学数据引用要求的现状和国内外的差距,相关主体应当加大对于科学数据引用规范的研究力度,特别是对于本学科和本领域内的国内外科学数据引用规范应当加强研究的深度和广度。《信息技术科学数据引用》(GB/T 35294—2017)已于2018年7月正式实施,数据仓储、学术期刊等主体应当深入研究该规范,同时结合该规范的相关内容和自身情况制定科学数据引用要求,引导科研人员规范进行科学数据引用。除此之外,应当建立相关合作机制,在合作和交流的基础上建立完整的科学数据引用体系和机制,建立规范统一的科学数据引用规范,促进科学数据引用规范的实施。