孔祥盛
(中国科学院档案馆,北京,100190)
2018年,国务院办公厅印发了《科学数据管理办法》[1](以下简称P1),明确提出“政府预算资金资助的各级科技计划(专项、基金等)项目所形成的科学数据,应由项目牵头单位汇交到相关科学数据中心”。2019年12月,科技部印发《科技计划项目科学数据汇交工作方案(试行)》(以下简称P2),科学数据汇交工作开始走向规范化和常态化。本文聚焦科学数据管理中的汇交环节,选取典型的汇交政策进行分析,一方面总结目前科学数据汇交现状以及不同科学数据中心的汇交政策异同,另一方面对比科研档案管理要求,梳理协同管理的困境,并提出总结思考。
2019年,科技部、财政部发布了《国家科技资源共享服务平台优化调整名单的通知》,其中包括首批20家国家科学数据中心,承担相关领域科学数据的整合汇交工作。调研发现,目前20家国家科学数据中心均提供了数据汇交服务,其中除国家极地科学数据中心官网暂无法访问外,13家提供了成文的政策文本,6家仅有网页介绍汇交政策内容(表格中用*标记)。因此,本研究选取了19家国家科学数据中心的25份数据汇交相关政策(见表1),使用文本分析法开展研究。
表1 19家国家科学数据中心的数据汇交相关政策清单
(1)汇交来源
根据P1要求,所有的科学数据中心均按照规定接收科技计划(含专项、基金等)项目来源的科学数据。除此之外,有4家科学数据中心(C4,C5,C6,C8)将观测设施或装置(含网络)来源的科学数据纳入汇交范畴,7家科学数据中心(C4,C5,C7,C8,C13,C14,C18)将论文来源的科学数据纳入汇交范畴,5家科学数据中心(C5,C8,C9,C14,C19)支持其他来源(如个人、机构、团队等)科学数据汇交。
(2)汇交内容
根据P2要求,科学数据汇交主要内容包括科学数据实体、科学数据描述信息和科学数据辅助工具软件三部分。各科学数据中心对数据实体的界定不一致,差异主要体现在对项目管理性文件和成果性文件的判定。几乎所有的科学数据中心都要求提交项目任务书、数据管理计划等管理性文件。大部分科学数据中心(C3,C6,C11,C12,C15,C18,C19)要求将项目相关论文、标准、专利等进行汇交。仅个别科学数据中心(C2,C14)明确在政策中指出汇交范围不包括论文、专利、软件著作权、未来研究计划等信息。
(3)汇交流程
P2提出了科学数据汇交的7个环节,基本覆盖了科学数据管理的全流程。所有科学数据中心都遵循这一操作流程,但在各自政策中有细微差异。一是科学数据汇交计划制定环节。C4将“制定科学数据汇交计划”拆分为“制定数据管理计划”和“制定数据汇交方案”,在项目不同阶段实施。部分科学数据中心(C1,C13,C18,C19)允许在项目使用自定义的元数据模板/字典。二是科学数据制备环节。大多数科学数据中心都提供了相关领域的标准规范参考、格式要求以及相关培训资料和视频等,为科学数据的制备工作提供了较为充分的指导。例如C4提供了CDF、FITS、VOTable、HDF5、SAO等数据格式标准要求。三是科学数据提交环节。流程上,少部分科学数据中心(C1,C10,C14,C15)在政策中明确了科学数据质量自查流程,大多数科学数据中心一般采取项目负责人线上审核或线下签字盖章等形式确保数据质量。提交方式上,大部分科学数据中心都提供了线上提交方式,用户可以在线完成科学数据汇交工作,一般可通过HTTP、FTP、Aspera命令行等多种方式在线批量提交。在面对大体量(通常为TB级别)科学数据一次性汇交时,所有的科学数据中心都建议采用线下邮寄存储介质(如硬盘、U盘、光盘等)的方式协助完成汇交。C18在面对单个项目科学数据总量超出处理能力时,采取了部分逻辑汇交方式,将部分数据实体暂存项目单位。[2]四是科学数据审核环节。一般分为形式审核和内容审核两部分。形式审核一般由系统审核与人工审核相结合,通常要求数据实体汇交数量大于等于汇交计划中的数量。比如C6会对汇交数据进行完整性与规范性、一致性和数据质量审核,并对不符合规定的数据要求整改或拒绝其接收;C13会在填报完成后自动检测元数据的完整性和规范性; C15提供实体数据检查工具,便于统计数据条目数量。[3]内容审核目前主要分为三种模式:专家/同行评审(C1,C4,C7)、用户评价(C4,C6,C7,C8,C10,C13)和科学数据中心审核(C2,C3,C5)。虽然P2要求组织开展科学数据质量同行评议等方式进行评估,但部分科学数据中心(C2,C13)的汇交流程并未将此作为汇交通过的必要条件。五是科学数据汇总环节。在分类方式上,科学数据中心会采取多种维度的分类方式进行汇总,便于用户发现和利用。在编目方式上,C2,C3采用“项目—样本/标本—数据”三级分类方式进行著录关联,不同来源的数据按类型分别汇交到各库中。而其他大多数科学数据中心通常以数据集为单位进行编目。在标识方面,除了C2,C3采用自编号外,其他所有科学数据中心均提供通用唯一标识符,如CSTR、DOI、PID、Handle。其中C5,C18还采用了本学科领域的专用标识编号。六是科学数据的发布与共享环节。科学数据在汇交时需要明确数据开放发布时间、共享方式、引用方式等信息。通常建议科学数据保护期不超过一年,大部分
科学数据中心都提供了超过一年的数据保护期限选择。比如FAST项目的数据一般情况拥有12个月数据保护期,到期后根据数据类型将分批公开。共享方式方面,根据共享范围分为暂不共享、完全开放共享、协议共享等;根据是否收费分为公益、无偿共享和收费、有偿共享等。七是科学数据的使用与维护更新。由于科学数据可能需要持续更新和完善,P1也规定“项目/课题验收后产生的科学数据也应进行汇交”,因此科学数据中心都支持数据更新或追加。出于某些特殊原因(如侵权、剽窃、作假等),汇交负责人或科学数据中心有权提出撤回数据。
(1)科学数据汇交来源复杂和流向混乱
P1针对汇交提及了三种不同来源的科学数据:政府预算资金资助的各级科技计划(专项、基金等)项目所形成的科学数据、学术论文数据和社会资金资助形成的科学数据。这三类来源在逻辑分类上既不全面,也存在交叉,比如学术论文数据通常属于科技项目数据的一部分;再比如对于多资金来源的项目,较难区分数据来源。从各科学数据中心的政策来看,不同科学数据中心对于“汇交”的认知存在差异,存在项目、样本、装置设施、野外台站、论文、机构/团队、个人等不同来源的数据。此外,现有的20家国家科学数据中心一方面存在领域交叉,另一方面也不能完全覆盖所有学科领域,导致无法在政策层面完全明确汇交数据归属流向。实际汇交过程中,数据流向可能受项目领域、项目来源、用户意愿等多个因素影响,造成混乱局面。对于档案部门而言,长期以来都以项目(任务)为单元开展科研档案管理工作,档案来源明确,已经形成了一套较为成熟固定的管理模式。科学数据与科研档案协同管理首先需要理清科学数据的来源问题,即哪些来源的科学数据可以纳入科研档案管理、不同来源的科学数据如何融入现有的档案管理体系。
(2)科学数据与科研档案管理主要目的差异
虽然科学数据与科研档案都具有支撑和服务科研创新的作用,但是从更主要的目的来看,科研档案管理强调凭证价值,倾向于保存;而科学数据汇交强调情报价值,更倾向于共享利用。科研档案作为我国特有的一种门类档案,一直承担收集、整理、保管科技文件资料并提供利用服务的职能。长期以来,受知识产权保护、安全保密等因素影响,档案管理“重藏轻用”的倾向明显,在开发利用方面较为保守。目前,FAIR原则早已成为科学数据管理的共识,可发现(Findable)、可访问(Accessible)、可互操作(Interoperable)和可重用(Reusable)四点要求也是基于共享利用这一需求提出的。相较于科研档案相对严格的利用管理要求,科学数据在汇交时就要求数据提交者明确开放发布时间、共享方式等,故而在提供利用时一般无需再次征求形成者意见,显得更加灵活和开放。作为科研档案一部分的科学数据,是否需要严格遵循科研档案的相对严格的利用范围限制,仍需进一步讨论。
(1)科学数据与科研档案的管理粒度不统一
不同学科领域科学数据产生方式和管理要求存在差异,导致其在管理粒度上差异较大。目前科学数据通常以“数据集”为最小单位进行管理,但是数据集的概念并不明确,实际操作中一个数据集既可以是单个电子文件,也可以是某个时空序列或某个主题下多个电子文件的集合;数据集除了包含数据实体外,还可能包含数据对应的说明文档和缩略图等其他文件;数据集既可以是一个纯文本格式文件(如基因组数据),也可以是多条数据组成一个结构化数据文件(如标本名录数据),还可以是多维数组和二维表数据组成的一个多维数据集文件(如天文文件、大气文件等)……即使在形式上科学数据完全属于电子文件范畴,但在实际工作中也并不能完全套用档案领域以“件”或“卷—件”为单位的管理方式。
(2)科学数据与科研档案的领域差异
科研档案强调通用性,没有明显的领域差别。而科学数据强调学科领域差异,因此在描述时除了通用的核心元数据外,还会扩展本领域元数据,比如地理位置信息、数据产品分级信息、实验样本信息等。相较于档案领域较为单一、通用的著录项,这部分元数据信息能够直接揭示科学数据内容,更易于满足利用者需求。一些领域(如天文、空间、环境等)科学数据的产生具有连续性和可持续性,汇交可能只是一个阶段性工作。在后续汇交中可能还会对数据集的内容进行修改和更新,这也意味着元数据需要同步修改更新,一定程度上有悖于档案管理中对原始性的基本要求。
(1)科学数据汇交内容与科研档案归档范围交叉
P2明确汇交内容包括科学数据实体、科学数据描述信息和科学数据辅助工具软件三类,这与《科学技术研究档案管理规定》中“归档的科研电子文件及其……元数据等应当符合国家相关规范要求”以及“归档范围包括数据、软件等”的规定本质是一致的。目前各科学数据中心对科学数据实体的界定并不一致,大多数科学数据中心的汇交范围还包括了论文、专利、软著等成果性文件,与现有的科研档案归档范围产生较大重合,造成项目相关数据重复归档。而这部分交叉的文件往往载体形式上也不够规范,通常只是数字化副本或流式电子文档,而非真正具有效力的电子文件。从逻辑上看,科学数据作为科研档案的一部分,其汇交内容必然也属于归档范围。科研档案管理更“求全”,即注重全过程的成套性;而科学数据更“求精”,即聚焦关键性数据和最终成果。但目前割裂管理的方式既削弱了科研档案的完整性,也容易造成重复归档。
(2)科学数据汇交与科研档案归档流程重而不同
虽然宏观上科学数据的汇交流程基本与科研档案归档流程保持重合,但是在细节流程要求上差异较大。一是科研档案强调科研项目各阶段、全流程产生的文件的系统性和完整性,而科学数据管理更聚焦项目成果性文件的完整性。二是科研档案强调真实性和原始性,而科学数据通常需要进行一定的加工处理,如去隐私化、匿名化等。三是科研档案的主要整理环节发生在移交前,由文件生成者负责;而科学数据的编目、整理等环节发生在提交后,由科学数据中心完成。四是科研档案审核偏重形式,科学数据审核可以深入具体内容。五是科学数据在结题后仍可以更新完善,而科研档案一般归档后较难持续跟进更新。
(3)科学数据的格式繁多且不规范
科学数据通常表现为一维、二维或多维数组,也有图片、音视频等多种形式,虽然本质上仍是文本、表格、栅格图像或多维数据集合,但是为了便于开展数据分析和交换,各学科领域一般都会根据本领域特点和需求,采用特有的数据格式标准(如测序数据常用的fastq、fasta等;地理信息数据常用的Geotiff;空间、天文数据常用的CDF、FITS、VOTable、HDF5等),科学界在此基础上开发了专用的分析和可视化工具,这也导致科学数据出现繁多的数据格式。出于长期保存考虑,档案领域通常要求电子文件转换为通用格式或版式格式保存,而大多数科学数据格式并未经过格式注册和评估,很难直接转换为通用格式或版式格式。随着技术的不断迭代发展,科学数据的格式还在持续更新和增加,这也为科研档案电子化管理带来难题。
(1)认知层面:科学数据与科研档案的泛化与交叉
无论是政策对科学数据定义与分类的“语焉不详”,还是科学数据中心在汇交实践中“来者不拒”,都体现出科学数据的泛化趋势。同样,电子文件正日益成为档案工作关注焦点,档案自身的概念也在不知不觉中走向“泛化”。而随着双方管理要求的细化,原本模糊的交叉地带也逐渐清晰起来。但这种泛化与交叉并不是偶然。追溯历史可以发现,我国科学数据的汇交管理模式起源于1963年《全国地质资料汇交办法》,虽然叫作“资料”,但是实际上仍属于档案范畴,也按照科技档案要求管理。电子形态数据的大量出现,和纸质档案管理模式的巨大差异,导致两者逐渐分化发展。而《科学技术研究档案管理规定》对数据的强调,更像是一次概念上的“拨乱反正”,重新明确了科研档案的范围。因此,虽然这种概念上的泛化与业务上的交叉,客观上的确会给传统档案管理观念和现有管理模式带来挑战,但也是档案工作数字转型的趋势和机遇,是两者未来开展协同的基础之一,总体上是有益的。
(2)实践层面:科学数据与科研档案的异化与融合
在上述的协同困境中,大多数问题都是由于科学数据与科研档案管理的差异性造成的。科学数据的学科领域属性导致了其管理的复杂和多样,而正是这种灵活性恰恰满足了科学界对科学数据的利用共享需求。科学数据本就是科研档案的子集,相较于传统科研档案管理,摆脱了纸质载体桎梏的科学数据在管理流程上明显更加高效和扁平。因此,盲目地将传统科研档案的管理要求强加于科学数据既不科学,也不现实。数字时代档案管理部门要重新思考现有的管理要求是否合理,并及时做出新的调整和解释。从目前的科学数据汇交政策来看,科学数据的管理整体较为粗放,汇交工作仍处于起步阶段,尤其是不同学科间不平衡问题凸显,档案部门可以找准场景切入,推进与科学数据融合发展。
(1)建立科学数据与科研档案协同管理共识
统一的认知,是科学数据与科研档案协同管理的基础。对于科学数据管理方,需要认识到汇交科学数据的档案属性,建立起清晰的管理边界。对于科研档案管理方,要充分认识科学数据自身复杂特点和科学界的需求,在不影响科学数据良性发展的前提下努力提供档案管理经验。一是理清科学数据汇交来源,将科技计划(含专项、基金等)项目来源的数据与其他来源的数据区分开。二是明确科学数据汇交内容,多数情况下不要把文章、标准、专利、实验报告和研究报告等内容作为首要的汇交内容。[4]三是规范科学数据流向,除了将学科领域作为划分标准外,也要考虑数据形成单位科研档案的完整性不受破坏。
(2)创新形式开展领域科学数据归档工作
科学数据汇交实质上就是一种归档机制,不过目前的汇交在细节上并不完全符合科研档案管理要求。考虑到科学数据极强的领域特点和专业性,亟待创新工作形式使科学数据汇交工作规范化、合理化。一是建立系统的科学数据归档能力认证机制,科学数据目前主流的汇交方式是按领域汇交,通过认证的领域科学数据中心可以认定为具有效力的科学数据归档部门。二是通过协议等方式,将档案部门的一部分归档管理职责委托给科学数据管理部门,并对其加以监管和定期检查。
(3)整合优化科学数据与科研档案管理流程
由于科学数据汇交与科研档案归档关注的侧重点不同,导致其在流程上不能完全吻合,为整合优化管理流程提供可能。一是加强前端控制环节整合,科学数据汇交计划与科研档案归档范围都是在项目立项前期制定,内容上科学数据汇交计划更加具体,可以嵌入科研档案归档范围。二是加强中间环节共性流程整合,如人员培训、业务督导、审核验收等环节可以相互补位,提高项目管理的效率,切实减轻科研人员负担。三是加强利用流程的整合,通过赋予汇交科学数据档号或赋予科研档案科技资源标识符等方式,建立科研档案和科学数据之间的双向关联。
(4)协同推进科学数据长期保存工作
对于科学数据管理部门而言,科学数据的长期保存是确保科学数据开放共享的前提;对于档案部门而言,长期保存是档案管理的优势和使命职责。而长期保存本就是一项涉及全流程、多主体的复杂工作,因此双方存在较大协同空间。一是开展科学数据格式的评估、注册和管理,亟需建立科学领域较完整和权威的格式信息库。二是明确生命周期结束的科学数据流向和管理职责,做好数据从科学数据中心向档案管理部门移交冷保存的准备。三是协同开展多节点异地备份以及存证工作,确保科学数据资源长期真实可用。