科学数据中心和高校图书馆科学数据服务实践研究

2023-09-16 08:56许哲平陈学娟
中国科技资源导刊 2023年4期
关键词:数据服务数据管理数据中心

蒋 甜 许哲平 陈学娟 曾 燕

(中国科学院文献情报中心 北京 100190)

0 引言

随着科学研究第四范式的到来,科学数据日益成为科技创新的重要基础性战略资源,世界各地的政府、基金资助机构和出版商正在要求将科学数据开放共享,用户对科学数据的需求日益多样化、复杂化。为科研用户提供高效服务是科学数据价值实现的必要条件,《科学数据管理办法》的颁布与实施使我国科学数据服务和管理提升至国家层面。

科学数据中心是推动科学数据开放共享的重要载体,是科学数据汇集、管理、开放共享和保存的重要基础设施[1-3]。高校图书馆拥有海量的印本和数字资源,依托高校先进的网络平台及人才优势,成为科学数据管理与服务的重要阵地。作为科学数据服务的两大主体,二者在开展科学数据服务的内容和形式上既有共性,又有差异。国内外学者对科学数据中心和高校图书馆的科学数据服务实践开展了广泛研究,但对二者的对比分析鲜有涉及。本文对国内外科学数据中心和高校图书馆开展科学数据服务的典型案例进行详细调研和系统梳理,从服务目标、服务对象、服务内容和服务形式4 个维度对这两类科学数据服务主体进行对比分析,并在此基础上提出进一步提高我国科学数据服务水平的对策建议。

1 研究综述

1.1 科学数据中心开展科学数据服务的研究综述

一是总结发达国家科学数据中心建设的先进经验,得出对我国的启示。刘细文等[4]归纳了美国地球科学领域10 个科学数据中心开展科学数据服务的方式。高孟绪等[3]分析了美国、英国、澳大利亚开展科学数据中心建设的经验和做法,提出我国国家科学数据中心建设和可持续发展的对策建议。

二是以一个或多个科学数据中心为例,梳理我国科学数据中心开展科学数据服务的现状和特点。曾珊等[5]介绍了国家高能物理数据中心开展科学数据服务的内容、方式以及服务成效;张连翀等[6]介绍了国家对地观测科学数据中心的发展历程、总体目标、重点任务和业务成果;范国梅等[7]介绍了国家微生物科学数据中心的系统建设情况、数据汇交和发布的流程以及特色数据资源;王舒[8]从服务目标、服务对象、服务功能、服务方式、服务资金来源5 个方面,对国家人口医学科学数据中心等国内7 个科学数据仓储服务进行了调查分析。

1.2 高校图书馆开展科学数据服务的研究综述

一是对发达国家和地区高校图书馆科学数据服务特点及经验的总结。Yoon等[9]对美国185 家图书馆的网站进行了调研,以了解美国高校图书馆的科学数据服务情况。Tenopir等[10]调研了欧洲研究型图书馆协会开展科学数据服务的现状、未来服务计划和地区差异。司莉等[11]调研了QS(Quacquarelli Symonds)2017 年世界大学排名前100 高校的图书馆开展科学数据服务的类型、内容及形式。牟妍[12]、周雷等[13]分别调研了澳大利亚和德国部分知名高校开展科学数据服务的实践情况,得出对我国相关机构开展数据服务的启示。

二是对我国高校图书馆开展科学数据服务的现状、特点总结及存在问题进行分析。Zhang等[14]对中国开放科学数据的政策和实践进行了文献综述和内容分析,总结出中国开放科学数据生态景观。周荣伟等[15]对国内8 所高校科学数据服务平台的软件基础、管理内容、管理方式等进行调研,并对数据管理过程和平台使用中的不足提出了建议。赵小兰等[16]对10 所香港高校的图书馆科学数据服务的内容和管理政策进行分析,总结其科学数据生命周期各环节的服务亮点。

三是对国内外高校图书馆科学数据服务的综合及对比分析,以及围绕科学数据服务进行的基础设施建设、服务权益保障等问题的研究。陆颖等[17]从研究、数据、政策和服务4 个维度分析了图书馆、数据中心、政府及公共部门、企业等不同主体在科学数据传播中的利益诉求和相互关系。王南[18]探讨了高校图书馆在“互联网+”环境下提供科学数据服务的可行性及主要内容,并提出进一步完善科学数据服务的对策建议。安源等[19]构建了高校图书馆科学数据服务实施框架体系,并分析了高校图书馆科研数据服务实施过程中各主要因素间关系,提出了加强科研数据管理服务的措施。

2 科学数据中心科学数据服务现状和特点

科学数据中心是科学数据服务的重要主体及基础设施,本文选取国内外科学数据中心开展科学数据服务的典型案例进行系统调研分析。

2.1 国外科学数据中心的服务

世界数据系统(World Data System,WDS)是国际科学理事会的跨学科机构。截至2020 年12 月1 日,WDS共有86 个正式会员。其中,美国会员的数量最多(29 个),中国有9 家科学数据中心是WDS的正式会员(图1),分别是中国国家天文数据中心、世界可再生资源与环境数据中心、中国国家海洋资料中心、世界微生物数据中心、中国国家空间科学数据中心、兰州寒区旱区科学数据中心、地球物理世界数据中心、全球变化研究数据发布和存储库以及地球科学数据与发现出版系统。

图1 WDS正式会员的国家分布

欧洲和美国是开展科学数据服务的先驱,澳大利亚是科学数据服务的积极践行者,本文选取美国、欧洲和澳大利亚的部分国际知名数据中心,对其科学数据服务情况进行调研(表1)。

表1 国外科学数据中心开展科学数据服务的典型案例

美国的世界级或国家级科学数据中心最多,涉及生物、地学、环境等领域。对国外科学数据中心进行调研分析发现,国外的科学数据中心从功能上大致可以划分为3 类。一是提供数据从产生到共享再到利用的全流程服务,表1 中列举的美国科学数据中心都属于这一类型。二是提供科学数据的存储和共享利用,不关注数据产生前的科学数据管理计划提交以及数据产生后的分析挖掘,如德国的世界气候数据中心。三是不存储数据本身,而是提供来自数据发布合作伙伴的数据描述和链接,起到数据搜索引擎的作用,如澳大利亚研究数据共享中心(ARDC)。

2.2 国内科学数据中心的服务

本文以2019 年优化调整后形成的20 个国家科学数据中心为研究对象。其中,国家极地科学数据中心无法访问,因此只对其余19 个数据中心网站进行调研(表2)。

表2 我国科学数据中心开展科学数据服务的典型案例

科学数据汇交是我国国家科学数据中心的核心服务内容之一,表2 中所有国家科学数据中心都提供数据汇交服务,要求科研人员编制科学数据汇交方案,推荐元数据标准,并对用户提交的元数据信息进行审核。表2 中所有科学数据中心都提供科学数据服务相关咨询,部分科学数据中心制作了丰富的培训课程,如国家基因组科学数据中心的数据库培训微课堂、国家人口健康科学数据中心的培训课堂、国家微生物科学数据中心的微课堂网络精品课程等。在数据分析服务方面有两种方式:一是提供分析工具软件,如国家基因组科学数据中心提供可视化、序列比对、成分分析等工具;二是提供在线集成分析平台,如国家微生物科学数据中心的微生物交互式应用分析云平台、国家天文科学数据中心的天文科技领域云、国家材料腐蚀与防护科学数据中心的材料腐蚀大数据智能分析集成平台等。我国科学数据中心向汇交数据分配DOI或科技资源标识(CSTR),便于科学数据的引用和共享。除围绕科学数据生命周期的科学数据服务外,我国国家科学数据中心还根据具体的应用场景和实际研究需求,为客户提供多样化的定制服务,实现由数据库或数据本身共享模式向数据产品共享模式的转变。

2.3 国内外科学数据中心服务的对比

对比分析可以看出,国内外科学数据中心的服务目标和服务内容总体上较为相似,都服务于国家战略需求,提供围绕科学数据生命周期全流程的各项服务,但在以下3 个方面存在差异。

(1)科学数据相关教育与培训的覆盖度和侧重点不同。国外科学数据中心对科学数据教育与培训的覆盖度更高,主要侧重于科学数据管理计划(DMP)的撰写指导以及对服务资源和工具的介绍。国内科学数据中心主要侧重于数据汇交的指导以及对数据仓储使用的培训。国外数据中心要求提交的数据管理计划(DMP)和国内的数据汇交计划都有明确项目数据管理相关角色与责权利、梳理预期产生的科学数据资源、提出数据质量控制的要求、确定最终汇交方式以及明确科学数据开放时间、范围及共享方式等内容。

(2)国外科学数据中心的数据存储大多基于科学家的主观意愿,形成数据使用和数据存储的良性循环。相对而言,国内科学数据中心的数据存储很大程度上依赖于对国家自然科学基金委、科技部等科研项目的数据汇交,科学家主动存储数据的积极性不高。这与我国国情相关,随着我国科学数据服务的不断完善以及公众对科学数据开放共享认识的逐步深入,将提升科学家对数据存储共享的需求和意愿。

(3)国外数据中心与企业的合作更为紧密,如英国剑桥晶体结构数据中心(CCDC)与包括葛兰素史克和辉瑞在内的全球顶尖企业合作,为其提供内部数据库管理、数据咨询和理论预测服务[20],NASA 地球观测系统数据和信息系统(EOSDIS)与亚马逊网络服务(AWS)、谷歌云平台、IBM和微软等开展深度合作,从而为NASA 地球科学数据开发强大的云基础设施,并改进NASA 数据和资源的发掘[21]。相对而言,我国科学数据中心对企业的服务力度不足,服务的广度和深度有待提高。未来科学数据中心和企业有待形成一种双向合作、互利共赢的合作生态。一方面,科学数据中心利用数据资源和技术优势为企业解决生产研发实际需求,使数据发挥更大的价值;另一方面,商业资本的注入为科学数据中心的运营提供更加灵活和多元化的方式。

3 高校图书馆科学数据服务的现状和特点

高校图书馆拥有丰富的馆藏资源,依托高校的基础设施及人才优势,成为科学数据管理与服务的重要阵地,本文选取国内外知名高校图书馆开展科学数据服务的典型案例进行深入调研分析。

3.1 国外高校图书馆的科学数据服务

美国、欧洲和澳大利亚的高校开展科学数据服务的时间较早,服务的内容较为全面,服务形式相对多样化,因此选取美国、欧洲和澳大利亚的部分国际知名高校图书馆,对其科学数据服务的现状进行调研(表3)。

由表3 可以看出,国外高校对于咨询型科学数据服务的覆盖率较高。表3 中的所有高校都提供与科学数据管理相关的咨询服务,大多数高校提供相关教育和培训。技术型服务围绕科学数据全生命周期展开,嵌入科学研究的全流程,对于科学数据管理计划(DMP)、元数据标准、科学数据存储、出版和共享等服务的覆盖率较高,科学数据引用多以提供DOI的方式实现。科学数据服务政策和指南分为3 类:一是基金资助方的要求(Funder requirements),如美国的NSF、NIH、美国能源部、USDA等;二是出版社和期刊的要求(Publisher & Journal requirements),如PLOS、Nature、Science等期刊对于科学数据共享的原则和要求;三是学校制定的要求(Universityspecific guidelines),如牛津大学、剑桥大学、洪堡大学、耶拿大学等发布的科学数据管理政策。

3.2 国内高校图书馆的科学数据服务

目前,我国开展科学数据服务的高校主要有北京大学、武汉大学、复旦大学、中国人民大学、华东师范大学。相比而言,香港高校的科学数据服务体系更为完善(表4)。

表4 我国高校图书馆开展科学数据服务的典型案例

“北京大学开放研究数据平台”由北京大学图书馆和北京大学科研部、社科部等部门联合开发建设,为北大师生及国内外科研人员提供研究数据的管理、发布和存储、检索、下载和分析等多种科学数据服务[22]。“武汉大学科研数据管理”服务平台面向校内师生提供数据保存、管理与共享服务[23]。中国人民大学中国调查与数据中心是中国人民大学直属的跨学科、跨院系的综合性研究机构,围绕中国的经济和社会数据,以数据采集、数据存储、数据开发为主要方向[24]。复旦大学社会科学数据平台为高等院校、科研院所、政府机构等提供科学数据的储存、共享、分析等多种服务[25]。华东师范大学人文社科大数据平台旨在实现华东师范大学人文社科领域内各类数据集的数据存储、数据管理、数据分析、数据共享及数据引证溯源[26]。香港中文大学和香港科技大学开展科学数据服务的形式和内容与欧美高校较为接近。

3.3 国内外高校图书馆数据服务的对比

与国外相比,国内开展科学数据服务的高校图书馆总量较少且内容单一。仅北京大学、武汉大学、中国人民大学、复旦大学等少数高校图书馆开展了科学数据服务,远未大量普及,科学数据服务制度体系建设仍处于探索阶段。主要的服务范畴局限于科学数据的获取、存储和共享,缺乏对数据的深度分析挖掘,对于数据管理计划、元数据标准以及科学数据管理相关培训的重视程度不足。

4 科学数据服务框架设计

对科学数据中心和高校图书馆开展科学数据服务实践的梳理,总结了科学数据服务体系框架,如图2 所示。

图2 科学数据服务体系框架

作为科学数据服务的两大主体,科学数据中心和高校图书馆在科学数据服务方面既有共性,又有不同。下面分别从服务目标、服务对象、服务内容和服务形式4 个方面进行比较。

4.1 服务目标

服务目标决定了科学数据服务主体的服务内容与发展方向。科学数据中心服务国家战略需求和重大任务,促进科学数据的流转、利用和增值,充分发挥国家财政投入产出效益。作为相对独立的专业化、特色化的重要科技创新基地,科学数据中心肩负着推动相关学科领域发展,支撑科技创新的使命。随着高校图书馆角色定位的转型,科学数据服务逐渐成为高校图书馆新的业务方向,高校图书馆主要为校内师生在研究过程中所产生的科学数据提供管理、存储等服务。

4.2 服务对象

科学数据中心的服务对象广泛,包括领域内各个科研机构、高校乃至企业的科研人员,部分数据中心还面向中小学生提供科普服务。高校图书馆的科学数据服务主要面向校内师生,也有部分开放程度较高、数据资源较广的平台面向国内外科研工作者,高校联盟内部的成员之间通常可以共享数据资源和服务。

4.3 服务内容

科学数据中心和高校图书馆都提供围绕科学数据全生命周期的服务,但二者又各有侧重。科学数据中心侧重科学数据的汇交,以及汇交后的数据存储、利用和共享,通过提供数据分析工具或集成在线数据分析云平台等方式进行数据的深度分析挖掘,甚至形成模块化的数据产品。此外,还承担着建立并发展科学数据政策体系、标准体系、资源体系、软件体系、服务与运行体系以及安全治理体系等任务。高校图书馆主要为本校师生发现、存储和管理数据提供便利,如高校教师的论文、研究数据存储,学生毕业论文及数据的存储,提供数据发现的外部链接和数据管理工具等。高校图书馆还承担了科学数据素养教育培训的重要功能,国外高校图书馆的科学数据培训较为成熟,我国高校图书馆在这方面还有待提升。

4.4 服务形式

科学数据中心的服务形式更为广泛,可根据用户的需求和具体场景提供定制化的服务和专题服务等。目前,高校图书馆科学数据服务形式相对单一,基本围绕科学数据生命周期提供服务。有由图书馆主导的科学数据服务,也有由高校各院系联合主办,图书馆作为参与部门,协助开展科学数据服务的形式。

5 进一步思考与建议

5.1 注重科学数据的教育及培训服务

由国内外对比分析可以看出,我国科学数据中心和高校图书馆对科学数据教育及培训的重视程度不足,调研的19 家国家科学数据中心仅有8 家在官方网站上可以看到科学数据培训的内容,国内的高校图书馆提供科学数据相关的咨询服务,但缺乏体系化、建制化的科学数据培训课程。一方面,科学数据培训是协助科研人员快速了解科学数据中心或高校图书馆科学数据服务内容和政策的有效方式,有利于科研人员按照要求进行数据的准备、汇交、管理、存储和共享。另一方面,科学数据培训的传播有利于公众了解开放科学和开放数据,促进全民开放科学素养和意识的提升。科学数据中心和高校图书馆可借鉴国外机构进行科学数据培训服务的先进经验,通过微课程、慕课(MOOC)、研讨会等多种方式加强科学数据的教育及培训服务。

5.2 加强内部和外部合作

我国科学数据中心和高校图书馆在自身发展的同时,要注意加强内部和外部合作。对科学数据中心而言,对内可加强不同学科领域之间的交流合作,促进科学数据服务基础设施、科学数据管理和服务经验的共建共享,突破跨学科、跨部门数据协作和共享中的竞争与合作难题。同时,加强与企业的合作,以科学数据中心丰富的科学数据资源服务企业创新。对外应加强与国际知名科学数据中心的交流与合作,提升国际影响力,关注新冠病毒感染疫情、可持续发展等国际优先事务,对接国际数据委员会(CODATA)、世界数据中心(WDC)等国际主要科学数据合作平台,推动国家科学数据中心的国际化。

对内,高校图书馆应加强与校内其他部门的合作,联动校内多个部门,形成多方合力。高校图书馆主要提供科学数据咨询和培训服务,由校内信息中心提供科学数据存储、共享的基础设施和技术支持,各个院系提供数据分析等与学科领域相关的服务,校内科研管理部门提供政策保障。对外,高校图书馆应加强不同机构之间的协作,促进资源的共建共享。加强与科学数据中心、科学数据期刊等合作,为科学数据的存储、出版共享等提供更为广阔的渠道。加强与国际顶尖高校图书馆的合作,学习国外图书馆科学数据服务的先进经验,优化技术平台。

5.3 丰富科学数据服务的内容

与国外相比,我国高校图书馆提供的科学数据服务内容不够全面,主要集中于数据的存储、共享等,缺乏科学数据管理计划的服务以及元数据标准推荐、审核等服务,对于数据的分析力度不够。我国高校图书馆应基于科学数据生命周期开展服务,将科学数据服务嵌入科学研究全流程。加强科学数据的分析挖掘,在原始数据的基础上打造成数据产品,实现数据价值最大化开发和利用。

5.4 加强科学数据服务人才团队建设

随着科研范式的改变和开放科学的发展,科学数据服务是高校图书馆面临的新的业务方向。图书馆应意识到转型期面临的挑战,制定科学数据服务的发展战略规划,成立科学数据服务的专业团队。科学数据中心一般由专业的人才团队进行数据管理和服务,形成相对高效、建制化的服务流程体系。对于高校图书馆而言,图书馆员面临向数据馆员的转型,要加强科学数据素养和科学数据服务能力的培训。与此同时,高校图书馆也可引进科学数据的专业人才,带动和促进科学数据服务团队的建设和发展。

5.5 加强科学数据服务的规范化和标准化研究与实践

科学数据服务规范和标准的制定,能够使科学数据服务遵循规范化的途径有序进行,有利于合理评价科学数据服务效能,对于提高科学数据服务能力有重要的引导和推动作用。科学数据服务主体应加强科学数据服务规范和标准的研究与实践,加快建设贯穿科学数据全生命周期的标准,标准制定过程中既要充分考虑不同学科领域、不同服务主体的特点,又要兼顾顶层设计的协调统一。加强对ISO国际标准以及国际知名科学数据中心和数据平台标准规范先进经验的采纳,结合我国国情,制定符合我国发展需求的科学数据服务标准。

6 结语

本文调研分析了国内外科学数据中心和高校图书馆科学数据服务的典型案例,从服务目标、服务对象、服务内容和服务形式4 个维度对这两类科学数据服务主体进行了对比分析。针对这两类主体的特点,结合我国目前的科学数据服务发展现状,提出了进一步提高科学数据服务水平的思考与建议。对于我国的科学数据服务现状与发展,要时刻保持清醒的认识。一方面,要看到我们的优势,不要妄自菲薄,一味地推崇国外。我国国家科学数据中心的建设取得了长足发展,部分科学数据中心无论是数据量还是数据体系的全面性已经处于世界领先水平,如国家微生物科学数据中心已经逐步成为全球微生物领域最重要的数据中心。另一方面,要看到我们的不足,但不要止步不前。我国是科学数据大国,但还不是科学数据强国,做好科学数据的管理和服务工作有利于推动我国科学数据的共享和利用,促进数据价值的最大化实现,努力把我们的科学数据中心和高校图书馆科学数据服务平台做大做强,应对可能出现的科学数据“卡脖子”。

本文研究还存在一定的局限性:有些机构科学数据服务的内容没有在网站中呈现,在项目整理和统计中不可避免地造成遗漏,有待于在未来的研究中进一步补充和完善。

猜你喜欢
数据服务数据管理数据中心
地理空间大数据服务自然资源调查监测的方向分析
酒泉云计算大数据中心
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
CTCS-2级报文数据管理需求分析和实现
民航绿色云数据中心PUE控制
如何运用税收大数据服务供给侧结构性改革
基于频繁子图挖掘的数据服务Mashup推荐
基于云计算的交通运输数据中心实现与应用