付少雄,陈晓宇,赵海平,赵安琪
2018年4月,国务院办公厅印发《科学数据管理办法》,强调规范与加强科学数据管理(Scientific Data Management,SDM),确保科学数据安全,提升共享开放水平,以保障国家科技创新、社会经济发展及国家安全[1]。科学数据是指在科技活动中或采取其它方法得到的体现客观世界本质特征、变化规律等方面的基础原始数据,以及依据科学研究需要,系统整理加工生成的各类数据集[2]。科学研究在历经经验科学范式、理论科学范式与计算科学范式后,已进入数据密集型科学范式,即通过数据驱动科学研究[3]。在此阶段,科学数据既是重要的科学产物,也是助推新一轮科学研究的基础。
高校是科学数据的主要利用者,也是科学数据的主要来源之一。高校图书馆作为高校科研服务部门,负责科学数据的存储、共享、咨询与利用等[4]。我国高校科学数据管理尚处于起步阶段,仅北京大学、复旦大学、武汉大学等少数高校建有科学数据服务平台[4],因此有必要借鉴国外高校科学数据管理经验。虽然有学者对美国、英国、加拿大、澳大利亚等国家高校的科学管理实践进行探究[2][4-7],但缺乏针对亚洲高校科学数据管理实践体系的研究。
亚洲部分著名高校已建立科学数据库,通过科学数据管理促进数据的共享与利用,其中新加坡的科学数据管理走在亚洲高校前列。新加坡国立大学(National University of Singapore,NUS)、南洋理工大学(Nanyang Technological University,NTU)和新加坡管理大学(Singapore Management University,SMU)建有完整的科学数据管理实践体系。新加坡拥有先进的高等教育,NUS与NTU皆为世界顶尖大学,SMU拥有世界一流社会科学与商科,是国际信息学院联盟(iSchools)高校;新加坡也是一个以华人占主体族群的国度,与我国有着高度的文化相似性[8],其科学数据管理经验可为我国提供借鉴。新加坡政府重视科学数据管理,其经济发展局强调数据是流通的货币,要将新加坡打造成全球数据管理中心,因而构建了官方数据共享平台[9],颁布了《个人资料保护法》(Personal Data Projection Act,PDPA)[10]。当前虽然有新加坡高校图书馆科学数据服务的研究,但并未从管理模式、政策及宣传等角度完整阐述新加坡整个科学数据管理实践体系[11]。我国少有高校建立起完整的科学数据管理体系,亟需从整体上分析国外高校的科学数据实践体系。本文采用实地考察与网络调研的方法,通过对新加坡高校学科馆员的咨询、科研工作者的访谈,从科学数据管理模式、管理政策、管理平台、管理宣传四方面对新加坡高校的科学数据管理实践体系进行分析,为我国高校科学数据管理工作提供借鉴。
新加坡高校科学数据管理机构主要由图书馆负责,NUS、NTU和SMU图书馆共同开发科学数据管理指南,用于支持研究人员管理研究中产生的科学数据,或分享科学数据[12]。新加坡高校图书馆建有专门办公室负责科学数据管理,NTU由图书馆中的信息、知识和图书馆服务办公室(Office of Information,Knowledge&Library Services)负责,NUS和SMU由图书馆中的机构知识库管理部门负责,主要维护研究数据库开放式访问,负责整个科学数据生命周期管理、科学数据管理计划编写、科学数据管理最佳实践评选。
新加坡高校科学数据管理的相关人员与单位具有共同点,主要包括首席研究员(Principal Investigators,PI)、院校、研究支持部门、图书馆和信息技术部门,主要职责见表1。高校拥有数据的所有权,包括数据保留、处理、存储和共享的权利。在数据保留上,要求所有研究数据必须在规定期限内保留在高校的设备或数据库中,且高校有责任保护生命周期内数据的完整性;在数据处理上,数据的修改、转移或销毁需由高校与PI共同决议;在数据存储上,最终研究数据必须在文章发表之前存储于高校数据仓或公认的开放获取数据存储库中;在数据共享上,除非有特殊协议,否则来自高校的最终研究数据将用于非商业目的的共享。
通过对新加坡高校科学数据管理流程的提炼,科学数据、科学数据管理计划(Scientific Data Management Plan,SDMP)及相关单位三者之间的关系见图1。SDMP由PI生成,实现对数据的管理、利用和共享,同时与数据一起提交至高校数据库。相关单位拥有数据保留、开放、存储和共享的权利,负责对SDMP进行存储、支持和监督。
表1 新加坡高校科学数据管理人员及单位的职责
图1 科学数据、科学数据管理计划及相关单位之间的关系
三所高校图书馆为科学数据管理制定了目标与原则。目标包括提供公开数据的一站式访问、提供数据可视化及文章数据的分析、通过应用程序开发创造价值、便于数据的分析和研究;原则包括数据应易于访问、应可用于共同创作、应及时发布、应以机器可读格式共享、应尽可能原始。笔者对三所高校图书馆的科学数据管理服务项目进行调研,发现皆建有完备的科学数据管理服务实践体系,涵盖科学数据管理介绍与指南、科学数据管理参考咨询、科学数据存储、科学数据获取与共享。
高校是科学研究的主要场所,科学数据是高校研究的重要组成部分[13]。学术人员在科研活动中产生的科学数据内容广泛、类型多样,实施数据管理的过程繁琐,因此制定完善的数据管理政策是实施科学数据管理的首要步骤[14-15]。新加坡高校的科学数据管理政策涵盖数据的收集、组织、管理、存储、安全、保存和共享等从产生到利用的各个环节,并阐明了科学数据管理的法律规范、道德准则、资金支持及监管情况,为高校科学数据管理的可持续发展提供支持。
新加坡高校的科学数据管理政策规定了科学数据管理的主要原则、适用范围和实施方案等。主要原则用于指导研究人员正确管理或公开分享研究中产生的数据,确保科学数据管理方式的系统和全面,确保数据的完整性、长期可用性和开放性。适用范围涵盖大学教师、研究人员、学生和其他人员,包括顾问、访问学者以及参与学校项目的所有研究人员[14][16-17]。实施方案的内容主要包括科学数据管理范围、计划及标准。
(1)科学数据管理范围(Scientific Data Management Scope)。管理范围对数据的类型、定义和所有权做出规定。它包括三种类型的数据:①研究数据(Research Data),是指在整个项目研究过程中收集、观察、生成、创建和获取的任何格式或形式的数据,包括由研究人员记录的、设备产生的、模型模拟得出的数字、描述性、听觉、视觉或物理形式的数据;②最终研究数据(Final Research Data),是指在数据生命周期的最后阶段,当研究人员对数据的所有处理和操作都已停止时的最终版数据集合;③元数据(Metadata),是指为了描述、管理、验证和发现研究数据而提供的一组信息或事实。管理政策规定高校拥有其赞助的研究项目产生的所有研究数据;在与其他机构合作的项目中,亦明确高校对研究数据的所有权。为了便于开放和共享,鼓励研究人员将数据以数字格式进行存储。
(2)科学数据管理计划(Scientific Data Management Plan,SDMP)。这是所有研究项目都必须提交的一份文件,描述研究项目收集、处理或生成数据集的数据管理生命周期;概述在项目完成期间和之后将如何处理研究数据,哪些数据将被共享或公开,以及如何进行策划和保存等问题;它还包括研究项目的法律、道德和商业限制。高校要求研究人员定期更新数据管理计划,并确保项目结束时所有研究成果均在其数据管理计划中予以说明。
(3)科学数据管理标准(Scientific Data Management Standard)。用户应在各自的学校/研究中心创建一个子数据集,并对其进行个性化定制,使子数据集便于使用;构建高质量的数据集检索、记录和共享标准,以确保数据集的可见性和可重用性。比如,给每个项目分配统一标识符,为每个数据集匹配通用数字指纹,以确保科学数据的可辨识度,提升科学数据的利用率。新加坡高校的科学数据管理标准见表2。
表2 新加坡高校科学数据管理标准
三所高校皆建有科学数据管理平台,分别为NUS的机构知识库Scholar Bank@NUS(http://libguides.nus.edu.sg/rdm)、SMU的机构知识库InK@SMU(http://libguides.nus.edu.sg/rdm)、NTU基于Dataverse开发的DR NTU(http://libguides.nus.edu.sg/rdm)。
新加坡高校科学数据管理平台组织架构见图2。科学数据管理系统下设子系统,子系统主要通过在系统中嵌套或创建数据构建,可为研究工作者、研究中心、研究项目等构建子数据集。子数据集涉及科学数据文档及描述性元数据等,具体包含代码、自述等用于提升数据利用率的文档。在科学数据管理组织架构的子系统中,亦可嵌套或创建下一层级的子系统。不同学科下设不同子系统,如生物和生命科学建有蛋白质数据管理子系统(Protein DataBank,PDB)[18],化学设有剑桥结构数据库(Cambridge StructuralDatabase,CSD)[19]。
图2 科学数据管理平台组织架构
三所高校管理平台的服务具有差异性,NUS与SMU主要通过机构知识库扩展科学数据管理功能,而NTU则在开源软件Dataverse的基础上构建数据存储库。Dataverse是哈佛大学定量社会科学研究所(Harvard Institute for Quantitative Social Science,IQSS)开发的科学数据管理平台。相较于机构知识库,Dataverse软件架构更合理、功能更丰富,北京大学、复旦大学皆采用Dataverse构建科学数据管理平台。因此,本文着重探究NTU的DR-NTU(Data)。
(1)ScholarBank@NUS。除提供数据管理计划、数据记录、数据发布、数据共享、数据查询与运用、最佳实践等科学数据管理常规服务,NUS数据管理平台ScholarBank@NUS于2017年11月开始为校内人员提供数据存储服务。校内人员(包括教职工、学生、行政人员等)的数据必须存储在ScholarBank@NUS,且离校时不能共享或带走校内数据。ScholarBank@NUS为师生提供项目数据DOI创建服务(DOI Minting Service)。创建项目DOI必须满足以下条件:为NUS内部学术项目;提供永久在线访问的URL;标注项目的资源类型、标题/名称、创作者、出版/可用日期、主题及出版者[20]。ScholarBank@NUS还提供科学数据管理在线培训与研讨会链接,既有NUS图书馆自行开发的在线培训项目,也包括英国数据档案(UKData Archive)、俄勒冈州立大学(Oregon State University)等经典科学数据管理在线培训课程。
(2)InK@SMU。SMU数据管理平台InK@SMU的服务包括数据检索、数据管理计划、数据可视化分析、数据出版和引用、数据安全维护等。数据管理计划提供的模板有Data Management Plans(Data Conservancy)、SDMP Checklist(Monash University)等;数据可视化分析工具包含 Crowdmap、Gephi、OpenRefine、NodeXL等;数据检索界面提供数据管理指南,而且数据可按数据小组、数据所属学科、数据类型、数据提供者,以及字母顺序(A-Z)进行检索。InK@SMU还将数据按照公司数据、国家数据、人口统计数据、经济数据、财务数据、行业数据、营销数据与用户数据进行分类。InK@SMU中的数据集分为有条件访问与公开访问两类,有条件访问的数据集需要从SMU各学院、中心和机构中订阅/购买。SMU图书馆配备有专门的图书馆员对科学数据管理服务提供指引。
(3)DR-NTU(Data)。NTU的数据管理平台DRNTU(Data)基于Dataverse开发,Dataverse通过数据管理计划、数据导入、数据处理、数据发现、数据保存与访问构成完整的数据管理闭环。Dataverse能够用于共享、保存、引用和分析数据,有助于数据的共享与进一步利用[21-22]。研究人员、数据作者、出版商、数据分销商,以及研究机构等均可通过Dataverse共享与利用数据,从而获得学术信用和网络知名度。相较于高校开源软件——美国康乃尔大学(Cornell University)的Fedora Commons[23]、美国麻省理工学院(Massachusetts Institute of Technology,MIT)的DSpace[24],以及商业软件,如挪威社会科学数据服务中心(Norwegian Centre for Research Data,NSD)的 Nesstar[25],Dataverse 的功能更加丰富全面,包括用户评论、数据可视化、数据模板定制、数据在线分析、数据版本管理、数据格式自动切换、灵活的数据归组分析、文献与数据的融合、数据引证等。区别于Fedora Commons与DSpace采用的都柏林核心集标准(Dublin Core Element Set,DC),Dataverse 使用社会科学元数据标准(Data Documentation Initiative,DDI)。DDI适用于系统的科学数据管理,能从宏观与微观角度对科学数据进行描述,具有较强的可拓展性,而DC不能运用于指向性较强的数据检索,对于科学数据而言局限性较高。
三所高校的科学数据组织方式主要包括:①数据来源分为院系、研究人员、研究项目、研究团队、实验室;②发布日期按年份分类;③作者姓名按具体研究人员分类;④学科分为社会科学、医学健康与生命科学、计算机与信息科学、工程学、艺术与人文学、物理学、商业与管理,以及其它学科;⑤数据种类分为开放教育资源(Open Educational Resource, OER)、 MATLAB.mat文件、脑成像数据、实验数据、元数据/镜像、源代码、Matlab代码,以及待完善的数据等;⑥数据类型分为文本(Text)、压缩包、文档(Document)、视频、图像、应用程序、表格,以及其它类型等;⑦文件标签(File Tag)可由数据作者进行个性化标记;⑧可访问性(Accessibility)分为公众可访问与限制访问。为提升科学数据的利用率,新加坡高校构建了完整的科学数据服务流程,采用链接的方式实现出版物(期刊、著作等)数据库、校内数据存储库与校外开放获取数据存储库间的完整闭环。在出版物检索界面底端提供支撑出版物研究的数据获取链接,在导入校内数据存储库界面后可获取相应研究数据;同时提供校外开放获取数据存储库链接,如DRYAD、GitHub、 figshare、 Bitbucket、 PANGAEA、DAUWELS LAB。
各国政府和机构倡导公开获取科学数据,指出开放获取可带来显著的经济社会效益。但研究发现,研究人员对数据的开放存取存在担忧,通常缺乏对数据公开使用和访问要求的理解,高校科研数据管理机构应对其加强培训和宣传力度,促使科学数据管理的愿景成为现实[26]。NTU调研发现,87.5%研究人员尚未使用本校科学数据库,31.7%出于学校科学数据分享要求才共享科学数据[27]。可见,宣传已成为推动科学数据管理的关键环节,也是当前高校科学数据管理工作最薄弱的环节。通过对馆员和学生的实地走访发现,新加坡三所高校的科学数据管理宣传形式和内容各具特色,具体如表3所示。
表3 新加坡高校的科学数据管理宣传
新加坡高校形成了“校方顶层设计——学院中层推广——师生底层实施”的宣传体系。新加坡高校的科学数据管理宣传频率较高,每学期约3-4次。采用线上与线下相结合的方式宣传科学数据管理,线上主要通过邮件、在线培训课程等,线下包含讲座、海报展、研讨会等。总体而言,新加坡高校的科学数据管理宣传策略主要从意识和实践两个层面展开。
(1)意识层面,旨在提升相关人员的科学数据管理意识,培养科研人员形成科学数据管理的习惯。主要宣传科学数据管理对数据可重复利用率和提升科研成果可见度的积极影响,包含学校科学数据管理政策、开放科学指南和最佳实践、数据集可视性与重用性提高的成功案例、常见数据管理和策略的挑战等方面;通过举办研讨会、海报展等形式促使研究人员之间进行数据共享经验交流。
(2)实践层面,旨在通过提升研究人员的数据素养,实现更有效的科学数据管理。主要从数据组织、存储、利用和共享的方法和策略方面指导研究人员进行科学数据管理。一方面是常见问题的解答,如敏感的研究数据应该如何实现共享,如何正确利用元数据提高研究的可见度;另一方面是数据存储库利用的培训,如创建、提交以及修改数据的操作等,涉及科学数据库的新功能、高校科学数据库与其它数据库的整合、科学数据库在科学数据管理中的运用等内容。
高校科学数据管理应从管理模式与指导政策两方面加强顶层设计。对于科学数据管理模式,新加坡高校在图书馆中设立专门办公室负责科学数据管理,国内高校也应成立专门的科学数据管理机构,负责科学数据管理的目标定位、技术路线规划等,并构建完整的科学数据管理服务体系,使科学数据管理服务的人员、资金及软硬件设施等条件得到保障。明确相关人员与责任单位的职责,责权分明以保障科学数据管理服务的顺利开展。对科学数据管理政策,应依托《科学数据管理办法》,面向高校制定有针对性的系统的科学数据管理政策,建立健全科学数据管理制度,涵盖科学数据管理范围、科学数据管理计划、科学数据管理标准等。其中,管理标准涉及数据的版权、存储、安全、利用等议题。通过政策推动科学数据管理高效运作。
国内高校科学数据管理平台的发展尚处于起步阶段。依据新加坡经验,在建设初期,应搭建科学数据管理系统组织架构,明确平台服务和数据组织方式,根据平台的搭建目标与受众人群进行功能规划。可参考国内高校科学数据管理平台建设经验,如北京大学“开放研究数据平台”、复旦大学“社会科学数据平台”、武汉大学“高校科学数据管理平台”。高校还可成立数据图书馆,用以支撑科研数据的共享与利用。在科学数据管理平台发展后期,可建立区域或全国性的高校图书馆科学数据管理联盟,构建各专业领域的科学数据管理平台。通过多层次、宽领域的科学数据管理平台体系的构建,提升高校科学数据共享水平。
科学数据管理的宣传是国内高校的薄弱环节。结合新加坡高校科学数据管理宣传经验,国内高校可从以下方面着手:首先,加强科学数据管理品牌建设,在学校层面设立宣传周、宣传日等,线上举办科学数据管理在线意见征集、科学数据管理实践有奖征文等,线下开展科学数据管理研讨会与海报展等,线上与线下相结合,营造良好的科学数据管理氛围;其次,明确宣传对象与内容,高校科学数据管理主要面向教师与学生,这两类群体的科学数据管理动机与需求差异较大,应有针对性地进行宣传;再者,利用新媒体平台进行宣传,由于新媒体受众面较广与用户互动性较强,可在高校、学院与图书馆等各个层面,通过官方微博与微信公众号等平台积极开展宣传,以增强相关人员的科学数据管理意识。