刘敬仪 江洪 廖宇
(1.中国科学院文献情报中心,北京 100190;2.中国科学院大学经济与管理学院图书情报与档案管理系,北京 100190;3.中国科学院武汉文献情报中心,武汉 430071)
目前,科学研究已进入“第四范式”——数据密集型科学,这代表着科学数据在当今时代占有极其重要的位置,是科学事业发展的基础。“第四范式”最早由吉姆·格雷于2007年1月发表的《e-Science:一种科研模式的变革》学术演讲中提出[1],其指出科学模拟连同实验产生大量的数据,这些数据经软件处理形成信息和知识,最终被存储到数据中心,科研人员只需从数据中心中查找所需数据,由于数据密集型研究具有独特技术支持需求的鲜明特点,使其与“第三范式”——计算科学区别开来,独立为“第四范式”——数据密集型科学。而在新范式的科学研究环境中,海量的科学数据是最重要的资源,这就要求科学界针对数据密集的特点,利用新技术对科学数据进行更有效的管理,不仅在意识上提升对数据中心重要性的认识,同时应更加注重建设数据中心过程所涉及的方方面面工作。国务院办公厅于2018年4月2日发布《科学数据管理办法》,在第三章“采集、汇交与保存”中多次提到应将有关科学数据汇交至科学数据中心,且应在建设较好的科学数据中心基础上,进行优化与整合,以形成国家科学数据中心[2]。综合可见,科学数据中心是开展与某特定学科相关科学数据管理工作(数据生产、数据采集、数据分析、数据保存、数据共享、数据重用)的必要支点,其以学科专业数据的特点(如重要性、唯一性、可获得性、可用性、时效性,科学价值与社会价值,与其他资源的相关性)为基点,随着科学数据管理的实践发展而为不断满足科研利益相关者产生的新需求进行调整与改进。在科学研究的新范式下,各学科更应首先积极建设有关各学科的科学数据中心,完善并加强与之相关工作的开展,从而为国家科学数据管理整体工作的顺利进行提供基础保障与有效支撑。
国内外的理论研究主要可以归纳为3个方面。①数据中心工作进展情况描述。如张洁等[3]以中国南北极数据中心为研究对象,主要阐释了该中心在数据共享工程方面的工作进展,细分为中心数据的汇交、发布和网站页面更新3个方面内容;李红星等[4]从数据服务理念与成效两个方面对中国西部环境与生态科学数据中心开展研究。②数据中心整体介绍。如Benson等[5]对GenBank开展了相关研究;Witt[6]主要对普渡大学图书馆的分布式数据管理中心进行了研究,指出该中心将图书馆馆员,图书馆学与档案学原理,领域科学、计算机与信息科学及信息技术相结合以应对管理科学数据带来的挑战。③数据中心建设探索。如Deshpande等[7]以蛋白质数据库为例,对其系统建设等进行研究;崔雁[8]调研了科学数据中心的具体政策并进行分析;张思思等[9]以组学原始数据归档库为依托,对数据类别与使用和运行效果方面展开论述与说明等。
国内外皆已具有一定数量的科学数据中心,且学科涵盖面较广。①自然科学领域。如适用于生态学、植物学、遗传学、进化等的Dryad[10];面向分子生物学、结构生物学、计算生物学等的Protein Data Bank[11];英国环境科学数据分析中心[12];我国以收集、整理、存储国内乃至国际上寒区旱区领域的科学数据为主的寒区旱区科学数据中心[13];以采集国内病毒学科的各类病毒活体毒株的保存信息为主的病毒资源基础数据库[14]等。②社会科学领域。如采集并保存高质量艺术与文化政策数据的美国文化政策与艺术国家数据中心[15];挪威社会科学数据服务中心[16];以确保公民具有获取城市相关信息权利的加拿大区域城市开放数据中心[17];由我国复旦大学与美国哈佛大学共同合作的复旦大学社会科学数据平台[18]等。
根据国内外理论研究和实践进展发现,我国科学数据中心整体起步比欧美等发达国家较晚,且在某些领域存在科学数据中心发展缓慢,无法为新时期的科研用户提供对应数据服务的问题。同时,科学研究已进入数据密集型范式,积极建设高质量科学数据中心是我国科学研究跻身国际前列不可或缺的利刃。科学数据中心的高效发展离不开相关经验的支撑,通过文献调研、网站内容分析及综合考虑re3data.org上各国家科学数据中心注册和实际建设情况,将调研对象确定为德国地球领域的20个科学数据中心,原因主要有3个方面:①地球科学领域与人类生活首要相关,但我国地球科学领域数据中心数量较少(10个),整体建设尚存不足,不能为本领域科学数据提供全面支撑与服务;②当今学者对英美两国的相关研究较多,德国地球科学数据中心数量因较为庞大适合做特征梳理,同时缺少学者关注;③德国地球科学数据中心建设体系较完善,发展较为成熟,可以为国内地球科学数据中心在技术与管理系统、人员配备、组织分工和中心相应政策制定等方面存在的不足予以启示。
目前德国地球科学领域数据中心的建设数量为109个(包括与国际和其他国家联合建立、自建两类),位列全球范围同学科数据中心第二位,次于美国。根据中心性质对本文调研对象分类,可分为纯数据提供者、纯服务提供者、混合型(为用户既提供数据,又提供与数据相关的服务)3类。
2.1.1 纯数据提供者
纯数据提供者共有9个,分别是:①RESA[19],为科学用户免费提供RapidEye卫星编队的光学图像数据;②GeoReM[20],是马克斯·普朗克研究所的数据库,主要收集地质和环境方面的参考材料,包含已发表的分析数据和汇编值,关于分析值的所有重要元数据、示例信息和参考资料,并对地球化学领域的3个数库(GEOROC、NAVDAT和PETDB)加以补充;③DAHITI[21],为水文应用提供由多任务卫星测高得到的湖泊、水库、河流和湿地的水位时间序列;④SAMD[22],是新的标准化大气测量数据存储库,主要观察、存储中欧地区云层和降水的相关数据;⑤Chorotree[23],是全球树木和灌木分布数据的存储与信息系统,以一种有用的、可获得的方式为专家或非专业人士提供数据和信息;⑥PANGAEA[24],其作为一个开放获取图书馆,旨在保存、出版和分发来自地球系统研究的地质参考数据,并与运营机构签订协议保证其内容的长期可用性;⑦GeotIS[25],提供与地热开发有关的德国深层含水层的信息与数据汇编,是基于公共互联网的信息系统,满足用户对地热地图集的全面、大规模独立形式的需求,且可以不断更新地图集,通过可视化温度、水力特性和相关地层单位的深度帮助用户识别地热潜力;⑧GNSS-ISDC[26],目前只提供观测数据、导航数据、气象数据和有限空间覆盖的优质数据等;⑨GEOROC[27],其数据样本来自11种不同的地质环境,元数据包括纬度和经度的地理位置、岩石类别和类型、蚀变等级、分析方法、实验室、参考资料和参考文献。
2.1.2 纯服务提供者
纯服务提供者占比较少,有3个:①C3Grid[28],是德国气候共同体的共同倡议,为统一访问异构数据和分布式数据处理而开发一个基础设施;②Data Portal German Marine Research[29],实施可持续的电子基础设施,以连贯地发现、查看、下载和传播海洋研究数据;③TERENO Data Portal[30],通过开放地理空间信息联盟Web服务从各个天文台收集和发布的数据汇集在一起,并向用户提供数据访问。
2.1.3 混合型
混合型与纯数据提供者占比相当,共有8个:①Geo Portal.rlp[31],对地理数据进行集中搜索与可视化,通过电子网络建立对地理数据的访问;②GEOFON[32],提供可快速跨国获取的地震数据和大地震源参数,并长期保持这些数据的可获得性,使得德国高校和机构科学家的临时实验数据得以保存并具有可获取性,与合作机构和国际中心组织的实时和存档数据进行数据交换;③ICDC[33],允许用户访问来自现场测量和卫星遥感的气候相关数据以及在观测数据基础上建模的再分析数据;④FRED[34],存储并共享来自湖泊、河流、泥炭地和其他淡水栖息地的观测数据,为方便重用,所有数据皆包含文本形式的详细元数据描述;⑤OSIS[35],为用户提供文档交换、公共或个人微博、论坛以及外部网页和服务的实现,与出版物数据库/存储库OceanRep建立链接;⑥RESPECT[36],揭示厄瓜多尔南部山地雨林的主要生态系统功能,主要采用两种方法解决研究问题,即新一代地表模型(Land Surface Model)与统计学的响应-效应框架(Response-effect Framework);⑦ISDC[37],是各种地球科学地理数据、相应元数据、科学文档和软件工具的获取点;⑧CDC[38],为用户提供包括德国气候数据,以及国际合作框架下收集和处理的全球气候数据。
数据中心存储着大量的数据,良好的技术应用与管理系统在中心运行中发挥至关重要的作用,帮助维护中心日常工作、测量并分析海量数据以及更有效地管理数据等,从而为用户提供其所需要的数据和服务。调研中发现,GeoReM共应用包含原子吸收光谱法、加速器质谱法和阴极溶出伏安法等在内的86种分析技术以更加精准、全面地测量对象并进行定性或(及)定量分析,从而将所得数据提供给相关用户;GeoPortal.rlp采用6种基于开源软件的特定组件为用户提供数据与服务,包括Mapbender(可视化、授权和服务注册组件)、MAPSERVER(高性能地图服务器)、GeoServer(可访问几何数据且具有只读和读写功能的地图服务器)、PostgreSQL(基于地理信息系统扩展的对象关系数据库管理系统)、TYPO3(用于提供和处理网络用户界面的内容管理系统)、MediaWiki(在用户和提供者之间交换信息的媒介);SAMD建立了分布式数据服务器的结构[39],而这些服务器的中央管理皆是基于Unidata机构的一种称作“专题实时环境数据分发系统”的数据管理系统,该系统的好处在于可以简化发现、使用地球空间数据的过程,同时为领域研究者提供一个较为简便高效的集成环境并在该环境中供给、发布和查询地球空间数据。
人员构成与组织分工是数据中心建设过程中的核心,恰当的人员与工作安排可以为中心建设提供强有力的支撑,在机构与用户之间发挥桥梁作用,维护中心正常运转的同时根据用户反馈和需求完善中心建设。本文在明确列出人员构成与组织分工的中心中挑选出职责分工较为清晰的3个中心进行阐述。GEOROC团队由4人组成,其中1人负责协调与数据输入工作、1人负责系统管理、其他2人只负责数据输入。TERENO Data Portal下设3个组织部门,部门分工明确,相辅相成,共同支撑中心开展工作:①咨询委员会,由12个外部合作伙伴和独立专家组成的国际小组;②科学指导委员会,由有关研究中心的代表组成,主要任务是确定天文台的基本结构;③协调委员会,管理TERENO的日常工作,与前两个部门合作,制定并执行TERENO活动计划。GeotIS的人员分为项目管理人和项目职员,管理人目前共有3人,负责的工作涵盖项目管理、信息技术开发和三维建模等;职员目前有13人,承担与信息技术管理、数据库管理、储层描述、编辑及解释水力数据、地理信息系统使用、三维建模、地热装置、能源统计等相关的工作。
中心政策是中心有序运行的基础,有利于中心高效开展管理工作和用户访问数据,在调研的20个对象中,除C3Grid、MaNIDA和Chorotree以外,其他17个中心皆明确标注了中心相关政策,其中,数据的质量、安全、获取与可用性是中心数据政策最基础的4个方面,也是数据中心建设过程中最需关注的4个问题。政策中一般要求采用数据提供者、机构数据管理员协作的模式严格把控,以便于数据的存储、管理、传播与复用,此外,政策中也会标明适用的数据范围、使用途径和元数据信息等内容以规范数据提供者上传数据及数据复用者使用数据等相关工作。整理其中较有代表性的政策如下。
2.4.1 IGB环境场数据数据政策
该政策由柏林淡水生态和内陆渔业研究所(Berlin Institute for Freshwater Ecology and Inland Fisheries,IGB)制定,具体有4点核心内容:①适用范围,IGB“长期生态研究”项目数据和来自综合环境场观测或大型场实验项目的相关数据;②元数据信息,至少包括地点、时间、方法、数据创建者这4项内容(关于抽样、抽样处理、方法、数据处理程序名称和负责人信息),所有元数据不受访问实际数据的任何限制,都将在IGB主页中公开,具有已执行的质量控制程序信息;③规则,所有长期数据皆提供给IGB科学家用于学术、研究、教学等非营利目的,项目环境数据的可访问性遵循特定于项目的数据政策(制定于项目启动时,最好依据IGB长期数据所采用的原则);④免责声明,数据提供者无须对因使用或解释数据集而引致的任何损害或其他后果负责。
2.4.2 基尔数据管理门户使用条款
由基尔数据管理门户制定,主要包含6点核心内容:①审核,记录并显示元数据的创建、更新、文件上传记录(日期与上传用户),并在必要时根据请求将注册用户下载文件信息提供给文件所有者;②数据安全,分为个人获取、团体获取、内部获取和开放获取4个级别,元数据对所有用户可见,敏感元数据可见性根据请求或许会受限制;③权利,发布前必须征得数据创建者同意;④可用性,数据管理处承担自创建以来10年的元数据和数据文件的保存职责;⑤质量,创建者负责质量控制,为便于他人使用,应以通用格式记录数据;⑥使用,若用于科研与教学以外的用途,必须取得创建者书面同意,主要通过该门户传播有关文件,若转发给第三方,必须包含本《使用条款》。
2.4.3 PANGAEA信息系统数据政策
该政策由PANGAEA制定,具有4点核心内容。①原则,通过科研和教学群体开放获取其内容;向用户提供科学界广泛、易用的数据集,提供数据存档,建议用户正确引用数据集或相关参考文献。②数据条款,元数据提交至项目管理处,且在提交或出版时,数据标签一直保持不变;提交数据时需使用字典(由PANGAEA数据馆员维护)中定义的参数和单位;数据一般存储于关系数据库中;当数据集庞大或必须具有专有格式时,则将其作为文件系统中的一个对象存储,并仅使用元描述链接至该文件;任何类型的数据都必须始终伴随着一个描述(元数据),以允许用户理解和处理数据;数据集粒度和格式由数据主要负责人定义。③质量保证,必须正确存储提交的归档数据;项目负责人和数据作者需担负起确保科研质量的责任;数据管理员负责元数据的完整性、格式的一致性和下载的正确性;在数据导入后由项目负责人/作者在网络上验证读取的数据集,并向数据管理器提交更正直到最终聚合发布。④获取与出版,与出版相关的任何科学原始数据应与稿件一同提交至编辑与数据管理处;数据集可单独使用;更高级别的数据产品也可根据需要通过PANGAEA存储;合作机构与数据提供者皆要同意存储至PANGAEA的数据通过适当的技术在网络上公开;数据提供者可在数据未发布前撤回数据;根据欧盟数据政策,所有在项目期间收集的数据均在项目终止2年后公开,这与协调者、合作伙伴和资助机构之间的协议可能有所不同;元数据仅与可用的事实数据相关;若没有在元数据中提出其他要求和概述,数据将根据《知识共享署名许可协议》提供。
德国地球科学领域数据中心在明确自身性质及支撑机构职责定位的基础上,使用了恰当的数据测量、分析技术,维护和促进数据管理系统在各个工作环节良好运转;在各组织流程设置有优秀人员分工把控;同时具有适合自身发展的政策支撑建设。根据以上特点整理我国地球科学领域数据中心发展可采用的概念图见图1。
图1 地球科学领域数据中心发展概念图
中心性质可分为:①纯数据提供者,仅为用户呈现学科相关数据,力求相关数据覆盖的全面性、可用性和可获得性;②纯服务提供者,服务提供者侧重通过相应基础设施整合、汇编数据以供用户访问所需数据;③混合型,将以上两个性质对应特点相结合,为用户提供多方位的服务。建议国内科学数据中心在建设之初便明确自身定位,对应以上3个方面设立建设目标,便于确立自身发展方向的同时帮助用户较为清晰地做出选择。调研可知,德国支撑中心运行的各个机构分工明确,每个中心皆有支撑其运行的机构,各司其职,职责主要分为一般职责、技术职责和资助职责,同一机构在支撑相同中心运行时会担负多个职责。如汉堡大学综合气候数据中心在支撑ICDC运行时同时担负一般、技术和资助职责,且同一机构在支撑不同中心运行时职责也会存在不同,如亥姆霍兹波茨坦中心,德国地学研究中心在支撑GNSS-ISDC时担负一般和技术职责,在支撑GEOFON时担负资助、技术和一般职责。建议我国支撑中心建设的各机构应根据实际情况与自身优势承担相应职责,为中心建设提供实质帮助并发挥帮扶作用。
数据中心的建设离不开对技术与数据管理系统的恰当应用,且地球科学数据具有庞大、复杂的特点,因此建议我国在中心建设过程中与时俱进地选择合适的数据测量、分析和处理技术并考虑多种技术融合共用,从而更好地为用户提供服务、支撑中心运行,如GeoReM采用近百种适合目标数据的分析技术拟为用户更全面地呈现测量结果;GEOFON采用SeisComP®3软件包为自身运转提供支撑,该软件包在地震数据采集、处理和交换等过程优势明显,也被世界其他数据中心广泛应用。在选择维护、促进中心工作的数据管理系统时,应多关注系统操作过程的简易性与适配性,以便为用户节省获取相关数据的时间。根据调研,建议我国考虑TYPO3作为主要支撑系统之一,TYPO3属于开源内容管理系统,具有较高的友好性已被诸多中心(如GeoPortal.rlp和ICDC等)选择应用,插件概念也可为许多典型需求提供数百种解决方案,还可做到快速安装,其他则可考虑选择诸如Mapbender、MAPSERVER等适用于地球专业领域的组件及服务器。
根据数据中心运行特点,中心组织流程的各个阶段需配备对应的专业人才开展工作,恰当运用其良好的专业素养与知识储备解决流程中可能出现的问题,此外还应具有一定的战略眼光和创新意识,为中心良性发展奠定深厚基础。与此同时,建议中心在组织流程设置方面分为“外循环”和“内循环”两部分,其中“外循环”注重中心整体运营,可主要包含3个层面:①管理层,负责中心各工作的宏观把控、具体数据项目的管理、组织与决策,发挥主导作用;②支撑层,维护并及时更新相关数据测量、分析技术与管理系统,保证技术与系统的与时俱进和适用性;③实操层,运用相关技术与软件、审核用户提交数据、了解用户需求并反馈,发挥根基作用配合其他层面的组织部门。无论是何种性质的数据中心,“内循环”皆应围绕科学数据生命周期进行,应涵盖4个基本环节:①数据产生,使用适当工具测量中心目标数据、帮助并审核用户汇交数据;②数据处理,应用合适软件或工具对收集到的数据进行分析处理、协助并督促用户完成数据管理计划和元数据描述;③数据存储,将处理后数据按相关政策与用户要求妥善存储;④数据再用,规范数据引用标准格式。
政策是数据中心发展、运行的重要保障,调研发现绝大部分中心都有相关政策加以支撑与辅助,建议我国科学数据中心在建设过程中根据自身实际情况制定政策或遵循在世界范围内被较多同类中心采用的政策,但无论是自身制定或是遵循其他都应注意政策的全面性和适用性。建议中心使用的政策应包含如下7个方面:①数据描述,数据创建者对提交数据加以说明与阐释,包含但不限于时间、地点、方法与创建者这4方面内容;②数据质量,数据创建者与中心数据审核人员共同把控;③数据安全,根据用户需求与中心实际承受度将存储数据分为若干级别并对应不同再次使用条件;④数据存储与获取,注明存储年限及获取所需权限;⑤数据可用性,数据创建者确保数据是可用的但不对用后结果负责;⑥数据引用,统一引用格式以便指导他人复用规范;⑦数据传播与共享,标明数据可适用范围、使用途径及可共享对象与条件。
地球科学数据与人类生活紧密相连,建设并发展对应的领域数据中心更便于科研用户观测、存储和传播有关数据,利于科研界的数据交流,从而促进相关科学事业向前发展。目前我国地球科学领域数据中心整体建设数量少、发展还不完善,在国际上尚不具有绝对竞争力,下一步,我国可借鉴国外发展较好的中心发展经验并结合自身特色选择更适合的发展道路与方针,稳步向前迈进。