“中心+节点”分布式生命科学数据平台构建模式研究
——基于欧洲ELIXIR的案例分析*

2023-06-30 02:27:22王流芳贾晓峰
医学信息学杂志 2023年5期
关键词:中心节点培训

王流芳 贾晓峰

(中国医学科学院/北京协和医学院卫生健康管理政策学院 北京 100730) (国家卫生健康委卫生发展研究中心 北京 100044)

胡志民

(中国医学科学院/北京协和医学院卫生健康管理政策学院 北京 100730)

1 引言

21世纪以来,以数据为中心、数据驱动的科学研究第四范式逐渐兴起,生命科学领域科研活动产生的大量科学数据成为推动未来科研发现的重要资源,但从较大体量的数据集变成驱动科研新发现的资源库依旧存在数据平台标准不统一、工具不足、合作机制缺乏、算力和数据整合优化不足等问题[1]。2021年《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》提出“构建国家科研论文和科技信息高端交流平台”,为科学数据的融合、交流提出明确要求和方向,而以何种模式构建生命科学数据的融合、交流平台成为当前关注重点。欧洲生命科学信息基础平台(European Life-Science Infrastructure for Biological Information,ELIXIR)模式可提供重要参考[2]。

ELIXIR成立于2013年12月,是汇集欧洲各地生命科学资源的政府间组织,由欧洲分子生物学实验室(The European Molecular Biology Laboratory,EMBL)、21个成员国和1个申请中的观察国(塞浦路斯)组成,是一个分布式的欧洲生命科学数据研究基础设施[3-4]。ELIXIR通过协调数据库、软件工具、培训材料、云存储和超级计算机等方面的资源,为欧洲各地研究者使用现有设施存储、转移和分析大数据集提供便利,已成为科学数据发现、共享和交流的重要途径[5-6]。

2 平台模式

2.1 “中心+节点”组织架构

ELIXIR采用“中心+节点”的组织架构,ELIXIR中心负责提出总体工作策略、协调各节点运行并对其进行服务委托、支持各节点的科学研究工作,以及联合其他生物医学科学组织共同应对大数据带来的挑战。ELIXIR节点由各个成员国或EMBL的研究机构集合而成,主要涉及各节点的强势学科领域,负责运行各自的资源与服务,每个节点均由一个领导机构监督工作。

ELIXIR中心与节点通过签署合作协议、设立协作监督小组、建立合作协调组织等方式确保组织架构整体稳定。一是签署《ELIXIR合作协议》,对节点角色、服务及监督进行定义,这是ELIXIR中心向节点委托服务的法律基础。《ELIXIR合作协议》有2014版、2018版两个版本,内容包括4份附件:各节点服务交付计划,明确各节点应提供的服务;委托服务合同,概述由节点执行的委托服务项目(由ELIXIR预算提供资金);中心合作计划,概述ELIXIR中心提供给各节点的服务;保障机制,明确各节点间的法律协议。二是ELIXIR组织设有协作监督小组(collaboration oversight group,COG),小组成员包括节点负责人 (head of node,HON)、ELIXIR主任、其他与合作流程相关的人员(如节点协调员等);协作监督小组对《ELIXIR合作协议》中规定的内容进行年度审查,并将报告提交给ELIXIR中心管理团队[4]。三是建立ELIXIR合作协调组织,包括技术协调员小组(the technical coordinators group,TeCG)、培训协调员小组(the training coordinators group,TrCG)和节点协调员小组(the node coordinators group,TnCG),其中:技术协调员小组由来自各ELIXIR节点的技术代表组成,主要任务是探讨技术突破问题,促进技术交流;培训协调员小组由各ELIXIR节点的培训代表组成,主要负责定期举行培训会议、分享培训信息、普及专业知识并协调和领导整个欧洲ELIXIR培训计划的实施;节点协调员小组由ELIXIR节点的代表组成,目的是分享ELIXIR节点的操作信息和最佳实践[4]。

2.2 “平台+领域单元”运行机制

2.2.1 5个平台 ELIXIR 5个平台分别为数据、工具、计算、互操作和培训平台,由ELIXIR中心的技术协调员负责维护,由各节点的高级科学家规划发展战略,见表1。(1)数据平台旨在确定、遴选和融合全欧洲的关键数据资源。(2)工具平台帮助研究者找到最好的数据分析软件工具。(3)计算平台负责开发服务,使存储、共享和分析大型数据集变得更便捷。(4)互操作平台开发统一的标准描述生命科学数据。(5)培训支持系统(training esupport system,TeSS)为培训师和学员提供培训材料、教程等方面服务[7-8]。

表1 ELIXIR平台及功能

2.2.2 15个领域单元 ELIXIR领域单元是协调不同利益相关方共同使用ELIXIR数据资源的重要场所,主要作用是将特定领域专家聚集在一起来确定和解决特定问题或开展小型项目,见表2。每个领域单元至少有一个核心数据库,除人类联邦数据领域单元、人类拷贝数变异领域单元和罕见病领域单元之外,每个领域单元都有自己独特的技术标准和法律标准[9]。

表2 ELIXIR领域单元及功能

2.3 “整合优化+共享保护”管理方式

2.3.1 资源遴选 ELIXIR核心数据资源是指欧洲生命科学和生物数据长期保存的数据资源,通过将生命科学相关数据汇集起来供研究者使用,提升数据价值[10]。ELIXIR创建正式流程动态识别、遴选欧洲最重要的生命科学数据资源作为ELIXIR核心数据资源[11]。截至2020年4月1日,ELIXIR有19项核心数据资源,涵盖广泛的生命科学数据类型,包括基因和基因组、蛋白质、化学、分子结构相互作用以及研究文献等。ELIXIR使用一套定性、定量相结合的指标,评价数据资源的质量和影响力,以确定具有极高科学影响力的数据资源,主要包括数据质量、数据资源所服务的领域、数据服务质量、法律和资金管理、数据影响和成果转化5个方面。核心数据资源管理人员每年提供以上5方面指标数据以评价核心数据资源[12]。

2.3.2 整合优化 一是整合工具与科学数据资源。ELIXIR将其成员国所开发的各种类型生命科学相关软件工具、教育资源进行整合,形成统一的发现平台;核心数据资源之间表现出高度的连通性和相互依赖性,反映不同数据类型之间的生物学关系[12]。二是持续开展数据评估。ELIXIR节点负责人会议每2~3年审查一次所有核心数据资源,每次审查至少需要3个ELIXIR节点负责人才可以对特定数据资源进行异常评估;如果审查提出问题,节点负责人委员会应负责制定下一步改进计划[7]。三是统一标准,落实推动数字资源管理和开放共享可发现、可访问、可互操作、可重复(findable,accessible,interoperable,reusable,FAIR)原则,通过开发数据管理工具包推动全欧洲生命科学数据管理标准化(包括元数据标准、本体、词表、标识符等在内的一系列标准)。

2.3.3 开放使用 许多ELIXIR领域单元已经着手改善核心数据库的数据存储,并采用元数据标准(包括本体)描述数据,特别是植物科学、海洋宏基因组学、代谢组学和蛋白质组学领域单元。但是由于各方面原因,数据往往不易整合到中央数据库中,例如人体受试样本中的某些数据出于监管原因不能跨国界使用。ELIXIR通过两个方案解决这一问题:一是将这类不便提交的数据库连接到欧洲基因组档案(The European Genome-phenome Archive,EGA),并通过EGA共享元数据。二是通过信标对潜在有用的数据集进行分析,判断数据是否能被溯源,并根据隐私要求对数据进行相应保护[9]。ELIXIR通过用户分级管理推动数据对不同用户个性化开放,通过认证和授权身份验证基础设施(authentication and authorization infrastructure,AAI)验证用户身份,并授权和限制用户在服务中的可操作范围[13]。ELIXIR AAI允许用户使用全球身份认证联盟(The Inter-Federation of Identity Federation Across the Globe,eduGAIN)认证的身份登录服务平台,并提供资源分配管理、数据集授权系统、多因素身份验证等服务[14]。ELIXIR中心没有权限访问各节点的内部数据和欧盟资助项目的科学数据,由各个节点处理自己的内部数据[4]。

2.3.4 数据保护协议 由于成员国并不都属于欧盟,所以ELIXIR在数据保护标准方面保持开放态度。对ELIXIR节点而言,欧盟成员国数据受欧盟《通用数据保护条例》(General Data Protection Regulation,GDPR)保护;非欧盟成员国,如以色列、瑞士和英国,其数据受本国数据保护规则保护,两者保护水平相当。ELIXIR是一个政府间的联盟组织,因此缺乏自己的法律人格。为解决该问题,ELIXIR节点中唯一一个不是国家的组织——EMBL已经同意允许ELIXIR使用其法律人格作为一个国际组织。这种“借来的”法律人格有两个主要特征:一是EMBL和ELIXIR不受欧盟GDPR和国家数据保护法的约束,并且ELIXIR继承了EMBL作为国际组织的特权和豁免权;二是ELIXIR把EMBL《内部政策68》(Internal Policy 68,IP68)作为其数据保护法;《内部政策68》与欧盟GDPR一样具有相当高标准的数据保护规则,适应国际科学研究组织的需要,反映了欧洲数据保护法的原则[4]。

2.4 “多元+混合”筹资方式

作为分布式基础设施,ELIXIR采用以公共资金为主的混合融资模式,见表3。一是ELIXIR中心和节点共同竞争欧盟“地平线2020(Horizon 2020)”和创新医学计划(Innovative Medicines Initiative,IMI)的资金。二是ELIXIR中心的资金来自成员国,即ELIXIR节点支付的会员费,这些资金大部分被返还各节点来支持ELIXIR 5年科学计划。三是ELIXIR节点通常通过国家投资获得资金,支持相关服务的开发和运营。四是ELIXIR节点可获得国际资助者的支持,例如美国国立卫生研究院(National Institutes of Health,NIH)支持的资金。五是一些ELIXIR节点能够获得欧盟结构基金,支持经济发展和产业结构的调整。节点的其他资金来源还包括基金会(如惠康信托基金和瓦伦堡基金会)和企业,但是与获得的公共资金相比,这部分资金规模较小。

表3 ELIXIR融资渠道

3 经验与启示

3.1 ELIXIR模式的经验

3.1.1 以需求为牵引,广泛整合资源 ELIXIR汇集23个国家和组织的220多家研究所,将地方性和区域性的国家基础设施与全欧洲的数据资源、数据标准服务联系起来,形成一个连贯的基础设施,满足欧洲50多万生命科学家需求,最大程度确保用户方便地访问数据资源。ELIXIR与许多国际组织建立良好合作关系,例如全球基因组与健康联盟(the Global Alliance for Genomics and Health,GA4GH)和科学研究数据全球联盟(Research Data Alliance,RDA)等,在非洲人类遗传与健康(Human Heredity and Health in Africa,H3Africa)等项目上不断扩大对外合作,研究环境和遗传因素之间的复杂相互作用以及非洲人群的疾病易感性和药物反应。如ELIXIR 2019—2023计划所述,ELIXIR成员国承诺联合提供服务,使欧洲研究者及其合作者能够方便访问、分析和重复使用大型、复杂和地理特色明显的数据集[15]。

3.1.2 善于总结交流,提升实践经验 ELIXIR组织中的节点协调员是国家资助的重要岗位,其主要职责是分享ELIXIR节点的操作信息和最佳实践。ELIXIR研究者致力于从特定研究领域吸取经验教训,挖掘同样适用于其他领域的通用研究方法或解决问题的方案,然后通过各节点、用户群体之间的信息共享,将这些好的做法和经验扩展到其他不同领域[9]。2016年德国正式加入ELIXIR组织,2018年9月德国生物信息网络(The German Network for Bioinformatics Infrastructure,de.NBI)组织第1次云会议向用户传授云计算方面的最佳实践,包括案例介绍、数据处理、工具使用和工作流程方面的新技术、新做法。此外,ELIXIR将运营大型基础设施方面的经验引入生命科学管理其他方面,为基因组学从生物医学研究转化为医疗保健系统的常规应用奠定基础[8]。

3.1.3 注重资源交互,服务内容全面 ELIXIR通过支持核心数据资源之间以及ELIXIR服务和新兴服务之间的交互提升资源和服务价值,可访问性资源不仅包括数据还包括其他类型,例如软件工具、工作流程和培训材料[10]。注册表工具作为ELIXIR工具平台的一部分,使研究软件资源的过程更加标准化,并为培训材料、培训流程提供TeSS注册表,使研究者能够轻松查找和访问培训资源[16-17]。FAIRsharing提供有关数据和元数据标准的精选资源,通过规范源头数据的注册表实现数据集和软件的互操作性[18]。

3.1.4 持续完善平台,实现提质增效 计算平台开发的ELIXIR认证和授权身份验证基础设施可实现将人类敏感数据传输到安全云存储;数据平台定义了ELIXIR核心数据资源的标准并对其进行识别,有助于建立全球生物数据联盟基础设施;互操作平台确定了一套互操作性资源生物架构(Schema.org),并且不定期召开互操作性服务能力建设研讨会;工具平台设置了ELIXIR工具和数据服务中心注册表,还开发了数据和方法(embrace data and methods,EDAM)本体用于对工具和服务注释[19];培训平台向60个国家19 000多人提供850多项培训活动,建立了TeSS、ELIXIR培训门户网站、电子学习平台和虚拟学习室,扩大欧洲培训网络,并且开发了ELIXIR培训工具包等[13]。

3.1.5 积极对外合作,提升数据价值 ELIXIR积极参与欧洲100万个基因组计划(the beyond 1 million genomes,B1MG)(2020—2023)、生物多样性社区综合知识库(the biodiversity community integrated knowledge library,BiCIKL)(2021—2024)、基因组数据基础设施(genomic data infrastructure,GDI)(2022—2026)等项目[4]。在植物和农业研究中,ELIXIR横跨欧洲最大的植物表型分析中心的数据联盟现已全面运作,为欧洲植物数据库联盟提供基础,开展跨国分布式植物“组学数据集”探索。ELIXIR协调FAIRplus项目,促进欧盟创新药物倡议资助项目数据的可发现、可访问和可重复。ELIXIR还协调欧洲开放科学云(the European Open Science Cloud,EOSC)生命项目,推动欧洲研究与创新战略论坛(European Strategy Forum on Research and Innovation,ESFRI)为EOSC创建开放协作的数字空间。此外,德国生物信息学基础设施网络de.NBI为ELIXIR提供了大量高质量的培训课程,为不同研究领域、不同知识水平的研究者提供帮助[8]。

3.2 对我国的启示

3.2.1 建立“中心+节点”分布式科学数据平台模式 以政府主导的国家核心数据中心为“中心”,遴选系列高质量数据库作为“节点”,通过中心链接、整合,提升节点数据质量,推动数据开放共享。节点数据库的选择应基于对现有数据资源质量、管理、服务和转化应用情况的评估和遴选,按照成熟一个、纳入一个的原则逐渐累积节点资源库。

3.2.2 推动数据、工具、标准等方面全方位整合 中心平台应推动以FAIR原则为目标的数据融合、质量改进、工具整合,并在数据标准、协议等方面持续优化、提升,以支持更加广泛的开放共享。在具体实施方面,中心平台可通过建设集数据库、分析工具、数据计算、交互和培训等功能于一体的综合性科学活动平台,也可通过建设领域性、行业性的论坛或互联网社区(如罕见病社区、植物科学社区)等方式实施。

3.2.3 以数据使用为目标牵引,开展多元化业务 中心平台应通过开展培训、宣传、交流、参与项目等多种业务形式,推动数据应用,实现价值转化提升。各节点可设立协调员小组,负责技术协调、培训协调以及分享操作信息和最佳实践,不断挖掘和总结不同行业领域数据管理的成功经验,鼓励各行业将好的经验做法通过科学活动互联网共享交流。

3.2.4 持续优化中心与节点合作模式、完善运作机制 在国家层面确定中心和各节点的合作模式及考核方式,明确各自的权利和义务。中心和各节点之间要遵循一定数据协议,建立数据共享及保密机制。

4 结语

我国当前已经建成多样化、分散的生命科学数据库,共享应用是各数据库可持续发展、发挥数据价值的唯一路径,采用“中心+节点”分布式生命科学数据平台形式是推动我国生命科学数据从分散建设到集中使用的可参考模式。通过建设中心平台,遴选整合优秀的节点数据库,推动数据、工具、标准等方面多元融合,开展以FAIR原则为总体原则的数据提质改造工作,整体实现数据质量、标准、管理和服务能力的提升,并推动以共享使用为目标的多元化运作机制,是实现我国科学数据“用起来”较为可行的发展路径。

欢迎订阅 欢迎赐稿

猜你喜欢
中心节点培训
剪掉和中心无关的
CM节点控制在船舶上的应用
在打造“两个中心”中彰显统战担当作为
华人时刊(2021年15期)2021-11-27 09:16:42
Analysis of the characteristics of electronic equipment usage distance for common users
基于AutoCAD的门窗节点图快速构建
培训通知
CIT培训学院2020线上培训正式启航
从五方面做好引导培训
劳动保护(2019年7期)2019-08-27 00:41:26
别让托养中心成“死亡中心”
抓住人才培养的关键节点
中国卫生(2015年12期)2015-11-10 05:13:34