张 娟 田倩飞 房俊民 唐 川 徐 婧 王立娜
(中国科学院成都文献情报中心,成都610041)
随着大数据时代的来临以及大数据在各学科领域的广泛应用,科学研究已进入数据密集型科研范式,许多待解决的科学问题和社会挑战的规模和复杂性已经远远超越一个学科、一个机构甚至一个国家的能力,逐步形成大科学研究格局[1]。如何采集、存储、管理、分析这些海量科学数据,从中提取关键信息并最终转化为知识发现,成为亟待解决的重要问题。为谋求在科技竞争中抢占先机,多国政府、知名科研机构以及各学科领域都纷纷投入大量资金和人力资源建设新一代数据与计算平台,力图打造一个集先进数据能力、计算能力,包括网络能力于一体的生态系统,将各种科学实验数据、存储媒介、超算资源、高通量计算资源、云计算资源及分析工具连接在一起,为用户提供一站式服务,便于他们更好地进行资源共享和开展科学研究。
先进数据与计算平台的建设是一项综合性工程,不仅仅涉及基础设施能力的提升,还包括基础设施汇聚资源能力、“实验-数据-基础软件”有机耦合、国家级数据库建设与资源共享、复杂算法设计与编程环境等一系列的软环境建设,进而形成支撑重大科技创新、重大科学发现的智能型服务平台。从全球来看,欧洲和美国的数据与计算平台建设处于领先水平,并展示了当前同类平台的发展方向与趋势。
目前全球科技创新已呈现“大数据+大计算=大发现”的趋势,先进的数据与计算平台既是实现国家创新战略的需要,亦是提升科技创新支撑能力的需要。我国在超级计算研发和应用领域已取得长足进展,但目前尚缺乏和美国、欧盟同类的一体化、共通共用的数据与计算平台,对于大科学计划的全面信息化支撑也相对薄弱。为此,我国针对“十三五”出台了部分相关规划,例如,“十三五”国家信息化规划提出建设基于云计算的国家科研信息化基础设施,打造“中国科技云”。本文简要分析了欧美科研数据与计算平台建设与发展趋势,希望能为我国进行同类规划、建设同类项目提供有益借鉴。
先进数据与计算平台尤其是国家级平台的建设是一项综合性工程,需要国家的顶层设计和纲领性文件作为引领与依据。美国早于2012年就出台了“大数据研发计划”[2],正式将大数据上升至国家战略高度,为后续的诸多规划及各部门行动提供了最为重要的指南。联邦各机构纷纷予以响应,美国国立卫生研究院(NIH)启动“从大数据到知识发现”(BD2K)项目[3],并投建“大数据计算卓越中心”[4]。美国国家科学基金会(NSF)投资500多万美元启动建设东北、中西部、西部和南部4个“大数据区域创新中心”[5],着力打造覆盖全美的大数据创新生态系统。为推动美国大数据研发更上层楼,2016年5月,作为“大数据研发计划”的一个重大里程碑,美国再次发布“联邦大数据研发战略计划”[6],旨在为联邦各机构提供一套相互关联的大数据研发战略,维持美国在数据科学和创新领域的竞争力。在美国“大数据研发计划”的牵引和刺激下,全球各国与地区也陆续出台大数据规划。2014年10月,欧委会联合欧洲数据业界、科研界和学术界建立“大数据价值公私合作伙伴关系”,投资25亿欧元促进大数据研究与创新及相关社区建设,为加强欧洲的大数据技术竞争力、繁荣欧洲的数据驱动型经济奠定基础[7]。英国分别于2014年和2017年投资4200万英镑和3000万英镑成立阿兰·图灵数据科学研究所[8]和国家数据创新中心[9],确保立足于数据科学和大数据分析与应用的前沿。2017年2月,瑞士国家科学基金会正式启动总经费为2500万瑞士法郎的国家科研计划大数据专项[10],致力于创新性信息分析方法及具体应用的开发。
就具体的国家级通用数据与计算平台建设而言,欧洲开放科学云、美国极限科学与工程发现环境、欧洲网格基础设施等项目树立了良好的典范。2016年4月,欧盟委员会推出“欧洲云计划”[11],拟打造欧洲开放科学云(EOSC)和欧洲数据基础设施,重点是借助云的理念,将欧洲现有的信息化基础设施和数据资源联合起来,形成一体化的信息化基础设施环境。NSF承接TeraGrid打造的“极限科学与工程发现环境”是全球最先进、最强大且最稳定的集成式数字资源和服务环境,建立了可供科学家共享并开展研究的单一虚拟系统。2016年8月,XSEDE进入新的5年期XSEDE 2.0建设阶段,致力于为用户提供一站式体验[12]。除了综合性的数据与计算平台外,不同学科领域尤其是大科学计划也在大力建设领域专用的数据与计算平台。例如,全球大型强子对撞机计算网格(WLCG)最初就是应大型强子对撞机海量数据的存储和分析需求而建,主要服务于高能物理领域。但其目前已发展为世界上最大的网格计算环境和科研通用计算平台,还可扩展应用至生物、大气等诸多科学研究领域。欧盟人脑计划(HBP)最重要的任务就是建设基于云的合作与开发平台,提供最先进的数据分析和计算服务,实现对人类大脑的解码。HBP于2016年3月正式发布六大ICT平台,并于2017年10月再次宣布计划将六大平台集成入新的HBP联合平台,方便科研用户和临床用户通过单点登录访问HBP提供的统一资源与服务[13]。此外,2016年,NSF投资590万美元创建首个北极综合性数据中心[14],英国5所大学合作开发了全球最大的基于云计算的微生物生物信息学资源云平台 CLIMB[15]。2017年,欧盟确立了面向生物多样性和生态系统研究的欧洲科研信息化和技术基础设施(LifeWatch)的法律地位[16],联合国教科文组织宣布建立一个全球性的蓝碳数据与知识网络中心,以围绕全球沿海湿地碳循环开展全球合作[17]。
2016年4月19日,欧盟委员会推出“欧洲云计划”[11],拟在未来5年重点打造欧洲“开放科学云”和欧洲数据基础设施,确保科学界、产业界和公共服务部门均从大数据革命中获益。欧洲开放科学云建立在欧洲现有的信息化基础设施之上,借助云的理念,将欧洲不同国家和地区现有的信息化基础设施、数据资源连接起来,通过制定合理的数据保护、开放接入等政策,约定统一的访问接口和协议,为欧洲170万研究人员和7000万从事科技创新活动的专业人员打造一个科学数据存储、共享和再利用的联合环境,实现对欧洲和全球科学数据资产的长期轻量型管理。欧洲数据基础设施负责为“开放科学云”提供有效的支撑,全面部署高速宽带网络、大规模数据存储设施和高性能计算能力,推进百亿亿次超级计算和量子技术的研发与应用。包括建立欧洲大数据中心,打造两台百亿亿次超级计算机,升级欧洲科研教育网GÉANT并整合欧洲公共服务网络。
在用户拓展与资助机制方面,主要通过与利益相关方合作开展大规模试点活动,将用户拓展至公共部门乃至各行各业。主要行动包括:为公共管理人员提供大数据测试环境,促进大数据技术的利用;与产业界和成员国合作,促进可信认证和标准的利用;将高性能计算和大数据解决方案植入云环境,扩大用户群体;将“开放科学云”作为试验床,打造生态系统来巩固欧洲的云产业。
欧委会在2017年10月发布的EOSC宣言[18]中指出,EOSC的实施是一个过程而非项目,是一个基于不断学习和相互调整的循环过程。目前,EOSC的建设已进入第一阶段,欧盟委员会拨款1000万欧元启动了为期两年(2017.1—2018.12)的 EOSC科研试点项目(EOSCpilot)[19],旨在开发共享计算基础设施以实现科研数据的开放和多方式利用。其目标是展示不同数据基础设施如何交换数据,重点是减少数据基础设施间的碎片化,并改善互操作性。试点项目将提升数据资源的再利用能力,向建设可靠的开放数据研究环境迈出重要一步。
2011年7月1日,美国NSF正式启动“极限科学与工程发现环境”项目[20],旨在连接全球的计算机、数据和研究人员,建立可供科学家共享并开展科学研究的单一虚拟系统。XSEDE是一个大型的国家级协作项目,为期五年,共获资1.21亿美元,是 TeraGrid项目(2001—2011年)的延续,其目标是成为全球最先进、最强大且最稳定的集成式数字资源和服务环境。
参与XSEDE项目的机构共有19家,其中,伊利诺伊大学厄巴纳-香槟分校(UIUC)负责主持该项目。这些机构均为XSEDE提供了可配置的资源与服务,包括高性能计算、高通量计算(HTC)、可视化资源、数据收集与存储及多种软件资源等。XSEDE作为一个集成了多种资源的单一虚拟系统,降低了资源访问及使用的技术门槛,可以为多个领域的科学发现提供有力支持。同时,XSEDE在其8个核心服务提供机构站点间形成了高速互联网络XSEDENet,每一站点还以10 Gbit/s的速度与美国科研教育网Internet2相连。此外,XSEDE还汇聚了一批具备性能分析、千万亿次优化、加速器有效使用、I/O优化、数据分析、可视化、工作流等多种领域专业知识和技能的专家,可以在数月到一年的时间内为科研人员提供免费帮助,从根本上提升科研人员的XSEDE资源使用水平。
2016年8月23日,NSF宣布将在未来5年内再拨款1.1亿美元,资助这19家合作机构继续开展并拓展基于XSEDE的活动[12]。新的5年期资助被称为XSEDE 2.0,将继续向其用户提供已有服务,并增加创新性元素来满足日益发展的支撑技术及用户需求。XSEDE 2.0支持美国国家战略计算计划(NSCI)的目标,包括从整体上扩展国家HPC生态系统的能力,服务于教育和员工发展,培养当前和未来的研究人员与技术专家。
2013年1月,欧盟宣布投资11.9亿欧元启动为期10年的“人脑计划”(HBP),以创建全球最大型的脑科学研究基础设施,促进大脑研究及医学和脑启发信息技术发展。作为未来新兴技术旗舰计划之一,HBP使用最先进的信息通信技术(ICT)工具研究和解读人类大脑,塑造了脑科学研究领域独一无二的基础范式[21]。
ICT是HBP的核心,人脑计划创建了由神经信息学平台、高性能分析与计算平台、大脑模拟平台、医学信息学平台、神经形态计算平台、神经机器人平台6大ICT平台组成的独特ICT架构,提供包括基于云的合作与开发平台、面向元数据并提供数据来源追踪的数据库、数据分析和计算服务,以及最先进的超级计算机、神经形态系统和虚拟机器人在内多种先进ICT工具与服务。
6大ICT平台中,基于先进云技术的神经信息学平台(NIP)和高性能分析与计算平台(HPAC)是关键。它们联合了众多超算中心,主要作为IT服务基础设施运行,并支撑着其他4个平台的运作。NIP在人脑计划的ICT架构中承担着“指挥”的角色,而“合作实验室”(COLLAB)作为NIP项目的一部分,是人脑计划合作研究环境的中枢,为科研人员高效访问各ICT平台提供支持,并提供基于云的软件服务和虚拟开发服务。COLLAB是获取NIP知识图谱的入口,也是一个社交网络系统,能实现以数据、理论、应用和模型流动共享为中心的协作型科学。HPAC将为人脑计划联盟以及更广泛的欧洲神经科学研究团体提供百亿亿次超级计算机、面向PB级数据分析的大数据HPC系统以及分布式云计算能力,为多尺度大脑模型的创建和模拟提供支撑。
其余4个平台严重依赖于NIP和HPAC平台提供的数据、软件与服务基础设施。大脑模拟平台与神经机器人平台旨在创建先进的应用软件系统,前者关注全尺度的数据驱动型建模与大脑模拟,后者关注在仿真环境中实现虚拟大脑模型与机器人的连接。医学信息学平台关注医疗数据的挖掘,为个性化医疗应用及疾病模型开发提供支持。神经形态计算平台旨在开发和提供神经形态软硬件原型,以催生一系列新型科学实验和产业应用。
无论是国家级数据与计算平台规划,还是以重大科学计划为依托的数据与计算资源建设,都十分重视整体统筹和长期可持续性。美国XSEDE、欧洲开放科学云、全球大型强子对撞机计算网格、欧盟人脑计划ICT平台,均是顶层设计的成果,因为自上而下的整体统筹有助于各类部署更加有机的关联、匹配与衔接,整合和协调了相对分散的资源,也避免了重复建设的问题。而且这些平台十分重视长期可持续性和可扩展性,实施理念务实。它们大多瞄准中长期(至少10年)进行规划,采取分阶段开展、逐步推进的灵活模式,以便及时对目标和任务进行调整,纳入新出现的理念和技术,确保平台的升级和扩展。美国的XSEDE和欧盟网格基础设施(EGI)分别源于2001年启动的TeraGrid和欧洲数据网格项目,其建设与运行均已超过15年,经历了四个阶段的发展(图1),目前在全球同类项目中仍然属于引领者。分阶段建设还能更好地应对全球科研创新及科研模式的发展变化,及时与国家的科研创新规划接轨,为科研创新提供最大助力。例如,EGI项目的第二阶段EGI-Engage于2015年启动,是为了加速实现EGI于2014年底提出的开放科学公地愿景,同时面向正在进行的欧洲开放科学云建设。
图1 XSEDE和EGI分阶段实施路线图Fig.1 Implementation Phases and Timeline for XSEDE and EGI
开放科学描述了当前正在进行的科研方式的转变,涉及科研人员的合作、知识的共享与科学的组织,通过提升透明度、开放性、联网和合作推动科学发展,使人们能从知识共享的角度重新看待科学。为顺应开放科学趋势,2015年初,欧洲网格基础设施提出“开放科学公地”愿景,提出要促进共享科学资源管理,帮助科研人员访问数据集、计算平台和分散的知识与技能,促进科研产出并最大程度地实现科研成果转化。2015年3月,“促进EGI社区迈向开放科学公地”(EGI-Engage)项目启动,旨在扩展欧洲在计算、存储、数据、通信、知识和技能方面的重要联合服务能力,以加速开放科学公地的实施。同时,为积极响应“开放科学公地”愿景,欧委会启动了欧洲开放科学云建设,借助云的理念,将包括EGI、EUDAT、PRACE等在内的欧洲现有的信息化基础设施和数据资源连接起来,通过制定合理的数据保护、开放接入等政策,打造一个数据共享和再利用的统一的信息化基础设施环境,从而促进多学科创新,实现欧盟科技创新的投入最大化。此外,以欧洲开放科学云为代表的新一代数据与计算平台建设十分重视互操作性和标准化,多采取了开放、开源的模式,并大力鼓励公私合作和全球合作。例如,WLCG就采用了全球合作单位之间共享科学计算资源的方式来实现海量数据的处理和分析。
科学研究的进步迫使科研信息化基础设施性能和规模加速向更高量级发展。而且,物联网时代,智能网络将所有的数据、人、物及科学流程连接在一起,科学数据从产生、汇集到存储、处理再到转变为知识发现,会成为一个流动且完整的循环,每个环节都可能发酵并创造更多价值,科研手段也必将随之发生改变。因此,新一代数据与计算平台很有可能会成为一个生态系统,与科学研究的整个生命周期共融,将数据汇聚在一起,为数据的快速流动提供支持,催生更多且更具价值的科学发现。例如,WLCG由4层站点组成,Tier-0即欧核组织(CERN)的数据中心,负责原始数据的安全保存、首次处理和分布,将输出结果重建到Tier-1;Tier-1站点包含全球13家大型计算中心,负责原始数据与重构数据的按比例安全保存,相关结果的大规模再处理与安全保存,将数据分布到Tier-2站点以及安全存储Tier-2站点产生的部分模拟数据;Tier-2站点在全球约有160个,通常位于各个大学与科研院所,拥有充足的数据存储能力和足量的计算力,负责处理分析需求,并按比例进行模拟和重构;Tier-3站点通常指本地计算资源,包含大学院系的集群甚或是个人电脑,Tier-3站点和WLCG之间并未签订正式的协议,但科学家可通过Tier-3站点访问相关设施。