构建支撑科技创新的新一代计算基础设施

2020-04-18 08:47钱德沛
数据与计算发展前沿 2020年1期
关键词:超级计算机高性能基础设施

钱德沛

1.北京航空航天大学,北京 100191

2.中山大学,广东 广州 510275

引言

随着科学技术的迅猛发展,高性能计算已经成为科学技术发展中的重要研究手段,与传统的理论研究和实验观察一起构成了现代科学技术和工程设计中相互补充、相互关联的研究方法[1]。以超级计算机的发展和应用为代表的高性能计算更是人类解决能源、材料、环境、健康等方面所面临的重大挑战性问题的利器和重要手段,是国家创新体系的组成部分,也是国家经济基础和综合实力的表现之一。高性能计算以其基础性、前沿性和前瞻性的特点决定了它是世界主要发达国家激烈竞争的战略制高点[2],其发展将促进产生原始创新和高端技术,进而影响到下游产业。加快发展高性能计算对于提升我国科技自主创新能力、增强国家竞争力、保障国家安全、促进国民经济建设、建设创新型国家具有十分重要的战略意义。

过去20年里,我国通过部署多项国家级科技项目和资助计划来推动中国高性能计算能力的提升,成功研制出多款超级计算机,逐步形成了具有一定规模的国家级高性能计算服务环境,支撑了一批重大的领域应用。本文首先从我国高性能计算机的研制、高性能计算机环境的建设以及计算应用的发展等三个方面,回顾了过去20年里我国高性能计算的发展历程和主要成果;第二部分对我国当前高性能计算的重点部署及相关进展进行介绍;第三部分则对当前形势及面临的主要问题进行分析;最后对新一代计算基础设施和环境的建设进行讨论,以期对我国高性能计算下一步的发展提出一些建议。

1 我国高性能计算建设发展回顾

在国家级战略中,由科技部和国家自然科学基金委员会,尤其以国家高技术研究发展计划(863计划)为主要力量之一,通过多个“五年”的周期规划对我国高性能计算进行了投资建设。上世纪九十年代后期,科技部就开始着手部署高性能计算基础设施的研发计划,通过“863计划”连续20年对高性能计算的研究机构进行持续支持[3]。进入二十一世纪后,自2002年起,“863计划”分别在“十五”“十一五”和“十二五”期间连续实施部署了“高性能计算机及核心软件”“高性能计算机与网格服务环境”和“高性能计算机与应用服务环境”三个重大专项(图1)。

图1 国家高技术研究发展计划(863计划)支持下的高性能计算机及服务发展Fig.1 Development of high-performance computers and services supported by the National High Technology Research and Development Program of China (863 plan)

随着“863计划”对我国高性能计算机的重点项目部署及任务建设,我国高性能计算机的发展也经历了孕育期、成长期和发展期三个阶段[2]。

(1)孕育期。这一阶段是“九五”(1996-2000年)和“十五”期间(2001-2005年)。其中,“十五”期间部署的“高性能计算机及核心软件”项目强调资源共享与协同工作的建设,以网格支持多领域应用,并成功研发出10万亿次量级计算机。该成果使得中国成为继美国、日本之后的第三个能制造和应用10万亿次级商用高性能计算机的国家。

(2)成长期。“十一五”期间(2006-2010年),部署了“高效能计算机与网格服务环境”项目,该项目的建设强调了除性能之外计算机其他的指标,包括程序开发的效率、程序可移植性、系统的鲁棒性等。强调计算机系统、环境及应用三位一体的发展和环境的服务特征。在该项目的支持下,我国成功研发了千万亿次量级计算机,创建了国家高性能计算服务环境。

(3)发展期。“十二五”期间(2011-2016年),部署的“高效能计算机及应用服务环境”项目,重点强调了高性能计算环境新的运行模式和机制,探索建立计算服务业的途径,发展应用社区,以便更好地支持应用。这一阶段,高性能计算机的研制取得了长足的发展,研制了包括“天河二号”和“神威·太湖之光”等世界领先的计算系统,标志着我国在超级计算机领域已走在世界前列。

表1 国家高技术研究发展计划(863计划)支持下的高性能计算机及服务发展Table1 Development of high-performance computers and services supported by the National High Technology Research and Development Program of China (863 plan)

下面将分别从高性能计算机的研制、高性能计算机环境的建设以及计算应用的发展等三个方面,对我国高性能计算方面的建设进行介绍。

1.1 我国高性能计算机的研制

我国高性能计算机研制从1996年到2016年的20年间得到了快速发展,总的计算能力从1996年的以“曙光1000”为代表的25亿次/秒,快速提升到2016年以“神威·太湖之光”为代表的12.5亿亿次/秒,提高了五千万倍。从“十五”“863计划”开始,高性能计算机的研发打破了过去定向委托一家承担的做法,引入了竞争机制,注重发挥用户的作用。这期间,在国家科技计划的支持下,我国研制出一系列的里程碑系统,如“曙光3000”“联想6800”“曙光4000A”“天河1号”等(表2)。其中,由国防科学技术大学研制,安装在国家超算广州中心的超级计算机系统“天河二号”,在2013年6月以峰值计算速度每秒5.49亿亿次、持续计算速度每秒3.39亿亿次双精度浮点运算的优异性能位居全球超级计算机500 强(TOP 500)榜首,成为当时全球最快超级计算机[4]。此后从2013年的6月到2015年的11月,共6次在世界榜上连续第一,目前排世界第四[5]。2016年,“神威·太湖之光”超级计算机研制成功,该超级计算机由国家并行计算机工程技术研究中心研制,安装在国家超级计算无锡中心。“神威·太湖之光”超级计算机安装了40 960个中国自主研发的“申威26010”众核处理器,该众核处理器采用64位自主申威指令系统,峰值性能为12.5亿亿次/秒,持续性能为9.3亿亿次/秒。在2016年6月的法兰克福世界超算大会上,国际TOP 500 组织发布的榜单中,“神威·太湖之光”超级计算机系统登顶榜单之首,不仅速度比时年第二名的“天河二号”快出近两倍,其效率也提高3倍[6]。此后,从2016年6月到2017年的11月,该计算机连续四次在世界五百强排名第一,目前排名世界第三[6]。

表2 我国1996年到2016年高性能计算机发展概览Table2 Overview of the development of high-performance computers in China from 1996 to 2016

1.2 我国高性能计算环境建设

除了研发高性能计算机系统以外,建设高性能计算机环境,努力改变过去计算机的孤立使用状态,提高其使用率,让计算普惠化,将计算资源服务于更多的科学家,也是我国亟待解决和重点建设的问题之一。

回顾1996年,我国只有一个国家高性能计算中心,即国家高性能计算中心(合肥)。该中心配置的主机为峰值计算能力6.4亿次定点计算的“曙光一号”。2002年启动的“高性能计算机及核心软件”重大专项研究和突破网格关键技术,建立了聚合计算能力18万亿次的国家高性能计算环境实验床(即中国国家网格)。

经过多年的建设,中国的高性能计算环境从无到有,得到了长足发展。到了2016年已建成由17个高性能计算中心组成的中国国家高性能计算服务环境,其资源能力列世界前列,总峰值计算能力超过20亿亿次,总存储能力也超过200PB 字节,提供数百个应用软件,汇聚了数万用户,用以支持数千国家科研和工程项目(图2)。

图2 中国国家高性能计算服务环境资源分布(2016年)Fig.2 National High-Performance Computing Services Environmental resources distribution(2016)in China

1.3 我国高性能计算应用的发展

随着我国高性能计算机及高性能计算环境的建设,高性能计算应用也有了巨大进步。1996年,我国高性能计算资源有限,应用范围也局限在气象预报、石油勘探等少数领域,并行计算规模仅为几十个核处理器,其应用软件还主要依赖进口。经过20年的发展,到了2016年,我国高性能计算应用领域已经广泛扩展到众多领域,普及度得到大幅提升。自主研发了一大批大规模并行应用软件,并在相关行业和领域得到实际应用,包括大飞机研发、高铁列车设计、石油勘探、新药发现、集合气象预报、汽车研发、流体机械优化设计、电磁环境计算等(图3),为我国的国民经济建设和科技强国发展提供了有力的支持。

图3 我国高性能计算应用领域得到广泛提高Fig.3 High-performance computing applications have been widely improved in China

某些应用的并行规模已经达到千万核处理器。其中,由中国科学院软件研究所、清华大学、北京师范大学、国家并行计算机工程技术研究中心和国家超级计算无锡中心的联合团队合作完成的“千万核可扩展全球大气动力学全隐式模拟”,以及由清华大学与山东大学、南方科技大学、中国科学技术大学、国家并行计算机工程技术研究中心和国家超级计算无锡中心等共同完成的“非线性地震模拟”项目,分别在2016年和2017年获得戈登·贝尔奖,实现了我国在此奖项上零的突破,成为我国高性能计算应用发展的新的里程碑。

2 我国E级计算的建设

我国在“十三五”阶段持续提高在高性能计算应用领域的投入[7],设立高性能计算重点研发专项,并在在机器、应用和环境这三个方面部署了一批重点研究任务(表3)。总体目标是依托自主可控技术实现E级计算机,使我们国家高性能计算机性能保持世界领先水平,同时研发一批关键领域高性能计算机应用软件,建立国家级高性能计算应用软件中心,构建高性能计算应用生态环境。建成具有世界一流资源能力和服务水平的国家高性能计算环境。

2.1 我国E级计算机系统的研发

我国“十三五”高性能计算专项课题对E级计算机系统的研发进行了全面部署。三个E级超算的原型机系统分别为神威E级原型机、“天河三号”E级原型机和曙光E级原型机系统(表4)。

(1)曙光E级原型机

曙光E级原型机验证系统采用加速体系结构,我们称之为节点内异构,包含512个节点,采用1 024个海光X86 处理器和512个海光DCU 加速器,通过6D Tours 实现节点间200Gbps/node的互联(图4)。该系统实现了对现有软件资产的保护和利用。

(2)“天河三号”E级原型机

“天河三号”E级原型机验证系统,可以称之为“天河三号”的前身。该机器的设计强调了系统级异构或者分区异构,可满足不同应用需求的柔性体系结构(图5)。其所有处理器通过互联网对应高速互联,可由软件来定义系统的组态,例如单纯CPU,或单纯加速器,或者CPU和加速器协同工作。该系统基于128核迈创处理器实现,目前已投入运行,饱和使用。

表3 我国“十三五”高性能计算研发的重点任务部署 Table3 Key tasks for high-performance computing research and development in China during the “13th Five-Year Plan”

表4 我国E级计算机系统的研发 Table4 Research and development of E-class computer systems in China

图4 曙光E级原型系统设计Fig.4 E-Class prototyping system design of Sugon

图5 天河E级原型验证系统设计Fig.5 Tianhe Exascale prototype verification system design

(3)神威E级原型机

神威E级原型机验证系统采用片内异构,实现了面向多目标优化的多态多尺度自适应体系结构。该系统基于国产申威众核处理器,采用260 核的众核处理器,核分成四组,每组一个大核加64个小核。系统实现了高密度弹性超节点,通过高性能互连网络互连。整个系统包括512个节点,总计算性能3.13PFlops,Linpack 效率达到了81.51%(图6)。该系统从硬件层、软件层到应用层,全面验证了未来E级计算机的关键技术。

图6 神威E级原型验证系统设计Fig.6 Sunway E-class prototype verification system design

2.2 E级计算的应用软件

重点研发专项在应用软件方面,强调以应用为驱动。例如,可计算建模方法和计算方法基础研究项目从四类应用问题中提取出超大规模线性、非线性方程组求解、矩阵特征值求解等共性问题,研发新型的可扩展基础算法,构建适应于E级计算的可计算物理模型与新型计算方法(图7)。

图7 构建适应于E级计算的可计算建模与新型计算方法Fig.7 Computational modeling and new computing methods suitable for Exascale computing

图8 地球系统模式研究项目研究内容Fig.8 Research content of the Earth System Model research project

图8展示了数值装置项目之一数值地球系统的研究内容。该项目通过数学模式、物理参数、算法关键计算方面的研究,建立地球系统的模式,把大气、陆地、海洋等等模式通过耦合器耦合起来,进行地球系统科学研究。

为了支持应用软件开发,“十三五”高性能计算专项还专门设置了支持应用软件开发工具与环境的项目。该项目研发了跨平台的超算应用开发框架、工作流、数据管理、资源管理以及数学库工具等,形成应用软件的开发环境[8]。还提供面向大规模的前后处理和可视化、程序性能与能效调优、大规模并行应用软件资源库等(图9)。

2.3 “十三五”国家高性能计算环境的建设

国家高性能计算环境在“十三五”期间也得到了持续发展。在前20年的建设基础之上,高性能计算环境整体得到了进一步提升,包括从单中心(合肥)拓展到双中心(北京、合肥)运行,节点数也由2016年的17个扩展到19个,主要节点间的互联带宽拓展到1Gbps,同时开发了基于微服务的计算门户以及基于应用的全球调度与预测(图10)。

图9 应用软件协同开发工具与环境Fig.9 Application software collaborative development tools and environment

图10 “十三五”国家高性能计算环境Fig.10 “13th Five-Year Plan” National High-Performance Computing Environment

截至2019年底,经国家科技部批准,已经建成的国家超级计算中心有6家(表5),分别是国家超级计算天津中心、国家超级计算广州中心、国家超级计算深圳中心、国家超级计算长沙中心、国家超级计算济南中心、国家超级计算无锡中心。

表5 “十三五”国家超级计算中心简表Table5 Summary table of the “13th Five-Year Plan” National Supercomputing Center

专项支持了10个基于国家高性能计算环境的服务系统项目,例如,由中国科学院微电子研究所正在研发的“基于高性能计算的EDA 平台”项目(图11)是其中之一。该平台提供常用的商业和自研的EDA软件。目前100个用户以上可以同时在平台上设计IC,千万门级电路仿真加速达到2~10倍。

图11 基于HPC的EDA 平台Fig.11 HPC-Based EDA platform

3 当前形势及挑战

性能更强更高效的超级计算机是全球研究机构、大学与公司正在追求的目标。大数据、人工智能处理技术等新技术的发展也给计算与存储平台、计算能力等提出了很高的要求[9]。

图12 TOP500曲线图Fig.12 TOP500curve

3.1 超级计算机发展遇到瓶颈

过去20年间,超级计算机的研制得到了快速发展,从1993年到2012年,超级计算机的性能增速为每10年提高1000倍。但从最新的TOP500曲线(图12)来看,从2013年起,这一上升速率变缓。2019年11月最新发布的TOP500榜单[7]中前10名较该年6月的发布名单中并没有发生变化。超级计算机的发展遇到了瓶颈。其中包括:(1)能效指标的约束。计算架构师们一直信奉的摩尔定律和Dennard Scaling 已接近极限;(2)体系结构变化缓慢;(3)尚无换代的颠覆性技术出现;(4)新原理器件缺少突破;(5)算法、软件和硬件之间匹配不良等等。基于此,如果未来几年没有大的突破,则超级计算机的性能增速可能降低为每10年提高100倍,甚至更低。

3.2 国际竞争日趋激烈

超级计算机问世以来,持续推动着全球经济社会的转型升级,世界各主要国家均把高性能超级计算机开发列入本国的优先发展规划,竞争日趋激烈。

(1)美国

2015年7月29日,美国总统奥巴马签发行政令,正式启动美国国家战略性计算计划(National Strategic Computing Initiative,NSCI),将制定统一的、多部门协同参与的战略愿景和联邦投资战略,并与产业界和学术界通力合作,实现HPC 利益最大化。NSCI 将制定一项综合性技术与科学方案,将针对硬件、系统软件、开发工具、应用程序的HPC 研究有效融入系统开发中,并最终实现系统运行(图13)。

图13 美国国家战略计算计划组织结构设计[10]Fig.13 Organization structure design of the US National Strategic Computing Plan[10]

其中,能源部(DOE)实行的ECP 计划,投入18亿美元用于研制3台E级计算机,单独投资18亿美元用于应用的研发。在E级计算机的研发中,持续性能1EF的A21 将在2021年上半年完成,持续性能1.5-3EF的Frontier 在2021-2022 完成,Serra的后续E级(4-5EF)将在2023 完成,预计2024年达到8-12EF 性能(图14)。

图14 美国E级计算机的规划(数据来源:Hyperion Research 2018)Fig.14 Planning for an Exascale the United States(Data source:Hyperion Research 2018)

(2)日本

在2019年11月结束的最新一届世界超算大会(SC19)上,日本新一代超级计算机——基于ARM架构的“富岳”(Fugaku,原名POST-K)的初阶系统以能效比16.9 GFlops/W 一举夺得了超算节能Green500 榜单的第一名,证明基于众核处理器的系统能效可以超过基于GPU的异构加速系统。

“富岳”初阶系统基于新一代ARM 处理器实现,配备了768个富士通开发的“A64FX”芯片,具有多功能、大规模并行、省电的优点,能效指标高,方便软件的开发、移植,扩展了512位的向量部件,系统的Linpack 性能为2P。目前该机在T0P500 上排名第159位,也是继Astra 之后第二个进入TOP500的ARM 架构系统[10]。同时,该机器在内存系统上采用了非常豪华的配置,配以HBM2,内存带宽1TB/s,内容容量大(内存字节/Flops=0.4,同比太湖之光约为内存字节/Flops=0.01),性能好,系统软件同步研发,用以支持新处理器的微内核操作系统。

图15 富士通“A64FX”芯片Fig.15 Fujitsu “A64FX” chip

“富岳”全机预计将在2020年10月部署完成,2021年左右投入使用。日本在“富岳”的研发项目上投入约1100亿日元(折合人民币约70亿元),研发目标是对之前在“京”上运行的某些应用可以加速100倍,但能耗却控制在只有“京”的3倍。按照计划,其峰值性能可超400PF。可支持企业和大学在新药开发、地震海啸模拟和集中暴雨预测等方面的研究。日本希望藉此力争在运算速度和节能性上达到全球超级计算机领先水平,并对于后续E级系统的研发进行了部署。图16为日本理化学研究所科学计算中心主任Satoshi Matsuoka教授在SC19 大会上对“富岳”的介绍[11]。

此外,日本在国家高性能计算基础设施和计算环境的建设方面,进行了一系列战略部署。日本的国家高性能计算机基础设施(HPCI),以当时世界最高水平计算能力的超级电脑“京”为核心,通过高速网络将国内大学的计算机和存储器连接,包含10个高性能计算中心和数据中心,实现了应对多样使用者需求的创新性计算环境。日本于2012年9月开始实施“HPCI 战略计划”,以最大效能地应用“京”和“HPCI”,构建了“下一代制造”等战略领域的研发和计算机科学技术体制。同时政府还采取了完善研究支撑体制、开展人才培育等措施。

(3)欧盟

欧洲高性能计算具有良好的研究基础和应用基础。截至目前,欧盟2020 地平线(H2020)已提供3亿欧元资助,总研发投入已超过7亿欧元,在欧盟层面组建高性能超级计算公私伙伴关系(HPC-PPP)和技术平台(HPC-ETP)[12]。欧盟计划在现有的高性能计算基础设施与技术服务平台(PRACE)基础上,研制开发新一代百亿亿次高性能超级计算机,包括低功耗高性能计算芯片和光子计算等。计划于2023年左右建立欧洲的E级计算基础设施,预计包括3台左右的百亿亿次高性能超级计算机。

在此过程中,将加强对自主研发处理器的投入,由Atos 公司牵头专门研究欧洲处理器。欧盟重视开放硬件体系结构,依托巴塞罗那超算中心建立欧洲开放计算机体系结构实验室(LOCA),研究开源处理器架构。

欧盟通过规划整合现有的高性能计算基础设施与技术服务平台(PRACE)、泛欧高速互联网(GEANT)和大数据重大专项(ECCEL)等,创建欧盟高性能超级云计算服务中心和成员国云计算服务分中心,泛欧大数据传输与软件支撑中心,高速宽带互联互通基础设施,全面提升欧盟超级计算服务能力。在软件研发和应用方面,进一步加强对新的计算模型、语言、算法,以及大规模数值模拟的研发。

图16 “富岳”在9个目标应用领域的性能表现(数据来源:Satoshi Matsuoka 教授在SC19 大会上的介绍)[10]Fig.16 Performance of “Fuyue” in 9 target application fields(Data source:Prof.Satoshi Matsuoka's presentation at the SC19 conference)[10]

3.3 国内形势变化

在信息技术高速发展的客观环境下,我国国内形势也发生了变化。一方面,新的技术热点层出不穷,如大数据、人工智能、区块链等等,这些热点不断出现可能会降低对于我们高性能计算关注的程度或者投资的强度。另一方面,近年来我国高性能计算机连续多年夺得世界第一、我国已成为事实上超算大国,社会对于这个领域期望值很高,加之国际环境的变化多端与激励竞争,压力也随之倍增。但是我们要看到机遇和挑战并存,我们坚持发展支持科技创新的基础设施信念不能动摇。

3.4 面临的挑战

我国超算行业处于快速发展期,虽取得了不小的成绩,但也存在一定的不足。包括应用水平方面与国外相比还有一定差距,企业用户的数量依然不高等问题。此外,我国高性能计算的下一步发展还面临诸多挑战。

(1)关键技术“卡脖子”问题

当前,全球的超级计算机正在进入E级计算时代,核心技术研发成为关键。但我国高性能计算机系统的关键部件仍依赖进口,其关键技术亟待突破,在E级计算上还面临着一系列卡脖子问题。包括高性能的处理器、加速器、内存芯片(尤其是3D 内存和新型的存储器件)、高性能互连网(基于光传输、光交换器件所实现的高速互连网)等。此外,用于IC 设计的EDA软件方面也是我们所面临的严重的瓶颈问题,此外还有先进的芯片制造工艺以及工程计算软件等等。另外,我国超级计算机能耗较高的问题依然存在,需要加大研发力度,实现创新突破。

(2)高性能计算基础设施的可持续发展存在一定困难

我国的超级计算基础设施近年来得到了快速发展,社会需求也越来越大,但在资源建设和分布上还存在不均。与发达国家项目相比,我国在高性能计算的组织管理方面都有很大差距。此外,还面临着可持续发展的困难。首先运行资金不足,另外服务模式存在不足,目前主要还是靠提供机时的模式来提供服务,而真正提供解决方案的能力还有待提高。

(3)应用软件资源不足

我国在高性能计算领域的投入,过去更多是对硬件研发上的投入。相比较而言,我国在超算应用上的能力,包括应用的软件和水平,都与国际领先水平存在差距,软件资源明显不足。主要体现在以下两个方面:一方面,自主软件不足。我国虽然这些年在高性能计算软件的研发方面加强投入并产出不少成果,但在整个国际环境和发展背景下,我国自主研发的应用软件占比较少,尚未形成体系。另一方面,国际资源使用有限。国际上现有的开源软件不一定满足需求,同时也存在着使用受限的潜在风险;而商业化的软件价格昂贵,并行度有限,和我国国产超算系统也不匹配,使用有限制。

(4)人才短缺

我国超算人才缺口很大。当前各超算中心的人员构成还面临很多问题。例如,中心人员结构不合理,能够利用超算解决应用问题的的高素质人才短缺。我国学科交叉尚没有形成风气,现行的评价体系不利于学科交叉人才的培养。这也直接影响到应用软件的研发和普及应用。超算的进一步发展急需培养更多具有国际视野、前沿技术思维的复合型专业人才。

4 构建新一代计算基础设施

基于上述分析,在当前形势下,加快构建新一代高效、新型的计算基础设施,满足科研创新的需求是我们迫切要解决的问题。

4.1 新一代国家计算基础设施要素

新一代国家计算基础设施的建设目标是能够有效支撑科学发现和技术创新,应主要包含以下要素:

(1)基础设施是基石,应具有世界一流的软、硬件资源;并在此基础之上,打造能为学科交叉的研究开发和服务提供资源的平台。

(2)能够帮助用户解决问题,以提供解决方案为主。即具有为用户提供解决问题的服务能力。因此要求基础设施的成员单位人员结构合理,素质高,具有很强的研发和技术推广能力,以及为用户提供解决方案的研发、优化等能力,对基础设施能够有效管理,保障资源的高效利用和稳定运行。

(3)与科技界和工业界有密切的合作关系。

(4)能通过多渠道保证运行经费的充足。例如以政府支持为主,并通过优质服务和技术研发获得经济收益作为辅助支撑。

4.2 合理有效的资源整合

国家计算基础设施应分为不同层级进行建设。可将其设想为一个金字塔结构(图17),顶层是少数国家级超算中心,这些中心必须要符合具有世界领先的软硬件设施能力和服务水平的要求,国家的有限财力要集中支持少数的国家超级计算中心。中层是数量较多的区域级或者行业超算中心,充分发挥地方和行业的积极性。底层是众多的单位和部门级计算资源,而且这些资源要择优整合后进入国家超级计算基础设施。这样设计的目的就是让不同的应用适配最适合的资源。本地资源支持开发,中等规模应用在区域和行业中心运行,大规模应用则可在国家超算中心运行。

基础设施中各层级的计算资源需要互联互通,合理调度,确保计算、软件和数据资源有效使用,发挥资源的最大效用。

国家超级计算基础设施需要设置进入和退出机制,如对成员的资源能力和服务水平进行定量评估,设立进入门槛,保证设施的高效率运行。

4.3 加强对高性能互联网络的建设

实现金字塔型国家基础设施的高效运行的基础条件是高性能互联网络,所以改善基础设施互联必然成为一个紧迫的事情。我国超算基础设施目前依托公共网络,互联性能远远低于国际同类系统。美国能源部的超算中心,从若干年前互联带宽就达到了40GB,几年间不断升级后更是达到100GB,并且还在不断提高。我国由于运行经费限制,只能租用公用网络带宽,最高目前只有1GB,与国际先进网络性能相差几十到上百倍。由于网络带宽不足严重阻碍了有大量数据输入输出的应用,用户体验也造成影响。因此需要在未来增加网络带宽购买运行的费用,同时要争取与中国下一代互联网示范工程(CNGI)等其他国家计划项目的合作来科学解决网络性能的问题。

图17 国家计算基础设施金字塔层次概念图Fig.17 Conceptual map of the national computing infrastructure pyramid

4.4 探索新的运营模式和机制

新的基础设施还需要探索新的运行模式和机制。总体思路就是要从提供机时为主向提供解决方案为主转变。同时,国家对于这些基础设施的运营经费的投入,也可从实际应用需求出发进行合理配置。我们基于以往建设情况和国内外先进案例,提出几点建议。例如,建议国家把是否采用计算手段来开展科研作为衡量科研项目的指标,从立项阶段就开始实施对相关经费的投入。我国每年大概几百亿科研经费,如果部分项目列支一定比例的计算费用,则总体上就可满足国家计算基础设施的运行要求。此外,国家可以设立专项的“计算基金”支持科学研究,也可通过让市场上的数值模拟公司、应用软件公司等相关公司有偿使用国家计算基础设施的资源,盘活国有资产,提供计算服务,研发计算软件产品。以上可以通过少数几个超算中心联合进行试点后再逐步地扩大。

5 高性能计算软件基础平台亟待发展

众所周知,没有软件就没有稳定的用户,没有应用软件,基础设施就不可能持续发展。单纯追求硬件指标不可能解决高性能计算可持续发展的问题,对于高性能计算的发展,应用软件是关键。对于应用软件资源建设,我们提出以下几点建议和意见,供大家参考。

5.1 应用软件资源建设建议

对应用软件的资源建设问题,我们简单归纳了以下几点建议:

(1)应用软件的资源问题应多渠道解决。需将自主研发软件、开源软件和商业软件统筹结合考虑。

(2)应用软件的研发应该和基础设施建设互动形成良性循环,并且要“有利可图”。软件的开发,是一个循环往复的过程。首先开发出的软件需在基础设施上进行试用验证,验证基础上进行功能性的完善,在完善的基础上逐渐使软件产品化,同时再把产品在基础设施上提供对外服务来获得收益,从而使应用软件开发有利可图,积累资金再促进新的开发。

(3)应用软件的开发还需充分发挥群智作用,保障充足的研发力量。

(4)应用软件的研发必须和国产超级计算机平行发展,从而保持我国高性能计算软硬件发展的动力。这是我们需要特别注意,也是一项长期的战略任务。

5.2 发展建设我国高性能计算软件的基础平台

什么是高性能计算软件基础平台?我们可以将其想象为应用软件生产的工作母机。依托该平台可以灵活快速地开发各个不同学科领域的计算应用软件,比如数值装置、科研虚拟仪器、物理系统模拟、科研大数据分析软件等等。该平台的建设对我国各科研机构和大学而言,是一项刻不容缓工作。

高性能计算软件基础平台的概念层次结构如图18所示。底层为我国国产超级计算机构成的硬件层。其上提供一个支撑平台,该平台包含了各种各样的模型库(或者说常用的典型模型库)、算法库(高效与硬件匹配的算法以及它们的实现)、工具库(与硬件相结合的优化工具、调试工具等)、基础模块库等。在这些算法、模型库的基础上,构造一些常用的、有一定功能的基础软件模块并且形成应用软件资源库。通过流程编排工具例如工作流等来把这些库或者模块连接起来,形成更高层次的功能。同时还要有数据存储、传输、分析的功能。另外,该平台还提供对编程的支持。基于这样一个支撑平台,大家就可以按照功能目标进行流程编排,灵活地组合各种各样的资源库和各种模块来生成所需要的应用软件。

图18 高性能计算软件基础平台设想Fig.18 High-performance computing software basic platform

以上仅是我们关于发展高性能计算软件的基础平台的设想。我们认为,该平台的建设应从顶层设计,并且它应该是一个可生长、可扩展,可以通过长期积累来形成的功能丰富、性能良好的平台,应该尽快着手启动。

6 小结

过去二十多年来,我国持续进行的高性能计算系统、高性能计算应用软件和高性能计算环境的研发和部署使得我国的计算能力得到快速发展,处于世界前列。为了在未来数十年维持并努力扩大优势,满足日益增长的计算能力需求,使得高性能计算的收益最大化,并应对新兴应用带来的挑战与机遇,在激烈的国际竞争中占据有利地位,我们经过思考,抛砖引玉,提出以上设想和建议。希望能对我国新一代计算基础设施的建设有所裨益。

利益冲突声明

所有作者声明不存在利益冲突关系。

猜你喜欢
超级计算机高性能基础设施
超级计算机
公募基础设施REITs与股票的比较
基础设施投资项目
前7个月国内充电基础设施增加12.2万台
超级计算机及其在航空航天领域中的应用
每秒100亿亿次 中国超级计算机
新政府会计准则规范公共基础设施处理
高性能砼在桥梁中的应用
SATA推出全新高性能喷枪SATAjet 5000 B
高性能可变进气岐管降低二氧化碳排放