袁国兴,张云泉,袁 良
(1.北京应用物理与计算数学研究所,北京100088;2.中国科学院计算技术研究所计算机体系结构国家重点实验室,北京100191)
在国际上,自1993年起每年都会按Linpack的测试性能公布在世界范围内已安装的前500套高性能计算机排行[1],这已成为高性能计算机研制生产、市场发展、应用交流和趋势分析预测的重要参考。2002年,中国软件行业协会数学软件分会首次发布中国高性能计算机性能排行榜,并在随后每一年的10月末或11月初公布当年我国高性能计算机性能TOP100排行榜[2-12]。在过去的十余年间,已由中国软件行业协会数学软件分会联合中国计算机学会高性能计算专业委员会与国家863高性能计算机评测中心发布的中国HPC(High Performance Computing)TOP100排行榜为我国高性能计算机的研制及在众多领域的应用推广作出了显著的贡献。2018年TOP100排行榜发布单位变更为中国计算机学会高性能计算专业委员会与中国工业与应用数学学会高性能计算与数学软件专业委员会,发布单位于2018年8月修定了“中国高性能计算机性能TOP100排行榜工作条例”,进一步细化明确了排行榜规则等细节。
2021年11月12日,最新一期中国HPC TOP100排行榜在北京召开的第三届中国超级算力大会上发布。本文基于最新排行榜数据,对我国高性能计算机的性能、制造厂商、体系结构、应用领域及部署机构等进行了讨论分析。
与2020年类似,本年度中国HPC TOP100排行榜对同一用户、同一厂商、同一地区安装的相似结构的计算机,在榜单中列出Linpack较高的一套。改进的规则使得更多的系统或高性能计算用户得以进入榜单,能更好地反映我国高性能计算现状。2021年3家单位联想、北龙超云和服务器供应商分别提交了18,7和4总共29套新系统,相比2020年的73套有较大幅度降低。联想提交的18套新系统合并了12套,合并后新增6套,其他单位提交的新系统无合并。合并后的17套系统全部上榜,去年榜单留存83套系统。今年全部榜单中100个性能位置共有158套高性能计算系统。今年榜单前10名变化较大,新增的17套系统中,有8套挤入前10。
2021年,由服务器供应商研制、部署于网络公司的CPU+GPU异构众核主机系统占据榜首,它是当前中国最高性能的计算机系统,包括285 000个CPU核,系统峰值为240 PFlops,Linpack实测性能为125 PFlops,应用领域为算力服务,是排名第2的神威·太湖之光系统Linpack测试值的1.34倍。
由国家并行计算机工程技术研究中心研制、部署于国家超级计算无锡中心的神威·太湖之光超级计算机下降为第2名。神威·太湖之光由40个机柜、总共160个超级结点组成,每个超级结点含256个计算结点,每个计算结点配备1颗1.45 GHz、260核的申威26010处理器,全系统总峰值性能为125.435 9 PFlops,Linpack实测性能为93.014 6 PFlops。
由服务器供应商研制、部署于网络公司的CPU+GPU异构众核主机系统获得第3名,包括190 000 个CPU核,系统峰值性能为160 PFlops,Linpack实测性能为87 PFlops,应用领域为算力服务。
由国防科技大学研制的部署于国家超级计算广州中心的天河二号超级计算机下降为第4名。2018年天河二号系统使用国产加速卡Matrix 2000进行了升级,系统峰值性能达到100 PFlops。
排名第5的系统是由服务器供应商研制、部署于网络公司的CPU+GPU异构众核主机系统,包括120 000个CPU核,系统峰值性能为110 PFlops,Linpack实测性能为55 PFlops,应用领域为算力服务。排名1~5的系统均为峰值性能达100 PFlops的系统。
排名第6的系统是由服务器供应商研制、部署于超算中心的主机系统,包括992个SW26010Pro 异构众核处理器,每个处理器包括390核,全系统共有386 880核,其中控制核心频率为2.1 GHz,从核频率为2.25 GHz,互连网络为Sunway Network。系统峰值性能为13.91 PFlops,Linpack实测性能为12.569 PFlops,效率达到90.3%,应用领域为科学计算。
由北京超云和Intel联合研制的、部署于北京超级云计算中心的北京超级云计算中心T6分区超级计算机位列第7名,系统包括2 680个计算结点,共5 360个Intel Xeon Platinum 9242 同构众核处理器,单处理器为48核,频率为2.3 GHz,总核数为257 280,互连网络为EDR。系统峰值性能为18.93 PFlops,Linpack实测性能为10.83 PFlops,应用领域为算力服务。
第8名和第9名系统是由服务器供应商研制、部署于网络公司的2台主机系统,分别包括192 640 和179 200个CPU核,系统峰值性能分别为16.66 PFlops和15.48 PFlops,Linpack实测性能分别为9.54 PFlops和9.12 PFlops,应用领域均为算力服务。第6~9名系统的峰值实测均超过了10 PFlops。
由北京超云和DELL联合研制的、部署于北京超级云计算中心的北京超级云计算中心A6分区超级计算机位列第10名,系统包括3 000个计算结点共6 000个AMD EPYC 7452处理器,单处理器为32核,频率为2.35 GHz,总核数为192 000,互连网络为EDR。系统峰值性能为7.21 PFlops,Linpack实测性能为4.04 PFlops,应用领域为算力服务。
完整的前10名榜单如表1所示。
2020年榜单中的第3名、由北龙超云和DELL联合研制的、部署于北京超级云计算中心的北京超级云计算中心A分区超级计算机下降到第11名,包括3 000个计算结点共6 000个AMD EPYC 7452 32C 2.350 GHz处理器,总核数为192 000,网络配置为FDR。Linpack实测性能为3.74 PFlops,系统峰值性能为7.03 PFlops,Linpack效率为53.20%。
2020年榜单中的第29名和第30名为由国防科技大学研制的部署于国家超级计算天津中心的天河一号A超级计算机以及部署在国家超级计算济南中心的神威E级原型系统,今年分别下降到第44名和第45名。
Table 1 Top 10 systems of China HPC TOP100 in 2021表1 2021中国HPC TOP100前10名系统
今年由北龙超云和DELL联合研制的、分别部署于浙江云谷云计算有限公司和宁夏超算云的浙江云谷超级云计算中心M6分区和宁夏超算云E分区2套系统分别排在第52名和第69名。前者包括1 680个AMD EPYC 7H12处理器,单处理器为64核,频率为2.6 GHz,网络为EDR,Linpack实测性能为2.42 PFlops,系统峰值性能为4.47 PFlops。后者包括2 400个Intel Xeon Platinum 8163处理器,单处理器为24核,频率为2.5 GHz,网络为FDR,Linpack实测性能为2.21 PFlops,系统峰值性能为4.6 PFlops。
联想新增的6套系统均为深腾8800超级计算机,其中5套部署于网络公司用于大数据处理,1套部署于高校。这充分说明了互联网和视频大数据处理在我国大陆的强劲发展势头。
2021年上榜系统的Linpack性能全部超过1.98 PFlops,2P级系统已经基本成为高端计算的主流,其中Linpack性能超过2.5 PFlops的系统达到47套。
2021年,作为入榜门槛的第100套系统是浪潮TS10000集群,部署于深圳某实验室,应用领域为科学计算,网络类型为EDR,Linpack实测性能为1.98 PFlops,系统峰值性能为3.12 PFlops.
2021年所有100套入榜系统的Linpack平均性能为6 913 TFlops,这是2020年平均性能3 842 TFlops的1.79倍。平均性能增速较2020年的1.1有较大提升,主要归功于前10套系统的变化。2021年中国HPC TOP100系统与2020年系统性能对照如图1所示。
Figure 1 System performance comparison for China HPC TOP100 between 2020 and 2021图1 2021年中国HPC TOP100系统与2020年系统性能对照
2021年,性能排名前100的共158套上榜系统由浪潮、联想和曙光等9家厂商研制,排除并列系统套数后,联想以40套排名厂商份额继续排名第1,浪潮28套排名第2,曙光12套排名第3,北龙超云、国防科技大学和国家并行计算机工程技术研究中心以5,4,2的装机数量分列第5~7名,清华同方、联泰集群各有1套系统上榜并列第8。图2给出了中国HPC TOP100计算机制造商的前100套系统统计。
Figure 2 Vendors system share图2 制造商系统份额(前100套系统)
以联想、曙光和浪潮为代表的国内厂商是我国HPC系统的主要研制单位,占据了绝大部分市场份额,2018年国外厂商的系统全部退出TOP100榜单,为历史首次,2019年的榜单再次为全国产计算机,DELL公司提交1套安装在武汉大学超算中心的异构系统,但是Linpack实测性能为1 403 TFlops,未能上榜,2020年DELL公司新增1套系统上榜。本年度排行榜的一个特色是北龙超云联合Intel和DELL研制了5套系统,为我国超算领域的多元化发展提供了动力。
如图3所示,从系统的性能份额来看,服务器供应商以43%领先,联想占据15%系统性能紧随其后,国家并行计算机工程技术研究中心的系统性能份额下降到14%,排名第3,继续超过了国防科技大学的10%和浪潮公司的9%。国家并行计算机工程技术研究中心和国防科技大学2家单位的6套系统占据了全部系统总性能的24%。国防科技大学、国家并行计算机工程研究中心为代表的国家队专注于数量少但世界领先的超大规模计算系统,而以曙光、联想和浪潮等为代表的商业化公司致力于HPC系统的市场化和普及化,这种两条腿走路的模式已经是并将依旧是相当长一段时间内我国HPC系统研制的常态。
Figure 3 Performance share图3 性能份额(前100套系统)
共享内存(SMP)、分布式共享内存(DSM)、大规模并行处理(MPP)等多种体系架构百花争艳的时代已经过去,分布式集群计算系统(Cluster)成为当前高性能计算机的绝对主流,近6年来进入TOP100榜单的系统绝大部分都是采用集群架构。但需要注意的是,基于自主众核高性能处理器并采用专有架构的神威·太湖之光系统更接近于传统的MPP架构,结合当前世界排名前10系统中有5套采用MPP架构的事实,可见在高端系统中,MPP仍是重要的体系架构。
除神威·太湖之光采用国产申威处理器,国防科技大学采用国产Matrix 2000加速卡,以及北龙超云的3套系统使用的AMD处理器外,其余系统均采用了Intel Xeon系列处理器,IBM Power处理器依然未出现在榜单中。
专用加速计算部件首先出现在TOP100榜单中是2009年,由国防科技大学研制部署于国家超级计算天津中心的天河一号系统配备了2 560块ATI Radeon加速卡,并以此获得563.1 TFlops的计算性能,成为该年最高性能的HPC系统。自2010年起,基于NVIDIA公司的Tesla系列GPU的HPC系统登上榜单并逐渐成为加速计算的主流。基于Intel Xeon Phi加速卡的系统出现于2013年,并在TOP100榜单中占据少量但稳定的份额。除去国防科技大学天河二号升级系统采用了Matrix 2000作为加速部件外,2021年有34套系统采用NVIDIA GPU或Intel Xeon Phi等进行性能加速,这一数据较2020年的39变化不大(如图4所示)。今年共有33套系统采用NVIDIA Tesla GPU,其中绝大部分用于与深度学习相关的计算。需要指出的是,Intel已宣布停产Xeon Phi。
Figure 4 Variations of accelerator and network from 2010 to 2021图4 2010~2021加速计算部件及系统网络变化
关于专用加速计算设备的应用,特别需要指出的是,无论是NVIDIA/AMD GPU,还是Intel Xeon Phi,在上榜系统中最先都是由国防科技大学、中国科学院等科研类机构研制采用,且主要应用于基础科学研究;随后才被浪潮、曙光和联想等商业化公司采用,并在众多领域得到大规模应用。这无疑是一种良好的模式。
体系结构上变化最为明显的是系统互连网络,千兆以太网2014年占据了100套系统中的70%,而自2017年以来连续5年不再在榜单中出现,已经彻底退出历史舞台;相对应地,万兆以太网从7年前的16%到2020年的71%再至2021年的62%,仍然是高性能计算系统的绝对主流互连网络。需要注意的是,这里的万兆网包括了100 GbE,40 GbE,25 GbE和最低性能的10 GbE共4类,而在今年占据主流的是10 GbE和25 GbE。
InfiniBand网络继续保持较高占比,相比2020年的23%,今年的数据增长为25%,这一占比主要与榜单中用于科学计算的计算机数目相当。从需求和用户的角度,我们期望这两者能保持良好的竞争态势,以提供性能更佳、价格更优的互连网络环境。
图5给出了2021年中国HPC TOP100中的行业应用领域的性能份额统计,包括算力服务(46%)、超算中心(24%)、人工智能(9%)、云计算(5%)、短视频(4%)、科学计算(3%)、金融(2%)、互联网(1%)、教育科研(1%)、能源石油(1%)、电子商务(1%)、政府(1%)、工业制造(1%)和电信(1%)。
Figure 5 Application area share图5 TOP100系统在不同应用领域的分布
依据应用模式的不同,上述应用可进一步大致归并为4大类:
(1)算力服务类。这是今年新增的一类服务,反映了算力经济的蓬勃发展。
(2)人工智能类。Map-Reduce、深度学习计算模型等基于数据的(非数值类)应用。
(3)科学与工程计算类。主要指传统的数值计算类应用,通常是计算密集型(也有数据密集型)。
(4)信息服务类。频繁交互的互联网服务类应用。
2021年度,算力服务类应用系统占据所有系统的51%,人工智能类应用系统占据9%,传统的科学与工程计算类应用系统与2020年的30%持平,信息服务类应用系统比2020年有所微降,从11%降到10%。
2021年中国HPC TOP100系统部署机构统计如图6所示,互联网企业以46%继续占最大份额,相比2020年的45%有所增加,其他企业(金融、制造业等)占30%,两者合计为75%,这一数据相比2020年的65%有所增加。科研院所和超算中心各占6%和13%,这表明用于科学计算的系统数量继续维持稳定,也充分说明了高性能计算机、高性能计算技术的主要应用还是在科学计算领域,并在多个领域尤其是互联网领域发挥着不可替代的作用。今年的系统中依然有5%用于视频公司,虽然相比2020年的13%有所降低,但依然将其单独列出,充分反映当前以短视频为代表的多种新兴应用的蓬勃发展。
Figure 6 System sites share图6 TOP100系统部署机构类别
Figure 7 China HPC TOP 100 from 2002 to 2021图7 2002~2021年中国高性能TOP100数据
2021年中国高性能计算机继续呈现快速发展态势,无论是性能、应用领域还是应用规模均有着长足发展。图7 给出了2002~2021年共20年来TOP100数据变化。可以看到,近10年来,第1名系统受国家相关科研计划影响,其性能呈跳跃式发展;最后1名系统性能则呈规律性指数增长,但是幅度逐步减缓,2022年入榜性能预计在2.2~2.3 PFlops。