中国超算技术赶超发展模式探析*

2021-06-07 08:33苏诺雅
国防科技大学学报 2021年3期
关键词:超级计算机高性能国家

苏诺雅

(北京大学 光华管理学院, 北京 100083)

超级计算是“国之重器”,是一个国家综合国力和科技竞争力的重要表现,是国家创新体系的重要组成,是解决经济建设、科学进步、社会发展和国防建设等领域一系列挑战性问题的重要手段。它作为一种通用基础技术,广泛应用于航空航天、气象预测、宇宙探索、新材料研究、石油天然气开采、分子模拟、航空动力学模拟、核能仿真计算和动漫渲染等国民经济领域[1-2]。

超级计算,简称超算,包括超级计算机、超级计算应用、环境、管理和人才等。在信息时代,超算已成为科技创新和经济社会发展的重要支撑,在全世界范围内,政府和有关部门普遍将超算作为科研公共服务体系进行重点建设。超算还是信息领域产品创新和产业发展的先导,可辐射带动相关信息产业链的发展。

超级计算机又称高性能计算机,早期也称为巨型计算机。超级计算机通常采用每秒浮点运算次数(简称为每秒次数)作为衡量指标。1975年,全球首台超算系统美国CRAY-1实现了每秒1.6亿次浮点计算。

超算能力的界定具有非常明显的时间特点。由于计算机技术发展迅猛,更新迭代速度快(参考摩尔定律),一般以当时TOP500排名的计算能力作为参考。2000年左右,每秒万亿次计算能力是超算的重要标志。到2010年前后,很多服务器都能达到该水平。因此,超级计算机系统与服务器的技术界限和计算能力界限也越来越模糊,特别是集群服务器,作为一种超级计算机体系结构,一定规模的集群服务器也经常进入超算TOP500的排名。现今普通智能手机的计算能力已超过30年前世界最先进的超级计算机。

(1)研究问题

我国超算发展从科学殿堂走向千家万户;从20世纪70年代末超算技术一片空白,到成果登上世界巅峰;从国内高端计算机系统、服务器大量依赖国外引进,到国内设备进军国际市场,服务器市场占有率攀升至全球第二,超算领域取得的进步是我国科学技术发展的代表性成果之一。

近十年,我国在超算领域取得了许多突破性成绩,是我国科技发展的重要成就之一,为航空航天、核能、石油、气象等领域的战略性发展做出了重要贡献。

超算面临的技术门槛和技术复杂性都很高,而且面临严格的国外技术输出的限制,但超算技术赶超成就和相关企业在国际国内市场的突出表现,都是我国科学技术发展和产业发展的成功代表。对我国在超算发展中模式和经验的研究和总结,能为其他高技术领域的发展提供参考性意见。

超算的发展过程中,不乏政府的身影。与其他面临高度不确定性和巨大研发投入的高技术领域一样,单一科研实体或企业难以下决心对类似超算系统的大型复杂技术所需要的人力、资本等要素进行投入。使得完全依赖市场机制可能造成国家整体科研投入过低,错失技术追赶和市场发展的机遇,对国外技术封锁束手无策等情况。因此,各国在高技术的发展中,普遍引入政府干预,引导科技发展,提高研究成果在不同机构和行业的转化和流动。

如何通过政府相关科技项目,引领、扶持重大成果的创新性探索,是值得研究的问题。本文主要回答政府如何引导形成厚实的知识和人才积累,如何主导超算基础设施建设和发展超算应用,企业如何发挥市场主体作用,实现产业发展。希望通过超算领域经验的总结和摸索,为其他高技术产业提供借鉴。

(2)研究方法

政府和市场在产业发展中,尤其是高技术产业发展中的作用如何发挥,一直是争论的焦点。高技术是否需要产业政策至少有两大阵营,林毅夫指出世界各国都有产业政策[3],也有学者认为产业政策大部分都是失败的。关于中国超算发展,有不少报告和论文,但主要从技术角度总结发展状况,或者某个阶段的发展成果。本文从管理学的产业政策、政府与企业作用的角度,采用调查和实证结合的方法,探索超算发展的产业创新模式。采用文献分析方法,分析有关研究机构发表的论文和报告;采用实证方法,从相关上市公司发布的公告,以及国际TOP500计算机历年排名、中国TOP100计算机历年排名等数据中,分析企业在超算市场中的表现。

1 近十年我国超算取得的主要成就

超算的发展道路与高铁、汽车等行业存在很大的不同。在高铁领域,相关政府部门和机构通过与国外企业和科研机构进行联合开发,签订技术转让等方式,引进了国外先进的技术和人员,国内科研单位和机构,在仿制和改进的过程中,逐步积累经验,为之后的创新发展打下基础[4]。而中国超算的发展,包括计算机技术的发展,由于进口设备性能受国际禁运组织“巴统”的限制,从起步阶段开始,就无法通过引进设备直接进行技术学习。

自1975年CRAY-1超级计算机在美国诞生起,由于超算对军事、石油等战略性领域具有不可替代的作用,因而被有关国家列入出口管制的技术。以中国气象局等单位早年购买的IBM大型机为例,按照美方的要求,设备安装在机房内部专门建的玻璃房内,只有美国公司认可的技术人员能够进入进行操作,同时摄像头监控画面需要保存,供美国公司查证,严防中方通过接触超算设备进行技术学习。

从1978年邓小平同志亲自决策研制“银河-Ⅰ”超级计算机,力图在1983年接近美国1975年的技术水平,达到每秒1亿次计算能力,到2009年后中国机器多次登顶世界,中国的超算技术在三十多年里实现了对国外先进技术的追赶和超越,并在最近十年开始在某些方面引领世界超算发展的潮流。在此过程中,我国逐步形成了三支研制超级计算机的团队和产品序列——国防科技大学及其“银河/天河”系列、中科曙光及其“曙光”系列、江南计算所及其“神威”系列。周兴铭院士将这种格局形容为中国的“超算家族”三箭齐发的格局。在没有国外设备或技术图纸可直接借鉴的情况下,各方科研人员从零开始,摸着石头过河,在超算设计框架、超算系统研制、高性能CPU、系统软件和应用软件等方面取得了诸多重大突破性进展,并获得了国际肯定。在市场表现上,中国制造的设备在国际TOP500中的占比也实现了跨越式增长。

我国超算技术在不长的时间内实现了技术追赶和超越,是非常了不起的成就。下面简要总结和梳理了近十年里中国超算取得的主要成果。

1.1 “天河”系列和“太湖之光”八年11次登上世界超算巅峰

2009年,国防科技大学和天津滨海新区联合完成“天河一号”研制。“天河一号”是 “十一五”国家863新一代超级计算机项目的成果。2010年11月,通过优化升级,实测运算速度达到每秒2 566 万亿次,理论峰值速度每秒4 701万亿次的“天河一号A”,成为当时世界上运算最快的超级计算机,荣登TOP500榜首。2013年6月实测运算速度每秒3.39亿亿次的“天河二号”再次登顶TOP500,其理论峰值速度达每秒5.49亿亿次。该成绩连续三年6次荣登TOP500第一。

在此之前,中国超算一直在努力追赶美国、日本等超算强国的技术研究,而从“天河”系列开始,我国开始实现与超算强国的并跑,并在个别方向实现领跑。“天河”系列在运算速度上实现突破,依赖着多方面的技术创新,其中较为关键的是在全世界范围内,首次在工程上实现了通用CPU和GPU混合的体系结构,CPU和GPU的结合,使得单结点的浮点计算能力得到极大提高,功耗增加不多,性能价格比很好。正是由于“天河”研制团队在异构体系结构创新突破和大规模工程实现中大胆实践,引领了超算技术向该方向的发展。美国斯坦福大学计算机系主任、NVIDIA公司首席科学家比尔·戴利评价认为:“中国的天河计算机采取的CPU与GPU融合的结构,代表了未来高性能计算机的发展趋势。”除此之外,“天河”节点互连速度是国际商用互联技术的1倍,降低了超算系统内节点之间的延迟,也减小了开销,并提高了计算速度。在2015年11月公布的TOP500中,使用加速器的超算系统的总计算性能占总体的三分之一;面向GPU并行处理进行高端应用软件代码优化的应用也超过三分之二。

2016年6月,“神威·太湖之光” 超过“天河二号A”,登顶TOP500榜单,其理论峰值达到每秒12.54亿亿次,实测性能为每秒9.30亿亿次。“神威·太湖之光”由江南计算所等单位研制,安装在国家超算无锡中心。系统包含40 960个自主研发的“申威26010”众核处理器,采用64位申威指令系统。 “神威·太湖之光”在处理器等方面自主化取得的成果。整套系统在运算速度上的优势保持了两年,在2018年6月被美国Summit超级计算机以每秒14.86亿亿次超过。

1.2 超算应用同步发力,多个项目荣获“戈登·贝尔”奖及提名

在超算领域,除了TOP500排名,还有一个为奖励高性能计算应用水平而设置的“戈登·贝尔”奖。截至目前,我国已经两次获得该奖项,多次获得提名,这展示出我国不仅在超算设备研制上取得了突破,在超算应用领域的成果也获得了国际认可。

2015年,为了研究1992年美国加州兰德斯大地震震波传播过程,“天河”研制团队与德国慕尼黑工业大学等合作团队,利用“天河二号”开展的真实地震震波传播模拟,从而为研究地震波产生传播机理和地震预报提供了新的途径。该成果获得“戈登·贝尔”提名。

2016年,由中国科学院软件研究所、清华大学等单位合作,在“神威·太湖之光”系统上研制的“千万核可扩展全球大气动力学全隐式模拟”获得“戈登·贝尔”奖,实现了中国团队在该奖项零的突破,在超算领域竖起新的里程碑。同年,国家海洋局海洋与清华大学合作完成的“高分辨率海浪数值模拟”,以及中科院等单位完成的 “钛合金微结构演化相场模拟”均获得提名。

2017年,清华大学、南方科技大学、中国科学技术大学等单位,在“神威·太湖之光”系统上完成的“非线性地震模拟”, 对唐山大地震的发生过程进行高分辨率精确模拟,也获得“戈登·贝尔”奖。

1.3 TOP500强中国制造占比超越美国,超算技术跻身世界前列

中国制造的超算系统近年市场份额的攀升,与我国在多产业、多维度大力推动自主可控有一定关系。但是,从相对开放竞争的国内大型互联网企业实际采购情况、国内机器出口抢占国外市场等方面可以看出,我国超算在技术上取得的成就,已经在产业界和学界得到了世界性的认可。以TOP500中设备数量为例,如图1所示,2016年6月,中国安装的台数为168,美国165台,首次超过美国。到2018年6月,中国制造262台,美国187台,中国制造的设备数量首次超过美国,成为TOP500最大制造国。中国设备不仅在本国市场上部分替代国外产品,也大量输出到其他国家。以2019年11月公布的TOP500机器为例,中国安装台数为231,中国制造台数为328,美国安装台数为117,美国制造台数为124。日本安装台数为29,日本制造台数为22,欧洲安装台数为94,欧洲制造台数26,其他地区安装台数为29,制造台数为0。

注:某国台数指的是安装在该国的超算系统数量,某国制造指的是由某国科研单位或企业研发制造的超算系统数量。图1 中美超算500强台数对比图Fig.1 Number of China and U.S. machines listed in TOP500

同时,超算技术溢出效益也非常明显。由于服务器可以平滑地采用超算的互联技术、CPU技术、操作系统技术和并行软件设计等技术,我国在超算方面的积累自然地溢出到服务器产业,使得一批企业在该领域快速成长。根据IDC数据,2018年12月11日发布的世界服务器厂家收入前五公司报告中,第一的戴尔(DELL)为40.93亿美元,占17.5%,第二的HPE和新华三占16.3%,第三的浪潮占7.3%,第四的联想占6.2%,并列第五的包括IBM占5.1%、华为占4.5%和思科占4.5%。中国企业整体的市场占有率达到世界第二,而在十年前没有一家中国企业进入前五。

1.4 E级计算技术取得初步成就

E级计算指的是每秒运算超过百亿亿次(1018)的计算水平。2016年启动的国家重点研发计划“高性能计算”,拉开了我国超算团队冲击E级计算的序幕。2018年底,各研制单位已完成原型机的关键技术验证,标志着我国超算开始迈向E级,同时自主创新和安全可控程度又上新台阶。

“天河三号”E级原型机使用了研究团队设计的“迈创”众核处理器(Matrix-2000)、高速互连控制器和互连接口控制器三款芯片,以及计算、存储和服务等节点,进一步提升了系统整体自主可控性。“神威”E级原型机采用了自主知识产权的众核处理器和网络芯片组,在E级体系结构、系统软件、并行算法等方面取得了重要创新。“曙光”E级原型在国产X86高端通用处理器、国产GPU众核加速器、6D-Torus交换系统、全浸式相变冷却技术、超融合自适应集群操作系统等方面取得了突破。

2 面向战略需求,政府大力发展超算技术与队伍

计算机自发明起,就成了各国战略性产业,并获得政府大量投入。超算由于其公共品的属性和巨大的资金需求,在各国发展中均以政府投资为主。以美国政府为例,他们的目标是使其计算机产业在全球占据和保持领先地位。因此,美国政府不仅对计算机科学和基础研究投入了大量资金,还对推动产业技术的应用和推广投入了大量资金[5]。

日本扶持电子计算机产业、半导体产业可以追溯到20世纪50至70年代日本政府颁布一系列法令给予通产省充分权利促进电子产业发展[6]。正是政府不懈努力,使得日本计算机和半导体产业得以发展,赶超欧洲。

世界银行增长委员会,对世界经济增长研究发现,第二次世界大战以后成功的国家或地区非常少,当中最显著的有13个经济体,他们取得每年7%以上的增长,持续25年或更长时间的增长。这13个经济体有5个特征,一是开放经济,二是宏观环境稳定,三是持续高投资,四是有效的市场,五是积极有为的政府[7]。研究[8]认为,政府在创新系统中的作用一直被低估,为此提出一个新的框架来评估在创业生态系统中政府的作用。

2.1 向量机时代,政府布局实现超算零的突破

超算是计算机产业的龙头,自然得到政府的高度重视。在1978年到1990年之间,我国研制超级计算机主要考虑国家战略需求,如石油勘探、气象预测、军事应用等领域对计算能力的需求。但是在此阶段,受国家财政能力限制和其他因素的考虑,国家层面没有体系化的国家超算计划或者连续的工程项目,主要是结合技术发展趋势和实际用户应用需要,每个项目逐一论证上马。在立项过程中,各部门均相对谨慎,没有一味地给科研单位“开绿灯”,并给予宽松的经费支持,因此项目之间间隔周期长。在国外技术限制放宽后,有关部门在直接购买外国设备和自行研制之间也进行谨慎的权衡,通过采取“业务主机”与“备份主机”的“竞争上岗”等模式,为国内项目承担团队提供了技术积累和追赶的机会,同时对科研团队提出了更高的技术指标要求和研制时效的要求。

CRAY-1超级计算机1975年诞生于美国。CRAY-1开启了向量计算机时代。向量计算机的运算就像数组运算,一条指令就可以处理整个向量,效率非常高。1978年,邓小平同志亲自决策,将研制亿次超级计算机的任务交给了国防科技大学。

要研制超级计算机系统,必须解决四大难题:一是体系结构,二是实现系统的基本器件,三是工艺技术,四是软件系统。当时,国外封锁技术,专业技术人才奇缺,国产元器件落后的情况下,研制国产超级计算机似乎是不可能完成的任务。国防科大科研团队在十分艰苦的条件下,通过5年的努力,攻克了数以百计的理论、技术和工艺难关后,1983年12月,我国第一台亿次超级计算机——“银河-Ⅰ”研制成功,并通过国家技术鉴定,中国成为继美国、日本后第三个能够设计和制造超级计算机的国家。

完成“银河-Ⅰ”系统后,国家有关部门并没有下达研制更高运算速度的超级计算机的任务。一方面国家财力有限,诸多科研领域都有待国家经费支持;另一方面,科学技术整体水平落后,对超算没有强烈的应用需求。一直到1988年3月正式签订合同,国防科技大学的团队开始“银河-Ⅱ”10亿次计算机的研制。“银河-Ⅱ”面临的直接技术难题是当时国际上没有可用于科学计算的高性能64位微处理器,只能用市场通用的中小规模通用集成电路自己设计“银河-Ⅱ”计算机的核心处理部件。

2.2 大规模并行处理时代,政府布局技术与市场的结合

无论是中国“银河-Ⅰ”“银河-Ⅱ”,还是国际上最早的超级计算机,都是向量计算机,例如CARY-1,CARY-2。一直到20世纪90年代初期,向量机一直占据了高性能计算机的统治地位。但是由于向量化的程序设计,需要对领域问题进行向量化建模,难度很大。应用十分不方便,加之全定制处理器高昂的成本,导致向量机发展遇到了瓶颈,难以扩展。

为了解决大规模扩展的问题,国际上出现了大规模并行处理(Massively Parallel Processor, MPP)体系结构。MPP结构可以扩展到几十万个节点。在MPP体系结构中,节点一般根据任务,分为计算节点、服务节点、存储节点、I/O节点,等等。计算节点和服务节点是最主要的。计算节点主要提供计算能力,一般运行轻量级、定制的操作系统,使节点能力最大可能用于计算,后期发展的各类加速器,实际上就是从硬件上进一步优化计算节点。而服务节点一般运行完整的操作系统,管理整个超算系统,为计算节点、存储节点等提供文件系统、任务管理和I/O等服务。MPP的节点之间一般采用多种高速网络互连。多种网络面向不同的通信需求,例如连接计算节点的内部互联网,一般是研制机构的私有协议,或者私有技术规范,需要专用部件,构建和维护成本较高。执行运行维护控制任务的控制网络,一般采用通用以太网技术作为基础,比较成熟。存储网络任务一般采用商用流行的技术,保证计算节点、内部存储节点、外部大容量存储系统(一般是第三方提供),能够很好地互联、互通、互操作。

在“银河-Ⅱ”完成后,经过2~3年的立项,国防科技大学采用MPP体系结构,完成了每秒30亿次的“银河-Ⅲ”超级计算机系统,以及后来更高性能计算机系统的研制。通过“银河”系列超算系统的研制,国内率先实现万亿次计算能力。国防科技大学“银河”超算团队技术能力和团队创新能力得到进一步加强。

除了国防科技大学的团队外,同期,国内另外两个超算团队也不断发展壮大。

第二个超算团队是中科曙光团队。1990年3月,在863计划的支持下,国家智能计算机研究开发中心在中国科学院计算技术研究所成立,开展超算的基础理论创新、关键技术突破和超算应用推广。该团队在1993年研制成功了“曙光一号”,1995研制成功了“曙光1000”。1995年成立曙光公司(全称曙光信息产业有限公司),由中国科学院计算技术研究所等单位出资。中科院计算所的出资中包含2 000 万人民币的“曙光一号”知识产权等无形资产。中科院计算所成为曙光公司的技术基地。曙光每年将部分销售收入用于研发投入。因此这是中国超算技术与市场结合的起点。为叙述方便,本文后面不再区分上述两个实体,统称为中科曙光。在超算技术产业化推进中,中科曙光做出突破性和系统性的贡献,形成了曙光超算团队。

第三个团队是基于江南计算所的神威超算团队。该团队通过多代计算机系统研制,在计算机系统工程等方面积累了丰富的经验。“神威一号”高性能计算机于1999年8月问世,峰值运行速度为每秒3 840亿次,位列当时TOP500高性能计算机中排名第48位。神威团队提出了以平面格栅网为基础的“分布共享存储器大规模并行结构”的总体方案,以三维格栅网为基础的可扩展共享存储体系结构和消息传送机制相结合等技术,提出循环水冷却、分布式盘阵、透明的保留恢复、高密度组装等创新构想。“神威一号”计算机先后安装在北京高性能计算机应用中心和上海超算中心。为气象气候、石油物探、生命科学、航空航天、材料工程、环境科学和基础科学等领域提供了不可缺少的高端计算工具,为我国经济建设和科学研究发挥了重要的作用。

在这一阶段内,“银河”“曙光”和“神威”三个超算团队分别从不同的、但相对固定的渠道,获得了有限的科研经费。三个团队获得的资金支持力度存在差异,最终成果的服务对象偶有交集,技术发展方向各具特色。

2.3 互联网时代,政府全方位布局超算支持计划

在《国家中长期科学和技术发展规划纲要(2006—2020 年)》指导下,国家863 计划连续设立重点项目,“高效能计算机及网格服务环境”重大专项、“高端容错计算机”和“高效能计算机及应用服务环境”三个项目等。第一个项目强调计算性能、开发的效率、程序可移植性、系统的鲁棒性等,强调机器、环境、应用三位一体的发展。第二个项目立足攻关关键领域的高可靠服务器。第三个项目强调超算系统应用,探索新的超算环境运行模式和管理机制,探索建立计算服务业的发展途径。

“十一五”初期,863计划通过竞争择优方式,启动了三套千万亿次计算机系统的研制,三个研发团体分别是国防科技大学和天津市政府、中科院计算所和深圳市政府、江南计算所和济南市政府,每个组合均实现了跨越省级行政区的配对。最终研制了三套千万亿次级的计算机系统。

国防科大研制的千万亿次系统——“天河一号”,理论峰值是每秒1 206万亿次,实测计算速度峰值是每秒563.1万亿次。2009年11月,排名亚洲第一。 随后一年,“天河一号” 的升级版本“天河一号A”研制成功,采用 Intel多核处理器和Nvidia GPU组成的异构体系结构,实测计算速度峰值达到2 566万亿次,在2010年11月世界TOP500排名中位列第一。

2010年,中科院计算所的千万亿次系统“曙光 6000”研制成功,由计算分区和服务分区组成的异构系统。计算分区采用计算所提出的超并行体系结构,是一种改进型的星群结构。目前多数应用是面向Intel X86指令集。由于龙芯的指令集和X86 指令集不一样,所以需要解决兼容性问题。中科曙光采用的办法是,在超节点的X86 CPU中运行操作系统,编译和应用任务。用户先提交给 X86 CPU,再由硬件支持的二进制翻译,将计算任务分配到龙芯处理器上运行。曙光星云作为“曙光 6000”的计算分区,理论计算峰值2 984.3 万亿次,实测峰值1 271.0万亿次,在 2010 年6月份的世界 TOP500 排名中排名第二。

2011 年11月,第三台千万亿次高效能计算机“神威蓝光”研制成功,并安装在国家超算济南中心。

“十二五”期间,863计划通过重大项目“高效能计算机及应用服务环境”,研制世界领先的计算系统,包括“天河二号”“神威·太湖之光”两个系统。如前所述,这两个系统将我国超算技术推上新高度,实现超算技术崛起。863重大项目同时强调超算环境新的运行模式和机制,探索建立计算服务业的途径,并积极发展超算应用社区,更好地支持超算应用发展。

2016年《国家创新驱动发展战略纲要》中提出,发展新一代信息网络技术,加强类人智能等技术研究,推动云计算、大数据、高性能计算等技术研发与综合应用。同年,《“十三五”国家科技创新规划》明确提出要发展高性能计算,突破 E 级计算机核心技术,依托自主可控技术,研制满足应用需求的 E级高性能计算机系统,使我国高性能计算机的性能在“十三五”期间保持世界领先水平。在国家科技创新规划指导下,经过战略研究及论证,正式启动国家重点研发计划“高性能计算”研发专项。

根据国家重点研发计划的项目规划,我国在2020年推出首台E级超级计算机器。通过竞争,天河超算团队、神威超算团队和曙光超算团队获得该项任务,并都已完成了原型机研制和验收。

在E级计算上,我国面临强大的竞争压力。美国能源部在2017年启动E级计算项目,首台机器“极光”预计2021年交付,2018年又要求在2021—2023年再完成两台E级超算系统。日本的相关项目由日本理化所主导,原计划完成时间为2020年。欧洲高性能计算联合执行体(EuroHPC)于2019年启动相关工作,资助欧洲的超算研究和创新,重点支持百亿亿次系统关键技术、超算应用平台等研发。

2.4 发展模式小结

我国超算从计划经济时代开始,起步于气象、石油等战略性领域的计算需求。即使在国家科研经费十分有限的情况下,国家依然面对战略需求,支持超算研究,培养超算技术、人才和团队。在此条件下,形成了“银河/天河”超算团队、“曙光”超算团队和“神威”超算团队,培养了三个后来竞争格局下同台竞技的强劲对手。进入21世纪,政府开始全方位主导超算的战略发展,制订连续的超算科研支持计划,全面支持超算发展,形成厚实的技术、人才、团队的积蓄。因此,对于战略性高技术领域,需要尽早进入,通过国家任务牵引,积累技术、人才,形成国家队,通过技术转移、技术溢出、人才溢出等效应,为该领域的腾飞奠定基础,在适当时候,通过适当机制,促进该领域实现技术跨越。既不能好高骛远,也不能束手束脚。

3 面向科技创新战略,政府积极倡导超算基础设施建设

重大基础设施建设必须依靠国家。“算力”是信息时代的重要能力,也是支持科学计算、大规模数据处理、人工智能、大数据的基础。但是超算基础设施投入太大,周期太长,风险太高,企业家是不愿意投入的,只能由政府投入。但是,政府可以支配的经费是有限度的,需要对财政资源进行配置。政府的资源配置希望有利于产业发展,有利于经济发展。美国或者其他发达国家都采取这种措施,政府在科研研发上的投入,有的占整个投入的80%以上,最少的也占25%。政府主导超算基础设施建设,实际上也是产业政策的一部分。专家也建议希望政府构建完整的生态环境[9]。

3.1 美日欧的超算基础设施管理模式

美国是高性能计算的霸主,美国的超算研究一贯是由国家主导。美国能源部和美国国家科学基金会(National Science Foundation, NSF)是超算投入的主体。各超算中心有着相对持续稳定的经费保障,在经营方面采用“政府所有,承包商运行”(Government Owned,Contractor-Operated, GOCO)的方式,通过引入承包商等方式,形成竞争环境。从运营上,一般情况下,科研机构、大学用户以及政府支持的特定项目用户可免费使用,而其他商业用户则要收费。

在国家层面,从20世纪 70 年代起,美国一直通过国家计划推动计算科学发展,至少包括“战略计算机计划”“高性能计算和通信计划”“加速战略计算计划”,以及“先进计算设施伙伴计划”等。2015 年 7 月奥巴马总统签署行政命令,要求创建“国家战略计算计划”,目的是使高性能计算的研究开发与部署,能够更多地用于科学发现与经济竞争。

在美国能源部管辖的实验室中,至少有6个拥有世界级超级计算机的实验室,包括劳伦斯利弗莫尔国家实验室、洛斯阿拉莫斯国家实验室、橡树岭国家实验室、阿贡国家实验室、劳伦斯伯克利国家实验室、桑迪亚国家实验室和田纳西大学等。这些实验室在超级计算机体系结构需求设计、应用软件设计、运行维护等方面的能力和经验是世界上最先进的。尽管国家实验室委托大学和企业管理,但研究开发经费80%以上来自能源部,这也反映出实验室的主要任务是能源部支持的长期的、前沿的、高风险的基础性和应用研究。

美国超算的另一个主要投资主体——NSF,从20世纪 80 年代中期开始,为全美国大学及政府机构建立了 6 个超级计算机中心。NSF正在推行一项 5 年 12 亿美元的极限科学与工程探索环境,旨在建设统一的虚拟系统,使得世界各地的科学家,可以通过系统来共享计算资源、数据和专业知识。通过多学科合作,以应对社会的巨大挑战。

日本也是超算强国之一。20世纪80年代中期,日本研发的超级计算机在性能方面就屡次超越美国、富士通和NEC等制造的向量机,甚至一度“倾销”美国本土。1993年6月的TOP500中,日本制造的超级计算机占21%。在投资模式上,日本也采取由国家投资,科研院所、大学以及企业承担研制的方式。20世纪80年代后期,日本将很多精力投入研制第五代计算机(人工智能计算机)。由于工程失败,也使得日本计算机发展一度陷入低迷,到2020年11月TOP500中仅占7%。但日本的向量处理方法一直有很明显的优势,国产CPU的能力也很强,富士通公司为日本理化研究所(理研)研制的K就是非常有特色的代表。在节能技术上,仍保持世界领先水平,尤以两次问鼎Green500的东京工业大学TSUBAME-KFC为代表。同时,日本在超算的应用,如地震预测、天气预报、汽车、材料等高性能计算方面具有较大优势,2011—2012年连续蝉联两届ACM“戈登·贝尔”奖。2020年6月,日本的“富岳”系统重登TOP500榜首。

欧洲多国超算中心经过长期的探索发展,已成为世界高性能计算领域非常重要的力量之一。2017年6月瑞士Piz Daint,TOP500排名第三,峰值2亿亿次,是欧洲非常好的成绩。欧洲信息大型公司ATOS是欧洲超算研制的重要力量,还为印度等提供超算技术。ATOS和Intel等联合研制的Tera100, 计算能力11 970万亿次,安装在法国,Tera100于 2018年6月跻身TOP500第14位,2019年11月则是第17位。2015年11月德国Hazel Hen, 峰值7 400万亿次,TOP500排名第8。经过多年的积累和实践,各超算中心也形成了较为成熟、多样的运营方式。例如,芬兰科学计算中心,成立于1970年,每年会得到中央政府机构5 000 万美元的资助经费,项目则来自教育部和其他合作项目。芬兰政府通过从芬兰科学计算中心购买计算资源的方式,提供经费,并把计算资源免费提供给芬兰的大学和研究机构使用。德国斯图加特高性能计算中心,成立于1962年,地方、联邦政府资助员工薪水,斯图加特大学全额承担能源消耗方面的支出。

3.2 中国政府主导建设国家网络计算环境,构建国家超算能力

超算中心可以为一定区域服务,国家网络计算环境则是在更高层次上和更大的应用范围,聚合超算资源,实现资源共享。国家网络计算环境可以分为三个阶段[10]。第一个阶段是国家高性能计算中心阶段。为了更好地推进高性能计算机在各个领域的应用,国家科技部于 1995 年成立了第一个国家高性能计算中心。后来在北京、上海、武汉、合肥、成都、杭州、西安等地建立了多个国家高性能计算中心,配置了国产的高性能计算机系统。国家高性能计算中心不仅在早期的高性能计算应用开发中发挥了重要作用,也为后来国家网格建设、国家超算中心建设,积累了丰富经验。

第二个阶段是国家网格计算阶段。2000年前后,在863“国家高性能计算环境”项目支持下,建立了由5个超算中心构成的国家高性能计算环境,形成中国网格的雏形。后续通过“中国国家网格”“中国空间信息网格”“高效能计算机和网格服务环境”等国家863项目;“中国网格”等教育部项目;“中国科学网格”等国家基金委项目不断扩展。中国国家网格由 863计划 “高性能计算机及其核心软件”支持,一期建设从2002至2005年,二期建设周期从2006年至2010年12月底。中国教育科研网格由教育部“十五”211 工程的公共服务体系建设重大专项提供支持。

第三个阶段是国家网格与国家超算中心融合阶段。《“十三五”国家科技创新规划》提出“研发一批关键领域/行业的高性能计算应用软件,建立若干高性能计算应用软件中心,构建高性能计算应用生态环境。建立具有世界一流资源能力和服务水平的国家高性能计算环境,促进我国计算服务业发展”。2016年启动的国家重点研发计划“高性能计算”目标之一是建立具有世界一流资源能力和服务水平的国家高性能计算环境,促进我国计算服务业发展。通过国家网络计算环境建设,将全国6大国家超算中心,以及部分省市提供的超算资源,融合为国家超算环境以及全国科学技术研究提供超算资源。

根据国家高性能计算环境发展报告[10],截至2018年底,共有19家超算中心加入中国国家网格,聚合计算资源超过200 000万亿次,总存储资源超过 167 PB。中国超算广泛应用于气象与气候变化、新药研发与生物信息、新材料、宇宙探索、航空航天和重大科学发现等领域。2015—2017三年中,最大并行核数达300万CPU核,其中12家超算中心达到千核规模应用,6家超算中心达到万核规模应用,国家高性能计算环境的多数应用已进入千核规模。在科研教育应用软件方面,2017年国产超算软件数目接近300个,比2015 年翻了一番多,这充分说明科技部及自然科学基金在应用方面的投入取得了较好的成效。2017年企业的并行应用软件数量超过 200个,增长非常迅速,是2015 年的4倍,这充分说明了企业需求强劲、国家和地方政府引导有力。通过国家网络计算环境建设,使得我国超算能力得到进一步加强。

3.3 发展模式小结

计算已经成为继理论、实验后的第三种科技创新范式。超算基础设施既是科技创新的引擎,也是大科学、大工程和新产业的基础,超级计算有广阔的应用前景。在国际超算竞争格局日益激烈,超算应用领域不断拓宽的情况下,市场规模不断增大,但超算的投入也非常大,远远超出企业或者地方政府的财政支撑能力。为此采用“中央政府+地方政府”联合投资模式,保证了超算研制的持续性投入,保证超算基础设施的建设,为当地经济转型提供支持。这种联合投资模式,可以推广到其他大型科学设施建设中。

4 面向全面发展,高度重视应用和市场双翼作用

超级计算机和基础设施是超算主体,超算应用和超算市场是超算的双翼。超算应用取得了成功是超算领域可持续发展的基石,超算市场取得成功是超算技术研究、应用和市场全面发展,形成正反馈必不可少的环节。

4.1 超算应用蒸蒸日上,推动超算良性发展

通过近十年的发展,我国超算应用取得长足进步,特别是国家超算中心的发展,为我国超算注入了新动力。各个超算中心都取得了丰硕的应用成果。

广州超算中心通过国家自然科学基金-广东联合基金超级计算科学应用研究专项等,支持了大气海洋环境、天文地球物理、新能源、新材料、大型工程仿真、生物医药健康、智慧城市与云计算等七大应用领域。中国科学院大气物理研究所的全球台风和海冰模拟与次季节系统,使用百万核时开展预测试验,完成了总计五千年的稳定积分。在台风模拟中,使用100千米水平分辨率,可较准确地模拟我国西太平洋,乃至全球的台风产生位置、台风移动路径等。中国科学院上海天文台完成在“天河二号”上成功部署了全世界最大的天文望远镜SKA数据流管理系统,完成了1 000计算节点的大规模集成测试,检验了软件系统的稳定性和可扩展性,等等[11]。

国家超级计算天津中心累计支持国家科技重大专项、国家重点研发计划等重大项目超过1 600项,涉及经费超过20亿,取得国家级、省部级奖励成果以及发表在Nature、Science的成果超过2 000项。构建了石油勘探、新材料、基因健康、工业设计与仿真、建筑与智慧城市等10余个专业化平台,聚集行业企业超过3 000家。为近200家规模以上企业提供了高质量创新服务,节省研发投入数亿元。“天河一号”实现了“算天”“算地”“算人”。“算天”是指支持气象预报、宇宙和天文研究、国产大飞机研发设计、运载火箭设计等;“算地”是指支持石油和天然气勘探、地下油藏分析、地下矿产勘探等;“算人”是支持人类基因科学和工程、新药研究等。例如完成“国产C919大飞机全工况全尺寸数值气动模拟”“神舟飞船全尺寸跨流域回收控制模拟”等;为国家重大海洋装备、高铁和汽车研发设计和重型装备设计提供研发支撑等[12]。

国家超算长沙中心、深圳中心、济南中心、无锡中心,以及我国最早的地方政府持续支持的上海超算中心等,都在应用领域取得了重要进展,极大地促进了国家的大科学、大工程和科技创新发展。

虽然超算应用取得了长足进步,也取得了几十万核乃至百万核的并行算法与软件的重点突破,但是几万核以内的应用依然占多数,有专家认为我国超算应用软件仍处于初级阶段,需要进一步加强。

4.2 超算企业走出国门,开始进入国际市场

企业是市场的主体力量,即使是超算这种高技术产业,要取得市场成功、要取得产业成功,还得依靠企业。企业通过参与国家超算研制计划,完成技术研究和技术创新,同时也在参与过程中,获得技术溢出的好处。政府经费的投入也弥补了企业研发经费的不足。经过近20年的奋斗,中国的企业在超算领域取得骄人业绩。由于服务器技术与超算技术一脉相承。超算的CPU技术、互联技术、系统软件技术等都可以用于服务器。从中国实际发展看,也体现了服务器与超算的强关联关系。以TOP500、中国TOP100等实证数据,进行企业作为市场主体作用的分析。

2000年前,中国超算市场,基本上被国外所垄断。图 2是2002年至2009年,中国TOP100的计算机厂家情况,可以看出,一直到2009年,我国大多数超算系统都是国外进口的,服务器市场也基本上是被国外品牌所垄断。

注:2002年时,中国TOP100只有50台机器,为了便于对比,本文将各厂家数据做了翻倍的处理。图2 中国TOP100的机器分布情况Fig.2 Number of China TOP100 machine by manufacturer

中国制造的高性能计算机在运行速度上一度超越美国,中国目前的机器总量超过美国,并不意味中国超算技术整体能力超过美国。在国防科技大学获得TOP500排名第一时,国防科大专家指出,尽管“天河”系列性能做到世界第一,但是有三个没变:一是西方国家在信息技术领域的巨大优势地位没有变;二是美国在超级计算机的研制和应用上的主导地位没有变;三是世界各国在超级计算机领域加大竞争的态势没有变[13]。

事实也验证了上述判断。国际TOP50机器安装台数和制造台数如图3~4所示。从图3和图4中可以看出,就国际TOP50(指TOP500的前50名)的中国、美国安装机器台数比较,无论是装机台数,还是制造台数,美国仍然遥遥领先。截至2020年6月,TOP50内中国安装台数和制造台数没有达到20%。与美国相比,相差甚远。即使与欧洲相比,中国的安装机器台数也有一定距离。

图3 国际TOP50机器安装台数Fig.3 Number of TOP50 machines by install place

图4 国际TOP50机器制造台数Fig.4 Number of TOP50 machines by manufacture place

国际TOP10中部分地区机器安装台数和制造台数如图5~6所示。更为严格地,如果仅考虑最先进的10台设备,从图 5和图 6的 TOP10(指TOP500的前10名)部分地区数量来看,无论是安装台数还是制造台数,美国都独占鳌头。

图5 国际TOP10中部分地区机器安装台数Fig.5 Number of TOP10 machines by install place

图6 国际TOP10中部分地区机器制造台数Fig.6 Number of TOP10 machines by manufacture place

如果将TOP10、TOP50、TOP500的占比份额,分别按0.4、0.35和0.25进行加权处理。因为从超算领域重要性看,安装台数体现应用需求和水平,研制台数体现研制能力和制造能力,都很重要。为此将安装台数和研制台数的重要性同等看待。可以得到图7结果。可以看出,美国综合水平依然远远超过中国、欧洲和日本。欧洲在过去十多年里,超算技术与应用综合发展十分稳定。2002年6月日本研制的“地球模拟器”首次达到TOP500第一,持续5次,达两年半,出现一个高点。从2011年6月开始至2016年6月中国、欧洲、日本的综合水平相近。中国从2016年后综合水平超过日本和欧洲。

图7 全球超算技术与市场综合评价Fig.7 Global evaluation of supercomputing tecnologyand market performance

中国整体超算实力在世界上取得了跨越式的发展,中国超级计算机在本土市场也有亮眼表现。图 8是中国TOP100的情况。2010年,国内制造机器数与国外制造机器数分别是49和51;2014年之后,国产超算系统占比超过80%;2019年达到100%。

图8 中国TOP100机器的国内外数量对比Fig.8 Number of China TOP100 machines by manufacture place

中国TOP100中主要公司的系统个数如表1所示。从品牌上来看,由表1可以看到,2002年之前,TOP100主要是国外的HP、IBM为主,后期就是中国的联想、曙光和浪潮为主。中科曙光在1998年完成863项目——“曙光2000”可扩展机群体系结构的超级服务器,2001年完成863项目——“曙光3000”超级服务器后,从2005年开始,市场竞争开始有突出表现。而浪潮在2012年完成“863计划”容错服务器项目后,2014年开始有明显起色。可以看出,从科研成果到市场表现差不多是2~4年时间。

表1 中国TOP100中主要公司的系统个数Tab.1 Number of China TOP100 machines by manufacturer

4.3 发展模式小结

这个阶段的模式可以小结为技术创新是破除市场进入障碍和寡头垄断,实现市场突破的重要途径。中国经济的高速发展,带来了很多市场需求,要将市场需求转化为国内企业的技术机会和市场机会,需要破除国外企业在超算市场上的寡头垄断,具体而言,需要克服技术壁垒、用户信心障碍、规模经济障碍等。

中国超算技术的发展为企业在市场上发挥主体作用提供了可能。旺盛的超算需求、向上的用户信心和日益成熟的高性能计算机技术,极大地促进了中国高性能计算机的发展。信息化市场带来技术机会,恰好与我国超算技术的突破形成了耦合。国防科大、中科院计算所、江南计算所三个科研院所,曙光、联想、浪潮三个主要企业,以及后来的华为、新华三、比特大陆等,使得中国超算出现集群创新的格局。中国高性能计算机产业氛围越来越浓,技术上不断给用户增强信心,用户基数不断增加,使得中国超算市场逐步突破并取得良好发展。

5 发展建议

中国超算在政府的强力推动下,通过长期的项目支持,逐步形成了若干超算研制国家队,在广大科研人员的不懈努力下,通过有序竞争,克服了重重困难,走过了“跟跑”“并跑”阶段,到了部分“领跑”阶段。当前,需要针对信息技术高速发展的特点,面向国家重大战略需求,继续开展管理创新和科技创新,保持中国超算在世界第一梯队的地位,为中国经济由高速增长转向高质量增长提供实践模式。

5.1 重视超算领域的集群创新,构建超算科研和产业生态

2020年3月,中共中央国务院发布“关于构建更加完善的要素市场化配置体制机制的意见”,提出要加快发展技术要素市场,完善科技创新资源配置方式。改革科研项目立项和组织实施方式,坚持目标引领,强化成果导向,建立健全多元化支持机制等。

我国超算取得辉煌成绩,但产业生态还比较薄弱,尚未建立以要素市场化原则配置资源的机制。科研和产业生态包括基础研究、关键技术攻关、中试产品研发、上市产品生产、应用推广等环节。中国超算已经聚集了我国大学、研究院所、企业等多方面人才。从研制超级计算机的核心科研院所团队,到中科曙光、浪潮信息等上市企业,从10多个超算中心,到超算应用单位等,从业人员数万人,形成了一个“超算虚拟硅谷”。虽然不在同一个高新区或者产业园内部,可以利用创新网络的邻近性正在不断减弱的趋势,在“超算虚拟硅谷”已经具备技术、劳动力、数据等市场要素的基础上,合理引导资本等市场要素参与,弥补超算产业资本要素非常薄弱的缺陷,形成一个市场要素比较齐全的集群创新产业群,加强内部的知识和技术转移,让知识创造、知识转移、知识传播、知识扩散在“超算虚拟硅谷”形成常态,充分利用高等院校更加开放的特点,实现更高效的知识转移,提高技术研发成功率,为国家实现创新能力提升,实现科技进步和经济增长提供样板。真正转化成市场上的产品,以真正形成科研和产业的良性互动。

5.2 持续增强超算的全方位能力,促进超算可持续发展

计算机应用近些年取得了长足的进步。但是,我国EDA等工程和工具软件,大型领域应用软件等主要依靠进口。超算应用不仅需要高性能计算机系统,同时也需要很好的应用软件,以及配套的计算环境。例如,复杂的科学计算,必须依然可视化系统,帮助应用领域科学家理解计算结果等。根据2018年“全球最具应用影响力超算中心”,我国仅有广州超算中心位列第五。美国有七家进入,前四名全部来自美国,日本位列第六和第九,德国位列第八。

研究[14]认为,我国的超算经费中用于应用软件开发的还不到 10%,美国相应的投入资金约为中国的 6 倍。当前TOP500排名第二的Summit 计算机系统在交付之前,美国能源部成立了 25 个应用软件研发小组,设计能够利用E级计算机的软件。因此需要加强应用投入,并尽快弥补软件算法和工具软件等超算短板,特别是在中美贸易摩擦升级的背景下,更需要加强基础研究,加强算法库、工具库的研究。

美国从2018春季到2019年秋季重登TOP500榜首4次。美国的超算总体实力远远超过世界上其他国家,无论是单台计算机系统的最高性能,还是如本文分析的TOP500的前10、前50的计算机系统或者综合应用能力,都是其他国家未来十多年无法超越的。日本、欧洲的整体实力都在稳步上升。因此,竞争将更加激烈。此外,需要特别关注在摩尔定律延缓后,或者后摩尔定律时代的超算技术积累方面我国存在的差距,包括产业界的技术研发、实现工艺和人才等方面需要加大力度进行储备,避免形成新的代差。与此同时,要补齐芯片设计环境、大型工具软件、领域应用软件等短板。

猜你喜欢
超级计算机高性能国家
超级计算机
高性能轻集料混凝土运用分析
高性能混凝土不同配合比下的性能研究
超级计算机及其在航空航天领域中的应用
高性能混凝土开裂成因及控制要点
新型“纺布工” 纺就高性能CFM——记国家自然科学基金青年基金获得者王晓旭
能过两次新年的国家
每秒100亿亿次 中国超级计算机
把国家“租”出去
奥运会起源于哪个国家?