国之重器:“天河”高性能计算机发展历程

2016-05-30 02:08赵阳辉陈方舟温运城
科学 2016年3期
关键词:天河超级计算机高性能

赵阳辉 陈方舟 温运城

继2010年“天河一号”首次问鼎全球最快超级计算机之后,“天河二号”连续六次蝉联全球超级计算机TOP500冠军。除令人叹服的运行速度外,“天河”系列高性能计算机还拥有中国自主研发的异构体系结构、高速互连网络、新型并行编程模型框架等核心技术。它的成功是我国计算机领域几代科学家共同努力的结果。

高性能计算机(早期称为巨型机),又称超级计算机,是以每秒浮点运算速度来衡量的,具有超高运算能力和超大存储容量的超大规模电子计算机。自1960年代以来,美、英、法、德、日等发达国家相继推出系列巨型计算机,引领世界计算机发展之方向,在量子力学、密码分析、气象和天气预报、石油和天然气开采以及军事等研究领域得到广泛应用,产生巨大社会效益。

在1993年开始发布的全球超级计算机TOP500排行榜中,美国始终占据最多席位,处于世界首位。作为一个为高性能计算机提供统计的组织,TOP500主要针对高性能计算机制造商、用户以及潜在用户,通过用Linpack程序对高性能计算机系统进行基准测试,取前500最优系统进行排名,每年发布两次,并在TOP500网站公布。2010年,中国人民解放军国防科学技术大学(简称国防科大)研制的“天河一号”第一次超越美国,荣登全球超级计算机TOP500排行榜榜首。此后,“天河二号”连续六次蝉联全球最快超级计算机排行榜榜首。“天河”系列超级计算机的成功,既有深厚的历史渊源,又有长期的技术积累,更有时代迫切需求的强劲动力,是中国发展计算机技术服务于国家建设和国防事业的重要体现。

中国计算机技术的起步

第二次世界大战全面爆发前夕,科学学的创始人、英国学者贝尔纳(J.D.Bernal,1901-1971)指出:“科学与战争一直是极其密切地联系着的;实际上,除了19世纪的某一段期间,我们可以公正地说:大部分重要的技术和科学进展是海陆军的需要所直接促成的。”1946年2月诞生于美国阿伯丁弹道研究实验室的世界上第一台电子计算机ENIAC,迫不及待地证明了贝尔纳这一见解的正确性。不仅如此,中国计算机的发展历程也是有力佐证之一。

在ENIAC问世之时,中国刚结束抗日战争,随即又进入解放战争,连年浩大的战乱令国人无暇顾及计算机的研制及考虑其对武器装备发展的影响。

直到新中国成立不久后爆发抗美援朝战争,入朝作战的中国军队高级将领深刻认识到武器装备技术对未来战争的决定性影响,以及加强军队和国防现代化建设的迫切性。军事理论家郭化若(1904-1995)将军多次指出,“在抗美援朝战争中因为我军没有制空权,而难以达成战役的歼灭战,因为我军没有制海权而不能达成战略的歼灭战。只有搞好我国的经济建设,提高经济实力,搞好我军的现代化建设(主要是武器装备的现代化建设),提高我军的作战能力,我们的国家安全才更有保证”。受命创办中国人民解放军军事工程学院(简称哈军工)的陈赓(1903-1961)大将更是一针见血地指出:“技术兵器确是决定战争胜败的重要因素。”

1952年,中国科学院数学研究所所长华罗庚(1910-1985)提出发展计算机。1956年国务院制定的《十二年科学技术发展规划》,将计算机列为六个重点项目之一,采取紧急措施以保证其发展,并筹建中国科学院计算技术研究所。1958年,中国在苏联帮助下试制出103计算机,至此中国“有了”计算机。1959年,第一台大型通用电子计算机104机研制成功。1965年、1967年中国科学院计算技术研究所(简称中科院计算所)、华北计算技术研究所、华东计算技术研究所等相继自行研制成功系列电子计算机,其中109乙机(运行速度9万次/秒)和109丙机(运行速度11.5万次/秒)为两弹做出了应有的贡献,它们的应用使得中国继第一颗原子弹装置核爆成功后不到3年,就成功爆炸第一颗氢弹,研制速度快于美国的7年和苏联的4年。由此可见,计算技术的发展对于加快国防现代化进程的重要性是不言而喻的。

中国军用计算机的源起及发展

中国军用计算机的研制源于哈军工。哈军工系国防科大的前身,创办于1953年,陈赓大将任第一任院长。

1956年秋,海军司令部提出研制鱼雷快艇指挥仪的任务,交由哈军工海军工程系完成。1957年8月,海军工程系助教柳克俊(1933-)呈交《关于发展舰用电子计算机,研究试制供快艇用的快速电子指挥仪的报告》,指出:“1956年底,结合世界电子计算机技术的发展情况,已萌生想用电子数字计算技术来解决鱼类快艇的问题,经过不断地实际探索,特建议发展海军舰用电子计算机……”1958年9月28日,代号为“331”的电子计算机完成初步考核,结果显示其逻辑正确、运行正常。这是哈军工乃至中国第一台军用电子数字计算机样机,尽管它还达不到生产和装备部队的水平。在1959-1970年间,331机研制组经过晶体管老化筛选,利用V型扫描法和切比雪夫最佳逼近方法,实现了鱼雷快艇指挥仪的晶体管化和小型化,使其终于成为真正意义上的首台军用计算机。

1960年代初,随着半导体技术、材料科学等领域的蓬勃发展,计算机晶体管化、通用化和生产批量化已成为可能,电子计算机进入晶体管时代。此时,从英国考察归来的哈军工电子技术系(1961年成立)主任慈云桂(1917-1990),及时把握这一发展趋势,决定立即下马已经开始的电子管计算机项目,发展晶体管通用计算机。慈云桂就“国内有无研制条件”和“国产元器件是否能够过关”等问题进行了深入的调查研究,形成论证报告后上报国防科学技术工业委员会(简称国防科工委),得到主管科技工作的国务院副总理聂荣臻(1899-1992)的支持,他指示“尽快用国产晶体管研制通用计算机”。在慈云桂主持研制代号“441B”的通用晶体管计算机的过程中,海军工程系年轻教员康鹏(1936-)提出“用国产的参数不一致的晶体管,构建出一致的、波形宽度标准的电路”的辩证思想,解决了信号竞争问题和触发器“一触即发”的问题,进而发明隔离阻塞一推拉触发器电路,解决441B机基础电路的稳定性问题,最终用国产半导体元器件生产出性能稳定可靠的晶体管计算机。1964年8月,44lB机顺利通过稳定性考核,先后生产100余台,广泛用于国防、经济及教育等领域。这标志着哈军工的计算机技术已走在国内同行前列,并为下一代计算机技术的发展奠定了重要技术基础。

1969年11月,鉴于国防科研需要,国防科工委主持召开“远望号”测量船控制计算处理中心方案论证会。哈军工电子计算机系(1966年成立)主任慈云桂提议研制百万次集成电路计算机,他提出的利用系统设计的可靠性来弥补国产小规模集成电路初期产品缺陷的技术思路获得认同,从而与华北计算所分别立项。

1970年哈军工主体南迁长沙,改名长沙工学院。1978年6月,中央军委批准长沙工学院重新回到军队序列,改建国防科学技术大学。在这动荡的8年中,他们克服许多困难,在高速晶体管一晶体管逻辑(transistor-transistor logic,TTL)小规模集成电路、插件式存储器、图形显示设备等领域取得突破性进展,研制成功代号为“151”的百万次大型计算机,该机在1980年5月我国首次成功发射洲际导弹中发挥了重要作用,进而确立了国防科大计算机团队在中国计算机技术领域的重要地位。

“银河”亿次巨型机的研制

1976年,美国第一台超级计算机Cray-1实现了1亿次/秒的运算速度,标志着巨型计算机时代的来临。Cray-1主要用于美国国防部、航天局、能源部及国家安全局等与军事密切相关的核心部门。之后,法国、英国、联邦德国、日本等国奋起直追,相继研制出巨型计算机。

早在1967年9月,聂荣臻就提议研制更高水平的计算机,以满足发展尖端武器、增强国防实力的迫切需要。1972年10月,国防科工委向中央专委建议将巨型计算机的研制列入国家重点工程项目。1974年初,中国科学院、第四机械工业部(简称四机部)和国防科工委三部门联合向国务院、中央军委、中央专委提出,组织全国力量开展巨型计算机的研制。1975年10月,国防科工委主任张爱萍(1910-2003)责成慈云桂负责组织国内计算机专家调查小组,就巨型机需求、国内元器件、外设生产状况和性价比等情况进行全国调研,因受“文革”影响,工程虽经筹划,未能实施。

1977年5月,慈云桂组织长沙工学院再次进行全国性调研,完成亿次巨型机的调研报告。11月14日,国防科工委向中央呈报《关于研制巨型电子计算机事》的请示报告。随后,张爱萍亲自邀请国内专家进行方案论证,中科院计算所、四机部等单位亦争相立项。1978年1月29日,国防科工委再次向中央呈交了《关于安排研制亿次计算机情况报告》,着重强调长沙工学院计算机团队的立项优势。3月4日,邓小平(1904-1997)决定把中国第一台巨型计算机的研制任务交给长沙工学院,慈云桂担任总设计师。5月,国防科工委组织召开论证会,“785”工程任务正式启动。

“785”工程在立项之初,就确立了“跟踪国外最先进技术,引进国内一时无力生产而国外又能买到的元器件和设备,用自己的智慧和技术设计研制做出中国的巨型机”的指导思想。在“自力更生与适当引进国外先进技术相结合、走发展具有中国特色的巨型计算机新路”的方针指导下,“785”工程团队吸收了Cray-1的先进思想,巨型计算机选取了底板走线最短、最有利于信号高速传输的圆柱形。研究人员在体系结构、逻辑、元器件、组装等方面,以中国国情为基础有所创新;在硬件设计上,采用双向量阵列部件方案,并按照慈云桂、杨晓东等人提出的素数模存储体交叉访问的设想,解决了总体设计难题;在软件方面,开创了并行算法,并行化程序设计,并行操作系统,大型诊断系统和向量化、优化的FORTRAN编译系统,在国内首次采用软件工程化的方法完成了结构化的程序设计任务;在工程组织和管理方面,建立“垂直”的工程指挥系统,从国防科工委、国防科大到计算机系兼研究所、研究室、小组集中统一,纵向管理。“785”工程在全国范围内,大力协同高校、研究所、工厂等一系列相关部门,联合攻关。经过五年多的艰苦奋斗,终于在1983年12月研制出中国第一台亿次巨型计算机,并顺利通过国家鉴定,张爱萍亲自为其题名“银河”。

“银河”亿次巨型机成为当时中国运算速度最快、存储容量最大、功能最强的计算机系统,其主要技术指标“具有国内先进水平,某些方面达到了国际先进水平”,打破美国对中国长期的技术封锁。中国成为继美、日、法、英、德之后能够独立设计、制造巨型机的国家。此后,国防科大相继推出银河系列巨型机和仿真计算机,“成为我国战略武器研制、航天航空飞行器设计、国民经济的预测和决策、能源开发、天气预报、图像处理、情报分析,以及各种科学研究的强大的计算工具”。

伴随着从哈军工到国防科大的历史变迁,一支勇于拼搏、献身国防的工程创新团队建立起来。多年来,丰富的工程实践经验培养出一大批复合型创新人才,形成“胸怀祖国、团结协作,志在高峰,奋勇拼搏”的银河精神,为中国发展高性能计算机奠定了坚实基础。

“天河”高性能计算机的成就及意义

高性能计算机在科技、经济、军事等领域的作用日益显现,并得到广泛应用,它已成为国际竞争的战略目标,在一定程度上代表了国家的综合实力。

高性能计算机的超强计算处理能力有力地推动了科技的发展。在航空航天技术领域,它能够协助专业技术人员完成大规模计算和飞行器设计模拟工作;在石油勘探领域,它能增强物探数据处理能力和信息管理能力,提高勘探工作的速度和精确度;在生物医药领域,它可结合药物实验进行计算模拟,降低药物研发成本,拓宽疾病救治途径。不仅如此,高性能计算机还具有超强数据存储能力,可全面系统地搜集、处理地球、海洋、大气等环境的大数据,便于人类更好地认识、了解、改善自己的生存空间。

高性能计算机已成为推动新军事变革的加速器。早在2007年,美国国防部就提出为期八年的“高性能计算现代化计划”,并投入20亿美元用于研制高性能计算机,目的就是提高武器装备、流体力学、空气动力学以及空间和海洋环境特性的建模与仿真技术。此外,在获取情报和分析情报的过程中,高性能计算机利用数据流程建模,能够在浩如烟海的信息流中快速准确地找到破解密钥;在战争设计及推演方面,超级计算机亦能够综合统筹概率论、博弈论、统计学和运筹学等科学方法,迅速处理和分析相关参数,模拟和推演出作战过程并预测出战争结局,形成最优作战方案。

正是由于高性能计算机在国家发展战略中的重要地位及意义,发达国家将其列为涉及国家核心利益的高科技产品,实行技术禁运。因此,中国的高性能计算机必须走自主创新的发展道路。2006年,国家科技部将高性能计算机作为国家发展战略予以实施,“天河”高性能计算机工程正是在这一背景下应运而生的。

在“天河一号”高性能计算机系统取得的众多突破性成就中,最引人注目的是异构融合体系结构技术。由于一颗中央处理器(central processing unit,CPU)的峰值计算处理能力是确定的,构建一个具有超强计算处理能力的超级计算机系统,通常需要使用众多CPU,待建计算机系统总的计算处理能力就等于单颗CPU的计算处理能力乘以CPU的总数。然而,CPU的数量越多,意味着该系统的硬件规模越大,故障概率也就越高。当CPU的总数超过一定数目时,这个计算机系统将会无法使用或无法实现。运行速度达千万亿次/秒以上的高性能计算机系统在设计时就会面临着这样一个严峻问题。

以杨学军(1963-)院士为首的国防科大“天河”丁程团队,以实现运算速度每秒千万亿次以上的高性能计算机系统为目标,创造性地提出将图形处理器(graphics processing unit,GPU)与CPU合理组合,构成异构融合体系结构,并通过软件为GPU和CPU分配相适应的计算处理任务。原本为加速图形处理而设计的GPU,虽然不像CPU那样用于处理各种复杂计算任务,但对某类特殊的算法却具有比CPU高出数十倍甚至上百倍的处理能力。2007年,“GPU+CPU”体系结构设计思想在计算机体系结构国际会议(International Symposium on Computer Architecture,ISCA)上发表,在学术界引起很大反响。然而,要将新的思想成功应用于实践,则需要付出异常艰辛的努力。2009年3月,当异构融合体系结构首次运行使用时,GPU的实测性能仅为其理论峰值的20%左右。“天河”工程团队为解决此技术难题奋战4个月,终于找到优化GPU计算程序这一突破口,GPU计算效能最终达到其理论峰值的70%以上,实现了设计要求。

“天河一号”高性能计算机的创新,还体现在系统内部的高速互联网络设计。在同行看来,为“天河”系统设计研制高速互联网络既耗费精力又难以成功,利用市售的国外商用网络就可以简单地实现系统内各结点的高速互联。但是,“天河”工程团队认为,唯有创新才能形成自主、自控之优势。他们自主设计的高阶路由芯片和高速网络接口芯片令“天河一号”的接口带宽高于同期市售国外高速互联产品。

2013年6月,国防科大完成的“天河二号”一期T程采用比“天河一号”更高性能的CPU和GPU,并设计研制出更高性能的高速互联网络。“天河二号”一期工程实测速度达到每秒3.383亿亿次,比美国计算处理速度最快的高性能计算机“泰坦”(每秒1.759亿亿次)快了将近一倍。

然而,“天河二号”一期工程是以美国英特尔公司的处理器芯片为主,自主研制的处理器芯片为辅。2015年4月,美国商务部宣布禁止英特尔公司向中国出售高端处理器芯片,并将国家超级计算长沙中心、广州中心、天津中心和国防科大列入出口管制黑名单。美国的“芯片禁售令”,促使中国加快自主研制的步伐。“天河”工程团队正围绕“天河二号”系统升级和新一代超级计算机研制进行攻关,有望推出基于自主众核加速器的“天河二号”升级系统,运算速度将提升1倍,达到每秒10亿亿次,实现全部元器件国产化。由此可见,自主创新与科技强国是中国赶超并保持高性能计算机处于国际领先水平的必要前提。

国之重器,待千锤百炼。“天河”高性能计算机集几代人的艰辛努力和奋勇拼搏,终于攀上国际高性能计算机之首。但是,我们必须清醒地认识到,未来中国高性能计算机的发展任重道远,只有确立创新驱动发展战略,建立自主创新机制,提高核心技术的自主创新能力,拓展、深化应用领域,方能在愈加激烈的国际竞争中立于不败之地。

猜你喜欢
天河超级计算机高性能
超级计算机
湖南省潇水涔天河水库扩建工程通过竣工验收
超级计算机及其在航空航天领域中的应用
一条天河走运来
美国制造出全球最快超级计算机
每秒100亿亿次 中国超级计算机
天河CBD:集聚创新,遇见城市未来
一款高性能BGO探测器的研发
高性能砼在桥梁中的应用
SATA推出全新高性能喷枪SATAjet 5000 B