◎实习记者郭付强
在2010超级计算国际会议上,中国国防科学技术大学研制的“天河一号”二期系统,以峰值速度4700万亿次、持续速度2566万亿次每秒浮点运算的优异性能,在国际TOP500组织正式发布的第36届世界超级计算机500强排行榜上,位居世界第一。中国,这个有着“算盘王国”之称的国度,因为“天河一号”神奇的运算速度,首次站到了国际超级计算机世界之巅。消息传来,“天河一号”的总设计师杨学军抑制不住内心的喜悦,即兴题诗一首:“梦幻天河弹指间,电闪巡地十亿年。滨海坐拥飞流急,倚天妙算出奇篇!”
1983年11月,中国首台“银河-I”亿次巨型计算机在国防科技大学研制成功,实现了中国巨型机“零”的突破。这促使杨学军报考国防科大的研究生,从事中国高性能计算机的研制。杨学军在国防科技大学先后获得硕士、博士学位。他写的一篇关于向量巨型机编译技术的研究生毕业论文,曾获得“银河-I”总设计师慈云桂教授的青睐。毕业留校后,杨学军很快成为一名出类拔萃的技术骨干。在“银河-Ⅱ”十亿次巨型计算机研制时,他作为一名技术人员参与了研制工作,并得到总设计师周兴铭的亲自指点。
1992年“银河-Ⅱ”研制成功,不久,“银河-Ⅲ”立项上马。学校宣布任命杨学军为“银河-Ⅲ”高性能计算机的总设计师。那一年,杨学军才31岁!总设计师是高性能计算机研制中的“灵魂”人物,学校却将“银河-Ⅲ”百亿次巨型计算机总设计师的担子交给这位31岁的年轻博士。虽然在杨学军的身后有周兴铭、卢锡城等他所敬重的专家教授,有一批支持他的学长、同事,还有在研制“银河-I”、“银河-Ⅱ”的技术积累和工程经验,但对于这个决定,杨学军仍感到十分意外。
当时,“银河-Ⅲ”面临两个挑战:一是科研队伍正值换代期;二是技术难度大。令人欣喜的是,杨学军没有辜负领导和导师们的期望,出色地完成了作为总设计师应该完成的任务。1997年,中国第一台“银河-Ⅲ”百亿次巨型计算机研制成功,这是“银河”系列第一台实现全局共享分布存储结构的计算机,也是“银河”系列研制周期最短的一台机器,从而实现了中国巨型计算机研制路线从向量计算到并行计算的转变,峰值速度实现了从每秒十亿次到每秒百亿次的突破,极大地缩短了中国巨型机研制与发达国家的差距。随着“银河-Ⅲ”百亿次巨型计算机研制成功,杨学军也成为中国高性能计算机研制的领军人物。
创新没有止境。“银河-Ⅲ”百亿次巨型计算机研制成功后,杨学军率领团队不断开拓创新,一步步将中国高性能计算机研制技术推向了国际前沿,有多项技术创新处于国际领先水平。
2005年,着眼突破千万亿次超级计算机关键技术,杨学军将国际上公认的主要技术难题作为创新的突破口,在团队中成立多个课题组,组织精干的技术力量,针对高性能计算发展的前沿技术、关键技术和新兴交叉技术等方面开展基础研究和前沿探索,相继突破了大规模可扩展共享存储体系结构等一系列技术难题,掌握了一批拥有自主知识产权的关键技术,从而为研制更高性能的超级计算机奠定技术基础。
2006年,在国际超级计算机速度还未实现千万亿次,国产超级计算机才刚刚突破10万亿次之时,他们勇敢地站在了突破千万亿次超级计算机系统起跑线上。
2007年11月,美国IBM公司“走鹃”问世,峰值计算速度达到每秒1456万亿次,而此时,杨学军率领团队也完成了千万亿次超级计算机系统的相关技术攻关。
当中国将发展千万亿次超级计算机系统列入《国家中长期科学和技术发展规划纲要》,杨学军团队凭借充分的技术储备和可行的研制方案,顺利获得国家“863”计划重点课题和国家自然科学基金委创新群体项目的支持,研制工作再次提速。
在研制攻关过程中,杨学军与团队创造性地提出了多阵列、可配置、协同并行体系结构,将全系统分为计算阵列、加速阵列、服务阵列,通过实现“CPU(通用微处理器)+GPU(图形加速处理器)”的异构协同计算,最大限度提高计算效能、降低能耗、减少费用、加快进度。他带领科研人员在经过了8万多次实验后,终于发现了GPU的内在规律,采用混合语言编程技术,通过融合多种计算资源并对其灵活配置,深入挖掘GPU的并行计算潜力,最终实现了高效异构协同运算,使GPU的计算效率由20%逐步提升到70%,创造了一个世界奇迹。
与此同时,其他课题组在杨学军的带领下相继突破了高速率可扩展互连通信、高效异构协同计算、基于隔离的安全控制、虚拟化的网络计算支撑、多层次的大规模系统容错、系统能耗综合控制等一系列关键技术。2009年10月29日,中国首台千万亿次超级计算机系统在国防科大横空出世,使中国成为继美国之后世界上第二个能够自主研制千万亿次超级计算机系统的国家。
经过一年的连续奋战,杨学军率领团队突破了多核多线程系统架构技术,自主研制了64位8核“飞腾—1000”通用CPU,解决了超级计算机CPU间高速高效互联通信等世界级技术难题,使“天河一号”的峰值速度提高了2.89倍,持续速度更是提高了3.55倍,最终荣膺世界第一。如今,安装在国家超级计算天津中心“天河一号”,先后为70多个单位提供了超级计算服务。
2007年盛夏,大洋彼岸的美国圣地亚哥。第34届“国际计算机体系结构年会”在此召开,“天河一号”总设计师、国防科技大学杨学军的《64位流处理器体系结构研究》论文,引起与会专家学者的高度关注。
因为该领域的专家学者从这篇论文中,看到了突破更高性能计算机的希望——采用“异构协同计算技术”来设计千万亿次超级计算机系统。
在此半年前,杨学军发表的《容错并行算法:基于并行复算的故障恢复》论文,被第16届国际并行体系结构和编译技术大会录用。这也是自1993年以来该会议首次录用由中国大陆科研单位独立完成的学术成果论文。
多年来,杨学军在敏锐捕捉国际高性能计算研究契机的基础上,组织吴俊杰所在的博士生基础研究课题组大胆尝试了“统一目标、集体攻关”的组织方式。围绕大目标进行任务分工,集思广益、共同攻关,这使得原始创新思路在理论体系建立、形式化证明、实验验证等各个环节都能做得很充分。在成果逐步成熟的时候,课题组成员又分工负责共同撰写高水平学术论文,参加国际高水平学术会议。
2011年,杨学军获得何梁何利科学技术成就奖,并当选为中国科学院院士。如今,已担任国防科学技术大学校长的杨学军,在谋划学校全面建设发展的同时,率领团队为中国高性能计算机技术的发展奋力攻关。据悉,目前国防科大已部署开展万万亿次超级计算机系统的关键技术研究,杨学军率领的团队正向着新的世界科技高峰攀登。