决战崛起

2022-05-30 10:48龚盛辉
传奇·传记文学选刊 2022年8期

龚盛辉

编者按:

超级计算,是现代科技发展领域中支撑起现代科技大厦的一根重要支柱,是国家科技竞争力的重要标志。从国家安全战略领域到人们日常生活,都离不开超算技术的支撑。超级计算机,是名副其实的“国之重器”。本刊从国防科技大学出版社出版的《决战崛起——中国超算强国之路》一书中节选了部分章节,展现中国超算早期艰难的崛起之路,以此向中国超算全体科研人员致敬。

国之重器

随着高性能计算在各学科领域的“播种发芽”,在生活各领域“开花结果”,人类正日益感受到超算所带来的方方面面的福慧:

比如食品。科学家们正运用超级计算机进行以水稻、玉米、生猪等为主要对象的基因工程研究。以生猪为例,由于它在基因方面可能存在某些缺陷,导致生长缓慢,且肥肉多瘦肉少,容易生病,于是一些不良养殖户便使用瘦肉精等禁用品来提高生猪质量,结果危害人类身体健康。运用超级计算机就可找到生猪基因缺陷所在,并进行有效弥补,让生猪长得既快又健康,从而造福人类。

比如看病。众所周知,危害人类健康的新病毒诡异多变、层出不穷。如果把新病毒比作靶标,那么研制药物的过程就是不断打靶,药物工作者需要不断做实验来寻找对抗病毒的药物分子,这个过程犹如大海捞针,快则三五年,慢则上十年。而应用超级计算机就能够在极短时间内完成数十万个配对,加速“打靶”流程,快的仅用数月便可找到有效药物。还有那些肿瘤病人,假若需要进行化疗、放疗,必须首先检测出癌症的基因。过去这个检测过程需要一两个月,而今天运用超级机,只需几分钟便可得到结果。两个月,对于一个重症患者意味着什么?

比如出行。出行看天气,这几乎是每个人的生活习惯。天气预报准不准、快不快、提前时间长不长,取决于观测资料多不多、计算能力强不强。超级计算机可有效破解这两个瓶颈,它可以在一天内完成过去几年甚至几十年完成的计算工作。不仅如此,超级计算机还可以预测地震、海啸等自然灾害。

比如娱乐。人们在影院观看《阿凡达》时,无不为其惊艳的动漫效果大喊“酷极”、大叫“过瘾”,而它的动漫渲染正是依靠超级计算机完成的。国产电影《关云长》、新版电视剧《西游记》、美国电影《生化危机2》等多部电影的动漫效果,都是“天河”超级计算机的杰作。

……

高性能计算,现已走进各行各业、千家万户。人们的衣、食、住、行、乐,无时无刻不在分享着超级计算机算出的“红利”。

超级计算,乃当今时代“国之重器”。

霸王硬上弓

慈云桂对国际计算机发展趋势依然洞若观火。他在1972年提出了“中国要搞巨型机”的设想,并为此四处奔走。

1975年夏天,慈云桂对巨型机研制有了新想法,一旦实现,能大幅提高计算机性能。于是,他便向张爱萍作了汇报。这年10月,张爱萍指示组织国内知名计算机专家,成立由慈云桂任组长的专题调研组,前往全国各地调研巨型机需求、国内电子元器件及外部设备的生产水平等情况。

慈云桂刚拿到每秒亿次巨型机研制任务,我国便吹响了向科学技术大进军的号角。

石油部门某地质勘探所所长央求他:慈教授呀,您快点把巨型机搞出来吧。由于没有巨型机,我国每年都要把勘探出来的石油矿藏数据资料,用飞机送到美国去做三维处理,把国家机密拱手送给别人,还耗资巨大,是名副其实的“赔了夫人又折兵”。

说完这些,这位所长把慈云桂一行带进一间大厅,指着立在大厅中央的一间装潢考究的房子说:“这是我们研究所的机房。”

慈云桂问道:“直接把机器安装在大厅不就挺好吗,建这么个机房岂不是画蛇添足?”

所长苦着脸说:“画蛇添足也得添呀,这是外国人的要求。”

慈云桂:“这是一台进口机器?从哪引进的?多少万次级的?”

所长:“这是我们三年前从美国引进的每秒400万次计算机。”

慈云桂:“三年前‘克雷–1亿次机已经出来了,为何不引进一台亿次机?”

所长叫苦不迭:“慈教授,您快别说了。刚开始我们也想引进‘克雷–1,可人家不干呀。我们费尽口舌,人家才同意卖给我们这台每秒400万次的机子,还提了一大堆条件。”

慈云桂:“什么条件?”

所长掰着手指说:“一、为机器修建一间专门的机房;二、机器的使用、维修人员,均由美国公司派遣;三、中方人员到机房计算各种数据时,在机房门外把数据交给美方人员,中方人员一律不许进入机房。”

这些条件,无异于对你说,我要窃取你的机密,你还得感谢我、还得给我钱,而我的机器你想看一眼门都没有。这条件够苛刻、够霸道吧。但你却不得不答应,因为你急着用,而自己又没有。

一股滚烫的血流咕嘟嘟一下子涌上慈云桂头顶。

但冷静地想一想,他又觉得不能全怪人家。谁让人家抢占了制高点呢,人家站在高处,自然要俯视世界。谁让你要买别人的好东西呢,有求于人自然就矮人一截,要被人俯视。要想赢得别人平视的目光,你就必须站在和他们同样的高度上!

在第二次巨型机研制论证会上,慈云桂掷地有声地说:“今年我刚好60岁,就是豁出这条老命,也一定要把我国的巨型机搞出来!”

从北京返回学校后,慈云桂带领大家紧锣密鼓地展开筹备工作。

当时,国内元器件质量差,工艺水平极端落后,给每秒亿次巨型机研制带来了严峻挑战。

慈云桂还是那句话:“向精密管理、严格把关要质量!”

“六年时间,一天不拖!”六年,這是世界发达国家更新一代计算机的时间。但当时无论经费支撑、技术储备,还是工业基础、研制条件,我们都与发达国家相去甚远。这就像一场马拉松赛,别人在平坦的柏油路上奔跑,我们却在泥泞地里跋涉,要想和别人同时到达终点,困难可想而知。

但对此,慈云桂却充满信心:“这个我们已经习惯了,解决这个问题我们有的是老套路。”

他们的“老套路”,就是别人跑累了坐在路旁喘口气时,他们继续往前冲;别人跑着跑着走进小亭喝口咖啡时,他们继续向前奔……只要心脏还在跳动,他们就不会停下冲刺的脚步!

用他们自己的话说:“为了赶任务,我们尽可能延长工作时间、尽可能缩短休息时间。不仅没有节假日、星期天,而且每天天不亮起床、深夜才下班回家,把一天当两天用,恨不能让时间慢些走。天黑了盼望快些天亮,天亮了盼望慢些天黑、最好不要天黑。”

尽管这样,到1980年夏天,软件系统研制进度依然落后了。这时正值炎炎酷暑,又没有空调,大家光着膀子编写程序依然热得坐立不安。加之大家正值壮年,上有老下有小,难免有家事需要处理。眼看就要拖亿次机的后腿,大家急得像热锅上的蚂蚁。

情急之下,大家在“老套路”基础上,想出了個“新招”——“封闭式突击”。他们向湖南省委、省军区求援,租下了毛泽东在韶山的原驻地滴水洞二、三号楼,把所有软件设计人员拉进去,“两耳不闻洞外事,一心只管编程序”。

两个月足不出洞,甚至足不出屋,未曾欣赏洞中的蔽日绿荫、青山碧水、鸟语花香。撤出滴水洞时,他们把工作一汇总,发现两个月完成的工作量竟比过去半年还多!

银河大捷

当1982年第一缕春风吹向神州大地时,每秒亿次巨型机研制传来喜讯:主机硬件调试完毕。国防科委主任、中央军委副秘书长张爱萍闻讯,欣然为中国第一台巨型机命名“银河–Ⅰ”。

“银河–Ⅰ”研制步入最后攻坚阶段。

1983年5月,“银河–Ⅰ”开始内部试算。广大用户闻知,纷纷从全国各地赶到国防科技大学,一睹中国首台巨型机的风采,并试试它的能耐。一时间,计算机研究所门前车水马龙、川流不息,学校招待所人满为患。

石油部物探局研究员赵振文,将地震数据处理程序输入“银河–Ⅰ”。不久,随着一阵悦耳的吱吱声,打印机吐出一张张清晰的地质剖面图。赵振文拿着那些剖面图,激动地说:“这是中国历史上第一张用自己的机器处理和打印的地质剖面图啊!”

我国著名空气动力学家、教育家罗时钧正在研究的高跨音速气流问题,机理十分复杂,是尚未解决的世界难题。他让学生使用“银河–Ⅰ”进行计算机模拟,其结果与美国公布的模拟数据一模一样。

二机部研究员王振宇,在“银河–Ⅰ”上试算了几个月、多道题目。经过仔细跟踪与分析,终于得出结论:“多道程序的操作系统过关了!在中国,自行研制的操作系统,真正过关的,唯有国防科大!”

……

1983年11月,国家组织对“银河–Ⅰ”做最后鉴定。方毅、王首道、何长工等党和国家领导人及“两弹元勋”邓稼先等科学家来到鉴定现场,见证8个技术鉴定小组分别对“银河–Ⅰ”性能进行全面、细致、严格的考核。

按规定,允许主机24小时出一次故障,但“银河–Ⅰ”整机连续运行12天、主机连续运转289小时,毫无故障!

有一道科学计算题,用每秒30万次的计算机运算一个参数需要70个小时。但输入“银河–Ⅰ”后,主机运行不到10分钟便得出了第一个参数。

考机专家既惊讶又疑惑:“是没算完,还是算错了?”

打印数据出来了:完全正确!

考机专家佩服地竖起了大拇指:“‘银河–Ⅰ真是神算呀。”

类似这样的考题,“银河–Ⅰ”先后完成了26道,而且每道分别演算了三遍,结果都相同,精度全部符合要求!

国家鉴定委员会主任在鉴定书上写道:“银河计算机是我国自行研制的第一台每秒亿次电子计算机系统,系统稳定可靠,软件较齐全,其主要技术指标均达到和超过鉴定大纲要求,具有国内先进水平,某些方面达到了国际水平,它的研制成功,填补了国内空白!”

“银河–Ⅰ”研制成功的报告,很快送到张爱萍手中。他看了一遍又一遍,欣喜自语道:“巨型机呀,巨型机,从1973年我就开始想你、盼你,整整10年啊,今天终于把你盼到了,真不容易呢。”心潮澎湃的张爱萍还当即赋诗一首。

鉴定结束当天晚上,国防科大举行了一个简朴的庆祝酒会,招待前来见证“银河–Ⅰ”诞生的党和国家领导人、科学家及“银河–Ⅰ”全体研制人员。

那晚,从不沾酒的慈云桂,也破例喝了两杯。

矗立的丰碑

“银河–Ⅰ”战役告捷,慈云桂当选中国科学院学部委员,并调任国防科工委科学技术委员会顾问。

1990年,他与荷兰阿姆斯特丹大学赫兹伯格教授合作,为荷兰未来计算机系统PSOF杂志主编了一期专刊,收录了中国作者的13篇论文。他还应邀作为美国第二届人工智能工具国际会议的程序委员会委员,组织和评审中国学者的论文,有力促进了国内外计算机学术交流,提高了中国在国际上的学术声誉。

那天,慈云桂参加计算机学术研讨会很晚才回家。晚饭后,夫人琚书琴说:“我陪你到外边走走吧。”

慈云桂说:“不久要在美国召开国际智能计算机学术会,提交论文的最后日期很快就要到了,我国那几篇投稿,今晚我要再改一遍,争取明天发出去。”

那晚近8点,伏案修改论文的慈云桂,脑袋突然向前一伏,就再也没有抬起来。7天后,这位中国计算机科学巨星陨落了,终年73岁。

与慈老告别那天,党和国家领导人送来花圈,宋健、钱学森前来送行。八宝山革命公墓大厅门前,悬挂着一副醒目的挽联:

忆大直街楼对东西“441B”“小磁芯”共放异彩今导师长眠天失泰斗地失栋梁人失良师;

念哈京湘地分南北“银河系列”容错机同壮山河现人哲其萎世逝名贤国失英杰校失益友。

倘若为慈云桂教授立一块墓碑,上面该写什么样的墓志铭呢?

其实什么也不用写,他本身就是一块永远耸立在人民心中、永远令人仰望的丰碑。

“巴统”与“一冲二卡”

“银河–Ⅰ”研制成功的消息在世界媒体公布后,一位美国计算机学者摸着他那两撇漂亮的八字胡说:“听说中国研制出了巨型机,其性能与我们的‘克雷–1不相上下,真是笑话。我们把‘克雷–1全部元器件交给中国人,他们能把它组装起来,也是头号新闻。”

不久,美国NCAR(美国国家大气研究中心)代表来到中国,与我国气象局开展技术交流。交流活动结束后,国家气象局安排美国代表乘坐飞机前往桂林参观。可美国代表却要求坐火车,请求途经长沙时,下车休息一天参观“银河–Ⅰ”。来到银河机房后,美国代表又提出上机试算的愿望。

对于美国代表的这一举动,大家有三种猜测:一是开眼界、看热闹;二是剽窃技术;三是怀疑“银河–Ⅰ”的真实性能,想眼见为实。对于第一、第二种猜测,美国技术比我们先进、热闹地方比我们多,他们没这个必要,因此还是第三种猜测可能性大,却也无从考证。

但不争的事实是,西方国家突然宣布向中国出口过去对中国捂得紧紧的、漫天要价的每秒亿次级巨型机,而且价格十分低廉,降价幅度达50%以上,远远低于“银河–Ⅰ”造价。其意图可谓“司马昭之心——路人皆知”:抢占中国巨型机市场,把刚刚问世、嗷嗷待哺的“银河–Ⅰ”扼杀在摇篮中。当时正值改革开放之初、百废待兴之时和经济困难之际,国内急需巨型机的用户都把经济因素作为决策的重要筹码,纷纷从国外进口,致使“银河–Ⅰ”只生产出售了3台,就再无人问津。

而与此同时,西方国家继续严格控制向中国出口性能更高的巨型机。当时,国家气象局为实现中长期天气预报,想从美国进口一台每秒10亿次巨型机,对方不仅提出比出口欧洲高出近10倍的价格,而且提出“黑屋子”、禁止中国人进入等霸王条款。

中方谈判代表气愤地质问:“我们带着诚意而来,你们不但毫无诚意,而且百般刁难,这是为什么?”

美方谈判代表摊了摊手,作一脸无辜状:“我们也没办法,不这样,上帝会惩罚我们的。”

他们所说的“上帝”,就是Coordinating Committee for Multilateral Export Controls(简称“巴统”)。1948年由美国发起,联合英国、法国、联邦德国(西德)、意大利、丹麦、挪威、荷兰、比利时、卢森堡、葡萄牙、西班牙、加拿大、希腊、土耳其、日本、澳大利亚等国于1949年成立,总部设在巴黎的这一组织机构,其宗旨是执行对社会主义国家的禁运政策。其禁运物资包括军事武器装备、尖端技术产品和战略产品。

“巴统”成立第二年,便把中国列入了禁运范围,而且其禁运品比头号社会主义国家苏联和东欧国家还多了500多种。其中事关国家安全、社会发展大计的巨型机,更是“巴统”组织禁运的首选产品。

“巴统”组织内的任一国家,若违反了禁运政策,其他各国将共同采取措施,对其进行严厉惩罚。结果,国家气象局向美国进口巨型机谈判旷日持久,历经数年未果。

这就是西方国家阻击发展中国家高科技发展的一贯伎俩:“一卡二冲”——你没有时,我卡你脖子,不卖给你;等你有了,我就低价倾销,把你挤出市场,使你失去生存的土壤。

让外国人刮目相看

CAD开发、工艺准备,为“银河–Ⅱ”正式上马铺路。

为迅速推进“银河–Ⅱ”研制工程,确保机器技术过硬,国防科工委在总结“银河–Ⅰ”研制经验基础上,对“银河–Ⅱ”工程创造性地提出了“行政指揮线”和“技术指挥线”两条线管理办法。

队伍已集结,号角已吹响。银河人躬下身子,向着巨型机新的技术高峰全面出击。

为了解世界计算机技术发展动态,总设计师周兴铭带队前往外国一家计算机公司考察。公司管理人员出于外交礼仪,非常客气地接待了他们,一会儿领着他们参观漂亮的厂房,一会儿又把他们领进先进的生产车间,甚至不厌其烦地向他们介绍计算机原理。可当周兴铭提出参观某些关键部位、提出某些关键技术问题时,他们不是借故岔开,就是保持沉默。

考察生产线时,周兴铭对一枚小小的针阀产生了浓厚的兴趣,便向对方操作人员说:“能给个样品作纪念吗?”

对方竟一口回绝:“No!”

科学的指挥、严密的组织,确保了“银河–Ⅱ”会战攻坚克难、所向披靡。

应用软件开发,是巨型机连接用户的桥梁,亦是“银河–Ⅱ”研制工程又一“重头戏”。总师组把这场大戏的“主角”交给了李晓梅。

别看李晓梅身材瘦小、说话轻声慢语,可她在科研中那股子韧劲、闯劲,丝毫不让须眉。1974年8月,她撇下年近花甲的孤身老母,带着不满6岁的儿子走进了茫茫戈壁,肩负起某软件项目攻关任务。1981年,在“银河–Ⅰ”研制急需软件人才之际,她毅然将很快就要迎来收获的在研项目交给同事,加入了“银河人”行列,挑起了巨型机第一个大型科学计算的测试题——二维张量程序计算和组织每秒亿次巨型机测试题重任,仅用一年时间便完成了全部设计。

中期数值天气预报系统,是“银河–Ⅱ”首要应用课题。宋君强被任命为课题组组长。

宋君强和课题组要完成这一任务,面临两大挑战:一是“银河–Ⅰ”是向量计算机,而“银河–Ⅱ”是并行机,在算法上必须实现由向量计算向并行计算的跨越;二是气象科学对于他们来说完全是个陌生领地,他们必须让自己成为“气象专家”。

1989年12月,“银河–Ⅱ”硬件设计基本结束,2CPU、小主存、单I/O处理机小系统投产。

“银河–Ⅱ”工程进入最后攻坚阶段!

1992年11月18日,国防科工委组织有关专家对“银河–Ⅱ”进行技术鉴定。鉴定委员会一致认为:

“银河–Ⅱ”是我国自行研制的第一台面向大型科学计算、工程计算和大规模数据处理的通用每秒10亿次并行计算机,系统稳定可靠,各项技术指标均达到或超过任务书要求,其综合处理能力10倍于“银河–Ⅰ”,总体达到80年代中后期国际先进水平,是我国科技战线的又一重大成果。

“银河–Ⅱ”的研制成功,缩小了我国与国际先进水平的差距,又一次打破了国外在巨型机技术领域对我国的严密封锁,是我国综合国力的重要体现,使我国成为继美国、日本之后第三个掌握了每秒10亿次巨型机研制技术的国家!

1994年6月,长江流域发生特大洪灾,武汉三镇被洪魔团团围困。如果暴雨天气持续下去,就只有炸开武汉上游的江堤分洪,以确保工业重镇武汉的安全。这需要转移疏散数十万人,淹没大量农田房屋,会造成至少数十亿元损失。在这紧急关头,国家气象中心根据“银河–Ⅱ”提供的中期数值预报结果,作出了武汉上游暴雨天气即将结束的准确预报。国务院据此作出不炸堤分洪的决策,避免了国家经济损失惨重、人民流离失所的严重后果。

1994年9月,南太平洋形成的第17号台风,在浙江温州一带登陆。由于“银河–Ⅱ”提前准确预报了这次台风的准确强度和具体登陆地点,浙江省有关部门紧急组织加固建筑,转移物资,疏散群众,把台风带来的损失降到了最低。

1996年湖南洞庭湖区抗洪抢险、1998年长江流域抗洪抢险,“银河–Ⅱ”又建殊功。

……

支撑奇迹的力量

“银河–Ⅱ”通过鉴定当晚,国防科技大学举行盛大专题晚会《银河之歌》。晚会结束,因“银河–Ⅱ”而欢腾的校园恢复了往日的平静。

已近午夜,“银河–Ⅱ”工程总指挥陈福接背着手、低着头,漫步在校园道上。

微风如夜舞的精灵,轻旋着曼妙的身影,掠过树枝,把金黄的树叶抚得沙沙作响。皎洁的月光铺洒在草簇间、花丛里、路面上,大地一片银光闪烁。

陈福接驻足仰望星光璀璨的银河,想起那些并肩战斗的战友,他们就像头顶上的这一颗颗明星,默默燃烧自己,把夜空照亮。

“银河–Ⅱ”会战这几年,是总设计师周兴铭有生以来工作最繁忙、家庭最艰难的几年。1985年,年逾古稀的岳母突然双腿瘫痪,生活完全靠人照料。1987年,不幸又接二连三地降临到他头上。

那天,周兴铭刚走进实验室,戴上白帽,穿上白大褂,系政委于同兴就跟了进来,把他叫到门外,递给他一份电报,沉重地拍拍他的肩头:“周教授,你不要太悲伤。”

周兴铭接过去低头一看:“妹病危,速回!”他的心里立刻涌起一阵愧疚,妹妹患癌症住进医院已经半年多,而他忙于“银河–Ⅱ”,一次也没有回家看望过小妹。

当天,他买了一张机票飞回上海,一下飞机便直奔医院。可还是晚了,小妹已于一小时前过世。母亲坐在太平间门口,一声声唤着小妹的名字,泪流满面。

被大家尊称为“软老总”的陈火旺,在“银河–Ⅰ”研制期间,与夫人吴明霞同时肩负着软件攻关重任。夫妇俩每天黎明起床后,一个一边捅炉子一边考虑工作安排,一个一边买早点一边思考程序,晚上两人又一起去加班。中间、两头都不着家,连吃饭都狼吞虎咽赶时间,两个孩子由于没人管,纯粹“放野牛”。1980年上半年,大儿子高考在即,班主任找上门来:“你们哪怕抽出一丁点时间辅导一下孩子,他就有希望考上大学。”吴明霞动心了,第二天找来一块小黑板给孩子辅导数学。三天后孩子数学测试就考了100分!这时“银河–Ⅰ”攻关正处于关键时刻,急火攻心的陈火旺大声朝妻子嚷道:“你这是干吗?你的程序编完了吗?”吴明霞分辩道:“我没有影响工作。”那几天她每天都是凌晨三点才睡,几天下来,累得脸色发白。陈火旺说:“可这样下去,你坚持不了多久的,迟早会拖任务的后腿。”吴明霞不得不狠心收起那块小黑板。结果高考时,兒子离录取分数线只差一分。孩子流着眼泪埋怨父母:“就是你们不辅导我,否则我就去上大学了!”

为了提高巨型机设计质量,加快设计速度,李思昆接受了前往日本考察、引进CAD的任务,而当时他的父亲重病在床,妻子也患病急需手术。临行前,李思昆对妻子说:“丁军,我一定尽快赶回来。”他惦念着病中的父亲和妻子,原计划要两个月才能完成的任务,加班加点一个月就完成了。可他前脚刚跨进家门,科工委首长后脚就派人找他去谈话,并给他下了个“死命令”:“你必须马上投入CAD的开发工作,一年之内巨型机研制必须用上CAD技术。”

军令如山,他默默地走出首长的办公室,一头扎进了机房,一直干到深夜才回家。此后,他每天清晨进机房,深夜回家,有时甚至不回家,在沙发上眯一会儿接着干。

由于需要照顾老人孩子,妻子的手术一直拖着没做。这天,她觉得再也撑不下去了,拄着拐杖爬上公共汽车。到医院一查,发现血色素仅4.5克,比健康人少了一半,病情已危及心脏。医生一次就给她输了600毫升血,才同意她离开医院。

李思昆接到电话后,心里很着急,也很内疚,却不能去医院陪妻子。CAD的开发已经制定了周密细致的计划,一年365天,天天都有任务安排。科工委首长天天打电话来问情况,催进度。妻子住院14天,他一直没时间去医院打个照面。第15天傍晚,医院把电话打到他的机房,说他妻子第二天要动手术,让他去签字。他这才离开机房,蹬着自行车往医院奔。

人称“老黄牛”的王久林,是参加过多种型号计算机研制的老专家。在“银河–Ⅱ”进入最紧张的测试时,家人给他发来一封加急电报:“母病危,速归!”他看后愣了一会,把电报揣进了口袋,悄悄给家里寄去几百元钱,让兄弟姐妹买些营养品,代为慰问母亲。不久,家人再次来电:“母病故,速归!”王久林一下子惊呆了。领导得知此事,前来征求他的意见。王久林多想回家送老人最后一程啊。可当时正是考机阶段,要是他负责的系统出现问题,战友们真不知怎么办啊。他考虑再三,最后选择了坚守。直到“银河–Ⅱ”完成考机的那天晚上,他才匆匆赶回家,跪在母亲灵前失声痛哭。

计算机工厂厂长、“拼命三郎”苏长青,为用二流机器设备生产出一流印制电路板,每天都泡在车间里。年迈的身体不敌过度的劳累,前列腺炎严重恶化,导致双肾积水,平均20分钟他就要跑一趟厕所,但他仍坚持不住院治疗。湖南湘雅医院一名著名专家诊断他的病情后,给他下了最后“通牒”:“半个月内,你必须来住院治疗。”并动情地对苏长青说:“你是教授,我也是教授。你对‘银河机负责,我也要对我的病人负责啊。你再不来做手术,我就没法救你了。”研究所党委接到他的病情报告后,做出一个特别决定:苏长青必须立刻住院治疗。他服从组织决定,到湘雅医院做了手术。可术后第三天,身上还插着导尿管,他就把工程师、设计师请到医院汇报生产情况。未等伤口拆线,他就披着大衣溜回工厂,急得医生护士到处找人。

当“银河–Ⅱ”会战正酣时,自动化室工程师徐鸣与大学同学乔立新喜结良缘。新婚之夜,新娘乔立新说:“原计划我们结婚后去旅游,然后到北京探望我父亲,再去广州看望舅舅,但你们‘银河机忙成这样,估计是难以实现了。这一个月婚假,你想让我干些什么呢?”新郎徐鸣反问道:“那你喜欢干什么?”两人相视一笑。次日,这对老同学、新夫妻双双来到机房,夫唱妇随,并肩作战,和战友们一样工作到深夜,才“夫妻双双把家还”。婚假的一个月里,两人天天如此。

在“银河–Ⅱ”研制的关键时刻,应用软件副主任设计师乔国良由于工作劳累患上了肺炎。从此,他那水泥墩子般结实的身体就像抽去了钢筋似的,一天一天往下塌,三天两头感冒,整日昏昏沉沉。尽管这样,他依然硬撑着每天加班工作。就是一年一度回哈尔滨与家人过年,他也没有和家人出去玩过一次。他每天坐在炉子旁看资料,有时睡到半夜还爬起来,把突然想起的问题记下来。这样拼了几年后,开始出现咯血症状,他才去医院做了个CT,结果把他吓坏了:弥散性肺癌,晚期。他住进了北京一家医院。那天,国防科工委科技委副主任聂力来医院看望他。他挣扎着坐起来,含着泪对领导说:“老天不公啊,为什么不让我多活两年,哪怕干完了‘银河–Ⅱ再死,我也能瞑目呀。”首长离开后,他紧紧握着女儿乔齐的手说:“爸爸对不起你了,什么也没给你留下,原谅爸爸吧。”不久,乔国良带着深深的遗憾走了。一周后,女儿打开父亲的办公室,看见了他留下的全部遗产:一件白大褂工作服,一块旧“上海”手表,一大书柜读书笔记。

“银河–Ⅰ”软件研究室副主任蹇贤福,也被查出患了癌症,住进了医院。但即使躺到了病床上,他依然不顾领导和医生的劝阻,要家人把科研资料搬到病房,利用每次服镇痛药后的短暂时间,整理研制巨型机标准子程序的实践经验,完成了五大本教材的编写,直至“银河–Ⅰ”研制成功,他才带着莫大的欣慰离开了亲人和战友。

王育民,“银河–Ⅰ”电路室测试组组长,由于身患高血压,加之紧张的工作,常常感到胸闷心慌。但他没有吭一声,默默地坚持工作,直到走完生命的最后一站。

那一年,王育民41岁。

每一个倒在向计算机高峰冲刺征途上的生命,都年轻得让人心疼。

乔国良,56岁;

钟士熙,49岁;

张树生,40岁;

俞午龙,36岁;

……

银河事业开创者慈云桂在参加张树生同志的追悼会时,含着泪水说:“将来我去见了马克思,在九泉之下,把这些同志集合起来,都可以组建一个地下银河队伍啊。”

这一个个年轻的生命,就像银河中的一颗颗流星,耗尽自己最后一点能量,给夜空留下了一道道耀眼的光弧。

献给归来的香港

21世纪,一个国家的巨型机水平,在某种意义上代表着这个国家的安全水平。高性能计算,已经成为维系国家安全的战略制高点!

20世纪90年代,国际上出现了异步传输模式这一崭新的网络技术。为了保证“银河–Ⅲ”及时与世界先进技术接轨,他们大胆更改设计方案,用两年时间完成了新网络技术设计研制,攻克了一批因特网关键技术,连续跨越了以太网系列技术、分布式光纤数据网技术、异步传输模式网络技术三个大台阶,使“银河–Ⅲ”顺利驶上了世界最通畅的信息高速公路。

1997年6月,在香港即将回到祖国怀抱的喜庆时刻,银河人三年精心培育的“银河–Ⅲ”,也已经长成“美丽姑娘”,准备“出阁”了。

她的身体是否强健,是否达到“出阁”标准?6月6日,国防科工委科技部副部长陈丹淮带领7名专家前来对她进行近乎苛刻的“体检”。

这天晚上8点,领导、专家和研制人员团团围住“银河–Ⅲ”。只见她通电后,开机顺畅,运行平稳,发出均匀的轻鸣,大家脸上不由得露出欣慰的笑意。

这时,机房外忽然狂风呼啸,电闪雷鸣,暴雨倾盆。机房电压抽风似的剧烈波动,忽而拉高到250V,忽而又跌至120V,还出现短暂停电现象。

“银河–Ⅲ”经得住这般折腾吗?国防科工委领导、专家们的心一下揪紧了。

陈丹淮向考机专家征求意见:“这天气,怎么办?要是把机器弄坏了,损失就大了。”

考机专家意见一致:“先停机,等雷雨过后再重新开机。”

陈丹淮来到卢锡城、杨学军跟前说:“这电压太不稳了,大家建议先停机,你们看……”

卢锡城、杨学军也是一脸严峻。作为工程总指挥、总设计师,他们虽然对“银河–Ⅲ”的稳定性了如指掌、深信不疑,但如此恶劣的天气,自测试以来,还是第一次遭遇,“银河–Ⅲ”能否扛得住,他们也有些担心。

但见“银河–Ⅲ”似狂风巨浪下的礁石,不管电流如何剧烈波动,依然稳如泰山,神形自若,卢锡城、杨学军果敢决断:“不停,继续考机!”

10小时过去了……24小时过去了……48小时过去了……105小时过去了……“银河–Ⅲ”依然运行平稳。

最后,考机指挥员下令:“人工停机!”

轮流守候在机器旁的考机专家们深深地被“银河–Ⅲ”折服了:“能抗住这种恶劣天气,并连续平稳运行四五天的机器,其可靠性、稳定性,绝对世界一流!”

可“体检”并未结束。次日,來自全国各地的32位专家又分成三个小组,对“银河–Ⅲ”11项专项技术分别进行测试考核。专家们瞪大了眼睛给她挑刺,可检测了三天,愣没查出什么问题,最后专家们笑眯眯地给“银河–Ⅲ”亮出高分。

对“银河–Ⅲ”的考核还在继续:国防科工委要求机器到第一用户——北京的某研究所进行鉴定。银河人知道,这是领导、专家和用户想看看“银河–Ⅲ”抗震和安装性能如何。

“银河–Ⅲ”搭乘两次特快列车,经过近20个小时长途颠簸,于6月14日傍晚顺利抵达北京。研制人员不顾旅途劳顿,从晚上7点开始拆箱装机,夜里11点15分全部安装完毕,开闸通电,“银河–Ⅲ”运行正常。

前来参观的研究所领导和群众,无不叹为观止:“过去的巨型机,安装需要好几天。可每秒100亿次的‘银河–Ⅲ,短短几小时便可以安装完成,真是太不可思议了。”

6月19日,“银河–Ⅲ”鉴定正式拉开序幕。国防科工委主任丁衡高亲自担任鉴定委员会主任委员,国防科工委副主任张学东、中国科学院副院长胡启恒、中国计算机学会理事长张效详、国防科工委科技委委员汪成为担任鉴定委员会副主任委员。

由38名(其中14名是院士)著名专家组成的国家鉴定委员会,对国防科技大学计算机研究所提供的由128个计算处理节点、8个计算处理备份节点和8个I/O处理节点及相应系统软件组成的“银河–Ⅲ”系统,进行严格测试。

十余个应用单位带来了涉及化学、石油、气象、工程物理、流体力学、结构分析等众多领域的20多道考题。将这些考题输入机器后,来自全国四面八方的用户、专家屏声静气,凝神注视着显示屏,随着机器的轻声轰鸣和一波波荧光闪烁,国家地震局的数据出来了,石油部的数据出来了,航空航天部的数据出来了,国家气象中心的数据出来了,核电实验数据出来了……

20多道考题,计算结果全部正确!

“成功了!成功了!”机房大厅里一片欢呼雀跃。老教授们一个个眼含泪花,年轻人忘情地哼唱着因香港回归再次火爆的《龙的传人》。

在中国,MPP总体技术的突破,就像一声春雷,标志着超级计算机的春天真正来临。

在国防科技大学计算机学院,自从“银河–Ⅲ”突破MPP技术后,银河系列超级计算机关键技术攻坚势如破竹。其他国产超级计算机品牌也异军突起,我国超级计算机事业呈现出欣欣向荣之势。

为加强我国高端并行计算机系统研制,1996年国家成立并行计算机工程技术中心,于1999年推出运算速度达到每秒3840亿次的“神威–Ⅰ”,2007年推出运算速度达到每秒18万亿次的“神威–Ⅱ”,2010年推出我国第一台全部采用国产CPU、运算速度达到每秒1100万亿次的“神威–Ⅲ”。

21世纪初,以商业运作为核心的联想、浪潮等企业,纷纷加盟超级计算机产业,推出了“深腾”系列超级计算机。2002年推出的“深腾1800”系统,实测性能超过每秒万亿次,实际运算速度在国际TOP500强中排名第24位。2003年推出的“深腾6800”,经美国能源部伯克利国家实验室测试,运算速度达到每秒4.183万亿次,国际TOP500排名第14位。2007年推出的“深腾7000”,运算速度为每秒106.5万亿次,以强大的营销攻势迅速渗入教育、政府、海洋等领域……

高性能计算机厂商的另一主力军——浪潮,也成功研制出“天梭”系列超级计算机,并成功应用于气象预报、石油勘探、生物制药等领域。

随着超级计算机技术不断提升,高性能计算应用也水涨船高。2000年前后,上海超级计算中心和中科院超级计算中心先后成立。2001年初,上海高科技开发园建设完成超算中心,并向全社会开放,标志着我国高性能计算开发应用迈入崭新阶段。

中国高性能计算终于初步产业化!

随着21世纪之门向人类徐徐开启,“并行计算时代”开始遭遇“寒流”。这股“寒流”的显著标志,就是单芯片性能提升受制备工艺限制而大大放缓。也就是说,科学家们提高超级计算机系统的整体性能,只能依赖于加大系统规模。这样一来,系统性能在突破每秒千万亿次后,就会出现一系列难以逾越的“高墙”。

21世纪初,党中央发出了“建设创新型国家”伟大号召。中华民族伟大复兴期待超算提供强力助推。中国基础软件、网络工程、微处理器等超级计算机主要支撑技术创新势如破竹。

中国与世界强国在超级计算机领域展开决战的条件已经成熟!

杨学军的《64位流处理器体系结构研究》发表一年后,即2008年6月18日,美国突然宣布:IBM公司采用异构融合体系结构技术成功研制出一台峰值速度为每秒1.37578千万亿次,Linpack测试性达每秒1.026千万亿次的机器,并将其命名为“走鹃”,拉开了世界新一轮超级计算机技术决战的序幕。

“走鹃”由6480个AMD的Opteron处理器和12960个IBM Cell处理器构成,其中Cell处理器是一种专用处理器,它的計算性能非常高。“走鹃”充分体现了异构并行技术的先进性,不仅大幅提高了单个计算结点的性能,并大大降低了功耗,整个系统的规模也得到大幅缩减。

“走鹃”在异构融合体系结构技术领域的捷足先登,打响了新一轮决战的第一枪,世界强国在超级计算机领域的较量正式拉开序幕!

20世纪90年代中期,微处理器芯片的问世,引领世界超级计算机从“向量计算时代”向“大规模并行计算时代”跃进。在“银河–Ⅲ”研制中,以卢锡城、杨学军为代表的银河人决定走大规模并行计算技术路线,抢占世界前沿。这就要求他们不能再使用“轻车熟路”的中小规模集成电路,而必须采用高性能微处理器芯片。

但当时中国要研制出微处理器,无异于“天方夜谭”。

微处理器,中国只能通过各种渠道从国外进口,别无选择。而且进口微处理器的体系结构、指令系统等关键技术全被技术锁定,只能通过设计优势来提高机器性能,这导致研制难度成倍增加,但也只能打掉牙齿和血吞。

“中国机器,外国心脏”的尴尬,深深刺痛了中国人的心。

“我们一定要搞出中国芯!”国防科技大学计算机学院教授李国宽下了狠心。他的决心,与计算机专家陈福接、李思昆的不谋而合,三人联名给国家电子部写信,提出旨在研制我国自主知识产权的微处理器CPU的“泰山计划”。

当时,无论是西方国家还是国内业内人士都认为,中国基础条件太差、工艺水平太低,中国人无法做出自己的微处理器,搞微处理器尤其是军用微处理器,是瞎子点灯白费蜡。

“泰山计划”最后的结局可想而知,但自主研制CPU的梦想已经萌芽。

不久,“中国芯”之梦终于有了成长的土壤。

“八五”期间,中电某所拿到了浮点DSPC25项目。虽然这只是个定点DSP,晶体管数不多,比较简单。但他们做得特别艰难,先后攻关8年,流片15次,攻关人员换了3批,才勉强做出。

进入“九五”期间,该所想上浮点DSPC30(实际上是个微处理器)项目时,整个微电子口的领导和专家们都在心里嘀咕:DSPC25比DSPC30无论是主频、逻辑结构,还是晶体管数,都要简单得多,可他们已经做得那么艰难,DSPC30他们能拿下吗?这使得该项目的立项一拖再拖。

情急之下,国防科工委有关部门领导给他们支招:“你们自己拿不下,为什么不联合高校的科研人员一起研发呢?”

可该所先后找了国内几所知名大学,大家都不敢接招。

1997年,李国宽得知这一信息,立即带人主动找上门去商谈合作事宜。双方一拍即合,于1998年5月签订了项目合作协议。

国防科技大学计算机学院负责逻辑提取、逻辑模拟和测试码生成。这是预研项目,难度大、经费小,但银河人认为这是跻身微电子和微处理器设计领域的大好机会,经费再少,也值得干。

学校成立了由李国宽为学科带头人,十余人组成的微处理器攻坚团队,大家凭着长期超级计算机设计和调试经验,日夜奋战,只用了一年多时间,便完成了该项目的逻辑设计和逻辑模拟,生成了一份正确的芯片逻辑网表。

运用这份严密科学的芯片逻辑网表进行逻辑和版图对比检查时,发现和修正了版图设计中的大量错误,创造了一次流片成功的奇迹,且芯片功能、性能稳定良好。

小试牛刀一举成功,极大地鼓舞了微处理器创新团队冲刺更高目标。

20世纪90年代初,我国启动第三代战机工程,研制者们决心突破一系列数字化航空关键技术。

哪知刚做出几架样机,美国突然宣布对第三代战机研制所需的微处理器实行禁运,一下子把中国新一代战机工程卡在“嗓子眼”上,下不去,也上不来。

为早日实现中国军用飞机从第二代向第三代的历史性跨越,总装部紧急启动战机微处理器芯片研制工程,指定由国防科技大学计算机学院和国微公司同时设计。该套微处理器的两个芯片,两家单位各设计一个,其中主要芯片则由两家同时设计。说白了,就是谁设计的芯片性能好,就用谁的。

此前,李国宽他们虽然参与了DSPC30攻关,但只做其中的逻辑设计和逻辑模拟,而这次还要做版图设计和版图模拟,并且设计好后将直接制版、流片、封装、测试、试用、考核和定型。由于国外对有关资料严格封锁,这意味着从体系结构、图纸设计到实现技术,都要自力更生。

但国防科技大学微处理器创新团队依然大胆“接招”。长期的科技攻关实践,已经使他们形成了这样的“思维惯性”:有挑战,才有机遇,才有创新!

项目攻关誓师大会上,大家发出了气冲霄汉的声音:“一定要让中国新一代战机用上中国芯!”

艰苦奋战5年,该型号芯片终于一次性流片成功,创造三个“中国之最”:国内最早实现超标量CISC体系结构的微处理器,国内最复杂、最大规模的微处理器超深亚微米全定制设计技术,国内最早实现全定制微处理器时序建模与时序分析技术。

2001年12月,中国新一代战机带着国防科技大学微处理器创新团队设计的“中国芯”直冲云霄,骄傲地翱翔在祖国的蓝天。试飞证明,中国第三代战机各项战术技术指标与世界第三代战机相比毫不逊色。

“中国造不出自己的军用芯片”的魔咒,被奇迹般地打破了!

第三代战机冲天成功,点亮了国人对“中国芯”的希望之光。国防科技大学微电子学科也随之声名鹊起,一举拿下微电子专业的硕士点和博士点,处于我国微电子设计技术最前列。

国防科技大学微处理器创新团队像春天里一粒珍贵的种子,在国内微处理器领域四处开花结果。

中电某研究所与俄罗斯合作研发386芯片,前后搞了两年,钱花了不少,但项目攻关毫无进展。仔细一查,竟发现俄罗斯根本做不了386,他们之所以与我们合作,是想用我们的钱办他们的事,开发他们急需的产品。

总装机关领导希望国防科技大学向该研究所提供技术支持,帮助他们开发386DX和387DX,引导他们进入微处理器领域。

国防科技大学微处理器创新团队积极伸出援手,派出精兵强将,与该所科技人员联手合作,出色完成了型号芯片开发任务。

這时,国家某战略武器工程也急需某型芯片。起初,工程负责单位想从国外进口,但遭到“禁运”。

国防科技大学微处理器创新团队再次临危受命,担负起该型芯片设计重任,然后由中电某研究所负责生产。双方通过精诚合作,成功研制出国家战略武器的“中国芯”。该研究所也以此为契机,成功跻身国家微电子和微处理器领域。

在“十五”“十一五”期间,他们不仅向国内多家研究所提供了技术援助,合作开发了多款芯片,而且不断寻求技术创新。

微电子学科第二代学科带头人陈书明,经常形象地对团队成员说:“我们对新技术,要像年轻女孩追求时尚衣服那样敏锐,而要保持这种敏锐,就要比别人站得更高、看得更远!”

为及时发现学科发展的“时尚点”,他的办公桌上时刻堆放着十几种国内外微电子顶级期刊,书柜里摆满各类论文。通过这些“窗口”,他的目光紧紧盯着学科前沿。

2004年,陈书明发现国家和军队对宇航级芯片需求非常紧迫,但主要依赖从国外购买。他预感到,总有一天,外国会像当年禁运战机芯片那样,对我国宇航级芯片亮出“红牌”。

为避免我国宇航事业重蹈当年战机芯片的覆辙,陈书明立刻带领团队对宇航级芯片核心关键技术——集成电路辐照效应展开研究,取得一系列原创成果。

果不出所料,不久外国便封堵了我国宇航级芯片进口的所有渠道。

这时,在国家“核高基”专项课题支持下,国内首款抗辐照高性能数字信号处理器研制项目立项。作为该项目的负责人,陈书明带领团队开始攀登国内首款宇航级高性能DSP芯片的高峰。经过三年艰苦冲刺,团队及时拿出宇航级“中国芯”,确保国家一系列宇航工程向深度推进。

国防科技大学微处理器创新团队,作为“中国芯”研制主力军,在对科技前沿的一次次冲锋陷阵中迅速发展壮大。

2004年,国防科技大学微电子与微处理器研究所正式挂牌成立。

卫星定位导航技术,是现代信息化战争的重要平台。美国凭着在世界上率先建成的卫星定位导航系统(GPS),不仅在伊拉克战争、科索沃战争、阿富汗战争中实施了一系列精确打击,而且经常以中断GPS信号威胁包括中国在内的發展中国家。

卫星定位导航技术,已经成为决定国家前途、民族兴亡的关键技术。

为扭转在卫星定位导航技术领域的被动局面,推进国家和军队信息化建设,经国务院、中央军委批准,我国启动了“北斗”卫星定位系统工程。

计算机学院党委认为:“北斗”工程是军队信息化建设重大工程,计算机学院作为研制出银河系列巨型机的单位,理应积极参与工程建设,运用深厚的技术积累为提升我军战斗力作出直接贡献。

“北斗”信息处理系统,是定位导航系统重要的组成部分,承担着整个大系统数据处理、信息交换、系统管理和业务管理的核心任务,是确保全系统定位、通信、定时三大主要功能实现的神经中枢,人们形象地将其喻为“北斗大脑”。计算机学院党委积极组织力量参加国家招投标,成功争取到这一“北斗”工程关键技术攻坚重任,与总参有关部门签订了“北斗”地面应用系统信息处理分系统研制合同。

计算机学院成立以王志英为总设计师,金士尧、赵龙、朱海滨为副总设计师兼任三个子系统主任设计师的技术攻关队伍。

2000年,中国第一颗“北斗”试验卫星发射升空,宣告“北斗一号”工程建成,并开始在减灾救灾、交通运输、国土测绘及军事行动中发挥作用。

2011年12月28日,中国向世界宣告:“北斗”卫星定位导航系统向全世界提供全球导航服务,成为世界上第四大全球卫星导航系统。

为扭转我国基础软件被动局面,尽快让国人用上自己的操作系统,国家“863”于2002年设立软件重大专项,明确把操作系统作为软件重大专项的主要研究方向,并把“麒麟”操作系统作为重点。

2005年4月,课题组经过近3年攻关,推出了具备通用服务器操作系统主要功能的“麒麟”操作系统V1版和V2版。

2005年5月,“863”软件重大专项专家组委托总装备部武器装备论证中心和中国软件评测中心对其进行验收测试,对安装、功能、性能、可靠性、可扩展性、标准符合性、高可用性、中文支持能力等11个项目,进行了为期7个月的严格测试,得出了“麒麟服务器操作系统V2版达到课题任务合同书中规定的各项技术指标要求”的测试结论。

中国人终于用上了让人心里踏实的操作系统!

超越之径

从军事工学院到国防科技大学,其计算机技术创新团队一直都是冲刺在第一线、拼搏在最前沿的战斗队,创造了我国计算机技术领域的一系列“第一”。21世纪,这支敢打硬仗、能打胜仗的队伍,再次发出豪迈的声音:“与世界计算机强国决战的重任,舍我其谁!”

2006年,国家推出“863”项目——“高速计算机及网格服务环境”建设,制定了“先研制两台每秒百万亿次超级计算机、再研制一台每秒千万亿次超级计算机”的“两步走”战略。

我国著名计算机制造商曙光公司、联想公司启动“曙光500A”“深腾7000”两台每秒百万亿次机攻坚之时,刚刚研制完成每秒10万亿次超级计算机的国防科技大学计算机技术创新团队不等、不靠上级下达任务,主动把目光瞄准每秒千万亿次超级计算机,开始向这一目标发起攻关。

进攻目标锁定后,攻击路线就是关键。

两年前,杨学军带领大伙探讨64位流处理器Imagine时,他的脑海里就同时思考着另一种与之有着异曲同工之妙的电子芯片——GPU的科学计算问题。

使用GPU构建超级计算机的优势显而易见:它运算速度快,比CPU高出6倍,能有效缩小机器空间;它能耗低,仅有CPU的五分之一,可有效解决超级计算机高能耗短板;它在市场上流通的品种很多,可供选择性大,而且技术成熟;它价格便宜,可有效提高机器的性价比,让用户用得起……

但将GPU用于超级计算机研制的劣势,同样不容忽视:它能否用于高性能计算机,还是个未知数,探索之路将非常艰难,而且风险很大。

以杨学军为总设计师的总师组,经过深入技术调研、反复权衡利弊,决定大胆尝试CPU+GPU异构融合技术之路。

从每秒10万亿次直接冲刺每秒1000万亿次,走别人没有走过的CPU+GPU技术路线,他们的这一超常决策,在业内引起一片哗然。

“研制超级计算机一般都以10倍速度逐步递增,这已成为国际惯例。从每秒10万亿次直接向每秒1000万亿次跨越,这一步是不是迈得大了点?能跨过去吗?”

“就是把机器做出来了,应用水平能跟上吗?”

“GPU能否用于高性能计算还是个谜,用它研制超级计算机,这是不是太冒险了?”

……

面对沸沸扬扬的质疑,杨学军率领的总师组认为,两步并作一步走的事,虽然国际上少有,但对银河人来说却并不是什么新鲜事。当年慈云桂带领大家研制“远望一号”远洋测量船中心计算机时,不也是从每秒万次直接向每秒100万次冲刺的吗。当今世界,超级计算机每10年性能提升1000倍,在此情况下,若按照所谓“惯例”,按部就班、亦步亦趋,只能永远处于“跟班”“借鉴”“仰人鼻息”的被动局面。只有从荆棘丛中、险关狭隘另辟蹊径,才能杀出重围,率先“登顶”。至于用于图像处理的GPU能否用于科学计算,杨学军坚定地认为,凭着团队数十年超级计算机教学科研积淀的厚实底蕴,和对64位流处理器研究取得的创新成果、技术基础,定能触类旁通,攻克GPU计算效能这一世界难题。

国防科技大学党委积极支持他们的跨越壮举,向创新团队发出了“我们的胸怀有多宽,我们的事业就有多大”的动员令,鼓励大家确立决战决心,坚定决胜信心。

撕开突破口

2008年底,以杨学军为总设计师的总师组,把撕开“突破口”的重任交给杨灿群和他带领的突击队。

经过十余年科研实践历练的杨灿群,对于自己的工作有个非常精妙的比喻:“搞工程技术,就像猜谜语。谜底出来了,大家恍然大悟:‘原来并不深奥,可在此之前,你的眼前却是一片云山雾海,你不知道目标在哪里,甚至不知道该朝哪个方向寻找,可以说两眼迷茫。”

GPU的科學计算问题便是这样一道谜语。

当时,市场上宣称有通用计算能力的GPU有两种,分别由NVIDIA与AMD生产,每种GPU都有多个型号。单独的GPU只是一个芯片,需要和配套的存储器及外围电路构成显卡使用,生产此类显卡的厂商有好几家,市场上可购买的计算显卡就有近20种。这林林总总的显卡中,哪款能满足科学计算要求?杨灿群和突击队员两眼一抹黑。

为从这众多显卡中找到双精度浮点计算性能高、系统兼容性好、运行稳定的显卡,杨灿群带领突击队从2009年初开始夜以继日地进行大海捞针般的筛选工作。

春节前一周,他们把一种显卡安装到一款主机板上测试,但软件系统安装完成后,系统无法启动。他们首先怀疑是硬件问题,但硬件技术人员坚称该主板质量非常过硬。他们便从软件找原因,但尝试不同版本操作系统和显卡驱动后,问题依然如故。为了找到问题症结,他们在春节期间加班加点。大年初四那天,他们无意间在主板上发现有个模糊标识,称该主板有启动异常故障,维修后也没有确认故障是否彻底解决,弄得大家哭笑不得。

还有一种显卡含两个GPU芯片,其驱动程序要求接上两个显示器才能让两个GPU同时工作,这显然不能满足科学计算的要求,因为不可能在一台计算机里安装一大堆显示器。他们通过查阅资料发现,可在显卡输出接上电阻来模拟显示器。为找到这种电阻,他们从尘封了上十年的器件柜中找出了几个满足要求的插装电阻,解决了测试问题。

两个月间,他们不知经历了多少这样的曲曲折折,才终于完成了近20款GPU的安装、测试,找到了满足计算条件的GPU。

中国有一句俗语:“一个和尚挑水喝,两个和尚抬水喝,三个和尚没水喝。”

CPU+GPU异构融合体系结构把数千个CPU、数千个GPU组合在一个“大庙”里,它们还能卖力“挑水”吗?

2009年3月,他们把CPU、GPU这两类“和尚”组合起来,利用GPU加速应用程序进行评测,竟发现总性能还不到每秒600亿次,而一个CPU就有近每秒500亿次的性能。也就是说GPU这个“和尚”,虽然用于图像处理,速度惊人,但让它与CPU放在一块用于科学计算,就变得非常懒惰,计算效能只有20%左右。

面对这样的测试结果,大家心里凉了半截。须知,凭着GPU这等工作效率要造出每秒千万亿次超级计算机,岂不是天方夜谭?难道真如外国专家断定的,GPU根本不能用于科学计算机吗?

总设计师杨学军得到报告后,第一时间赶到实验室。听完情况汇报后,他向身边的妻子招招手:“玉华,你去把车开来,带我出去转转。”

这是他的工作习惯,每当科研遇到难题时,他就让妻子开车带他去兜风。

车子驶出市区,奔驰在二环高速公路上。杨学军仰靠着座背,微闭着眼睛,让思绪随着从车旁呼啸而过的春风、扑面而来又疾速闪去的盎然春景,在科学的天地里盘旋……

车子驶出高速收费站时,杨学军掏出手机,拨通了杨灿群的号码,坚定地说:“别人不敢走的路,并不等于走不通。从技术原理分析,GPU的计算性能通过软件优化,是可以大幅提高的……”

全线出击

2009年7月,按照CPU+GPU体系结构技术,他们构建了几个机柜的系统,结果试运行时发现,系统稳定运行时间很难超过半个小时。这是为什么?

通过初步分析,大家认为问题还是出在GPU身上。GPU用于科学计算,除了计算效率问题外,还有一个相关技术非常重要,那就是GPU的稳定性。GPU用于图形处理,其计算负载与通用计算存在较大差异。尤其是GPU实际性能发挥出来后,各部件进入重负载状态,功耗提高,散热要求高,各器件的稳定性下降。当系统中使用的GPU数量多了,系统平均无故障时间也会随之下降。

这个问题不解决,CPU+GPU异构融合之路同样是条“死胡同”。

提高GPU工作稳定性问题,再次成为杨灿群和他的突击队亟待解开的新“谜语”。

他们首先使用筛选法对众多GPU逐一进行压力测试,找出那些运行稳定的GPU。结果不理想,系统稳定性虽然有所提高,但与系统稳定性要求相去甚远。

他们仿佛陷入了迷魂阵,四周迷雾茫茫,不知方向在哪里、出路在哪里。但他们始终坚信,黑夜再漫长,曙光总会出现。

在艰苦探索中,“八一”节到了,单位组织会餐。杨灿群对战友们说:“走,喝两杯去,醒醒脑。”但到了餐桌上,到底喝了什么酒、吃了哪些菜,谁都没留下印象。因为在吃饭喝酒时,他们脑袋里装的依然是GPU工作稳定性问题。几个人一放下碗筷又直接回到机房,一头扎进浩如烟海的GPU技术资料里,苦苦寻找破解迷雾的那一缕曙光。又是连续几天吃住在机房……

8月4日上午,曾在网上看到过的一个有关GPU超频提高性能的帖子突然浮现在杨灿群脑海里。帖子上说,GPU超频可以提高性能,但会导致GPU运行不稳定,甚至系统黑屏。

杨灿群突发奇想,按照逆向思维,如果选用的GPU具有调频功能,让GPU降频不就可以提高它的稳定性吗?

天遂人愿,拿过使用的那款GPU一看,恰恰具备调频功能。大家赶紧对它进行降频处理。结果GPU稳定性问题终于被解决。

GPU计算效能、稳定性关键技术探索艰难曲折,其他关键技术攻坚也跌宕起伏、步步惊心。

超级计算机系统要实现每秒运算千亿次,不仅要求CPU、GPU“算得快”,而且要求有一个快捷通畅的网络系统,让各种信息“跑得快”。

2008年10月,苏金树带领大伙受领的某新型交换机项目,是每秒千万亿次超级计算机通信网络的“立交桥”,直接决定着网络通信速度。通过深入调研、严密论证,他们提出正交系统互连方案,使系统结构简洁,设计难度、制造工艺要求、研制和生产成本大幅降低。

然而研制工作一开始就陷入两难境地。如果坚持走自己的设计路线,需要一切从头探索,创新难度大,风险高;如果改方案,完全按美国人提供的方案来,成功有把握,但没有自己的特色,没有创新,不具备优势。

从来就不迷信和崇拜别人的银河人坚定地选择了前者。他们坚信没有美国人的技术支持,中国人照样能把新型交换机搞出来。

仅用10个月时间,他们就研制完成新型交换机。实测技术指标大大超过同类系统,而成本是同类同规模产品的80%。

高速互联网上交换芯片、接口芯片测试,也经历了一番迂回坎坷。

研制小组经过半年多连续奋战,完成逻辑设计和软硬件模拟时,离芯片最后投片期限只有3天了。

大家把最后版本的逻辑设计都综合在FPGA测试软件中,准备进行最后的完全测试。这也是研制工作关键点之一,如果通过了,那就万事大吉;如果卡了壳,那就前功尽弃。

测试程序启动后,大伙都把眼睛瞪得圆圆的,紧紧盯着屏幕。突然,那些欢快滚动的数据像一下子撞到墙上似的,一动不动了。

大伙心里一沉,这是怎么回事?

赶紧检查外围,发现光纤好好的。

检查服务器,服务器也活着。

查看交换机,交换机也有电。

又查以太网,也是工作正常。

最后,大家抱着试试看的想法,让它从头开始运行。那些数据又开始滚动起来,可几分钟后,故态重萌,又躺着不动了。

死锁!大家一下子都急出一头冷汗。要解开这把死锁,首先必须查明它“死”在哪里。

查因的突破口首先选在测试试题与测试模式结合部。负责测试操作的刘路和设计测试题的谢闵,由于年轻气盛,加之心急如焚,两人一碰头便“吵”了起来。

谢闵正忙着测试另一个驱动程序,劈头便问刘路:“我那边正忙呢,你叫我干什么?”

刘路说:“把所有测试题都加进去跑,运行一会儿就死锁了,会不会是你编的测试题不能一起跑?”

谢闵说:“不可能,单个题能跑,混合在一起跑不会有影响。”

刘路说:“那不一定吧,单个跑和混在一起跑,能一样吗?”

谢闵说:“你放心,我所有的题都内部做了流控,绝不会出现相互拥挤现象。”

刘路说:“别的题单独跑没问题,说明硬件沒问题。偏偏跑你的题死锁,不是你的题有问题,是什么?”

谢闵说:“我还怀疑你们的测试模式有问题呢!”

沉默一阵,两人几乎同时朝对方摆摆手说:“咱们再争下去是浪费时间。”两人商定按老规矩,都去自查原因,自证清白,再合作解决。

研究室领导带着大家忙了一个昼夜,结果却发现测试题和测试模式都没问题。

难道是接口芯片出问题了?大家将所有接口芯片统计计数器的值读出,结果四个接口芯片流出的数据包的个数恰好等于四个接口芯片流入的数据包的个数,也没有问题。

他们不得不把怀疑的目光移向交换芯片。要是在这最后时刻发现它有问题,后果不堪设想呀。就在大家都悬着一颗心,紧锣密鼓地苦读代码时,却意外地从测试用的FPGA版本上发现了疑点。

把FPGA版本进行更新再运行时,那些数据终于又快乐地跳跃起来。两种芯片都按时一次投片成功。

大伙擦去额头上的汗珠,吁了一口气:“要是再查不出原因,耽误了投片,拖了工程后腿,我们可没法向党和人民交代呀。”

在大家历经艰难曲折、锲而不舍的攻坚中,各项关键技术相继突破。

2009年国庆节来临前夕,每秒千万亿次超级计算机一期系统安装完毕。这时,从芯片市场传来一个喜讯,一款性能更高的新款GPU上市了!这对于正与世界强国决战的银河人来说,就像在国际足球赛中的前锋面前突然出现了空门,让大家兴奋到狂喜。

但这“临门一脚”并不好踢:一是离任务节点只有一个月了,而更换GPU必须先拆再装,整个系统有2560多个节点,团队完成更换GPU的工作通常需要半个月左右。而且更换了新GPU之后,就必须对原先的软件优化措施加以改进,能按时完成任务吗?

总师杨学军把一线攻关团队集合起来,大声问大家:“这新款GPU,我们上不上?”

大家异口同声:“上!”

“按时完成党和国家交给我们的任务,有没有信心?”

“保证完成任务!”

国庆节来临了,最后的突击开始了。测试筛选、拆卸安装GPU是个体力活。团队全体人员,男女老少齐上阵,三天三夜,谁也没合过一下眼,终于完成数以千计的GPU更换工作。

任务完成后,杨学军再次把大家集合起来,看着大家贴满创可贴的手和一双双熬得通红的眼睛,他的眼睛湿了。

冲出亚洲

我国第一台每秒千万亿次超级计算机横空出世,中国成为世界上第一个掌握CPU+GPU异构融合体系结构技术、第二个研制出每秒千万亿次超级计算机的国家。

中共中央总书记、国家主席、中央军委主席胡锦涛闻讯,为它题名“天河”。

2009年深秋,湖南长沙,天蓝水碧,红叶漫山,枝头垂金。在这果实累累的季节,国际TOP500创始人汉斯·莫尔率领测试人员来到湘江之畔,走进国防科技大学,对“天河一号”超级计算机性能进行实测。

作为国际TOP500机构创始人,汉斯·莫尔可谓见多识广,可当他一脚跨进天河机房大厅时,细心的人们发现,他那双浓眉还是抑制不住向上挑了挑。

展现在汉斯·莫尔面前的“天河一号”超级计算机系统,的确令人震撼。在近千平方米的机房大厅里,一排排工艺精湛的机柜傲然挺立,犹如阅兵大典中气势如虹的受阅方阵,成千上万的指示灯闪闪烁烁,仿佛汇成了一条绿色的人间天河。

而“天河一号”独特的技术、优越的性能,更让汉斯·莫尔一行惊讶不已。

“天河一号”系统峰值性能为每秒1206万亿次、Linpack实测性能为每秒563.1万亿次。也就是说,“天河一号”计算一天,一台配置Intel双核CPU、主频为2.5GHz的微机需要计算160年!

“天河一号”共享存储总容量为1PB。按国内数字图书应用软件的图书格式PDG计算,如果平均每册书大小约10MB,那么“天河一号”的存储量相当于4个藏书量为2700万册的国家图书馆的总和,能够为全国每人储存一张接近1 MB的照片。

“天河一号”互联网单根线传输速率为10Gbps,是当时国际上最快的速率,相当于在“天河一号”计算机内部修建了一条信息高速公路。

“天河一號”在运行情况下,每小时耗电1280度,每瓦电创造的计算效能为4.3亿次运算,达到世界领先水平。

乘胜追击

“天河一号”总师杨学军收到大洋彼岸打来的报喜电话,只是淡淡一笑,轻轻哦了一声,便放下了手机。自从加入银河人行列,尤其是接过银河事业帅旗以来,他带领大伙在超级计算机前沿阵地冲锋陷阵,屡克难关,硕果累累,曾获得国防科技进步特等奖、一等奖,国家教学成果一等奖,国家技术发明二等奖,军队专业技术重大贡献奖,国家杰出青年科学基金、创新研究群体科学基金,荣立一等功。每次得知喜讯,或收到奖状、奖章,他都是这般一笑而过。在他的脑海里,完成一个项目、攻克一个难题、取得一个成果,无论影响有多大,都像他母亲所说的,是“又做了一件事情”而已。

要说得到喜讯,与过去有什么不同,那就是他忽然感觉非常疲倦。自从“天河一号”工程启动后,身为工程总设计师,他既要处理行政事务,又要谋划工程进展,还要深入科研一线指导攻关,整天脑子里绷着一根弦,人忙得似飞转的陀螺,根本感觉不到疲劳,甚至不知什么是饥饿。

他往床上一倒,便进入甜蜜的梦乡。睁开眼睛时,他看到玻璃窗上映着一方金色阳光,一只小鸟站在窗外的枝头上啾啾欢叫。

他揉了揉眼睛,问在客厅里忙碌的妻子:“玉华,几点了?”

妻子说:“快8点了。”

“今天几号?”

“20号,你足足睡了两天呢。”

杨学军惬意地舒展一下胳膊,吃完妻子备好的早餐,然后来到银河广场,像往常那样点上一支烟,一边漫步,一边任思绪飘向广袤的天空。

作为一名长年在超级计算机前沿阵地上征战的老将,他深知我们国家目前的快速发展,非常需要坚实的科技支撑,而我国超级计算机研制水平,与发达国家相比,不仅不能同日而语,其应用意识、应用水平更是相去甚远。在高性能计算这个充满火药味的竞争领域里,稍有懈怠,就会被别人赶超甚至被淘汰。所以,“天河一号”研制成功,对他来说,和过去攻克的每一个科技“堡垒”一样,只不过是一个逗号,而逗号的后边,还有无数个问号,在等着他带领团队去求索、去破解。

傍晚,“天河一号”工程总师杨学军、“天河一号”工程总指挥廖湘科、计算机学院政委周建设,一起来到学校办公大楼前的广场上散步。

杨学军说:“党中央提出建设创新型国家、建设信息化人民军队宏伟目标,学校作为强军兴国先锋,任重道远啊。”

廖湘科说:“据参加国际TOP500颁奖典礼的同志通报说,虽然我们的排名名次提升很快,但与发达国家相比,依然存在较大差距,在整个500强中,美国就占了277套系统,而我们只有21套系统。国家已经制定超级计算机整体赶超计划,我们作为计算机技术创新国家队,一定要多发挥作用、发挥大作用。”

杨学军说:“虽然获得了亚洲第一,但我们的目光绝不能只盯着亚洲,而是要放眼世界。”

周建设说:“抢占高峰,超越世界,是我们一代代银河人追逐了几十年的梦想。大家听到我们的机器跻身世界前五的消息后,非常振奋,心里都憋着一股子劲,渴望在‘天河一号二期工程中,乘胜冲击超级计算机的珠穆朗玛峰。”

杨学军说:“‘天河一号二期系统不仅要力争机器各方面性能大幅跃升,并且一定要用上自己研制的CPU,逐步改变微处理器依赖进口的局面。”

“中国机器,外国芯”,是银河人心头难言的遗憾、隐隐的痛。

为了让中国机器拥有“中国芯”,2008年启动“天河一号”工程时,国防科技大学微处理器技术创新团队开始研制设计“飞腾1000”芯片。

有人把这一研制目标形象地概括为“一步登天”。这四个字,透显出如虹气势,也意味着艰难险阻。

研制工作刚展开,DDR3调测试就遇到双重挑战:一是dimm条上的控制芯片与最新的DDR3规范有些不兼容,导致多个rank同时刷新的命令无法存储,丢失数据;二是由于芯片规模大,封装难度高,芯片到dimm条的时钟占空比不理想。大家苦熬几个通宵,才找到最佳办法,选出最优方案,圆满解决问题。

不久,长沙遭遇“2008冰雪灾害”,输电线路惨遭破坏,城区管理部门被迫出台限电令,禁止使用空调。室外白雪皑皑,室内寒似冰窖。长期集中攻关的科研人员,大多患有腰肌劳损,让寒气一逼,腰酸背痛,但他们拿被子往腰上一围,继续坚持工作。

天气暖和了,设计工作告一段落。可制成样品后,又发现性能不达标。费了九牛二虎之力,才发现是合作单位对顶层困难估计不足,导致顶层规划出现问题。没办法,只好推倒重来,重新确定的物理设计方法大幅提高了产品性能。

10月,“秋老虎”走了,难度最大的“拦路虎”却跳了出来。由于设计规模巨大,synopsys ICC工具失去作用,Cadence Encounter基本绕线不通。此时,离芯片投片已不足两个月。

大家知道,越是形势紧迫,越要沉着应对。通过仔细分析设计数据、梳理数据流向,提出顶层设计新方案。该方案虽然需要顶层设计及其功耗设计、封装设计等一系列工作推倒重来,工作量巨大,但科学可行,得到总师组支持和合作单位密切配合。通过20多天紧急突击,使时序违反的路径迅速收敛,最终完全收敛了下来。

当时光完成一个轮回,再次跨入深冬季节时,芯片设计进入最后时序检查阶段。就在大伙心想总算走过了千难万险,终于可以回家美美睡上一觉时,一个意想不到的问题杀了出来——设计流程在分层延迟计算和信号完整性方面存在重大隐患。若不排除,整个CPU将功亏一篑。

大家立马重整旗鼓,对问题隐患进行密集排查“围剿”,终于找到并成功排除“元凶”,使所有数据回归正常。

“飞腾1000”通用CPU按时完成设计,并一次性投片成功!

“上甘岭战役”

很多同行专家听了他们的决心,既深表钦佩,也为之担心:“在一年时间里,机器性能提升近3倍,除非奇迹发生。”

从一期系统的每秒1206万亿次,到二期系统的每秒4700万亿次,并不是数字的简单拓展。运算峰值提升近三倍,而机柜数量却只能增加四分之一左右,意味着一组同样大小的机柜,二期系统的性能要比一期系统提升两倍多,这给研制工作提出了一系列挑战,需要跨越多核多线程体系结构与片上并行系统设计技术、编译系统全程序过程间分析等编译优化、自主高效的通信协议、高阶路由器体系结构、超大规模集成电路设计与高速率高密度交换机的设计等一系列技术难题。这些技术障碍,哪一个都不是小沟小坎,全是深涧巨壑。

大伙颇有深意地说:“‘天河一号二期系统攻坚,是一场‘上甘岭战役。”

参与工程任务的科研人员,就像当年在上甘岭上与美帝国主义侵略者决战的将士。为了国家荣誉、民族尊严,以连续作战的作风、顽强拼搏的意志、“舍身炸碉堡”的勇气,向着科学巅峰躬身冲刺!

通信光纤铺设,是“天河一号”二期系统进驻国家超算天津中心的首期工程,时间紧迫、任务艰巨。为确保按期完成施工任务,指挥员把任务细化到天,要求大家“当天任务不完成当天不吃不睡”。

哪知施工第一天,刚铺了几根光纤,施工指挥员拿起一看,立刻傻眼了:光纤的绝缘胶皮被磨出了道道裂痕,个别地方还露出线芯。

原来地沟的水泥表层太粗糙,加之时值盛夏,地沟温度高达40多摄氏度,把光纤绝缘层烤得似细皮嫩肉,哪经得起水泥地的摧残。

这个问题不解决,后果不堪设想。轻则信号中断、通信短路,重则导致系统紊乱。

如何避免光纤绝缘层受损?

大家绞尽脑汁,也没想出个法子来。指挥员急得抓耳挠腮,一屁股坐在地上:“嗨!这可怎么办?”

时间,在一秒一秒过去。大伙讨论了两个小时,还是没招。

指挥员抹了一把脸上的汗水,举着手愣了愣,然后一拍大腿说:“有办法了!”

只见他把衬衣、裤子一脱,跳进闷热的地沟,俯卧在粗糙的水泥地上。

大伙一看,立刻明白了指挥员的意思,不用谁下令,一个个纷纷脱下身上的衣裤,跟着跳进地沟,铺设出一条光滑的人肉地毯。

一根根光纤顺着官兵光滑的皮肉通畅地向前延伸。滚烫的水泥地灼烤着官兵的血肉之躯,大家一身汗水、满身污垢。

背上被磨得通红,官兵们咬牙坚持;

皮肉被磨破了,他们依然一动不动;

伤口不住地往外渗着血水,还是没有一人撤退;

……

天津滨海新区一位领导看见这一幕,非常感动。“战争年代,我军将士为民族独立、人民解放,用血肉之躯堵枪眼,炸碉堡。和平时期,人民子弟兵,跳进洪流堵溃堤,冒着地震救灾民。今天,我又看见我军科研人员,为保护科研器材,赤身裸背卧地沟,流汗淌血不后退。人民军队的光荣传统,在你们身上没有丢!我们国家有这样的科研队伍,再艰难的工程也能拿下!”

几十个人在粗糙闷热的地沟里赤身裸背爬了30天,一个个被坚硬的水泥地和光纤刮擦得遍体鳞伤,但15000根光纤毫发无损!

“天河一号”二期系统试机那天,一打开机器,全部通信线路畅通无阻。国家超算天津中心的领导特意来到担负光纤铺设任务的官兵中间,一一察看他们背上那些尚未痊愈的伤口,动情地说:“‘天河一号二期系统首试畅通,有你们的贡献!功劳簿上,有大家的名字!”

杨灿群带领计算效能提升团队在国家超算天津中心天河机房摆开了战场。他们的第一个任务,就是确保系统所有部件连续稳定运行4小时以上。谁知一开机,系统又出问题了。

他们到天津前,就在长沙做了4个机柜的验证系统,进行了稳定性调试,没有发现任何问题。天津系统所使用的部件与长沙系统完全一样,为什么就出问题了呢?

杨灿群抬头望一眼天河机房,有种一眼望不到头的感觉。并排矗立的140组机柜,其中包含了数以万计的部件,只要其中一个部件、一个系统出问题,都会影响系统的稳定性。这个问题部件、系统在哪呢?杨灿群和大伙仿佛一脚踏进一个深坑,眼前一片漆黑。

在黑暗中探索好几天,他们才发现问题竟然出在水冷系统上:水量不足,散热功能下降,造成超级计算机系统温度过高。

随着系统调试全面展开,他们又发现GPU也存在抽风似的波动现象。大伙通过对GPU稳定性相关因素,如GPU自身、GPU的供电模块、GPU与主机的通信接口卡、GPU散热等,进行大量采样分析,没有发现任何蛛丝马迹。他们又对GPU工作状态温度进行监控,经过对大数据采样分析,发现同一个刀片上的两个GPU的工作温度有明显差异。通过发明风量“挖补”技术,他们彻底解决了散热不均匀问题,实现了GPU稳定工作。

“天河一号”二期系统采用自主研制的互联网络系统,是个全局性的设备,也是影响系统稳定运行的关键因素。加之规模巨大,结构复杂,不仅测试难度大,而且一旦出现问题,查因、维修困难。他们通过与互联网络系统科研人员密切配合,依据网络特点研究测试方法,编写了分组、并发等多种测试代码,高效实现了网络接口、網络路径全覆盖测试,实现了故障快速定位和排除。

又一个国庆佳节来临之际,“天河一号”二期系统终于达到稳定工作目标。

已连续奋战两个月的杨灿群和战友们顾不上坐下来喝杯茶、歇歇气,立刻对系统计算效能进行最后优化。他们逐个测试系统各个计算结点,排除了内存故障、GPU故障影响计算效能问题,使计算效能提升到每秒1890万亿次。

初战告捷,他们趁势扩大战果,又对应用软件进行优化,使系统性能达到每秒2339万亿次。

这已经是个奇迹了。当时世界排名第一的美国“美洲虎”超级计算机,其计算效能也只有每秒1767万亿次。如果按照国际TOP500组织以计算效能排名,“天河一号”二期系统已将它远远甩在后边。

但杨灿群和同事们并不满足,他们认为“天河一号”还有潜力可挖,把“美洲虎”甩得越远,“天河一号”对世界第一的冲击力就越大。

他们继续把自己关在机房,发起最后冲刺。

10月19日下午,杨灿群到北京办事。汽车在京津高速公路上奔驰,在通过一个立交桥时,他看着来自四面八方的车辆汇集在桥上,然后又有序地驶向四面八方,脑袋里突然灵感闪现:如果把超级计算机网络比作城市交通枢纽,网络路径就是一条条城市街道,这些街道的交会点,往往成为交通堵塞区,车辆只有合理放行,才能保证交通畅通。

杨灿群马上给同事打电话,让他们关注网络路径,修改参数,对超级计算机计算效能再次优化。

当天晚上,“天河一号”计算效能再次冲高——每秒2490万亿次。

次日,奇迹再现——每秒2507万亿次!

10月30日,“天河一号”二期系统向国际TOP500组织递交测试结果的前夕,他们仍在继续优化,将系统计算效能提高到每秒2566亿次,计算效率达到54.6%,已经属于世界最高水平。

巅峰之光

2010年11月,在世界超级计算大会上,“天河一号”二期系统以计算峰值高出第二名——“美洲虎”两倍多的绝对优势,勇夺国际TOP500排名第一。与此同时,部署在国家超级计算深圳中心的“曙光星云”获得排名第三的優异成绩。此外,还有其他39套国产超级计算机系统榜上有名。中国机器占全球500强的8.2%,占有率比上届提高近一倍。

“天河一号”二期系统夺冠及中国系统全球占有率迅速攀高,打破了美国在超级计算机领域长期一家独大的局面,标志着我国自主研制的超级计算机综合技术水平跨入世界领先行列,更显示出中国信息领域科技创新能力和综合国力快速提升。

国防科技大学教授、国家超算天津中心主任刘光明,代表“天河一号”研制团队登上领奖台,接过刻有“中国制造”的金光灿灿的奖牌。他是自鸦片战争以来登上世界科技竞赛最高领奖台的第一个中国人!

虽然这个“科技奥林匹克”没有奥运会那样气势恢宏的赛场,不升国旗,不奏国歌,但它不仅代表一个人、几个人、十几个人的荣誉和力量,还代表着一个国家、一个民族的科技创新力,象征着一个国家的综合国力。

走下领奖台,面对新华社记者的采访,刘光明按捺不住激动的心情说:“这一刻,我们几代银河人孜孜以求、苦苦等待了30多年啊。对于高性能计算机,欧美国家长期对我们中国禁运,还设立了专门从事禁运工作的‘巴统组织。现在我们‘天河一号峰值性能、实用性能、可靠性、实用性,都进入国际领先行列。我们受气的年代,终于过去了!”

总设计师杨学军,得知“天河一号”二期系统勇夺国际TOP500排名第一的消息,轻轻吁了一口气说:“我们做了一件让自己满意的事,做了一件让中国人扬眉吐气的事。”

“天河一号”的巨大成功,使中国人独创的“CPU+GPU异构融合体系结构”理论,迅速走向世界。

时至2010年底,世界上具有每秒千万亿次计算能力的超级计算中心和国家级实验室有美国橡树岭国家实验室、美国能源研究科学计算中心、美国阿拉莫斯国家实验室、中国国家超算天津中心、日本东京工业大学、法国原子能委员会和德国尤利西研究中心等。

“天河一号”二期系统世界排名第一,让中国国家超算天津中心一经启用便傲居世界顶峰。

“天河一号”冲顶成功的消息传到天河团队,大家的第一反应竟不约而同:赶紧掏出手机,向家人报告喜讯。

宋振龙的新婚妻子刘琼接到电话时,高兴得嚷嚷起来:“你们学校太伟大了,你们学院太伟大了,你宋振龙太伟大了,真让我爱死个你了……”

听着她忘形地嚷叫,宋振龙的脸上浮出了一丝愧疚。

一年前,两人约定了婚期。佳期临近时,宋振龙却因每秒千万亿次超级计算机研制紧张无法脱身。他想,等到婚礼前一天再赶回去,与亲朋好友见个面,喝杯酒。

谁知,当他提前完成阶段性任务,正准备往回赶时,突然接到通知,一个由他负责的程序在调试时出现了问题,需要马上解决,否则将影响工程进展。解决这个问题,至少需要两天时间。由于程序复杂,即使把它交给同事,交互时间也需要几天。也就是说,无论是自己干,还是别人干,自己都赶不上婚礼了。

当时宋振龙只能无奈地拨通了妻子的电话,抱歉地说:“刘琼,我可能赶不上婚礼了。”

刘琼一听便急了:“你不回来怎么行呀!请柬都发出去了!”

宋振龙比她更急啊。可他能对领导说“工作上的事我不管了,我得先回去结婚,这是我一生的头等大事,比整个工程进展要重要得多”吗?他又能对战友们说“你们先休息两天,等我结婚回来排除故障再继续干”?

他不能!作为一名军人科技工作者,程序故障就是冲锋路上的敌堡,必须义无反顾地迎上去,端掉它!

而此时此刻,对于刘琼来说,溢满心间的全是温馨与快乐。她打开DVD,幸福地回味着那场独特的婚礼……

宽敞的宴会大厅,张灯结彩,宾朋满座,笑语盈盈,《婚礼进行曲》欢快的音符仿佛轻波荡漾。

英俊潇洒的主持人,连蹦带跳登台亮相,张口便抖出一个大悬念:“亲爱的来宾,首先我要告诉大家,今天的婚礼很特别,我从未见过,甚至不曾想过。今天的婚礼更喜庆、更精彩,喜庆得大家的笑声会把楼顶冲破,精彩得准保每一位来宾都流出感动的泪花。下面有请新娘刘琼闪亮登场——”

上亲席上的七大姑八大姨们,开始轻声议论起来。

“怎么是新娘先出来呢,新郎呢?”

“这新郎官哪里人,您知道吗?”

“我们都从来没见过呢。”

……

岳母哈哈笑道:“刘琼和他谈了几年恋爱,也只带回来一次,而且只住了一个晚上就走了。”

“是不是他不待见琼姑娘家里人?”

“哪呀,他忙。”

“他是干吗的?”

岳母娘神秘一笑:“等会你们就明白了”。

在大家疑惑的目光里,刘琼身披洁白的婚纱,款款登台。她身姿婀娜,明眸皓齿,笑容灿烂,鲜美如花。

主持人问:“新娘子,此时此刻,你幸福吗?”

刘琼响亮地回答:“幸福,是我有生以来最幸福的一刻!”

主持人又接着问:“是哪位小伙子把我们漂亮的新娘迷成了这样?大家想知道吗?”

“想——”

“有请新郎官!”

来宾都向门口望去。但新郎却从屏幕里走了出来。那是一年前宋振龙和刘琼去郊游时,同事给他们拍摄的一段DV。

主持人介绍说:“这位军人就是今天的男主角,新郎宋振龙,山东胶州小伙,是国防科技大学计算机学院的一名工程师。”

镜头中的宋振龙、刘琼手牵手,在林中小径上漫步,在小亭里小憩,她把圆润的脸庞轻轻依偎在他厚实的肩头上……

“看这小两口多甜蜜呀。”主持人羡慕地咂着嘴,“在今天这个幸福时刻,大家说,他们俩要不要亲一个?”

来宾们连声嚷着:“要!要!要!”

大家想,这下新郎该露面了吧。

哪知,他还是在DV里。屏幕上的宋振龙,脱去了白大褂,胸前别着一朵红花,花带上写着“新郎”。他的身后,是一列列整齐的大机柜,他的战友们正在机柜前不停地忙碌……

“这段DV,是新郎的战友们今天上午用手机拍摄,一小时前通过互联网传过来的。”主持人深情地介绍说,“新郎因参加国家一项重大工程任务,而不能到场。此时此刻,为了国家的强盛、民族的崛起,他和战友们正在机房里辛勤地忙碌着。”

来宾们听了很感动,但还是有些不理解:“这是什么任务?忙得连婚礼都不能参加,让新娘一个人举行婚礼。”

宋振龙在屏幕上发表热情洋溢的感言:“敬爱的爸爸妈妈,你们辛苦了!感谢你们对刘琼的养育之恩。请爸爸妈妈放心,我一定像对待自己的生命那样对待刘琼,真心爱她、疼她,细心照顾她、呵护她,让她永远快乐、永远幸福……”

他的战友也呼啦啦涌过来,一个个做着憨态可掬的鬼脸,冲着镜头喊道:

“刘琼嫂子——我们要喝喜酒——”

“刘琼嫂子——我们要吃喜糖——”

屏幕上,宋振龙端着一杯红葡萄酒向大家敬酒:“各位亲朋好友!感谢你们光临!请大家多喝几杯!”

镜头定格。刘琼跑到屏幕前,久久地亲吻着他那幸福的笑脸。当她回过头来时,已是泪流满面。

主持人递上一张纸巾,告诉刘琼:“新郎打来电话了,你想和他说话吗?”

刘琼赶紧接过话筒:“喂,振龙,你那边的问题解决了吗?”

“解决了!解决了!10分钟前解决了!”

“那你快回来娶我呀!”

“明天!明天!”

“几点的火车?我去接你!”

……

宴会厅里回荡着一对新人深情的通话,还有动人的歌声。

卢宇彤,被大家誉为“天河巾帼英雄”。这一称号,她当之无愧。

身材高挑、白白净净、端庄秀丽的她,在事业上干出了一番让很多男人羡慕不已的成就——

参加过“银河”巨型机研制,在“天河一号”超级计算机工程中,负责操作系统、资源管理系统、并行文件系统、高速通信系统和并行程序环境研制工作……这些工作,能做好一项就很不容易,她一个人却承担了这么一大串。

她是博士研究员、博士生导师、“天河一号”主任设計师,先后获得国家科技进步一等奖1项、军队科技进步一等奖3项,荣立个人二等功,获国家教育部“新世纪优秀人才支持计划”支持,被评为“全军巾帼建功先进个人”……这一项项荣誉,谁能有一个就很不简单,她一人就获得了这么多。

而这一切,都源于她在工作中的那份大家望尘莫及的气魄与拼劲。

为了赋予“天河一号”优越的通信性能,她和同事们展开了艰苦的攻关。在查阅国际相关领域大量资料,吸收国际先进技术的基础上,凭着自己扎实的理论功底和丰富的工程经验,卢宇彤提出了大胆的创新方案。经过反复实验和比较分析,终于攻克了异构混合体系结构的资源管理和作业调度难关,解决了通信软件和并行软件的大规模可扩展性、全局共享并行文件系统可靠性等难题,让“天河一号”通讯系统性能得到充分发挥,使软件通信速度比国际水平高出210%,为“天河一号”冲击世界之巅立下汗马功劳。

那些日子里,卢宇彤白天在机房里算题,晚上研究用户应用问题环境与特点,每天只睡两个小时。

这样的工作状态,对于一个女性、一个孩子的妈妈,身心压力有多大,不言而喻。

让她最放心不下的是正处于中考前夕的孩子。她和丈夫都忙,常常两个人同时出差,孩子长期当“留守儿童”。班主任已多次给她打电话,让她多关心关心孩子,可她忙得分身乏术。

“天河一号”二期工程总结中,组织上给卢宇彤记功一次。

那天,她把那枚闪耀着金光的军功章拿给孩子看:“你看,妈妈立功了。”

孩子亲了亲军功章,然后亲了她一下:“妈妈是好样的。”然后从自己的书包里掏出中考成绩单,“这是我的考试成绩,请妈妈过目。”

卢宇彤接过一看,全优!

她高兴得一把搂过孩子,使劲亲了一下那张小脸蛋:“以后一定要考个好大学。”

孩子附在她耳畔,轻声说:“以后我要像妈妈一样搞计算机。”

2010年10月31日,联合国秘书长潘基文造访南京大学,在向南京大学师生发表演讲时说:“每次到中国来,我都惊叹于中国所展现出来的活力与日新月异的变化。今天我坐在从上海到南京的高铁上,就深深地感受到了这一点,300千米的行程只需要一个多小时,而且这速度还没有上周开通的沪杭高铁快。同时,我从新闻里了解到,中国最近研制出的‘天河一号,也成为世界超级计算机研制领域的领跑者。速度最快的高铁,速度最快的超级计算机,有力地证明了中国的确是不断前进的国家。”

“虽然‘天河一号在国际TOP500夺魁,但西方国家在信息技术领域的优势地位没有改变,美国在超级计算机研制和应用的主导地位没有改变,世界强国争夺超级计算机领先地位的态势没有改变。”天河人夺魁后如此表述。

三个“没有改变”,既是对超级计算机领域各国实力的准确概括,也是对天河人勇夺第一后平静心态的生动写照。

落差蕴含能量,距离激发动力。正如中国科学院院士、“天河一号”总设计师杨学军所说:“从‘天河一号问世那天起,‘天河二号的攻关就开始了。在对国际高性能计算发展趋势进行分析后,我们瞄准了每秒亿亿级机器的研制,决心在引领世界超算发展中作出新的贡献。”

他们刚刚占领巅峰,又从巅峰悄悄出发,向着新的巅峰进击。

2011年1月,国防科技大学召开“天河工程领导小组会议”,启动“天河二号”每秒亿亿次超级计算机认证与预研工作;计算机学院院长,“天河一号”研制总指挥、副总设计师廖湘科,担任“天河二号”研制总指挥、总设计师。

3月,国防科技大学与广州市政府开始洽谈共建“广州超级计算中心”合作事宜。

11月,国防科技大学“新一代天河超级计算机研制项目”通过国家科技部组织的专家评审,并与广东省、广州市、中山大学签署“省市校共建广州超级计算中心协议”。“天河二号”攻关全面展开。此后,与广州市签署“广州超级计算中心‘天河二号研制合同”,并确定中心选址于广州大学城的中山大学校区。

2012年5月,国防科技大学向广州超算中心提供先导超级计算机,支持开展前期业务。

沉寂两年半后,“天河”超级计算机雄姿再现,王者归来。于2013年6月在国际TOP500排名中,重新占领世界超算之巅!

“天河二号”峰值速度达到每秒54.9千万亿次,持续计算速度达到每秒33.86千万亿次,综合技术处于国际领先水平。

若想探索地球气候变化规律,“天河一号”可以模拟2000年前的气候变迁,“天河二号”能够回溯到5000年前。

进行500人规模的全基因组信息关联性分析,华大转基因用自有计算机系统需要一年完成,运用“天河二号”只需要3小时。

电影《阿凡达》动漫渲染制作耗时一年多,若用“天河二号”,一个小时便可完成。

用传统方法研发新型轿车,要经过上百次碰撞、历时两年多实验,利用“天河二号”只需3至5次碰撞、两个多月便可实现。

“天河二号”的计算能力是名副其实的“超级神算”!

从“中国制造”

到“中国创造”

世纪之交,上海超算中心、中科院超级计算中心相继成立,并正式向社会开放运行,开启了我国超算中心建设和超算应用的新纪元。

2002年,作为国家科技水平重要标志的超级计算机,被列为重点发展项目,其中的推广应用更是重中之重。各省市政府开始筹建超算中心,超算中心建设正式步入快速发展阶段。

到了2004年,我国几家超算中心应用已完全达到饱和状态。此后,我国对超算的需求以每年10%~20%的速度增长,现在已达到20%~30%的增速。

目前,我国已建成国家超级计算天津中心、国家超级计算济南中心、国家超级计算长沙中心、国家超级计算深圳中心、国家超级计算广州中心等5个国家级超级计算中心。此外,还有成都、合肥、上海等区域超算中心。

国家超算广州中心计划于2015年内将计算能力提升到每秒10亿亿次以上,成为世界最顶尖的超级计算中心。

21世纪,对于中国超级计算机应用来说,可谓大地迎春、欣欣向荣。在“天河”超级计算机应用取得累累硕果的同时,其他国产型号的超级计算机和超算中心,也为国家由“中国制造”向“中国创造”转变提供了强大助力。

成立于2000年的上海超算中心不仅为科研中的高性能计算提供了强力支撑,而且為工业尤其是制造业的工程计算提供优质服务,如在航天、航空、造船、核工业、冶金、市政工程等领域,已经得到成功、广泛的应用。

拥有国内科研领域最大超算平台的中国科学院超算中心,也是面向全社会的超算平台,主要为用户提供并行计算的研究、实现及应用服务,为大规模复杂技术和商业应用提供解决方案。至今,已有300多位用户在该中心上机3000万CPU小时,为一系列国家“863”“973”计划项目攻克核心关键技术发挥了关键作用。

“天河二号”世界“五连冠”后不久,美国突然宣布Intel芯片对中国禁运!

就在美、日等超算大国睁大眼睛盯着“天河”超级计算机上的外国芯时,他们万万没想到,中国芯已经悄然崛起。

在中国超级计算机研制阵营中,除了国防科技大学计算机研究所这支传统的国家队,还有多个有志振兴中国超算事业的研制队伍,其中总参谋部第56研究所,就是一支劲旅。

为医治“中国之痛”,56所于21世纪初开始打造国产芯片品牌“申威”,不断推动国产芯片向世界一流迈进——

“神威太湖之光”超级计算机全部采用具有完全自主知识产权的中国芯——“申威26010”,中国超级计算机“外国芯”历史宣告终结!

国际TOP500组织在一份特别声明中写道:“中国在国际TOP500组织第47期榜单上保持第一名的位置,凭借的是一个完全基于中国设计、制造处理器而打造的新系统。”

“神威太湖之光”采用的“申威26010”芯片,是我国第一款运算速度超过每秒万亿次浮点结果的高性能处理器,它采用64位自主指令系统,开发片上异构的处理器架构,单芯片集成260个核心,核心工作频率达到1.5GHz,峰值运算速度达到每秒3.168万亿次双精度浮点结果,是全球第一款性能超过每秒3万亿次浮点结果的芯片,性能超过Intel、AMD、NIVDIA等国际厂商的商用量产芯片。

“申威”达到国际领先水平!中国网友纷纷建议:“我们的芯片,也要开始向美国禁运!”