撕开突破口

2016-06-27 11:13
时代报告·中国报告文学 2016年6期
关键词:超级计算机银河和尚

CPU+GPU异构融合体系结构,形象地说,就是把众多CPU、GPU有机地连成一枚“捆绑式火箭”(CPU相当于主改动机、GPU相当于助推改动机)。

这一技术路线的最大创新,就是将用于图像处理的GPU运用于高性能计算,最大的挑战就是实现GPU高效能计算。它成为阻挡每秒千万亿次超级计算机战役进展的第一个“堡垒”。

2008年底,以杨学军为总设计师的总师组,把撕开“突破口”的重任交给杨灿群和他带领的突击队。

经过10余年科研实践历练的杨灿群,对于自己的工作有个非常精妙的比喻:“搞工程技术,就像猜谜语。谜底出来了,大家恍然大悟:‘原来并不深奥,可在此之前,你的眼前却是一片云山雾海,你不知道目标在哪里,甚至不知道该朝哪个方向寻找,可以说两眼迷茫。”

GPU的科学计算问题便是这样一道谜语。

当时,市场上宣称有通用计算能力的GPU有两种,分别由NVIDIA与AMD生产,每种GPU都有多个型号。单独的GPU只是一颗芯片,需要和配套的存储器及外围电路构成显卡才能使用,生产此类显卡的厂商有好几家,市场上可购买的计算显卡就有近20种。这林林总总的显卡中,哪款能满足科学计算要求?杨灿群和突击队员两眼一抹黑。

为从这众多显卡中找到双精度浮点计算性能高、系统兼容性好、运行稳定的显卡,杨灿群带领突击队从2009年初开始夜以继日地进行大海捞针般的筛选工作。

春节前一周,他们把一种显卡安装到一款主机板上测试,但软件系统安装完成后,系统无法启动。他们首先怀疑是硬件问题,但硬件技术人员坚称该主板质量非常过硬。他们便从软件找原因,但尝试不同版本操作系统和显卡驱动后,问题依然如故。为了找到问题症结,他们在春节期间加班加点。大年初四那天,他们不经意间在主板上发现有个模糊标识,称该主板有启动异常故障,维修后也没有确认故障是否彻底解决,弄得大家哭笑不得。

还有一种显卡含两个GPU芯片,其驱动程序要求接上两个显示器才能让两个GPU同时工作,这显然不能满足科学计算的要求,因为不可能在一台计算机里安装一大堆显示器。他们通过查阅资料发现,可在显卡输出接上电阻来模拟显示器。为找到这种电阻,他们从尘封了上十年的器件柜中找出了几个满足要求的插装电阻,解决了测试问题。

……

两个月间,他们不知经历了多少这样的曲曲折折,才完成了近20款GPU的安装、测试,终于找到了满足计算条件的GPU。

中国有一句谚语:“一个和尚挑水喝,两个和尚抬水喝,三个和尚没水喝。”

CPU+GPU异构融合体系结构,把数千个CPU、数千个GPU组合在一个“大庙”,它们还能卖力“挑水”吗?

2009年3月,他们把CPU、GPU这两类“和尚”组合起来,利用GPU加速应用程序进行评测,竟发现总性能还不到每秒600亿次,而一颗CPU就有近每秒500亿次的性能。也就是说GPU这个“和尚”,虽然用于图像处理,速度惊人,但让它与CPU放在一块用于科学计算,就变得非常懒惰,计算效能只有20%左右。

面对这样的测试结果,大家心里凉了半截。须知,凭着GPU这等工作效率要造出每秒千万亿次超级计算机,岂不是天方夜谭?难道真如外国专家断定的,GPU根本不能用于科学计算机吗?

总设计师杨学军得到报告后,在第一时间赶到实验室。听完情况汇报后,他向身边的妻子招招手:“玉华,你去把车开来,带我出去转转。”

这是他的工作习惯,每凡科研遇到难题时,就让妻子开车带他去兜风。

“雪弗莱”驶出市区,奔驰在二环高速公路上。杨学军仰靠着座背,微闭着眼睛,让思绪随着从车旁呼啸而过的春风、扑面而来又疾速闪去的盎然春景,在科学的天地的盘旋……

“雪弗莱”驶出高速收费站时,杨学军掏出手机,拨通了杨灿群的号码,坚定地说:“别人不敢走的路,并不等于走不通。从技术原理分析,GPU的计算性能,通过软件优化,是可以大幅提高的……”

学校召开每秒千万亿次超级计算机工程攻坚动员大会。学校、学院党委向大家发出号召:“勇敢地担当起国家和民族冲击世界超级计算机科技高峰的历史重任,在年底前坚决完成每秒千万亿次计算机攻关任务,让银河的凯歌在神州大地上奏响,让银河的光彩再一次闪亮寰球!”

关键时刻,经学校党委推荐、中央军委主席胡锦涛任命廖湘科为计算机学院院长,同时兼任每秒千万亿次超级计算机工程总指挥和常务副总师。

挫折面前,杨学军总师、廖湘科总指挥一商量,竟作出这样一个超常决策:把完成研制任务的时间节点,由原计划2010年底提前一年,即在2009年底前推出中国第一台每秒千万亿次超级计算机。

决定一宣布,把一些人的眼睛惊得圆圆的:“关键技术尚未突破,还提前一年完成任务,能行吗?”

可新一代银河人对自己充满自信:“当年研制‘银河—Ⅰ时,困难还不大吗?可前辈们顽强拼搏,愣是提前一年完成任务。还有‘银河—Ⅲ,原计划用五年,大家齐心协力,争分夺秒,仅用三年就实现了每秒10亿次到每秒100亿次的大跨越。前辈们能做到的,我们也一定能做到!”

在杨学军、廖湘科率领下,国防科技大学超级计算机创新团队,拉开了每秒千万亿次超级计算机战役总攻的序幕。

长沙北郊的湘江之畔,有一片群山环抱的洼地,山上草木郁郁葱葱,山下坐落着一栋三层小楼。这是长沙市抗洪指挥部所在地。由于汛期未至,这里鸟儿啁啾,人迹稀少,煞是幽静。

杨灿群和他的突击队,把这里当作攻坚的战场。他们整天猫在小楼里,心里只想一件事,就是想方设法调动GPU这群“和尚”的积极性,让他们多“挑水”,争取“1+1”尽量接近“2”。眼睛也只盯着一个地方——显示屏,从那些不停滚动的浩如烟海的数据中,寻找一个个稍纵即逝的灵感,捕捉一次次优化GPU计算效能的机遇,然后对计算程序进行一遍又一遍的修改。

那周,杨灿群与伙伴们和往常一样,从早上7点盯到午夜,从周一盯到周五,竟然没有发现一次战机,没有取得任何战果。

连续鏖战数日,早已筋疲力尽的杨灿群,躺在床上辗转反侧,难以入眠。他于心不甘。往常从周一到周五,都能找到性能优化突破口,可在周末时间研究优化方法。那些数据犹如一群蜜蜂,在眼前不停地窜来窜去。闭上眼睛,满脑子还是那些波涛般滚动的数据。

突然,他隐隐觉得眼帘上滚动的一些数据低于设计目标。他一骨碌从床上爬起来,从家里跑到办公室,打开与服务器相连的笔记本电脑,进入试验数据库,果然发现GPU一部分计算资源没有用起来。兴奋难抑的杨灿群,立刻着手程序优化,GPU计算性能又一次提升。当他改完程序起身打开房门时,只见太阳早已爬上山顶,露出了灿烂的笑脸,小鸟在树林里欢快舞蹈、清脆鸣唱。

类似这样的优化改进,他们在两个月里进行了一万多次,终于把GPU计算效能提升到58%。

这充分验证CPU+GPU异构融合技术是科学可行的!

杨灿群带领突击队乘胜扩大战果,不分昼夜反复测试、研讨、改进。虽然每一次提升都如同滴水般微小,但把它们汇集起来,就能创造科学奇迹。在连续奋战四个月,先后改进优化8万余次之后GPU计算效能跃升至70%以上,达到世界最高水平!

猜你喜欢
超级计算机银河和尚
三个和尚有水吃
问银河
银河升起
英国
小和尚
小和尚的烦恼
美国重登全球超算500强榜首
每秒100亿亿次 中国超级计算机
问银河
问银河