熊伟
应用带动技术发展,是我国IT领域常见的模式。如在移动通信、电子商务等场景中,庞大的同时在线用户数,海量的并发指令,“锤炼”出了强壮的应用系统,同时带动相关软硬件技术发展。市场大,用户多,应用创新充分,原创技术相对较少,这些因素共同导致我国IT应用水平强于技术水平的普遍现象。
可是在高性能计算(即超级计算、超算)领域,情况恰恰相反,应用落后于能力。超级计算一直是计算机技术王冠上的明珠,其研制水平体现一个国家的综合国力,其应用常常关乎关键武器研制,因此具有战略意义,一直是大国竞争的舞台。我国超算的计算能力世界领先。2017年全球超算大会揭晓的“全球超算500强榜单”中,中国的“神威·太湖之光”和“天河二号”分获冠亚军。“神威·太湖之光”超级计算机上使用的处理器完全由我国自主研制。此次中国超级计算机上榜总数达到202台,占比超出500强榜单的40%,美国上榜144台,列第二位。面向2020年,国家制定了实现E级计算的目标并开始实施。E级,意为每秒100亿亿次浮点运算,是现在冠军速度的10倍以上——“神威·太湖之光”的浮点运算速度为每秒9.3亿亿次。
与领先的超算能力相比,我国超算应用却并无优势,或者说,我国超算应用尚未发挥已有的超算能力。虽然2017年11月,基于神威太湖之光的超算应用“非线性地震模拟”蝉联“戈登贝尔奖”,但我国超算应用发展远远滞后于超算能力发展,是业界的共识。
国家超算济南中心主任张云泉近日发给本刊一份政协提案,直面我国超算应用优势不足的问题。这份提案是九三学社中央在全国政协十三届一次会议提出的,题为《关于将超算速度优势转化为应用优势的建议》(以下简称“提案”)。提案指出了应用发展相对滞后的原因和后果。
应用发展滞后的外部原因:国外软件垄断。在超算应用比较多的制造业和基础科研等关键领域,大部分应用软件都被国外垄断。我国不仅支出巨额软件采购费用,软件升级还受制于外方。比如航空系统,一年花费两亿多元进口应用软件,“有的软件只是在原软件的基础上‘改一改、升升级,就得花费几千万元”。
应用发展滞后的内部原因之一:建设思路“应用置后”和“重硬轻软”。欧美国家一般根据实际应用需求,针对性地研制超级计算机和超算软件,我国则先重视发展超算计算能力,后考虑实际应用。研发投入方面,则软件经费严重偏低,约占20%或30%,“我国正研发的几十个超算应用软件,一半以上与制造业有关,既能大幅推动制造业发展,又能促进超算有效利用,但项目审批时,经费经常被大幅削减”。欧美国家则不同,以美国能源部为例,该机构对超算软、硬件的投入大致各占一半。
应用发展滞后的内部原因之二:研究力量不足。一方面超算软件研发力量分散,国家实验室少,未形成合力。另一方面软件人才严重匮乏,高校相关人才培养体系、培养计划和课程设置落后于超算应用领域人才需求;同时,由于科研评价、待遇等方面问题,应用軟件研发人才频繁“跳槽”。
应用发展滞后的后果:超算利用效率低。国内用于科学计算研究的超级计算机不到40%,用于金融业和制造业的比例也偏低。提案举例:科技部通过一系列重点研发计划,在重点应用领域部署了一系列课题进行几十万核乃至百万核并行算法与软件研制的重点突破,但目前运行的大部分作业,其并行规模仍停留在几千或几万个处理器甚至更低的量级,没有充分发挥出亿亿次超级计算机上并行的能力。
为解决我国超算应用发展滞后的问题,提案列出四项建议。
一是成立若干国家级超级计算并行应用软件行业工程中心。制定我国超级计算机应用中长期研究规划和路线图;当前应着力开展艾级应用相关的基础问题和关键共性技术研究。
二是转变“重硬轻软”思维,持续稳定支持超算应用软件研发。调整财政支出结构,统筹协调全国超算研制计划和经费安排,软硬件经费投入比尽量做到1:1。
三是鼓励超算中心联合应用部门组建联合实验室。实验室主任由应用方的学科带头人担任,超算中心提供高性能运算支持并指导或协助进行程序移植,自主研发大型并行应用软件,并通过应用在用户中培养人才。
四是重视计算科学学科建设和人才激励机制。推广“超算理论+多学科应用”课程,促进超算领域多学科交叉融合。对高水平软件科研人员实行兼职兼薪、协议薪酬等模式;采取内外部结合的评价机制,给予软件研发人员公平公正的评价和职务晋升通道。
我国超算应用落后于能力的现象已经公开讨论并就此形成了各种意见,九三学社中央提出的这份《关于将超算速度优势转化为应用优势的建议》体现了其中的一部分。问题是否会得到解决?张云泉接受本刊采访时说:“高性能计算是科技创新核心竞争力的重要方面,是推动国家安全与发展的强力引擎,为解决国家安全、技术创新、经济发展和社会进步等一系列重大挑战性问题提供了不可替代的重要手段,国家一定会重视目前存在的应用滞后等问题。既然我们能反超美国,建立起超算能力优势,相信经过努力,假以时日,一定也能建立起超算应用优势。”