众所周知,超级计算(又称高性能计算,简称“超算”)是一个国家综合国力的体现,是支撑国家实力持续发展的关键技术之一,在国防安全、高科技发展和国民经济建设中占有重要的战略地位。
近年来,随着人工智能、大数据、云计算技术蓬勃发展,超算的应用范围不断拓展。举例来说,人类对世界的感知越来越多,在不同领域的活动也都留下了数据轨迹,产生了多维、多领域的数据综合关联分析需求。而云计算使得计算设施随时可得,大数据驱动了人工智能,GPU使计算能力产生了巨大的跨越,从而使分析能力的飞跃成为可能。
在人工智能时代催生新计算需求的同时,海量的数据分析和通信也在挑战着传统的超算系统架构和设计。可以说,人工智能时代信息处理需求也为智能超算平台体系架构的设计,带来了新的创新和变革机遇。
有数据显示,2018年全球人工智能算法论文40%为中国人所写。2017年7月20日国务院发布了中国的人工智能战略,人工智能已经成为国家战略。而中国又被誉为拥有庞大的人工智能市场。在这样的背景下,被誉为“国之重器”的超算和人工智能相结合会给我们的经济社会带来怎样的变化?
应用牵引技术发展
在过去四十年里,超算帮助人们解决了从宇宙天体到蛋白质分子一系列非常复杂的模拟问题。如今,超算面向生物医药研制、人工智能医疗领域的成效越来越凸显。以全基因组信息关联性分析为例,之前需要几年的时间进行分析,采用超算后可以将时间缩短为10小时。而在基因测序分析选择靶向药物用于靶向治疗上,则可以将时间缩短到30分钟。
随着大数据、人工智能对超算的需求越来越强劲,可以说人工智能让超算从高大上的科学领域扩展到了和人们生活息息相关的应用领域。
8月31日,以“突破算力 决胜未来”为主题的2018联想全球超算峰会在京召开。本次会议上,国家863、973计划重大专项组组长钱德沛教授表示,高性能计算是解决重大挑战性问题的重要手段,是促进国家经济建设、社会发展和科学研究的利器。“我相信在未来我们会越来越多地看到人工智能、大数据对于高性能计算带来的深远影响,无论是在体系结构、实现技术还是在应用、算法方面,我们将不断地看到三者融合发展的实力。”
联想集团高级副总裁、数据中心业务集团中国区总裁童夫尧也表示,HPC的应用主要有两个方面,一方面是传统的高大上的科学领域。另一方面是跟老百姓生活密切相关的人工智能技术带来的超算需求。
对此,中国工程院院士、天河一号和天河二号总设计师,国防科技大学计算机学院院长廖湘科表示,高性能计算本身为人工智能的崛起提供了一个新的计算引擎,而大数据和人工智能也牵引着高性能计算呈现了很多新的形态。人工智能需要超算作为后台进行越来越强大的模型训练、智能推理、关联分析,导致超算除了用于科学工程计算领域,应用范围越来越多元化。
因此,他认为未来高性能计算需要融合发展。首先,高性能计算本身必须要拥抱新的需求,不仅要支持计算科学,也要支持数据科学和智能科学。由于超算本身需要巨大的投入,需要巨大的市场回报才能促进超算良性发展,在应用领域的探索就显得更加重要;其次,在未来的发展趋势上,HPC异构融合结构一定会成为首选。特别是在用户范围扩大的情况下,要注重易用性和平台设计。HPC今后的软件站一定是能支持科学与工程运算、智能科学运行环境、大数据运算能力的统一运行平台。
同时要补齐国产超算的工程计算短板,建立协调发展的HPC工作环境。其中包括四个要素,第一是平衡计算的柔性设计,达到计算能力、通讯能力、I/O能力平衡;第二必须要进行应用领域的模型数据算法的研究;第三要有易用的平台化应用软件;第四要发展学科交叉,多个学科协调发展。
国家超级计算广州中心主任卢宇彤表示,近些年超算向以应用为中心的趋势发展,让更多行业的人能够更方便地使用超算成为超算发展的新方向。只有把应用群体扩大,技术才能够进入良性的循环轨道。
由于超算系统越来越复杂,应用需求也在不断变化,传统的编程软件已经不能满足更多应用的需求。在应用软件的研发上超算中心會扮演非常重要的角色,超算中心要搭建软件平台,建立起应用和系统之间的桥梁。
今后,除传统的大气,海洋,能源CFD的高性能计算应用领域外,人工智能带来的超算应用会越来越多。两者可以互相影响,相辅相成。“在广州超算中心,原来做超算和做人工智能的两个团队之前交互不多,随着近几年GPU出现以后交互开始增多。很多超算中的经验可以被人工智能的算法和应用借鉴,比如稀疏矩阵、数据库等已经在超算中持续优化多年的领域,可以让人工智能使用者更方便地使用。”她说。
卢宇彤表示,在应用牵引技术发展的道路上,中国走得比国外要早,需求也更多。现在整个超算技术的发展中,并没有哪个国家拥有成熟的解决方案。中国的超算从业者应该抓住发展的机会,形成合力,发挥各自的优势,在体系结构和软件方面有所突破。
值得注意的是,在人工智能与超算共同发展的过程中,还有短板需要补齐。中科院计算所研究员博士生导师、国家超级计算济南中心主任张云泉表示,人工智能要发展需要补齐三个短板,一是人才,二是生态系统,三是超算应用软件。
对此,卢宇彤也表示,交叉学科的人才短板和软件生态的构建或许会成为制约未来发展的瓶颈。需要大家在软件生态构建方面改变认识,特别是在基础处理器和基础软件上加大投入。
降低企业应用门槛
虽然超算已经走出科学计算的单一领域,但在企业级应用领域还处于初级阶段,有很多问题需要解决。
卢宇彤透露,经过广州超算中心这几年在应用方面的拓展,发现企业级用户的入门门槛较高。其中最重要的就是软件平台的搭建,尤其是工业制造领域,包含仿真、前处理、中间计算模拟、后处理等环境,非常复杂。因此,尽管超算在企业级应用领域未来的需求市场非常庞大,但市场究竟如何发展还依赖于软件发展情况。为此,广州超算中心去年发布了“天河星光”云超算平台2.0。该平台集成基础设施服务、高性能与可视化、大数据与深度学习,以及数据快传、冗余备份、数据管理等增值服务的多元化功能,支持跨软件、跨领域的耦合工作流,搭建以应用为中心的协同开发、运行环境。
对此,联想数据中心业务集团中国区方案营销总监李炜举了几个联想在企业级应用领域的应用案例,包括和中国电力研究院进行的电力调度和用户使用仿真模拟方面的人工智能应用,和中国大熊猫繁殖基地合作的利用人工智能场景远程观察大熊猫,以及快速人脸识别,模拟语音在汽车导航领域的应用等。
除软件平台外,降低企业级用户的超算入门门槛,还需要降低其操作的复杂性。联想集团副总裁、高性能计算及人工智能事业部总经理Madhu Matta表示,联想提供的整套人工智能解决方案可以让算法和开发、应用程序更加地简单。联想为此整合了所有工具和生态系统中产业链的所有合作方,让客户只需要面对联想就可以按照自己的需求,在云端和本地轻松部署人工智能解决方案。Madhu强调其中的重点是协同,使所有的软件在硬件之上协同应用,方便用户可以迅速搭建起深度学习的能力。
“目前我们在人工智能方面的工作清单非常之长,包括在巴塞罗那用AI算法来做癌症的诊断和治疗,还有水利及制造业的质量控制。我们的目标是成为一个端到端的方案供应商,为用户提供工具,帮助用户快速地开发出算法。”Mahdu说。
在研发上,联想已投入12亿美元,分别在美国莫里斯维尔、德国斯图加特和北京建立了三个新的人工智能创新中心,并依靠一支由业界一流专家组成的AI研发团队,全面发展面向行业的人工智能系统。同时,联想通过控股、参股的方式,进一步加强与各领域合作伙伴的密切联系。在硬件层面继续加深与Intel、NVIDIA、Mellanox等厂商的合作;在软件层面主动开放生态系统,吸引主流软件厂商加入联盟。在应用层面,联想创投投资了Face++、银河水滴科技等有潜力的科技创新公司,力争打造HPC+AI的完整生态圈。活动当天,联想正式发布了自主研发的AI产品家族,其中包括专为HPC和AI优化的全新人工智能服务器Think System SR670、Think System HG680、Think System HG690;全新的LiCO GENE Edition;此外,联想还推出第三代温水水冷解决方案“海王星”系统,其中包括Direct-to-Node温水水冷技术、后门热交换器、以及由空气和液体冷却组成的混合冷却技术,使数据中心的运行效率提升高达50%。