文/本刊记者 项阳
林新华上海交通大学网络信息中心副主任
在就高校算力服务建设话题接受本刊采访时,上海交通大学网络信息中心副主任林新华多次提到“学科融合”的重要性。计算机专业背景和计算科学专业背景的人才共同组成了交大计算团队,通过学科融合,交大将计算能力的培养融入专业课教学中,并让科研团队专注于科研创新,让算力服务充分支撑教学和科研。
关于高校算力服务的现状和前景,林新华指出,当前高校算力建设正处于“爆发”的风口。但最重要的是要加强自主创新,未雨绸缪,让算力建设“可持续发展”。
《中国教育网络》:近年来,我国算力服务建设取得了不少进展。“东数西算”工程启动已逾一周年,正从系统布局进入全面建设阶段。在您看来,当前我国算力行业发展呈现了哪些特点和趋势?
林新华:“东数西算”工程在2022年正式全面启动,一年多来,“东数西算”工程做了很多事。总结来说主要呈现了两个特点:一是连点成网,二是小网连大网。
连点成网。我们知道,“东数西算”工程计划在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等8地建设国家算力枢纽节点,并规划了10个国家数据中心集群。我们可以把这些枢纽节点和数据中心集群看成“点”。在工程前期,主要工作是对这些“点”的内部进行建设。而从今年开始,在对“点”布局建设的同时,在国家枢纽节点之间进一步打通网络传输通道,慢慢将“点”连成“网”。近日,科技部启动国家超算互联网部署工作,通过将国家级超算中心、区域性超算中心、高校超算中心等互相连接起来,打造国家算力底座,促进超算算力的一体化运营,就可以看作是“连点成网”的行动。
小网连大网。除了国家级超算互联网外,实际上,各地也都在建设城市级的算力网。例如,上海市经济和信息化委员会近日发布《推进算力资源统一调度指导意见》,提出逐步推进建设“算网布局不断完善、算力资源供给充沛、算力结构持续优化、算效水平稳步提升、应用场景不断丰富”的发展格局。再如,武汉市计划将集约型超算中心与分散型中小型算力站连接形成城市算力网,再通过CENI(未来网络试验设施)并入国家算力骨干网,作为中部枢纽节点与东西部形成算力互调。
从国家层面看,当前我国算力行业的发展布局,一方面将国家算力枢纽节点“连点成网”;另一方面将小的城市级算力网连到大的国家级算力网,打造支撑数字中国建设的“信息高速公路”。
《中国教育网络》:近来,ChatGPT等人工智能应用备受关注。您认为,ChatGPT的出现对算力行业将产生怎样的影响?最近一两年有哪些重大的技术突破推动着算力行业的发展?
林新华:“计算是对人工智能最关键的技术。”我认为,中国工程院院士、阿里云创始人王坚的这句话最能概括对ChatGPT热潮的思考。这意味着,人工智能有多“火”,计算就有多重要。
实际上,近一两年来,推动算力发展的重大技术,没有什么能和大模型(Large Language Model)的涌现相比。它极大地促进了大家对算力重要性的认知。犹如“旧时王谢堂前燕,飞入寻常百姓家”,人们意识到,大模型这个此前离普通人遥不可及的“高端”技术,似乎一夜之间开始涌入并改变我们的生活。
2012年12月,中国高校最强算力基座“思源一号”在上海交通大学的启用备受瞩目。
其中,GPT-4是大模型浪潮的引领者,引发了海量算力需求,让大家看到了无限潜能。但与此同时,算力的现状却阻碍着基于Transformer(转换器)架构的GPT-4等大模型的进一步发展。我们简单估算一下,如果GPT-4模型是1万块GPU(显卡)训练而成(另一种说法是2.5万块GPU),根据GPT-3向GPT-4迭代的规律,GPT-5的训练量可能需要60万块GPU,而当前的算力和电力根本无法满足需求。接下来,GPT-4可能会有一些递进性的技术进展,并在各个行业领域里慢慢落实,但由于算力所限,它无法迅速实现迭代升级。
总之,GPT-4的出现引爆了算力危机,但也引起大家对算力的关注,让算力对人工智能的重要性成为一种共识。这也将推动算力基础设施的进一步发展。
《中国教育网络》:在高校,近几年也掀起了一股算力建设热潮。您认为,从发展时机上看,高校超算是否到了一个突破的风口?高校算力建设“爆发”背后的原因是什么?
林新华:当前,高校超算的确到了突破的风口。总结起来有三方面原因。
第一,高校对算力的需求有了突破性增长。除了高校自身的科研、教学算力需求一直在稳步增长,如今又叠加了对大模型训练的需求,使高校的算力需求变得非常旺盛。
第二,高校的算力需求在有些情况下无法通过国家级超算中心得到满足,这促使高校开始建设和发展自己的超算中心。这是因为高校的教师用户非常多,对算力的需求也都各不相同,很难通过国家级超算为每个用户都定制开发适配性的软件。
第三,去年9月,教育部出台新政扩大教育投资提供贴息贷款,加速高校数字化进程。根据计划,专项贴息贷款重点支持高校教学科研、实验实训等重大设备的购置和配套设施建设,包括校园网络及信息管理系统提档升级,高性能计算、信息中心建设,数据中心国产化替代等。如果说促使高校大规模发展算力的前两个原因是长期的、渐进的,那么国家的政策和投入则让高校算力真正迎来了爆发。
《中国教育网络》:2021年12月,中国高校最强算力基座“思源一号”在上海交通大学的启用备受瞩目。“思源一号”具备哪些技术特色?您认为,高校对算力服务的需求有哪些方面?上海交通大学拥有国内高校顶尖的算力中心。能否分享一下,交大在提供算力服务方面的思路和经验?
林新华:“思源一号”首先有强劲算力,总计算力达6 PFlops(CPU+GPU 双精度),在中国高校HPC算力排名中位列第一。此外,“思源一号”还具有低碳减排的技术特色,是国内唯一采用了热回收技术的超算,采用国际最先进的温水冷却技术,回收超算产生的热量,为李政道研究所的大楼供暖。
高校对算力服务的需求主要体现在其三大功能教学、科研、管理上。广义上的算力包含超算,也包含云计算。高校超算主要还是服务于科研,而云计算服务则基本可以覆盖每一个师生。
上海交通大学(简称“交大”)的校级计算平台“交我算”由网络信息中心负责建设及管理,全面支撑学校的教学、科研和管理的计算需求。
其中,计算对教学的支撑主要体现在两方面,一是普适的教学,二是特色化的定制教学。
疫情期间,高校普遍采用线上教学。交大的云服务教学系统由云平台提供技术保障,使整个学校的教学过程可以统一管理,教学资源得到优化配置,支撑起教学资源上网、教学过程上网。疫情期间的“停课不停学”体现了计算服务对普适性教学的支持。
而将计算深度融入教学,是富有交大特色的定制教学模式。
随着计算在各学科中变得越来越重要,如何让非计算机专业的学生掌握所需的计算知识和能力?
一方面,交大组建了专职教辅团队,与专业课老师共同改造计算相关课程,如“计算流体力学”“计算材料学” “飞行器设计”等,将计算能力培养深度融入相关专业课教学中。除了与专业课老师共同设计改造课程,计算服务团队还走进课堂,为学生讲解学科领域计算前沿,让学生在专业课学习中就能掌握相关的计算知识。
另一方面,大家容易有一种思维定式,在提供计算服务上科研远远优先于教学,因此常常将淘汰下来的科研计算设备用于教学中。而交大打破了这种定式,在教学支撑中同样使用最先进的计算平台,免费向校内师生提供优质的计算服务。去年开始,“思源一号”也加入到“交我算”教学支撑的资源池中。优质的计算资源为课程升级赋能,让学生的使用体验、教师的教学成果都显著提升。
先进的计算设备不仅大幅提升了学生的学习积极性,对于研究生来说,因为在学习课程时已经充分掌握了计算实践的流程和方法,在上完课之后,就能够更快地投入到科研工作中,实现教学和科研的“零成本迁移”。
《中国教育网络》:您认为,高校要做好算力服务建设,需要具备哪些基础条件?
林新华:我认为,要做好算力服务建设,有两点非常重要。
一是算力服务团队。可能有人觉得,超算无非就是大一点的电脑或手机。实际上,这完全是一种误解。问题的难度往往会随着规模的扩大而发生本质性变化,而人的作用在其中也越来越重要。超算的管理是非常专业的,需要专门的研究和管理团队。超算中心能够提供的服务往往受限于团队的规模和能力。
当前,很多高校在超算的硬件设备投入上并不差,但超算管理团队却只有几个人,因此只能受限于最基础的模式,把超算当作服务器来管理,停留在管机器、开账号的阶段上,难以让超算发挥应有的作用,提供更深层次的算力服务。而如果能把对硬件设备的投入中拿出一小部分来建设团队,提供更多的增值服务,让学科融合得更好,则会让超算发挥的效用翻倍。
二是体制机制。高校建设超算,如果只是买机器、管设备是远远不够的。体制机制这种“软性”层面的东西往往是高校算力服务发展的重要保障。
体制机制问题体现在很多方面。
例如,学校建设了校级算力平台之后,是否还应该允许院系建自己的平台?实际上,院系分散建设有很多局限性,其计算资源难以共享,利用率低;运维人员往往没有岗位编制,水平也参差不齐,如图1所示。在学校已经建设了校级算力平台的情况下,往往会造成很多资源浪费。
图1 院系分散的局限性
在这方面,上海交大于2018年出台相关政策,不允许院系自行购买服务器。如果院系想购买,需要双一流建设办公室、资产处、网络信息中心等多个部门共同管理和把关,由此大大提升了校级计算平台的利用率,避免了低水平的重复投资导致的计算资源浪费。
再如,当老师需要计算服务时,应该如何申请,如何缴费,如何使用,如何开具证明?高校用户使用计算服务有着很复杂的流程,不是单个部门院系能够完成的,往往需要学校层面的协调。这些都体现了在高校超算建设中,体制机制的设计非常重要。
《中国教育网络》:对于不同类型、不同规模的高校来说,算力水平与运营模式都有不少差距。您分析认为,当前高校算力服务主要有哪些模式或者类型?这些不同的模式各有哪些优点和缺点?对于自建算力平台和校企合作建设来说,学校在选择时有哪些考虑?
林新华:高校算力服务的模式或类型可以从不同角度来看。
从校级算力平台所属单位的角度来看,一般有三种模式:一种是挂靠在院系/实验室等;一种是建有独立的高性能计算中心;还有一种是挂靠在网络中心/信息中心。
第一种模式的优点很明显,其所属单位为院系,院系的老师和学生可以直接参与其中,有足够的专业性支撑。但与此同时,这种模式的缺点也很明显,首先在服务上,要考虑除了为本院系服务,如何能让超算平台更好地为其他院系服务?此外在经费结算上,虽然平台是校级的,但在费用上如何由院系更好地管理?
上海交通大学
第二种模式,校级算力平台所属的单位是独立的,在服务和结算方面会避免不少麻烦。但这种模式也有不少缺点。独立的单位需要配备专门的行政、财务、技术人员;与此同时,其员工的工作量可能是不饱和的,在学科的专业性方面也会受限。
第三种模式则介于两者之间,把校级算力平台放在网络中心。与第一种院系模式相比,可以更加专注于服务,对各院系而言更中立更公正。在对员工业务考核时,也以算力服务的质量为准。与第二种独立模式相比,网络中心已经有行政、财务等人员配置,可以对超算平台进行更好的统筹;在技术人员方面,超算平台需要懂机房、懂网络、懂安全的人才,而这些与网络中心的人才需求也是相通的。将校级算力平台放在网络中心,能在人员管理方面达到最优。
当然,每个高校面对的具体问题和环境都不尽相同,在选择适合自己的建设模式时也会有不同的考量。以上海交大的经验来看,在对比权衡之下,我认为第三种将校级算力平台放在网络中心的模式是最优解。
从自建/合作的角度来看,大部分高校会选择自建算力平台。高校自建算力平台不仅包括将超算建设在学校内,也可能因为节能、环保和空间的原因将超算建设在外地;而校企合作多采取租用公有云的方式。学校在选择合适的模式时,不仅会考虑技术因素,更有很多非技术方面的考量,如对固定资产、数据安全等方面的考虑。
《中国教育网络》:刚才提到,团队建设是高校算力服务的重要基础和保障。您认为,高校超算中心在人才队伍建设方面面临哪些挑战?在人才团队建设方面,交大有哪些经验可以分享?
林新华:高校算力中心在团队建设方面的最大挑战是人才外流。尤其是人工智能的发展热潮进一步拉动了算力人才的需求。相比高校,企业的薪资待遇等往往更有优势,这使得高校要招聘和留住人才,面临不少挑战。
在团队建设方面,交大打造了国内高校最大的计算服务团队——交我算团队,目前团队有34人,在系统管理、用户应用、学科融合、性能优化、教学支撑等各方面都发挥了重要作用。
“学科融合”是交我算团队的一大优势。团队里有约一半人是计算机相关专业(computer science)背景,另一半则是计算科学(computational science)专业背景(生物/材料/环境/航天航空等)。交大通过学科融合的服务模式让科研团队专注科研创新,把研究中遇到的计算问题交给计算团队。不同应用学科背景的成员,在计算服务中充当了应用学科与计算机学科之间的“翻译官”,有效降低了沟通成本,提升了服务品质。其中,交大医学院及12个附属医院是科研大户。团队里拥有生物信息学背景的成员,为附属医院瑞金、仁济、九院等,提供了很多专业的算力服务。例如,听力筛查是诊断新生儿听力出生缺陷的重要手段。九院致力于新生儿听力筛查技术的研究及应用,而交大“交我算”团队将研究所需的数据按要求处理,充分发挥学科融合计算服务模式的优势,为九院的研究提供了良好的算力服务支持。
《中国教育网络》:在您看来,未来高校算力服务前景如何?下一步高校算力服务建设应该从哪方面发力?
林新华:未来高校算力服务的前景取决于能否做到“可持续发展”。在大规模的投入建设浪潮之后,高校面临着能否出成果和能否持续投入的压力。
因此,我认为如何让超算建设“可持续发展”,是未来高校的发力方向和关注重点。要未雨绸缪,紧跟国际形势和国家战略布局,更多地探索、发展国产计算技术。在这方面,拥有技术实力的头部高校应该做出表率,在自主创新上更多“探路”,营造良好的创新生态,让创新成为高校算力持续发展的动能。