西湖大学算力服务建设与运营经验

2023-08-15 07:19李南
中国教育网络 2023年4期
关键词:计算中心计算资源算力

文/李南

随着科学研究和工程创新的持续进步,大量研究领域都逐渐开始使用各自学科的计算分析工具对实验数据进行解析,通过对实验数据和计算分析的跨域整合,更全面地描绘研究对象,挖掘研究对象在应用理论或基础理论层面的含义。虽然此类方法在不同领域有不同的名称,如数值仿真、理论模拟、数据分析、统计分析、建模预测等,但这些应用的共同点是,依赖于不同规模的算力来完成特定算法下的数值计算。

近年来,人工智能领域迅猛发展,AlphaFold、DeepMD等人工智能驱动的科学研究(AI for Science)推动相关领域取得几十年以来的最大突破,ChatGPT和GPT-4等以大型语言模型(LLM)为代表的通用人工智能工具,其准确性和实用性也远超预期。未来,这些进展有望在众多领域促进生产力跨越性提升,成为推动社会发展和科研创新的颠覆性工具。无论是计算分析还是人工智能领域的研究,都依赖于高质量成规模的算力。而这些需求投射至高等学校,就体现在对高校计算中心或超算中心建设的要求上。

西湖大学

集群算力服务

西湖大学高性能计算中心(简称“计算中心”)成立于2019年6月,是实验室与科研设施部下辖的6个校级公共服务平台之一。 计算中心为西湖大学“高起点、小而精、研究型”的办学定位提供坚实的高性能计算基础支持,为全校各研究机构提供高质量、高可靠性、高定制化的科学计算和数据分析解决方案,满足各学科领域对于大规模数据处理和大规模科学计算的需求。2019~2022年,计算中心共支持205篇SCI收录论文和计算机会议论文发表,其中11篇发表在Science、Nature、Cell等高水平期刊上。

目前计算中心共有服务器机房500平方米和科学计算集群、冷冻电镜集群、人工智能集群三类高性能集群资源。

服务器机房采用冷冻水系统冷却和封闭冷热通道设计。这种设计相比风冷方式,降低了机房PUE(电源使用效率)值(图1)。

图1 西湖大学高性能计算服务器机房

计算中心通过各种类型的计算资源服务支撑学校各项科学研究,其中计算集群是科研支撑中的核心资源。截至2022年底,冷冻电镜集群和人工智能集群在全国高等院校中算力规模排名第一。从全校各集群总算力看,CPU算力为1.5 PFLOP/s(FP64双精度浮点计算能力),GPU算力为20 PFLOP/s(FP32单精度浮点计算能力),存储总量达40PB。

计算集群通过高速计算专用网络连接汇聚算力和存储。在使用时可以将数据分配至各计算节点,实现大量算力资源同时调用,也可以使用MPI(多点接口)等通信方式将多个计算节点算力整合利用,以解决单一应用同时使用大量CPU或GPU的需求。

校内集群建设按照技术架构和功能进行划分。其中,科学工程计算集群服务于通用CPU计算和GPU加速计算,支持生物学、化学、数学、物理学、计算机科学、电子科学、材料科学、环境科学、基础医学等学科的计算需求;冷冻电镜集群服务于结构生物学数据解析,应对持续的单日TB量级数据产出和快速处理等分析挑战;人工智能计算支持自然语言处理、图像、音频、人工智能驱动的科学研究等各方向模型训练需求,并支持基于容器的调度和部署。

集群服务于各种类型的用户,既满足长期使用少量资源的用户需求,也满足在特定时间内同时调用上千个CPU核心或者上百张GPU卡的用户应用需求或紧急算力需求。

同时,计算中心还对全校研究团队自购机器提供集群整合服务。集群整合服务即研究团队自购服务器可以并入集群,作为集群资源的一部分供研究团队授权的用户使用。这项服务在计算资源、系统运维、用户管理三个层面进行整合操作,扩容集群可用计算资源规模,降低整体系统运维成本,通过统一管理降低用户管理复杂度,同时便于研究团队用户在计算资源不足时快速扩大计算规模,并使用集群更多的计算资源。

总之,通过统一集中的算力资源并配合合理调度和管理政策,高性能计算集群可为校内大部分算力需求提供服务。

综合算力服务

在大部分情况下,集群算力服务对计算平台用户而言是自助服务。不同经验的用户在集群上的计算效率和使用体验会产生很大差别。因而在集群算力服务之外,中心还探索更多定制化支撑研究团队科研需求的服务,如应用优化、架构支持、项目支持、数据管理、云平台、培训支持等。这些服务建基于集群算力,根据研究项目或团队的需求合作开展,提升计算效率,解决数据安全,扩大研究成果的影响力,增强了高性能计算中心工程师团队的技术能力和项目经验。多样性的科研需求和定制化服务也推动了计算中心从集群算力服务逐渐演化到综合算力服务。

其中,中心在生物医学数据分析云平台建设的尝试是综合算力服务的一个典型例子。生物信息分析云平台涵盖了部署单细胞测序、表观遗传学、蛋白预测等校内常用应用。

在生物医学数据分析中,很多成熟的流程已形成最佳实践,工具和关键参数都基本确定,对于这些成熟流程可以通过网页方式提供服务,从而省去用户自己重新部署流程操作的步骤。同时,对于研究团队已经确立的私有流程,可以通过云平台共享给研究团队授权用户使用。此外,对于研究团队需共享给整个科学共同体的数据和算法,也需要统一的架构提供便利的用户访问和底层算力对接。

围绕这些需求,我们构建了一套SaaS(软件即服务)服务系统,通过轻数据分析、流程分析、科研算力服务三个层级选择不同工具,对接集群底层算力和存储,为研究团队提供更便利的数据分析服务。

据统计,整个生物医学数据分析云平台年度任务量超过8000个,支持近百名用户使用。目前,计算中心支持科研团队数据算法公共服务网站(图2)4个,支持1篇文章发表,2篇文章在投;接受来自全球36个机构的用户访问,共提交近千个计算任务,提升了研究成果的可及性并增强研究项目的影响力。

图2 数据算法公共服务网站

集群算力服务对信息化服务系统也提出了更高的要求。通过建立综合信息平台,为用户提供一站式计算服务、集群状态和服务数据查询是国内高校计算中心和超算中心的通行做法。

西湖大学高性能计算中心的综合信息平台可以为系统管理员、用户、研究团队负责人提供不同的服务,包括集群状态、任务状态、各类算力服务入口、机时和账单查询等功能。信息化服务平台为提升用户服务质量、优化对接流程、降低计算中心运营人力成本提供了重要支撑,同时为未来可能的算力规模扩张提供了信息基础架构。

科学评估与规划

计算中心建设对于高校而言是重大资产投入。计算中心的建设和规划需要综合评估资源需求、投资规模、场地条件、技术路线、运营模式、团队建设等多方面因素,提前论证规划来保证建成后的高水平运行。

成本规划

在规划过程中,需考虑到学校整体学科发展规划以及拟投入的资金规模,综合相关学科对计算资源的需求情况,确定计算资源规模,如CPU和GPU的数量、存储容量和带宽、计算网络技术和规模等。根据计算资源规模和未来扩容需求,可以确定基础设施规模,如电力配置和机房场地位置和面积等。此外,计算中心对电力资源需求巨大,建设时需根据规模和未来规划来评估机房制冷技术投入以及预估PUE值,以满足国家对机房能耗的政策性要求,降低运行周期内的总电力成本和低能耗制冷技术的总投入成本。

如何平衡计算中心运营成本也是计算中心建设过程中需要考虑的重要内容,包括是否有稳定的专项经费支持运营成本,或者是否需要通过计算资源费用收取来平衡运营成本。在没有专项经费支持运营或专项经费不足以完全支持运营的情况下,付费模式有利于降低计算中心的运营压力;同时,在付费模式下,计算中心也可以和用户共同挖掘满足科研需要的核心计算需求。

团队建设

不论采用何种运营模式,工程师团队都是计算中心最重要的资源。计算中心的运行、服务质量和发展速度都依赖于运维师团队的技术能力和整体水平。能力突出的工程师团队也是计算中心高效平稳运行的重要条件,而这就要求在规划时,需提前考虑工程师团队的职能分配、待遇、职业规划等问题。

随着科研团队对计算中心的服务质量要求不断提升,计算中心工程师团队的职责逐渐从机房服务器等偏硬件和操作系统方面的维护,扩展至科研应用在计算系统上的高效运行维护。因此,工程师团队需要组合承担机房和服务器平稳运行的运维工程师,和理解特定科研领域应用的应用工程师,通过团队合作提升科研团队应用运行效率和降低资源使用难度。

由于计算中心工程师在互联网和其他IT行业也拥有广泛的职业选择和晋升机会,因而还需要特别关注工程师团队在高校体系内的待遇和职业发展路径。

此外,在自建工程师团队的同时,还可以将部分运维业务转交给服务商团队承担,在降低人力成本的同时增加业务灵活性。

猜你喜欢
计算中心计算资源算力
首届算力互联互通大会在京召开 共话算力产业机遇与挑战
卫星通信在算力网络中的应用研究
中国—东盟人工智能计算中心正式发布
中国电信董事长柯瑞文:算力成为数字经济的主要生产力
基于SiteAI算力终端的交通态势感知系统
基于模糊规划理论的云计算资源调度研究
面向反应堆设计的高性能计算中心建设及应用
腾讯云首个5G边缘计算中心正式对外开放
改进快速稀疏算法的云计算资源负载均衡
基于Wi-Fi与Web的云计算资源调度算法研究