高校高性能计算平台的建设与运维探讨

2020-12-16 09:11高金金
山西电子技术 2020年6期
关键词:浮点计算资源高性能

高金金

(山西财经大学 实验中心,山西 太原 030006)

随着数据信息爆炸式地发展,科学研究越来越倚重于高性能计算资源。高性能计算的发展也支撑着大数据与人工智能行业。高校作为科研的主力机构之一,有必要加强高性能计算平台的建设。同时依据《教育信息化十年发展规划(2011-2020 年)》和《教育部社会科学司2020年工作要点》中有关重点支持“文科实验室”建设导性意见,山西省教育厅颁布的高校信息化建设要求以及山西省1331工程等重要文件的精神,从加快建设高水平大学和加强学校“双一流”建设的目标出发,适应师生对高性能计算云的强烈需求,实现高校信息化发展,提高科研竞争力和综合实力,学校积极筹备建设高性能计算平台。

“高性能计算云”将为学校各科研实验室进行科学研究提供强大的高性能计算资源,特别是高时间复杂度和高空间复杂度的算法研究、大数据并行计算处理研究不出学校就可进行。该平台的优势如下:1) 性能高;2) 建设成本低;3) 易于维护;4) 扩展性强;5) 资源调度能力高,资源利用率高;6) 软件生态环境好;7) 兼容性强。

山西财经大学“实验云”平台建设由“桌面云”、“高性能计算云”、“实验云基础设施”三部分组成。本文在研究总结高性能计算平台建设相关问题的主流解决方法的基础上,给出了山西财经大学高性能计算平台的具体方案,并对高性能计算平台的管理运维模式进行详细探讨。

图1 山西财经大学实验云总体规划

1 山西财经大学高性能计算平台建设方案

目前,全国大部分985、211重点高校都建有校级高性能计算平台,其中规模最大的是南京大学校级高性能计算平台,除此之外,北京大学计算中心也在进行高性能计算平台更新换代工作,新的高性能集群在2017年建成[1,2]。山西高校中比较大的超算平台是山西大学校级高性能计算平台。我们深入研究了国内外大量商业化超算中心与教育科研机构自建的高性能计算平台,对它们的建设方案进行了分析研究,并深入了解了目前最先进的平台软硬件体系结构,掌握了现在高性能计算平台的主流技术路线。在此基础上,结合山西财经大学实际需求,给出山西财经大学高性能计算平台的具体建设方案。该方案以高性能计算集群作为基础架构,以适当的计算节点资源为核心,搭配大容量高性能的存储设施与大吞吐量的网络设施共同构建。

1.1 体系架构的设计与选型

现在主流的高性能计算平台大多采用了计算机集群的方式作为计算系统。计算机集群通过高性能网络整合异构且松散的计算资源于一体,将各种节点的逻辑地组合成一台超级计算机。所以,财经大学高性能云平台建设方案以高性能计算集群作为基础架构。

1.2 计算资源与设备的设计选型

1.2.1 通用计算资源

主流的高性能通用计算架构依然以X86架构为基础。在X86架构之外,ARM架构也有了长足的进步, ARM的高级架构授权,对于发展我国基于ARM安全可控的自主CPU有很大的帮助。

方案中通用计算节点主要以高性能的X86架构的CPU与大容量内存为核心基础,考虑到近年来我国大力推广安全可控的硬件产品,CPU方面选取了国产的海光C86 7185。单个CPU拥有32个物理核心,单个节点采用2路CPU。内存方面,单个节点配备256G内存。通用计算节点共备3台。

1.2.2 浮点计算资源

浮点计算对于GPU的需求非常高,而GPU必须搭配专用的显存作为浮点计算内存使用,方案选择了NVIDIA专业计算GPU Tesla V100作为浮点计算器,该型号GPU支持高性能双精度浮点计算能力与GPU虚拟化技术,且显存容量高达32G,单个节点安装两路GPU。相对于通用计算节点,浮点计算节点对于CPU的需求不算太高,但考虑到浮点计算节点往往也会参与部分数据处理计算,方案选取了Intel 至强黄金5115,单个CPU拥有10个物理核心,单个节点配备2路CPU和256G内存。浮点计算节点共配备3台。

1.3 存储设备的设计与选型

存储系统应当具备超高的并发性能与较高的吞吐速率和一定的稳定性与可维护性[3]。FC-SAN磁盘阵列系统在吞吐能力方面能够满足计算的IO需求,并且IO性能方面也有着一定的扩展性。

本方案存储设备方面选择了曙光DS600系列磁盘阵列系统。该系统配备的4个8Gb SFP光纤模块能够提供足够的计算需求吞吐量。除了FC-SAN通信能力之外,还支持多种通信方式,且通信模块还可以扩展一倍以支持后期更大的吞吐需求。单台设备可安装12个3.5寸SAS硬盘。

1.4 网络设施的设计与选型

主流网络设施以InfiniBand为核心,外围辅助以太网。交换机选用专用的InfiniBand交换设备。管理网络方面以千兆以太网络为主。考虑到计算节点的异构性和兼容性,网络设施不适合使用高度定制化的产品。万兆以太网络可以满足部分低吞吐需求的集群或者集群的边缘业务部分,且具有成本低、用户基础广、技术成熟度高等优点。InfiniBand在超大吞吐量计算需求的集群中有着广泛的应用,其速率可达到40Gbps~100Gbps,稳定性高、延迟低。Intel Omni-Path是一种与Intel CPU集成的超高速网络方案,但是对非Intel的产品兼容性不佳。

1.5 操作系统与管理系统的选型

Linux是一类由开源社区维护的操作系统。非常适合用作于超算的操作系统基础设施。

本方案的操作系统选取了Linux系的主流发行版之一的Cent OS 64位版。

集群调度管理与运维方面,以曙光Gridview系列配套软件为基础。

1.6 高校高性能计算平台环境准备与基础设施

为保证高性能计算平台持续稳定运行,平台硬件所处的环境在温度、湿度、供配电等多个方面提供必要的保障。本方案基础设施采用模块化数据中心模式,构建承载HPC高性能计算和实验室教学及实验所需的环境基础设施,包括UPS不间断电源、蓄电池、供配电、制冷系统、动力环境系统等。

2 高校高性能计算平台运维模式

高性能计算平台建设投入大、运行和维护费用高,因此运维体系十分重要[4],需要从管理、技术、人员等多方面去考虑,坚持“以人为本”的原则,建立科学的平台管理运维体系,保持平台良好运行生态。

2.1 运维管理制度

制定严格的制度管理。高性能计算平台的硬件设施必须能够提供除必要维护外的不间断服务,严格的制度管理是设备安全运行的保证。平台必须有严格的设备检查制度,消除配电、空调等设备方面带来的安全隐患。计算集群应有全面完善的专业化监控运维设施,实现客户HPC资产全生命周期管理服务及自动化运维,实现基于“互联网+”模式下的HPC生态圈。

2.2 用户技术支持

运维中心要制定高性能平台发展战略以及相关的技术咨询服务方案。建立完备的用户申请流程,提供相应的技术服务,比如协助用户安装软件、配置实验环境,向用户收集反馈信息等,解决用户在具体应用中遇到的各类问题。通过在高性能平台门户网站上进行相关内容的更新发布来给予用户及时全面的平台信息。邀请高性能计算专家来校访问,举办高性能计算应用系列讲座进行短期培训,去兄弟院校相关部门进行交流,通过多渠道提高技术服务的质量。

2.3 运维人员管理

平台必须有专门的人员进行管理维护。高校高性能计算平台的运维工作与计算资源销售服务行业有着很大的相似度,增强服务意识能够有效地为用户提供充足的便利性,如建立完善的诉求通道,并积极进行回应。所以要调动平台技术人员的积极性和主动性,提高平台技术人员的业务水平和敬业精神。

另外,平台的管理人员需要同时由熟悉软硬件基础设施与熟悉计算业务的人员参与组成。第一类人员对集群使用的各个环节有比较好的认识,可以促进集群更利于终端用户的使用; 第二类人员对计算机体系架构较熟悉,可以更容易地参与到集群的调优、定制化,以及一些相关的研究项目中去,建立起跨学科专业的科研模式[4]。同时在云计算服务平台中,人人都是生态的需求者也是贡献者。使用者可以方便地申请到配置好的系统环境甚至是搭建好的应用环境,同时可以向平台贡献镜像、数据等,与平台建设单位一同打造高校计算应用生态圈。

3 结语

高性能计算平台建设是“双一流”建设战略中提供科研支撑环境和科研平台基础的重要手段,因此各高校都开展了高性能计算平台的建设。接下来,我们将不断地实践探索,将山西财经大学的高性能计算平台的后期建设与具体运维管理更加完善,促进学校高性能计算科研实践应用与教学水平发展。

猜你喜欢
浮点计算资源高性能
LEO星座增强GNSS PPP模糊度浮点解与固定解性能评估
基线长度和俯仰角约束条件下的模糊度浮点解求解及仿真实现
基于模糊规划理论的云计算资源调度研究
改进快速稀疏算法的云计算资源负载均衡
基于Simulink浮点模型和定点模型的问题研究
基于Wi-Fi与Web的云计算资源调度算法研究
耦合分布式系统多任务动态调度算法
一款高性能BGO探测器的研发
高性能砼在桥梁中的应用
SATA推出全新高性能喷枪SATAjet 5000 B