文/段运生 刘辉 竺德
随着安徽大学一流学科建设工作的推进,理工学科对公共计算的需求快速增长。安徽大学公共计算平台需要同时满足高性能计算和深度学习两方面需求。高性能计算需求主要集中在物理与材料科学学院、化学化工学院、生命科学学院,应用方向主要包括材料计算、化学计算、生命科学、气象等;深度学习需求主要集中在电气工程与自动化学院、计算机科学与技术学院及电子信息工程学院,应用方向主要包括深度学习、图像处理、模型训练等。为有力支撑学科建设,2018 年初,安徽大学启动校级公共计算平台建设工作。
考虑到各院系分散购置不利于资源的整合和建设效益的充分发挥,因此采用集约化方式建设校级公共计算平台。公共计算平台建设包括机房建设、计算集群建设及HPC 与AI 融合软件平台建设三个部分。平台应安全可靠,具备先进性、可扩展性和可管理性。数据中心机房基于标准化模块建设;计算集群采用刀片服务器和机架服务器混合架构,支持CPU 和GPU 计算;软件平台采用SLURM调度系统,支持CPU的管理调度、GPU的管理调度、集群系统的监控管理。
安全可靠的机房设施是公共计算平台运营成功的关键,在机房系统结构设计时,需遵循《数据中心机房设计规范》(GB50174-2017),坚持统一规范的原则,设计时充分考虑安全可靠性、可扩展性及可管理性。机房采用模块化方式建设,机房面积309m2,设计三套微模块,装饰装修工程一次性到位,预留空间用于后期扩展。
安徽大学
一期建设一套微模块,配置19 台服务器机柜、1 台精密配电柜、3 台行级精密空调(42KW),预留2 台空调扩容空间。供电采用双母线结构,配置两台100KVA 模块化UPS。模块内建立一套全面、完善的管理和监控系统。智能供配电管理,实现供电链路可视,支路端子温度检测预警、电池状态检测、PDU 级供电情况监测,全面提升供电系统可靠性。基于AI 自优化算法的温控管理,实现温度云图-负载-温控联动保证无热点,确保温度场恒定可靠。U 位级资产自动管理,使得资产免人工清点,提升运维效率。同时该模块还具备智能照明、eLight 模块状态指示灯、消防联动、电动通道门、人脸识别门禁等便利功能。基于先进的集中管理监控系统,可以实时监控、监测整个数据中心机房的运行状况,利用实时灯光、语音报警,实时事件记录迅速确定故障,提高运行性能,简化数据中心管理人员的维护工作,从而为数据中心安全、可靠的运行提供最有力的保障。
公共计算平台需要同时满足高性能计算和深度学习两方面需求(如图1 所示)。高性能计算系统采用刀片服务器作为并行计算节点,共计26把刀片。机箱内支持无状态计算,刀片服务器关键部位全部采用冗余和热插拔设计,关键业务不会因为单点故障而中断,满足高性能计算的需求。为保证集群系统的先进性和更好的扩展性,服务器平台使用英特尔全新一代Purley 架构。通用计算节点采用Intel Skylake CPU,每节点配置2 颗14 核CPU,12 根16GB 的内存,1 块240GB SSD硬盘以及100Gb/s 的Intel OPA 网卡。深度学习系统采用GPU 服务器作为基础硬件平台,GPU 采用主流的Nvidia Volta V100 专业级GPU 卡,配置3 台一机八卡GPU 节点和1 台一机两卡GPU 节点。本次配置的一机八卡的GPU 服务器可以提供不同的拓扑模式,1 颗CPU 支持8 块GPU 卡,或者2 颗CPU,每颗CPU 支持4 块GPU 卡,有效的支持GPU P2P 功能,同时企业级GPU 卡还可提供GPU Direct RDMA 等功能,充分优化其代码提高作业效率。
公共计算平台采用性价比较高的OPA(Omni-Path Architecture)网络交换架构,支持单端口最大带宽100Gbps、时延低至110ns,并支持错误检测等特性。采用Lustre 文件系统作为全局文件系统,该文件系统具有按需扩展容量和性能的能力,降低了部署多个独立文件系统的必要性,从而避免了在计算集群之间复制数据,简化了存储管理。本期配置的两台存储,一台全闪存存储用于存储元数据,一台用于存储对象数据。
融合软件平台旨在为用户提供完善的HPC使用和管理系统,以便让最终用户将主要精力集中在科研工作上,降低使用者的学习成本,提升组织的整体规范性、专业性以及生产效率。平台基于公有云+私有云的混合云方案架构设计,包括超算云桌面系统和集群管理监控系统。提供国家网格站点连接接口,可实现本地计算资源与国家网格计算资源整合,当本地计算资源不足,可以将作业提交至网格站点。
图1 公共计算平台逻辑拓扑
超算云桌面系统在云技术的基础上提供统一的用户管理功能、HPC 设备资源管理、应用管理、本地作业管理、远程作业管理、机时统计管理、计费管理、系统便捷接入等功能。平台既支持主流浏览器访问,也可以通过轻量级C/S 客户端访问;集成命令行登陆方式包含WebSSH、Putty、xshell、SecureCRT;集成交互式图形访问方式,用户可以进行图形化的前后处理工作;提供计费功能,按月给用户提供使用报告;支持子母账号,子账号可独立使用,母账号统一计费;能够集成应用软件,实现一键提交作业;支持移动手机端查看作业状态信息、机时用量信息、作业性能情况、作业异常时还可通过移动客户端远程杀除作业,支持iOS、Android 和微信客户端。
集群管理监控系统通过实时监控、采集机群中服务器的CPU、GPU、内存、网络和存储等关键设备的系统级和微架构级性能数据(Gflops、MemoryBandwidth、Vectorization、CPI、GIPS),以图形化的方式直观显示,快速反映提供机群系统中应用软件随时间变化的运行特征,通过机器学习作业运行情况,智能识别作业性能异常。同时了解硬件环境的运行现状,快速了解集群中隐含的硬件问题,从而在问题发生时第一时间给出解决方案。秒级采集大规模业务系统的系统级和微架构数据进行并列历史线条显示,通过多节点并列的对比分析以及资源的依赖程度分析,可迅速发现系统故障或瓶颈所在。另外所采集各项数据的峰值、均值等量化数据指标,对于系统优化具有精确的指导意义。
公共计算平台建设为各学科提供更强的计算能力、更好的维护手段、更优质的应用服务体验。随着校级公共计算平台的不断扩大和完善,既能够产生经济效益,又能够汇集各个科研领域的最新发展动向,促进学校科学研究的发展。