游伟倩,盛乐标,张予倩
(南京大学 高性能计算中心,江苏 南京 210093)
高性能计算(High Performance Computing, HPC)主要致力于开发超级计算机,提高并行计算效率。近些年,高性能计算领域发展非常迅速。随着大规模计算集群的应运而生,人们对于高性能计算集群的管理与运维也投入大量的研究。南京大学HPC中心成立于2010年,自成立起共购置了两套集群,一套IBM刀片集群,共包括402个计算节点,3216核,该套系统Linpack测试达到了91.92%。2016年,由于计算资源无法满足用户的科研计算需求,南京大学又投资了建设了一套新的高性能计算集群系统。这套集群系统共包括910个CPU节点,共计21840个CPU核;4个gpu计算节点,两套存储设备,规模庞大。整个集群系统的CPU理论峰值达到870万亿次浮点运算/秒,在2016年12月份的Linpack测试并行效率为79.62%。该套计算集群已于2017年5月正式投入使用,为校内外科研用户计算提供了良好的服务。截至目前,集群用户已有两百多人。该套集群节点多,使用人数众多,用户应用程序也比较广泛。为了使整个庞大的计算集群可以安全的运行与管理,使用户能够高效方便地去做科研计算,该套集群无论是用户创建以及管理,还是用户作业提交以及管理方面都有着自己的特色。在集群管理方面,集群也做到了远程监控以及实时监控集群节点运行情况以及用户作业运行情况,还可以分析集群整体运行特性以及用户应用程序分析。本文将以该套HPC集群为研究对象,详细阐述一下整套集群的运行与管理。
LSF是智能化的、基于调度策略的高性能计算负载均衡管理系统,通过集中监控、调度和分析联网计算机的负载,LSF可最大限度地共享计算机的CPU、内存、磁盘、License等计算资源。南京大学HPC中心集群采用IBM公司的LSF10.1资源调度软件对集群上的计算资源进行统一调度管理,用户提交作业时将统一使用LSF作业管理系统进行作业提交、管理、监控、删除、卸载等操作。集群总计三个作业调度节点,分别为job01、job02、job03,其中一个节点运行Platform LSF的主调度程序,另外两个节点运行LSF从调度进程,三个节点组合保证了调度系统的高可用。
用户必须在登录节点用 bsub 命令递交作业,作业调度主机接收并放到匹配的队列里排队等待,当系统满足该作业的资源及条件后,将作业分配到相关节点进行计算,计算结束时系统在登录节点上给出计算结果报告、错误报告和相关信息。如图1所示。
图1 LSF作业生命周期
南大HPC集群共有四个计算节点c01n01、c01n02、 c01n03、 c01n04,作业只能在登录节点上提交。但是gpu作业也可以在gpu01节点提交。
LSF可以根据集群特点和需求将集群节点分成几个队列,南大HPC计算集群共有906个CPU计算节点,4个gpu节点,其队列如下。
serial队列:总计6个节点,总核数144个,我们设定串行作业和24核(不含)以下的并行作业默认提交至此队列。
mpi队列:共包含节点890个(每节点24核,内存128GB),总核数21360个,是南大HPC集群主要并行计算队列。
largemem队列:包含10个节点(每节点24核,内存256GB),主要为一些大内存特殊用户使用。
gpu队列:包含节点:4个节点,主要为做gpu需求的用户提供需要。
上面给出了LSF作业调度系统的作业生命周期以及高性能计算中心的队列设置情况。事实上LSF还有很多强大的功能,比如对于系统管理员,可以通过其设置机器分组、查看机器负载,以及统计机时和限制用户提交作业数目以及核数等。而用户则可以通过LSF很多命令查看作业运行情况、终止作业等。可以通过表1来查看LSF的各种命令。
表1 LSF常用命令
截止到2018年6月,南大HPC中心计算账号达到了228个,中心使用LDAP用户管理方式给用户开户以及管理用户及用户组。LDAP server节点安装在集群的job01和job02上,其他节点均为客户端节点。管理员可通过图形化界面方式以及命令行方式创建和管理用户,这里仅介绍图形化界面方式如何创建用户。
在windows上启动ldap admin程序,在左侧树形结构中,找到ou=people,创建新用户,如图2所示。在正确的条目下,右键点击创建新的用户即可。按照目录里面的信息将用户信息填写完毕后,这样用户zhenyn就创建完成,生成的用户条目如下图3所示。
图2 南大HPC集群创建用户界面
图3 南大HPC集群创建好的用户
我们还通过LDAP来创建用户组,以及管理用户和用户组,包括修改、删除用户等。
集群系统作业管理通过LSF作业调度系统来实现,LADP用户管理则承担了整个集群用户创建和用户管理的任务。为了更加有效地管理与运行集群系统,集群还安装一些管理软件,下面将具体介绍一下南大HPC集群的管理是如何实现的。
南大HPC集群的LICO安装在job03节点,在管理员主页上如图4所示,系统管理员可以查看整个集群的基本状态,这里可以看到以下信息。
图4 南大HPC集群LICO管理界面
hpc.com:集群名字。
集群CPU:服务器集群CPU的利用率。目前Flex集群被占用核数为14560个,集群总开机核数18600个,CPU利用率为78%。
集群内存:整个服务器集群系统的内存的利用率,包括集群总共具有的内存大小和已经被占用的内存大小。图4显示南大HPC集群内存使用率为15.91%,说明目前集群内存资源充足。
集群存储:表示整个集群存储系统的利用率,包括集群总共具有的存储空间大小和已经被占用存储空间大小。这里仅显示南大HPC集群家目录总存储容量为1.39PB,已经使用80.56TB。
作业:显示作业的历史信息,包括运行中的作业数,正在等待中的作业数和已经结束的作业数。系统管理员可以根据自己的需求设置队列、时间等各种选项,查看当前的集群上运行的作业情况,对集群作业运行情况有一个比较全面的了解。
节点占用情况:显示整个计算集群中的节点占用情况:包括忙碌、占用、空闲和关机。节点占用情况可以让系统管理员详细了解集群的负载情况。
网络吞吐:表示整个集群服务器网络的吞吐量,包括写速率和读速率。系统管理员可以通过这个大概了解一下集群系统的网络是否有异常。
由上述集群的基本状态参数,系统管理员就能对整个集群做出一个初步判断。如果发现异常,再找到解决措施。
为了监控与分析集群系统应用运行情况,同时为系统调优收集数据,南大HPC集群安装了Paramon和Paratune。Paramon通过实时监控、采集HPC集群服务器的CPU、gpu、内存、网络和存储等关键设备的性能数据,然后以图形化的方式直观显示,可以了解硬件环境的运行现状,了解集群中隐含的硬件问题,从而在问题发生第一时间给出解决方案。Paratune则可以针对Paramon采集的数据,分析集群系统一段时间以来的运行情况,而且可以对集群系统中应用软件随时间变化的运行特征作详细分析。
(1)南大HPC集群实时监控及整机特性分析
图5 南大HPC集群Paramon实时监控界面
南大HPC集群共包含900多个节点,如果每个节点都要查看是否正常,则是一件非常繁琐的事情。而由上图5在实时监控界面,可以看到整个南大HPC集群的运行状态,可看到各个节点的运行状况,是否有异常。如果发现某个节点有异常如负载过高,再以root账户登录查看,找到解决方案。而在汇总信息上,可以查看集群平均负载。作业信息界面可以查看用户作业运行情况,如作业是否空跑等。
由下图6整机性能特征分析可见:2018年5月份,南大HPC集群的CPU 利用率在45%~80%之间波动,内存利用率稳定在15%左右。
图6 南大HPC计算资源整体利用率曲线
(2)南大HPC集群上各应用程序特征分析
南大HPC集群上目前使用比较多的应用程序有wrf,vasp,qcprog等,其中wrf应用占用比达到了76.07%。为了能够详细了解各个应用对集群的需求情况,我们对wrf做了如下分析。
图7 南大HPC集群中某wrf算例运行特征图
由图7可见:wrf应用计算量大,网络流量高。对集群资源需求是高主频多核CPU,同时需要高速的IB网络。通过此分析管理员会建议wrf用户在提交作业时注意这几个方面的需求,将作业提交到指定的队列。
vasp也是集群用户常用的一个应用,我们也对该应用作了特征分析(如图8)。
由上图可见vasp应用计算量大、通信频繁,对计算集群的需求是要高速网(需要通信、大量读写),但是其对内存要求比较低。所以我们会建议用户将vasp作业提交到小内存队列,避免资源浪费。
图8 南大HPC集群中某vasp算例运行特征图
南京大学高性能计算中心一直走在国内高校高性能计算的前沿,新集群规模目前排国内高校第一。集群不仅规模庞大,性能也稳定高效,为校内以及校外科研用户提供一个可靠的计算平台。其在集群系统运行与管理方面也有着丰富的经验。集群运行一年多来,良好的集群管理与运维模式让广大用户使用集群更加高效便捷,得到了广大用户的一致认可。随着高性能计算的发展,更加高效合理的管理与运维模式将是大家关注的重点。