游伟倩 盛乐标 周庆林 张予倩
摘要:该文详细阐述了南京大学高性能计算中心两套集群存储系统的搭建方式。通过两套存储系统的测试结果对比,指出两类存储系统的各自的优缺点。通过两套集群的Linpack测试结果对比,指出存储系统的选择在集群搭建过程中的重要性。
关键词:高性能计算;存储系统;存储性能测试;Linpack测试
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)09-0022-02
高性能计算(High Performance Computing, HPC)主要致力于开发超级计算机,提高并行计算效率。高性能计算集群主要用于处理复杂的科学计算问题。近些年,高性能计算发展非常迅速[1],高性能计算应用的领域越来越宽广[2],伴随着高性能计算需求越来越多,各地的高性能计算机群也应运而生[3]。南京大学高性能计算中心自2010年成立以来,先后搭建了两套高性能计算集群系统。第一套为IBM刀片集群系统,于2009年建成,集群总计算节点有402个,总计3216个核。由于这套设备不足以满足校内科研用户的计算需求。2015年12月,南京大学再次投资5000万,建设了一套联想Flex集群,Flex集群总计算节点为910个,总CPU计算能力达873Tflops。可以满足大规模科学计算需求。众所周知,集群建设过程中一个很很关键的部分是存储系统的选择,南京大学高性能计算中心在建设IBM集群和Flex集群过程中,也是将存储系统的选择作为重中之重。本文将详细阐述本中心两套集群存储系统的搭建方式,以及最终达到的效果。给出IBM集群多年的运行过程中存储系统优越性以及不足,最后对两种存储系统测试结果做一对比,最终证明南京大学高性能计算中心存储系统选择的正确性以及高效性。
1 IBM集群存储系统
IBM刀片集群平台由402个双路四核的IBM BladeCenter HS22刀片服务器组成,通过高速Infiniband网络连接。集群包括10台IBM HS22登录节点,1台IBM X3550服务器管理节点,3台IBM机架式X3650 M2服务器构成3个作业调度节点,402台IBM HS22刀片构成402个计算节点,共3216个CPU核。两台Voltaire 288口 20Gb 4X Infiniband交换机组成准全线速无阻塞并行计算网络;四台4口万兆上行48口BNT公司的千兆交换机组成千兆无阻塞作业调度系统和管理网络。集群存储系统共有两套,分别是专用存储系统和并行文件存储系统,下面将着重介绍这两套存储系统。
专用存储系统:1台IBM DS5300 SAN架构光纤共享存储系统,双控制器,16GB共享缓存,16个4Gb光纤主机接口,16个对内扩展柜接口,16分区支持,每磁盘扩展柜配置16块1TB 7200转SATA盘,共计容量128TB, 实测存储连续读写带宽大于2.1GB/s。
并行文件存储系统:20台IBM X3650服务器构成20个并行存储节点,每节点配置两块Intel Xeon E5430 CPU, 32GB 内存,20Gb IB HCA 卡,6块450GB 15000转/分SAS盘,组成总容量54TB并行计算存储系统,文件系统采用IBM的GPFS文件系统, 实测存储连续读写总带宽大于6.2GB/秒。IBM集群的总体框架图见图1。
该套系统在2009年10月份的Linpack测试中,取得了并行效率91.92%的佳绩,Linpack实际计算能力达到了31.3万亿次/秒。
之所以选择这两种存储搭建方式,是因为多台服务器构成的并行文件系统有一个不足之处,若其中某一台服务器出现故障或者宕机,整个文件系统将无法正常使用,因此在稳定性方面存在一定劣势。基于这个原因,我们采用了一台IBM DS5300光纤共享存储设备,建立了一个专用存储系统作为用户家目录,当并行存储系统出现故障的时候,家目录系统依然可以正常使用。事实证明:IBM集群自2010年投入运行一直到2017年停止使用,DS5300光纤共享存储系统未出现过一次故障,稳定性非常高。同时,并行存储系统的由于读写带宽速度快,在IBM集群运行前期发挥了重要作用。但是集群使用到后期(2015年至2017年),并行存储系统经常出现故障,稳定性相对要低一些。
2 Flex集群存储系统
联想Flex集群平台配置一台x3650 M5管理节点;三台x3650 M5的作业调度节点,采用Platform LSF作业调度系统。4个Lenovo Flex x240 M5登录节点,负责所有用户登录集群以及提交作业使用。总计910台System Flex X240M计算节点,共21840个CPU核, 4台Lenovo System X3650M5 GPU节点。两台MellanoxSX6536 56Gb/s IB 交换机。两台G7052千兆交换机,主要用于硬件管理。两台G8272万兆交换机,主要用于作业调度网络。两套存储系统如下:
存储系统一为一台IBM ESS GL6高端存储,双控制器,256G缓存,12个56G FDR主机接口,裸容量为2P,实测存储连续读写带宽18.9GB/s。
存储系统二为SSD并行存储,由16台System X3650M5服务器裸容量为1P的SSD硬盘存储组成。每台服务器配置2颗Intel E5-2680v3, 256GB内存,2块480GB SSD硬盘,M5210 SAS RAID卡,实测存储连续读写带宽80.4GB/s。
Flex集群的总体框架图见图2。
iozone是一个文件系统的benchmark工具,可以测试不同的操作系统中文件系统的读写性能。Flex集群ESS存储聚合带宽性能测试结果如表1:单位:(GB/s)
同SSD性能测试一样,ssd存储存储聚合带宽性能测试结果如表2,15台IO server测试结果如下:单位:(GB/s)
由上述测试结果可见:ESS存储系统IO读写速度大于等于18GB/s, SSD并行存储IO读写速度大于等于80GB/s,存储系统读写速度非常高。
Flex集群在2016年12月份的Linpack测试忠并行效率为79.62%,Linpack实际计算能力达到了687.1万亿次/秒。众所周知, 由于在超大规模集群系统中, 存储的IO性能是整个计算系统的最大瓶颈, 而我们这两套存储系统不论在存储容量上和IO读写带宽上都达到了很高的标准, 为整个系统安全、可靠、高效的运行提供了强有力的保障。
3 IBM集群和Flex集群存儲测试以及集群性能对比
为了可以清晰地对比两套存储系统的性能,请看表3两套集群的各个性能参数对比。
由表可见,南京大学高性能计算中心无论是IBM集群还是Flex集群,在存储系统的选择上都是十分合理的。Flex集群的存储系统IO读写带宽达到很高的标准, 为整个集群系统高效的运行提供了强有力的保障。虽然Flex集群由于其核数增加,并行效率有所下降,但是其实际计算能力大幅度增加,也大大缓解了之前南京大学计算资源严重不足的现状。
4 结束语
本文详细阐述了“中心”两套集群存储系统,给出两套系统的各个测试性能参数。最后通过对两套集群测试结果的对比,证明IBM集群和Flex集群存储系统的选择十分合理且性能优越。南京大学高性能计算中心一直走在高校高性能计算的前沿,“中心”两套集群的存储搭建方式也为今后其他单位搭建高性能计算集群系统提供了很好的参考依据。
参考文献:
[1] 周兴铭.高性能计算技术发展[J].自然杂志,2011,33(5):249-254.
[2] 王彬. 高性能计算计算在气象部门的应用[J].计算机工程与设计,2014,35(4):1476-1479.
[3] 盛乐标,游伟倩,周庆林.南京大学高性能计算中心建设的探索与实践[J].实验技术与管理,2013,20(11):144-146.