吴琳++覃奇志
摘要:武汉大学水资源与水电工程科学国家重点实验室建立了以科学计算为基础的高性能计算集群系统。高性能计算集群系统是一种投入较大、设备更新速度较快的大型仪器设备系统。如何进行高效运行和可持续维护管理,是一个值得探索的问题。本文对实验室进行高性能计算集群系统的建设、运行、安全和维护管理等方面的经验与特点进行介绍。
关键词:高性能计算;高效运行;安全管理;维护管理
【中图分类号】O4-39
武汉大学水资源与水电工程科学国家重點实验室(以下简称“实验室”), 于2009 年成立了高性能计算中心,配备了HP刀片系统,理论计算峰值大于1万亿次浮点运算/秒,大大改善实验室和水利水电学院从事大型数值模拟计算的硬件条件。为了更好地为更多的用户服务,如何高效利用和有效管理这个系统就至关重要。
1.系统介绍
高性能计算集群主要用于处理复杂的计算问题,应用在需要大规模科学计算的环境中。高性能计算集群上运行的应用程序一般使用并行算法,把一个大的普通问题根据一定的规则分为许多小的子问题,在集群内的不同节点上进行计算,而这些小问题的处理结果,经过处理可合并为原问题的最终结果。由于这些小问题的计算一般是可以并行完成的,从而可以缩短问题的处理时间。
高性能计算集群在计算过程中,各节点是协同工作的,它们分别处理大问题的一部分,并在处理中根据需要进行数据交换,各节点的处理结果都是最终结果的一部分。高性能计算集群的处理能力与集群的规模成正比,是集群内各节点处理能力之和。
1.1硬件配置
高性能计算机集群采用机架式,可动态扩展。现有节点18个,其中14个计算节点,2个管理节点,2个I/O节点,1个存储阵列。此外包括:机柜、供电系统、布线系统、散热系统,主控制台,KVM等。
图1 系统结构图
计算节点:HP BL460c G6 CTO Blade
CPU:Intel Xeon E5530四核64位处理器,2.4GHz×2颗
内存:16G
硬盘:146GB
网络:InfiniBand网卡
管理节点:HP DL380R06 CTO Chassis
存储节点:HP DL380R06 CTO Chassis
存储阵列:EVA4400--Hard Disk
高速光纤硬盘: 4TB
SATA硬盘: 8TB
1.2软件配置
操作系统:Redhat Enterprise Linux 5
作业调度系统:Sun SGE
编译器: Intel C++、Fortran等,GNU系列
通用数学库: LAPACK和ScaLAPACK,包括BLAS、PBLAS、BLACS等基本线性代数库函数、并行库函数和通信库函数
并行环境: Infiniband MPI并行环境(MPICH1/2)
应用软件:目前安装Fluent、Abaqus和Ansys等软件
1.3高性能计算集群的特点
根据以上配置的硬件设备和软件环境,实验室建立的高性能计算集群具有以下特点:
(1)高可用性。本身互为冗余节点,能够为用户提供不间断的服务,由于系统中包括了多个结点,当一个结点出现故障的时候,整个系统仍然能够继续为用户提供服务;
(2)高可扩展性。在集群系统中可以动态地加入新的服务器和删除需要淘汰的服务器,从而能够最大限度地扩展系统以满足不断增长的应用的需要;
(3)多用户和多任务。Linux系统是一个分时多任务环境,它可以同时做多个事情。Linux系统可以处理一个用户的多个同时的要求,并支持多个人同时活动。
2.系统运行
在CPU 的数目有限(可供计算的CPU共112个),而用户多的情况下, 如何利用现有的资源,合理地安排作业运行,使设备高效运行,对系统管理人员是一个严峻的挑战。根据近一年来的运行情况统计显示,共有近4千个程序在机器上运行过,发现了如下一些问题:
(1)自编程序未在工作站或PC 机上进行预先试验性运行, 就匆忙提交到集群管理节点上,致使运算工作量大大加重,并且有些计算未得到任何有用结果。运行程序未经仔细检查,存在固有的错误, 导致长时间死循环运行或计算结果错误, 浪费了大量的CPU 时间。
(2)提交作业的运算工作量太大,致使在集群上运行时间过长,并造成计算节点宕机,以致在没有得到任何有用结果情况下不得不中止运算。运算作业量过大,造成大量作业排队现象,很拥挤,也会致使运算效率相应降低。
为了提高高性能计算集群的运行效率,缩短用户作业的时间,我们鼓励提交程序可靠、运算时间短或中等的作业,以提高有用研究成果的产出率。我们通过不断与用户的沟通和协调,制定了高性能计算集群的使用规范,其基本原则是:
(1)限制每个用户只能同时运行二个作业,超过的作业将会自动处在排队状态。每个用户排队的作业数目不超过3个。
(2)限制每个作业最多只能使用24个CPU,直至供计算112个CPU被占用完。其后提交的作业按时间先后处在排队状态。
(3)鼓励提交运行时间短的作业。
3.安全管理
高性能计算集群系统是置于网络中的一台具有服务器功能,并能进行大型数值模拟计算的大型设备;按用户需求,此大型设备需保证常年7*24小时不间断运行。因此,我们高度重视它的网络安全和运行安全,并采取了一系列的措施。
3.1网络安全
系统的网络安全性首当其冲的就是用户账号安全。为了确保高性能计算集群系统的网络安全,申请使用本实验室高性能计算集群系统的用户需要遵守以下几点要求:endprint
(1)申请人须为水资源与水电工程科学国家重点实验室的任职教师。高性能计算集群系统仅供实验室任职教师或在读的硕士、博士研究生进行科学研究和教学相关的活动之用,不得用于任何威胁国家、社会安全的高性能计算,也不能用于其它无关的用途。
(2) 账号只限个人使用,严禁将帐号和密码泄露给外单位人员。账号申请仅限于任职教师,在读的硕士、博士研究生请使用导师的账号,每一个用户至多只能申请一个帐號,请务必保存好个人帐号和密码,严禁将帐号转借他人使用。
(3)数据和程序(非公用程序)文件一律存放于自己的属主目录下,系统不提供长期数据存放服务。
(4)不得使用软件或硬件的方法窃取他人口令,非法入侵他人帐户,阅读他人文件,窃取他人计算和研究成果或受法律保护的资源。
(5)密码应定期(三个月)更换,建议8位以上并注意加强密码复杂度。
系统管理员必须 对“root账户”的密码严格保密,并定期更换;权限的设定也非常重要,普通用户不能超越系统管理员的权限,所有的系统文件对用户都是设置为只读文件( - rw - r- - r- - ) 。如果普通用户超越了系统管理员的权限,可能会给系统的安全带来很大的风险,系统的文件可能被修改,甚至有可能使整个系统瘫痪,影响用户的使用。另外做好系统文件的备份,专门将系统文件置于一个独立硬盘中。
3.2安全运行
为保证系统的运行安全,防止物理因素、自然因素和人为因素对系统造成的破坏,实验室为高性能计算集群系统建设标准机房,配备机房专用精密空调,常年保持标准温度(22℃±2℃)和标准湿度(50%Rh±5%Rh);配备不间断电源UPS,以保证短时间停电6小时不影响系统的正常工作。在不得不关机的情况下,系统能够将用户的程序截断,保存起来,等机器恢复运行后再恢复;配备存储阵列保存用户的数据文件,以应对突发事件,将用户的损失降为最小。
4.维护管理
4.1加强信息技术,指导维护管理
在科学技术迅猛发展的今天,尤其是现代信息技术日新月异,对高性能计算产生了深刻的影响。大量信息技术、信息化装备应用于高性能计算。实验室高性能计算集群系统设备管理人员必须站在信息化建设的前沿,用信息时代的思维审视、思考设备维护管理的问题,指导设备维护管理工作,加强与科技企业、设备生产制造商的交流,及时了解设备管理方面的更新升级信息,使仪器设备维护管理科学化、规范化、先进化。要用信息技术主导实验室设备使用维护工作,保证仪器设备质量可靠、使用周期长。
4.2加强日常检查,保证维护管理
作为系统管理人员要经常查看系统的日志文件,并分析,从中发现问题和及时解决问题,以防患于未然。定期检查,确保设备处在正常工作状态。根据各设备的具体情况, 确定维护制度和具体内容。检查和调整各个设备, 使之处于最佳工作指标之内。一旦发现系统异常运行,运用所有检测程序检查各个设备,并根据硬件设备报警灯光判断出现问题的设备,发现问题,及时解决。最好设备检查和维护记录,对于设备经常发生的故障,要熟练掌握解决方法,及时排除故障。此外,要保证设备的清洁卫生。
4.3加强管理制度,提高维护效益
设备维护能力的提高不仅靠高投入,而且还要依靠科学管理。建立科学管理机制,能够有效提高设备维护的质量和效益。建立设备的使用管理规章制度,要求系统设备使用人员爱护设备,了解设备的性能,熟悉设备的操作,严格按照规则进行提交作业计算,减少对设备的损坏,尽量延长设备的使用寿命。提高实验室的开放力度,最大限度地发挥设备的使用效益。在落实实验室维护任务的前提下,要实现实验室高性能计算集群系统设备资源共享,共同提高维护效益。
5.结语
实验室高性能计算集群系统运行和管理制度的实行,大大提高了实验室高性能计算中心的工作效率,为教师和研究生们的研究工作做出了较大贡献,并取得了一些研究成果。为了更好地为广大师生服务,我们要进一步培养技术业务人员,努力提高管理人员的业务水平,做到认真学习设备生产制造商提供的各项技术资料,利用有限的资源,充分发挥高性能计算集群系统所具有的作用, 为科研工作带来更大的产出率。
参考文献:
[1]张予倩,万贤纲,韩静. SGI Origin 2000大型计算机管理模式与策略[J]. 实验室研究与探索,2003,22(2):93-94,97.
[2]关伟豪,吴汝明,郭清顺等. 中山大学高性能计算服务平台的建设[J]. 实验技术与管理,2011,28(4):303-306.
[3]黄建忠,张沪寅,程 媛. 开放式高性能计算平台的建设与研究[J]. 计算机教育,2012,22:55-59.
[4]刘晓波. 加强高校实验室设备管理的途径分析[J]. 现代商贸工业,2011,10:268-269.
[5]初建崇,韩海涛,张来红等. 新形势下提升教学仪器设备保障管理能力研究[J]. 实验技术与管理,2013,30(6):217-219.endprint