百万亿次集群系统的设备管理与系统运维

2013-05-03 11:03徐伟平张武生杨广文
实验技术与管理 2013年5期
关键词:机房集群运维

林 皎,徐伟平,张武生,杨广文

(清华大学 清华信息科学与技术国家实验室(筹),北京 100084)

随着信息科学技术,特别是计算机硬件和软件的飞速发展,科学研究的方式发生了划时代的深刻变化。计算科学正成为现代科学研究又一重要研究手段,并极大地影响着各科研领域的发展。2005年,清华信息科学与技术国家实验室(筹)(以下简称国家实验室)建立了“探索3号”高性能计算平台;2011年,校“985”三期投资3 000万元建设“探索100”百万亿次集群计算机,系统的理论浮点峰值计算性能达到104TFlops,其计算能力2011年在全国高校居首位。高性能计算平台成为清华大学校级公共服务平台,为校内外高性能计算用户提供重要的平台支撑。

建立完备设备管理方法及高效的系统运维模式是高性能计算平台管理的最基础工作之一。良好的设备状态、安全的机房环境是平台运行的基本保证,稳定的集群机系统计算环境是吸引用户的核心竞争力之一。本文从设备管理及系统运维2个方面具体阐述高性能计算平台硬件管理的做法,供同行参考。

1 设备管理与监控

1.1 加强设备管理的必要性

集群机系统设备管理主要分为机房管理及集群机硬件管理2部分:机房管理主要包括空调、UPS等集群外围设备的安全管理;集群机硬件管理包括组成集群内部各类型设备的检查与维修。作为百万亿次超级计算设备,其设备管理存在诸多难点:(1)设备类型复杂、数量众多。集群机包含近千台计算服务器及管理服务器、大型交换机、磁盘整列、空调、水冷机柜、UPS等各类设备,任何设备出现故障都会对平台运行有不同程度的影响;(2)集群系统全年24h开机服务,使设备故障发生率提高,管理难度加大;(3)某些故障一旦发生、后果严重。由于集群系统采用的高密度集成构建方式,空调等设备发生故障未及时发现,机房温度在几分钟之内可以上升至50℃~60℃,导致硬件设备损坏甚至火灾的危险。综上所述,加强设备管理可以有效保证整个系统平稳、安全运行,对整个平台管理具有重要的基础支撑作用。

1.2 机房监控系统

为实现对机房内空调、机柜、室内温度方面有效监控,高性能计算平台设计并安装、实施了机房监控系统,实现了对机房各类设备的24h实时监控[1-2]。系统通过数据采集器采集数据,再通过总线传输到监控服务器上;服务器对数据进行处理和存储,发生故障时立即发出警报。平台直接把机房监控系统连接到大楼物业监控室,物业人员通过终端(见图1)完成机房状态的实时监控,一旦发现温度异常或漏水等故障,物业中控室的警报器将自动报警;平台工作人员可以通过网络远程查看机房状态。机房监控系统实现机房状态无人值守式管理,大大提高了机房管理效率。

1.3 设备管理制度

在实施机房监控系统的同时,平台还建立了完善的设备管理制度。系统监控与人工监控相结合,多层次、全方位地完善设备管理,保证各类设备的安全运行。物业管理人员除通过监控系统进行实时监控之外,还需要每2h到机房对机房空调、机柜温度、水槽水位等设备实际状态进行检查,并做好记录工作。平台管理人员每天3次对机房环境、各类设备状态进行认真检查,发现设备故障及时解决,防止出现安全隐患。此外,特殊季节提前做好设备检修。如:春季柳絮较多,容易造成空调堵塞,需要进行定期清理;夏季雨季之前,做好机房防水工作;入冬以前,检查水冷空调防冻系统是否正常。每年集群机利用学校停电检修的一段时间,让厂商对所有设备进行检修。完善的设备管理制度有利地保证硬件设备的平稳、安全运行,为平台计算服务提供基础支撑。

图1 机房监控系统监控界面

2 集群机系统运维

2.1 系统运维难点

集群系统环境稳定是衡量高性能计算平台服务质量优劣的重要因素之一[3-5]。集群机的系统运维存在着很多难点:(1)服务器类型复杂,数量众多。根据不同使用需求系统分为:登录节点、测试节点、计算节点、IO节点等类型;不同类型服务器配置不同,故障原因也多种多样;整个系统有上千的服务设备,无法采用人工模式完成系统运维。(2)故障类型众多,影响很大。如某些作业异常退出后,进程残留在系统中占用系统资源,导致系统计算性能下降;又如由于程序在磁盘读写中状态异常容易发生磁盘挂载故障。如果一个节点磁盘挂载出现问题,提交到该节点的作业将异常退出,影响整个并行作业的计算。(3)故障发生不可预测。集群机采用用户24h网络访问的方式对外提供服务。用户使用方式或计算模型不当都会导致网络冲突、内存溢出等类型的故障。综上所述,只有研制开发自动化的集群运维系统,才能有效解决以上各类系统问题,使集群系统保持稳定、高效的运行状态,提高服务质量。

2.2 集群机检测及修复系统

集群检测及恢复系统是自主开发的集群系统管理工具。系统可以根据不同设备的使用特点,以不同频度对系统近千个服务器及相关设备进行定期故障检测,并根据故障原因进行自动系统修复。根据设备类型不同,共分为4类检测:登录节点及测试服务器检测与修复、计算服务器检测与修复、系统死机检测与修复和并行文件系统检测。集群检测及修复系统实现无人值守式系统运维,大大减少了管理员系统运维工作量,提高了集群机管理效率。

集群检测及修复系统通过Python语言开发完成,软件包安装在整个系统管理节点上(如图2所示)。管理节点与服务器通过2类接口完成以下操作:

(1)系统级操作。通过千兆网可直接访问和控制操作系统,完成操作。

(2)通过千兆网连接IPMI接口,直接实现对服务器低层硬件控制。此外,系统还需要通过lsf作业管理系统获取当前状态作业运行及节点状态。

图2 集群检测及修复系统示意图

2.2.1 登录节点及测试服务器检测与修复

系统登录节点及测试服务器是用户访问最频繁的设备。用户通过登录节点进入集群系统,完成作业提交工作,测试服务器则为所有用户提供公共的程序调试环境。这2类节点一旦发生故障,直接影响所有用户使用。因此,对于这2类服务器系统每15min进行一次检测。检测的内容包括:系统是否死机、文件系统挂载是否正常、lsf作业管理系统状态是否正常。检测流程如下:

2.2.2 计算节点状态的检测与修复

计算节点是集群系统提供计算服务的核心。用户计算任务通过lsf作业管理系统分配到空闲的计算节点上,因此,系统开放的计算资源一定要保持健康,否则将影响整个系统运行。前文提到的滞留进程及磁盘挂载问题是节点状态监测的主要内容。此外,网络故障、系统当机等问题,一旦出现也需要立即修复。

滞留进程故障排除是系统故障检测的难点,管理员需要准确区分哪些是正常的计算进程,哪些是异常的滞留进程。系统检测采用的方法是:通过lsf作业管理系统收集每个作业使用的计算节点信息,分析出占用每台计算节点的用户使用情况,将合法用户以外的其他用户进程视为滞留进程予以删除。图3为计算节点状态检测与修复流程图,系统每4h进行一次计算节点状态检测与修复。

图3 计算节点状态检测与修复流程图

2.2.3 死机节点的检测与修复

该部分主要检测硬件已启动,但是由于各种原因,lsf作业管理系统也存在无法识别的计算节点。造成这类现象的原因很多:①lsf服务启动问题;②由于网络冲突、内存溢出等原因造成的系统死机;③由于硬件故障系统启动异常。由于这部分节点不影响系统计算,系统每12h进行死机节点的修复与检测。图4是检测及修复流程图。

图4 死机节点状态的检测与修复流程图

2.2.4 并行文件系统检测

“探索100”采用的是lustre并行文件系统,用户可以通过多个通道并行进行,从而提高读写效率。但是,由于所有文件目录需要通过公共的存储管理节点mds完成,如果系统文件数量多、占用容量大将增加mds节点的运行负荷,降低整个文件系统的读写性能,进而影响整个系统的计算效率。并行文件系统lustre管理要求只存放计算所需的短期数据。系统每周对整个文件系统进行检测。为避免系统命令du查询大型文件系统所带来的死机故障,采用文件数深度搜索的方式进行文件查找,并统计每个用户目录下所有文件个数及数据占用量。管理员根据查询结果通知文件数量过大、磁盘占用量过多的用户进行数据清理。

3 结束语

建立完备的设备管理方法及高效的系统运维模式是高性能计算平台管理的最基础工作之一。在设备管理中,采用自动化与人工管理相结合的方式,建立了完善的设备管理制度保证整个集群设备安全运行;集群系统运维中,自主开发了集群机自动检测及修复系统,实现了无人值守系统运维模式,保证了集群系统的稳定性。目前,设备管理与系统运维系统已经应用于清华“探索100”百万次超级计算系统管理,为校内外用户提供了稳定、高效的高性能计算环境。

[1]李颖.钻井工程技术研究院机房监控系统的设计与实现[J].中国科技信息,2010(3):117-119.

[2]刘秀丽,孙红,王继光.机房监控报警系统的设计与实现[J].中国电力教育,2011(36):116-117.

[3]林皎,陈玉洁,张武生,等.高性能计算平台建设的探索与实践[J].实验技术与管理,2012,29(5):217-220.

[4]严隽琪.上海高性能计算公共服务平台[J].工业工程与管理,2005(1):1-5.

[5]周琪锋.开放实验室创新模式的探索[J].实验技术与管理,2008,25(12):176-178.

猜你喜欢
机房集群运维
海上小型无人机集群的反制装备需求与应对之策研究
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
一种无人机集群发射回收装置的控制系统设计
杂乱无章的光伏运维 百亿市场如何成长
Python与Spark集群在收费数据分析中的应用
勤快又呆萌的集群机器人
基于ITIL的运维管理创新实践浅析
N通信公司机房节能技改实践
新型有线电视机房UPS系统的配置