张雨馨
[摘 要] 本文介绍了集群系统的概念、特点和分类,介绍了一种集群管理工具xCAT的安装部署,通过IBM集群系统描述了xCAT工具在硬件管理、软件监控中的应用。在使用了xCAT工具后,提高了系统的检查效率,缩短了维护时间,大大提高了工作效率,保证了集群系统的高效、稳定运行。
[关键词] 集群系统;系统管理;xCAT;IBM集群
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2014 . 21. 025
[中图分类号] TP393 [文献标识码] A [文章编号] 1673 - 0194(2014)21- 0034- 02
1 集群系统介绍
1.1 集群系统基本概念
把多台同构或异构的计算机通过网络连接起来,用于完成特定的任务的系统称为集群系统。集群系统中的计算机称为“节点”。因此,也可以说,集群系统是通过高性能网络所组成的节点的集合。
1.2 集群系统的特点
(1)集群都是将普通 PC、工作站或服务器通过某种方式连接起来构成的多机系统。
(2)集群系统都具有良好的可用性。即它们都能够在集群的某部分资源出故障的情况下继续向用户提供持续的服务。几乎所有的典型集群都拥有灾难恢复功能。
(3)集群系统有良好的可扩展性。只需很少的配置工作就可以方便地在集群中加入或删除工作节点。
(4)典型的集群系统提供了良好的可管理性。管理人员通过简单的操作就可以对集群中的工作节点或控制节点进行配置工作。
(5)集群系统一般都提供了负载平衡功能。负载平衡包括静态负载平衡和动态负载平衡,为了最大程度地利用集群中的一切资源,集群需要具有动态负载平衡功能,它能够通过监视集群中的实际节点的负载情况动态地进行调度。
(6)大部分集群系统都有一个主控机,它能够对集群中的机器的运行状态进行监视,而且能够根据各机器的负载轻重进行任务的调度。
1.3 集群系统的分类
通常情况下,将集群分为两大类:高可用集群和高性能集群。
2 xCAT工具介绍
2.1 xCAT 简介
xCAT (Extreme Cluster Administration Toolkit)是一个可伸缩的Linux集群管理和配置工具,xCAT 最先是为IBM xSeries 系列的Linux Cluster做的第三方软件,但后来它没有发展成为一个产品,而是成为包含一系列有用的脚本的软件包。使用者可以自己修改,但是不能重新发布。
2.2 xCAT功能及特性
全自动化的安装:基于网络的,无人看管的安装。远程管理和监视:远程电源管理和远程控制系统。软件管理:并行管理工具和高性能软件。
xCAT 的特性:硬件管理和监控;支持IBM eServer xSerie 系列服务器远程电源控制的高级系统管理特性;支持远程系统状态检测分析(风扇速度,温度,电压等);远程详细检测系统状态设备型号和BIOS 等;硬件事件日志记录;SNMP 认证警报;软件管理;以及并行的Shell 和其他工具同时运行在xCAT 管理范围内的节点等。
3 xCAT工具部署安装
xCAT 可以运行其上的系统有Redhat&Fedora Core、SUSE 等Linux 操作系统;IA64、PPC64 等硬件架构。安 装 xCAT 需要下载如下文件包: xcat-dist-core-x.x.x.tgz,xcat-dist-ibm-x.x.x.tgz, xcat-dist-doc-x.x.x.tgz 和xcat-dist-oss.x.x.x.tgz。
默认方式下xCAT的安装目录为/opt,用下列命令依次安装:
tar zxvf xcat-dist-core-x.x.x.tgz-C /opt
tar zxvf xcat-dist-ibm-x.x.x.tgz-C /opt
tar zxvf xcat-dist-doc-x.x.x.tgz-C /opt
tar zxvf xcat-dist-oss.x.x.x.tgz -C /opt
安装前需要做一些准备,包括设置环境变量,准备启动镜像,启动NFS服务器,以及修改$XCATROOT/etc/目录以下的几个文件,包括site.tab,nodelist.tab,notetype.tab, noderes.tab,mac.tab,postscripts.tab,postdeps.tab,nodehm.tab 和passwd.tab。
具体的修改说明如下:
site.tab 文件中注意几个要修改的地方,主要用于描述master 节点的一些必要属性和网络配置情况,包括domain,dnssearch,nameservers,nets,forwarders,dnsallowq,mailhosts,master,homefs,localfs,snmpd,installdir,dynamicr,usernoders,usermaster,nisdomain,nismaster 和subdhcpd。
nodelist.tab 文件中主要定义node 的名字,组和组id。
nodetype.tab 文件中主要定义每个node 安装什么体系结构的系统。
noderes.tab 文件用于节点安装时资源的描述。
nodehm.tab 文件用于描述节点的硬件管理。
随后用 root 用户登录:
[root@master1 ~]# export XCATROOT=/opt/xcat
[root@master1 ~]# cd XCATROOT
[root@master1 ~]# ./setupxcat
创建服务:开启DNS,获取MAC 地址,开启DHCP,配置终端服务。配置所有节点(自动的或者手工的):升级硬件,配置硬件/COMS/BIOS使它从来不会暂停,配置启动顺序,开启处理器控制,如果可以的话,重新定义POST/BIOS 的连续输出。最后是集群的安装:准备安装服务器,准备自动安装的脚本,设置节点,重新启动并且开启无人看管的安装模式,最终检查。
4 利用xCAT工具管理集群
利用xCAT工具,系统管理人员可以很好地对集群系统进行管理和维护,其提供的功能主要有以下两个方面。
4.1 硬件管理与监控
系统管理员可以通过rpower、rreset、rboot 3个命令对系统中的节点进行远程电源控制。xCAT还提供了远程资产管理命令,包括对服务器的序列号、BIOS版本、硬件日志等信息的查询。
4.2 软件管理
xCAT提供了Remote Console的命令,分别是rcons和wcons,对远程系统进行监控,这种监控是基于字符界面的。
xCAT还提供了大量的并行管理命令,当我们需要对多个节点进行相同操作的时候,就可以领用这些命令来完成,这些命令包括psh、pping、prcp、psync、psysstat等。
5 结 论
目前,IBM集群系统在生产实践当中已经开始使用,在应用了xCAT工具后,提高了系统的检查效率,缩短了维护时间,大大提高了工作效率,保证了集群系统的高效、稳定运行。
主要参考文献
[1]杨小虎.集群监控中检测技术研究[D].北京:中国科学院软件研究所,2004.