高性能机群系统规划及研究

2009-03-10 09:50苗建宁
中国教育信息化·高教职教 2009年2期
关键词:信息服务模块

苗建宁

摘 要:随着信息化社会的发展,高性能计算和高性能机群逐渐应用于各个领域。本文介绍了高性能机群的概念、起源发展、分类、系统组成和优势,重点分析了规划机群系统时各模块的基本功能和选择原则。

关键词:高性能机群 系统规划 模块 高性能计算 信息服务

中图分类号:TP302 文献标识码:A 文章编号:1673-8454(2009)03-0017-03

一、绪论

高性能计算(High Performance Computing,HPC)是计算机科学的一个分支,研究并行算法和开发相关软件,致力于开发高性能计算机(High Performance Computer)。

高性能机群(Cluster),就是采用机群技术来研究高性能计算。机群是利用标准的网络将各种普通的服务器连接起来,通过特定的方法,向用户提供更高的系统计算性能、存储性能和管理性能,同时为用户提供单一系统映像功能的计算机系统。

1.起源与发展

对机群的研究起源于机群系统良好的性能可扩展性。提高CPU主频和总线带宽是最初提供计算机性能的主要手段,但这一手段对系统性能的提高是有限的。接着,人们通过增加CPU个数和内存容量来提高性能,于是出现了向量机、对称多处理机(SMP)等。但是当CPU的个数超过某一阈值,SMP等这些多处理机系统的可扩展性就变得极差。主要瓶颈在于CPU访问内存的带宽并不能随着CPU个数的增加而有效增长。与SMP相反,机群系统的性能随着CPU个数的增加几乎是线性变化的。图1显示了这种情况。

2.高性能机群分类

高性能机群的设计根据应用场合的不同有一定区别。目前高性能机群有两大应用领域:高性能计算和信息服务。机群相应分为两类:高性能计算机群和信息服务机群。

(1)高性能计算(High Perfermance Computing)机群,简称HPC机群。这类机群主要解决大规模科学问题的计算和海量数据的处理,如科学研究、气象预报、计算模拟、军事研究、CFD/CAE、生物制药、基因测序、图像处理等等。

(2)信息服务机群,它的应用范围很广,包括数据中心、电子政务、电子图书馆、大中型网站、网络游戏、金融电信服务、城域网/校园网、大型邮件系统、VOD、管理信息系统等。

3.机群与小型机、PC服务器群的区别与优势

(1)更高的性价比。机群系统目前已经成为高性能计算机的发展方向,世界上Top500排行榜的高性能计算机系统绝大多数是机群系统。

(2)更高的可扩展性。机群系统可以通过原有预留的扩展接口进行无缝的扩展。

(3)更高的可管理性。通常,管理一个机群系统比管理一个小型机系统要简单得多。

(4)更高的系统鲁棒性(健壮或强壮)。机群系统都是采用了标准的硬件设备,容易采购,同时也较容易维护。

(5)对应用系统的更多支持。机群系统可以支持大量的操作系统,并且可以同时存在多种操作系统,也支持32位和64位的软件系统。

二、高性能机群模块规划与选择

高性能机群由节点机、网络、存储、管理监控系统和机群软件、机群承载系统等模块构成。

1.节点机

节点机是一个机群系统的核心部分,是机群系统的关键。节点机根据其功能的不同,一般分为计算节点、IO节点、管理节点、登入节点等等。

(1)计算节点:计算节点主要用于完成计算,担负着繁重的计算任务。计算节点是机群系统的主体。

(2)IO节点:IO节点与存储设备、共享文件系统、高可用软件等组成存储系统,其中目前大都采用NFS共享文件系统。IO节点作为NFS文件系统主节点负责文件的I/O操作。

(3)其他节点:除了计算节点、IO节点外,还有管理节点、登入节点、编译节点、作业管理节点等等。这些节点功能多,但对性能要求不高。对于中小系统而言,一般采用一个节点完成所有这些功能,有时甚至不单独设置一个节点,而用一个计算节点和IO节点兼作这些任务。

2.网络

网络是机群中各个部件连接的枢纽。机群网络系统设计从性能的可靠性、可扩展性两个角度出发,采用多网设计,实现多网分离、专网专用、相互备份。

网络的性能包括网络的带宽和网络的延迟。

(1)高性能计算机群

1)网络系统设计

计算网络的性能很大程度上影响着整个系统的性能。目前设计的主流是从性能和可靠两个原则出发,将网络系统分为计算网络和管理网络。

2)计算网络

计算网络在高性能计算机群中主要负责并行计算的数据传递和数据交换。高性能计算机群对计算网络的要求为:

①网络延迟对整体性能有很大影响,所以尽可能采用延迟低的网络。

②为了保证多对并发通讯时的通讯性能,要求网络是一个无阻塞的网络。

3)管理网络

管理网络主要用于系统管理、监控等,它对网络性能没有较高的要求。

(2)信息服务机群

信息服务机群中,数据网一般都采用千兆以太网,也有少量机群采用百兆以太网。和HPC应用的区别是:不同的信息服务应用程序区别比较大,对网络的要求也有一定的区别。

1)与HPC机群计算网只要求二层通讯性能不同,很多信息服务机群对交换机高层功能有相对较高的要求。

2)大多数应用在要求网络延迟的同时,更强调网络的带宽,可以说网络的带宽对于信息服务机群更有意义。

目前,InfiniBand(一种支持多并发链接的“转换线缆”技术)网络以其极高的带宽逐渐进入信息服务领域,同时它可以将数据网和存储网统一起来。

3.存储系统

存储系统的考虑主要从下面几点出发:

(1)扩展性

目前的存储系统都面临着数据高速膨胀的现状。因此,系统能否面对这样的问题成为关键。如果系统需要具备很好的扩展性,则应该选择SAN(存储域网络)架构的存储系统,或与SAN类似的存储系统,如InfiniBand等。

(2)冗余功能

如果系统对数据可靠性要求非常高,则在数据存储端最好配置多控制器的磁盘阵列,同时提供全面稳定的数据存储备份方案。目前比较流行的备份方案有磁带库和虚拟带库。

(3)高性能

厂商提供的磁盘阵列系统产品,各有不同性能,用户可以根据自身系统对性能的需求进行选择。

4.管理监控系统和机群软件

机群的管理和监控系统是机群系统不可缺少的一部分。离开了它,机群系统使用和管理起来就非常困难或几乎无法使用。

(1)机群的管理软件包括:机群安装部署软件、作业管理软件、高可用软件、负载均衡软件、并行环境。

对机群管理软件的要求如下:

功能完善。机群管理软件的功能必须完善,能够实现绝大部分的机群管理功能。

跨平台。一个好的管理软件必须是一个跨平台的软件,它应该能运行在主流的操作系统之上,如Linux、Windows或UNIX。同时,它能同时管理不同操作系统、甚至异构的平台。

远近结合。管理软件不仅要能够在机群上使用,而且可通过远程的方式管理整个机群。

可扩展性。管理软件必须具有很强的可扩展性,能够管理大规模或超大规模的机群系统。

(2)监控系统

机群监控系统顾名思义就是监控整个机群。监控系统的实现方式有三种:软件实现、硬件实现和软硬件结合实现。

1)软件实现方式一般是通过基于操作系统之上的程序采集机群状态信息,然后通过管理网络将状态信息传递给一台特定的节点机或者专用的监控机,最后通过某种特定的方式展现给系统管理员。

2)硬件实现方式即通过独立的硬件采集模块和独立的硬件传输网络进行监控。其优点在于不占用任何系统资源,同时也可获取一些底层硬件信息。缺点在于很难获取操作系统层或应用层的一些状态信息,同时成本较高。

3)软硬件结合的方式弥补了单纯使用软件或硬件监控方式的不足,是理想监控系统的实现方式,但成本也比前两者高。

(3)KVM

KVM是键盘、监视器和鼠标三者的简称。它是机群管理、部署、维护和监控不可或缺的设备,用户通过它可以在不同节点机间任意切换。有了它,机群的使用和维护变得简单。

目前流行的KVM有两种,一种是通过KVM切换器实现,适用于不多于五个节点的机群系统。第二种KVM是通过USTS+CIM(Computer Integrated Manu-factuing)的方式实现。相比前一类KVM,此种KVM具有很大的优势。它连线简单、可扩展性好,同时支持远距离的控制。目前,此类KVM在机群系统中得到了广泛的应用。

5.机群承载系统

机群承载系统虽然不是机群核心的部分,但是它的设计一旦有问题,会严重影响到机群系统的正常运行。

(1)电源系统(包括UPS)

电源系统必须是机群专用电源,保证机群系统满载运行,并要有30%左右的富余量。电源系统必须有分时和上电功能。电源还必须具有负载均衡、电源自动保护、电源检测、电源监控等功能,能同时支持220V两相电和380V三相电。

(2)机柜和布线系统

机柜首先要选择标准机群机柜,机柜内空间充足,内含专业化的布线系统,有良好的抗冲击能力,同时必须有良好的散热性能。

三、结束语

高性能计算已成为继理论和实验科学之后,人类认识未知世界的第三大方法。随着信息化社会的飞速发展,人们对高性能计算和信息处理提出了更高的要求,机群系统也将得到更好的研究和发展。

参考文献:

[1]章文,李代平,罗清磊,张信一.机群并行系统的设计——机群并行系统设计中需考虑的因素[J].现代计算机,2003(2).

[2]于秀敏,李建中,郭风.高性能并行计算的曙光:机群系统[J].哈尔滨学院学报,2004(2).

[3]申红芳,罗四维,赵宏.集群计算系统的模型结构[J].计算机应用研究,2004(2).

[4]王小伟,郭力,葛蔚,杨章远.高性能并行集群计算环境的构建与性能测试[J].小型微型计算机系统,2004(3).

猜你喜欢
信息服务模块
28通道收发处理模块设计
“选修3—3”模块的复习备考
公共图书馆科技创新服务探析
三个必修模块 教学各有侧重
IR推出易用的μHVIC系列构建模块,有效简化设计
集成水空中冷器的进气模块