基于异构网络机群环境下NPB性能分析*

2016-11-29 08:17于永澔
关键词:测试程序可扩展性机群

苑 野, 于永澔

(哈尔滨工业大学)



基于异构网络机群环境下NPB性能分析*

苑 野, 于永澔

(哈尔滨工业大学)

在异构网络机群环境下,使用NPB基准测试程序对并行系统的性能进行了评测与分析.实验表明, 在64个处理器Class D规模下,NPB程序在TCP/IP协议下的整体性能优于在Infiniband协议下的整体性能.随着处理器数目的提高,其可扩展性在TCP/IP协议和Infiniband协议中表现的各不相同,并行系统的可扩展性和应用程序的硬件性能利用率还需进一步提高.

NPB;性能评测;并行基准测试程序

0 引言

并行计算机系统性能评测是指通过并行基准测试程序[1-2]对并行计算机系统运行一定量并行程序集时获得的性能特征,其性能分析结果可以发现系统瓶颈,并做出相关的系统设计和改进.在科学与工程计算领域, Linpack测试和NPB基准测试是两种最重要的测试方法,其测试结果通常用于评价并行计算机系统的性能优劣.Linpack测试是衡量计算机系统性能的重要指标,用于测试并行计算机系统的整体浮点计算性能.一般情况下,用户在实际应用并不能得到计算机系统硬件的理论峰值计算能力.而NPB测试主要用于评价CFD应用的实际计算性能.该文使用NPB程序集对本单位面向科学计算与海量数据处理计算平台进行了性能评测与分析.

1 测试环境

该文的硬件测试环境为2套IBM面向科学计算和海量数据处理的高性能计算平台.IBM C1000并行机群系统和IBM C2000并行机群系统均是64位系统,NPB版本为NPB3.3,GPFS共享文件系统,其优化选项均为-O3、随机数发生器为randi8.

1.1 NPB简介

NPB[3-7]是一套用于评估并行计算机系统性能的程序集.该程序集算法主要来源于计算流体力学(CFD)应用,它包括5个核心程序和3个模拟应用程序.主要特点见表1所示.

1.2 IBM C1000机群系统

IBM C1000并行机群系统由200个计算节点组成,10G高速以太网互联,每个计算节点配有1颗Intel Xeon 2.5G处理器,6M Cache, 16G内存,1T SAS磁盘,软件环境是64位Red hat Linux 6.2操作系统、MPI版本为MPICH2、编译器为GNU g77.

表1

1.3 IBM C2000机群系统

IBM C2000并行机群系统由50个计算节点组成,Infiniband高速网络互联,每个计算节点配有1颗Intel Xeon 2.4G处理器,12M Cache, 32G内存,1T SAS磁盘,软件环境是64位Red hat Linux 6.2操作系统、MPI版本为Intel MPI 4.1、编译器为Intel C/C++/Fortran 13.0.

2 性能分析

2.1 性能测试

单节点的计算能力和节点间的通讯能力是决定机群系统整体性能的主要因素.CPU的速度和内存储器的大小决定单节点的计算性能.节点间的通信性能影响整个机群系统的计算性能,并且节点间的网络通信协议类型也对机群系统的计算性能有一定程度的影响.在2套基于相同处理器和不同通信网络协议的IBM并行机群系统上,在Class D规模上用64个处理器对NPB测试程序集中的IS测试程序、EP测试程序、CG测试程序、MG测试程序、FT测试程序、BT测试程序、SP测试程序、LU测试程序,进行了系统性能评测[8-10],具体结果如图1所示.

图1 两套机群上64个处理器Class D性能测试对比

具体数据比较结果见表2.

机群C2000的CPU缓存大小、内存大小及交换机的点对点交换性能指标均高于机群C1000,但是从表2中的两套机群系统的比值可以看出,所有测试程序的Mflop/s/processor比值都大于1,这说明C1000系统的整体性能优于C2000.也就是说NPB测试程序在TCP/IP协议下的运算性能优于在Infiniband协议下的运算性能.

CG、MG和FT主要测试通信性能,CG、MG和FT的Mflop/s/processor测试值基本相同,这说明C1000可以比较均衡的处理不规则通信、长距离通信和内存密集访问型通信.EP是密集型并行计算,几乎没有节点间处理器通信,主要用于评估硬件系统的上限浮点计算性能.EP测试的比值是2.77,这说明Intel Xeon 2.5GHz处理器比Intel Xeon 2.4GHz处理器发挥了更好的浮点计算性能.通过对处理的主频和Cache容量的比较,可以得出在EP测试中Cache的大小对处理器的浮点计算性能影响较小.

BT、SP和LU主要测试点到点的消息传递.BT测试的比值、SP测试的比值和LU测试的比值均大于1,这说明C1000在处理点到点的消息传递上,其性能几乎是C2000的1.5倍到2.5倍.

IS主要测试整数运算性能和聚集通信性能.IS的Mflop/s/processor测试值基本相等,这说明两套机群系统在处理需要大量通信的二维大整数桶排序方面的运算性能相差不大.

2.2 可扩展性测试

研究NPB中不同类型基准测试程序的可扩展性对并行算法优化与机群系统结构改进具有重要意义.在理想情况下,并行计算机的系统性能随着处理机数量的增加而逐渐变好.

在2套基于相同处理器和不同通信网络协议的IBM并行机群系统上,对NPB测试程序集中的IS测试程序、EP测试程序、CG测试程序、MG测试程序、FT测试程序、BT测试程序、SP测试程序、LU测试程序,进行了可扩展性测试比较.具体结果如图2所示.

图2 TCP/IP和Infiniband协议下可扩展性比较

由图2可知,IS程序的Mflop/s/processor测试值在TCP/IP协议和Infiniband协议下均表现为随着处理器数量的快速增加而变小,可扩展性变差.在TCP/IP协议下,EP程序的Mflop/s/processor测试值随着处理器数量的增加无明显变化,可扩展性较好,但在Infiniband协议下随着处理器数量的增加,可扩展性很差.

CG和MG程序的Mflop/s/processor测试值在TCP/IP协议和Infiniband协议下均表现为随着处理器数量的增加逐渐减小,可扩展性很差,主要原因是随着计算节点数目的增加,系统整体通信能力变弱.CG程序在Infiniband协议下的可扩展性优于其在TCP/IP协议下的可扩展性,而MG程序在TCP/IP协议下的可扩展性优于其在Infiniband协议下的可扩展性.FT程序的Mflop/s/processor测试值在两个环境下表现的各异,在TCP/IP协议下随着处理器数量的增加线性增加,可扩展性非常好,而在Infiniband协议下随着处理器数量的增加逐渐减小,可扩展性很差.

BT、SP和LU程序主要用于测试计算能力和通信能力之间的动态变化,在TCP/IP协议和Infiniband协议下,BT和SP程序的Mflop/s/processor测试值均表现为随着处理器数量的增加逐渐减小,扩展性比较差.而LU程序的Mflop/s/processor测试值在两个协议下差异较大,在TCP/IP协议下随着处理器数量的增加线性变大,可扩展性非常好.而在Infiniband协议下随着处理器数量的增加迅速变小,可扩展性非常差.

3 结论

通过上述NPB评测结果分析可知,测试的两套并行机群系统,NPB程序在TCP/IP协议下的整体性能优于在Infiniband协议下的整体性能.可扩展性在两套环境中表现的各不相同,随着处理器数量的增加,IS、MG、CG、BT和SP程序在TCP/IP协议和Infiniband协议下均表现为可扩展性逐渐变差.EP程序可扩展性在TCP/IP协议下表现为几乎恒定不变,而在Infiniband协议下却表现为逐渐变差.FT和LU程序均呈现在TCP/IP协议下可扩展性逐渐变好,在Infiniband协议下可扩展性变差.

[1] 张亚棣. 计算机性能评测[J]. 航空计算技术,1996(4):38-45

[2] 吕超,戴晨,张为华. 计算机体系结构基准测试程序集的研究[J]. 计算机应用与软件,2013,30(10):189-194.

[3] NAS Parallel Benchmarks, Available on-line from: http://science.nas.nasa.gov/Software/NPB.

[4] 张国路,王锐,钱德沛. 计算流体力学并行程序在多核处理器环境的Cache性能分析[J]. 高性能计算机发展与应用,2013,42(1):26-33.

[5] Sunderam V S, Geist G A. Heterogeneous parallel and distributed computing[J]. Parallel Computing. 1999, 25:1699-1721.

[6] Bailey D H,et al. The NAS parallel benchmarks[J]. International Journal of Supercomputer Application, 1991, 5(3):63-73.

[7] 苑野,于永澔. 基于NPB的并行机群系统可扩展性研究[J]. 哈尔滨商业大学学报:自然科学版, 2016,32(1):60-63.

[8] 袁伟,张云泉,孙家昶. 国产万亿次机群系统NPB性能测试分析[J]. 计算机研究与发展,2005,42(6):1079-1084.

[9] 李春艳,张学杰. 基于高性能计算的开源云平台性能评估[J]. 计算机应用,2013, 33(12):3580-3585.

[10] 唐渊,孙家昶,张云泉. 集群网络评测模型的新探索[J]. 软件学报,2005, 16(6):1131-1139.

(责任编辑:李家云)

Performance Analysis of NPB Based on Heterogeneous Network Cluster Environment

Yuan Ye, Yu Yonghao

(Harbin Institute of Technology)

Using NPB benchmark test program, the performance of parallel system is evaluated and analyzed in heterogeneous network cluster. The experiment shows that the performance of the NPB program is better than the performance of the Infiniband protocol under the D Class protocol in the TCP/IP protocol. With the increase of the number of processors, it can be extended differently in the TCP/IP protocol and infiniband protocol. The parallel scalability and application program of hardware performance of the application need to be further expanded.

NPB; Performance evaluation; Parallel benchmark

2016-02-11

*国家自然科学基金项目(51201051)

TP311

A

1000-5617(2016)02-0075-04

猜你喜欢
测试程序可扩展性机群
施工机群配置优化研究综述
施工机群配置优化研究综述
基于Castle型机械手的三温量产测试平台实现
广东省机群吊桶洒水灭火技术发展与应用①
恩智浦推出全新i.MX 8X 处理器,为工业应用带来更高的安全性、可靠性和可扩展性
电力监控软件的可扩展性设计
手机APP交互界面人因适合性测试程序的设计与实现
基于微软技术的高可扩展性中小企业系统解决方案研究
构建高可扩展性的物流装备管理系统
基于多核机群的Petri网系统并行化模型的研究