西南空管局气象中心数据库服务器运行性能分析

2014-12-31 00:31张宇
电脑知识与技术 2014年35期
关键词:小型机性能分析

张宇

摘要:该文针对在信息化的今天,越来越多的行业专业应用在小型机上运行,为了让系统管理员随时了解小型机的运行情况,并且在保证业务正常运行的同时兼顾资源的合理分配,故需要对小型机随时进行运行性能分析。该文介绍一种IBM小型机的性能分析工具NMON,通过使用这种工具,能够让管理员随时了解小型机的运行情况和资源使用情况等。

关键词:小型机;NMON;性能分析

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)35-8355-04

1 概述

随着信息化的高速发展,各行各业有越来越多的业务运行在小型机上。小型机通常是指采用8-32颗处理器,性能和价格介于PC服务器和大型主机之间的一种高性能64位计算机,小型机基本上采用UNIX操作系统,UNIX服务器具有区别X86服务器和大型主机的特有体系结构,基本上,各个小型机厂商都有自己的UNIX版本和处理器。例如IBM公司开发的UNIX操作系统是AIX(AdvacncedInteractiveeXecutive),它运行在IBM独有的Power系列芯片的小型机硬件系统之上,通过全面集成对32位和64位应用的并行支持,为这些应用提供了全面的扩展性。小型机和普通PC服务器的最大差别在于小型机的高RAS(Reliability,Availability,Sercviceability,高可靠性、高可用性、高服务性)特性。

2 现况分析

西南空管局气象中心(以下简称为中心)数据库系统是中国民用航空气象数据库系统在西南地区的重要结点,它在担负着为成都地区的民航飞行提供气象保障的同时还有向西南地区建设有气象数据库系统的机场气象台(站)传输民航气象资料的重要职责。并且由于民航业务的特殊性,民航气象数据库系统必须24小时不间断运行。鉴于以上因素,中心数据库系统中的多个核心服务器均为IBM出产的P系列小型机,目前在使用中的有P720、P650、P520等型号。由于这些服务器的配置有所差别,在实际生产过程中所承担的业务量也有所区别。

伴随着中国民用航空事业的高速发展,民航气象业务量的增长也越来越快,客观上对民航气象数据库系统服务器的可靠性、可用性和服务性提出了更高的要求。在达到以上目标的同时,为了更好的利用每一台服务器的可用资源,则需要系统管理员随时掌握服务器运行时的性能情况。运行性能又由服务器硬件和业务软件共同决定,由于软件部分的牵涉方面太多,故这部分的性能分析和优化不在本文的讨论范围内。服务器硬件上主要有4个方面和AIX系统性能相关:分别是CPU系统、内存系统、磁盘I/O系统和网络系统。系统管理员需对服务器这几方面的运行性能进行查看分析,了解服务器的运行状况,以便达到资源的有效利用。

3 分析方法

3.1 通过系统命令获取数据进行分析

对于上文提到的4个方面,AIX系统提供了多种命令可以查看其工作数据,由管理员获取这些数据后再对其进行客观分析。如vmstat,sar和tprof命令可以查看CPU的运行性能数据;vmstat,svmon,topas命令可以查看内存的运行性能数据;iostat,ilemon命令可以查看磁盘I/O的运行性能数据;ping,ftp,netstat,netpmon等命令可以查看网络的运行性能数据。

例如执行命令在root账户下执行命令sar 1 15,该命令的含义是每隔1秒查看一次CPU的使用率,连续查看30次,得到以下结果:

上述第一列为取样时间,第二列%usr是CPU处在用户模式下的时间百分比;第三列%sys是CPU处在系统模式下的时间百分比;第四列%wio是CPU等待输入输出完成时间的百分比;第五列%idle是CPU空闲时间百分比;第六列physc是消耗物理处理器的数目。

在上述结果中,系统管理员应主要注意%wio和%idle。%wio的值过高,表示硬盘存在I/O瓶颈;%idle值高,表示CPU较空闲,如果%idle值高但系统响应慢时,有可能是CPU等待分配内存,此时应加大内存容量。%idle值如果持续低于10,那么系统的CPU处理能力相对较低,表明系统中最需要解决的资源是CPU。

由于AIX系统命令参数较多,上述例子只是一个简单示例,sar命令还有其他较多参数可以使用,用于各项系统参数的收集、报告或者保存。如果是查看短时间内AIX系统的某一方面的运行状态,用上述命令进行查看比较方便;若需要查看AIX系统在一个较长时间内的的全面运行状态,则需要同时运行多个命令,将采集到的各种数据进行集中分析,从而获取到系统管理员需要了解到的各种信息。

3.2 使用NMON工具进行分析

在对AIX系统进行整体检查时,需要运行多个命令,采集多方面的数据,并且需要将各项数据进行交叉分析。对于系统管理员而言,进行这样的检查相对繁琐且占用大量时间,针对这种情况,在对系统进行全面分析时,可以采用NMON工具进行数据的采集分析。NMON是一种在AIX与各种Linux操作系统上使用的监控与分析工具,对于系统原本的一些监控工具而言,NMON所记录的信息相对全面,它能在系统运行过程中实时地捕捉系统资源的使用情况,并且能输出结果到文件中,然后通过nmon_analyzer工具产生数据文件和图形化结果。

NMON所记录的数据包括以下方面:CPU占用率;内存使用情况;内核统计信息和运行队列信息;磁盘I/O速度、传输和读/写比率;文件系统中的可用空间;磁盘适配器;网络I/O速度、传输和读/写比率;页面空间和页面速度;CPU和AIX规范;消耗资源最多的进程;IBM HTTP Web缓存;用户自定义的磁盘组;计算机详细信息和资源;异步I/O;工作负载管理器(WLM);IBM ESS磁盘;网络文件系统(NFS);动态LPAR(DLPAR)更改等等。endprint

一个简单的NMON命令示范如下:

nmon—f —s 30 —c 120

-f表示输出文件的格式,上述命令表示采用默认值;-s表示每隔30秒采集一次数据;-c表示一共采集120次数据。

该命令执行后就在当前目录下生成如下文件:主机名_起始时间_结束时间.nmon。再通过NMON提供的EXCEL文件对其进行加工,即可将结果生成直观的EXCEL文件:主机名_起始时间_结束时间.xlsx。用EXCEL打开该文件后第一个SHEET如图1所示,这是对系统整体的一个运行情况概要,它显示的是目标服务器的CPU 使用情况和I/O的吞吐量在整个采集时间内的变化情况。

针对每页的不同内容,NMON有多项指标对其进行分析,现将一些关键指标类型如表2所示。上述类型则完全覆盖了服务器在运行过程中各方面的要素,并且这些要素都已用最直观的的方式给用户显示出来,如图2所示。这张SHEET显示的是DISKXFER,也就是每个hdisk的I/O每秒操作。在图2上面一幅图表,显示的是HDISK0和HDISK1的每秒I/O操作的数据,其中蓝色表示平均值,红色表示加权平均值,绿色表示最大值。在此引入加权平均值是因为在收集样本数据过程中,可能会面临系统中的某项资源在一个长时间内都是空闲的情况,这样并不会影响到数据的最大值,但是能够影响到平均值的准确性。加权平均的意义在于提供一项量化因素,说明任一份样本数据,它是如何影响到平均值的。图2下面一副图表,则显示的是HDISK0和HDISK1的每份样本数据中的I/O每秒操作量根据时间的变化。可见在18:26和21:26两个时间段,磁盘的I/O操作达到一天的最大值,并且远远超过其他时候的数值。在两幅图上方还有每个样本中的磁盘I/O的具体数据,截图未能将该图表覆盖完全。

对得出的所有结论分析后则可对当前服务器的性能进行一定的总体评估,如果某几项资源尚未得到充分利用,则可以根据需要适当增加该服务器上的业务量;如果某些方面性能已经达到饱和,则可以适当减少该服务器上的业务量,避免长期对某项资源的使用率过高,从而造成影响整个服务器的业务运行。

4 中心数据库服务器实际分析

中心数据库系统核心服务器为一台IBM P720小型机,基本情况如下:操作系统AIX版本为5.3.12.7;4颗POWER7系列CPU;4块SAS硬盘,每块硬盘300G,其中DISK0和DISK1组成ROOTVG,DISK2和DISK3组成DATAVG,并通过光纤外接存储设备,其中DISK4是位于存储设备上;系统物理内存16G;一块千兆以太网卡和一块光纤网卡。在该服务器上运行有民航气象通信系统和民航气象数据库系统,民航气象通信系统的主要功能是转发民航气象资料,实时接收从上一级下发或者下一级上传的气象资料,进行相关处理后再传输给下一级或者上一级,并同时转发给本地的一些数据库;民航气象数据库系统的主要功能就是对民航气象资料进行存储,并将这些数据提供给用户。

为了对核心服务器进行运行性能分析,我们用NMON对其进行数据采集,整个采集过程持续一整天24小时,且每隔20分钟采集一次样本。原因在于每天民航气象数据资料的数量都趋于一致,故核心服务器每天的业务量也基本一致。

经过一天的数据采集后,我们得到最后的概要结果如图3所示。由此图可知,在一整天的业务运行中,CPU的使用率基本保持在10%以下,磁盘I/O的吞吐量大部分时间在每秒200KB左右小幅变化,只有在18点到19点之间,磁盘I/O达到最大值700KB/S左右。由于核心服务器每天在18点后开始执行前一天的资料归档工作,故这个时候磁盘I/O会达到当天的最大值,其他时候每天的业务分布相对平均,磁盘I/O的变化幅度不大。

图4为CPU运行情况概要,其中蓝色折线为在用户模式下执行的程序所使用的 CPU 百分比;红色折线为在内核模式下执行的程序所使用的 CPU 百分比;绿色折线为等待 IO 所花的时间百分比。由该图可知民航气象业务对系统CPU资源的消耗不高。

图5为磁盘运行情况概要,其中蓝色折线为磁盘设备的读取速率,该值很低是因为服务器位于网络核心区,实际上未提供对外的数据服务;红色折线为磁盘设备的写入速率,持续在2000KB/S左右最大达到国16000KM/S左右;白色折线为每秒钟输出到物理磁盘的传输次数,持续在150 IO/S左右,最大达到过800 IO/S。由该图可知民航气象业务的数据写入基本在24小时内平均分布,对磁盘的持续稳定运行要求较高。

图6为文件系统使用情况概要,显示文件系统以及mount磁盘设备已使用空间百分比。其中蓝色为平均值;红色为加权平均值;绿色为最大值。由该图可知/HOME和/U0的使用空间百分比较高,这与/HOME为运行业务安装目录,/U0为数据库安装目录相符。

图7为内存使用情况概要,其中蓝色折线为系统程序使用的内存百分比,使用率在20%左右;红色折线为分配给用户进程的内存百分比,使用率在30%左右;米色折线为分配给文件系统缓存的内存百分比,使用率在20%左右。由该图可知民航气象业务对内存资源的消耗不高。

图8为网络接口使用情况概要,其中上图蓝色折线为总的接口读取速率,由于上文提到的原因该值较低,持续在100KB/S左右;红色折线为接口写入速率,持续在200KB/S至300KB/S之间,瞬时最大值达到2500KB/S。下图分别表示每一个接口的速率,其中蓝色为平均值,红色为加权平均值,绿色为最大值。可见EN0的写入操作在各个接口的使用中占有主要地位。

最后,由以上各图可知,中心数据库核心服务器的资源足够满足各项业务运行的需求,能够充分保障各项业务的正常运行。

5 未来工作展望

借助NMON这项工具,我们已经能够及时对任何一台IBM的小型机服务器进行性能分析并且得到一份全面的分析结果。对于业务繁忙,资源经常消耗完的服务器,下一步工作计划通过分析结果,优化该服务器的运行结构,使其充分利用各项资源。endprint

一个简单的NMON命令示范如下:

nmon—f —s 30 —c 120

-f表示输出文件的格式,上述命令表示采用默认值;-s表示每隔30秒采集一次数据;-c表示一共采集120次数据。

该命令执行后就在当前目录下生成如下文件:主机名_起始时间_结束时间.nmon。再通过NMON提供的EXCEL文件对其进行加工,即可将结果生成直观的EXCEL文件:主机名_起始时间_结束时间.xlsx。用EXCEL打开该文件后第一个SHEET如图1所示,这是对系统整体的一个运行情况概要,它显示的是目标服务器的CPU 使用情况和I/O的吞吐量在整个采集时间内的变化情况。

针对每页的不同内容,NMON有多项指标对其进行分析,现将一些关键指标类型如表2所示。上述类型则完全覆盖了服务器在运行过程中各方面的要素,并且这些要素都已用最直观的的方式给用户显示出来,如图2所示。这张SHEET显示的是DISKXFER,也就是每个hdisk的I/O每秒操作。在图2上面一幅图表,显示的是HDISK0和HDISK1的每秒I/O操作的数据,其中蓝色表示平均值,红色表示加权平均值,绿色表示最大值。在此引入加权平均值是因为在收集样本数据过程中,可能会面临系统中的某项资源在一个长时间内都是空闲的情况,这样并不会影响到数据的最大值,但是能够影响到平均值的准确性。加权平均的意义在于提供一项量化因素,说明任一份样本数据,它是如何影响到平均值的。图2下面一副图表,则显示的是HDISK0和HDISK1的每份样本数据中的I/O每秒操作量根据时间的变化。可见在18:26和21:26两个时间段,磁盘的I/O操作达到一天的最大值,并且远远超过其他时候的数值。在两幅图上方还有每个样本中的磁盘I/O的具体数据,截图未能将该图表覆盖完全。

对得出的所有结论分析后则可对当前服务器的性能进行一定的总体评估,如果某几项资源尚未得到充分利用,则可以根据需要适当增加该服务器上的业务量;如果某些方面性能已经达到饱和,则可以适当减少该服务器上的业务量,避免长期对某项资源的使用率过高,从而造成影响整个服务器的业务运行。

4 中心数据库服务器实际分析

中心数据库系统核心服务器为一台IBM P720小型机,基本情况如下:操作系统AIX版本为5.3.12.7;4颗POWER7系列CPU;4块SAS硬盘,每块硬盘300G,其中DISK0和DISK1组成ROOTVG,DISK2和DISK3组成DATAVG,并通过光纤外接存储设备,其中DISK4是位于存储设备上;系统物理内存16G;一块千兆以太网卡和一块光纤网卡。在该服务器上运行有民航气象通信系统和民航气象数据库系统,民航气象通信系统的主要功能是转发民航气象资料,实时接收从上一级下发或者下一级上传的气象资料,进行相关处理后再传输给下一级或者上一级,并同时转发给本地的一些数据库;民航气象数据库系统的主要功能就是对民航气象资料进行存储,并将这些数据提供给用户。

为了对核心服务器进行运行性能分析,我们用NMON对其进行数据采集,整个采集过程持续一整天24小时,且每隔20分钟采集一次样本。原因在于每天民航气象数据资料的数量都趋于一致,故核心服务器每天的业务量也基本一致。

经过一天的数据采集后,我们得到最后的概要结果如图3所示。由此图可知,在一整天的业务运行中,CPU的使用率基本保持在10%以下,磁盘I/O的吞吐量大部分时间在每秒200KB左右小幅变化,只有在18点到19点之间,磁盘I/O达到最大值700KB/S左右。由于核心服务器每天在18点后开始执行前一天的资料归档工作,故这个时候磁盘I/O会达到当天的最大值,其他时候每天的业务分布相对平均,磁盘I/O的变化幅度不大。

图4为CPU运行情况概要,其中蓝色折线为在用户模式下执行的程序所使用的 CPU 百分比;红色折线为在内核模式下执行的程序所使用的 CPU 百分比;绿色折线为等待 IO 所花的时间百分比。由该图可知民航气象业务对系统CPU资源的消耗不高。

图5为磁盘运行情况概要,其中蓝色折线为磁盘设备的读取速率,该值很低是因为服务器位于网络核心区,实际上未提供对外的数据服务;红色折线为磁盘设备的写入速率,持续在2000KB/S左右最大达到国16000KM/S左右;白色折线为每秒钟输出到物理磁盘的传输次数,持续在150 IO/S左右,最大达到过800 IO/S。由该图可知民航气象业务的数据写入基本在24小时内平均分布,对磁盘的持续稳定运行要求较高。

图6为文件系统使用情况概要,显示文件系统以及mount磁盘设备已使用空间百分比。其中蓝色为平均值;红色为加权平均值;绿色为最大值。由该图可知/HOME和/U0的使用空间百分比较高,这与/HOME为运行业务安装目录,/U0为数据库安装目录相符。

图7为内存使用情况概要,其中蓝色折线为系统程序使用的内存百分比,使用率在20%左右;红色折线为分配给用户进程的内存百分比,使用率在30%左右;米色折线为分配给文件系统缓存的内存百分比,使用率在20%左右。由该图可知民航气象业务对内存资源的消耗不高。

图8为网络接口使用情况概要,其中上图蓝色折线为总的接口读取速率,由于上文提到的原因该值较低,持续在100KB/S左右;红色折线为接口写入速率,持续在200KB/S至300KB/S之间,瞬时最大值达到2500KB/S。下图分别表示每一个接口的速率,其中蓝色为平均值,红色为加权平均值,绿色为最大值。可见EN0的写入操作在各个接口的使用中占有主要地位。

最后,由以上各图可知,中心数据库核心服务器的资源足够满足各项业务运行的需求,能够充分保障各项业务的正常运行。

5 未来工作展望

借助NMON这项工具,我们已经能够及时对任何一台IBM的小型机服务器进行性能分析并且得到一份全面的分析结果。对于业务繁忙,资源经常消耗完的服务器,下一步工作计划通过分析结果,优化该服务器的运行结构,使其充分利用各项资源。endprint

一个简单的NMON命令示范如下:

nmon—f —s 30 —c 120

-f表示输出文件的格式,上述命令表示采用默认值;-s表示每隔30秒采集一次数据;-c表示一共采集120次数据。

该命令执行后就在当前目录下生成如下文件:主机名_起始时间_结束时间.nmon。再通过NMON提供的EXCEL文件对其进行加工,即可将结果生成直观的EXCEL文件:主机名_起始时间_结束时间.xlsx。用EXCEL打开该文件后第一个SHEET如图1所示,这是对系统整体的一个运行情况概要,它显示的是目标服务器的CPU 使用情况和I/O的吞吐量在整个采集时间内的变化情况。

针对每页的不同内容,NMON有多项指标对其进行分析,现将一些关键指标类型如表2所示。上述类型则完全覆盖了服务器在运行过程中各方面的要素,并且这些要素都已用最直观的的方式给用户显示出来,如图2所示。这张SHEET显示的是DISKXFER,也就是每个hdisk的I/O每秒操作。在图2上面一幅图表,显示的是HDISK0和HDISK1的每秒I/O操作的数据,其中蓝色表示平均值,红色表示加权平均值,绿色表示最大值。在此引入加权平均值是因为在收集样本数据过程中,可能会面临系统中的某项资源在一个长时间内都是空闲的情况,这样并不会影响到数据的最大值,但是能够影响到平均值的准确性。加权平均的意义在于提供一项量化因素,说明任一份样本数据,它是如何影响到平均值的。图2下面一副图表,则显示的是HDISK0和HDISK1的每份样本数据中的I/O每秒操作量根据时间的变化。可见在18:26和21:26两个时间段,磁盘的I/O操作达到一天的最大值,并且远远超过其他时候的数值。在两幅图上方还有每个样本中的磁盘I/O的具体数据,截图未能将该图表覆盖完全。

对得出的所有结论分析后则可对当前服务器的性能进行一定的总体评估,如果某几项资源尚未得到充分利用,则可以根据需要适当增加该服务器上的业务量;如果某些方面性能已经达到饱和,则可以适当减少该服务器上的业务量,避免长期对某项资源的使用率过高,从而造成影响整个服务器的业务运行。

4 中心数据库服务器实际分析

中心数据库系统核心服务器为一台IBM P720小型机,基本情况如下:操作系统AIX版本为5.3.12.7;4颗POWER7系列CPU;4块SAS硬盘,每块硬盘300G,其中DISK0和DISK1组成ROOTVG,DISK2和DISK3组成DATAVG,并通过光纤外接存储设备,其中DISK4是位于存储设备上;系统物理内存16G;一块千兆以太网卡和一块光纤网卡。在该服务器上运行有民航气象通信系统和民航气象数据库系统,民航气象通信系统的主要功能是转发民航气象资料,实时接收从上一级下发或者下一级上传的气象资料,进行相关处理后再传输给下一级或者上一级,并同时转发给本地的一些数据库;民航气象数据库系统的主要功能就是对民航气象资料进行存储,并将这些数据提供给用户。

为了对核心服务器进行运行性能分析,我们用NMON对其进行数据采集,整个采集过程持续一整天24小时,且每隔20分钟采集一次样本。原因在于每天民航气象数据资料的数量都趋于一致,故核心服务器每天的业务量也基本一致。

经过一天的数据采集后,我们得到最后的概要结果如图3所示。由此图可知,在一整天的业务运行中,CPU的使用率基本保持在10%以下,磁盘I/O的吞吐量大部分时间在每秒200KB左右小幅变化,只有在18点到19点之间,磁盘I/O达到最大值700KB/S左右。由于核心服务器每天在18点后开始执行前一天的资料归档工作,故这个时候磁盘I/O会达到当天的最大值,其他时候每天的业务分布相对平均,磁盘I/O的变化幅度不大。

图4为CPU运行情况概要,其中蓝色折线为在用户模式下执行的程序所使用的 CPU 百分比;红色折线为在内核模式下执行的程序所使用的 CPU 百分比;绿色折线为等待 IO 所花的时间百分比。由该图可知民航气象业务对系统CPU资源的消耗不高。

图5为磁盘运行情况概要,其中蓝色折线为磁盘设备的读取速率,该值很低是因为服务器位于网络核心区,实际上未提供对外的数据服务;红色折线为磁盘设备的写入速率,持续在2000KB/S左右最大达到国16000KM/S左右;白色折线为每秒钟输出到物理磁盘的传输次数,持续在150 IO/S左右,最大达到过800 IO/S。由该图可知民航气象业务的数据写入基本在24小时内平均分布,对磁盘的持续稳定运行要求较高。

图6为文件系统使用情况概要,显示文件系统以及mount磁盘设备已使用空间百分比。其中蓝色为平均值;红色为加权平均值;绿色为最大值。由该图可知/HOME和/U0的使用空间百分比较高,这与/HOME为运行业务安装目录,/U0为数据库安装目录相符。

图7为内存使用情况概要,其中蓝色折线为系统程序使用的内存百分比,使用率在20%左右;红色折线为分配给用户进程的内存百分比,使用率在30%左右;米色折线为分配给文件系统缓存的内存百分比,使用率在20%左右。由该图可知民航气象业务对内存资源的消耗不高。

图8为网络接口使用情况概要,其中上图蓝色折线为总的接口读取速率,由于上文提到的原因该值较低,持续在100KB/S左右;红色折线为接口写入速率,持续在200KB/S至300KB/S之间,瞬时最大值达到2500KB/S。下图分别表示每一个接口的速率,其中蓝色为平均值,红色为加权平均值,绿色为最大值。可见EN0的写入操作在各个接口的使用中占有主要地位。

最后,由以上各图可知,中心数据库核心服务器的资源足够满足各项业务运行的需求,能够充分保障各项业务的正常运行。

5 未来工作展望

借助NMON这项工具,我们已经能够及时对任何一台IBM的小型机服务器进行性能分析并且得到一份全面的分析结果。对于业务繁忙,资源经常消耗完的服务器,下一步工作计划通过分析结果,优化该服务器的运行结构,使其充分利用各项资源。endprint

猜你喜欢
小型机性能分析
广电网络省级IT系统平台设计与实现
商业银行开发中心云计算平台基础架构设计
自动控制系统的优劣评价分析
数据中心去小型机化可行性研究
Oracle集群常见故障三例
网络安全态势量化评估模型
网络安全态势感知国内外研究现状
TD—LTE智能天线性能分析和应用研究
DCS控制系统在生产线物料运输工作的应用
关于动车组动车转向架的关键部件性能分析