AIX系统优化流程分析

2015-09-09 13:10张宇
电脑知识与技术 2015年16期
关键词:流程优化

张宇

摘要:在信息化的今天,很多行业的业务运行在AIX操作系统下,为了让系统管理员随时了解系统的运行情况,并且在保证业务正常运行的同时兼顾资源的合理分配,故需要对AIX进行系统优化。该文主要介绍对AIX系统进行优化分析的流程,通过这样的流程,可以让系统管理员发现自己系统的不足和了解对系统进行优化的方向。

关键词:AIX;优化;流程

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)03-0258-02

1 概述

随着信息化的高速发展,各行各业有越来越多的业务运行在小型机上。小型机通常是指采用8-32颗处理器,性能和价格介于PC服务器和大型主机之间的一种高性能64位计算机,小型机基本上采用UNIX操作系统,UNIX服务器具有区别X86服务器和大型主机的特有体系结构,基本上,各个小型机厂商都有自己的UNIX版本和处理器。AIX(Advanced Interactive eXecutive)是IBM基于AT&T Unix System V开发的一套类UNIX操作系统,运行在IBM专有的Power系列芯片设计的小型机硬件系统之上。但是由于每台小型机出厂后安装的AIX操作系统配置都完全一样,没有根据用户的实际需求进行优化,这就要求用户在使用过程中,根据自身的各种需要,不断的对AIX操作系统进行优化。

2 优化原因

2.1 内部稳定原因

由于各个企业运行在AIX系统上的业务通常为自身的关键业务,这些业务必须不间断的正常运行。故系统要能够长期稳定运行,这就要求我们随时对系统进行各种优化,并且在优化时,需要将保证稳定运行放在第一位。

2.2 外部发展原因

随着信息化建设的飞速发展,很多企业的系统已经在慢慢的跟不上自己业务发展的需求。或许系统不能承受越来越多的用户访问,或许设备太过陈旧导致系统资源占有率过高。又限于经费原因,企业不能进行大规模的设备更换工作,故为了保障系统的正常运行,也要求我们对系统进行各种优化。并且在优化系统时,需要更加合理的利用各项系统资源,找到真正需要增加或者更换的那部分系统资源。

3 优化步骤

就AIX系统而言,系统优化分为系统硬件资源优化和业务软件优化两方面。系统硬件上主要有4个方面和AIX性能相关:分别是CPU、内存、磁盘I/O和网络。优化分析流程图如图1所示。由图可见,要对系统进行优化,首先优化人员需要熟悉系统和业务的运行情况,将运行情况和正常情况进行比较,才能发现系统是否存在瓶颈,需要进行优化。在可以进行优化的四个资源方面,CPU、内存和硬盘是系统自身资源,可以通过对系统自身相关资源的优化和更换进行效率提高,而网络是系统和外部的交换资源,这方面的优化还需要牵涉到系统之外的资源,暂时不在本文的讨论范围内。以下我们对可以直接进行分析解决的资源部分进行优化流程分析。

3.1 CPU

对于CPU的分析流程如图2所示。首先我们通过sar、vmsatat、topas等命令,查看系统中的CPU使用比例(usr% + sys%)是否大于90%,如图3所示,其中系统使用比例即为Kern项,如果系统CPU中有IO wait存在,说明系统内存或者IO方面需要进行进一步的检

图1 优化分析流程图

图2 CPU分析流程图

图3 topas命令示例

查。其中导致IO wait的主要原因有两点:第一是内存偏小而导致的频繁数据交换,导致数据存取存在交换空间的I/O瓶颈;第二是硬盘数据分布不合理。

对于CPU使用比例(usr% + sys%)大于90%的情况,我们再通过topas、ps-aux等命令找出占用CPU资源较多的进程。然后判断是否有非业务进程或者异常进程,如果有在检查导致CPU使用率高的原因。若占用CPU资源较高的进程为业务进程,则通过工具Tprof–k –s –e –x “sleep connect time”,会在当前目录下生成一个sleep.prof文件,现将该文件部分摘录如下

注意其中SYS%(Kernel)项的比例,如果该项的值比正常情况高,则可能是应用业务方面的问题,可以联系厂商分析具体原因;如果该项的值比正常情况低,则说明系统业务忙,CPU存在瓶颈问题,可以考虑对CPU进行升级。

3.2 内存

对于系统内存的分析流程如图4所示,我们首先使用vmstat、topas、nmon等命令查看系统的页面调入和换页空间状态。如图3所示,其中PgspIn项为系统的页面调入数量,PAGING SPACE下的% used项为换页空间的使用百分比,如果页面调入数量有且数值较大,换页空间的使用百分比在持续增加,则说明内存存在瓶颈,我们需要进行下一步检查。

图4 内存分析流程图

我们再通过上述命令查看文件型内存和计算型内存的占用比例。如图3所示,其中MEMORY下的%Comp项为计算型内存的百分比,%Noncomp项为文件型内存的百分比。然后根据系统类型判断这两类内存的占用比例设置是否合理,如果不合理则配置相关参数到合理区间,再进行第一步的页面调入数量和换页空间的观察。一个常规的配置比例是:对于数据库系统,文件型内存比例不要太大,可以在5%左右;对于文件操作型系统,文件型内存的比例要相对较大;对于其他类型的系统,文件性内存比例不宜超过20%。如果配置合理,则说明内存出现瓶颈的原因不在配置方面,可能问题出在进程上。

使用nmon、ps–aux|head - $等命令找到占用内存最多的进程,并使用svmon–Pns命令查看进程的内存详细使用情况,是否存在判断这些进程是否为非业务进程或异常进程,如果有则寻求厂商支持,查询导致异常和内存泄露的原因。如果是业务进程,则查看目前业务的内存使用情况是否正常,在均正常的前提下才考虑内存不够的因素,需要添加内存。如果不正常,也需要联系厂商支持,查看业务运行情况。

查看进程的内存详细使用情况的方法是:输入命令svmon– P 进程ID,查看work process private项的值,如图5所示。过段时间重复上述命令,如果该值增长较多,则说明可能存在内存泄漏问题。

图5 查看进程的内存详细情况

3.3 IO

对IO的分析流程如图6所示。首先使用topas等命令,如图2所示,在CPU的wait%项中持续有数值且超过一定比例,则说明系统可能存在IO瓶颈。并且检查Disk下的Busy%、KBPS、TPS、KB-Read、KB-Writ等项目,对内置磁盘,查看磁盘的繁忙率是否超过80%,读写流量和磁盘每秒的IO请求数;对于盘阵,主要查看读写流量和每秒的IO请求数。以上数值均比较高的话再通过nmon、filemon等命令查看各个进程的IO使用情况,找到IO使用最高的几个进程,判断IO使用是否合理并排除掉正在备份等高IO使用情况。

如果上述IO使用情况不合理,我们下一步需要通过命令filemon –p /tmp/filemon.out - O all查找活跃的文件、文件系统、逻辑卷和物理卷,判断数据的使用和分布是否合理,示例如下所示,对于分布不合理的磁盘,进行磁盘分布的优化。

图6 IO分析流程图

然后对于缓存型文件系统,检查系统是否有足够的缓存来处理文件页面,然后通过topas等命令检查系统文件型内存的使用率和交换情况。如果使用率较高,可以考虑调整参数来增加系统文件型内存的使用比例。然后对内置磁盘,检查使用率较高的文件是否有较多碎片,如果碎片较多,则利用工具重组物理分区分配。

4 总结和展望

通过以上流程,我们就可以对一台使用AIX操作系统的服务器进行一次系统调优工作,但是在本文中讨论的调优工作主要以流程为主,具体的调优细节还需要进一步的深入研究。

猜你喜欢
流程优化
超限高层建筑结构设计与优化思考
吃水果有套“清洗流程”
民用建筑防烟排烟设计优化探讨
关于优化消防安全告知承诺的一些思考
一道优化题的几何解法
由“形”启“数”优化运算——以2021年解析几何高考题为例
违反流程 致命误判
本刊审稿流程
析OGSA-DAI工作流程
数字流程