梁奂等
1 引言
随着信息化日益普及和互联网时代的到来,企业对信息系统及网络系统的依赖程度日益增加,企业IT应用的系统架构和环境日趋复杂,运营商对IT应用系统运行的稳定性和可靠性要求越来越高。为保证运营商网络和业务系统安全稳定运行,运营商迫切需要建立一个对网络环境、业务系统实行集中监控、维护和管理的系统,即IT监控系统。
应用系统作为IT监控的一个重要对象,其运行健康依赖于承载传输网络、主机设备、操作系统及其他必要的构成组件如数据库、中间件等,这些组件的运行状态会直接或间接地影响IT系统的运行状态,甚至导致业务运作的失败。那么,能否像人体“健康”那样,为IT系统做定期的健康情况检查呢?
2 IT系统健康度设计思路
“健康”一词最早源于医学概念。依据世界卫生组织(WHO)关于健康的定义,“健康”乃是一种在身体上、精神上的完满状态以及良好的适应力,而不仅仅是没有疾病和衰弱的状态,这就是人们所指的身心健康。推广到IT系统上,IT系统健康是指IT系统的各组件(业务服务、应用软件及支撑平台资源等)运行时,系统可用性、性能负荷、资源利用的状态良好,不存在故障或隐患。
华佗说:“上医者治未病,中医者治欲病,下医者治已病。”治未病,其实就是在未得病时防止得病。体检可以帮助医生了解身体状况,判断可能要得什么病,并有针对性地提出预防措施,从而达到治未病的效果。人为了保持健康,定期需要进行全面体检,根据体检报告采取相应治疗措施,保证身体健康发展。IT系统也一样,需要定期进行健康度评估,可以达到治未病的境界。通过全面的系统健康检查可以变被动的响应式服务为主动维护,通过定期对系统进行体检,能够全面地掌握整个IT系统运行状况,消除故障隐患、提高系统的可用性,改变“头痛医头,脚痛医脚”的现象。
2.1 IT系统健康度设计思路
IT系统健康度有两层含义:第一层是“健康”的含义,是指系统业务功能满足用户需求,用户满意度较高,系统各组件性能良好和持续稳定;第二层是“度”的含义,是指测量、判别系统运行是否健康而必须要具备的评估标准和可量化的工具。
IT系统健康度的设计首先应该分析IT系统构成模型。从监控角度来看,IT系统包括支撑平台层(网络设备、计算机硬件及操作系统、存储、数据库及中间件等基础硬件和软件)、应用软件层(应用进程、系统接口、参数配置文件等应用软件的组件)及业务服务层(业务服务、业务数据环节及业务流程等),如图1所示。因此,IT系统的健康应包含支撑平台、应用软件和业务服务这3个层面的健康组成,而且三者间有依赖关系,如支撑平台的故障会导致应用软件和业务服务的运行故障,应用软件的故障也会导致业务服务的故障。
IT系统的健康度需要专门的监测指标来评估。监控工具通过对IT支撑平台、应用软件、业务服务的运行状态和关键运行指标的监控,实时掌握IT支撑平台、应用软件的运行性能状况,通过对业务服务的关键指标监控,及时掌握业务运行状态和质量,主动发现异常情况及性能瓶颈,从而能够采取针对性的处理及优化措施,提高IT系统运行质量以及业务的可靠性和可用性。
2.2 IT系统健康度通用模型设计
根据IT系统分层构成模型,采用自下而上分析方法,设计了IT系统健康度模型。该模型包括IT支撑平台健康度、应用软件健康度和业务服务健康度3个部分,如图2所示。
IT系统是一个复杂的系统,要对全部组件进行监测并不现实,因此建议有针对性地选取3个层面的关键组件进行监测。例如:对于IT支撑平台方面,可选取主机设备、数据库系统和中间件系统等组件进行监测;对于应用软件方面,可选取应用进程、系统接口和配置文件等进行监测;对于业务服务方面,可根据系统特点选取相应的核心业务进行监测。
健康度模型需要预先制定监测指标及评估标准。对于IT系统中各组件,可选取1个到多个监测点,如对于主机设备,可选取CPU利用率、内存利用率、主机网卡通断状态、主机状态等指标监测。对于每个监测指标,必须预先根据经验设置好健康评估的区间值,这是作为后续健康度计算的基础。
IT系统健康度由系统各组件的健康指标汇聚计算而成。例如,对于主机设备这个组件,从CPU利用率、内存利用率、主机网卡通断状态、主机状态这4个方面来监测,每个指标都根据重要程度设置权重。主机设备健康度是通过这4个方面指标得分通过加权而得到。进一步往上汇聚,通过主机设备、数据库系统和中间件系统的健康度,加权计算而得到承载系统的硬件健康度。同理,IT系统的健康度也可以通过硬件、关键应用和业务运营这3个方面的健康值加权计算而得到,健康值越高(一般最高为100)表示系统越健康,当健康值为0时,表示系统已崩溃或不可用状态,其他值表示系统存在故障或会导致业务不可用的隐患。
3 健康度模型实践及应用效果
3.1 某电信公司IT系统健康度模型
某电信公司根据IT系统健康度通用模型,结合电信企业IT系统的特点,定义了自身的IT系统健康度模型。该模型包括IT支撑平台、应用软件和业务服务3个部分,合共包括17个核心监测指标,具体如表1所示。本健康度模型监测指标可分为以下2类:
(1)量化的数值指标,如CPU利用率和内存利用率等,这些指标需要分别定义相应的评估标准。例如,CPU利用率评估标准一般可设为:CPU利用率≥ 95%为不健康状态,95%>CPU利用率≥85%为亚健康状态,而CPU利用率<85%属于健康状态等。当然,这个评估标准可以根据不同系统的特点来灵活设定。
(2)一些开关量指标,也叫关键健康因子。这些指标只有可用和不可用2种状态,权重分别设为1和0。当指标为不可用状态时,表示上一层组件也是不可用状态,即关键指标采用一票否决算法。例如,主机状态指标只有指标正常(用“1”表示)时,主机是可用状态;否则,主机就是不可用状态。
系统各层组件的健康程度可以通过下级各监测指标汇聚计算得到,如通过硬件的各类指标状态、数据库的各类指标状态、中间件的各类指标状态,从而得到IT支撑平台健康值;通过支撑平台、关键应用健康值、关键业务服务的健康值,最终加权计算得出IT系统整体运行情况的健康值。
3.2 某电信公司IT系统健康度应用效果
某电信公司通过在IT监控系统中采用健康度分析模型,实现了全国各省的CRM、服务开通、服务激活、统一充值等8个系统的数据采集和上传,及时监控全国IT系统的运行健康情况,实现IT系统的可视化运营。目前采用的IT系统健康度评估标准如表2所示。
根据IT系统健康度评估标准,全国某时刻的CRM系统运行健康度情况如图3所示。
4 结束语
通过某电信公司IT系统健康度实践证明,采用将IT监控的对象进行建模的方式,通过对IT内部监控组件间的健康值进行加权计算,以单一的数值表示系统的健康程度,进一步以不同的颜色展示出来,从而使得IT系统健康情况直观明了。但在应用过程中也发现,各项IT监控指标的阈值设置会有不合理的地方,需要在实践中调整;另外,不同系统间的健康度模型也不尽相同,模型应支持灵活地增加或裁减。总之,IT系统健康度模型的优化,特别是监控指标阈值的调整,都需要在实践中逐步完善。
参考文献:
[1] 陈宏峰,刘亿舟. 中国IT服务管理指南[M]. 北京: 北京大学出版社, 2004.
[2] Peter Brooks. IT服务管理指标[M]. 丰祖军,译. 北京: 清华大学出版社, 2008.
[3] 中国电信集团公司. CTG-MBOSS V2.0规范——IT服务管理规范V2.0[S]. 2010.
[4] 谭鑫. IT业务系统监控及其关键技术研究[D]. 长沙: 中南大学, 2012.
[5] 童晓薇. 一种基于网络的业务系统健康度评估方法[J]. 重庆理工大学学报: 自然科学, 2012(8): 101-105.endprint