新集成IT系统在线运行评价系统的研究

2012-08-10 03:42:02朱治国吴连勇
电信科学 2012年12期
关键词:诊断法故障评价

朱治国,吴连勇,孙 毅

(中国联合网络通信集团有限公司 北京 100033)

1 研究背景

IT系统业务质量的评价不是单纯的主观评价,它不单依赖于顾客的感知,还有很多客观的评价指标。业务质量评价不但要考虑业务的整体效率性能,还要考虑用户对服务质量的要求。传统IT运行评价体系存在诸多问题。

首先,传统IT运行评价体系不能全面反映客户体验。质量指标体系局限于设备和系统范畴,难以全面反映业务端到端的运行质量和客户实际使用感知。传统网络质量指标与用户投诉之间存在着明显的不一致或反向关联,通过提高传统网络质量评价指标来提升客户满意度效果不是十分明显。

第二,传统IT运行评价体系不适应数据业务快速发展的需要。随着数据业务在总业务收入中的比重越来越大,由于数据业务相对于传统话音业务具有种类多、变化快、涉及的网元多、用户行为复杂及显著的时间突发性、空间聚集性等特点,用传统的网络维护手段维护数据业务网络很难达到令人满意的结果。

可见,传统的质量评价方法只能反映网络或设备的性能,不能兼顾客户体验和反映所承载业务的质量。随着多QoS等级的增值业务的涌现,为了满足所有业务的质量评价需求,需要提出通用的业务质量评价方法。实现实时、细粒度、动态、自动化和可扩展的定量业务质量评价,尽快建立适应我国IT运维服务市场需求的IT系统运行评价体系成为迫在眉睫的需求。因此,建立IT运维质量的运行评价系统,有助于第一时间掌握IT系统的运行情况,为运维管理提供依据,保证业务系统的安全稳定运行,给企业的发展带来巨大的经济效益。

2 系统总体目标及设计原则

2.1 总体目标

IT系统在现运行评价系统对业务质量评估的主要目标是利用主观、客观或主客观结合的方法,对现有的业务质量进行评估,得出业务质量好坏的评估结论。

(1)运维管理评价要整合多种安全技术

运维管理评价过程中要用到多种技术手段,如入侵检测、系统审计等,需要更好地将这些技术整合到一起,提供综合性的风险分析工具。

(2)运维管理评价结果要具有预测性

运维管理评价要在状态分析、趋势分析和性能分析方面具有更好的预见性。

(3)运维管理评价方法要逐步向智能化的决策支持系统发展

运维管理评价不是单纯地按照定制的控制措施为用户提供解决方案,而是根据专家经验,进行推理分析后给出最佳的、具有创新性质的控制方法,能够为普通用户在面对各种安全事故时提供专家级的解决方案。

(4)向定量化方向发展

目前运维管理评价的量化主要对性能重要性和风险大小等进行排序,提示用户重大风险需要首先处理,但对系统性能水平和运维风险会带来多大的经济损失尚不能量化,而管理人员所关心的正是经济损失的问题。因此,运维管理评价方法应向定量化的风险预测方向发展。

2.2 设计原则

2.2.1 性能指标

服务响应能力可以通过服务响应异常判断规则 (8个规则)、服务响应稳定性判断 (极差图)、Cp(capability of precision)(服务响应过程精密度指数)、Ca(capability of accuracy)(服务响应过程准确度)进行精确量化。

系统吞吐能力可以通过趋势图进行对比分析和趋势预测。

服务可用性可以通过Ppk(服务过程性能指数)、1-P图(服务可用率控制图)进行量化和评价。

系统持续运行能力通过Cpk(持续运行过程能力指数)进行量化和评估。

系统故障诊断和恢复能力通过Pareto图分析法、散布图因果分析法、业务流程诊断法、探测验证诊断法、关联分析诊断法、业务仿真诊断法等多种方法进行问题原因分析、故障诊断和恢复。

2.2.2 主要设计原则

IT系统在线运行评价系统的主要设计原则如下。

(1)科学、准确的IT系统运行状态和运行能力评价

系统可提供多种性能评测指标,全面评测系统的运行能力和服务质量。针对不同的评测指标,给出不同的、具有完全针对性的评测方法,提供基于数值的、定量的评测方法;能够根据客户评价需求,动态调节业务质量评价参数,具有良好的灵活性;可以实现多种粒度的质量评价;具有良好的扩展性。对于新业务类型的出现,用户只要定义该业务的KQI模板和业务质量评价模板就能进行新业务类型的质量评价。

(2)消除系统潜在隐患,准确评估IT系统运行风险度

系统评估系统的运行状态,判断系统运行是否存在异常,评估当前IT系统的运行风险度,能够根据问题和故障事件发生的频度、系统的健康度、薄弱环节的综合影响度,得出当前IT系统的运行风险度,能发现业务流程中潜在问题和评估故障发生的概率。

(3)全面排查问题和故障原因,迅速完成故障恢复

系统能够判断IT系统存在的主要问题、影响业务质量的主要因素;能分析服务流程中的主要缺陷形式、影响服务品质的关键工序;能够分析影响服务品质的主要和次要原因及其影响度如何;利用实例逻辑上的关联、业务上相关的业务操作关联等各种关联进行问题和故障的溯源;可提供一个完整的业务仿真方案。

(4)优化系统服务流程,提供决策支持

系统能够根据服务的质量特性与变化因素之间的相关关系,确定改进服务质量的有效手段;能通过对以往问题的统计分析、故障原因的深入挖掘,判断系统性能和安全瓶颈,给出系统改善方案;能全程跟踪服务流程、判断服务流程中的薄弱环节,提出流程改进的方案;能根据IT系统性能指标的评测结果,给出系统优化方案。

3 系统主要功能及性能

本文提出了一种新集成IT系统在线运行评价系统。该系统通过对IT基础架构、业务流程和服务管理流程进行科学和有效的评价。

IT系统在线运行评价系统是一个包含多项性能指标的评价体系,包括服务响应能力、系统吞吐能力、服务可用性、系统持续运行能力、系统问题分析和故障诊断能力。

3.1 服务响应能力

在业务处理过程中,对于一个业务请求有响应时间的限制。一方面,需要工作人员协同合作,在处理服务请求的时候应该有时间的概念;同时也要求系统能实时地监控整个服务的响应时间;如果该事件的响应或解决超过了时限,需要系统做相应的记录,以备服务响应能力评估之用。

服务响应能力评价性能指标包括:服务响应异常判断、服务响应稳定性判断、服务响应过程精密度、服务响应过程准确度。

(1)服务响应异常判断

服务响应异常判断主要通过绘制服务响应控制图,并根据8个判断异常的规则进行判定。

· 2/3A原则:3点中有2点在A区或A区以外。

· 4/5B原则:5点中有4点在B区或B区以外。

·6连串:连续6点持续地上升或下降。

·8缺C原则:有8点在中心线的两侧,但C区并没有点。

· 9单侧原则:连续9点在C区或C区以外。

·14升降原则:连续14点交互着一升一降。

·15C原则:连续15点在中心线的上下两侧的C区。

· 1界外原则:有1点在A区之外。

(2)服务响应稳定性判断

IT系统在线运行评价系统从提高客户的网络满意度出发,建立新型的基于客户感知的业务端到端质量评估体系,能科学地反映与用户使用和感知最密切的服务质量情况,使运营商能根据客户实际需求提供优质、满意的服务,使网络运营商和广大客户获得双赢,同时也有利于繁荣海淀区乃至北京市的经济,推动以扩大内需为导向的经济社会发展。

为使现场的质量状况达到目标,均需加以管理。这里所说的“管理”作业,一般用检测产品的质量特性来判断“管理”作业是否正常。而质量特性会随着时间产生显著高低的变化。那么,到底高到何种程度或低到何种状态才算所说的异常?故设定合理的高低界限,作为分析现场制程状况是否符合“管理”状态,即是控制图的基本根源。

(3)服务响应过程精密度

过程精密度计算式和分级如表1所示。

(4)服务响应过程准确度

过程准确度计算式和分级如表2所示。

3.2 系统吞吐能力

系统的吞吐能力对应服务的业务量,主要是通过趋势图分析业务吞吐量和吞吐能力的走势以及未来趋势的预测,需要显示一定时期的运行和发展趋势,有利于同类数据对比。同类数据用“层别法”处理后,图1所示为不同层别对比情况。

表1 过程精密度计算式和分级

表2 过程准确度计算式和分级

3.3 服务可用性

系统考核指标:服务过程性能分析、服务可用率控制图分析。

(1)服务过程性能分析

服务过程性能分析有助于识别、测量和分析各种噪声引起系统偏差的原因,从而采取措施减少和防范这种偏差,使过程趋于稳定。稳定的过程中,它的可度量特征或过程性能的基础分布是始终如一的。

对服务过程性能的度量与分析是实现过程有效管理、实施过程改进的重要途径之一,也是业界研究的热点之一。服务过程性能计算式和分级如表3所示。

(2)服务可用率分析(1-P 图)

服务可用率计算式如表4所示。

3.4 系统持续运行能力

系统考核指标:系统运行风险度评估、持续运行过程能力。

系统运行风险度评估是指系统正常运行中,业务风险度的估计,它是衡量系统稳定性的一个标志。持续运行过程能力是指正常状态下,业务服务过程提供达到预定服务水平的能力。它是衡量服务质量的一种标志。对服务过程能力进行分析,可随时掌握服务流程中各环节保证服务质量的能力,从而为保证和提高服务质量提供必要的信息和依据。

持续运行过程能力指数计算式和分级如表5所示。

3.5 系统问题分析和故障诊断能力

(1)Pareto图分析法

Pareto图可以指出改进的重点,适用于各个行业、各类工业企业的服务质量改进活动。这种方法应用的主要形式有:分析服务流程中的主要缺陷形式、影响服务品质的关键工序以及影响服务品质的主要和次要原因等。

(2)散布图因果分析法

散布图是分析研究两个变量之间相关关系的图形。图中以纵轴表示结果,以横轴表示原因,用点表示分布形态,根据分布形态判断两者的相互关系。散布图是以因果关系的方式来表示其关联性的。本系统中用散布图判断质量特性与某一变化因素之间或者两个因素之间存在的相关关系,进而确定改进产品质量因素的有效手段。

表3 服务过程性能计算式和分级

表4 服务可用率计算式

表5 持续运行过程能力指数计算式和分级

(3)业务流程诊断法

业务流程诊断法针对业务流程化处理过程中发生的相关故障告警,通过业务流监控视图定位业务流程各环节是否存在告警或异常,从而判断可能的故障原因。同时,也可预测针对相关环节的影响,从而采取相应的措施避免故障的发生。

(4)探测验证诊断法

探测验证诊断法是通过固化以往处理故障的措施和方法推断本次故障发生的原因。在发生一个故障后,通常的做法是检查相关的设置、指标值或通过脚本验证自己的判断。探测验证诊断法可以事先将这些检查脚本、验证方法存入系统,在故障发生时依次执行以判断是哪种情况导致了本地的故障。

(5)关联分析诊断法

关联分析诊断法是指利用实例逻辑上的关联、业务上相关的业务操作关联、实体生命周期事件等各种关联找到可能的根源故障或事故原因,建立在SID(security identifier)的统一实体模型基础上的模型框架,可以很方便地建立实体之间的通用关联关系以及特定业务关联。

(6)业务仿真诊断法

能够模拟用户在业务系统的实际操作过程,自动地访问各个页面,并记录各页面系统处理和响应时间以及处理结果等信息。通过模拟仿真,可以查看服务各个环节的服务质量包括(服务响应能力、服务可用性),有利于发现业务流程中潜在的问题和查找故障的原因。

根据以上分析,可知本系统的创新点如下。

·将质量管理体系的异常判断规则、稳定性判定原则、过程精密度(Cp)计算和过程准确度(Ca)计算引入IT系统运行评价体系,使对IT系统服务响应能力的评价更加严谨科学,使得通过服务响应能力的评估中,实现对服务响应能力更全面系统的考察。

· 将服务过程性能指数Ppk和服务可用率分析图(1-P图)引入IT系统运行评价体系,使服务可用性的评价更加直观、准确。

·将服务过程能力概念引入IT系统在线运行评价体系,通过服务过程能力指数Cpk的计算,可以精确地判定IT系统的持续运行能力。

·提出系统运行健康度和系统运行风险度概念。

· 系统故障诊断中引入Pareto图分析法、散布图问题原因分析法、业务流程诊断法、探测验证诊断法、关联分析诊断法、业务仿真诊断法等多个方法,实现实时、多粒度、不同维度的直观故障分析诊断。

4 与其他系统的优势对比

IT系统在线运行评价系统是集运行评价、问题分析和故障诊断、流程的优化和改进为一体的软件系统,其与国内外同类项目系统的主要功能比较如表6所示。

5 结束语

本文提出了一种新集成IT系统在线运行评价系统。该系统通过对IT系统基础架构、业务流程和服务管理流程进行科学和有效的评价,使其业务战略能够和IT战略有效地整合,实现IT系统运作与服务水平的持续提高以及IT战略的可持续发展;达到保障企业IT系统资源高可用性、降低IT系统运行风险度、改善服务管理水平、优化业务流程、降低企业IT系统总运营成本、提高企业IT系统对业务的贡献度和提高客户服务满意度的目的。

表6 本系统与国内外同类系统的主要功能比较

1 周宪,余隋怀,黄婷等.面向委托设计的多目标网络评价系统.科学技术与工程,2006(12)

2 李艳红.信息系统敏捷性及其相关技术的研究.大连理工大学博士学位论文,2002

3 边文浩.综合评价决策支持系统开发.吉林大学硕士学位论文,2005

4 Stallings W.Wireless Communications and Networks.北 京 : 电 子工业出版社,2010

5 陈云.接口与通信技术原理与应用.北京:中国电力出版社,2009

6 Klaus Finkenzeller K著.吴晓峰,陈大才译.射频识别技术.北京:电子工业出版社,2006

7 Kimball R,Ross M著.谭明金译.数据仓库工具箱:维度建模的完全指南(第二版).北京:电子工业出版社,2009

8 Inmon W H著.王志海,林友芳等译.数据仓库(原书第三版).北京:机械工业出版社,2010

猜你喜欢
诊断法故障评价
SBR改性沥青的稳定性评价
石油沥青(2021年4期)2021-10-14 08:50:44
卡车液压故障诊断法的应用研究
隐匿性骨折诊断中多层螺旋CT与核磁共振成像的临床应用
故障一点通
藏医试探性诊断法探讨
车型漏水的预防及诊断
奔驰R320车ABS、ESP故障灯异常点亮
故障一点通
基于Moodle的学习评价
江淮车故障3例