一种基于极值理论的故障分布研究方法

2013-04-29 00:44冯懿张展左德承杨孝宗
智能计算机与应用 2013年6期

冯懿 张展 左德承 杨孝宗

摘要:应用在金融、电信等关键业务领域中的高端容错计算机具有事务处理能力极强、可用性高、可靠性高等特点。有关此类计算机开展故障分布研究对于故障预测、系统维修,保障系统高可用运行具有重要意义。提出一种基于极值理论的故障分布研究方法,将高端容错计算机故障发生事件作为稀有事件,集中关注数据的尾部特征。与传统方式的故障分布研究方法相比,省去了数据分布形式的先验假设,更适用于小样本的情况。

关键词:故障分布; 高端容错计算机; 极值理论

中图分类号:TP307 文献标识码:A文章编号:2095-2163(2013)06-0018-04

0引言

高端容错计算机作为事务处理能力极强、可用性极高的服务器系统,广泛应用在金融、电信、能源、交通、航空等国家关键业务领域中。这些关键行业对系统的处理能力和容错能力均有严苛的要求,系统一旦失效就可能会造成无法挽回的巨大损失,所以高端容错计算机在投入使用之前必须对其处理能力和可用性进行严格的评测,而针对此类计算机系统开展故障分布研究和故障注入技术研究则可为高端容错计算机评测提供了有效的技术支持和理论支撑,因而具有高度必要性和现实重要性。

在对高端容错计算机故障分布进行研究时,传统的统计分析方法一般要预先假定故障数据服从某一先验分布。而此分布的选取至关重要,需要大量故障数据的统计特性作为基础参数。当故障数据很少时,先验分布的选择就很困难,这时对所有数据进行建模而得到的母体分布一般不能准确反应尾数分布,因此,如果单独对尾部数据进行研究,可能会得到更为准确的分析结果。

分析和研究真实系统的故障特征,对于高可靠/高可用系统的设计和应用具有很强的支持和指导作用,有利于高可靠/高可用系统的管理与维护[1]、故障诊断[2]、故障预测[3]以及故障传播[4]方面的研究。

本文提出一种基于极值理论的故障分布研究方法,将高端容错计算机故障发生事件作为稀有事件,集中关注数据的尾部特征。与传统方式的故障分布研究方法相比,省去了数据分布形式的先验假设,更适用于小样本的情况。

1极值理论

极值理论[5]为准确估计一个分布的尾部概率提供了强大的理论基础,有效地减少了选择的自由度而又不降低准确性。极值统计是以次序统计量为基础,研究由一系列独立观测所得到的最小或最大随机变量分布的理论。极值事件常出现在某种分布的尾数部分,但对所有事件进行拟合时,所得分布函数往往不能很好地反映其尾部事件,这时母体分布尾数部分的分布可用极值分布来精确拟合。对大多数分布来说,当观察值的个数趋于无穷时,极大值或极小值的分布属于3种渐近分布形式之一,即:Gumbel-I型,Gumbel-II型,Gumbel-III型,分别对应3种不同的原始分布,即指数型分布、柯西分布和有界型分布,又可分别称为Gumbel分布、Frechet分布、Weibull分布。

对于上极限分布来说,必收敛于以下3种形式的渐进分布:

对任何分布函数未知的独立随机变量,若该随机变量为极值事件,在确定其属于上极限分布还是下极限分布后,可以利用相应的吸引域的确定方法来得到属于3种极值分布形式中的哪一种,再利用已知数据与之拟合,由此得到极限分布函数。

分布函数的尾部形态决定了其应该归属于哪种渐近形式。如果该分布函数在最小值方向的尾部是指数衰减的,则将属于Gumbel族;如果该分布函数在最小值方向的尾部是多项式衰减的,则其属于Frechet族;如果该分布函数在最小值方向的尾部是有上下限的,具有一个有限的较高值或较低值,那么就属于Weibull族。

如果得到了一个特定数据集的吸引域,就能够推算得到分布函数的渐近分布的参数。但是用于分析的样本数据规模往往有限,尤其是分布函数未知的情况下,就需要使用特定方法来确定数据集的吸引域。本文使用尾部曲率法,通过计算尾部曲率来判断吸引域,采用相邻区域中平均斜率的比值来计算尾部曲率,可减小方差。

在概率纸上利用最小二乘方法拟合直线,得到两个相邻区域的平均斜率,之后利用两个斜率的商来描述尾部曲率,计算公式为:

Q=Qn1,n2Qn3,n4(1)

式中,Qi,j表示第k个统计量(i≤k≤j)在Gumbel概率纸上利用最小二乘法拟合出的直线斜率的逆,可表示为

Qni,nj=mΦ11-Φ10Φ01mΦ20-Φ210(2)

其中,m=nj-ni+1, Φ01=∑njk=nixk,Φ10=∑njk=ni-ln-lnk-0.5n,Φ20=∑njk=ni-ln-lnk-0.5n2,Φ11=∑njk=ni-xkln-lnk-0.5n

参数n表示样本数量,基于样本数量和渐进分布的收敛速度不同,适度选取参数n1,n2,n3,n4。对于右尾分布,可以这样选取:

n1=n-2n」+1,n2=n3=n-n」 ,n4=n(3)

利用上述公式以及极值分布理论中三种渐进分布形势,可以确定特定数据集的吸引域。如果尾部曲率Q趋近于1,说明分布函数的尾部形态近似为直线,则分布函数属于Gumbel族;如果分布函数的尾部曲率Q远大于1,说明尾部斜率接近垂直,则分布函数属于Weibull族;如果分布函数的尾部曲率Q远小于1,说明尾部斜率接近水平,则分布函数属于Frechet族。

此外,还可以同概率纸法描绘的结果进行比对:根据特定分布函数的特征来规定坐标,使得该分布函数在概率纸上的图形呈一条直线。在Gumbel概率纸上画出样本数据的分布图后,观察分布图的曲率特征,并利用表1中的规则来判断分布函数属于哪一个分布族。

极大值(右尾分布)极小值(左尾分布)Gumbel直线直线Frechet下凹下凸Weibull下凸下凹2基于极值理论的故障分布研究

高端容错计算机具有很强的容错机制,可保证故障定位和系统恢复,系统可靠性很高,故障事件不易发生,其故障间隔时间(Time Between Failure, TBF)很长,位于母体分布的尾数部分,为了利用极值理论对其故障分布进行统计分析,可做如下假设:

(1)由于系统发生故障的次数很少且离散性强,可认为系统故障的发生为稀有事件;

(2)系统一旦发生故障,立即进行恢复或纠正,不引入新的故障,又由于故障的发生为稀有事件,因此可以认为TBF是独立的;

(3)由于高端容错计算机系统的可靠性已经很高,失效时故障的恢复或纠正对可靠性影响不大,因而可以认为TBF是同分布的,同时,结合(2)可以假定TBF是独立同分布的;

(4)随着高端容错计算机故障的发生和纠正,系统的可靠性有增长的趋势。

基于以上假设,可认为高端容错计算机故障的发生是稀有事件,并且随着时间的增加,系统可靠性有增长的趋势,TBF将趋于极大值,因此可以认为高端容错计算机TBF服从某种极大值分布,可以运用极值统计理论对其进行分析。

为了研究实际应用中的部件故障规律以及部件相关性问题,从某银行取得了过往的部分故障记录。该部分故障记录共计494条,时间跨度为2000年10月16日至2004年7月25日,共计1 378天。经仔细统计与甄别,其故障现象可归属于操作系统故障、数据库系统故障、外围设备故障、网络系统故障、应用系统故障、主机设备故障等六类。

表2列出了不同类别的故障个数以及在总故障数中所占的比例。可以发现软件故障,尤其是应用系统故障在总故障数中占据了很大比重,这是由于银行使用的计算系统主要用于在线事务处理型业务,业务处理频繁造成应用软件故障频率很高。外围设备故障和网络系统故障在硬件故障中比例较高,这是由于在线事务处理型业务属于访存密集型操作,外围存储设备和网络设备承受压力较大,因此造成故障率较高。

3实验结果与分析

本节应用极值理论(extreme value theory)对前面提到的银行故障数据中的外围设备故障、网络系统故障和主机设备故障三类硬件故障的故障间隔(TBF,time to failure)分布情况进行分析。

极值统计是以次序统计量为基础的,首先将上述三类故障的故障间隔数据按从小到大的顺序进行排序,如表3所示。其中外围设备故障记录24条,网络系统设备故障记录28条,主机设备故障记录8条。

4结束语

为了更好地针对应用在金融、电信等关键业务领域中的高端容错计算机开展故障分布研究,保障系统高可用地运行,本文提出一种基于极值理论的故障分布研究方法,将高端容错计算机故障发生事件作为稀有事件,集中关注数据的尾部特征。与传统方式的故障分布研究方法相比,省去了数据分布形式的先验假设,更适用于小样本的情况。利用此方法对某银行的小样本故障数据进行曲率法和概率纸法对比分析后,证明该银行系统的高端容错计算机硬件故障的故障间隔时间符合Weibull分布。

参考文献:

[1]HEATH T, MARTIN R P, NGUYEN T D. Improving cluster availability using workstation validation[C]//New York, NY, USA: Proceedings of the 2002 ACM SIGMETRICS international conference on Measurement and modeling of computer systems, 2002, 6:217-227.

[2]PANDIT N, KALBARCZYK Z, IYER R K. Effectiveness of machine checks for error diagnostics[C]//Lisbon, Portugal: Proceedings of IEEE/IFIP International Conference on Dependable System & Networks, 2009, 7:578-583.

[3]ZHENG Z, LAN Z, PARK B H. System log pre-processing to improve failure prediction[C]//Lisbon, Portugal: Proceedings of IEEE/IFIP International Conference on Dependable System & Networks, 2009, 7:572-577.

[4]HILLER M, JHUMAKA A, SURI N. An approach for analysing the propagation of data errors in software[C]//Goteborg, Sweden: International Conference on Dependable System & Networks, 2001, 7:161-170.

[5]李秀敏. 极值统计模型族的参数估计及其应用研究[D]. 天津:天津大学,2007: 13-29.