基于模糊数据挖掘的虚拟环境主机故障预测

2015-12-06 06:11丁三军王朝霞
计算机工程 2015年11期
关键词:模糊化日志数据挖掘

丁三军,薛 宇,王朝霞,徐 蕾

(1.中国航空工业集团公司沈阳飞机设计研究所,沈阳110136;2.沈阳航空航天大学计算机学院,沈阳110136)

基于模糊数据挖掘的虚拟环境主机故障预测

丁三军1,薛 宇2,王朝霞1,徐 蕾2

(1.中国航空工业集团公司沈阳飞机设计研究所,沈阳110136;2.沈阳航空航天大学计算机学院,沈阳110136)

为避免虚拟计算环境中由于资源配置不合理,导致虚拟主机服务中断或数据丢失的问题,设计一种虚拟主机故障预测模型。利用主机运行日志进行模糊数据挖掘,获得故障预测的模糊关联规则。根据故障预测中聚类区域边缘数据,给出基于规则的阈值迭代算法求解日志数据预处理修正系数,进而提高规则的匹配率。实验结果表明,该模型能够在实际服务失效前预测故障,预测准确率达到85%以上。

虚拟环境;主机故障预测;模糊数据挖掘;关联规则;阈值迭代

1 概述

在大型数据中心,为充分利用系统资源、提升数据中心的计算能力、避免IT设备的非必要扩充而普遍采用了虚拟化技术。虚拟化技术的使用提高了数据中心设备的利用率,但也存在一些潜在的问题。若虚拟机资源配置与运行任务的资源需求不匹配,部分虚拟机长时间负载过重导致服务失效,即虚拟机不能正常运行任务或者任务在没有完成的时候被意外终止。因此有必要对虚拟机服务失效(故障)状态提前预测,便于数据中心的运维系统能够及时的响应。

主机故障预测通常利用机器运行日志文件中的数据进行数据挖掘,得到机器故障的预测规则,现有的预测技术主要有:(1)基于支持向量机(Support Vector Machine,SVM)机器学习的故障预测,文献[1]利用并行支持向量机分析系统日志来进行故障预测,达到了较高的故障预测率;由于SVM求解支持向量时会耗费大量的机器内存和运算时间,当训练样本与支持向量数目过多时,分类器的分类速度过慢,限制了支持向量机的应用。(2)基于关联规则的故障预测。通常方法是把日志文件中的每个数据属性划分为若干个区间,每个区间用布尔型值1或0表示,若数据属性值在某个区间范围内,则该区间值为1,否则为0。这种方法存在划分边界过硬的问题。文献[2]提出了加权关联规则的分类预测方法,通过引入属性权值提高预测的准确率。文献[3]提出基于模糊关联规则与多重最小支持度的预测方法,模糊关联规则[4-5]使用模糊集来软化属性论域划分边界,解决了区间划分边界过硬的问题;规则匹配的分类速度相对较快,解决了SVM对大样本分类速度慢的缺陷,然而规则方法的故障预测准确率相对较低[6]。

本文实现一种虚拟机的主机故障预测模型。利用虚拟机的运行日志数据进行故障的模糊关联规则挖掘,提出基于规则的日志数据加权预处理方法。

2 主机故障预测模型

虚拟环境下主机故障预测模型的工作过程如图1所示,模型利用主机运行日志样本数据集进行模糊数据挖掘获得主机故障预测的模糊关联规则,工作过程如下:用模糊C均值算法求得样本数据集的聚类中心及隶属度矩阵,再用Apriori数据挖掘算法求出故障预测的模糊关联规则;进一步基于数据挖掘获得的故障预测规则用本文提出的阈值迭代算法得到一组日志数据加权系数,其中的阈值为规则的故障检错率,迭代过程中设为固定的值(阈值不能设定的太小,否则不容易收敛),日志加权系数迭代时,首先设定加权系数的初值,将日志样本数据加权计算后做模糊化,匹配故障预测规则,若规则的故障检错率超过阈值,则调整加权系数继续迭代直至小于阈值为止;进行实时主机故障预测时,首先对日志数据做加权处理,再进行模糊化与规则匹配,得到故障预测结果。

图1 主机故障预测模型

2.1 主机日志属性提取及故障分析

分析服务器中虚拟主机的系统运行日志,提取日志数据中的相关属性进行故障预测规则挖掘,提取的属性如表1所示。

虚拟环境下的主机故障定义为一段时间内某个虚拟主机的服务失效。主机服务失效主要表现如表2所示,表中所有服务失效现象的检测时间为60 s,称为单位检测时间。

表1 与主机故障相关的运行状态属性

表2 虚拟主机服务失效表现

表2第2项故障是指处理器在内存中读取某一页出现错误时,就会产生缺页中断,在日志属性M emoryPage Faults/s会有所反应,错误会使系统的运行效率很快下降。M emoryPage Input(Reads)/s表示为解决错误而写入(读取)硬盘的页数,数值越大表示硬错误越多,系统性能越低,若在单位检测时间内数值超过20以上认为存在故障。

因为一些CPU允许操作系统并行多个未完成请求的输入/输出操作。PhysicalDisk(-Total)\% Disk Time属性的值会超过100%,其数值长时间较高时磁盘操作成为瓶颈。计算机在单位检测时间内对文件系统进行高频率(2 000以上)读/写时,系统运行效率会严重下降,导致故障产生。

NetworkBytes Total/s监控是否由于网络原因导致系统故障,由于1 M b/s带宽影响,Network Byte Total/s数值接近带宽时网络连接达到瓶颈。用户状态模式是指除一般系统服务、进程管理、内存管理等由操作系统自行启动的进程外CPU处理线程的百分比,数值过大的原因是应用系统消耗了大量的CPU时间,引起CPU性能下降。

当虚拟主机的运行特征中频繁出现上述现象时,表明虚拟机的部分资源不能满足运行任务的要求,服务质量下降。若能够提前预测这种服务失效,可以及时采取措施,避免服务中断。

2.2 数据模糊化与关联规则挖掘

利用主机运行的日志数据进行故障预测的模糊关联规则挖掘。设规则挖掘的样本数据集为X={x1,x2,…,xn}(n为样本数),其中xi={xi,1,xi,2,…,xi,8}(1≤i≤n)是具有上述8个属性的日志数据,利用FCM(Fuzzy-C-M eans)算法[7]对X进行模糊化处理。将数据的每个属性模糊化为5类,分别为极低(VLow)、低(Low)、中等(M idd)、高(High)、极高(VHigh)。FCM算法计算每个属性的聚类中心并求样本集相对聚类中心的隶属度,使得非相似性指标的价值函数达到最小[8]。

设聚类中心C={cj,k}(C为矩阵,1≤j≤8,1≤k≤5),U={ui,j,k}是样本集到聚类中心C的隶属度,0<ui,j,k<1,C为n×8×5的矩阵。模糊聚类是按照日志数据的属性分别进行,对每个日志属性数据设置价值函数:

初始化:设置初始聚类中心C,迭代标准ε>0,初始化隶属矩阵C,若ui,j,k的j属性值距离某个聚类中心cj,k的距离最近,则初始化隶属度ui,j,k为0.6,其余隶属度ui,j,l(1≤l≤5∧l≠k)为0.1。

步骤1 用下式计算聚类中心C:

步骤2 用下式计算隶属度矩阵U:

步骤3 根据式(1)计算价值函数。如果它大于阈值ε,返回步骤1,迭代计算聚类中心C和隶属度矩阵U。

步骤4 算法停止,获得聚类中心C和隶属度矩阵U。

由上述的FCM算法得到样本数据的模糊集之后,利用Apriori数据挖掘算法从模糊数据集中提取有意义的故障预测关联规则[9-10]。经Apriori挖掘算法挖掘得到关联规则例子如表3所示。

表3 故障预测关联规则例子

2.3 阈值迭代法

日志数据模糊化后,直接匹配上述得到的模糊关联规则进行故障预测产生了较大的误差。分析发现是聚类区域边缘的数据导致了这些误差。因此,本文提出一种基于故障预测规则的阈值迭代算法求出一组权值向量,在日志数据模糊化之前对其进行按属性加权,使得数据模糊化时能够向聚类中心靠拢,减少模糊规则不匹配的情况,提高预测准确率。

基于规则的阈值迭代算法是利用日志样本数据对故障预测规则的匹配情况进行权值迭代,以期能够获得更高的规则匹配率。设数据挖掘获得的模糊规则集为R={r1,r2,…,rs}(s≥1),利用上节中得到的模糊聚类中心C={cj,k}(1≤j≤8,1≤k≤5),日志样本数据集X={x1,x2,…xn}进行权值迭代获得权值向量W={w1,w2,…,w8}。算法中权值迭代的终止条件为规则的检错率e(所有规则使用同一个值),算法如下:

算法中将按规则求得的权值用求均值的方法求出一组权值,用于日志数据的调整。

2.4 实时主机故障预测

虚拟环境下实时主机故障预测过程如下:

(1)获得主机运行日志数据,提取相关属性数据。

(2)将主机日志数据与前节获得的权值向量做加权处理(方法同上),利用已知的聚类中心根据式(3)对加权后的日志数据进行模糊化。

(3)得到的模糊数据与规则集R中规则进行匹配,若匹配R中的一条或多条规则,则选择其中置信度最高的规则结论作为预测结果[11-13]。

主机故障预测时,日志数据读取太频繁,会影响到主机的工作效率,设置主机日志每T s(T<60)读取一次,单位预测时间内提取n条数据,若其中有2/3以上数据表达出故障状态,则认为此单位时间内为故障状态。若表达故障状态数据在2/3以内,之后数值平稳下降趋于稳定,则认为系统正常运行,此时状态为非故障状态。

3 实验及结果分析

实现上述故障预测系统以验证模型的有效性。实验平台搭建采用一台IBM X 3650M 4服务器,CPU为10核频率3.0 GHz、16 GB内存、10 TB硬盘容量、2.4 Gb/s网络接入能力。虚拟化环境为VMw are vSphere,利用VMw are ESX i组件将服务器分为3个虚拟机,每个虚拟机分配4 GB内存、3个处理器核。3台虚拟机上运行的任务是飞机飞行参数的分布式处理与数据交换,当虚拟机进行某类飞参故障分析时会出现集中的计算或数据交换。实验提取某个虚拟机中的10 000条日志数据作为训练样本。

在数据挖掘时,价值函数的阈值ε取值是0.01,样本数据获得的聚类中心C如表4所示,数据挖掘过程中,规则的最小支持度0.5、最小置信度0.5,得到384条关联规则。

表4 FCM算法迭代结束后的聚类中心C

基于规则的阈值迭代算法设置e=0.2,获得的权值向量W={0.043,0.0105,0.215,0.15,0.17,0.28,0.3,0.225}。

故障实时预测实验中,获取日志的时间T= 5 s,单位检测时间内读取12条数据。实验时间内除正常运行的任务之外,随机地在某台虚拟机内增加一些数据运算与交换任务以制造服务失效引起故障,并在模型进行预测后及时撤出任务,以免对后期实验结果产生影响。实验计数了某台虚拟机10 h内故障的预测情况。模型的预测结果如图2所示。实验测试的日志数据加权预处理的结果如表5所示。

图2 故障预测模型故障预测结果

表5 2种方法预测结果对比

数据模糊化使得对数据描述的分级数增加,同时采用的日志数据加权又使得模糊集边缘的数据向中心靠拢,因此日志数据模糊化后能够提前预测故障的发生;实验结果验证故障预测模型平均提前10 m in(10个单位检测时间)预报故障的出现;日志数据的加权预处理也提高了模型的故障检测率,降低了检错率。

实时故障预测过程中,系统必须实时获取主机运行日志,进而消耗部分系统资源,实验得出每5 s处理一条运行日志数据时,平均匹配28.8条规则,约为总规则数的1/11,平均耗时2 ms,所消耗的系统资源在可接受的范围内。

4 结束语

本文提出一种基于主机日志模糊数据挖掘的主机故障预测模型,由于日志数据模糊化后数据描述分级数增加,同时采用了加权预处理的方法,该模型获得较好的故障预测效果和检测率。由于模型中数据模糊化时分为5级,更加细致的分级可能会增加规则的数量进而增加系统的开销,基于数据挖掘获得规则的预测系统受到数据挖掘使用样本的限制,下一步将研究如何动态调整规则以适应主机运行环境及运行任务的变化。

[1] Kumar R A.Pragmatic Approach to Predict Hardware Failures in Storage System s Using MPP Database and Big Data Technologies[C]//Proceedings of IACC'14. Washington D.C.,USA:IEEE Press,2014:779-788.

[2] Sunita S.An Associative Classifier Using Weighted Association Rule[C]//Proceedings of 2009 World Congresson Nature&Biologically Inspired Computing. Piscataway,USA:IEEE Publications,2009:1492-1496.

[3] Soean B.Fuzzy Association Rule Mining Approaches for Enhancing Prediction Performance[J].Expert System s with Applications,2013,40(17):6928-6937.

[4] Kuok C M,Fu A.Mining Fuzzy Association Rules in Database[J].SIGMOD Record,1998,27(1):41-46.

[5] Chen Zuoliang.Building an Associative Classifier Based on Fuzzy Association Rules[J].International Journal of Computational Intelligence System s,2008,1(3):262-272.

[6] Faustino C P,Novaes C P.Improving the Performance of Fuzzy Rules-based Forecasters Through Application of FCM Algorithm[J].Artificial Intelligence Review,2014,41(2):287-300.

[7] Ichihashi H.FCM Classifier for High-dimensional Data[C]//Proceedings of IEEE International Conference on Fuzzy System s.Washington D.C.,USA:IEEE Press,2008:200-206.

[8] Pi Dechang.A Modified Fuzzy C-means Algorithm for Association Rules Clustering[M].Berlin,Germany:Springer,2006.

[9] Touzi A G.Efficient Reduction of the Number of Associations Rules Using Fuzzy Clustering on the Data[C]//Proceedings of ICSI'11.Washington D.C.,USA:IEEE Press,2011:191-199.

[10] Chen Chunhao.A Fuzzy Coherent Rule Mining Algorithm[J].Applied Soft Computing,2013,13(7):3422-3428.

[11] Kuncheva L I.How Good are Fuzzy If-then Classifiers?[J].IEEE Transactions on Systems,Man,and Cybernetics,2000,30(4):501-509.

[12] 肖 波,徐前方,蔺志青,等.可信关联规则及其基于极大团的挖掘算法[J].软件学报,2008,19(10):2597-2610.

[13] 杨海蓉,方 红,张 成,等.基于回溯的迭代硬阈值算法[J].自动化学报,2011,37(3):276-182.

编辑索书志

Fault Prediction of Virtual Environment Host Based on Fuzzy Data Mining

DING Sanjun1,XUE Yu2,WANG Chaoxia1,XU Lei2
(1.Shenyang Aircraft Design and Research Institute,Aviation Industry Corporation of China,Shenyang 110136,China;2.Computing College,Shenyang Aerospace University,Shenyang 110136,China)

In order to report the service failure of the host or data interrupt in the virtual environment caused by undue resource allocation,this paper proposes a fault prediction model for virtual host.This model uses logs of the virtual host to mining the fuzzy association rules of fault predictions.Aiming at large error about rule matching problem in fault predictions caused by the edge data in cluster region,the model presents the threshold iterative algorithm based on the rules for solving the log data preprocessing coefficient,improving the rule matching rate.Experimental result show s that the prediction model can predict fault before the actual service fails,with an accuracy above 85%.

virtual environment;host fault prediction;fuzzy data mining;association rule;threshold iteration

丁三军,薛 宇,王朝霞,等.基于模糊数据挖掘的虚拟环境主机故障预测[J].计算机工程,2015,41(11):202-206.

英文引用格式:Ding Sanjun,Xue Yu,Wang Chaoxia,et al.Fault Prediction of Virtual Environment Host Based on Fuzzy Data Mining[J].Computing Engineering,2015,41(11):202-206.

1000-3428(2015)11-0202-05

A

TP18

10.3969/j.issn.1000-3428.2015.11.035

丁三军(1968-),男,研究员、硕士,主研方向:机器学习,信息安全;薛 宇,硕士研究生;王朝霞,研究员、硕士;徐 蕾,教授。

2014-09-25

2014-12-02 E-m ail:dsanjun@163.com

猜你喜欢
模糊化日志数据挖掘
([0,1],[0,1])-模糊拟阵的基和秩函数
一名老党员的工作日志
探讨人工智能与数据挖掘发展趋势
扶贫日志
餐饮娱乐空间的“边界模糊化”态势探讨——餐饮娱乐空间设计专辑
三角模糊数去模糊化对VIKOR妥协解的影响研究
游学日志
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
一种基于粗集和SVM的Web日志挖掘模型