决策树分类方法在水轮机组故障诊断的应用研究

2013-01-16 08:34张东利
电网与清洁能源 2013年6期
关键词:水轮特征向量决策树

张东利

(水利部产品质量标准研究所,浙江杭州 310012)

数据挖掘是关于统计学和人工智能学相互交叉而产生的一门学科[1-2]。其主要作用是在大量的数据集中找出信息之间的关系,而对于数据的分类是常常遇到的问题。一般数据挖掘分类方法是通过对训练集进行学习,构造一个分类函数或分类模型,其能够将数据对应到给定的某一个类别当中,从而实现数据分类,其主要数据分类的分析方法包括如贝叶斯分类方法、决策树分类方法、神经网络分类方法等[3]。决策树分类算法是在大量数据中找到一些有价值的信息供决策者做出正确的决策的分类方法[4]。这里决策树分类由于其提取规则简单、计算量较小在近些年的数据挖掘中得到了广泛的应用。

水轮发电机机组在其运行的过程中,机组的振动信号中含有大量的故障信息。根据不完全统计,水轮发电机组发生故障时,大约有80%以上其特征可以在振动当中有所体现[5]。但由于机组在运行过程中,其监测数据是不断产生的,这样通过普通诊断方法则不能对其进行分析,这里就需要一种简单实用的对数据进行分类的方法,而决策树分类方法正好符合这种数据分类情况,由此通过决策树分类的方法对水轮发电机组振动信号的分类是一种实用方法。

1 决策树分类算法

决策树分类算法是一种分类算法中的重要技术,其产生的结构类似于程序流程图的树型结构。决策树分类的方法是通过寻找数据集合中的信息量最大的特征属性来建立不同的规则节点,在通过不同特征值的取值再建立不同的树分枝,通过循环来建立整个树的过程[6]。一般目前比较通用的决策树分类的方法有ID3和C4.5两种。与其他分类算法相比决策树由于其计算速度快,准确度高得到了广泛的应用。

在创建决策树前,首先将要分析的数据进行数据量化,使其变为计算机可以识别的数字信息量之后既可以进行决策树的建立。先设一个训练集合S,通过公式计算其熵:

其中集合T和通过特征属性X进行分类的。这里通过计算分类前后,子集合的熵的增益大小来判断选取分类节点,当增益较大时使其当中分类节点,计算公式如下:

信息的增益有可能出现较多的分枝时,其产生的函数值较大,从而使得决策树的分枝也较多,使得产生的决策树的结果不理想。维利解决此问题,这里通过信息增益率来解决此问题,在计算信息增益时,其与每次产生的子节点的数量和大小都有一定的关系,由此,其计算是对每个对象进行分析,而不是对于分类所包含的信息。其中属性信息增益率计算公式为:

2 基于决策树分类的水轮机组故障诊断

水轮机组在运行过程中,引起其出现振动的原因很多种,大致可以分为3大类,即机械原因、水力原因和电气原因。在对水轮发电机组的监测过程中,不同的故障特征大部分都在其振动频域中体现,由此可利用频率分量作为特征向量进行诊断。这里对采集的振动信号进行快速傅里叶变换,从而得到振动信号的幅频特性,一般选择1/6~1/2(平均量)x,1x,2x,3x,50 Hz,100 Hz频率分量进行比较,其中x为转频[8]。目前,有很多学者对水轮发电机组进行故障分析和研究,得到了大量有关机组振动的典型故障征兆[9],总结如表1所示,其中包括 6种机组常见故障,如转子不平衡、轴系不对中和涡带偏心等故障[10]。

表1 训练数据表Tab.1 Training samples table

这里根据典型的故障特征向量样本创建决策树。第一步先在特征向量中选择一个特征属性做为一个分支节点,在通过此特征属性的不行值划分既可以把数据集合划分为不同子集,而在子集当中选择再选择不同特征属性节点继续划分,将子集再划分为不同子集集合。当一个子集集合中所有的数据所代表同一类时则结束,由此就形成决策树的过程,如图1所示。

下面我们将图1所产生的决策树转化为的规则进行表示。

图1 决策树Fig.1 Decision tree

规则1:if x1<0.56 then node 2 else node 3

规则2:if x2<0.38 then node 4 else node 5

规则3:if x3<0.51then node class1 else node class5

规则4:if x5<0.52then node class6 else node class4

规则5:if x2<0.79then node class2 else node class3

通过训练好的决策树对监测的机组故障特征向量进行分类。这里对机组不平衡故障特征向量进行分类,特征向量如(0.10,0.96,0.19,0.01,0.01,0.01,0.01)。根据决策树分类后得到其故障特征为class3类故障,根据典型故障特征表说明其故障特征为转子不平衡故障,得出故障类型与实际类型相同。

3 结语

决策树分类算法是数据挖掘中的一个常用的分类方法。本文将数据挖掘技术应用水轮发电机组故障诊断当中,通过决策树分类的方法对故障特征向量进行分类,从而实现对机组的故障进行诊断,具有一定的实用价值。

[1] Han J,KamberM.Data mining:concept and techniques[C].2ed.San Fransisco,CA.Higher Education Press,2001:1-7.

[2]Tan Pang ning,SreinbachM,KumarV.数据挖掘导论[M].北京:北京大学出版社,2006.

[3] 栾丽华,吉根林.决策树分类技术研究[J].计算机工程,2004,30(9):94-97.LUAN Li-hua,JI Gen-lin.The Study on decision tree classification techniques[J].Computer Engineering,2004,30(9):94-97(in Chinese).

[4] 刘同明.数据挖掘技术及其应用[M].北京:国防工业出版社,2001.

[5] 赵道利,马薇,梁武科,等.水电机组振动故障的信息融合诊断与仿真研究[J].中国电机工程学报,2005,25(20):137-142.ZHAO Dao-li,MA Wei,LIANG Wu-ke.On Data fusion faultdiagnosisand simulation ofhydroelectric units vibration[J].Proceedings of the CSEE,2005,25(20):137-142(in Chinese).

[6] 刘继清,黄金花.基于改进决策树算法的设备故障智能诊断模型[J].制造业自动化,2011,33(4):30-33.LIU Ji-qing,HUANG Jin-hua.Intelligent fault diagnosis method for equipments based on improved decision tree algorithm[J].Manufacturing Automation,2011,33(4):30-33(in Chinese).

[7]李楠,段隆振,陈萌.决策树C4.5算法在数据挖掘中的分析及其应用[J].计算机与现代化,2008,12(12):160-163.LI Nan,DUAN Long-zhen,CHEN Meng.Research and application of data mining algorithm based on decision tree[J].Computer and Modemization,2008,12(12):160-163(in Chinese).

[8] 白亮,王瀚,李辉,等.基于时间序列相似性挖掘的水电机组振动故障诊断研究[J].水力发电学报,2010,29(6):229-236.BAI Liang,WANG Han,LI Hui,et al.Vibration fault diagnosisbased on time-seriessimilarity mining for hydropower units[J].Journal of Hydroelectric Engineering,2010,29(6):229-236(in Chinese).

[9] 张利平,孙美凤,王铁生.新型的RBF神经网络在水轮发电机组故障诊断中的应用[J].水力发电学报,2009,28(6):219-223.ZHANG Li-ping, SUN Mei-feng, WANG Tie-sheng.Application of a novel RBF algorithm to fault diagnosis of hydro-turbine generating unit[J].Journal of Hydroelectric Engineering,2009,28(6):219-223(in Chinese).

[10]苏立,南海鹏,余向阳.关联规则分类的数据流挖掘方法在水电机组故障诊断的研究[J].西安理工大学学报,2012(1):106-110.SU Li, NAN Hai-peng, YU Xiang-yang.Associative classification of data streams for vibrant fault diagnosis of hydro-turbine generating unit[J].Journal of Xi’an University of Technology,2012(1):106-110(in Chinese).

猜你喜欢
水轮特征向量决策树
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
青狮潭水电站水轮发电机组增效扩容改造
水轮发电机镜板修复工艺研究
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
一类特殊矩阵特征向量的求法
我国第一台分半铸造的30万千瓦水轮发电机转轮实制成功
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
基于决策树的出租车乘客出行目的识别