李晋 钱旭 刘珠峰 范旭峰(.中国矿业大学(北京)机电与信息工程学院,北京市海淀区,0008; .中国电信江苏分公司,江苏省南京市,0000; .天地(常州)自动化股份有限公司,江苏省常州市,05)
基于决策树优化粗糙集的设备故障诊断指标集约简的方法研究∗
李晋1钱旭1刘珠峰2范旭峰3
(1.中国矿业大学(北京)机电与信息工程学院,北京市海淀区,100083; 2.中国电信江苏分公司,江苏省南京市,210000; 3.天地(常州)自动化股份有限公司,江苏省常州市,213015)
摘 要特征指标集的约简对于机电设备运行状态准确可靠的监测是非常重要的,为此设计了一种基于粗糙集的属性约简方法。该方法首先将时域及频域信号特征作为条件属性,故障类型作为决策属性,建立故障决策表。利用决策树不纯度的减少量对决策表中的连续属性数据进行离散化处理,然后采用粗糙集对离散化后的决策表进行约简,约简后的故障规则决策表可以使设备的故障诊断变得更为简单有效。最后分别采用实验室轴承数据和矿用带式输送机轴承数据设计试验进行验证,试验结果表明,在保证设备状态监测结果可靠的情况下,该方法能够有效地对属性指标集进行约简,降低工作计算量和减少不确定因素的影响。
关键词属性约简 决策树 粗糙集 指标集
滚动轴承作为旋转机械中最常用的支承部件,尽管结构较为简单,却是旋转机械中最重要的零件,在很大程度上能够影响到整体设备的性能。据不完全统计,由滚动轴承引起的旋转机械故障约有30%。从设备状态监测的早期阶段,滚动轴承就被作为主要的研究对象,针对设备多样的失效方式,也出现了多种状态监测与故障诊断方法。基于振动、温度及噪声的故障诊断技术的灵敏度比较如图1所示。
图1 基于振动、温度及噪声的故障诊断技术的灵敏度比较
由图1可以看出,基于振动分析的故障诊断方法对于设备部件早期故障的诊断较为敏感,故本文选取轴承的振动信号建立指标体系。由于指标集往往存在冗余和重叠的指标,对于轴承运行状态的判断存在一定干扰且增加了计算复杂度,因此迫切需要一种能够在保持指标集分类能力不变的条件下,删除掉重要性较低或是不相关的指标,建立简单和可靠的指标体系的方法。
本文选取轴承的振动信息建立指标集,以粗糙集的属性分类质量作为指标集约简条件,利用基于不纯度减少量的决策树方法对连续数值的样本进行离散化处理。试验结果表明,约简后指标集的分类能力优于未约简的指标集,提升了系统的整体性能。
选取轴承振动信号作为研究对象,从不同空间以及不同域对其运行状态进行全面的刻画和描述。通过对时域和频域的分析,依据振动信号的统计特征参数建立指标集,包括均值、方根幅值、倾斜度、峭度、峰峰值、波形指标、峰值指标和峭度指标这8个时域特征指标,以及均值频率、标准差、特征3、特征4、频率中心和均方根频率这6个频域特征指标。时域信号特征主要反映了时域信号的振幅、能量大小及其随时间分布情况,频域信号特征主要反映了频域信号能量的大小、主频带位置的变化和频谱的分散或者集中程度。
粗糙集理论是建立在分类机制的基础上的,主要用于发现不确定的数据或是噪声数据之间的联系,是数据挖掘中的一项重要结论。粗糙集理论的主要思想是利用已知的知识库,将不精确或不确定的知识用已知知识库中的知识来刻画,并通过引入核知识等概念与方法,对现有的知识进行简化提炼,去除冗余信息,这些精炼的知识便于存储和使用。近年来,粗糙集理论已成为一个新的学术热点,在知识获取、知识发现以及决策分析等领域得到了较为广泛的研究与应用。
3.1粗糙集理论的相关定义
3.1.1知识表达与决策系统
知识表达系统可以表示为一个四元组,即S=(U,R,V,F),其中,U={x1,x2,…,xn}为对象的非空有限集合,称为论域,它是全体样本的集合;R=C∪D为属性的非空有限集合,其中子集C为条件属性集,反映对象的特征,D为决策属性集,反映对象的类别;V为属性值的集合; F:U×R->V是一个信息函数,用于确定U中每一个对象X的属性值。
3.1.2不可分辨关系
在粗糙集中,论域U中的对象可用多种信息来描述,当两个不同的对象由相同的属性来描述时,这两个对象在该系统中就可被归为同一类。它们之间的关系称之为不可分辨关系。
即对于任一属性子集P⊆R定义P的不可区分关系Ind(p)见式(1):
式中:a——属性子集P的数值。
如果(x,y)∈P,则称x,y是P不可分的,不可分辨关系实际上是一种等价关系。
3.1.3上、下近似集
(1)上近似集是指根据现有知识R,判断U中一定属于和可能属于集合X的对象所组成的集合,见式(2),[x]R表示包含元素x∈U的R等价类,即表示与记录x具有等价关系R的记录归为一类:
式中:[x]R——等价关系R下所包含元素x的等价类。
(2)下近似集是指根据现有知识R,判断U中肯定属于集合X的对象所组成的集合,见式(3):
3.1.4知识的依赖性
给定知识表达系统S=(U,R,V,F),P ⊆R。当k=γp、(Q)=|Posp(Q)|/|U| 时,称知识Q是k度依赖于知识P的,式中Posp(Q)表示相对与R的正区域。
3.2基于决策树的连续样本特征离散化处理
粗糙集只能处理离散化的数据,而用于设备状态监测系统的特征信号数据实际上是连续的。因此,首先要对原始特征数据进行离散化处理。离散化处理的原则是属性离散化空间维数尽可能少,属性值被离散化后保留的信息应尽可能的多。已有用于连续属性离散化的方法主要有经验分割法、等距分割法、等频分割法、NaïveScaler算法、Semi NaïveScaler算法、布尔逻辑和RST相结合的离散化算法、SOM网格法和GA法等。
决策树作为一种结构简单、搜索效率较高的分类器,可以从一组无规则、无次序的事例中推理出决策树表示形式的分类规则。决策树分类方法基于自上而下的递归方式,在决策树的内部节点进行数据值的比较,根据属性值的差异判断从该点向下的分类原则,在决策树的叶子节点得到结论。本文选用决策树方法对连续属性进行离散,设计算法如下:
(1)依据属性重要性对各属性从大到小进行排序,得到属性序列ck={c1、c2……cn},其中k代表第k个属性,n为属性数目;
(2)对ck每个属性中的属性值依据数值大小进行排序;
(3)选择重要性最低的属性采用基于决策树的方法进行离散,计算每一次分裂后节点的不纯度,定义见式(4):
继续节点t进行分裂,得到节点tl和tr,计算节点的不纯度减少量△I(t) ,当△I(t)小于一定阈值时停止分裂,并设定当前值为离散的数值节点,且k=n-1,定义见式(5):
(4)选择对第k个属性的属性值进行离散化处理,每一次分裂结果都查看属性决策表是否引入新的冲突,如果否保留当前分裂结果;否则,返回上一次分裂结果,并设定离散节点,且k=k-1;
(5)重复步骤(4),直到k=0时停止。
3.3属性约简
知识约简是粗糙集理论研究的核心内容之一,知识库中的属性并非同等重要,其中某些知识可能是冗余的。知识约简就是在保证知识库分类能力不变的前提下,删除其中不相关或不重要的知识。这就启示我们要考虑条件属性和决策属性之间的条件熵信息。因此可以认为,在决策表中添加某个属性引起的条件信息熵变化的大小可以反映该属性的重要程度。本文基于CEBARKCC算法进行属性约简,属性约简算法整体流程图如图2所示。
图2 属性约简算法整体流程图
振动信号对设备运行状态的监测进行研究,提取时域特征指标8维以及频域特征指标6维构成指标集。基于决策树方法对连续数值的样本进行离散化处理,并采用粗糙集方法对离散后的指标集约简,分别采用实验室轴承数据和矿用带式输送机电机轴承的真实运行数据进行验证。
4.1实验室轴承数据
4.1.1属性约简
试验数据来自美国西储大学(Case Western ReserveUniversity)轴承故障试验的数据,试验装置包括1个1.47kW的电机、1个转矩传感器以及电子控制设备。试验采用SKF公司的6205-2RS型的深沟球轴承,且电机转速为1797r/min,数字信号的采样频率为12000Hz。基于电火花技术模拟了设备正常运行、内圈单点故障、外圈单点故障及滚动体单点故障这3种故障类型的数据,建立属性决策表见表1。
表1 属性决策表
由表1可以看出,每一列代表一类属性特征,最后一列D代表该样本所属的类别,其中0代表正常, 1代表内圈故障,2代表外圈故障,3代表滚动体故障。表中的每一行为一条样本数据。对表1中的数据采用本文上述方法进行离散化处理,数值离散后的属性决策表见表2。
表2 数值离散后的属性决策表
基于表2采用粗糙集方法进行属性约简,得到约简后的属性集及各属性的重要性见表3,由表2可以看出,离散化处理后的属性决策表保持了与表3数值属性的一致性,而且使数据变的更为简单和直观。
表3 约简后的属性决策表
分别基于约简前、后的指标集采用支持向量机的故障诊断方法进行试验,试验结果性能采用召回率(Recall)、准确率(Precision)和综合评价指标(F1值)进行验证。
Recall=正确分类的样本数/ (正确分类的样本数+本该属于该类但误分它类的样本数);
Precision=正确分类的样本数/ (正确分类的样本数+错误分到该类的样本数);
共选中30条测试数据,测试数据均未用于属性约简,系统原型采用Matlab语言编程实现,基于支持向量机的故障诊断结果对比—实验室数据见表4。
表4 基于支持向量机的故障诊断结果对比—实验室数据
由表4可以看出,在不改变数据一致性的前提下,对设备故障诊断的指标集进行采用本文设计的方法进行约简,由于删除掉冗余属性,约简后设备运行各状态的性能评估指标均高于属性约简前,且用于单条样本故障诊断的平均时间由0.916s下降到了0.632s。
4.2矿用带式输送机电机轴承的真实运行数据
试验数据来源于山西晋煤集团成庄矿带式输送机电机轴承的3个月真实运行数据,电机型号为YB355M-4,转速为1485r/min,轴承型号为2322Z2,轴承尺寸为(内径×外径×宽度): 110mm×240mm×50mm,数字信号的采样频率为2000Hz。
基于轴承数据建立属性决策表,并对属性决策表进行离散化处理和属性约简(具体步骤与实验室轴承数据一致,不再重复描述)。基于支持向量机的故障诊断结果对比—矿用轴承运行数据见表5。
表5 基于支持向量机的故障诊断结果对比—矿用轴承运行数据
由表5可以看出,基于矿用设备轴承运行数据的试验结果与实验室轴承数据基本一致,属性约简后的性能评估指标均优于属性约简前。但由于矿用设备真实运行环境较为复杂,噪声较为严重,矿用带式输送机电机轴承的真实运行数据相比于实验室轴承数据各项评估指标均略有下降。
(1)基于决策树的方法对设备运行状态的样本连续数值进行离散化处理,
并对决策表进行属性约简,最后利用支持向量机的方法基于集外样本数据,分别对约简前、后的属性集进行故障诊断试验,对比试验结果表明,本文设计的连续属性离散化方法及属性约简模型均有效。(2)在采用决策树方法进行连续属性离散化时,需要预先设置阈值,用于判断节点是否停止分裂。由于阈值的设定会直接影响离散化结果,如何设计一种自适应的阈值计算方法需要进一步研究。
参考文献:
[1] 潘罗平.基于健康评估和劣化趋势预测的水电机组故障诊断系统研究[D].中国水利水电研究院,2013
[2] 张韧.旋转机械故障特征提取技术及其系统研究[D].浙江大学,2004
[3] 陈仁祥.振动谱表征空间滚动轴承寿命状态方法研究[D].重庆大学,2012
[4] 郭小荟,马小平.基于粗糙集的故障诊断特征提取[J].计算机工程与应用,2007(1)
[5] 陈小青,刘觉民,黄英伟等.采用改进人工鱼群优化粗糙集算法的变压器故障诊断[J].高压技术, 2012(6)
[6] 辛士波,孙超.基于主成分分析法的煤矿安全生产预警分析研究[J].中国煤炭,2010(11)
[7] Robert.Analyingdiscretizationofcontinuousattributesgivenamonotonicdiscriminationfunction[J]. IntelligentDataAnalysis,1997(1)
[8] HungSonNguyen.Discretizationproblemforrough sets methods[C]//ProcoftheFirstIntConfon RoughSetsandCurrentTrendsinComputing.Spring Verlag,1998
[9] 王平.基于粗糖集属性约简的分类箅法研究与应用[D].大连理工大学,2013
(责任编辑王雅琴)
★煤矿安全★
★煤炭科技·加工转化——同煤集团化工厂协办★
Methodstudyofreductiononindexsetofequipmentfaultdiagnosis basingupondecision-makingtreeroughsetoptimization
LiJin1,QianXu1,LiuZhufeng2,FanXufeng3
(1.SchoolofMechanicalElectronic&InformationEngineering,ChinaUniversity ofMining&Technology,Beijing,Haidian,Beijing100083,China; 2.JiangsuBranchCompanyofChinaTelecommunicationsCo.,Ltd.,Nanjing,Jiangsu210000,China; 3.Tiandi(Changzhou)AutomationCo.,Ltd.,Changzhou,Jiangsu213015,China)
AbstractReductionofcharacteristicindexsetisvitalforaccurateandreliablemonitoringofelectromechanicalequipmentoperatingstatus,thustheauthorsdesignedareductionmethodbasinguponrough set.Themethoddefinedtime-domainsignalcharacteristicandfrequencydomainsignalasconditionalattribution,definedfaulttypeasdecisionattribution,andestablishedfaultdecisiontable. Theauthors conducteddiscretizationofcontinuousattributedatainthedecisiontablebyusingimpurityleveldecrementofdecision-makingtree,andthenusedroughsettoreductthediscretizationdecisiontable.Theequipmentfaultdiagnosiswasmoresimpleandeasierafterusingthefault-ruleofdecisiontable.Afterrespectivelytestingoflaboratorybearingdataandminingribbonconveyerbearingdata,theresultsshowed thatthemethodwaseffectiveforattributesindexsetreductionandreducedcalculatedquantityandimpactsofuncertainfactorsifthemonitoringresultsofequipmentstatuswerereliable.
Keywordsattributesreduction,decision-makingtree,roughset,indexset
中图分类号TD614
文献标识码A
基金项目:∗天地科技科研项目(2014-TDGZZD-01)综采挖掘工作面装备状态监测与故障诊断系统研究
作者简介:李晋(1985-),男,山西大同人,在读博士研究生,主要研究方向为模式识别与人工智能。