决策树算法在诊断机械故障信息挖掘中的应用

2022-01-27 15:23岳根霞刘金花
机械设计与制造 2022年1期
关键词:机械故障子集决策树

岳根霞,王 剑,刘金花

(山西医科大学汾阳学院,山西 汾阳 032200)

1 引言

在实际应用中,图像检测可以得出医学诊断机械中隐藏着的较为重要的故障数据信息,所以对其进行快速有效的数据挖掘处理,是现下研究领域中较为重要的研究课题。虽然以往方法能够获得出机械故障检测图像中的特征内容[1-3],但因为在计算过程中并不能有效地对图像灰度特征判定,特征数据以及分辨属性受到约束,从而使整体视觉效果受到严重影响,无法确定故障位置和造成诊断机械故障的因素。

在数据挖掘的众多方法中,决策树算法因具有提取效果高、计算复杂率低而被广泛应用,在一定程度上可以将其称之为直观概率分析图解法,可以根据本身的计算结果,在图像已知的情况下,求解出最终期望值,从而实现对机械故障检测图像诊断中的决策事件提供有效判断依据的目的,无法完全的获取用户想要的数据信息,基于此,这里基于决策树算法,研究诊断机械故障信息数据挖掘方法,创新性在于应用决策树算法改进C4.5,对图像中的诊断机械故障数据进行挖掘与计算,并通过校正矩阵分别构建出多种不同的训练数据集,形成众多深度树,以达到提高整体算法精准度的目的。

2 数据预处理

2.1 机械故障检测图像预处理

在本次研究中,由于诊断机械故障信息多属于数据层,所以,会根据不同区域图像要求,分别使用尺寸归一化、中值滤波去噪以及图像增强手段,在最大程度上减少后续挖掘过程[4],具体处理结果,如图1所示。

图1 图像预处理结果Fig.1 Image Preprocessing Results

其中图1(a)是待挖掘原图像,或因外界干扰、保存不当出现模糊,无法直接用于挖掘,图1(b)为中值滤波去噪后的图像,图1(c)是通过尺寸归一化处理后的图像,图1(d)则是经过图像类型转换后得出的图像,将RGB模式转换到HSV模式。

2.2 诊断图形信息的三级小波分解

医用诊断机械的故障表现在它的结构上主要是它的零件损坏和零件之间相互关系的破坏,如零件的断裂、变形、配合件的间隙增大或过盈可以丧失,固定和紧固装置的松动和失效等,所以在实际处理机械故障检测图像的过程中,必须要将机械故障类型归一化,即对机械故障检测图像中连续小波进行离散化处理,而离散化处理具体是针对多种连续的尺度参数b和连续平移参数ɑ进行归一处理,可以有效整合医用诊断机械故障数据。在一般情况下,可以将连续小波变换中尺度参数ɑ和平移参数b的离散化公式分别取值为ɑ=ɑ0j,b=b0j,此处j∈z,但假设对取值再进行拓展步长处理,便有ɑ0≠1,其中ɑ0≠1是固定取值。为了便捷起见,将假设取值ɑ0>1,这样便可以将离散小波函数φjk(t)写为:

而离散小波变换系数根据上式即可表示为:

再对机械故障检测图像进行第N层二维小波分解后,就会进一步得出图像中每层变换后的系数,分别有低频系数、水平细节系数、对角细节系数和垂直细节系数。对机械故障检测图像进行二维离散小波分解的过程中,每做一次分解处理,那么对应图像中下一层的尺寸就会变成为上一层图像的四分之一,这样进行一次分解处理,就会得出四个子带,那么进行M次分解处理,就会得出3M+1个子带,其中分解图,如图2所示。

图2 诊断图形的三级小波分解图Fig.2 Three Level Wavelet Decomposition of Diagnosis Graph

3 机械故障检测图像信息数据挖掘

3.1 基于决策树算法的诊断机械故障信息挖掘

3.1.1 机械故障检测信息属性数据定义

引入决策树算法,假设将S描述为s个机械故障检测信息数据样本的集合,并在此基础上设定类标号属性具有m个不同的取值结果,那么将判定m个不同类取值便有Ci(i=1,…,m),其中设si是类Ci集合中的样本数量。在实际计算过程中,假设将机械故障检测图像样本训练数据集合判定为,在这其中将N描述为训练样本的总数量;x表示为计算过程中的条件属性,这样每个机械故障检测图像样本所包含的条件属性就会有n个,便有x=则表示了样本计算的决策属性,并且有y(i)∈{w1,w2,…,wc}。矩阵X将判定为N个训练样本,其中每个训练样本的第n个条件属性值构建成的矩阵,即X是N×n维矩阵,再假设将矩阵Y判定为N个训练样本所对应的决策树型值矩阵,就有Y=[y1,y2,…,yN]。

3.1.2 机械诊断图像故障信息数据挖掘

在上述决策树原理以及算法的基础上,提出了C4.5集成算法来对机械诊断图像进行故障数据挖掘计算[5-7]。该算法在一定程度上采用了并行结构的集成方法,针对每一个样本成员Di{i∈(1,…,L)},通过改正矩阵的方法分别构建出多种不同的训练数据集,以达到提高整体算法的分类精准度。

具体实现过程,如下所示:

(1)首先根据C4.5成员分类器构造的修正矩阵,其中以Di为范例:

将样本属性特征集合F任意地分布到K个子集中,并且令每个子集之间的属性特征彼此不重合,这样每个特征子集便有H=n/K个属性特征。然后再将Fij判定为针对Di的第j个特征子集属性j∈(1,…,K)的集合,并用Mij矩阵来表示对应子集属性值矩阵,为了从根本上实现该算法集成中每个样本矩阵Di之间的多样性,对矩阵Mij进行抽取部分数据处理,进一步得出矩阵。

(2)集成算法参数L,此处将L设置为L=c,并结合投票法,该参数取值由下式计算求出:

在上式中,将c描述为故障信息样本决策属性分类的数量。

(3)分类结果的投票法,此处详细统计了L个样本成员Di,并对某一个待分类的样本进行分类,其中最终分类结果将采用了少数服从多数的原则。

3.2 诊断机械故障信息数据挖掘

在一般情况下,对挖掘对象进行分类处理是数据挖掘中较为常用的一种技术[9],根据训练故障信息数据集合中被挖掘的数据特征,来进行分类处理,并且将其进行更加明确的阐述或构建模型,然后在此基础上对新的故障信息数据进行分类处理。

结合上述挖掘分类方法,此处将运用了决策树中的ID3算法,该算法在实际计算过程中,可以根据诊断图像所阐述的离散型数据属性进一步创建决策树模型,创建决策树的主要流程是需要在数据属性集合中寻找出数据信息增益取值最大的属性子集,然后令该子集作为决策的根节点[10-11],再运用该子集的节点属性取值,将整体图像子集等同划分为众多子集,并且将子集的属性从总的属性集合中去除,这样在每个子集中选取出目前子集的根节点,这样一直重复选取,直到获取出全部样本是一个类别的属性集合为止。

如果在实际计算的过程中,一个对应的条件属性A同时拥有v个不同值ɑ1,ɑ2,…,ɑv,并将S等同划分为v个子集S1,S2,…Sv,就有Sj子集中A属性的取值平均为ɑj(j=1,2,…v),其中将sij描述为子集Sj中类Ci的样本数量,这样由A划分成子集的期望信息值就有:

根据上式计算结果,便可进一步得出在条件属性A分枝上获得的信息增益:

在根据离散型属性的数据集构建决策树的过程中,将会分别对每个灰度级取值进行计算,计算对应的信息增益取值,根据取值结果,一般情况下具有较高取值信息增益的灰度级将会被优先选择,然后创建节点,构建节点分支并划分图像样本。

4 仿真实验

4.1 实验环境及数据来源

为了进一步验证方法有效性,明确方法性能,设定仿真实验环境为:CPU为Inte(l R)Celeron(R),2.6GHz,内存为2.0GB,操作系统为Windows XP,实验开发平台Visual Studio2010,基础函数库采用Intel公司开发的Open CV图像处理算法库,使用Java语言编写接口程序,从基础函数库中读取上述模型数据并生成仿真程序。

分别采用UCI MachineLearning Repository(https://archive.ics.uci.edu/ml/datasets.html)图像库中CT扫描机械的高孔隙度铝铸件齿轮结构故障图像,排除清晰度低于720P的图像35张,排除与这里联系不强的图像254张,在剩余图像中随机挑选1000张图像,与上述文献[1-3]方法进行挖掘精准度、效率对比。

在实际仿真环境中,在CT扫描架以恒速旋转的过程中,旋转马达通过齿轮系统驱动位置编码器,以该高孔隙度铝铸件齿轮为例,采用(160~-450)kV高束流稳定度的X-射线机和大面阵高分辨率非晶硅平板探测器作为辅助硬件,检测机械故障,如咬合不紧、齿轮牙大小不一等,获取故障图像,分别包括有症状和无症状两种,所以仿真实验结果的分类属性取值就会有两种,如图3所示。

图3 故障图像示例Fig.3 Example of Fault Image

4.2 实验过程

4.2.1 挖掘效率

根据对训练集和测试集图像,分别应用Paint Shop Pro进行分割获取灰度级,应用ID3决策树分类算法对训练集进行故障数据挖掘。

根据直观实验结果引入不同的量分别用于衡量这里的方法和其他文献方法对机械故障的诊断效果。分别用时间评价故障诊断的数量,用达到要求的样本数量反映找到故障的精准度,直观对比图像分别,如图4、图6所示。量化结果,如图5、图7所示。

图4 其他文献方法与这里的方法诊断故障数量对比图Fig.4 Comparison of the Number of Faults Diagnosed by Other Literature Methods and this Method

图5 诊断机械故障图像挖掘时间对比图Fig.5 Time Comparison of Image Mining for Diagnosing Mechanical Faults

图6 其他文献方法与这里方法诊断故障精准度对比图Fig.6 Comparison of Fault Diagnosis Accuracy between Other Literature Methods and this Method

图7 诊断机械故障图像挖掘精准度对比图Fig.7 Accuracy Comparison Chart of Image Mining for Mechanical fault Diagnosis

用单位时间故障诊断的数量N表示最终效果,其他文献实验结果表示为N1,这里方法实验结果表示为N2;数据对比结论为:N1<N2,表示这里方法效果较好;记录诊断相同数量故障所用时间,数据结果,如图5所示。根据图5可知,三种方法在对诊断机械故障图像进行数据挖掘的过程中,挖掘时间都会随着样本数量的增加而增加,但是可以明显的看出四种方法的差距,在不同数量样本中,所提方法的挖掘时间要远远低于其他两种方法,这是因为这里的方法对诊断机械故障图像检测获取出的图像进行小波变换特征提取,令每个子集之间的属性特征彼此不重合,提取针对性较强,挖掘时间较短,方便用户在有限时间内获取更多的数据。

基于上述实验结果分析得知,四种方法相比之下,所提出的方法在评估耗费时间方面具有较大的优势,评估所需要的时间最短,挖掘效率较高。

4.2.2 挖掘精准度

设定期望被诊断的故障点集样本总数为C,其他文献和这里的方法诊断出的故障点数分别为ɑ和b,用分别反映其故障诊断精准率,其次将这里的方法与文献[1-3]在诊断机械故障图像检测数据挖掘结果根据实验计算出的精准度进行比较。

其中具体数据对比结果,如图7所示。

根据图7可以明显看出,所提出方法与其他三种方法在对诊断机械故障图像进行数据挖掘的过程中,具有较为明显的优势差距,经过对比可得P1<P2,表明这里的方法效果较好。同样,这一情况也说明了这里方法具有计算简便、效率高等优点。

5 结论

为了在有效的时间内将更多精准、有效的信息提供给使用者,辅助决断,提高机械故障图像检测的特征信息、高分辨属性描述清晰度,在决策树算法的基础上,构建出一种诊断机械故障信息数据挖掘方法。结合决策树算法提出了C4.5方法,挖掘诊断机械故障检测图像特征,并针对每个样本图像,通过改正矩阵构建出多种不同的训练数据集,以达到提高整体算法精准度的目的,可以有效解决图像清晰度有限的问题,并且具有计算简单、挖掘效率高等优点。

猜你喜欢
机械故障子集决策树
汽车发动机机械故障的非接触式检测技术研究
基于决策树和神经网络的高血压病危险因素研究
拓扑空间中紧致子集的性质研究
Carmichael猜想的一个标注
关于奇数阶二元子集的分离序列
决策树和随机森林方法在管理决策中的应用
汽车机械故障成因及维修处理方式探讨
决策树多元分类模型预测森林植被覆盖
汽车机械故障原因及诊断探究
ZGM113G型磨煤机故障分析及技术改造