基于不完全信息的轴承故障聚类识别方法

2016-03-24 08:42:29高红霞

农机化研究 2016年2期

关键词：故障诊断

高红霞，郜　伟

(1.河南工程学院计算机学院，郑州　451191；2.信息工程大学理学院，郑州　450001)

基于不完全信息的轴承故障聚类识别方法

高红霞1，郜伟2

(1.河南工程学院计算机学院，郑州451191；2.信息工程大学理学院，郑州450001)

摘要：联合收获机中零部件繁多及滚珠滑失等因素，导致监测信号中轴承组件的特征频率并非总能找到，进而影响了故障诊断的正确率。为了解决该问题，提出了一种基于不完全信息的轴承故障聚类识别方法。该方法将特征频率显著的样本作为先验信息，利用这些信息进行相关成分分析，从而给相关程度高的特征赋予大的权重，然后利用改进的半监督聚类算法对所有样本进行聚类识别。其中，提出了近邻扩展方法对先验信息进行扩充，增加了目标函数惩罚环节对聚类过程予以指导。将所提方法应用于联合收获机的轴承滚珠和外圈故障识别，与其它几种聚类方法相比，故障识别率提高了2.78%～7.22%。

关键词：谷物联合收获机；故障诊断；先验信息；半监督聚类

0引言

谷物联合收获机能够高效完成农作物的收割、脱粒、分离、清选及秸秆处理等一系列任务，是现代农业生产中常见的一种大型自动化设备[1-3]。其中，轴承部件在该设备的传动、行走和控制等装置中被大量地使用，是一类影响设备运行状态的重要部件。尤其在脱粒装置上用到的滚筒轴承，不仅影响脱粒的效果，而且由于在恶劣工况下工作，属于设备中的易损件。因此，有效监测滚筒轴承部件的运行状态，对联合收获机的正常运行具有重要意义[4]。目前，轴承故障诊断的一个重要方法是通过识别其组成部件(滚动体、保持架、内圈、外圈)之间相互碰撞而产生的特征频率来完成识别；但在实际监测过程中，得到的振动信号中并非总是可以找到对应的特征频率，而是表现为时有时无的情况。造成这一情况的原因主要有两方面：①传感器只能在轴承表面获取信号，整个联合收获机设备中存在的干扰信号也比较大，使得特征频率对应的信号时常被淹没；②轴承中的滚动体在运行过程中容易发生滑失，使得与其余部件碰撞而产生的特征频率缺失，使得特征频率不显著的信号片段难以被识别，从而影响了整体的诊断效果。

信号中特征频率显著的片段实际是可以用来帮助提高整体诊断效果的[5]。因为其对应的故障状态易于判别，从而可将它们作为状态已知的先验信息，然后与未知状态的信号片段混合，再利用常见的频域特征来进行识别，这是一种半监督的聚类或分类方法，目前已有一些学者进行了相应的探索和研究[6]。毕锦烟等人[7]提出一种半监督模糊核聚类算法用于齿轮轻微点蚀故障的检测。徐超等人[8]则提出一种半监督模糊聚类算法用于发动机磨损故障的检测。他们均是直接对目标函数进行改造，但特征空间中各个特征对数据识别的作用通常是不一的，不能很好利用距离机制来评价样本的相似程度。为此，提出了一种基于不完全信息的聚类方法(Clustering Approach based on Partial Information，CAPI)用于轴承故障的识别。该方法在两方面利用了已知样本的信息：①利用已知样本对特征空间进行变换，从而实现距离机制的学习，以便更好地评价各个样本之间的相似程度；②利用近邻原则先对已知样本进行扩充，再将扩充后的已知样本用于目标函数的设计。最后，在某型小麦联合收获机滚筒轴承的滚珠轻微损伤故障及滚珠损伤和外圈损伤复合故障的识别中，验证了所提方法的有效性。

1基于先验信息的距离学习方法

将监测得到的信号分为若干段，每段信号即对应一个样本，假设一共有n个样，C类状态。其中，第i个类有nil个已知样本、niu个未知样本。CAPI首先对数据集X中的已知样本进行相关成分分析[9]，得到变换矩阵W，从而将所有样本取值进行转换，即xnew，j=Wxj，xj=(xj1,xj2,…,xjd)，d为特征总数。其具体步骤如下：

1)计算第i个类已知样本的均值vil，则

(1)

2)计算各类已知样本对应的协方差矩阵Cor，有

(2)

3)计算变换矩阵W，则

(3)

变换矩阵是一个将有用特征显现的过程。它给一些特征赋予大的权重，因为这些特征对类的区分有重要作用；而在其余特征上样本取值的变化主要是由于各类内部取值波动引起的，对类的区分并无贡献，则赋予小的权重。

2改进的半监督聚类算法

改进的半监督聚类算法是在转换后的特征空间下进行的，它在目标函数中融入了已知样本的约束，还在求解过程中利用粒子群算法克服了K均值聚类易陷入局部极值的缺点。

2.1近邻扩展策略

近邻扩展策略是根据相邻样本的状态很可能相同的原理设计的。其具体操作步骤为：

1)对于数据集Xnew中的每一个已知状态的样本，按照欧式距离的取值找出其k个近邻样本；

2)若近邻样本y本身即为已知样本，则不做任何操作；

3)否则，若近邻样本y只是一个已知样本的近邻，则令其所属的类标号与已知样本的类标号相同；

4)若近邻样本y同时是多个已知样本的近邻，则计算各个已知样本与近邻样本y的欧式距离，找出其中最小距离对应的已知样本，记为x*，近邻样本y的类标号，即与x*的类标号相同。通过近邻扩展策略，使得已知样本的信息得以尽可能地被发掘，从而加强已知信息对聚类结果的影响[10]。

2.2目标函数惩罚机制的设计

由于已知部分样本的类别标记，本文在设计的目标函数中引入了惩罚机制。若已知样本被错误的划为其它类别，则增大目标函数值，否则不影响函数取值。又由于近邻扩展策略中得到的已知样本具有一定的不可靠性，为了规避该风险，若扩展所得已知样本被错误划分时，则依据k近邻的次序给出不同程度的惩罚。设计的目标函数为

(4)

其中，uij取值为1或0，表示第j个样本是否被划分到第i个类；vi为第i个类的中心；L表示未扩展时已知样本构成的集合；KL为扩展过程中产生的已知样本构成的集合。当样本属于集合L且被错误划分时，D1(xnew,ij)取值为1，否则取值为0；当样本属于集合UL时，D1(xnew,ij)按相同方式取值。其中，k值表示样本xnew,ij在近邻扩展策略中所对应的近邻顺序。若为最近邻，则k值为1，次近邻则为2，依次增大。

每次迭代后所有样本的划分按照欧式距离最近的原则进行，则

(5)

其它各类中心向量的更新为

(6)

2.3基于粒子群算法的聚类过程实现

利用粒子群算法来优化所提目标函数，并采用聚类中心的实数编码方式，个体zi=(zi1,zi2,…,zim)。其中，m为总的编码长度，取值为m=Cd，即每d个基因位对应一个类的中心向量，一共有C个类。个体zi中每个基因位的取值均为0和1之间的实数，所以在计算前所有样本均要归一化到0,1范围内。粒子群算法的算子为

(7)

其中，vecijt表示个体zi在基因为j上的速度；t表示代数；zi*表示个体zi在其进化历史中所发现的目标函数值最小时所对应的个体；zgt表示目前种群中已发现的目标函数值最小的个体，wI为惯性权重；c1、c2、r1和r2则为权重系数。

此外，为了抑制种群早熟和提高种群的多样性，本文采用了每间隔一定代数t0即选择一定比例的较差个体并重新生成。其具体操作方式为：将种群按照目标函数取值降序排列，选取前q个个体，令其每个基因位的取值在0,1之间随机生成。

基于上述改进，CAPI的运行流程为：

1)将正常工况下样本标记为已知样本，并找出监测信号中特征频率显著的样本，对应到相应故障状态中，也标记为已知样本，而剩余样本则为未知样本；

2)利用所有已知样本进行相关成分分析，从而将所有样本在特征空间中进行转换；

3)将已知样本进行近邻扩展；

4)对扩展后的样本进行基于粒子群算法的聚类，目标函数值最小个体对应的即为聚类的最终结果，根据未知样本和扩展所得已知样本被划分的聚类标号，即得到它们对应的故障状态。

3实验结果与分析

实验采用雷沃谷神4LZ-2.5E系列自走小麦联合收获机为研究对象，测试其滚筒轴承径向的振动加速度信号。一共测试了3种状态：正常状态、滚珠有轻微凹坑的状态及外圈和滚珠均有轻微凹坑的状态。每种状态均得到了60个样本，正常状态在设备早期使用过程中获得，全部为已知的样本；而后两种状态通过包络谱分析，找出特征频率显著的样本分别有22个和29个，即为已知样本，其余则为未知样本。图1～图4是两种故障状态中未知样本的时域和频域图。

图1　滚珠故障未知样本的时域信号

图2　滚珠故障未知样本的频域信号

图3　滚珠和外围复合故障未知样本的时域信号

图4　滚珠和外围复合故障未知样本的频域信号

从图1～图4中可以看出：这些样本在时域信号中难以区分，而在频域信号中尽管缺乏特征频率，但其频谱仍然存在一些不同。所以，本文按照文献[11]提出的7个频域特征来构建相应的特征空间，用以识别未知样本。这7个频域特征具体是平均频率、波形穿过时域信号平均值的平均频度、波形的稳定系数、变异系数、频域偏斜度、峭度和均方根比。

为了更好地说明所提各项改进的性能，本文设置了3个对比算法，分别为：

1)先对数据进行主成分分析，然后按照贡献率超过85%的标准构建新的投影空间，再对其按照本文所提目标函数和粒子群方法来进行聚类，该方法称为PCACA；

2)目标函数中不加入关于已知样本的惩罚项，其余保持和CAPI方法一致，称为CAPI1；

3)不进行已知样本的近邻扩展，其余保持和CAPI方法一致，称为CAPI2。

本文将所有算法中所需参数设置为：近邻扩展策略中的k值设为1，种群大小为50，一共进化80代，惯性权重设为0.79，c1为2，c2为1.6，r1和r2为0和1之间的随机数，速度vec的最大和最小值为2.1和-2.1，每隔10代选取目标函数值最差的5个个体重新随机生成。表1给出了各种算法将所有样本进行分类的正确率和虚警率(正常样本判为故障样本的比率)，以及将未知样本分类的漏报率(未知故障样本判别为正常样本的比率)和误报率(将未知故障样本的故障类型判别为其它故障类型的比率)。

表1　4种算法的对比测试结果

由表1的测试结果可知：CAPI具有最高的正确率，其正确率相比其它3种算法分别提高了2.78%、7.22%和5.55%。CAPI还具有最低的虚警率、漏报率及误报率，其与另外3种算法相比，虚警率、漏报率和误报率最多降低了2.22%、5.79%和5.80%，并且CAPI所得虚警的样本个数为0。CAPI与PCACA的对比结果表明：基于已知样本信息的特征空间转换方法比无监督的PCA方法更有效力：而CAPI与CAPI1、CAPI2的对比结果说明：本文对目标函数的改进及提出的近邻扩展策略对未知样本的正确识别有显著的促进作用。

4结论

提出了一种针对联合收获机滚筒轴承故障的半监督聚类识别方法。其中，在先验信息的利用中，提出了两种具体实现方式，分别为用已知样本对数据特征空间进行变换和对目标函数进行改造，还提出在样本利用中可借助近邻概念扩充已知样本的数量。所提方法的有效性在小麦联合收获机的轴承故障识别实验中得以验证。它们对提高故障识别的正确率，降低虚警率、漏报率和误报率具有重要作用。同时，实验结果表明：基于相关成分分析的特征空间重构方法显著提高了算法的性能，为半监督聚类算法中已知信息的利用提供了一条有效的途径。

参考文献：

[1]梁喜凤,杨犇,王永维.番茄收获机械手轨迹跟踪模糊控制仿真与试验[J].农业工程学报,2013, 29(17):16-23.

[2]闫鹏程,连光耀,刘晓芹,等.基于多故障模糊组的序贯多故障诊断方法[J].计算机测量与控制, 2012, 20(1):34-37.

[3]侯卫平,钟苏丽,刘晓辉,等.农业机械发动机曲轴主轴承负荷特性研究[J].农机化研究, 2011, 33(5):222-225.

[4]胡荣华,楼佩煌,唐敦兵,等.基于EMD和免疫参数自适应SVM的滚动轴承故障诊断[J].计算机集成制造系统,2013,19(2):438-447.

[5]高宏宾,侯杰,刘劲飞.分布式密度和中心点数据流聚类算法的研究[J].计算机应用与软件,2013, 30(10):181-184.

[6]樊帆,徐亚兵.基于半监督聚元自组织映射的齿轮早期故障检测[J].机械传动,2011,35(11):66-70.

[7]毕锦烟,李巍华.基于半监督模糊核聚类的齿轮箱离群检测方法[J].机械工程学报,2009, 45(10):48-52.

[8]徐超,张培林,任国全,等.基于改进半监督模糊C-均值聚类的发动机磨损故障诊断[J].机械工程学报, 2011,47(17):55-60.

[9]Tenenbaum J B, Freeman W T. Separating style and content with bilinear models[J]. Neural Computation, 2000,12(6):1247-1283.

[10]郝晓丽,张靖.基于改进自适应聚类算法的RBF神经网络分类器设计与实现[J].计算机科学,2014,41(6):260-263.

[11]轩建平,史铁林,廖广兰,等.利用遗传编程提取齿轮多重故障分类特征[J].振动工程学报,2006,19(1):70-74.

Abstract ID:1003-188X(2016)02-0058-EA

A Clustering Approach Based on Partial Information for Recognizing Bearing Fault

Gao Hongxia1, Gao Wei2

(1.College of Computer, Henan Institute of Engineering, Zhengzhou 451191, China; 2. Institute of Sciences, Information Engineering University, Zhengzhou 450001, China)

Abstract：Due to the reasons of too many components in combine harvester and the skid of rolling balls, the characteristic frequencies of bearing assembly in monitoring signals are not always clearly existing, which causes the low accuracy of fault diagnosis. Hence, a clustering approach based on partial information is proposed to tackle this problem. This approach sets these samples with clearly characteristic frequencies as priori information, and then uses them to make relevant component analysis to high weights to relevant dimensions. This approach also design an advanced clustering algorithm to recognize all the samples, wherein an extension strategy based on neighborhood is presented to obtain more priori information, and a penalty step is added to the objective function to guiding the clustering. The fault data on ball and outer race of bearing of a combine harvester is used to validate the proposed approach. The results show that our proposed approach works better than others, where the recognition accuracy is higher than others from 2.78% to 7.22%.

Key words：combine harvester; fault diagnosis; priori information; semi-supervised clustering

文章编号：1003-188X(2016)02-0058-04

中图分类号：S232.8+1

文献标识码：A

作者简介：高红霞(1978-)，女，河南开封人，讲师，硕士，(E-mail) gaohx78@126.com。

基金项目：国家自然科学基金项目(61301232)；河南省基础与前沿技术研究计划项目(142300410131)

收稿日期：2015-01-16