基于混合蜻蜓优化多核模糊聚类和特征子集选取的在线齿轮故障识别

2022-01-27 15:22马泳涛

机械设计与制造 2022年1期

梁颖，马泳涛

（1.中原工学院机电学院，河南郑州 450007；2.郑州大学机械与动力工程学院，河南郑州 450001）

1 引言

齿轮传动系统是机械传动系统关键环节之一，决定了整个机械系统的运转状态[1]。随着装备机械部件的不断增多、监测采样频率的不断提高，齿轮故障识别已经进入大数据分析时代[2]。面对复杂多样、高维非线性的海量齿轮故障监测数据，如何准确、高效、便捷的识别故障成为故障模式诊断面临的新课题[3]。故障原理分析、故障信号特征提取和故障模式识别是齿轮系统故障诊断研究核心内容，学者们重点围绕3个方面展开了系列研究，文献[4]采用时频分析技术对行星齿轮箱瞬时转速精确提取问题进行研究，提出了一种时频脊融合特征提取方法；文献[5]研究了基于振动信号的时域、频域等特征的齿轮故障识别问题。此外，文献[6-8]分别从不同角度对齿轮故障信号特征进行了研究，相应的提出了特征提取方法，这些研究对大数据背景下的齿轮故障诊断具有重要借鉴意义，但是，上述特征选取方法更侧重于故障信号产生机理，忽视了特征选取体量对系统复杂程度的影响，即使采用了特征降维处理技术，但是筛选的特征子集不一定最优。因此，研究基于多变量度量的特征子集选取具有重要意义，文献[9-10]通过设计融合多个评价指标的度量标准，有效实现了对特征子集的选取，但是，大多数多变量度量特征子集选取方法通常采用划分多阶段选取特征子集的形式，导致很难满足实时性要求。支持向量机、深度学习[2]、聚类分析[10]等是故障模式识别常采用的辨识模型，由于齿轮正常和故障信息具有边界模糊的特性，因此，模糊聚类方法在故障识别、入侵检测等应用领域得到了广泛应用，模糊C-均值聚类算法（FCM）作为经典的模糊聚类算法之一[11]，有效克服FCM聚类问题鲁棒性差、聚类个数事先确定、对初始聚类中心敏感的缺陷是当前研究热点，文献[12-14]针对上述一个或几个缺陷进行研究，分别提出了改进算法，但是，如何平衡算法复杂度和聚类精度似乎还找到更好的办法。

鉴于此，为提高复杂高维大体量齿轮故障识别的效率，提出一种融合模糊聚类、特征子集选取和智能优化技术的在线齿轮故障识别方法，所做主要工作有：

（1）对FCM算法进行改进，引入多核距离度量函数和贪婪聚类中心初始化策略，以提高FCM的聚类鲁棒性。提出特征子集选取机制，在保持高分辨能力的同时，最大限度降低数据维度。

（2）引入混合蜻蜓优化算法，利用算法全局寻优能力，通过蜻蜓种群迭代进化，以实现多核函数确定、最佳特征子集选取和数据聚类分析。

（3）构建齿轮故障识别模型，利用训练样本集对改进FCM进行参数训练，得到最佳模糊聚类个数等参数，获取多核函数、特征子集选取信息，并应用于齿轮故障线上识别。

2 模糊聚类与特征子集选取

2.1 模糊C-均值聚类算法（FCM）

FCM作为目前最为广泛应用的聚类算法之一，其利用隶属度矩阵U=[μik]C×n度量样本点xk（xk∈X，X为样本集合）与C个聚类中心V={v1，…，vC}的隶属关系，通过迭代求解聚类目标函数J(U，V)，实现样本聚类划分。

式中：m—模糊加权指数。研究表明，采用欧式距离衡量数据间差异性的FCM，不适用于孤点、复杂高维数据聚类分析，为此，利用高维空间映射函数Φ(xk)处理xk，此时J(U，V)表示为：

定义Θ(x，v)=ΦT(x)Φ(v)，相关文献指出，当Θ(x，v)满足Mercer条件时［15］，则不需要知道Φ(xk)的具体形式，并且称Θ(x，v)为核函数。此时令∂J/∂μik=0，∂J/∂vi=0，有：

2.2 特征子集选取

从式（7）可以看出，只需要确定R=(χ1，…，χm)具体形式，就可以实现数据集的特征子集选取。

3 改进FCM

针对FCM对初始聚类中心敏感、复杂数据聚类鲁棒性差、聚类个数事先确定的缺陷，分别提出改进策略，以提高改进FCM（IFCM）的聚类性能。

3.1 多核距离度量函数

采用核函数替代传统欧式距离度量，提高了FCM处理复杂数据问题的能力，然而单一的核函数更适用于特定的数据聚类分析问题，为此，设计映射矩阵Φd×d：

定义核函数Θk(xi，xi)=Ak(xi)T Ak(xi)，当选取d个满足Mercer条件的Θk(xi，xi)时，就可以实现聚类分析。从式（9）～式（12）可以看出，多个核函数的引入，能够更好的体现数据样本间的差异性，进一步提高了聚类结果的鲁棒性。

3.2 贪婪聚类中心初始化

传统FCM采用随机初始化的方式生成初始聚类中心，具有很强的不确定性，而且，得到的初始聚类中心并不是数据集内个体，为此，提出贪婪聚类中心初始化聚类策略：

（1）确定v1，star。根据下式计算每个数据点的密度值τ（xk），选取密度值最大的点xk为第一个初始聚类中心v1，stɑr。

（2）确定v2，star。从X剩余数据点内，以概率P2选取xl为v2，star，c←3。

（3）确定vc，star。从X剩余数据点内，以概率Pc选取xc为vc，star。

（4）终止条件判定。若c＞C，则终止迭代，输出初始化聚类中心；否则，c←c+1，返回“（3）”。

从贪婪聚类中心初始化策略可以看出，初始聚类中心相互之间的空间距离度量较大，增强了算法搜索空间，具有很强的针对性。

3.3 FDMFCM算法

蜻蜓算法（Dragonfly Algorithm，DA）是2016年才被提出的新型群智能优化技术［16］。DA通过模拟蜻蜓群体行为，设置捕食和迁徙2个种群模态，赋予个体Xi(t)具有避撞（Si(t)）、结队（Ai(t)）、聚集（Ci(t)）、觅食（Fi(t)）、避敌（Ei(t)）5种行为，并按照式（16）进行更新。

研究成果表明，DA兼具全局搜索和局部搜索，具有较强的优化能力（DA基本原理见相关文献）。为了方便问题描述，将特征子集选取作为改进FCM的前提，提出基于特征子集选取和混合蜻蜓优化多核模糊聚类算法（FDMFCM），即改进FCM在特征子集选取的基础上，实现对数据集的聚类分析。为了评价聚类结果的好坏，定义聚类结果评定指标CREI：

式中：ε1、ε2、ε3—比例系数。

从式（17）可以看出，CREI的分子反映了分类内部的紧致度，分母反映了类间的分离度，CREI取值越小，表明聚类结果越好。

DA编码：对于多核函数确定、最佳特征子集选取和聚类中心迭代计算问题，定义个体编码Xi(t)为：

式中：(d1，…，d i，…，d D)—D个候选核函数，若di=1，则表示选取第i个核函数，否则di=0，且有=d。DA编码示意图，如图1所示。

图1 DA编码示意图Fig.1 Schematic Diagram of DA Coding

混合迭代进化：从DA编码定义可以看出，Xi(t)既包含离散和连续两种编码位形式，对于连续编码位可以直接采用式（16）进行迭代更新，对于离散编码位，给出取反Re、替换Su、交换Ex3种离散迭代进化策略，其中Re(Xi(t))定义为选取自身G1个编码位进行取反操作，且：

式中：G1，max、G1，min—G1最大值和最小值。Su(Xi(t)←Xj(t))定义为选取Xj(t)内不同于Xi(t)的G2个编码位替换，且：

人性化护理是将“人文关怀”和“以患者为中心”的思想结合日常护理，为患者提供细节、全面、人性化的护理服务[7]。常规护理方式通常将重点放在患者住院期间疾病的变化过程和生命体征、检验报告数据中，对于患者的在住院期间的心理变化、文化影响等缺乏关注。乐小丽等[8-9]人在研究中对宫颈炎患者采取人性化护理干预后有效改善患者焦虑、烦躁的不良情绪、提高了患者满意度[10-11]。本研究中对患者实施人性化护理干预后，患者用药依从性得到了显著提高，从而有效促进了治疗效果提高。

式中：G2，max、G2，min—G2最大值和最小值，显然，对于不同Xi(t)，G2，max取值是不同的。定义Ex((Xi(t)←Xk(t)))为Xi(t)随机选取Xk(t)内对应的G3个编码位进行交换，3种离散迭代进化策略示意图，如图2所示。

图2 离散迭代进化策略示意图Fig.2 Schematic Diagram of Discrete Iterative Evolution Strategy

目标函数：对于模糊聚类优化问题，定义混合蜻蜓算法目标函数f(X)：

式中：X′—X的编码子集，且X′=(v1…vC)。

FDMFCM实现：采用混合蜻蜓算法对改进FCM进行优化。在每次迭代过程中，首先，对Xi(t)的离散编码子集(d1…d D)、(χ1…χm)执行离散进化操作，并在此基础上，确定核函数和特征子集。然后，对Xi(t)的连续编码子集执行次进化操作，得到Xi(t)对用的聚类中心VXi(t)和聚类结果评定指标CREI(Xi(t))，并据此更新种群个体信息。如此往复，直到算法结束，最终得到最佳(d1…d D)best、(χ1…χm)best和聚类中心Vbest。基于混合蜻蜓优化的改进FCM实现流程图，如图3所示。

图3 FDMFCM实现流程图Fig.3 Flow Chart of FDMFCM Implementation

算法计算复杂度：从FDMFCM实现过程可以看出，对于具有P个个体的蜻蜓种群，种群初始化复杂度为O(P×(n+d+m))，每次迭代离散编码子集更新复杂度为O(P×(d+m))，连续编码子集更新复杂度为种群更新复杂度为O(P×(n+d+m))，故算法计算复杂度为：

4 在线齿轮故障识别

利用FDMFCM算法进行齿轮故障识别，采取线下训练和线上识别两个阶段。线下阶段，由于聚类数C未知，提出多线程策略：设定线下共有（Cmax-1）个线程，每个线程按照聚类数c（c=2，…，…Cmax）执行FDMFCM操作，得到该聚类数下的CREI(c)，选取CREI(c)取值最小的聚类数为最佳聚类数Cbest，并将其对应的(d1…d D)、(χ1…χm)以及其他参数作为线上识别参数输入。线上阶段，由于核函数、聚类个数、特征子集选取向量已经确定，因此，在执行模糊聚类操作时，只需要执行Xi(t)连续编码位更新操作，使得算法计算复杂度下降到TmaxO(nP)级别，大大提升了线上齿轮故障识别效率。在线齿轮故障识别示意图，如图4所示。

图4 在线齿轮故障识别示意图Fig.4 Schematic Diagram of On-Line Gear Fault Identification

5 仿真实验

采用监测实验平台对所提方案进行验证，监测实验平台包括转速传感器、电机、齿轮箱、制动器等模块。实验平台能够模拟齿轮点蚀、剥落、断齿、正常等4种健康状况。

5.1 改进FCM性能验证

表1 UCI数据集聚类对比结果Tab.1 Clustering Comparison Results of UCI Dataset

表2 人工数据集聚类对比结果Tab.2 Clustering Comparison Results of Artificial Data Sets

5.2 齿轮故障识别验证

试验设置3种不同转速，信号采样频率设定为1000Hz，每种工况分别采集300个样本点，其中260个样本点组成训练集，其余组成测试集。对于特征集，参考文献[6]提出的时域与频域联合特征提取方法，每个样本由50个特征描述，4种工况下数据情况，如表3所示。

表3 数据集Tab.3 Data Sets

5.2.1 特征子集选取对故障识别正确率的影响实验

对于每种工况，依次增加特征子集选取规模，并采用基于多核距离度量函数和贪婪聚类中心初始化策略的改进FCM进行聚类分析，不同特征子集规模下故障识别正确率对比曲线图，如图5所示。运算时间对比曲线图，如图6所示。

图5 不同特征子集规模下故障识别正确率Fig.5 Fault Recognition Accuracy under Different Feature Subset Sizes

图6 不同特征子集规模下运算时间对比曲线图Fig.6 Comparison Curve of Operation Time under Different Feature Subset Sizes

5.2.2 齿轮故障识别验证实验

将4种工况的训练样本、测试样本分别组成训练集和测试集，采用FDMFCM算法进行训练，检测时，随机选取测试集中的样本进行实验，每次实验独立运行50次，实验结果取均值。某次实验线上识别阶段混合蜻蜓算法收敛曲线，如图7所示。不同实验下故障识别正确率，如图8所示。

图7 混合蜻蜓算法收敛曲线Fig.7 Convergence Curve of Hybrid Dragonfly Algorithm

图8 不同实验下齿轮故障识别正确率Fig.8 Correct Rate of Gear Fault Recognition under Different Experiments

5.2.3 不同方法对比实验

为了进一步分析这里方案性能，基于同样的数据集，分别选取文献[5]提出的齿轮局部故障识别方法、文献[7]提出的齿轮箱故障诊断方法和文献[10]提出的齿轮故障模式识别方法进行对比实验，这几种方法的核心都是在特征子集选取的基础上，利用不同的识别分类技术进行故障识别。不同实验下，4种方法故障识别正确率对比，如图9所示。

图9 4种方法故障识别正确率对比Fig.9 Comparison of Fault Identification Accuracy of Four Methods

5.3 结论分析

（1）提出的改进FCM（IFCM）具有更好的聚类性能。从表1可以看出，对于经典测试数据，3种聚类算法都取得了不错的聚类效果，聚类正确率都达到了90%以上，特别的，相比其他两种算法，IFCM聚类正确率提高了约（6.5～9.3）%。从表2可以看出，对于人工数据，由于聚类数事先未知，且人为增加数据复杂度，导致其他两种算法的聚类效果不佳，聚类评价指标CREI是IFCM的4倍左右，但是，由于采用两重循环迭代，IFCM在运算时间上要高于其他两种算法。之所以IFCM聚类效果更优，是因为多核距离度量函数的引入，提高了算法对复杂数据问题的适应性，贪婪聚类中心初始化的提出，提高了聚类迭代的针对性和确定性，使得算法具有更佳的聚类性能。对于IFCM运算效率较慢的问题，后期采用线下训练和线上识别两个阶段，有效避开了线下训练阶段消耗时间较多的缺陷。

（2）合理选取特征子集对提高故障识别效率具有重要影响。从图5、图6可以看出，在一定范围内，随着特征子集规模的不断增加，故障识别正确率不断提高，特别的，当特征子集规模在20左右时，识别正确率可以达到90%以上。此后，故障识别正确率随特征子集规模变化不大，但是，算法运行时间在迅速增加，因此，合理选取特征子集可以保持较高的故障识别正确效率，而且能够大幅度降低算法运算时间。

（3）提出的在线齿轮故障识别方法具有更好的识别效果。从图7、图8可以看出，在线上识别阶段，混合蜻蜓算法能够快速收敛全局最优解，而且识别正确率很高，这表明，提出的在线齿轮故障识别方法能够快速准确识别出齿轮故障。从图9可以看出，相比于其他故障识别方法，这里算法具有更好的识别正确率，而且更加稳定，识别正确率提高了约（11.1～31.7）%。

6 结束语

对在线齿轮故障识别进行了研究，提出了一种基于混合蜻蜓优化多核模糊聚类和特征子集选取的在线齿轮故障识别方法。该方法以模糊聚类算法为核心，具有线下训练和在线识别两阶段结构，通过提出改进策略以提升模糊聚类算法复杂问题聚类性能，提高了在线齿轮故障识别正确率，实验仿真结果也验证了所提方法的有效性。下一步将围绕小样本故障检测成功率进行研究。