面向混合属性数据集的改进半监督FCM聚类方法

2018-04-23 04:00李晓庆唐昊司加胜苗刚中

自动化学报 2018年12期

李晓庆唐昊司加胜苗刚中

聚类过程主要包括数据准备、特征选取与提取、相似度计算、聚类与评估等步骤,经典的聚类算法包含K-means、K-modes、模糊均值聚类(Fuzzy C-means,FCM)算法、DBSCAN等.目前仍有关于经典聚类算法的衍生算法的研究,文献[1]以近邻反射传播聚类算法为基础,提出一种基于同类约束的半监督近邻反射传播聚类方法.文献[2]提出K-近邻估计协同系数的协同模糊C均值算法.然而,这些聚类算法的距离度量函数是仅针对单属性的数据集的距离运算.

随着互联网和物联网的快速发展和广泛应用,各种数据的数量呈现指数式增长,可获取的数据属性也呈现出多样化.许多学者开始致力于混合属性数据集聚类的相关研究.Huang[3]提出一种适用于混合属性数据聚类的K-prototypes算法,对于分类属性部分,该算法采用匹配差异度来描述数据点之间相异度.近年来,陈晋音等[4]提出一种面向混合属性数据的增量式聚类算法.根据混合属性数据特征,将特征向量集分为数值占优、分类占优和均衡型三类.文献[5]对不同情况的特征选取相应的距离度量方式进行分析,通过预设参数,发现数据密集区域,确定核心点,进而利用核心点确定密度相连的对象实现聚类.文献[6]提出一种基于密度的聚类中心自动确定的混合属性数据聚类算法.以上文献在处理混合属性数据的聚类时,并未考虑无序属性数据的聚类问题.

文献[7]将混合属性数据分为有序属性和无序属性两个部分,并构造出双重近邻无向图,但未对混合属性数据聚类时距离度量做深入研究.文献[8]针对不同维度的向量间的无序属性向量集的距离度量展开研究.文献[9]针对机械系统故障诊断中对先验知识利用不足和在高维特征空间中诊断难的问题,提出一种基于成对约束和通过约束准则构造核函数的半监督谱核聚类方法.本文基于文献[7−9]提出一种改进的半监督FCM 算法,首先对混合数据集的构成进行占优分析,确定占优因子α,对Jaccard距离做阈值改进,并将所获改进Jaccard距离作为无序属性距离度量函数,进而将所得混合属性距离度量函数应用于半监督FCM 聚类算法,得到改进的半监督FCM聚类算法.最后,在滚动轴承的不同类型单故障及复合故障数据的特征集中进行算法对比验证.

1 混合属性数据集及其距离度量

数据集由多个数据组成,每个数据对象由其属性进行描述.数据库中的每个对象以一元组的形式呈现,每一列代表一个属性.数据挖掘中常用的属性类型包括:1)数值属性,通常用实数值来描述,包括离散型数值和连续型数值之分;2)分类(标称)属性,每个不同的值代表某种类别、代码或状态,这些值无列别顺序;3)二值属性,取值只有1或0两种情况.通常1表示属性值非空,0表示属性值为空值;4)序数属性,属性取值的值域是一个有意义的序列.

以上为常规属性类型,当数据对象包含多种属性类型时,称为混合属性数据.本文将混合属性分为有序属性和无序属性两类,划分依据是此属性有无列别顺序.常规属性中,数值属性和序数属性属于有序属性,分类属性属于无序属性,若二值属性维数较多,则只能看成有序属性,若维数为1,则既能看成有序属性,亦能看成无序属性.

对于数据集的距离度量是进行有意义的聚类分析的前提,若存在某混合属性数据集表达式为Φ=,记混合属性特征向量Xi=(xi1,xi2,···,xil),前m维属性为有序属性,后l−m维为无序属性.对于上述混合属性距离度量而言,一般将混合属性数据按照属性类型进行划分,分别求解距离,再进行整体距离的加权求和.本节对有序属性和无序属性的距离度量进行简要阐述,并对无序属性的距离度量方法加以改进,最后给出本文提出的混合属性距离度量的完备性证明.

1.1 欧氏距离

本文在处理前m维有序属性的距离计算时,采用欧氏距离作为距离度量函数.在距离度量中,闵可夫斯基距离(Minkowski distance)是衡量数值点之间距离的一种非常常见的方法,计算公式为

其中,如果p→∞时,就是切比雪夫距离;p=1时,表示曼哈顿距离;p=2时,表示欧氏距离,即

可以看出,欧氏距离是两个向量相对应维度的运算,即欧氏距离适用于有序属性的计算.

1.2 Jaccard距离及其改进

对于后l−m维的无序属性,本文采用改进的Jaccard距离度量方法.

传统的Jaccard相似度常用于二值型数据的相似度计算.在数据挖掘中,经常将属性值二值化,通过计算Jaccard相似度,可以简单快速地得到两个对象的相似程度.记集合, 集合,则A和B的Jaccard相似系数定义为

相应的Jaccard距离定义为

其中,Jaccard相似系数反映了A和B集合的相交程度,值在[0,1]范围之内,若A和B不相交,则值为0.

广义Jaccard相似系数定义[10]为

可见,广义Jaccard相似系数虽然考虑向量中各维数值的大小,但是向量属性的排序对计算结果有一定的影响.因此,广义Jaccard相似系数处理无序属性集的效果不理想.

实际生活或生产环境下,传感设备所得数值存在一定的误差,本文对相似系数计算做了相应改进,引入相异度阈值系数ε修正属性数值的相似性判断,则相似性判断公式为

其中,p=m+1,m+2,···,l;q=m+1,m+2,···,l.即若向量A和B中存在两个属性值Xip和Xjq满足以上条件,则令

1.3 混合属性距离度量的完备性证明

有序属性部分距离度量采用欧氏距离,无序属性部分距离度量采用改进的Jaccard距离,则混合属性的距离表达式为

其中,x与y均为前m个有序属性以及l−m个无序属性组成的混合属性向量,1分别为 x 与y的前m个有序属性组成的向量,x2和y2分别为x与y的l−m个无序属性组成的集合,为了均衡非占优属性对数据对象整体相似性的影响,引入占优因子α[3],并针对本文算例取值0.6,若m/l>α,则特征向量集是数值占优数据集,则令β=0.4,若(l−m)/l>α,则特征向量集是分类占优数据集,则令β=0.6,若以上两个条件均不满足,则特征向量集是均衡型混合属性数据集,令β=0.5.

距离定义需满足同一性、非负性、对称性和三角不等性,为了使证明过程更加清晰,记有x和y和z三个向量,为有序向量部分,维数为m,A和B和C为无序属性部分构成的集合,维数为l.

定理1.若,且有,则(M为集合A和B考虑相异度阈值情况下,求交集所得的集合).

证明.若,则.向量A中已有p个元素属于C,k−p个元素不属于C,及l−k个元素可能属于C.同理,B的情况亦然.易证,A和B中相异元素属于C的个数最大值为l−p,即

推论1.本文所提混合属性距离满足三角不等性.

证明.需证,即

将欧氏距离统一放置等式左侧,即

推论2.混合属性距离度量满足距离度量准则.

证明.

满足到自己距离为零;

满足非负性;

3)d(x,y)=d(y,x),满足对称性;

4)由推论1可知,满足三角不等性.故混合属性距离度量满足距离度量准则.□

2 改进半监督FCM算法

2.1 FCM算法

FCM算法是根据不同样本点对聚类中心的隶属度不同来划分聚类的算法,它的隶属度取值由K-means聚类算法的{0,1},拓展至[0,1],即每个样本的类别隶属度为一个实数区间,相较而言,更具灵活性.

记Xi(i=1,2,···,n)中每一个向量Xi均有l维属性.根据选定的相似性度量函数,划分为c个聚类中心称为簇Vk,其中k=1,2,···,c.那么n个样本分别属于c个类别的隶属度矩阵记为U=[uik]c×n(模糊划分矩阵),其中uik(1≤i≤n,1≤k≤c)表示第i个样本Xi属于第k个类别的隶属度,应满足以下约束条件:

FCM算法的目标函数定义为

聚类中心的迭代公式为

以下为传统FCM的算法描述.

算法1.FCM算法

输入.待聚类样本.

输出.聚类中心及隶属度矩阵.

步骤1.给定需要划分的聚类中心数目c及相关参数;

步骤2.初始化隶属度矩阵U;

步骤3.根据公式计算c个聚类中心;

步骤4.计算出各个样本点到聚类中心的距离矩阵,并得到新的隶属度矩阵(若分母为0,则令uik=1);

步骤5.计算出目标函数值J.如果小于给定的阈值δ或与上次循环产生的目标函数值之差小于阈值δ则算法停止.否则,返回步骤2.

2.2 半监督FCM算法的改进

多数情况下的聚类集成算法建立在非监督方式之上,由于缺乏对先验知识的利用,致使聚类集成的准确性、鲁棒性和稳定性有所降低.

半监督模糊聚类突破了有监督和无监督模糊聚类中只考虑一种样本类型的局限,整体考虑数据集中的所有样本,提高了未知样本的使用率,从而改善了聚类效果.它的核心思想是利用监督数据,得到初始的聚类划分,然后利用得到的初始的聚类划分对未标记的数据进行约束指导[11].

本文将改进距离度量公式与半监督模糊聚类算法结合,得到改进的半监督FCM算法目标函数.

当s为奇数时,令

则

当s为偶数时,令

则

定义R(·)为将集合转换成一维行向量的运算,则,由于无序属性部分顺序无关,故的形式并不唯一,取其中一种形式,与有序属性部分聚类中心联合,最终求得.即改进的FCM算法中的聚类中心每次更新是由有序部分更新结果与无序部分更新结果共同构成.

以下为改进半监督FCM的算法描述.

算法2.改进的半监督FCM算法

输入.标记样本和未标记样本.

输出.聚类中心及未标记样本的隶属度矩阵.

步骤1.将标记样本和未标记样本进行筛选及降维预处理;

步骤2.利用FCM算法对标记样本进行预聚类;

步骤3.利用步骤2所得聚类中心对未标记样本做如下操作:采用改进距离度量函数计算未标记样本与聚类中心的距离,选择最靠近第i个聚类中心的未标记样本并贴上标签i,加入到标记样本中,并从未标记样本中删除;

步骤4.计算各个样本点到聚类中心的距离矩阵,并得到新的隶属度矩阵(若分母为0,则令uik=1);

步骤5.对最新获得的标记样本进行重聚类处理,计算目标函数值J.迭代至J小于给定的阈值δ或与上次循环产生的目标函数值之差小于阈值δ则算法停止.

3 仿真与分析

3.1 训练数据及验证数据的获取

本文所提算法主要针对包含有序和无序属性的混合属性数据集的聚类方法,为验证聚类算法的聚类精度,选用滚动轴承多种工况下的振动信号进行预处理和时频分析[12],并提取相应特征值构成训练数据和测试数据.

在轴承运行过程中,当内滚道发生剥落、裂纹、点蚀等损伤时,会产生一定频率的冲击振动,轴承外圈亦是同理,当滚动体产生损伤时,缺陷部位通过内圈或外圈滚道表面时,也会产生一定频率的冲击振动,现实中的滚动轴承的振动信号,主要通过安放在轴承座上的传感器测取设备获得,测得的信号是包含若干成分的混合.损伤故障大致可以分为两类:1)可以从转速和轴承的几何尺寸求得的通过频率,又称为故障特征频率.2)由于损伤冲击作用诱发的轴承系统的高频固有振动成分.若不考虑机械系统的非线性因素,近似构造出包含轴系和轴承的复合振动信号数学模型如下[13]:

其中,x(t)为加速度传感器采集的轴承座综合振动信号;x1(t)为与轴转频和轴承各元件通过频率相关的低频振动信号;ai为与轴转频相关的第i个低频振动信号分量的幅值;fi为频率;bj为滚动轴承故障隐患所引起的第j个低频振动信号分量的幅值;fj为滚动轴承元件的故障通过频率;x2(t)为以固有频率为载波频率,以滚动轴承通过频率为调制频率的调制信号;bk,j(t)为滚动轴承第k个调制信号,其调制频率为滚动轴承的各元件的通过频率;fk,gz为载波频率,是各零部件的固有频率;n(t)为x(t)中的噪声分量.

由某故障轴承的结构参数计算得到转速为1800r/min下的故障特征频率,可知,

相应地,各故障特征频率如表1所示.

表1 轴承各部件故障特征频率(Hz)Table 1 Characteristic frequency of rolling bearings(Hz)

将以上四种故障频率分别作为单故障振动信号的频率,忽略机械系统的非线性因素,近似构造出包含轴系和轴承的复合振动信号.

对复合振动信号进行特征提取,并构造混合属性向量,特征向量中有序属性部分包含最大值、最小值、峭度值、均值标准差5个指标,无序属性部分的构建主要是通过对复合振动信号进行经验模态分解(Empirical mode decomposition,EMD)[14],得到若干本征模函数(Intrinsic mode function,IMF)分量,再进行希尔伯特变换,进而求得特征频率值而获得.对于构造的外圈故障和滚动体故障复合振动信号进行EMD分解,最终得到8组本征模函数分量及对应频谱图,如图1所示.

3.2 测试实验1

实验部分选取五种故障(各取50组),进行聚类处理及分析.五种故障包括内圈故障、外圈故障、滚动体故障三个单故障及内外圈、滚动体外圈两种复合故障.聚类结果采用聚类精度均值来衡量,即每个簇中占比最高的对象所占的比例的平均值.

轴承的混合属性特征向量中有序属性与无序属性数值差异性较大,图2(a)和图2(b)分别为未标准化数据及标准化数据的预聚类结果.

从图2可以看出,未标准化数据对预聚类的正确率影响较明显,标准化数据预聚类正确率更高.预聚类所得聚类中心对最终聚类结果正确率有直接影响,故本文预聚类前对于原始数据做标准化的预处理.

图3(a)为FCM重聚类结果,相同分组用实线相连,纵坐标为数据点实际组别,聚类实验结果用实线相连.可以看出传统半监督FCM聚类算法单故障聚类结果较理想,聚类不纯度较低,但耦合故障聚类的实验结果与实际组别交叉严重,聚类结果不理想.图3(b)为改进FCM 重聚类结果图,与传统半监督FCM 聚类结果相比,耦合故障的聚类精度明显提高,详细结果如表2所示.图4(a)和图4(b)为两种聚类算法聚类结果的柱状统计图(柱状图坐标分别为:x:实验结果组别号,y:实际组别号,z:统计数).

表2 聚类精度对比表Table 2 Comparison table of clustering accuracy

图1 复合振动信号EMD分解Fig.1 The EMD decomposition of complex vibration signals

图2 有标签数据预聚类Fig.2 Pre-clustering of the label data

图3 重聚类结果Fig.3 Re-clustering result

图4 重聚类结果柱状统计图Fig.4 Bar chart of re-clustering result

经计算可得,欧氏距离作为距离度量函数所得试验结果的聚类精度为0.848,改进的混合属性距离度量函数所得试验结果的聚类精度为0.94.

表2为FCM聚类算法改进前及改进后在单故障及复合故障聚类中的精度对比.从表2可以看出,在本实验部分,复合故障之间的干扰对传统FCM聚类精度有较大影响,改进的混合属性距离作为距离度量函数在耦合故障诊断方面具有显著优势.

3.3 测试实验2

实验选取4组单故障及6组耦合故障的特征数据集(每组50个向量)进行聚类处理,此时故障类型较多,复合故障之间干扰较强,传统FCM的聚类精度急剧下降,实验结果部分添加了混合属性聚类的K-prototypes方法作为对比.

重聚类结果散点图如图5所示,图5(a)为传统半监督FCM聚类的结果,图5(b)为K-prototypes聚类的结果,图5(c)为改进半监督FCM聚类的结果,纵坐标代表类别,试验数据共有10种故障,每种故障50组数据,并分别加上类别属性编号1～10,故图中横坐标1～50,51～100,···,451～500的实际类别应该依次对应1～10类,图中的散点分布为聚类方法所得的结果,图5(a)图中横坐标1～50的区间,有若干点纵坐标为7,横坐标300～350的区间,有若干点纵坐标为9,这些都是实际结果与实验结果不相符的情况.三种聚类算法的柱状统计图如图6所示.

图5 重聚类结果散点图Fig.5 Scatter diagram of re-clustering result

由正确率柱状图对比可知,当故障类型较多时,改进FCM 重聚类的聚类效果最好,K-prototypes次之,传统FCM重聚类的聚类效果较差,三种算法的聚类精度如表3所示.

表3 三种算法聚类精度对比表Table 3 Comparison table of clustering accuracy by three algorithms

表4为在改进FCM中不同相异度阈值ε下的聚类精度对比表.

表4 不同ε值下聚类精度对比表Table 4 Comparison table of clustering accuracy by differentε

图6 重聚类结果柱状统计图Fig.6 Bar chart of re-clustering result

考虑到噪音对低频信号有较大干扰,对4,7,8,9故障聚类结果进行分析,并对无序属性部分距离度量计算时的相异度阈值ε采用自适应阈值调整,自适应阈值调整公式如下:

由表4可知,ε=0.12时,聚类效果最好,因此基准值ε0取0.12,在特定区间内,相异度阈值越高则低频信号聚类精度越高,超过一定区间则会导致高频信号的错归类,进而影响聚类精度.根据式(6),结合本文实验算例,可知最易错归类的相异度阈值为0.125,故乘数因子γ取值0.005.式中fmax取值163.2,f为计算Jaccard距离的两个数的平均值.根据以上参数设置,得到最终结果如图7和图8所示.

图7 改进FCM自适应阈值调整后重聚类结果Fig.7 Re-clustering result by improved FCM algorithm after adaptive threshold

图8 改进FCM自适应阈值调整后重聚类结果柱状统计图Fig.8 Bar chart of re-clustering result by improved FCM algorithm after adaptive threshold

将图8与图6(c)对比,可知混合属性距离度量公式进行自适应阈值调整后,聚类精度进一步提升,由聚类精度计算公式求得,聚类精度提升至0.912.

4 结束语

本文提出一种基于改进Jaccard距离的混合属性距离度量方法,并运用于半监督FCM 聚类算法中,得到改进的半监督FCM算法,将在数值属性数据集的聚类方法扩展到了混合属性数据集的聚类问题中.通过对聚类算法的聚类精度这一指标值进行比较,证明了改进的半监督FCM 算法在聚类效果方面有了显著提升,并得到如下结论.

1)传统半监督FCM算法将样本不同特征量赋予相同的权重,忽略了不同属性特征量本身的相异性,K-prototypes算法作为混合属性聚类算法,对分类属性采用匹配差异度的距离度量方法,但是和广义的Jaccard距离有相同的弊端,即向量维度对计算结果有很大影响,处理含无序属性的混合属性数据集时,精度较低.改进半监督FCM 聚类在处理含无序属性的混合属性数据集的聚类问题时,采用欧氏距离与改进的Jaccard相结合的距离度量方式,聚类精度明显优于传统的半监督FCM 聚类和K-prototypes聚类.

2)当聚类中心较多时(对应试验中故障类型较多),对于改进半监督FCM,相异度阈值ε可采用自适应阈值调整,即对于无序属性部分自适应改变ε的值,聚类精度得到提高.

半监督聚类的标记样本数据必须满足每个簇都至少有一个样本被标记出,且初始样本数据对聚类结果影响较大.换而言之,半监督聚类算法是建立在对标记样本完全信任的基础上的.因此,如何提高算法对于不均衡数据集的聚类精度问题需要进一步研究.另外,将轨迹坐标值作为无序属性分量,并将本文提出算法与时间翘曲距离结合,对轴心轨迹进行相似性判断并聚类,也是下一步工作的重点.