史曼曼 宋朝炀 张景祥�k
收稿日期:2023-06-04;修回日期:2023-07-26 基金项目:国家自然科学基金资助项目(62176105)
作者简介:史曼曼(1998—),女,河南商丘人,硕士研究生,主要研究方向为人工智能和模式识别;宋朝炀(1996—),男,江苏南京人,硕士研究生,主要研究方向为人工智能和模式识别;张景祥(1977—),男(通信作者),副教授,硕导,博士,主要研究方向为人工智能、模式识别和智能计算及应用(zhangjingxiang@jiangnan.edu.cn).
摘 要:为提升时间序列的聚类精度,提出一种融合优化可调Q因子小波变换的改进密度峰值聚类(improved density peaks clustering based on optimal tunable Q-factor wavelet transform,OTQWT-IDPC)算法,該算法利用可调Q因子小波变换的能量优化选择策略及改进粒子群优化算法确定的最佳Q因子分解时序信号,通过最优特征子带的能量、均值、标准差和模糊熵构建特征子空间,并采用主成分分析降低特征维度,以减少特征冗余。同时,考虑到距离较远而周围密集程度较大的K近邻样本对局部密度的贡献率,引入权重系数及K近邻重新定义DPC的局部密度,并利用共享最近邻描述样本间的相似性。在BONN癫痫脑电信号和CWRU滚动轴承数据集上进行对比实验,结果表明,该算法的聚类精度分别为95%、94%,且Jacarrd、FMI和F1值指标均优于其他对比算法,证明了OTQWT-IDPC算法的有效性。
关键词:密度峰值聚类算法;可调Q因子小波变换;粒子群优化算法;主成分分析
中图分类号:TP181 文献标志码:A
文章编号:1001-3695(2024)02-022-0466-07
doi:10.19734/j.issn.1001-3695.2023.06.0241
Improved density peaks clustering algorithm combining optimal tunable
Q-factor wavelet transform
Shi Manman,Song Chaoyang,Zhang Jingxiang
(School of Science,Jiangnan University,Wuxi Jiangsu 214122,China)
Abstract:In order to improve the accuracy of time series clustering,this paper proposed an improved density peak clustering algorithm based on optimal tunable Q-factor wavelet transform.The algorithm used energy optimization strategy of tunable Q-factor wavelet transform and the optimal Q-factor determined by improved particle swarm optimization algorithm to decompose the time series signal.Through the energy,mean,standard deviation and fuzzy entropy of the optimal characteristic sub-bands,the algorithm constructed the characteristic subspace.And it used principal component analysis to reduce feature dimensions to debase feature redundancy.At the same time,considering the contribution rates of K-nearest neighbor samples that are far away and have a higher degree of surrounding density to local density,it introduced weight coefficients and K-nearest neighbors to redefine the local density of DPC,and used shared nearest neighbors to describe the similarity between samples.OTQWT-IDPC algorithm was compared with its comparison algorithms using BONN epileptic EEG and CWRU rolling bearings datasets.The experimental results show that the accuracy of OTQWT-IDPC algorithm on BONN and CWRU are 94% and 92%.Its evaluation indicators such as Jacarrd,FMI and F1 are superior to other comparative algorithms,which proves the effectiveness.
Key words:density peaks clustering;tunable Q-factor wavelet transform;particle swarm optimization;principal component analysis
0 引言
聚类算法作为机器学习中的一种无监督学习算法,主要用于对无标签样本进行划分,在数据挖掘、图像处理和计算机视觉等领域应用广泛[1]。近年来,时间序列聚类逐渐成为研究热点,并已取得较为丰富的成果。张雄等人[2]结合小波包变换和Mean-Shift算法,有效识别了不同故障程度的滚动轴承信号;He等人[3]集成快速相似度度量和约束传播方法,提出新的半监督时间序列聚类框架,解决了半监督聚类在处理时间序列数据时效果不佳的问题;Li等人[4]引入分数阶相关和归一化形式创建了基于分数阶形状的距离,并结合时间序列平均算法确定聚类中心,提升了聚类精度;Gao等人[5] 提出一种自适应截断距离的密度峰值聚类算法,并通过短时傅里叶变换和贝叶斯分解提取EEG信号特征,提高了癫痫检测的准确率;DUrso等人[6]结合小波变换、区间数据分析和模糊C-Medoids聚類算法对间隔时间序列进行聚类,获得了较好的聚类性能;Bahramlou等人[7]提出并行和分布式的集成聚类和时间序列数据预测框架,最终获得的聚类精度优于单一聚类算法。上述方法虽取得一定成果,但受噪声影响较大,使得提取的特征不够精准且聚类效果不佳。
密度峰值聚类算法(density peaks clustering,DPC)能够快速找到任意形状数据的密度峰值[8],获得的聚类效果较好,在时间序列聚类中应用广泛。但由于DPC的样本局部密度未考虑类簇间密集程度的差异,且分配策略易产生连带错误,导致聚类效果不佳。针对DPC局部密度定义的缺陷,赵嘉等人[9]提出一种K近邻和加权相似性的密度峰值聚类算法(density peaks clustering algorithm with K-nearest neighbors and weighted similarity,DPC-KWS),该算法通过K近邻信息重新定义局部密度,调节了不同类簇样本间局部密度的大小;Zhang等人[10]提出基于平衡密度和连通性的新型DPC算法,通过平衡密度消除了不同簇之间的密度差异,更能体现样本的局部信息;杨震等人[11]结合加权K近邻的思想,重新计算样本局部密度,该局部密度能准确找到密度峰值,提高了算法的聚类精度。这些对局部密度的改进算法虽然在一定程度上提升了聚类效果,但仍难以更准确地找到密度峰值。
针对DPC分配策略设计的不足,陈蔚昌等人[12]提出一种近邻优化密度峰值聚类(density peaks clustering with nearest neighbor optimization for data with uneven density distribution,DPC-NN)算法,该算法引入共享近邻计算样本间的相似性,并通过构造相似矩阵使同一类簇样本联系更紧密,避免错误分配样本;Qin等人[13]针对DPC分配策略引起的连锁反应,提出基于标签传播和相似度度量的两步分配策略,该策略首先为靠近聚类中心的样本分配标签,其次根据与未分配样本距离最近的已标签数据,完成对剩余点的标签赋值,提升了算法的聚类性能;Sun等人[14]构造相互近邻度和相似度,并给出相似集、相似域、和预测集等,提出新的优化分配策略,获得了良好的聚类效果。上述改进算法在分配剩余样本时未考虑样本的真实分布,仍导致一些样本被分配错误。
时间序列数据随时间变化会产生噪声,如何有效地处理噪声对提升聚类效果十分关键。傅里叶变换[15]、短时傅里叶变换[16]和小波变换[17]等方法被广泛应用于处理信号噪声,但这些方法在选择窗函数宽度或小波基函数上仍是一个难题。可调Q因子小波变换(tunable Q-factor wavelet transform,TQWT)[18]通过调节品质因子Q匹配信号的振荡信息,并利用双通道滤波器对信号进行滤波,无须选择窗函数宽度和小波基函数,不仅有效地去除了噪声,还准确地提取了时序信号局部特征。TQWT的分解性能取决于品质因子Q等参数的选取,为了合理地确定分解参数,Khare等人[19]通过优化算法使分解目标函数的均方误差最小,自适应地选择分解参数;Zhang等人[20]利用多种群量子遗传算法对品质因子Q进行优化,有效分离和提取了时序信号;张乐等人[21]通过贝叶斯优化算法在TQWT参数空间内求取熵—峭综合目标函数最优解,更准确地提取了轴承故障信号特征。上述方法虽然在一定程度上有效提取了时序信号局部特征,但在参数优化过程中存在耗费资源、稳定性差和易产生特征冗余等问题。
针对上述问题,本文提出一种融合优化可调Q因子小波变换的改进密度峰值聚类(improved density peaks clustering based on optimal tunable Q-factor wavelet transform,OTQWT-IDPC)算法。OTQWT-IDPC算法结合改进粒子群优化算法构造新的TQWT参数优化策略,定义排列熵—峭度之比(PEK)指标,通过优化的分解参数构造Q因子小波变换,并以能量、均值、标准差和模糊熵表示最优子带特征,更准确地提取了时序信号局部特征;同时,通过引入权重系数,全面度量了距离较远而周围密集程度较大的K近邻点对样本局部密度的贡献率,结合K近邻重新定义样本局部密度,并通过共享最近邻构造新的分配策略,更准确地找到了密度峰值,避免了DPC算法的分配连带错误问题,提升了时序信号的聚类精度。
1 相关知识
1.1 TQWT
时频分析方法将一维时域信号映射到二维时频域平面,全面反映了非平稳信号的时频联合特征,主要包括短时傅里叶变换(short time Fourier transform)和小波变换(wavelet transform,WT)等。
作为时频分析方法之一,可调Q因子小波变换(tunable Q-factor wavelet transform,TQWT)通过选取适合的品质因子Q、冗余率r以及分解层数J,匹配原信号的振荡成分,进而提取信号的振荡信息[18]。在原始信号X(n)的TQWT分解中,利用低通滤波器H0(w)和高通滤波器H1(w)进行滤波之后,再对信号进行尺度缩放,H0(w)和H1(w)的公式分别为
H0(ω)=1|ω|≤(1-β)π
θ(ω+(β-1)πα+β-1)(1-β)π<|ω|<απ
0απ≤|ω|≤π(1)
H1(ω)=0|ω|≤(1-β)π
θ(απ-ωα+β-1)(1-β)π<|ω|<απ
1απ≤|ω|≤π(2)
其中:α和β分別为低通尺度参数和高通尺度参数,满足0<α<1,0<β≤1,且α+β>1。θ(ω)为频率响应函数,公式为:θ(ω)=0.5(1+cos ω)2-cos ω,|ω|≤π,满足θ2(ω)+θ2(π-ω)=1。
TQWT中的品质因子Q定义为中心频率ωc与带宽BW的比值,且与尺度参数β有关,公式为
Q=ωcBW=2-ββ(3)
冗余率r由尺度参数α和β定义,公式为
r=β1-α(4)
文献[18]定义了最大分解层数Jmax,公式为
Jmax=lnNβ8ln1α」=lnN4(Q+1)lnQ+1Q+1-2r」(5)
其中:“」”为向下取整函数;N为分析信号的长度。
1.2 DPC算法
密度峰值聚类算法(density peaks clustering,DPC)算法通过寻找密度峰值确定聚类中心,并依据分配策略对剩余样本进行归类[8]。DPC算法存在两个假设:a)类簇中心被类簇内其他低密度数据点包围;b)类簇中心之间的距离相对较远。
DPC算法以局部密度ρi和相对距离δi为基础。局部密度ρi存在截断核和高斯核两种定义形式,截断核的局部密度计算公式为
ρi=∑i≠jχ(dij-dc),χ(x)=1x<0
0x≥0(6)
高斯核的局部密度计算公式为
ρi=∑i≠jexp[-(dijdc)2](7)
其中:dij为样本点i和j之间的欧氏距离;dc为样本点i的邻域截断距离。
相对距离δi为样本点i与其他密度更高点的最小距离,定义如下:
δi=min(dij)ρi<ρj
max(dij)ρi=max(ρ)(8)
密度峰值通常为局部密度ρi较高且相对距离δi较大的样本点。DPC算法定义决策值γi较大的样本为密度峰值,公式为:γi=ρi×δi。
密度峰值确定后,将剩余样本分配给与其距离最近且局部密度最高的类簇,从而完成聚类。
2 OTQWT-IDPC算法
2.1 OTQWT-IDPC算法框架
为了提升时序信号的聚类精度,本文首先提出一种优化可调Q因子小波变换,该方法结合改进粒子群优化算法确定最佳的TQWT分解参数,并通过最优特征子带的能量、均值、标准差和模糊熵构建特征子空间;其次,为减少特征冗余,采用主成分分析对特征子空间进行降维;最后,为了提高算法的聚类效果,本文提出一种改进的DPC算法。OTQWT-IDPC算法具体流程如图1所示。
2.2 OTQWT
TQWT的分解性能依赖于参数Q、r、J的选择,以BONN时间序列数据为例,对同一信号在不同参数下进行TQWT分解,获得的低频子带信号如图2所示。可以看出,Q值越大,子带信号的波形越平稳;r值越大,子带信号的波形越平稳,且信号长度也随之增大;J值越大,子带信号的波形越振荡,信号长度随之减小。因此,为更好地提取时序信号局部特征,提升不同簇的聚类效果,需确定适合的分解参数。使用遍历方法求解Q、r、J存在耗时长且对小波基函数依赖较大等问题,基于文献[22]提出的改进粒子群优化算法(LPSPSO),本文构造了一种新的TQWT参数优化策略,即优化可调Q因子小波变换(optimal tunable Q-factor wavelet transform,OTQWT)。OTQWT既能更准确地提取时序信号局部特征,又兼顾了LPSPSO算法的时间复杂度低、收敛速度快以及不易陷入局部最优等优势。
LPSPSO通过构造Lévy flight、幂函数、Singer映射等,自适应地调整惯性权重ω和学习因子c1、c2等参数,解决了粒子群优化算法(particle swarm optimization,PSO)存在的收敛速度慢、稳定性低以及易陷入局部最优等问题,更新公式如下:
ω(t)=ωmax+ωmin2+x(-ttmax)(ωmax-ωmin)2(9)
c1(t)=a+e(-ttmax)
c2(t)=b-c1(t)(10)
γ2=xk+1=μ(7.86xk-23.3x2k+28.75x3k-13.3x4k)(11)
其中:ωmax和ωmin分别为惯性权重的最大值和最小值,根据经验,取ωmax=0.95,ωmin=0.40;tmax为最大迭代次数;t为当前迭代次数;a=1.25,b=2.50,μ为0.9~1.08的参数。
因此,参数自适应更新后粒子的速度vis和位置xis更新公式为
vt+1is=ω(t)vtis+c1(t)μ1(ptis-xtis)+c2(t)μ2(ptgs-xtis)(12)
xt+1is=xt+1is+vt+1is(13)
其中:xti=[xti1,xti2,xti3,…,xtiS],且xtiS∈[LS,HS],LS和HS分别为搜索空间S维的上限和下限。vti=[vti1,vti2,vti3,…,vtiS],vtiS∈[vtmin,S,vtmax,S],vtmin,S和vtmax,S分别为粒子在S维的最小速度和最大速度。pti和ptg分别为粒子的个体最优解和全局最优解,pti=[pti1,pti2,pti3,…,ptiS],ptg=[ptg1,ptg2,ptg3,…,ptgS],1≤s≤S且1≤i≤N。
OTQWT在利用LPSPSO优化(Q,r,J)的过程中需建立合适的适应度函数f(x)。基于排列熵[23]具有较强的抗噪声能力和鲁棒性,且峭度对信号的冲击成分及其敏感,本文构造一种评估时序信号特征显著性的排列熵和峭度之比(PEK)指标,公式为
PEKj=PEjKurtj(14)
其中:PEj表示第j层子带信号的排列熵,公式为PEj=-1Nj∑Nji=1pjiln pji,Nj为第j层子带信号长度,pji为第j层子带的第i个小波系数的概率,满足∑Nji=1pji=1;Kurtj表示第j层子带信号的峭度,公式为Kurtj=1Nj∑Nji=1[(W(j)i-μj)4]σ4j,W(j)i为第j层子带信号的第i个小波系数,μj和σj分别为第j层子带信号的均值和方差。
PEK的值越小,时序信号的冲击特性越显著,据此建立的适应度函数f(x)为
f(x)=minJ+1j=1(PEK(x)j)(15)
其中:x为(Q,r,J)定义的粒子种群;PEK(x)j表示在参数x作用下第j层子带信号的排列熵和峭度之比。适应度函数f(x)以多尺度子带信号的最小PEK值来评估x的性能。
2.3 IDPC算法
针对DPC算法的不足,本文提出一种改进的密度峰值聚类(improved density peaks clustering,IDPC)算法,该算法引入权重系数和K近邻重新定义样本局部密度,并结合共享最近邻构造了考虑周围环境的相似度,具体如下。
2.3.1 基于加权K近邻的样本局部密度
共享最近邻(shared nearest neighbors,SNN)表示样本点i的K个最近邻样本和样本点j的K个最近邻样本的交集,公式为
SNN(i,j)=KNN(i)∩KNN(j)(16)
假设样本点j为样本点i的K近邻点,规定样本点j的权重系数为ωj,公式为
ωj=|SNN(i,j)||KNN(i)|(17)
则局部密度ρi的定义如下:
ρi=exp(-∑j=KNN(i)ωjdij∑j=KNN(i) ∑g=KNN(j)ωjdgj)(18)
其中:|KNN(i)|为样本点i的K个最近邻集合的元素个数;|SNN(i,j)|为样本点i和j的共享最近邻集合的元素个数;∑j=KNN(i)ωjdij表示样本点i与其K近邻点j的加权距离之和;∑j=KNN(i) ∑g=KNN(j)ωjdgj为样本点i的加权离群程度之和,值越大,说明样本点i的周围数据分布越密集,局部密度越大。
IDPC算法的局部密度优势在于:提升了距离较远而周围密集程度较大的K近邻点对样本局部密度的贡献率,且能够调节不同密集程度类簇间局部密度的大小,更准确地找到密度峰值。
2.3.2 基于共享最近邻的分配策略
IDPC算法构造了仅考虑欧氏距离的相似度λ(i,j),并结合共享最近邻定义考虑样本周围环境影响的相似度sim(i,j),公式为
λ(i,j)=11+ed2ijj∈KNN(i)
0others(19)
sim(i,j)=|SNN(i,j)|(∑g∈{KNN(i),i}λgjK1+∑g∈{KNN(j),j}λgiK2)(20)
其中:K1表示{KNN(i),i}集合的元素个数;K2表示{KNN(j),j}集合的元素个数;∑g∈{KNN(i),i}λgj表示样本点i及其K近邻样本与样本点j的相似度之和;∑g∈{KNN(j),j}λgi表示样本点j及其K近邻样本与样本点i的相似度之和。
相似度sim(i,j)考虑了样本间的共享近邻个数及数据分布特性,样本间共享样本越多,相似度越高。与DPC算法相比,IDPC算法更能准确地将剩余样本归类,提高聚类的精度。
根据式(16)~(18)计算时序信号特征样本的密度峰值,确定聚类中心,并依据式(19)和(20)计算相似度sim(i,j),将剩余样本分配给与其相似度最高的聚类中心所在的簇。
为验证IDPC算法的优势,分别在Spiral、Twomoons和ThreeCircles人工数据集上利用DPC、DPC-KWS[9]和IDPC算法进行聚类,结果如图3所示。可以看出,DPC算法确定的密度峰值在同一类簇内,聚类效果较差;DPC-KWS算法确定的密度峰值虽在不同一类簇,但其分配策略仍导致一些数据点被划分错误;IDPC算法寻找的聚类中心不在同一类簇,且非聚类中心数据点被正确归类。与DPC和DPC-KWS等其他改进算法相比,IDPC算法通过引入权重系数ωj提高了距离较远而周围密集程度较大的K近邻点对样本局部密度的贡献率,更能准确地找到密度峰值,将构造的λ(i,j)与共享最近邻相结合定义相似度sim(i,j),更准确地描述了样本间的相似性。
2.3.3 时间复杂度分析
DPC算法的时间复杂度主要由计算样本间距离矩阵的复杂度、计算每个样本局部密度的复杂度和计算每个样本相对距离的复杂度组成。每个部分的时间复杂度均为O(n2),所以总的时间复杂度为O(n2)。本文IDPC算法的时间复杂度主要由以下四个部分组成:a)计算每个样本间距离矩阵的复杂度O(n2);b)计算每个样本相对局部密度的复杂度O(n2);c)计算每个样本相对距离的复杂度O(n2);d)计算样本间相似度的复杂度O(n2)。因此,IDPC算法的时间复杂度为O(n2),与DPC算法的时间复杂度相同。
2.4 OTQWT-IDPC算法流程
根據2.1~2.3节的描述,本文提出的OTQWT-IDPC算法流程如下:
算法 OTQWT-IDPC
输入:原始数据集,最优近邻数K。
输出:最优粒子xbest=(Qbest,rbest,Jbest)及聚类结果C。
a)去除数据集中的异常数据,并进行切割处理,获得实验样本Y=(y1,y2,…,yj,…,yn);
b)参数初始化:最大迭代次数λmax,种群规模N,迭代次数λ=1;
c)初始化粒子种群xi=(Qi,ri,Ji),i=1,2,…,10的速度和位置;
d)根据式(14)和(15)计算各粒子的适应度值;
e)根据式(9)~(13)及文献[22]更新粒子的速度和位置;
f)更新适应度值及最优粒子;
g)判断是否满足迭代结束条件,若λ<λmax,则跳转到d),否则迭代结束,输出最优粒子xbest=(Qbest,rbest,Jbest);
h)以Qbest、rbest和Jbest对yj进行TQWT分解,获得Jbest+1层子带信号;
i)计算最优子带信号的能量、均值、标准差和模糊熵,构建特征子空间M1=(Mjy1,Mjj2,…,Mjjn),j=1,2,3,4;
j)通过主成分分析对M1进行降维,选择贡献率高的两个主成分构造特征子空间M2=(Mjy1,Mjy2,…,Mjyn),j=1,2;
k)根据式(16)~(18)计算密度峰值;
l)根据式(19)和(20)计算相似度;
m)输出聚类结果C。
3 实验分析
3.1 实验数据与评价指标
为验证OTQWT-IDPC算法的有效性,本节利用BONN癫痫脑电信号和CWRU滚动轴承数据集进行实验。BONN数据由5个健康人和5个癫痫患者的脑电信号数据组成,包含健康人数据子集Z和O,癫痫患者数据子集N、F和S,每个子集包含100个数据片段,每个数据片段包含4 097个数据点,时长为23.6 s,采样频率為173.61 Hz。CWRU数据包含四类故障程度样本,故障尺寸分别为0.007、0.014、0.021和0.028英寸,所使用的驱动端轴承为SKF6205,风扇端轴承为SKF6203,采样频率为12 kHz,电机转速为1 797 r/min。本文选用BONN中的Z和S子集数据,CWRU中的0.007和0.028英寸故障程度数据,在每类数据中各取50组作为实验样本,其中每组样本包含1 000个数据点。
为说明OTQWT-IDPC算法的有效性,本文采用正确率(accuracy,Acc)、Jacarrd系数(Jc)、FMI指数(Fowlkes Mallows index,FMI)和F1-score值(F1值)评估算法的聚类性能。
假设数据集X的一个聚类结果为M={M1,M2,…,Mm},且X已知地划分为N={N1,N2,…,Nm},则Acc、Jc、FMI和F1值的公式分别为
Acc=TP+TNTP+FP+FN+TN(21)
Jc=TPTP+FP+FN(22)
FMI=TPTP+FP·TPTP+FN(23)
F1=2×precision×recallprecision+recall(24)
其中:TP代表两个样本在M和N中均为同一簇的数量;FP代表两个样本在M中属于同一簇,但在N中不同簇的数量;FN代表两个样本在M中不同簇,而在N中属于同一簇的数量;TN代表两个样本在M和N中均为不同簇的数量;precision表示准确率;recall表示召回率,公式分别为presicion=TPTP+FP,recall=TPTP+FN。Acc、Jc、FMI和F1的值均在[0,1],值越大,说明聚类结果与真实的分类越相近,聚类效果越好。
3.2 实验过程与结果分析
OTQWT将TQWT参数作为三维目标搜索空间中的N个粒子群落,即x=(Q,r,J),设置目标搜索空间为[1,20]×[1,20]×[1,Jmax],初始粒子种群为:x={x1,x2,…,xN},N=10,初始速度分量为三维空间[-2,2]×[-2,2]×[-2,2]内的随机向量,最大迭代次数λmax=100。首先依据式(14)和(15)计算每个粒子的适应度值,更新个体最优粒子和全局最优粒子;然后根据式(9)~(13)以及文献[22]更新粒子的位置和速度;最后,当迭代次数λ>λmax时终止循环,并输出此时的最优解xbest。TQWT参数优化前后的结果如表1所示。
依据表1中优化后的分解参数构造可调Q因子小波后,可获得多尺度的子带信号,为使提取到的特征信息更清晰、质量更好,需选择最优的子带信号构造特征。文献[24]通过峭度和平滑指标系数构造了一种最优特征子带准则,可用来确定TQWT分解获得的最优子带,定义如下:
KSR(j)=Kurt(j)SI(j)(25)
jopt=argmaxjKSR(j) j=1,2,…,Ja+1(26)
其中:Kurt(j)和SI(j)分别表示第j层子带信号的峭度和平滑指标系数;jopt为最优特征子带;SI(j)的公式为SI(j)=exp[1Nj∑Nji=1ln|W(j)i|]/(1Nj∑Nji=1|W(j)i|)。
为进一步提取时序信号的信息,需对原始信号OTQWT分解得到的子带进行特征提取。本文选择能量、均值、标准差和熵表示子带信号特征,从时域和频域等多个维度挖掘信号的波动信息。熵通过计算时间序列波形的概率度量其复杂程度,本文选取稳定性高、抗噪性能强且灵活性大的模糊熵[25]表示子带特征。每组样本分别利用表1中的参数进行分解,最终获得的最优特征子带模糊熵结果如图4所示。可以看出,每类样本利用OTQWT分解获得的模糊熵之间差距更显著,说明OTQWT提取的时序信号局部特征更清晰,且质量更好,有助于提高聚类精度。因此,通过计算最优特征子带的能量、均值、标准差和模糊熵可构建特征子空间M1=(Mjy1,Mjy2,…,Mjy50),j=1,2,3,4。
在对子带信号进行特征提取时,特征之间可能会重叠,产生特征冗余。作为一种线性降维方法,主成分分析(principal component analysis,PCA)可以将高维数据映射到低维空间,且信息量不易丢失。因此,为降低特征冗余,本文利用PCA降低特征子空间M1的维度,并选取贡献率最高的两个主成分构建特征子空间M2=(Mjy1,Mjy2,…,Mjy50),j=1,2。
最后,利用IDPC算法M2进行聚类。通过十折交叉验证确定的最优近邻数K及聚类中心点如表2所示,并利用式(19)(20)计算剩余样本与c1、c2的相似度。最终得到的聚类结果如图5所示,OTQWT-IDPC算法各数据集上的聚类精度分别为95%和94%,聚类效果较好,验证了该算法的有效性。
3.3 TQWT参数优化策略比较分析
为了说明OTQWT-IDPC算法利用LPSPSO优化的TQWT参数具有优势,分别在BONN和CWRU数据集上进行实验,将PSO、文献[21]和LPSPSO优化算法进行比较,分解参数及聚类精度结果如表3所示。从表3可以看出,在BONN上,不同优化算法最终获得的正确率分别为92%、92%和95%。与对比优化算法相比,本文利用LPSPSO优化的TQWT参数使得算法的精度提高了3%,说明该优化策略提取的特征更清晰,能更准确地识别健康人和癫痫患者的EEG信号。在CWRU上,各优化算法最终获得的精度分别为90%、93%和94%,与对比优化方法相比,本文利用LPSPSO优化的TQWT参数使得聚类精度提高了1%~4%,说明该优化策略能更精准地检测不同故障程度的滚动轴承信号。不同TQWT参数优化策略在各数据集上最终得到的Jc、FMI和F1值如图6所示。可以看出,LPSPSO获得的Jc、FMI和F1值均优于对比优化算法,说明优化策略能够更精准地提取时序信号局部特征,特征质量更好,提升了时序信号的聚类精度。
3.4 聚类性能比较分析
为验证OTQWT-IDPC算法的可行性及有效性,将该算法中的OTQWT与WT和TQWT比较,IDPC与DPC、WKMM-DPC[26]、DPC-NN[12]和DPC-KWS[9]比较,各算法在不同数据集上的正确率如表4所示。实验结果分析,可以得到以下结论:
a)与WT和TQWT相比,OTQWT利用LPSPSO优化的TQWT参数构造小波变换,更精准地提取了时序信号局部特征,减少了特征冗余,且特征质量更好,使得OTQWT-IDPC算法的精度至少提高了2%。
b)利用WT和OTQWT提取时序信号特征,使得IDPC算法在BONN和CWRU上的精度均优于DPC、WKMM-DPC、DPC-NN和DPC-KWS算法;利用TQWT提取的特征使得IDPC与DPC-KWS算法在BONN上的精度均为93%,且均优于DPC、WKMM-DPC和DPC-NN算法。
c)与其他对比算法相比,OTQWT-IDPC算法的精度至少提高了1%,聚类性能均优于其他比较算法,能更准确地识别和检测时序信号,提高了时序信号的聚类精度。
OTQWT-IDPC与对比算法在各数据集上的Jc、FMI和F1值如表5所示,其中,各聚类算法的最优参数由“Arg-”表示。可以看出,OTQWT-IDPC算法在BONN上的指标值分别为0.942 8、0.967 1、0.966 8,在CWRU上的指标值分别为0.937 5、0.958 6、0.958 1。对同一聚类算法来说,利用OTQWT提取时序信号局部特征,最终获得的Jc、FMI和F1值均优于WT和TQWT。对同一特征提取方法来说,利用IDPC算法对特征样本进行聚类,最终获得的指标值均优于DPC、WKMM-DPC、DPC-NN和DPC-KWS算法。OTQWT-IDPC算法得到的Jc、FMI和F1值均优于其他对比算法,说明该算法的聚类性能均优于其他对比算法。OTQWT-IDPC算法不仅更准确地提取了时序信号局部特征,还提升了时序信号的聚类精度,证明了该算法的有效性。
4 结束语
为提升时间序列的聚类精度,本文提出了一种融合优化可调Q因子小波变换的改进密度峰值聚类算法(OTQWT-IDPC)。算法以TQWT的能量优化策略及改进的粒子群优化算法确定最佳Q因子,不仅较好地提取了时序信号局部特征,还通过引入权重系數和K近邻重新定义DPC的局部密度,准确地找到密度峰值,解决了DPC的分配连带错误问题,并在BONN和CWRU数据集上实验,证明了OTQWT-IDPC算法的可行性和有效性。稀疏时序信号的聚类问题一直是难点,由于稀疏信号的自身结构特性和数量关系,利用本文算法获得的各个特征差距较小,导致聚类效果不佳。针对这个问题,笔者拟引入稀疏信号重构算法进行处理,后续将在这方面进一步展开研究。
参考文献:
[1]高海燕,刘万金,黄恒君.鲁棒自适应对称非负矩阵分解聚类算法[J].计算机应用研究,2023,40(4):1024-1029.(Gao Haiyan,Liu Wanjin,Huang Hengjun.Robust self-adaptived symmetric nonnegative matrix factorization clustering algorithm[J].Application Research of Computers,2023,40(4):1024-1029.)
[2]张雄,张逸轩,张明,等.基于小波包散布熵与Mean-Shift概率密度估计的轴承故障识别方法研究[J].湖南大学学报:自然科学版,2021,48(8):133-140.(Zhang Xiong,Zhang Yixuan,Zhang Ming,et al.Research on bearing fault identification method based on wavelet packet dispersion entropy and Mean-Shift probability density estimation[J].Journal of Hunan University:Natural Science,2021,48(8):133-140.)
[3]He Guoliang,Pan Yanzhou,Xia Xuewen,et al.A fast semi-supervised clustering framework for large-scale time series data[J].IEEE Trans on Systems Man Cybernetics-Systems,2021,51(7):4201-4216.
[4]Li Yucheng,Shen Derong,Nie Tiezheng,et al.A new shape-based clustering algorithm for time series[J].Information Sciences,2022,609:411-428.
[5]Gao Tengfei,Chen Dan,Tang Yunbo,et al.Adaptive density peaks clustering:towards exploratory EEG analysis[J].Knowledge-Based Systems,2022,240:108123.
[6]DUrso P,De Giovanni L,Maharaj E A,et al.Wavelet-based fuzzy clustering of interval time series[J].International Journal of Approximate Reasoning,2023,152:136-159.
[7]Bahramlou A,Hashemi M R,Zali Z.Ensemble clustering and feature weighting in time series data[J].Journal of Supercomputing,2023,79(15):16442-16478.
[8]Rodriguez A,Laio A.Clustering by fast search and find of density peaks[J].Science,2014,344(6191):1492-1496.
[9]趙嘉,陈磊,吴润秀,等.K近邻和加权相似性的密度峰值聚类算法[J].控制理论与应用,2022,39(12):2349-2357.(Zhao Jia,Chen Lei,Wu Runxiu,et al.Density peaks clustering algorithm with K-nearest neighbors and weighted similarity[J].Control Theory and Applications,2022,39(12):2350-2357.)
[10]Zhang Qinghua,Dai Yongyang,Wang Guoyin.Density peaks clustering based on balance density and connectivity[J].Pattern Recognition,2023,134:109052.
[11]杨震,王红军.基于加权K近邻的改进密度峰值聚类算法[J].计算机应用研究,2020,37(3):667-671.(Yang Zhen,Wang Hongjun.Improved density peak clustering algorithm based on weighted K-nearest neighbor[J].Application Research of Computers,2020,37(3):667-671.
[12]陈蔚昌,赵嘉,肖人彬,等.面向密度分布不均数据的近邻优化密度峰值聚类算法[J/OL].控制与决策.(2022-12-07).http://doi.org/10.13195/j.kzyjc.2022.1151.(Chen Weichang,Zhao Jia,Xiao Renbin,et al.Density peaks clustering algorithm with nearest neighbor optimization for data with uneven density distribution[J/OL].Control and Decision.(2022-12-07).http://doi.org/10.13195/j.kzyjc.2022.1151.)
[13]Qin Xiaowei,Han Xiaoxia,Chu Junwen,et al.Density peaks clustering based on Jaccard similarity and label propagation[J].Cognitive Computation,2021,13(6):1609-1626.
[14]Sun Lin,Qin Xiaoying,Ding Weiping,et al.Nearest neighbors-based adaptive density peaks clustering with optimized allocation strategy[J].Neurocomputing,2022,473:159-181.
[15]Koc E,Koc A.Fractional Fourier transform in time series prediction[J].IEEE Signal Processing Letters,2023,29:2542-2546.
[16]Chen Zhibo,Xu Yiqun,Wang Hongbin,et al.Deep STFT-CNN for spectrum sensing in cognitive radio[J].IEEE Communications Letters,2021,25(3):864-868.
[17]Gosala B,Kapgate P D,Jain P,et al.Wavelet transforms for feature engineering in EEG data processing:an application on schizophrenia[J].Biomedical Signal Processing and Control,2023,85:104811.
[18]Selesnick I W.Wavelet transform with tunable Q-factor[J].IEEE Trans on Signal Processing,2011,59(8):3560-3575.
[19]Khare S K,Bajaj V.Optimized tunable Q wavelet transform based drowsiness detection from electroencephalogram signals[J].IRBM,2022,43(1):13-21.
[20]Zhang Shuo,Liu Zhiwen,He Sihai,et al.Improved double TQWT sparse representation using the MQGA algorithm and new norm for aviation bearing compound fault detection[J].Engineering Applications of Artificial Intelligence,2022,110:104741.
[21]张乐,彭先龙,朱华双.贝叶斯优化TQWT参数在轴承故障诊断中的应用[J/OL].机械科学与技术.(2022-10-13).http://doi.org/10.13433/j.cnki.1003-8728.20220270.(Zhang Le,Peng Xianlong,Zhu Huashuang.Bayesian optimization of TQWT parameters with application in bearing fault diagnosis[J/OL].Mechanical Science and Technology for Aerospace Engineering.(2022-10-13).http://doi.org/10.13433/j.cnki.1003-8728.20220270.)
[22]Qu Pengju,Du Feilong.Improved particle swarm optimization for laser cutting path planning[J].IEEE Access,2023,11:4574-4588.
[23]Yan Ruqiang,Liu Yongbin,Gao R X.Permutation entropy:a nonlinear statistical measure for status characterization of rotary machines[J].Mechanical Systems and Signal Processing,2012,29:474-484.
[24]孔運,王天杨,褚福磊.自适应TQWT滤波器算法及其在冲击特征提取中的应用[J].振动与冲击,2019,38(11):9-16,23.(Kong Yun,Wang Tianyang,Chu Fulei.Adaptive TQWT filter algorithm and its application in impact feature extraction[J].Journal of Vibration and Shock,2019,38(11):9-16,23.)
[25]Xia Meimei,Xu Zeshui.Entropy/cross entropy-based group decision making under intuitionistic fuzzy environment[J].Information Fusion,2012,13(1):31-47.
[26]陈磊,吴润秀,李沛武,等.加权K近邻和多簇合并的密度峰值聚类算法[J].计算机科学与探索,2022,16(9):2163-2176.(Chen Lei,Wu Runxiu,Li Peiwu,et al.Weighted K-nearest neighbors and multi-cluster merge density peaks clustering algorithm[J].Journal of Frontiers of Computer Science and Technology,2022,16(9):2163-2176.)