基于聚类的航天器多余物粒径特征识别方法

2022-03-11 03:26刘海江刘劲松
航天器环境工程 2022年1期
关键词:频域时域粒径

刘海江,张 恒,汪 乾,刘劲松

(同济大学 机械与能源工程学院,上海 201804)

0 引言

高精密航天器由上千个节点、上万个元器件组成,具有结构复杂、造价高、小批生产,运行稳定性与可靠性要求极高的特点。其生产制造包含诸多工艺环节;由于各类工艺技术的限制,在生产过程中难免引入多余物颗粒。当航天器在飞行过程中发生振动时,游离的多余物颗粒可能会破坏航天器内的精密机械结构或造成电子线路短路,影响航天器的正常工作,严重时可能造成航天器坠毁,导致无法挽回的损失。因此,需要准确判断航天器内多余物的存在情况。

焊锡粒多余物是高精密航天器内部多余物的主要来源,也是使产品丧失主要功能、造成潜在致命故障的一种多余物类型。实现对焊锡粒多余物粒径大小的识别,有助于细化评估多余物的危害度,指导改进生产环节,同时为航天器开舱排查工作提供数据参考。

对于颗粒粒径的检测方法较多,主要包括直接测量法、筛分法、显微镜法、数字图像分析法、沉降法、激光衍射法和声发射检测法等。前6 种方法均是在获得颗粒的基础上直接进行粒径检测。在不能直接获得颗粒的情况下,可利用声发射检测方法对颗粒粒径进行识别,其基本原理是通过对颗粒碰撞声信号的分析来实现颗粒粒径判别,具有高效性与实时性。戚乐在颗粒碰撞声信号分析中提出基于混沌理论的多余物粒径识别方法,通过选取3 种混沌特征量,应用聚类分析算法对4 种粒径多余物进行了粒径特征识别。

本文借鉴传统粒子碰撞噪声检测(PIND)方法,基于信号时域与频域分析技术,提取多个信号时域与频域特征参数,并通过Fisher 比量化各个特征参数对于粒径识别的贡献度,筛选出更有效的识别参量构建焊锡粒多余物粒径特征识别模型,进而提高识别准确率;提出基于均值聚类的多余物粒径识别模型,通过自适应类别数值的调整,利用欧氏距离进行多余物粒径等级的分类。从而实现混合粒径的识别,指导检测人员进行多余物排查、工艺过程改进和危害性评估,以满足航天器的高可靠性要求。

1 影响多余物粒径特征识别的因素

根据航天某院内部管控标准,考虑实际工程需要,将焊锡多余物粒径等级范围划分为4 档,见表1所列。

表1 多余物粒径等级划分Table 1 Grading of particle size for remnants

当航天器内存在多余物时,由于粒径区分度仅为mm 级,且在同一粒径等级下的多余物在航天器内的碰撞状态呈现随机性,将影响多余物粒径特征识别,主要体现在:

1)粒径区分度不足对焊锡多余物粒径特征参数选择的影响

粒径区分度不足会使得同种材质下不同粒径等级多余物碰撞所产生的声脉冲信号具有一定的相似性,因此较难选取能够有效区分多余物粒径等级的特征参数;同时,鉴于信号能量在频域的分布变化有着较强的一致性,应更多考虑信号的其他时域和频域特征信息。

2)多余物随机碰撞产生的特征参数类间交叉对识别模型构建的影响

在实际试验过程中,不同粒径多余物由于碰撞速度、碰撞位置的不同,可能使相邻粒径等级的脉冲信号存在特征参数交叉;且4 个等级的粒径尺寸之间具有连续性,故多余物随机碰撞可能给相邻粒径等级的识别带来特征参数类间交叉问题,降低对单个多余物脉冲粒径分类的准确率。因此,需要设计一种可综合每个多余物脉冲特征参数的粒径识别模型。

2 多余物粒径识别方案构建

根据某航天制造厂实际要求,单个多余物总体识别准确率应>80%,混合多余物总体识别准确率应>70%。针对第1 章所述影响多余物粒径特征识别的2 个主要因素,我们提出一套针对多余物粒径特征参数选择与识别的方案,具体如下:

1)选取能够有效区分粒径的特征参数

从脉冲信号的时域与频域分析出发,通过对信号进行多层面分析,提取出多个可以较全面描述脉冲时域与频域特征的参数。以波形的幅值变化、波形分布情况反映信号时域特性,以频谱峰值频率、频谱质心与频谱分布情况反映信号频域特性,综合二者即可构建初始粒径特征参数向量。

2)基于Fisher 比的粒径特征参数筛选

通过有监督的特征筛选方式对每个特征对粒径区分的能力大小进行度量。Fisher 比是用于衡量特征向量各维分量有效性的参数,基于Fisher 比的特征分析方法可得到每个时域与频域特征对粒径区分能力的贡献大小,再按照贡献率从大到小的顺序选取贡献率之和超过90%的特征作为粒径识别模型的输入特征参数,实现特征筛选。

3)基于均值聚类算法构建多余物粒径识别模型

筛选出多余物粒径识别特征参数后,根据多余物在航天器内部的随机碰撞特性,基于同一粒径等级下的多余物粒径特征参数在多次试验中应符合正态分布的假设,结合一个信号中的所有焊锡粒脉冲的综合特征量进行分析后确定粒径等级范围,从而弱化特征参数类间交叉对粒径识别的影响。

为充分利用每一个多余物在反映粒径信息上的作用,采用均值聚类算法对众多的不同粒径多余物进行聚类分析,基于获得的聚类中心值和4 种粒径的理论中心值进行欧氏距离求解,依据一定的阈值区分多余物粒径,从而实现粒径的识别。均值聚类算法可对无标记的不同粒径等级训练样本进行学习,能够获得不同粒径等级下的特征参数分布规律,适用于需综合所有样本分布下的单类和混合粒径的识别问题。

4)试验验证与数据分析

挑选4 种不同粒径等级的焊锡多余物颗粒,针对航天器内含有单个和2 个多余物的14 种不同粒径存在情况进行模型识别准确率验证。

3 多余物粒径识别模型构建

3.1 多余物粒径特征参数选择

3.1.1 时域特征提取

时域信号包含的信息量大,具有直观和易于理解等特点,是进行模式分类特征选择常用的原始依据。通过分析时域波形的幅值变化、波形分布等,可以对不同粒径进行初步特征构建。

1)信号峰值

对于信号(),其峰值表示的是信号动态范围的最大值。对于多余物脉冲而言,其信号峰值描述的是一段信号的极限值情况,反映的是脉冲的幅值,其定义为

2)信号的均方值

均方值是评价一段动态信号强度的指标,反映了信号相对于零值的波动情况。幅值的平方可用于描述能量大小,因此均方值可代表单位时间内信号的平均功率,也称为信号功率,其数学表达式为

3)峰值因子

信号的峰值与均方值分别反映信号的极限值和平均功率。除这2 种有量纲的时域特征,对信号的时域特征描述还经常采用无量纲指标来表征信号的分布特征。多余物脉冲信号是典型的突发型脉冲信号,具有明显的高峰值特点。为了描述多余物脉冲信号在时域上的分布情况,采用峰值因子来表征峰值在波形中的极端程度,

式中表示信号有效值。

3.1.2 频域特征提取

频谱是信号在频域上极为重要的特征,它能反映信号的频率成分及其分布情况,通过对信号求解功率密度谱可以较为直观且准确地反映频谱特性。

1)峰值频率

峰值频率的定义为信号频谱(功率密度谱)峰值处所对应的频率,表示在一个信号的频谱曲线上极大值所对应的频率值。它表示的是组成这个脉冲波的所有简谐成分中能量最强成分的频率值。当一个信号的频谱曲线为()时,其峰值频率的定义为

2)频谱质心

与时域特征中的信号峰值相似,峰值频率是对脉冲波的能量最强成分的频率值的描述,而对于整个频谱,反映信号每个频率成分的综合体现也十分重要。频谱质心可从一定程度上对信号脉冲分布的集中位置进行表征,是对各个频率成分的综合体现,其定义式为

式中:表示频谱质心;表示下限截止频率;表示上限截止频率。对于已知功率密度谱的离散信号,其频谱质心为

式中:表示起始采样点;表示终末采样点。3)频谱方差

频谱方差是指频谱数据的方差,表征的是频谱的分散程度,是一种频谱分布特征指标。频谱分布集中的信号,其方差较小;频谱分布离散的信号,其方差较大。频谱方差的定义式为

3.1.3 基于Fisher 比的特征筛选

Fisher 比是用于衡量特征向量各维分量有效性的参数,广泛应用于特征筛选领域。某个特征分量的Fisher 比越高则表明该分量的类别区分度越好,

式中:表示特征分量的Fisher 比;表示特征分量的类内散度之和;表示特征分量的类间散度。和的定义分别为:

在得到初始特征向量中各维分量的Fisher 比后,选择前个累计贡献率达到90%的分量组合成维改进特征参数,用作后续多余物粒径识别特征参数,其中贡献率的定义为

3.1.4 多余物粒径特征识别参数构建

对每个多余物脉冲求解时域与频域特征参数,构建初始参数向量=[,Ψ,,,,σ]。通过试验,将有标签的不同粒径多余物初始参数向量经过有监督的Fisher 特征筛选,得到每个特征的Fisher 比。

本文在4 个多余物粒径等级(参见表1)内各选取100 组脉冲求解初始参数向量作为Fisher 比算法的输入,得到每个特征的Fisher 比如图1 所示。

图1 初始参数向量R 中每个特征的Fisher 比Fig. 1 Fisher ratio of each feature in the initial parameter vector R

按照特征贡献率的定义,当只考虑采用初始参数向量中的特征参数进行粒径区分时,时域与频域特征参数对多余物粒径的区分贡献率如图2所示。可以看出,第1 维(信号峰值)和第2 维(信号均方值Ψ)这2 个特征的粒径区分贡献率之和已超过90%,远远大于其他特征的贡献率。这表明,多余物的粒径信息主要集中于脉冲信号的时域特征内,给人的直观感受是“粒径越大,声脉冲强度越大”。其原因是,同为焊锡材质使得不同粒径脉冲的频域分布具有极强相似性,导致较难利用频域特征来区分粒径等级。

图2 初始参数向量R 中每个特征的粒径区分贡献率Fig. 2 The contribution rate of each feature in the initial parameter vector R

为提高计算效率和准确性,本文最终采用信号峰值和信号均方值Ψ构建最终的粒径特征识别向量=[,Ψ]作为多余物粒径识别模型的输入量。

3.2 基于K 均值聚类的多余物粒径识别模型

在对试验获得的信号进行脉冲提取与区分后,获得每个焊锡粒脉冲的粒径特征识别向量。为解决同一等级粒子在试验中由于碰撞速度、部位等的不同所导致的在较小粒径区分度下的特征参数部分重叠问题,可基于统计的特性,考虑所有脉冲信息进行综合判断。均值聚类就是一种基于无监督学习的通过对所有无标记样本进行数据内在性质和规律揭示的算法,因此本文选取该方法构建多余物粒径识别模型。

3.2.1均值聚类原理

聚类属于无监督学习方法,是一个将在某些方面具有相似性的数据成员进行分类组织的过程,通过对无标记训练样本的学习来发现其内在结构的技术,属于数据挖掘的重要手段之一。均值聚类是一种划分聚类算法,原理简单、易于实现、收敛速度快,被广泛使用于故障诊断、模式识别等领域。均值聚类采用距离作为相似性度量,基于此发现给定数据集中个类别,且每个类的中心基于类中所有值的均值确定。

均值聚类算法的基本步骤如下:

5)计算点集中全部数据的平方误差E,若|EE|<,即质心基本稳定不发生变化时结束算法,否则返回步骤2)再次计算。

3.2.2值确定

在均值聚类算法中,类别数的选择是极其重要的,将直接影响聚类结果的准确性。

在粒径种类识别中,类别数的选择与航天器内多余物的个数直接相关。当航天器内的多余物仅有1 个时,多余物粒径种类仅有1 种,可以视为聚类类别数=1 的特殊情况;当多余物数量超过1 个,为(>1)个时,该航天器内多余物粒径种类最多为种,表示这个多余物的粒径等级各不相同,此时取=才能保证对每类粒径均可区分。因此,为充分区分多余物粒径等级并提高区分度,可采用脉冲发生密度来判断多余物个数,从而实现值的自适应调整。

本文通过记录多余物试验信号里的多余物脉冲总数和外部回转周期数来求解每个多余物试验信号的脉冲发生密度,将其作为确定值的特征参数。脉冲发生密度=/,其中,表示一个测试信号中的有效多余物脉冲个数,表示一次试验中航天器的回转圈数,阈值的选取由试验确定。

3.2.3 多余物粒径识别模型

在得到个多余物脉冲粒径特征识别向量组成的特征集后,首先按照不同的粒径等级分类求得每个等级的粒径中心值,计算公式为

取4 个粒径等级各200 组数据,共800 组数据归一化后进行中心值计算,得到的4 个粒径等级的中心值如表2 所示。

表2 不同等级多余物粒径中心值Table 2 The central value of the particle size of different grades of unwanted matter

之后,通过脉冲发生密度确定好类别数的取值,将值作为关键参数输入聚类模型,同时随机选取初始聚类中心并采用欧氏距离作为样本相似性度量。利用多余物试验获得的多余物脉冲求得特征识别向量集后,输入构建好的均值聚类模型中即可完成对样本的聚类划分,并最终获得每类簇的聚类中心。该聚类中心即是对该簇内每个脉冲粒径特征的综合表示。为排除异常值对聚类效果的影响,当完成聚类后,若属于某一类的样本个数小于总聚类个数的一定比例时,将该类作为异常簇处理,其聚类中心用最邻近聚类簇的中心代替。该比例值需通过试验确定,当=2 时,取该比例值为10%。

图3 展示了=4 时,对4 种等级粒径数据(各200 组数据)的聚类效果;不同等级多余物聚类中心值见表3。从图3 和表3 可以看出,不同粒径等级的多余物在由信号峰值和信号均方值组成的二维特征平面内得到了较好的区分,且聚类中心与表2中的多余物粒径等级中心值相对一致。

图3 4 种等级粒径聚类示意Fig. 3 Schematic diagram of four grades of particle size clustering

表3 不同等级多余物聚类中心Table 3 Cluster center values of different grades of remnant

在获得每类簇的聚类中心后,需要将其与每个等级的中心值进行相似性度量。分别求解每类簇的聚类中心与4 个粒径等级中心值的欧氏距离,根据距离最小原则,取距离粒径等级中心最近的为该类簇的粒径等级。最后将判别结果进行同类合并后得到最终粒径等级的识别结果。

现有航天器生产过程已从多余物产生的源头进行严格控制,因此总装后还残留多余物的航天器中多余物的数量极少,基本为1 个,少数情况会出现2 个。也就是说在绝大多数情况下,同一个试验航天器内存在的不同多余物粒径等级类别最多为2 种,因此本文的研究重心就放在航天器内仅含单个和2 个多余物的情况上。在模型实际应用过程中,含有2 个相同粒径等级多余物的情况在完成聚类后,若仅通过欧氏距离进行判断很可能会误判为其他粒径等级组合情况,例如含有2 个等级L3 的多余物极易与含有1 个等级L2 和1 个等级L3 或含有1 个等级L3 和1 个等级L4 的情况混淆。为提高此种情况下的识别准确率,本文采用中心区域样本个数辅助欧氏距离进行判别。

设2 个粒径等级簇聚类中心值为(,)和(,),中心(,)的坐标为((+)/2, (+)/2),定义距离=|–|/4,=|–|/4,则聚类中心区域为由点(–,+)、(+,+)、(–,–)和(+,–)组成的矩形区域。同样,聚类中心区域为由点(–,+)、 (+,+)、(–,–)和(+,–)组成的矩形区域;中心区域为由点(–,+)、(+,+)、(–,–)和(+,–)组成的矩形区域。通过试验确定,当中心区域中的样本个数大于聚类中心区域和聚类中心区域的样本平均个数的70%时,则认为聚类后的2 组样本簇间存在连续性,以距离中心点(,)最小欧氏距离的粒径等级中心值作为这2 个类簇的实际值。

4 多余物检测系统及干扰信号处理

本文针对多余物粒径特征识别的基本需求,以高精密航天器为被测对象,借鉴典型颗粒碰撞噪声检测技术,采用一套回转式多余物自动检测系统进行多余物检测。利用传声器对试验信号进行采集,应用脉冲提取、参数分析、模式识别与聚类分析等算法实现多余物粒径识别。

多余物自动检测系统主要由机械与电气控制集成系统和信号检测系统2 部分构成,如图4 所示。

图4 高精密航天器多余物自动检测系统Fig. 4 Automatic detection system of remnants inside high precision spacecraft

在多余物检测信号中,除作为目标信号的多余物脉冲外,其余信号均为干扰声信号。干扰信号的存在会影响多余物的检测结果,需要对其进行消除或抑制。干扰信号的来源主要与检测系统和航天器结构组成有关,包括:驱动装置中电机、减速器产生的驱动装置噪声;由于航天器的装夹存在间隙产生的工装噪声。此外,地面振动噪声和环境噪声也产生一定干扰。

对于工装噪声、地面振动噪声和环境噪声,可采用物理降噪方式予以抑制,如:在工装夹具上加入弹性材料来消除不同类型航天器装夹间隙产生的工装噪声;在设备机架与地基间安装隔振材料来消除地面振动噪声;采用隔音室消除环境噪声。

由于检测过程采用的是匀转速回转检测方式,所以由电机、减速器产生的驱动装置噪声有着统计平稳的特点,且为与碰撞声信号不相关的加性噪声。这类噪声可采用降噪算法进行抑制,减弱其对多余物有/无检测的干扰。

在多余物粒径特征识别过程中,采用双门限法提取多余物脉冲,排除干扰信号的影响,并基于脉冲的能量特征采用3原则剔除异常点,以确保不影响聚类模型的有效性。

经过物理降噪以及信号与数据处理降噪后,在聚类数据源中,相较于多余物脉冲,干扰信号的个数极少,对聚类模型的影响甚微。

5 验证试验及结果

本文针对航天器内最常出现的仅含单个和2 个多余物的情况进行粒径识别方法的试验验证,每次测试在回转机构转速为匀转速20 r/min 条件下测试150 s,识别结果如表4 所示。

表4 多余物粒径识别试验结果Table 4 Test results of particle size recognition for remnants

从试验结果可以看出,在含单个和2 个多余物的情况下,本文所提出的多余物粒径特征检测方法的总体准确率为81.8%,满足单个多余物总体识别准确率应>80%、混合多余物总体识别准确率应>70%的实际要求。

6 结束语

本文分析了焊锡粒多余物信号的时域、频域特性,结合特征提取、Fisher 比特征筛选和均值聚类算法提出了一种航天器多余物粒径识别方法,可对单类和混合粒径多余物实现粒径区分,主要研究内容包括:

1)从多余物脉冲的时域与频域特性出发,对信号进行多层面分析,提取出较全面描述其时域与频域特征的参数,构建初始参数向量。

2)通过基于Fisher 比的特征筛选方法对每个特征分量进行Fisher 比计算,得到每个特征对粒径区分能力的贡献率,再根据贡献率大小选取信号峰值和信号均方值组合成为最终的粒径特征识别向量。

3)提出基于均值聚类的多余物粒径识别模型,通过自适应类别数值的调整,利用中心区域样本个数辅助欧氏距离进行多余物粒径等级的分类。

4)通过试验验证了在含单个和2 个多余物的情况下,本文所提出的多余物粒径特征识别方法总体准确率为81.8%。该方法对其他材质的球形或类球形多余物的粒径特征识别方法设计具有借鉴意义。

猜你喜欢
频域时域粒径
国六柴油机不同粒径颗粒物排放特性差异
高能级强夯技术处理大粒径碎石填筑体效果研究
晚霞浅淡少年糖
MgCl2溶液中杂质离子的存在对氨气法制备Mg(OH)2粒径的影响
N-JET工法在大粒径砂卵石地层止水中的应用
一种海上浮式风电基础频域动力响应分析新技术
智慧农业物联网节点故障处理分析
计算机网络技术在电子信息工程中的运用
基于MATLAB 的信号时域采样及频率混叠现象分析
两种常用漂浮式风力机平台动态特性分析