,,
(1.西北工业大学 航空学院,西安 710072; 2. 中航工业第一飞机设计研究院 四性与综合保障研究所,西安 710089)
基于距离度量和健康指数的电子设备健康评估方法
和麟1,雷偲凡1,刘洋2
(1.西北工业大学航空学院,西安710072; 2.中航工业第一飞机设计研究院四性与综合保障研究所,西安710089)
依据监测参数对系统进行健康评估,可以了解系统在工作过程中的健康状态,并通过预防维修避免系统故障带来的安全隐患;电子设备的健康状态容易受到随机干扰的影响产生虚警从而导致不必要的维修,为此提出一种通过多参数距离度量来构建健康指数从而进行系统综合健康评估的方法;利用马氏距离对监测的多个系统性能参数时间序列进行降维,基于核函数最优分段间隔估计对数据的直方图分布进行统计,利用加权分数贡献率来构建健康指数;通过电脑的实验与仿真数据进行了验证,给出了单参数异常和多参数同时异常情况下的评估结果;研究表明,该方法不仅能对系统的健康状态进行有效的评估,而且能够降低随机突发干扰产生的虚警。
健康评估;马氏距离;直方图;健康指数
近年来,随着现代装备功能的日益强大,系统的安全性、维修保障等问题越来越受到人们的重视,航空航天等领域的健康管理已成为国内外工业界和学术界的研究热点。健康管理是根据诊断或者预测的信息、可用资源和使用需求,对维修活动做出适当决策[1],其中包括状故障诊断、故障预测、健康评估和维修决策等内容。健康评估是在对历史数据和监测数据进行分析的基础上,通过各种评判办法来综合评估系统的健康状态,对设备的老化及时发出警报并给出相应原因,从而为维修决策提供依据,为精确化维修提供技术支持。它能有效地提高系统维护保障能力,降低维修费用,节省备件,有效地防范突发故障造成飞行任务的失败[1-3]。
健康管理可以通过监测故障先兆值来实现。在长期工作中,机械系统存在比较明显的退化过程,其健康管理方面的研究和应用相对比较成熟[4]。由于电子产品的结构和组成关系复杂、组成部分依赖性强、故障影响因素多且微观、故障模式和健康状态信息对应关系复杂,系统的老化降级很难检测[5-7]。因此目前大多数研究都处于方法研究阶段,而且部分研究着眼于单个电子器件或模块[8-9],也很少有可以实际应用的成熟技术。目前可以采用的研究方法主要有物理模型法和数据驱动法。前者需要通过对象的系统原理、失效机理等建立其物理或数学模型,然而实际工程应用中对模型的要求具有较高的精度,因此建模过程复杂、代价高,同时外部环境的不确定性影响较大,实际的应用范围和效果常常会受到一定的限制[3,6-7,10-11],后者则通过可用的历史信息和监控系统状态数据,从统计和概率的角度出发,利用统计或机器学习的方法,分析和处理历史健康数据特征与监测数据特征之间的退化或差异情况,掌握和学习健康系统和非健康系统的表现行为的差异,对分析对象的健康状况和可靠性进行推断、评估和预测[11]。
这些方法往往对电子设备的健康状态不敏感,对于突发的瞬时故障或间歇性故障容易引起报警,但实际上系统并没有达到故障和维修状态,也就是容易产生虚警[12-13],造成不必要的更换,维修费用高。本文提出了一种基于多参数距离统计分布的健康指数构建方法来对系统进行健康评估,并通过仿真实验数据验证了该方法的有效性。
1.1 健康评估流程
具体的健康评估方法顺序流程如下:1)在系统正常工作情况下,选取并采集多个系统性能参数样本;2)将样本参数标准化,对多参数时间序列进行降维;3)选取一段数据构成一个时间窗,统计时间窗内数据的分布和分数贡献率;4)计算健康指数,顺序移动时间窗,计算每个时间窗内的指数;5)利用正常工作样本数据的健康指数构建健康阈值;6)采集系统工作的监测数据,重复步骤2)~5),对系统工作状态进行评估。
系统运行过程中往往同时监测多个性能参数,这些参数能够反映系统多方面的工作特性。但多个参数通常表现出各自不同甚至相互冲突的变化趋势,给确定综合评估结论带来困难,因此需要对监测参数进行处理,即通过降维方式来综合反映该时间点产品的健康状态。然后选择一个时间窗,对时间窗内的参数的分布进行统计,并在此基础上构建健康指数。用滑动时间窗得到距离值的时间序列,以此来描述系统健康状态的随时间发展过程。采集系统运行的历史数据,根据计算出的健康指数设定健康阈值,然后就可对系统工作数据进行监测和评估。
1.2 马氏距离降维方法
距离度量方法可以将同一时刻观测的多个系统性能参数转换成一个合适的参数。常用的多维距离度量有欧氏距离、切比雪夫距离等。马氏距离(Mahalanobis distance)表示数据的协方差距离,它有效计算一个样本与样本集“重心”的最近距离,或者计算两个未知样本集的相似度。两点之间的马氏距离与原始数据的测量单位无关,因此它不受量纲的影响。而且由于考虑到各种特征参数之间的相关性,所给出的距离值能够很好地度量被测数据和样本之间的差距,很适合用在故障检测中[14]。
设Xij为第i个参数的第j个值,i=1,2,…,m,j=1,2,…,n,其中m代表数据的个数,n代表观测量的数量。首先对原始数据进行标准化:
(1)
(2)
(3)
(4)
系统偏离健康状态时,其性能参数可能会升高或降低,这两种情况都导致马氏距离值的增加。因此,距离值越大,说明产品的状态偏离健康状态越远,利用时间信息与监测数据计算出的马氏距离使得测试对象随时间变化的健康状态可视化程度升高。然而,马氏距离异常状态的反映也存在一定问题,虽然它可以随着原始数据的变化趋势变化,但对于与产品健康相关却并不表现趋势的参数并不敏感。因此本文将其转化为一个新的度量,即健康指数HI,以此用作健康状态的表征。
2.1 直方图分段间隔估计
健康指数的构建就是基于数据的统计分布直方图。直方图是对数据取值进行分段,统计每段间隔内数据出现的次数。一旦给定了分段间隔,那么直方图就被确定了。较小的分段间隔将数据划分得较细,使结果更接近于模拟分布,但同时也需要较多的数据,而较大的分段间隔会使统计过于粗糙,因此存在一个最优分段间隔来折中考虑数据的长度和取值范围[15]。当数据不满足高斯分布并且具有多模态性时,核密度估计适用于处理此类数据。例如,Gaussian核在需要连续性以及可微性时被使用,其最优分段间隔为:
(5)
2.2 健康指数构建
在最优分段间隔的基础上对马氏距离的分布范围从小到大进行区间划分,得到k个区间。计算每个区间的分数贡献率fi,即每区间内数据出现的个数除以时间窗内数据的总个数。然后利用下式计算该时间窗内数据的健康指数:
(6)
其中:wi为各区间的权重。即该时间窗的健康指数为每个区间的分数贡献率的加权和。
将时间窗沿马氏距离的时间轴顺序移动,每移动一次就分别计算统计分布的分数贡献率,时间窗滑动过程中马氏距离数据统计分布的分数贡献率变化如图1所示。
图1 分数贡献率随时间的变化
2.3 权重和健康阈值的选取
在计算健康指数时,我们需要将MD的取值范围从小到大进行区间划分,然后给每个区间分配权重来构建健康指数。由于马氏距离能够度量被测数据和样本之间的差距,且MD值越大,系统偏离健康状态越远,因此我们将权重也由小到大分配给由小到大的k个分段区间,这样能增大高MD值的影响,将系统偏离健康的情况更明显地表达出来。分数贡献率、权重分配以及健康指数变化的示例如表1所示。
表1 健康指数的计算
健康阈值的设定是利用系统正常工作情况下采集到数据的健康指数随时间变化计算结果来完成。健康指数与健康状态的对应关系是,健康指数越小,产品健康状态越好。阈值的取值一般为正常工作下健康指数最大值的95%~99.9%。
3.1 电子设备故障原因分析及监测参数选取
电子产品随着使用时间的增长而逐渐老化,其电路的特性也将随之退化。超大规模集成电路(VLSI)是航电设备的核心器件,其失效机理主要包括热载流子效应、绝缘介质击穿、电迁移失效、双极晶体管退化等。外部环境应力会对电子器件造成损伤,也是引发电子设备故障的原因。计算应力损伤需要搜集和累积电子产品寿命周期内承受的外部应力载荷,通过建立失效物理模型来计算累积损伤和寿命损耗。半导体器件的退化和失效过程是一种微观过程,使用中很难做内部检测;VLSI的集成度高,其内部电路检测难度大,对于电子设备内部的大量不同电子器件不可能都进行监测[16],也很难建立整个系统的失效物理模型。
鉴于以上原因,一种比较可行的方法是通过对被测设备进行故障模式、机理与影响分析(FMMEA),通过故障机理,分析设备组成部分的故障因素对设备的影响,选择影响设备正常工作的失效模式并分析它们对系统工作参数的影响,在此基础上选取与失效有关的适当物理量,通过监测选定的电路特性参数,来评估电子设备的性能[16-17]。
电子设备通常是在硬件资源加软件的共同运行下完成其相应工作,其故障模式主要包括硬件资源、程序错误和环境因素三大类。由于系统功能是依托于硬件本身来实现的,当硬件出现退化或故障时,其系统功能也会出现相应的退化或故障。程序错误则是指在设计开发程序过程中出现的错误。由于程序的复杂度日益提高,在检测程序时开发过程里产生的错误并不能全部显现出来,还是有少量的错误在产品运行中出现,使产品在使用时出现异常或故障。前两者具体由系统资源性能参数、系统资源使用状态参数、系统功能参数、时间管理等参数组成[17-18]。除此之外,环境因素对电子设备的异常或故障也会产生一定的影响,变化的温度、压力、湿度等都可能使其工作状态偏离产品的健康状态。
由于异常是一种系统功能出现性能下降或表现出系统工作迟缓或者不灵敏的状态,意味着异常出现时系统还未达到故障,依然可以继续工作。同时,某些功能异常可能是故障的先兆,但另一些异常并不一定导致故障。因此,本文认为异常状态可以考虑为系统健康状态出现了下降,即将超出了系统健康的基线,或超出基线但未达到故障阈值,呈亚健康状态。
3.2 数据的获取仿真实验
本文中的数据仿真实验操作于0~5℃的状态下,在电脑上编写Matlab程序并在操作系统中运行以仿真计算机的运算功能,这些数据的监测和读取通过电脑自身的任务管理器、Matlab程序编写和AIDA64稳定性测试软件三者相结合来实现。首先利用Matlab分别编写循环程序与时间触发程序,循环执行程序作为主程序,循环次数设置为15000次,事件触发程序嵌入到循环程序内。同时在运行Matlab程序及播放视频的情况下利用AIDA64稳定性测试软件进行参数采集。具体选取的参数有:主板温度、风扇转速、CPU温度、CPU占用率、程序执行时间。
采集设备正常工作时的健康数据,时间窗的长度选择30点/分钟,数据标准化后计算出的MD值以及健康指数基线和阈值,如图2所示。
图2 基线数据MD值和健康指数
根据99%置信度来设置门限值,用于区分健康与不健康。通过公式(5),利用图2中MD值的标准差来计算直方图的最优分段间隔,根据所求的MD阈值以及最优分段间隔将MD值从小到大按区间划分,然后计算每个区间的分数贡献率以此来计算健康指数,并根据健康指数的置信度要求得到健康指数阈值,如图2下所示。若产品的健康状态有95%的置信度,考虑到99%的MD阈值,仍存在5.6%的错误几率出现误差或导致错误的判断。
然后通过前述的仿真实验获取设备工作异常即不健康的数据。我们对内存溢出、程序执行时间增大、散热异常以及CPU工作温度异常进行仿真,图3选取了其中一部分正常和异常数据。
图3 仿真实验得到的健康和异常数据
3.3 健康状态评估结果
系统异常情况的出现可能是由单个数据引起,也可能由于数据之间的关联性,多个数据异常共同出现。下面,我们就针对这两种情况对方法进行验证。我们分别选取程序执行时间增大以及内存溢出和CPU工作温度同时增大的数据,评估结果分别如图4和图5所示。
图4 单数据异常情况检测结果
图5 组合数据异常情况检测结果
图中分别给出了基于MD阈值超限检测的结果和本文利用健康指数检测的结果。观察数据点的值可以看出,数据中较多MD值超过了阈值,对应的健康指数也超限,说明这段时间内设备发生了异常。由于异常数据本身也存在随机性,有的值可能在处于阈值以下,而MD值超限检测针对是单个数据点,此时该方法不能检测出来,而健康指数关注的数据的统计分布,因此可以将整个异常区间都标示出来,准确评估出现的异常健康状态。另外,对于个别MD值超限,健康指数并没有告警。该情况可能是突发因素造成的随机扰动,并不代表设备出了问题。因此对于个别数据突发异常,即数据中存在的毛刺,本方法可以将其滤除,减少误报现象的出现。
本文利用系统多个监测数据的马氏距离,通过数据的统计分布建立健康指数来进行健康评估。马氏距离可以将多变量数据进行降维,并能够反应数据之间的相关性,并随原始数据的变化趋势而变化,能够一定程度地反映系统的健康状态。然而,当对于健康评估要求比较高时,仅仅依靠马氏距离进行阈值判定是无法满足评估要求的。因此在计算出马氏距离的基础上,利用直方图再对其进行分布统计并进一步变换为健康指数,从而能够更好的检测健康状态的下降。利用数据的统计分布构建健康指数,可以避免系统突发异常造成的个别马氏距离值增大,对间歇性异常和故障的状态具有更好的评估能力,从而降低了评估的虚警率,更具有实际意义。
[1] 任占勇. 航空电子产品预测与健康管理技术[M]. 北京:国防工业出版社, 2013.
[2]Guillen A J, Crespo A, Macchi M, et al. On the role of prognostics and health management in advanced maintenance systems[J]. Production Planning & Control, 2016, 27(12):991-1004.
[3]王少萍. 大型飞机机载系统预测与健康管理关键技术[J]. 航空学报, 2014, 35(6):1459-1472.
[4]李兴旺, 汪慧云, 沈 勇, 等. 飞机综合健康管理系统的应用与发展[J]. 计算机测量与控制, 2015, 23(4):1069-1072.
[5]Vasan A S S, Pecht M. Health assessment of electronic systems[A]. International Conference on Quality, Reliability, Risk, Maintenance, and Safety Engineering[C]. China, 2013, 1689-1694.
[6]卢海涛, 王自力. 综合航空电子系统故障诊断与健康管理技术发展[J]. 电光与控制, 2015, 22(8):60-65.
[7]Lall P, Lowe R, Goebel K. Prognostics and health monitoring of electronic systems[A]. International. Conference on Thermal, Mechanical and Multiphysics Simulation and Experiments in Microelectronics and Microsystems[C]. Linz, Austria, 2011, 1-17.
[8]田 园, 孙靖国, 李大鹏. 基于FPGA的BGA焊点健康管理原理与实现[J]. 计算机测量与控制, 2015, 23(10):3310-3312.
[9]Ren L, Shen Q, Gong C Y, et al. A method for health monitoring of power MOSFETs based on threshold voltage[A]. IEEE Conference on Industrial Electronics and Applications[C]. Auckland, New Zealand, 2015:1729-1734.
[10]杨述明, 邱 静, 刘冠军. 面向装备健康管理的监测参数选择与健康评估方法研究[J]. 中国机械工程, 2012, 23(13):1513-1517.
[11]孔学东, 恩云飞, 陆裕东. 电子产品故障预测与健康管理[M]. 北京:电子工业出版社, 2013.
[12]Guo Y M, Zhang J Q, Li Q D, et al. Aviation BIT optimal method for reducing false alarm rate under gust environment[A]. IEEE International Conference on Prognostics and Health Management[C]. Ottawa, ON, Canada, 2016:1-5.
[13]Qi H Y, Ganesan S, Pecht M. No-fault-found and intermittent failures in electronic products[J]. Microelectronics Reliability, 2008, 48:663-674.
[14]Patil N, Das D,Pecht M. Anomaly detection for IGBTs using Mahalanobis distance[J]. Microelectronics Reliability, 2015, 55:1054-1059.
[15]Kumar S, Vichare N M, Dolev E, et al. A health indicator method for degradation detection of electronic products[J]. Microelectronics Reliability, 2012(52):439-445.
[16]韩国泰. 航空电子的故障预测与健康管理技术[J]. 航空电子技术, 2009, 40(1):30-38.
[17]Kumar S, Dolev E, Pecht M. Parameter selection for health monitoring of electronic products[J]. Microelectronics Reliability, 2010, 50:161-168.
[18]刘 洋. 综合模块化航电健康管理方法研究[D]. 西安:西北工业大学, 2016.
AHealthEvaluationMethodofElectronicEquipmentsBasedonMulti-parameterDistanceMeasurementandHealthIndex
He Lin1,Lei Sifan1,Liu Yang2
(1. School of Aeronautics, Northwestern Polytechnical University, Xi′an 710072, China;2. Integrated Logistic Department, AVIC First Aircraft Institute, Xi′an 710089, China)
Health state of a system can be acquired through assessing the monitored parameters, which is a foundation to perform preventive maintenance for ensuring the operating safety before failure occurs. For electronic system, false alarm often happens due to random disturbance which causes unnecessary replacement. An integrated health evaluation method is proposed to construct a health index based on the statistics distribution of multiple performance parameters. Distance measurement is used to reduce the dimension of the time series of multiple parameters by transform them into a Mahalanobis distance. A system health index is built by the weighted sum of each bin’s contribution of the histogram with an optimal kernel bin-width. A case study is performed on computer simulation and experiments. Results are given for the situation of single and multiple parameters abnormal, which demonstrates the effectiveness of the method and the ability to decrease false alarm.
health evaluation; Mahalanobis distance; histogram; health index
2017-04-07;
2017-04-28。
国家自然科学基金(51475368)。
和 麟(1973-),女,河北人,博士,副教授,主要从事航电系统仿真、故障诊断与健康管理、系统测试性分析设计方向的研究。
1671-4598(2017)10-0289-04
10.16526/j.cnki.11-4762/tp.2017.10.074
TP207
A