周晓龙,张 辉
(中国电子科学研究院,北京 100041)
基础理论
基于时间特性的周期BIT数据分析模型研究
周晓龙,张 辉
(中国电子科学研究院,北京 100041)
机内自检(BIT)是系统故障检测的重要手段,在电子系统中被广泛应用。随着系统越来越大,BIT数据越来越多。快速、准确的从BIT记录中获取有效的故障信息,并进行初步的故障隔离,对于大型电子系统事后检测分析具有重要的意义。本文主要研究了周期BIT数据分析方法,提出了利用周期BIT数据的时间标签特性,进行聚类分析,实现故障事件的初步融合,从而为进一步的故障推理提供了唯一性故障数据;论文还讨论了该方法在故障隔离方面的应用情况。
周期BIT;故障隔离;时间序列;故障模糊组
随着装备信息化程度越来越复杂,综合化水平越来越高,系统的健康状况监控能力越来越强,故障预测与健康管理(PHM)技术在系统研制、装备使用和后续保障中起的作用日益重要[1],测试性技术得到了快速发展。
在测试性设计技术中,机内测试(Built-in Test,BIT)是一项基础性技术,被广泛应用到各类系统中。机内测试是指系统或设备内部提供的检测和隔离故障的自动测试能力[2]。机内测试的形式有多种,比较典型的有加电BIT,周期BIT,启动BIT等。其中周期BIT由于具有在线、实时的特性,具有使用和维修辅助的多重用途。但在设计时,往往侧重考虑使用需求,比如实时性、关键参数监控、不干涉使用等。由于周期BIT的这些特性,周期BIT对于维修来说,往往有较多局限。比如,由于周期BIT信息的实时特性,不能反映历史情况,对于不稳定状态不能有效进行监控;受周期BIT机制的影响,周期BIT数据量往往较大,不便于直接应用。以某大型电子系统为例,周期BIT监控设备数百个,工作4个小时存储的BIT相关的数据量数万条。对于简单的数据检索应用来说,应用性不强。同时,由于装备构成复杂,在工作过程中可能出现多个故障,且故障之间可能存在相关性,不能直接将故障事件用于故障推理模型,实现故障隔离。因此,在越来越来多的系统研制中,采用事后数据分析技术,对周期BIT数据进行分析,提升周期BIT的应用价值。
本论文阐述了基于时间序列的数据分析模型,通过对周期BIT事件的进行分析,实现了故障事件提取和初步的故障隔离,为进一步开展基于模型的故障推理(比如基于D矩阵的故障隔离)奠定了基础。
周期BIT是一种实时监控的手段,周期BIT事件报告机制主要有两种:周期性报告机制和事件触发机制。周期性报告机制的优点是信息可靠,缺点是数据量大。当监控单元数量较多时,网络传输压力和数据分析量将成倍增长。事件触发机制的优点是数据量小,状态更新及时,一般是在监控对象健康状况发生变化的时候,立即进行报告,包括正常设备发生了故障,故障设备恢复到正常等情况;该机制的缺点是不可靠,可能会由于某些原因造成数据丢包,导致漏报。对于大型信息系统来说,两种机制都会采用。
当一个故障发生后,会通过故障传播路径向后端系统进行传播,从而可能导致后端系统状态异常。故障影响范围,受系统电气结构和逻辑约束。比如当电源系统出现了故障(故障模式是无输出)后,受供电影响的相关设备都会出现异常。故障传播特性导致了周期BIT数据具有显著的时间特性,比如存在相关性的多个故障,往往在故障报告时间上存在一定的相关性。在时间特性上,相关联故障的报告发生在一定的时间区间内。该时间区间受系统BIT报故机制的约束。对于简单系统,该时间可以很短,比如一个报故周期。对于复杂系统,该时间可能会涉及多个报告周期,甚至更长时间。这种相关性与系统设计有直接的关系。
在系统工作过程中,周期BIT监控对象一般有3种状态:正常,故障,未知。如图1。在某些设计中,未知状态也可以作为相关监控对象故障状态的一种指示,此时可以用故障状态来表示。对于非故障指示意义的未知状态,不在本文讨论。
图1 任务过程设备状态转换示意图
不同的周期BIT报故机制导致不一样的数据构成。
周期性状态报告机制是通过对系统过程中状态的离散化生成一个状态报告序列,如图2。图中,竖线表示周期BIT报告数据。其中短竖线表示被监控对象为“正常”状态,长竖线表示被监控对象为“故障”状态。下同。
图2 监控状况序列(周期性状态报告机制)
事件触发机制是只在状态变化时进行状态报告,如图3。在不考虑数据丢失的情况下,两种机制的结果是可以互相转换的,本文仅针对第一种形式进行进一步的分析处理。
图3 监控状况序列(事件触发机制)
状态报告序列可看作是一种时间序列。时间序列是按照时间顺序取得的一系列观测值[3]。时间序列可被抽象成二元组R=(O,t)[4]。其中t为时间变量,O为数据变量,反映数据单元的实际意义。因此,时间序列集合可以描述如下:
R={(Oi,ti)}, 满足ti (1) 对于周期BIT来说,Oi表示为状态值(正常,故障)。 状态报告序列R包含了被监控对象在整个过程中的状态。对于使用和维护来说,故障事件更值得关注。因此,根据R进一步生成故障事件是一种必要的过程。 故障事件需要用3个参数进行标识,Ei=(Oi,ti,dti)。 其中Oi表示故障事件,ti表示故障开始时间,dti表示故障持续时间。如图4。 图4 故障事件 从R中提取故障事件,需要按照2个步骤进行: 1)确定故障事件的发生。逐个对比Ri中的Oi,提取故障信息,形成Fi=(Oi,ti)。Fi满足: Fi=(Oi,ti)={Oi=故障态∧Oi-1=正常态, ti=t(Ri)} (2) 其中t(Ri)为取Ri中的时间t。 2)确定故障持续时间。在确定了Fi后,继续依次逐个对比Ri中的Oi和ti,确定dti。dti的确定需满足: dti=max(tj-ti),满足Oj=Oi,且tj-tj-1>Δt (3) 其中,Δt为周期BIT报告周期,或允许的间隔时间。 在Fi和dti依次确定后,R中的故障事件可以表示为故障事件集合E,表示为: E={(Fi,dti)}={(Oi,ti,dti)} (4) 在大型系统中,监控设备有很多个,如图5。在BIT数据记录中,这些数据按照时间先后顺序交叉记录在一起。经过上述的数据预处理方法,可以分析出整个过程中所有故障事件集合Es。 Es={(Ek)}={(Oi,ti,dti)k}, 1≤k≤n…… (5) 其中,角标k表示第k个监控对象,n为总监控对象数量。 图5 多设备监控下的事件序列示意图 在经过事件化表示和故障事件提取后,输出结果可以全面的反应系统的故障信息,可用于支撑对系统的维护和维修。但是对于复杂系统来说,监控对象之间交联关系复杂,某监控对象发生故障后,会通过故障传递路径,在系统中进行传播,从而导致相关的监控对象报故,形成故障模糊组。这种现象,导致故障事件信息的混乱,给故障定位带来困难。 解决故障模糊组是故障诊断的重要课题,国内外提出了逻辑模型、信息流模型、多信号流图模型[5]、结构模型、混合诊断模型等不同类型的测试性诊断模型[6]和方法。对于大型复杂系统,由于工作过程中,可能有多个故障同时并发,不满足单一故障条件,会导致故障定位不准确。 本研究提出了基于时间特性的故障模糊组分析方法,是对故障事件信息的预处理。通过本方法形成的故障模糊组,进一步提交给推理机或其他诊断方式,可有效降低后续工作的难度。 基于时间特性的故障模糊组分析方法是利用故障事件的时间特性,进行聚类分析,形成模糊组集合G,使得每个故障模糊组中的故障事件之间存在强的关联性。通过分析故障事件之间的时间相似性,来识别不同的故障模糊组。 本文采用基于时间序列数据的相似性分析进行故障模糊组分析。在基于时间序列数据的相似性分析中,常用方法是计算欧几里得距离。通过欧几里得距离,进行事件匹配。 故障事件Ei(Oi,ti,dti)包括的时间信息包括故障开始时间ti,故障持续时间dti。两个故障事件之间的欧几里得距离d(Ei,Ej)定义如下: (6) 通过欧几里得距离,可以通过下式判断事件之间的相似性。 (7) 其中,1表示Ei和Ej具有相似性,0表示无相似性。d0为阈值。 通过对全系统的Es逐对进行相似性判定,将具有相似性的归为一个模糊组,即可形成故障模糊组集合G。其中第i个模糊组Gi表示为: Gi={(Oi,ti,dti),满足σ(Ei,Ej)=1,i,j∈n} (8) 系统的复杂性,会导致阈值d0展宽。d0的取值受2个方面因素的影响,一方面是设计因素,比如周期BIT状态报告周期、信号时延等固有特性;另一方面是数据丢包或网络阻塞延迟的影响。一旦发生了数据丢包,会成倍增加故障上报的时延。因此,阈值d0的确定是一个工程问题。可根据统计试验结果,确定合适的阈值d0。 阈值的确定需考虑2个方面影响: 一是阈值过小可导致较多的故障事件不能相关。可以通过统计评价试验的方式,确定阈值的下限。统计评价指标为相关率,定义如下: (9) 其中已相关的故障事件数不包括误相关故障事件数。 二是阈值过大会导致较大概率的误相关,即不存在故障传播关系的故障事件意外关联为一个故障模糊组。统计评价指标为误相关率,定义如下: (10) 过高的UR会给故障定位带来一定的困难,也可能造成隐藏故障,导致一次维修不充分。但一般来说,误相关的故障会在后续的诊断过程中进行解相关。因此,误相关的危害要小于相关率过低的为危害。从经验来看,90%以上的相关率、10%以下的误相关率是必要的阈值设定参考。 在实际应用中,可通过试验的方式确定阈值,如图6。步骤如下: a)根据系统的特性,设置初始阈值。 b)试验:输入一组BIT数据文件,运行一遍预处理方法,并计算RR和UR; c)判断RR和UR是否满足要求;若满足要求,则阈值设置合理;若RR不满足要求,则增加阈值;若UR不满足要去,则减小阈值。 图6 阈值确定过程 本文论述了周期BIT数据分析的数学模型和工程方法,提出了周期BIT事件化表示模型、故障事件提取模型以及基于时间特征的故障模糊组分析模型,同时,论文也讨论了工程中欧几里得距离阈值的确定方法,为周期BIT数据的事后分析提供了可行的思路和参考。周期BIT数据分析结果,可以用于辅助维修人员准确掌握系统工作过程中发生的故障信息,从而支撑故障诊断方法的制定,提高维修效率,具有良好的应用价值。 该方法在项目组研制的维修辅助设备中得到了应用,效果较好。利用该方法,可以快速识别故障模糊组,可辅助维护人员作出相应的诊断决策。同时,对于较复杂的模糊组,该分析结果,可以提交到推理机中,进行进一步的诊断。 [1] 王绪智,张宝珍. 国外PHM技术的发展动态及经验教训[C]. 中国上海: 2010航空试验测试技术学术交流会,2010年10月19日. [2] 石君友. 测试性设计分析与验证[M]. 北京:国防工业出版社,2011. [3] George E. P. Box. Time Series Analysis: Forecasting and Control[J]. Journal of Marketing Research, 1994,14(2): 199-201. [4] 贾澎涛,何华灿,刘丽,孙涛. 时间序列数据挖掘综述[J]. 计算机应用研究, 2007,24(11): 15-18+29. [5] 陈卫卫. 基于信息熵的故障隔离模型[J]. 中国电子科学研究院学报,2013, 8(.5): 441-443+448. [6] 张勇,邱静,刘冠军. 测试性模型对比及展望[J]. 测试技术学报, 2011, 25(6): 504-514. The Study on the Model of Periodic BIT Data Analysis Relation to Time Sequence ZHOU Xiao-long, ZHANG Hui (China Academy of Electronics and Information Technology, Beijing 100041, China) BIT is widely applied in electric systems as one of the most import abilities for system diagnostic test. But the problem is how to obtain the useful information of fault events rapidly and correctly and isolated those faults into different fault ambiguity groups when the BIT data becomes more and more enormous. The methods to this problem are studied in different technical fields. This article proposes a model of cluster analysis for periodic BIT data which based on the character of the time table of the BIT events happened. This model can use to integrate the multi-fault events to unique event for deeper diagnosis. This article also gives a brief consulting about the usefulness to fault isolation. Periodic BIT;fault isolate; time sequence; fault ambiguity group 10.3969/j.issn.1673-5692.2016.02.005 2017-01-05 2017-03-30 TP306+.3 A 1673-5692(2017)02-128-04 周晓龙(1979—),男,湖南人,高级工程师,主要研究方向为大型电子信息系统与元器件技术研究和设备研发; E-mail:xlzhou@pku.org.cn 张 辉(1979—),女,辽宁人,工程师,主要研究方向为大型电子信息系统软件产品研发。3 故障事件的提取
4 基于时间特征的故障模糊组分析
5 工程应用参考
6 结 语