蹇彪
(工业和信息化部电子第五研究所软件质量工程中心,广州511370)
随着电子技术的发展,雷达等电子装备逐渐软件化,设备集成度、功能复杂度越来越高。在研发和使用过程中,设备发生故障时,现场技术人员往往难以快速判断故障成因,需要花费大量时间和精力用于故障源定位和故障排除。凭经验开展故障定位分析工作容易被思维定势误导,仅适用于小型简单设备的维护,已无法满足现代复杂装备发展需要,因此应用一种方法论系统、全面地分析装备故障影响因素十分必要。
故障树分析简称FTA(Fault Tree Analysis),是一种由上往下的演绎式失效分析方法,利用布尔逻辑组合低阶事件,分析系统中不希望出现的状态。最早由美国贝尔电话公司的电话实验室发展出来,逐渐成为可靠性工程领域内进行系统失效分析的重要方法之一,广泛应用在航空航天、核工业等对安全性和可靠性要求严苛的工业行业[1]。
故障树分析方法通过结合诊断目标的系统结构和功能构建故障分析模型,是一种从系统到部件,再到单元,按树形结构从上到下逐级递推并根据事件因果而逻辑联系的图形化分析方法[2]。它将故障现象作为顶事件,将直接或间接导致顶事件发生的因素作为中间事件,将最基本的故障原因作为底事件,通过“与”“或”等逻辑门将顶事件、中间事件和底事件连接起来,形成一个树状图,得到一个定性的因果模型。故障树建立以后,从顶事件出发,由上而下分析,最终实现对系统异常状态的快速故障定位[3]。
故障树分析法既考虑了设备中的硬件因素,又考虑了软件程序缺陷,不仅可以对系统故障进行定性分析,准确定位系统中的故障源,也可以进行定量分析,通过计算各事件的发生概率求出系统失效概率,可以为故障预测和健康管理研究提供参考。
建立故障树的主要步骤包括:了解系统结构、分析故障模式、确定顶事件、绘制故障树、简化故障树、求解故障树事件发生概率。
(1)了解系统结构:该步骤主要是详细了解系统结构、主要工作状态和参数,必要时可绘制出工艺流程图或系统结构图;
(2)确定顶事件:要分析的对象即为顶事件,通常将待诊断的故障作为顶事件;
(3)绘制故障树:根据建立的系统组成结构,从顶事件开始向下逐层展开,将各个事件通过逻辑关系连接起来,绘制故障树;
(4)分析故障树:该步骤主要是分析故障树中所有可能发生的事件,定量分析时给出各基本事件发生概率;
(5)简化故障树:根据各基本事件发生的概率数据,确定各基本事件对顶事件发生的影响程度,即结构重要度,按结构重要度对故障树进行简化;
(6)求解故障树事件发生概率:确定所有事件发生概率,标记在故障树上,进而求解出顶事件发生概率。
复杂装备出现故障现象时,通常需要快速排查,准确进行故障定位,属于定性分析,因此仅需执行步骤(1)到步骤(5),查找出故障源即可。
合成孔径雷达(SAR)是一种高分辨率成像雷达,具有分辨率高、全天候等特点。不同载具平台的合成孔径雷达,主要功能不同,如机载SAR和星载SAR主要功能是成像,弹载SAR主要功能是成像、匹配和定位[4]。典型的合成孔径雷达系统结构如图1所示。
图1 典型的合成孔径雷达系统结构
雷达装备的故障发生模式按照故障发生速度来分可分为渐发性故障和突发性故障。渐发性故障一般发生在交付使用阶段,由于高温、高湿、腐蚀等外部因素,以及机械震动、电磁辐射、热疲劳等内部因素导致的元器件、组件失效而产生的故障,通常为硬件故障。突发性故障一般发生在研发设计阶段,多属于需求变更、功能升级等因素引入的设计缺陷,随着电子装备功能越来越复杂,软件代码规模越来越庞大,这类故障发生的条件越来越难以预测。合成孔径雷达主要故障模式如表1所示。
表1 合成孔径雷达主要故障模式
以图1所示典型合成孔径雷达系统为例,选择无法成像故障作为顶事件,应用故障树分析对该故障进行故障定位。
首先,了解系统结构,梳理系统主要功能和工作流程。该系统主要由天线模块、电源模块、综合频率模块和综合处理模块组成。系统工作时,由频率综合单元提供基准时钟,综合处理模块中的任务管理单元根据上位计算机发送的工作控制参数,开启工作流程,并发送给采集单元,该采集单元形成激励信号,经综合频率模块处理后进入天线模块,由天线单元驱动放大,经TR组件后辐射到空间,反射回来的回波经综合频率模块的收发单元接收通道后,形成接收信号,由综合处理模块的采集单元打包成回波数据发送到接口单元,经信号处理单元进一步处理后得到成像结果。绘制出系统工作时主要数据流向如图2所示。
图2 系统主要工作流程
第二步,确定顶事件。将待诊断的无法成像故障作为顶事件。
第三步,绘制故障树。根据系统结构,绘制出故障树如图3。
图3 故障树示意图
第四步,分析故障树。
天线模块故障:天线单元故障或波束控制单元故障时会导致天线模块故障,其中天线单元故障时,会导致回波信号质量下降或无回波,与无法成像故障现象不符,波束控制单元故障时会导致成像异常,也与无法成像故障现象不符,因此可以认为底事件I0101或底事件I0102发生时,顶事件发生概率为0。
综合频率模块故障:收发单元故障或频率综合单元故障时会导致综合频率模块故障,其中收发单元故障时,会导致回波信号质量下降,与无法成像故障现象不符,频率综合单元故障时,会导致无回波,依然会产生噪声图像,与无法成像故障现象不符,因此可以认为底事件I0201或底事件I0202发生时,顶事件发生概率为0。
综合处理模块故障:任务管理单元故障、采集单元故障、信号处理单元故障或接口单元故障发生时,均会导致综合处理模块故障,其中任务管理单元故障时,系统无法执行工作任务,与无法成像故障现象不符,信号处理单元故障时,会导致无回波数据,与无法成像故障现象不符。因此可以认为底事件I0301或底事件I0303发生时,顶事件发生概率为0。进一步分析采集单元故障子树和接口单元故障子树,采集单元硬件或驻留软件故障时,将导致无相应数据处理,既无法产生图像,与无法成像故障现象吻合。接口单元硬件或驻留软件故障时,将导致图像数据无法输出,与无法成像故障现象吻合。因此可以认为底事件I030201、底事件I030202、底事件I030401或底事件I030402发生时,顶事件发生概率为1。
电源模块故障:天线供电故障、综合频率供电故障或综合处理供电故障均会导致电源模块故障,其中天线供电故障或综合频率供电故障时,成像结果均为噪声图像,与无法成像故障现象不符,综合处理供电故障时,综合处理模块无法工作,系统无法工作,无法执行工作任务,与无法成像故障现象不符,因此可以认为底事件I0401、底事件I0402或底事件I0403发生时,顶事件发生概率为0。
第五步,简化故障树。根据上一步分析故障树的结果,简化故障树如图4。针对简化后的故障树,进一步排查分析,通过硬件BIT检查和链路数据分析,排除采集单元故障和接口单元硬件故障,定位出本次故障源为接口单元驻留软件故障。
图4 简化后的故障树示意图
完成故障源定位后,通过对接口单元驻留软件进行源代码审查分析,确认本次故障为程序设计缺陷。
在装备的设计研发和使用过程中,对故障的快速定位和排除具有重要意义,本文通过实例介绍了故障树分析在合成孔径雷达故障定位中的应用,结果表明在结构复杂的电子装备系统中应用故障树可以实现快速准确地定位故障源。通过归纳总结装备系统的故障模式,不断完善故障树,可以进一步开展设备健康管理研究。