故障树分析法在某型飞机DPC模块故障诊断中的应用

2015-08-07 14:18
大众科技 2015年3期
关键词:应用程序时钟分析法

陈 帅

(中航工业西安航空计算技术研究所,陕西 西安 710065)

故障树分析法在某型飞机DPC模块故障诊断中的应用

陈 帅

(中航工业西安航空计算技术研究所,陕西 西安 710065)

故障树分析法是可靠性分析中常用的一种分析方法。它具有很大的灵活性,可以根据图形演绎的方法清晰地分析出系统的各种故障状态,也可以围绕某些特定的故障做层层深入的分析。在科研生产中,故障树被技术人员广泛应用于故障分析的过程中,效果甚佳。文章以某DPC模块低温故障为例,详细阐述故障树的原理及实效使用。

故障树;分析;DPC

1 引言

某型飞机系统的数据处理模块(以下简称“DPC模块”)结构复杂,排故周期长、困难大,故障原因难以定位。我们急需一种方法来对故障及时做出准确判断、查明故障部位、找出故障原因及排除方法,这样可以大大减少产品维修的盲目性、缩减经费、提高效率。而在目前的科研生产中,故障树分析法正越来越受到技术人员的“青睐”。实践证明,故障树分析法在DPC模块的故障定位过程中可以发挥很大的作用,我们可以从上至下画出故障发生的逻辑框图,可以直观地看出DPC模块故障发生的各种原因,并对系统进行全面的分析,从而确定故障发生的原因,采取相应的维修措施和改进办法,收效甚好,可以大力推广使用。

2 故障树分析法

故障树分析法(Fault Tree Analysis,简写FTA)是通过对可能造成产品故障的硬件、软件、环境等因素进行分析, 画出故障原因的各种可能组合方式和其发生概率的一种分析技术。它具有很大的灵活性,可以根据图形演绎的方法清晰地分析出系统的各种故障状态,也可以围绕某些特定的故障做层层深入的分析。

在使用FTA分析法的时候,故障树模型以系统最不希望的事件为顶事件(根节点), 以可能引发顶事件的其他事件作为中间事件(中间节点)和底事件(叶节点)。故障树的建立步骤主要分以下四步:a.确定顶事件,是指确定要分析的对象事件,顶事件是一个系统最不希望发生的事情,一般情况下,我们将频繁发生的故障或比较危险的事件作为顶事件。b.分析顶事件,调查分析与顶事件有关的全部原因,再将顶事件作为输出时间,所有原因作为输入条件。c.分析输入事件,若此事件还能继续分解,就把它作为下一级的输出事件。d.依照上面的步骤,层层向下分解,直至所有的输入事件不能再分解。

3 DPC模块故障分析与定位

3.1 问题概述

某型飞机系统的DPC模块,负责整个系统的数据计算、数据管理和VME总线传输控制。在进行环境应力筛选试验时,试验人员发现某DPC模块在低温-55℃时自测试故障。

3.2 DPC模块工作机理

DPC模块采用PC755处理器平台,对外为VME总线接口,其组成结构如下图1所示。

图1 DPC模块系统架构

DPC模块为处理器PC755+桥接器PC107平台结构,还配置存储器电路、VME桥电路、以太网接口电路等功能部件,完成分机的数据处理功能。

3.3 故障树的建立与分析

故障的DPC模块在低温(-55℃)环境下,1小时后,通过多次上电测试验证,发现故障在测试程序加载环节。当该DPC模块加电后,引导程序(Boot)和操作系统启动正常,但在用户应用程序启动正常加载操作时,DPC模块无响应,应用程序未能正常启动。下面对问题从故障树角度,逐一对各个影响因素进行分析。针对DPC模块应用程序无法正常加载的故障原因进行分析,本次故障的故障树如图2所示。

图2 DPC模块应用程序无法启动的故障树

引起该DPC模块应用程序无法正常启动的故障原因如下:

(1)软件故障:包括DPC模块的引导程序故障和操作系统程序故障;

(2)硬件故障:包括电源电路故障,复位电路、时钟电路故障、处理器电路故障和存储器电路故障。

3.4 利用故障树定位故障原因

3.4.1 软件故障

(1)引导程序故障

DPC模块处理器在上电后,运行引导程序完成对处理器PC755,以及PC107桥进行存储器、IO等接口的初始化配置进行初始配置,包括:处理器访问空间设置,PC107桥SDRAM接口初始化,UART初始化等配置操作。若硬件配置操作错误,会导致启动异常。

DPC模块中的引导程序是一个经过软件测评后版本确定的引导软件,该驱动程序已经在同批次的多台分机上进行了验证测试,都未发生该故障现象。经查过程记录,故障的DPC模块上的引导程序软件已按照软件配置管理规定办理了相关的软件出入库手续,确认固化版本状态正确,所以排除引导程序故障。

(2)操作系统程序故障

DPC模块中的操作系统程序是一个经过软件测评后确定版本软件,且该操作程序已经在同批次的多台分机上进行了验证测试,都未发生该故障现象。此次故障的DPC模块的操作系统程序软件经过检查记录核实,已按照软件配置管理规定办理了相关的出入库手续,确认固化版本状态正确,因此排除操作系统程序故障。

3.4.2 硬件故障

(1)电源电路故障

DPC模块功能电路是否能正常工作的前提,是各级电压是否正常。

通过万用表对DPC模块的3.3V平台电压,2.5V桥芯片(PC107)核工作电压以及FPGA核工作电压,2.0V处理器核工作电压进行了常温测试,测试结果如表1;

因此次故障发生在低温环境下,通过示波器对DPC模块的3.3V平台电压,2.5V桥芯片(PC107)核工作电压以及FPGA核工作电压,2.0V处理器核工作电压进行了低温(-55℃)测试,测试结果如表1;

表1 供电要求及实测结果

经数据对比表明,上述三种电源均满足设计要求。此外,引导程序和操作系统能够正确执行,并且通过仿真器连接处理器进行测试程序的运行,也表明电源电路工作正常稳定,故排除电源电路故障。

(2)时钟电路故障

通过对DPC模块的运行机理分析,时钟电路是处理器PC755、PC107桥、FPGA、PCI设备正常运行的关键要素,其功能指标特性直接影响到处理器PC755、PC107桥、FPGA、PCI等设备,是DPC模块实现数据处理功能性能,以及各项技术指标要求的保证。

①PCI桥时钟电路

DPC模块的时钟网络使用的是PC107桥的时钟电路,如图3,外部晶振输出33MHz时钟到PC107,然后PC107分别产生66MHz提供给处理器和SDRAM使用,提供33MHz时钟供PCI总线使用。因故障发生为PCI总线,因此重点对33MHz输入时钟和33MHz输出时钟进行测量,测试时钟是否满足PC107时钟特性要求,主要测量参数有:时钟上升下降沿,占空比,jitter(抖动)。

图3 时钟网络示意图

通过示波器测量PC107桥的工作时钟(33MHz),CPU工作时钟(66MHz),FPGA工作时钟(64MHz),VME桥芯片(UniverseⅡ)工作时钟(64MH),及PCI总线工作时钟(33MHz)。测量结果如下:

PC107桥的33MHz输入端时钟信号OCN_IN的测量结果为:

上升1.2ns,下降沿1.2ns,占空比49%,jitter:108ps;

33MHz输出端时钟信号PCI_SYNC_IN测量结果:

上升1.2ns,下降沿1.2ns,占空比49%,jitter:90ps。

对比PC107桥生产商提供的技术资料,表明测量结果数据满足PC107对时钟特性的要求。

在CPU模块上电过程中,针对性地进行了PC107桥的时钟信号测量,测量得到的波形见图4。当5V电源启动后,PC107桥的PLL在3ms后开始输出33MHz的PCI总线时钟信号。在低温条件下,进行相同测试,结果一致,时钟信号正常,表明PC107内部锁相环电路工作稳定,测量结果也满足器件手册要求,故排除上电过程时钟电路故障。

图4 时钟上电过程的波形图

VME总线桥时钟网络如图5,输入时钟有33MHz,64MHz,输出为16MHz。因故障发生为PCI总线,因此对输入时钟33MHz进行测量,VME总线桥手册上无关于PCI时钟的参数要求,因该时钟为PCI107输出,测量能满足PCI107输出即正常。

图5 VME桥时钟网络

测量结果满足PCI总线规范对时钟信号的特性要求,因此时钟电路满足VME总线桥工作要求,排除VME桥时钟电路故障。

③时钟电路总结分析

在低温(-55℃)条件下,通过示波器测试以上时钟信号的参数,测试结果各项指标均正常,满足各级器件对时钟信号要求。

通过上述测试结果,证明时钟电路功能正常,排除时钟电路故障。

(3)处理器电路故障

处理器电路包括处理器PC755、PC107桥、复位电路等功能部件,保证处理器PC755能够正常完成对存储器单元的取指、运算以及数据输入输出功能指令代码的执行,保证DPC模块的数据处理功能和性能满足技术指标要求。DPC模块的性能受到外部电应力影响而受损。

假设该公司2017年采购10000件,单位成本16元,销售15000件,结转销售成本=10000*16+3000*18+2000*15=244000元

在低温(-55℃)环境下,通过连接TRACE32仿真器对处理器电路进行测试,PC755的上电启动、程序加载、代码执行功能均正常,加载测试程序进行处理器PC755和PC107桥的测试,处理器的加、减、乘、除等基本运算正确,浮点运算正确,定时器和中断功能均正常。通过上述测试,证明处理器电路无故障。从故障现象上看,故障仅是发生在应用程序启动时,之前进行的引导程序和操作系统均加载、运行正常,表明处理器电路功能(运算、load/store、中断、定时器等功能)正常,排除处理器电路故障。

通过上述测试,证明处理器电路功能正常,排除处理器电路故障。

(4)存储器电路故障

①FLASH故障

FLASH存储器用于保存引导程序、操作系统程序以及用户应用程序固化代码,在处理器初始上电时,执行FLASH中的硬件初始化,代码搬家操作,实现引导程序和操作系统程序代码从FLASH到SDRAM的加载过程。

低温(-55℃)下,对FLASH电路进行以下测试:

将DPC模块加电后,通过连接TRACE32仿真器对FLASH地址空间进行测试,发现FLASH内数据正确。通过写序列操作修改FLASH内数据,修改正确。DPC模块进入地面引导状态,当进入用户应用程序时,通过示波器测试FLASH的“片选信号”和“使能信号”,片选信号和使能信号正常,但是用户应用程序仍无法启动;重新将DPC模块进入地面引导状态,进入FLASH固化目标码界面,进行“写FLASH”操作,通过示波器测试FLASH的“片选信号”和“读信号”,片选信号和写信号正常,FLASH能够正常固化目标码;

经过上述测试,证明FLASH电路功能正常,排除FLASH故障。

②NVRAM故障

NVRAM存储器用于保存关键数据和用户数据,在处理器初始上电时,读取NVRAM的数据,实现引导程序、操作系统程序和用户应用程序关键数据的读取,同时保证处理器下电时,将关键数据保存。

低温(-55℃)环境下,对32KB的NVRAM空间进行读写测试正常,下电后重新上电测试,数据可以保存。将DPC模块进入地面引导状态,当进入用户应用程序时,通过示波器测试NVRAM的“片选信号”和“使能信号”,片选信号和使能信号正常。

经过上述测试,证明NVRAM电路正常,排除NVRAM故障。③SDRAM故障

SDRAM存储器用于加载引导程序、操作系统程序和应用程序代码,并保存程序代码中的堆、栈等配置。

低温(-55℃)下,对SDRAM进行以下测试:

更改Pubit测试程序,扩大了NVRAM、SDRAM以及FLASH测试的空间,以及增加测试过程中数据的监控。将DPC模块在低温(-55℃)下存储1小时后,进入空中引导状态,进行DPC模块上电Pubit测试,发现NVRAM、FLASHPubit测试报错,但是通过分析监控的测试过程数据,测试过程的数据值相同,最后判断的结果却不一致,对比故障树的其它分支(处理器电路、FLASH测试、NVRAM测试)的测试结果,初步判断SDRAM的部分空间“读”存在问题。

将DPC模块加电后,通过连接TRACE32仿真器对SDRAM地址空间进行写测试,写入数据(例如:0x0,0x55555555,0xaaaaaaaa以及0xffffffff),发现地址空间0xDA00-0xDFF0,D45位SDRAM芯片的部分单元数据错误,无法写入。

经过上述测试,确定D45位SDRAM在低温(-55℃)下,部分单元读写错误,导致DPC模块无法正常启动,在终端上无输出。

3.5 故障定位总结

利用故障树分析法,笔者最终定位此次故障原因为SDRAM芯片损坏。该DPC模块在低温(-55℃)环境下,D45位SDRAM出现故障,部分单元无法正确读写,导致DPC模块无法正常启动用户应用程序。更换该芯片后,DPC模块工作正常,故障排除,证明故障树分析法得出的结论正确。

4 总结

实践表明,故障树分析法能够有效快捷的处理DPC模块故障,同理,在处理结构相似的CPU、MBI模块故障时,故障树分析法都能派上用场。它能从故障现象着手理清各种原因及其逻辑关系,从而实现快速的诊断。它相对于直接经验方法而言,具有逻辑性强,不易遗漏各种可能故障原因等特点,对复杂故障的分析和故障点定位具有较好适用性,给科研技术者提供了一个高效的排故选择。

[1] 陈越洲,谭琳,邢维艳,等.一种新的故障树定性分析方法[J].计算机工程,2008,34(13):67-68.

[2] 张丽卿,王瑞峰.故障树分析法在信号设备中的应用[J].科技信息,2007,(5):47-48.

[3] Huang Hongzhong,Zhang Hua,Li Yanfeng.A new ordering method of basic events in fault tree analysis[J].Quality and Reliability Engineering.International,2012,28(3):297-305.

[4] 李岩,范书义.基于故障树的诊断知识库设计[J].武器装备自动化,2006,25(3):13-14 .

[5] 柯铭铭.故障树在无人机发射机故障诊断中的应用[J].现代电子技术,2011,(19):18-20.

[6] 王杰.模糊综合评判在故障树分析法中的应用[J].电子设计工程,2012,20(6):41-43.

Application of Fault Tree Analysis Method in Fault Diagnosis of a Certain Type of Airplane DPC Module

Fault tree analysis method is a common method in reliability analysis,it is very flexible.It can analyse any fault state syllabify by the method of graphics deduction,and could analyse thoroughly based on some special fault.In scientific research and manufacture, Fault tree analysis method is used widely in fault analysis by engineers,the effect is superduper. This article expatiates the theory and use of the fault tree analysis in example of a certain DPC module's low temperature fault.

Fault tree;analysis;DPC

V26

A

1008-1151(2015)03-0012-04

2015-02-10

陈帅(1987-),男,江苏淮安人,中航工业西安航空计算技术研究所助理工程师,从事计算机应用方向的研究。

猜你喜欢
应用程序时钟分析法
异步机传统分析法之困难及其克服
别样的“时钟”
古代的时钟
删除Win10中自带的应用程序
谷歌禁止加密货币应用程序
基于时间重叠分析法的同车倒卡逃费探析
有趣的时钟
层次分析法在SWOT分析法中的应用
时钟会开“花”
AHP和SWOT分析法在规划编制中的应用