武坚 孙东旭 武健
摘要:在电子产品的设计、生产和使用阶段,故障树可帮助完成产品的可靠性分析,并根据分析结果改进设计方案。该文通过对FC总线接口模块进行基于故障树模型的可靠性定性和定量分析,形成了FC总线接口模块的故障树建模,并通过建模发现了潜在的失效模式及设计中的薄弱环节,提升了产品的可靠性。
关键词:故障树;FC总线接口模块;可靠性分析
中图分类号:TP393 文献标识码:A
文章编号:1009-3044(2021)10-0046-02
1 引言
可靠性是指产品在规定条件下和规定时间内,完成规定功能的能力[1],它是通过系统设计赋予的一种产品特性。可靠性概念自提出以来,可靠性理论、可靠性建模以及可靠性统计等分析方法已大量应用于航空航天、兵器船舶等多种技术部门中。其中对于硬件产品的可靠性分析主要通过机理模型分析和统计分析,具体方法包括故障树、FMEA、因果框图等[2]。随着科学技术的发展,硬件产品变得复杂起来,通常会出现电源电路、时钟电路、协议处理电路等多种电路交联的情况,设计者需要从设计初期就开展产品的可靠性分析工作,对可靠性差的功能电路进行改进和完善。本文选取故障树分析法,对围绕FPGA设计的FC总线接口模块开展可靠性建模及分析,通过定性和定量分析,找到了设计中的薄弱环节,提升了接口模块的可靠性。
2 可靠性定性与定量分析
故障树分析方法是由贝尔实验室H.A.waston于1961年提出的一种自顶向下识别系统故障的方法,它把所研究的系统最不希望发生的顶层失效事件作为分析的目标, 然后系统地找出能够导致该失效事件发生的所有单个失效和失效组合,并将其列于该顶层失效事件的下一层[3]。这些可能导致顶层失效事件发生的所有失效事件的集合被称为割集[4],若该集合中的所有单元是导致顶事件发生的最低限度,则该割集被称为最小割集。故障树的定性分析就是建立在最小割集的基础上的,定性分析的目的是找到导致顶事件发生的所有割集,通过故障树建模,可以对产品的各级功能电路进行分析,从而获取割集信息,同时判断割集的阶数及性质。因此,故障树的建立将直接影响到产品的可靠性分析准确程度。
当通过定性分析获取产品的割集信息后,面对多个割集通常并不知道哪个割集对于顶事件发生的关联程度较大,此时需要对各个集合的重要程度进行研究。可靠性的定量分析就可以获取各个底事件的发生概率,从而计算出顶事件的发生概率,再去确定每个最小割集的发生概率,最终确定该类割集的重要度,即对顶事件发生的贡献度,以便改进设计、提高系统的可靠性和安全性水平。本文采取Fussell-Vesely重要度参数作为衡量割集重要程度的指标,能够考察割集对于顶事件发生的关联程度,其指标值越大,说明该割集内的事件越不可靠。
3 FC总线接口模块可靠性建模
本文研究对象为一种基于FPGA设计的FC总线接口模块,
在接口模块硬件设计中,围绕FPGA,搭建电源、时钟、存储和光电转换等功能电路,总体结构框图见图1。
该FC总线接口采用5V供电,在模块内部通过DC/DC芯片及功能电路将5V转换为芯片所需的3.3V、1.8V和1.2V等电源电压。为了确保FC总线的正常通信,产品使用40MHz和212.5MHz两种时钟,分别为系统时钟和FC工作时钟,由两个晶体振荡器提供,在FPGA外围搭建了存储电路,使用SRAM芯片用来存储维护程序、应用固件等信息,FLASH芯片用来存储FPGA工作用的逻辑文件,NVRAM用于存储故障信息或其他系统要求的关键信息,便于系统综合过程中的故障排查。FC总线电信号与光信号的转换则通过光电收发器件实现,通过FPGA的高速串行接口,使用交流耦合方式,连接到光电收发器,转换为光信号之后,通过MT接口形式引出到接口模块外。
该接口模块对外提供高速差分串行数据接口和FC总线通信接口,通过高速差分串行数据接口接收内部数据,通过FC总线通信接口实现与外部系统之间的点到点单向数据传输。结合接口模块功能,其关键失效模式为模块不工作,对外通信中断,因此选择FC总线接口模块不工作作为故障树分析的顶事件,根据模块硬件电路结构,其电源、协议处理、时钟等功能电路失效时,均有可能导致FC接口模块无法正常工作。采用Isograph软件对顶事件绘制故障树,其中顶事件FC总线接口模块不工作的故障树如图2所示。
其每一个中间事件均能继续展开,如GT8展开时故障树建模如图3所示。
根据对FC总线接口模块的故障树建模,可以确定最小割集事件描述,包括“电源滤波电容短路”“逻辑存储芯片失效”“电源无输出”“时钟接口不工作”“复位芯片输出异常”“调节电阻参数漂移”等。从最小割集的分析结果可知,所有的最小割集为一阶最小割集,即任意的底事件均会导致顶事件的发生,需尽量降低每个底事件发生的概率。由于所有的最小割集的重要度均为一阶最小割集,因此底事件重要度与最小割集重要度相同。经过计算,部分底事件的Fussell-Vesely重要度如表1所示。
根据故障树定性和定量分析结果,FC总线接口模块电源滤波电容短路,逻辑存储芯片存储错误,FPGA电源接口故障、电源芯片无输出或输出错误对顶事件FC总线接口模块不工作贡献较大,具有较大的重要度。在对滤波性能进行充分验证的前提下,可适当减少滤波电容数量,降低顶事件发生的概率,经设计改进后,顶事件发生的概率有了显著降低,提高了接口模块的可靠性。
4 结束语
本文提出了一种基于故障树的FC总线接口模块的可靠性分析方法,通过原理分析,确认了故障树的顶事件,并根据模块结构进行了故障樹分析建模,结合故障树对接口模块开展了可靠性定性分析和定量分析,通过分析找到了接口模块设计中的薄弱环节,对这些薄弱环节整改后,顶事件发生的概率有了显著降低,提高了FC总线接口模块的可靠性。
参考文献:
[1] 李良巧,等.可靠性工程师手册[M].中国人民大学出版社,2012.
[2] 郭强,王秋芳,刘树林,等.系统可靠性理论:模型、统计方法及应用[M].国防工业出版社,2011.
[3] SAE International. ARP4761 Guidelines and Methods for Conducting the Safety Assessment Process on Civil Airborne Systems and Equipment [G].1996.
[4] 杨承刚,朝格图胡日都,李茂林,等.汽轮机故障树诊断方法研究及应用[J].装备制造技术,2014(11):50-54.
【通联编辑:代影】