葛名立
(中国电子科技集团 第十研究所,成都 610000)
目前机载电子信息系统集成度、复杂度不断增大,导致系统在外场使用过程中故障检测能力不足,耗费大量人力物力对故障进行检查定位,拉升了测试与维修成本。因此需要在这样功能复杂的系统中获得故障检测率、隔离率、模糊度、虚警率等测试性指标,并在前期设计阶段分析评估出系统的故障诊断缺陷以提升测试性设计,为系统后续的使用和维护提供保障。
音频设备是某大型运输机CNS分系统中的重要组成部分,该音频设备通过组建内部通信网实现机上各成员之间的话音通信;提供机载短波、超短波、JIDS和卫通等无线电通信设备音频接口进行机外话音通信;同时,还具有导航音监听、合成话音及音调告警、应急通信以及广播等功能。音频设备具有多用户管理以及控制全机音频节点的特点,为实现该复杂系统达到规定的测试性要求,以提高设备的战备完好性和任务成功性,减少对维修和其他资源的要求[1],降低寿命周期费用,需开展相关的测试性建模仿真工作。文中采用多信号流建模技术,对音频设备进行逐层分解,使用由顶向下或由底向上混合方式实现对复杂系统的层次化建模[2],通过迭代完善模型,有效提升设备故障的诊断隔离效率。
故障模式是指一个设备的损坏或失效的方式,在GB-7826解释为一个系统的部件中能被观察到的一种失效现象;而故障模式的故障影响是指明确的可观察的故障现象、影响、信号参数名称进行描述[3]。(是指产品的每一种故障模式对产品自身的使用,功能,状态的影响)。故障模式影响分析FMEA是分析产品中每一个可能的故障模式并确定其对该产品及上层产品可能所产生的影响[4],以及把每一个故障模式按影响的严重程度(severity)予以分类的一种技术。作为测试性建模的试验数据来源,FMEA统计到系统内所有LRU设备的各种大小故障、各种完全或部分故障的发生情况,按照图1中不同约定层次映射关系自底向上开展故障模式收集分类;同时为保证统计工作效率以及不同层次FMEA快速收敛,通过定义顶层功能故障模式,自顶向下逐层分解故障影响。统计填写每种故障模式的故障率,为后续指标核算提供依据。
图1 故障模式层次映射关系
系统硬件FMEA的故障模式应与上一层产品FMEA报告中的故障原因保持一致;同时在约定层次时,最低层次不能高于故障隔离要求中指定的层次[5],故障要求隔离到哪一层,层次结构定义就到哪一层,建模时在该层次枚举故障模式。
测试性模型是使用规定的方法和格式对系统或设备的组成单元、故障、测试等测试性要素及其相互之间关系进行描述的信息与数据的总和[6]。即使用简化和抽象的数据结构和形式表达产品中与测试性相关的特性的主要内容。其要素包括:约定层次、组成单元(模块)、故障模式、故障模式交联关系(故障的传播路径)、故障率(故障模式MTBF)、故障模式频数比、测试、测试与故障模式的关系、其它测试性信息。
测试性建模就是以简化及抽象的数据结构和形式来表达建模对象的测试性相关信息,利用工具软件仿真的手段完成对设备已有的FMEA表中的故障模式传递关系的逻辑描述。通过有向图[7]来描述装备功能、故障和测试三者之间的信息流,以功能信号为纽带联系起来,构成功能-行为-结构模型[8]。
多信号流图模型(MS-FGM,Multi-signal flow graph models)是由Somanath Deb和K.R.Pattipati等人于上世纪90年代提出的,该模型采用了分层建模的思想将故障修改为多维空间,建立的模型并非系统的准确定量关系。而是系统重要的功能属性,更接近于系统的物理功能结构,有利于描述系统各个模块之间故障的传播特性。多信号流图模型无需精确定量关系建模,建模容易,使一些复杂大型系统的测试性建模变得可行,并且模型失真度较小。
多信号流图模型通过定义信号(功能)与组成元件、故障模式、测试之间的关联性来描述系统的结构特性。该模型一般包含以下组成要素[9]:
1)有限的系统构成元件集C={C1,C2,…,CL};
2)与元件相关的独立信号集S={S1,S2,…,Sk};
3)可用的测试点集TP={TP1,TP2,…,TPr}
4)有限的可测试集T={t1,t2,…,tn};
5)有向图DG={C,TP,E},E表示系统的物理连接。
对应的每个测试点TPr对应一组测试集SP(TPr),每个元件Ci影响一组信号集SC(Ci),每个测试Tj测试一组信号ST(Tj)。跟踪系统每一元件影响的信号流向以及每一测试可以检测的信号[10-11],由此在模型中建立故障与测试的依赖关系。其中信号(功能)是指表征系统或其组成元件特性的特征、状态、属性及参量[11],既可以为定量的参数值,也可以为定性的特征描述,能够充分覆盖系统的结构信息。另外,模型中的信号是相互独立的,信号之间不会互相影响,便于分析故障的传播和影响,有效降低了模型的失真。
如图2所示,在测试性模型中,M用于表示建模对象的组成单元;故障模式(FM,fail mode)用于表示每个组成单元的故障模式;测试点(TP,test point)用于表示每个组成单元内部实现的测试方法;i和o分别表示组成单元的输入和输出。这些简称在实际的建模过程中均可更改为实际的名称。
图2 多信号测试性模型
从图2可以看出,多信号模型的图形表示方法基于系统功能原理图和结构框图,能将不同多信号流框图集成到一个整体的环境模型中,采取有向图的方式表示系统各模块之间的相互连接关系和信号流传播方向,并标注各模块相关联的检测信号、测试点的位置以及测试和相应检测信号的关联等信息,以此描述各组成模块、测试点与信号之间的相关性关系[12-13]。通过建立完整的多信号流故障依赖关系模型,确定哪些测试方法可以测到模块中哪些故障模式,从而进行系统或子系统级的可测试性设计和故障诊断分析,并利用已建立的多信号流故障依赖关系测试性模型,形成系统的故障相关性矩阵,进行测试性的分析。
在系统测试性指标分配时,就要考虑各组成部分可能达到的指标,以及类似产品的经验等,对系统可能达到的指标做初略的估计,形成最初的测试性分析。然后在详细设计阶段可以获得更多,更真实的数据,将相关的可靠性指标带入模型分析,得到的结果可以作为评价是否达到设计要求的依据。
测试性建模分析主要根据测试性设计资料,通过仿真来估算测试性和诊断参数可能达到的量值,并与规定的指标要求进行比较的过程。分析测试性定量要求[14],包括故障检测率、隔离率、概率加权模糊组。
用规定的方法正确检测到的故障数与同一时间内被测单元发生的故障总数之比。其数学表达式为:
其中:对于电子产品来说,检测率用故障率λ表达:
λ为被测产品的总故障率;λi为被检测出的故障模式的故障率;k为被检测出的故障模式数。
指用规定的方法将检测到的故障正确隔离到不大于规定的可更换单元的故障数与同一时间内检测到的故障数之比。其数学表达式为:
对于电子及某些机械产品的隔离率的数学表达式可改写为:
式中,λi为可隔离到不大于规定模糊度的故障模式的故障率之和;λD为被检测出的所有故障模式的故障率之和;λLi为可隔离到不大于规定模糊度的故障模式中第i个故障模式的故障率;p为可隔离到不大于规定模糊度的故障模式数。
一般情况下,被测对象各组成单元的可靠性是不会完全相同的,可靠性低的组成单元发生故障的可能性较大,应优先检测,赋予较大的检测与隔离权值,其间被测对象及其组成单元的可靠性数据(故障率)可从FMEA中获得。 优选测试点和制定诊断策略时,计算检测、隔离权值[16]还应考虑相对故障率大小。
各测试点的检测权值:
式中,WFDj为第j个测试点检测权值;ai为第i个组成单元的故障发生频数比;dij为被测对象相关性矩阵中第i行第j列元素;λi为第i个组成单元的故障率;m表示待分析的相关性矩阵行数。
各测试点的隔离权值,即:
式中,WFIj表示第j个测试点的隔离权值;Z表示分析的矩阵数。
建立完善、准确的测试性模型在很大程度上可帮助设计师发现并消除测试性设计缺陷(包括故障检测设计缺陷和故障隔离设计缺陷),进而确保产品测试性设计达到指标要求。参见图3开展系统的测试性建模流程。
图3 测试性建模流程
1)由顶层成品协议的具体要求分配设备级的测试性指标(定量要求值);
2)由产品设计组成及产品设计图纸输入,建立测试性模型;
3)根据硬件FMEA工作确定设备的故障模式以及故障模式的故障率;
4)将上一步获得的故障模式数据收集值输入测试性模型,并由专业软件进行测试性模型分析,获得其相关性矩阵、诊断策略、检测率,隔离率预计值[15];
5)将获得的故障检测率,隔离率预计值与要求值进行能力比较,以促成改进设计;
6)通过BIT软件设计,外部测试点选择完成设备测试性设计,并指导测试性分析;
7)绘制测试点选择流程图,明晰各模块输入、输出信息,反映故障传递路径,明确故障模式,测试点与信号的关系,用于定量计算检测率,故障率[15]。在模型建立好后,设计人员使用语法检查工具检查语法的正确性以保证完成的模型被计算机系统顺利处理和使用。
以某机载音频交换控制设备为例,按产品组成约定建模层次,完成LRU级,SRU级层次的FMEA数据收集,开展建立测试性模型。
音频交换控制设备(ASCU)在系统中主要实现各面板控制数据的接收、采集;并根据控制要素完成多路音频信号的交换路由处理,以及最终驱动输出至用户耳机。其中音频接口AI模块负责音频信号的接口匹配,如图4所示,使输入的音频信号阻抗匹配,满足负载及传输要求;音频处理AP模块是ASCU的音频加权、控制、混音、告警产生以及设备状态的控制中心,它由多路A/D、DSP、大规模FPGA和外围电路组成;数字接口IO模块实现ASCU设备的HB6096-1986接口,接收RIU无线电接口单元、音频控制面板ACP等指令信息,并上报音频处理设备的健康状况,向下将各种指令下发到音频控制面板(ACP)等外围设备,同时将音频面板的状态信息经过外围设备编码后上报到该模块。
图4 音频控制交换设备内部框图
根据ACSU设备的产品信息:包括组成信息、产品输入输出功能表、各模块 FMEA表及相关的测试信息输入表,将所有的故障模式与相关输入输出建立关联,并定义这些故障模式影响的输出信号,建立信号列表,描述出相应的故障传递路径[17]。
其中ASCU 的测试性模型如图5所示。
图5 音频交换控制设备ASCU
该模型表明了设备的对外输入,输出接口关系;该LRU设备的下层SRU级组成信号关系如图6所示。
图6 ASCU的SRU级互连关系组成
图6描述了设备测试性设计中功能传递部分的设计工作,即设备中的各模块信号的互连设计,使用建模工具在内场可更换单元SRU模块之间增加、定义互连关系[19]。如图6所示,按照设计方案中的所需实现的功能、模块间的信号连接关系在LRU级测试性模型中分配各SRU级功能模块的端口属性,信号属性以及编辑连接线,并在功能模块内部根据故障模式影响分配相关信号,以表示故障传递路径,建立测试性模型。首先机上各成员话音信号经过麦克风送入AI-A模型的mic等端口,经模块的预处理放大后送AP-A模型的i1,i2,i3端口;在AP-A模型中完成AD数字化采样,后同步送DSP信号处理器中准备进行混音、加权处理,其中的混音要素由IO-A模型提供。在此过程中PS模型为ASCU内各模块提供工作所需电压,其故障模式为无输出或供电性能下降。
IO-A模型通过ACP_in端口收集外部各音频控制面板(ACP)的控制信息,通过NET端口收集用户网络选择信息。在IO-A模块内部完成各类混音控制要素的解析、打包、传输,并由Tx422端口送至AP-A模块。同时通过模型中的429_out1, 429_out2端口将处理后的ACP指示灯应答信号返回至各ACP单元,作为其是否正常响应的判据。
在AP-A模型中按混音控制要素完成多路音频信号的控制交换后,混音后的信号由ear1,fear等端口再输入至AI-A模型的对应端口中,在其内部完成语音信号阻抗匹配、信号放大等工作。最终将输出信号由AI-A模型中o1,o2,o3端口分别输出至ASCU的com_out、fear以及AS模型中的aout1~aout4端口,在AS模型中经网络信号选择后输出至ASCU的ear1~ear4端口,完成全机音频信号交换。根据上述设备功能实现描述完成ASCU设备测试性模型建立。
模型中使用模拟音频信号、总线控制信号、离散量选择信号、电压信号等信号分配给模块中不同的故障模式,当模块或故障模式失效时会影响这个信号,信号在不同的故障模式中完成传递,转换;这些信号是可以被测试到的量,设计中通过上电BIT,周期BIT,人工检测等手段对上述信号进行测试,进而在模型中完成故障的传递、检测。
下面依次为内场可更换单元SRU建立其内部故障模式的描述,使用连线定义故障模式和输入输出端口之间的联系,并定义故障模式所影响的信号。以AP模块和IO模块为例,其内部故障传递路径如图7和图8所示。
图7 AP模块内部故障模型
AP模型中通过DSP内部定时器完成AD采样芯片同步帧检测,并通过处理器对比任意两时刻的AD采样值等方式可检查AD芯片采样是否故障;通过IO模块与AP模块间的周期保活监测串口通信是否故障;结合DSP处理器触发离散告警信号产生音频信号可判断离散信号采集是否正常;通过设备外部接口测试点监测发送到VTR的数据;通过对FLASH内部存储的数据进行累积,累积值与预计值相符时则判断FLASH工作正常。 模块通过自身的处理器上电bit等手段完成上述自检工作并将自检信息上报健康管理。
IO模型内部故障模式如图8所示,通过设计模块上电bit检测处理器等功能电路是否故障;通过与外围单元的通信握手,指示灯检测判断其自身429总线收发是否故障;通过与AP模块间二次握手判断其自身串口通信是否故障;通过时钟电路驱动的串行通信口与外设通信的结果判断时钟电路是否正常工作[20]。
图8 IO模块内部故障模型
AI模块由于不含处理器,自身不具备故障检测能力,需配合LRU内其余模块通过维护bit完成模拟输入、输出通路的环路自检。测试标称信号经过该模块后是否失真。通过该手段能有效检测AI模块内多路模拟音频通路。
建模完成后,通过TADS软件测试性分析,得到ASCU设备的检测率,隔离率以及可供参考的故障诊断流程。
表1 设备测试性指标 %
在此基础上为进一步提高测试性指标,对测试模型及测试策略进行优化设计。如优化BIT设计,优化布局测试点,增加对设备音频环路组合测试,覆盖设备内SRU模块模拟音频通路等,提升故障检测率、隔离率。
ASCU音频交换控制设备的启动BIT测试流程见图9,加电BIT和周期BIT是各模块在加电启动和周期任务时自动启动的。对于AP、IO模块可增加处理器指令集,外围电路,FPGA逻辑电路的读写校验检测;如选用TI DSP,在BIT测试时,DSP运行内部指令集,以覆盖处理器内部的硬件单元以及外设接口,若测试结果与预定的值不相符,则上报故障。各模块完成BIT后,将结果统一上报中央维护系统。当检测无CPU的模块时,如AI、AS模块,利用AP收到的BIT指令,产生1 kHz的正弦波,输出到AI模块的输出音频接口,信号经AS输出,利用设备的外部测试点,将外部的输入,输出音频通路短接,将基准音频信号返回给AP模块采样,通过对采样信号周期、幅度的判定测试AI模块通道是否正常工作,完成模拟音频通路的环路自检。同时对此类模块增加小规模辅助测试电路,在BIT启动信号控制下,完成PTT、网络选择等离散控制信号的检测。
图9 ASCU设备BIT启动流程
在测试性分析指导下,通过合理的测试点布局选取,配合交互式bit及人工检测手段完成各类离散信号,总线信号,模拟音频信号的检测;有效提高了测试性指标[22]。表2例举改进后部分故障模式检测情况。
表2 改进后诊断架构说明
通过上述测试点优化以及新测试手段加入,显著提高隔离到一个SRU的隔离率至91.7%。
测试性建模的意义在于可在已有设计、模型的基础上,通过不断优化,调整系统的BIT设计以及测试点设计,有效的评估系统的测试性指标,找出故障检测的薄弱环节,通过迭代不断完善系统的测试性设计。
文中对某机载音频设备进行了建模分析,经优化调整BIT设计以及增加测试手段,有效提高了设备测试性指标,优化设备的故障诊断流程,为真实使用时的故障诊断提供参考。通过上述的BIT设计及外部ATE测试等方法,能快速定位故障位置,确定是LRU级还是SRU级故障,便于外场维护使用,降低维护成本。为使用方提供良好的性能监控、故障检测和故障隔离能力。