刘洋,粱剑东,何文波
(1.中国电子科技集团公司第二十九研究所,四川 成都 610036;2.中国人民解放军驻电子29所军事代表室,四川 成都 610036)
故障分析是可靠性活动中非常重要的一环,客观、准确的故障分析结果往往具有很高的价值。通过它可以发现故障发生的成因,并能指出它发生在哪一个环节上。因而能让我们有目的地实施纠正措施,避免或减缓事态的发展和损失的扩大。这对于产品设计或工艺可靠性的增长和改进是十分必要的。而这些积累下来的经验教训又可以指导日后的设计和生产,防范于未然。
我们知道,产品的生命历程是由:需求—设计—物资采购—装配—调试—试验—使用等环节组成的。在这些过程中,如果某一环节出现疏忽或引入缺陷,便有可能会在其后面的环节中出现故障。而故障分析正是从故障表征出的信息出发,通过使用适当的分析方法和调查手段进行故障成因分析,从而确定故障机理,定位故障环节,为有效地制定和实施故障纠正打下基础[1]。这一工作往往需要非常细致的调查,分析过程也可能会耗费较多的时间。但一旦将故障分析透彻,就能让我们更好地改进设计和工艺流程,就能更好地使产品发挥其应有的效能。
那么,在故障分析时应注意哪些问题呢?故障分析的方法又是怎样的呢?
大家都知道,侦探破案总是通过案件现场所发现的蛛丝马迹,一步一步地经过分析和推敲,适时地运用一些小试验,从而逐步地逼近案件的真相,解开案件的谜团。故障分析也是一样,故障现场往往会给分析人员提供第一手的信息。因此,对故障现场的保护和取证是非常关键的。当产品出现故障时,在分析专家到来前,我们应保持其原貌。必要时,应对典型的故障环境进行拍照或记录,以便进行分析。
在产品发生故障时,把失效的元器件拆下更换掉,也许能解决一时的问题。但对于故障分析来讲,这是非常不利的事情。因为,它销毁掉了必要的故障分析线索。当某一类故障趋势比较明显,且发生频繁或影响严重时,进行故障分析就显得尤为重要。而此时最坏的做法就是不断地对故障产品进行修复后,并陆续将其交付到用户手中。这只会使售后负担加重,增加售后维护费用,更不利的是故障频繁会严重影响产品的声誉。因此,在故障出现时我们需要注意以下事项:
1)保护和记录故障现场,包括记录故障时的环境应力、异常声响,留下失效产品或器件等,以备分析用;
2)不要轻易地试图修复断裂或损坏的产品部件,因为这些故障件上的痕迹往往会留下产生故障的线索;
3)对间断性故障应及时地停止操作,以免构成永久性故障而破坏掉造成间断故障的线索。
故障现场所提供的大量信息可为故障分析提供证据,但真正的分析还需要靠故障分析人员运用合理的分析方法和分析工具。
故障分析中常会用到可靠性分析技术中的一些方法,如故障模式分析(FMEA)和故障树分析(FTA)[2]。在这里我们主要介绍FTA,即利用故障树进行分析,因为大多数的故障都是由一连串事件组成的。因此,利用故障树进行分析能让我们更清楚地了解这些事件发生的时间顺序和关联性,为我们确定故障的机理和成因提供依据。图1是某产品中,电容烧毁事件的一个较为简单的故障树。
有了故障树后,再进行故障分析就比较容易了。当然在最初建立故障树的过程中,有可能不太完善,但随着分析的深入和原因的排除,故障树便会越来越细致,并能显现出其辅助分析的良好效果。因为它帮我们理清了需要寻找故障根源的线索。接下来的分析只需证明或排除故障树上的链路是否在故障现场发生,现象是否与故障现场一致。这样,故障分析人员不但可以发现问题的根源,而且还能将故障发生的顺序和现场的故障现象对应起来。
图1 电容烧毁事件的故障树
在进行故障分析时,往往会用到许多的仪器和设备来证实我们对故障原因的分析。比如,在怀疑某产品是由于瞬态变化(干扰)造成的故障时,往往会用到记忆示波器或数据采集器加以观测;对于某些微波集成电路的故障常采用高倍数的显微镜来观测其故障根源;寻找应力型故障则需要使用必要的环境应力设备来模拟故障现场的应力环境,以便使故障显现,帮助分析人员进行观测。这些仪器和设备都大大加速了分析的进程,并为故障分析提供了必要的数据和证据。合理地使用分析仪器和设备会大大提高分析工作的效率。
由于故障的引入往往出现在产品的生命历程的某些过程中。那么,故障的成因分析就应该从产品的形成过程中和使用过程中来寻找。通过找出这些故障成因,将有利于我们优化设计、加工过程,并为有效地避免故障的发生提供依据。主要故障成因分析的检查点应放在:1)是否是由于环境未加以控制所引入的缺陷;2)管理上是否存在漏洞;3)操作加工人员所接受的培训是否适当等。
通过故障分析了解了故障的机理后,分析人员应该提出合理、可供实施的纠正措施与建议。这些内容包括增加或改进工艺控制流程,改进电路设计(热设计、降额设计、防瞬态设计和电磁兼容设计等),控制物资供应商的供货质量以及修改技术指标等。当然,分析人员也应根据故障产品所处的阶段来提出当前的故障处理办法。
实施了纠正措施后,是否有效,则要依赖于我们的纠正措施解决了什么问题,以及是如何改进的。比如,如果实施的纠正措施是解决振动应力下产品掉电的问题,那么只需要观察已纠正后的产品在同等或更高的振动量值下,是否出现掉电现象来加以验证。当然,为了提高效率,在多数情况下这些纠正措施的验证是会用到一些加速应力试验的方式来进行的。
下面通过一些实际的案例来加以说明故障分析的要点。
在装配过程中,由于装配人员对某些新工艺技术未能掌握,往往会引入一些缺陷。而这些缺陷并不一定能及早地暴露出来。下面是一个在电缆装配中引入故障的案例。此案例的故障分析中应用了FTA方法和解剖分析手段。
a)故障现象
某产品进行应力筛选至第5循环时,高温+70℃进行性能测试发现功能异常,表现为开路。而常温及低温应力下故障现象消失。
b)现场分析
根据故障树分析,故障成因可能是产品内部原因和外部原因造成的。单独进行高温试验发现,该产品并无故障现象发生,因此基本排除了产品的内因。而重新到故障现场进行试验时发现故障现象又再发生。开箱在+70℃进行电缆测量,发现内部一电缆的04X5接头第G芯与FL9-2分离头的16芯开路(本应接触良好)。当温度略为下降后,该现象消失。因此初步分析确定为该电缆在高温应力下发生开路故障。
c)故障机理分析
经过在电缆装配现场对故障电缆进行解剖分析发现:如图2所示的FL9-2_16芯线与04X5_G芯线仅凭热缩管压缩连接在内层,而并未有效地焊接在一起。这种结构的电缆焊接技术是靠控制温度+130~+150℃的高温对热缩管热缩,并溶化焊料使电缆有效地焊接。调查中了解到由于新近来的装配人员对此操作工艺不太熟悉,对热缩管的温度控制没有达到规定的温度,仅仅将热缩管缩紧而未使焊料溶化。因此,造成该电缆在多次热循环后出现故障。
d)纠正措施
进行电缆装配人员的技术培训,使其了解并掌握此类电缆的焊接技术,并在操作时按正确的规程操作。
图2 电缆故障机理
某产品在应力筛选振动过程中经常出现晶体振荡器失效的问题,经过多次分析未能有效地找出问题根源。而在一次故障破坏比较严重的事件中,找到了问题的原因。此案例说明应对故障件进行细致的观测,找出故障之间的联系。
a)故障现象
某产品在筛选振动3 min后,测试产品性能,发现产品无输出。停止振动并取下产品,用手摇动产品有异常的响动。
b)现场分析
拆装检查发现多处器件受到损伤,且有器件从固定点脱落。同时发现印制板背部的横梁螺钉安装处出现裂纹。
c)故障机理分析
通过对故障件位置的观测,发现故障件(有源晶振、电阻、电容和对数视放等)多发生在SPST安装位置处。情况如图3所示。所以故障的发生和应力集中在SPST附近。
图3 故障件分布图解
(注:图中的3层分别为(由上自下)印制电路板、铝制安装板和铝制外壳体(较重))。
而其他相似型号的产品则无故障,特别是晶体振荡器。通过对结构的对比分析发现,此产品的印制电路板、铝制安装板和铝制外壳体仅在两端和中心点有固定。因此,此产品在安装时,几个不同的安装层在微观上会产生弹性形变,此形变在振动时会造成共振,快速地放大输入能量,如图4所示。
图4 微观的机械变形
继续对故障件进行观察发现,SPST的安装面,仅有两颗螺钉进行固定(两点只构成线而不构成面,如图5所示),造成螺钉的紧固力不良。这样,SPST最终在综合的应力下发生脱落。在SPST脱落后,成为相对自由体,且不断地冲击安装板,此能量通过铝制外壳体和铝制安装板传递到印制电路板上而作用在元器件上,最终导致如故障报告中所述的故障现象出现。
c)纠正措施
更改设计,增加三板之间的固定连接点(最好能去掉中间的铝制加强板),使变形降至最低限度。对SPST的固定形式应增加固定点(最少采用3个固定点),使其微观位移减至最低。
在完成纠正后,多批次的该产品在筛选振动中都没有再出现晶体损坏的情况。
图5 仅有两个安装点的SPST
此案例较为简单,在此仅简要地说明。某产品在高温试验过程中经常发生电容爆裂故障。在对电路进行分析时发现此处所使用的钽电容器的额定电压为16 V,而电路在此处的工作电压为15 V。这属于降额设计不到位所带来的隐患。在一般常温状态下,由于调试环境较好,电路未产生故障。而在高温情况下电路负荷加重,故障便会发生。针对此,电路做了设计更改,更换了一只耐压36 V的电容。在此后的试验中,此故障再未发生。
此故障属于典型的设计不当,一般有经验和经过可靠性技术培训的设计师都不会犯此错误,因此,必要的可靠性培训工作必不可少。
故障分析作为可靠性活动中的一个环节,具有很高的价值。通过故障分析和改进措施的实施不但能使产品的可靠性和质量达到一个新的水平,还能使我们的设计生产过程处于一个良性的循环过程,并能不断地优化工艺流程,剔除设计缺陷。更重要的是,通过失效分析,我们能积累许多宝贵的经验教训,这些知识可以让我们少走弯路。同时,通过对故障分析的积累,可以形成设计上应该注意的某些规则,以及制造过程中用于培训新员工的典型案例等等,从而做到对故障的预防。而这些,往往能在降低设计生产成本,规避设计风险上起到积极的作用。
[1]周海京,遇今.故障模式、影响及危害性分析与故障树分析[M].北京:航空工业出版社,2003.
[2]GJB/Z 1391-2006,故障模式、影响及危害性分析指南[S].