丁锋 魏兰 宋宝丽 赵军号 章立军 孟双德
摘要:装备制造的批产稳定性和工艺一致性差,是当前装备产能扩充、质量提升中需要重点关注的问题。工艺过程精细控制、缺陷检测与持续优化是产品“零缺陷”交付的基石,传统以“合格”为目标,以“事后检验”为特征的故障检测研究方法,已经无法满足当代高可靠装备的质量评价要求。常规工艺检测方法已难以区分实际工艺水平高低。间歇性故障作为电子产品非常常见的故障,由于其本身随机性、间歇性且难以复现,所以非常难以检测与诊断。对于电子产品的间歇性故障,国内外均有相关先例的检测标准,且国外标准无论在适用范围还是量化指标要求上均优于现有国军标。如果对相关理论与技术进行总结整理,进行相关论证来明确技术指标,对设计方案做出指导,提出一种可以实时在线检测电子产品间歇性故障的标准,可以在研制早期剔除存在的隱性缺陷,在产品使用过程中识别微小缺陷和安全隐患、提前预知故障、提高安全性。在服役过程中通过积累数据,建立寿命模型,还可以实现智能预警和寿命预测。采用这种新技术,可以完善GJB1032《电子产品环境应力筛选方法》的实验方案,使其更加科学;可以在热、力、电、磁等多应力耦合的场景下以更加微观的视角抓取原来无法检测的失效,弥补GJB4896《军用电子设备印制电路板验收判据》目检所不能看到的隐藏性缺陷;推进GJB2547《装备测试性工作通用要求》的工程落地,在不更改设计、不改变产品动态运行的技术状态、不增加环境适应性额外负担的“三不原则”下,拿来即用。最终实现GJB299C《电子设备可靠性预计手册》与装备真实传感数据的紧密融合,从而实现对装备电子产品真实的、精确的可靠性预计与寿命预测。
国内专家学者通过对国内外相关标准、技术的深入研究与试验验证,研制成功了电子产品间歇性故障检测系统,结合实际电路经过了大量的试验和充分的测试,取得了显著的成果,为开展标准编制奠定了良好的基础,在此建议有关领导部门启动相关标准立项、立题与研究。
关键词:间歇故障;电子产品;故障检测;标准研究;标准立项
0引言
电子产品已经成为工业生产和日常生活中不可或缺的组成部分。以汽车为例,电子产品在纯电动车型中的成本占比已高达65%。制造工艺的改进使得电子产品体积越来越小,且功能越来越多、产能越来越高,对电子产品检测的要求和难度都在不断增加。根据美军统计的数据,装备服役后期电子系统所发生的故障中,元器件失效和导电路径失效各占50%,而后者中又有80%(约占总失效的40%)表现为间歇性故障,如:突然黑屏、信号不稳等,严重时还会在瞬间永久失效,导致灾难事故。
由于电子产品间歇性故障比较隐蔽,检测难度大,往往被人们忽视。但实际影响却非常巨大,甚至影响到装备安全和公共安全。比如:汽车电子中某焊点存在微小裂纹,按照规定施加标准的环境应力进行检测时,各项指标均表现为合格。交付给用户后,在很短的时间里(小于预期寿命)如果发生质量问题,其事故风险却转移给了用户。然而事故的根本责任方却凭借检测合格证明文件,不用承担任何的责任。多起因自动驾驶汽车引发的致命交通事故表明,依靠传统的以质量保障为中心的车辆安全体系已不能满足新一代汽车安全保障需求,亟需建立全新的安全评判准则、体系。因此,《国家产品质量法》应当考虑在坚守产品严格责任的归责体系下,采纳制造缺陷、设计缺陷和警示缺陷的功能性分类,制定相应的缺陷判断标准。
导致这一问题的主要原因有两个层面:从管理层面来看,我国工业体系实行分段质量监管,各司其职,难免出现一些无人监管的问题;从技术层面来看,由于检测能力的不足,造成检测盲区,让很多隐性缺陷成为漏网之鱼。
党的十八大以来,党中央和国务院发布和实施了《新一代人工智能发展规划》,“十四五规划”明确了提高国防和军队现代化质量效益是国家战略部署,面对新一轮科技革命和产业变革形势,为确保实现电子产品的服役安全,亟需提升检测能力、完善检测标准、建立完备的质量检测和试验鉴定体系,进而推动整个产业实现质量提升,并推动我国新一代装备的智能预警能力提升。本文重点从技术角度提供一种可以加速推进全电子行业普遍适用的间歇性故障检测解决方案,呼唤有关方面尽快形成电子产品间歇性故障检测标准。
1间歇性故障问题背景
1.1间歇故障的定义
GJB451A《可靠性维修性保障性术语》中“间歇故障”一词被定义为产品发生故障后,不经修理而在有限时间内或适当条件下自行恢复功能的故障。美国国防部为解决频繁出现的间歇性故障专门成立了JIT(Joint Intermittent Testing Working Group)小组,并制定了标准化文件MIL-PRF-32516《机箱和背板导电路径的间歇性故障检测和诊断标准》对间歇性故障(Intermittent faults)进行了定义:间歇性故障是发生在机箱/背板中的导电路径中的短时间非连续状态(开路/短路)。该标准指出:间歇性故障是由各种操作环境刺激引起的,包括但不限于热、振动、氧化等,以及材料因老化和使用而发生的变化,如锡晶须的生长、材料的分层。间歇性故障无法使用传统的自动测试设备进行检测和诊断。由于缺乏检测和诊断间歇性故障以及在测试和维修过程中提供环境刺激的能力,此类维修部件通常被报告为NFF(No Fault Found)故障(例如,无法复现、重新测试OK等)。
1.2间歇性故障检测的技术难点
间歇性故障检测的困难主要来自于两个方面,一是故障可视性差,二是传统的检测手段缺少科学的、充分的、真实的工况模拟与数据采集,不能真实地反应和记录间歇性故障发生的过程。
目前电子产品大量采用BGA(Ball Grid Array Package,球栅阵列封装)工艺。以BGA电路为例,在生产制造环节,对缺陷的检测有三个阶段,如图1所示。其中,前两次检测分别是对PCB裸板和PCBA整板进行光学检查和基础通断检测,其间难以识别的各种隐性缺陷都是之后间歇故障产生的主因;第三次检测在精密装配之后的联调测试阶段。
PCB指的是印制电路板裸板,其上并无元器件,所有焊盘均裸露在外部。第一次检测在PCB制成后,可以直接进行光学检测。第二次检测在PCBA整板制成后,此时所有元器件已经完成焊接,存在大量被遮盖不可见的区域,尤其是BGA封装的所有引脚均不可见。同时,由于精密装配时尚未连接适配器,没有外部必要信号连接的PCBA单板无法正常工作,目前行业内对PCBA单板不进行加电检测。但实际上此时的PCBA单板由于焊接工艺的复杂性和随机性,存在多种难以检测到的隐藏缺陷,如:枕头效应、微小裂纹等。这些缺陷会严重缩短装备寿命,一旦产生裂纹,在振动情况下便会引发间歇性故障。其成因在于某些工艺控制有所欠缺,由于缺少有效检测手段和标准,会被贴上“合格”的标签交付给用户,服役之后若干年(小于预期寿命)会批次性的遭到投诉,极难排查定位。此阶段主要参照GJB4896A-2003《军用电子设备印制电路板验收判据》进行检测,由于可视性差,发现BGA微小裂纹导致的间歇性故障的可能性几乎为零。
第三次检测在装配完成后的联调测试阶段,对联调测试合格的产品将会参照GJB1032《电子产品环境应力筛选方法》进行筛选,此阶段由于绝大多数产品采用了升温/降温过程中不加电,仅在恒温点加电结合环境应力试验进行筛选的方式,GJB1032能够将存在明显缺陷的产品在出厂之前筛选出来。局限性在于不能全程高速、高精度地开展间歇性、隐藏性微小缺陷的检测与记录。由于间歇性故障的持续时间极为短暂(只有微秒或纳秒),加之缺少与试验密切结合的高精密采集分析仪器,很多裂纹型缺陷无法被检测和记录。多数离线检测仪器虽然技术成熟,可以实现较高的精度,但是由于隐藏焊点无法接触且受采样率限制,检测到间歇故障的可能性微乎其微。不能有效保证产品质量零缺陷交付。
最后,在失效分析环节,由于缺陷隐蔽具有随机性且十分微小,采用X-ray射线检测也难以识别,只有将电路或器件“切开”,用扫描电镜(SEM)等高端失效分析设备才能看到裂纹。整个过程一旦触发“双五归零”GJB 5711《装备质量问题处理通用要求》、ISO18238《航天质量问题归零管理标准》,便需要耗费大量的财力、人力,才能在较长时间后获得准确的检测结果。
在装备服役环节,无法进行板卡级的测试、拆装、维修,对间歇故障的检测手段更为匮乏,只能依靠BITE(Built-In Test Equipment,机内自检设备)测试性自检程序或现场ATE(Automatic Test Equipment,自动测试设备)测试设备。遗憾的是制造商为了追赶研制进度,在设计初期往往忽略BITE。现场ATE由于无法模拟间歇故障发生时的状态和环境,无法对其进行检测。因此经常发生拆下的维修部件送到维修厂检测时,并未发现故障,装机运行后故障又再次发生的情况。
因此离线检测基本不能实现对间歇故障的检测和诊断,提升BITE测试性设计与在线检测技术的融合,提高在线检测和预警的能力,是当前行之有效的解决方案。
2当前技术发展情况概述
2.1间歇故障检测思路
电子产品失效率服从浴盆曲线规律(如图2所示),其全寿命周期的失效率分成了三个不同的阶段。即早期失效、随机失效和耗损失效,它们分别对应失效率的下降、恒定和再次上升。
早期失效便是由于电装和精密装配阶段未能充分检测的各种隐藏性缺陷在应力作用下被激发出来所导致。因此一些高可靠、高价值的装备通过HALT(Highly Accelerated Life Testing,高加速寿命试验)施加多应力载荷,且全程加电,明显地提高了对隐患的筛选能力,使缺陷在早期得以显现,进而对工艺控制的薄弱点进行优化,从而实现焊接工艺质量的提升和批产的稳定性提升。
损耗失效阶段可以通过检测能力的提升来获得更多故障信息,可行的思路是将BIT测试性设计与产品设计相融合,嵌入式的形成开机告警、在线监测的PHM(Prognostics Health Management,预测与健康管理)系统来遏制该阶段失效的发生。海恩法则指出:每一起严重事故的背后,必然有29次轻微事故、300起未遂先兆以及1000起事故隐患。识别轻微的间歇故障并进行告警,是确保装备安全和任务成功的有效手段,对制造、检测环节的过程数据进行分析,研究微小缺陷劣化直至失效的规律,形成检测并量化缺陷的标准,形成预测模型并嵌入到设计中,就可以将间歇故障检测成为装备全电系统、全寿命周期的智能诊断、安全预警系统。
2.2国内外相关标准
ISO26262《Road vehiclesFunctional safety》指出:系统性失效(Systematic failure)之外存在随机硬件失效(Random hardware failure)。它的起因是由于物理过程,比如疲劳、物理退化或环境应力等。典型失效形式为裂纹扩展、阻值漂移等。它是在硬件要素的生命周期中,非预期发生并服从概率分布的失效,并且可在合理的精度范围内进行预测。因此,裂纹扩展导致的间歇性故障是可以被预测的。
国内外针对电子产品间歇性故障检测的思路不约而同地集中于对接触电阻和中断时间等指标进行检测。我国的GJB681《射频同轴连接器通用规范》中对射频同轴连接器的接触电阻和振动工况下的电气连接中断时间间隔均提出了检测方法和相关要求,美国国防部在2015年3月23日发布了MIL-PRF-32516《机箱和背板导电路径的间歇性故障检测和诊断》,用于电子设备、机架和背板导电路径间歇性故障的检测和诊断隔离,其认为导电路径中出现持续时间100ns以上的10Ω阻值可以被认定为短间隔故障,可能会导致10MHz或更高频率的電路出现问题。JEDEC22-B111标准认为,菊花链路的总电阻超过1000Ω并持续 1μs以上即可以认定为一次瞬态失效事件。IPC785和IPC9701 菊花链路的总电阻超过1000Ω并持续1μs的现象,应记录为故障。
目前在该领域内,美军标准无论在适用范围还是指标要求上均优于现有国军标(见表1)。间歇故障的检测标准应尽可能广泛地适用于各类电子设备,尤其是结构及线路较为复杂、隐蔽的电子产品,并辅以可行的检测手段和明确的检测指标。对于检测指标的要求,应尽可能地将指标量化,提高检测精度,不能从标准和手段便开始落伍,导致自己看不到别人能看到的缺陷。
3检测技术改进构想
3.1基于学术理论审视检测原理
应力作用是裂纹发生扩展的直接原因,而应力本身却是多种因素共同作用产生出来的,是多物理场耦合作用的结果。在相关理论支持下研究间歇性故障的失效机理,搭建失效数学模型,结合实验验证可以将失效条件量化为相关指标,从而为随机硬件失效的预测提供可能(图3)。
从断裂力学的观点来看,任何产品在制造完成之初都会有缺陷,具体表现为微小的裂纹,导电路径(如引脚、焊球、焊盘等)的缺陷在随机工况应力作用下发生扩展,导致相关位置的电气性能发生变化,不能完成预期功能(图4)。
搭建断裂力学模型是将断裂条件(应力作用)和断裂行为关联并进行计算,通过模型计算可以预测裂纹是否会发生扩展以及扩展的程度、趋势等(图5)。
对裂纹缺陷进行量化,从机械角度来讲应该以最大裂纹的长度和裂隙的宽度来衡量,从电气角度来讲则是以导电路径的电阻和中断时间来衡量,这是可以落实到标准中实际测量的量。通过断裂力学模型可以直接获得机械角度的相关量(后简称为机械量),通过实验可以直接测得电气角度的相关量(后简称为电气量),通过力学计算和电阻计算可以实现机械量和电气量的相关性描述和相互转换。
3.2质量控制点前移
图6为质量控制点前移的思路图。质量控制点前移的手段包括加严检验和新型号设计改进。其中加严检验主要解决检测精度、测试覆盖率和检测效率的问题,比如将导电路径的间隙性故障的定义从μs级提高到ns级,从1000Ω提高到100Ω,就可以提高我们对缺陷的识别能力。具体的做法是:工艺部门提出质量监测点的要求,产品设计初期,对不可见的关键隐藏焊点设计外延测试点。在电子装配之后,精密装配之前,首先排除电源对地短路等低级问题,即对单板进行加电测试,对关键的隐藏焊点进行阻值测试,行成初始模型,此时可以识别存在轻微缺陷的焊点。在完成联调测试开展环境应力筛选时,采用全程加电的方式记录关键隐藏焊点在多应力耦合情况下阻值与时间的微小变化,对比初始模型,就可以及早剔除存在隐患征兆的电路。在排故归零阶段,对比初始模型,就可以快速定位产生失效的焊点,做到智能化的精准定位。从工艺本源上提升单板可靠性和批产稳定性,降低模块级间歇性故障,降低维修排故困难的问题。
ISO 13374《机器的工况监测和诊断》给出了从测试点设计、传感器采集、特征信号提取到寿命预测、维修决策的技术路线图,GJB2547A《装备测试性工作通用要求》中规定:允许BIT硬件占系统硬件的5%~20%。因此结合测试性要求在新型号设计初期就进行测点布局,以焊接点裂纹扩展导致的随机硬件失效为特征,构建PHM系统的意义更为重大,传统PHM设计手段,以电压、电流、温度为特征,需要引入新的设计要素,对研制流程构成较大压力,会增加可靠性与环境适应性的风险。因此行业内尚无普适的、量化的成熟PHM系统可用。然而,以虚焊為特征的间歇性故障在装备服役后期具备可以量化监测、故障占比高的特点,便于测试性设计与功能设计融合,具有极好的普适性与准确性,只需要在产品设计之初,按照工艺质量要求预留需要监测的关键端口(如:四个端角应力最集中的焊点、关键信号端口周边的焊点、具有随机代表性的焊点等),不更改设计、不影响功能、不占有硬件资源、不增加环境适应性负担,采用嵌入测试软件的方式,就可以实现BIT自检,让新一代装备在工艺鉴定时实现微小瞬间失效数据积累、在电装阶段实现微小缺陷在线检测、在试验筛选环节剔除隐藏缺陷、在交付验收时形成产品健康状态履历本、在服役现场实现开机告警、在运行使用过程中实现在线监测、在关键任务执行前给出安全预警、在排故归零时实现智能诊断和精准定位,从而在全寿命周期实现精准高效的故障检测和智能预警。
4国内工程应用情况
通过对国外先进技术进行消化、吸收、再创造,北京唯实兴邦科技有限公司联合北京科技大学开展了大量的工程实践,形成了具有自主知识产权的VHDL TEST电路焊接工艺质量评估与完好性快速检测系统,以高于GJB681、IPC-9701A、JESD22-B111的指标,在工艺选型阶段以ns级时序监测电路焊接故障,以阻值和时间两个维度量化识别间歇性故障,进行焊接工艺质量数据的量化采集、回放与分析,指导工艺选型;在工艺鉴定时结合环境试验对焊接工艺质量进行验证、在生产车间对隐藏缺陷进行在线检测与筛选。在服役阶段对电路焊接完好性进行快速检测、故障预警,对剩余寿命进行评估,可以快速实现电子产品隐患检测与PHM健康管理、寿命预测与维修优化、自主保障。
对于已经交付的装备,还可以在不更改产品设计和制造结构的情况下,只需要把测试探针连接到关键信号端口,即可实现开机告警的功能。
同时,北京唯实兴邦科技有限公司融合相关专业技术创造性的形成了四维智检(热、电、光、软)解决方案。可以精确有效的在10s内通过热学检测进行故障异常定位,结合0.1%精度电学测试进行故障原理分析,辅助360°光学无目镜显微镜进行故障微观检验,最后用多学科&可靠性融合仿真软件进行虚拟热/振动仿真试验验证,指导故障归零与持续改进。成功实现了精确有效的电路故障复现与快速智能定位、电子装备焊接工艺质量评估与完好性快速检测、故障预警。前期已经在十大军工集团的30多个厂所成功进行了200余次工程实践(图7和图8)。可以有效帮助企业提升工艺技术水平、强化质量控制能力。让工艺水平更加精细化、检测手段更加智能化、质量控制更加科学化。
5总结
随着电装工艺的改进,电子产品集成度越来越高,检测难度也越来越高,大量的隐性缺陷无法被有效检测,传统PCBA不加电、环境应力筛选不加电的检测方法导致很多隐性缺陷无法识别,如BGA枕头效应、裂纹缺陷等。这些缺陷会导致模块组合乃至整机在检测、试验中出现间歇性故障,按照排故归零程序,再返回电装进行排查返修,往往会消耗大量的人力、物力和时间。这些质量隐患一旦流入战场,可能会成为导致战争失利的因素,会给国家造成极大的损失。
质量问题关系官兵生命、关系战争胜负,构建先进实用的、实战的试验鉴定方法与体系,是确保装备实战适用性和服役安全的有效手段。科技是现代战争的核心战斗力,是习总书记对现代战争中制胜机理的重大论断,充分发挥传统可靠性技术优势、结合人工智能、数据挖掘等先进技术,构建可以快速实现的隐患检测、健康管理系统,确保参战的装备健康完好、无隐患,就是对来之能战的科学诠释,确保参战的装备安全可靠,是实现战之必胜的质量基石。
党的十八大提出,把推动发展的立足点转到提高质量和效益上来。2017年9月5日中共中央、国务院发布的《关于开展质量提升行动的指导意见》中提出以提高发展质量和效益为中心,将质量强国战略放在更加突出的位置,开展质量提升行动,加强全面质量监管,全面提升质量水平,加快培育国际竞争新优势,为实现“两个一百年”奋斗目标奠定质量基础。2018年国防科工局发布了“双百”工艺攻关专项行动。航天科技集团、航天科工集团也推进了一系列的“质量零缺陷”项目。
在十四五规划,举国推进质量提升的背景下,为了更好的解决本文提出间歇性故障检测困难这一普遍存在的问题,进行相关论证,明确技术指标,提出一种可以实时在线检测电子产品间歇性故障的标准,可以在研制早期剔除存在的隐性缺陷,在产品使用过程中识别微小缺陷和安全隐患、提前预知故障、提高安全性。在服役过程中通过积累数据、形成模型,还可以实现智能预警和寿命预测。采用这种新技术,可以完善GJB1032《电子产品环境应力筛选方法》的实验方案,使其更加科学;可以在热、力、电、磁等多应力耦合的场景下以更加微观的视角抓取原来无法检测的失效,弥补GJB4896《军用电子设备印制电路板验收判据》目检所不能看到的隐藏性缺陷;推进GJB2547《装备测试性工作通用要求》的工程落地,在不更改设计、不改变产品动态运行的技术状态、不增加环境适应性额外负担的“三不原则”下,拿来即用。最终实现GJB299C《电子设备可靠性预计手册》与装备真实传感数据的紧密融合,从而实现对装备电子产品真实的、精确的可靠性预计与寿命预测。
北京唯实兴邦科技有限公司联合北京科技大学组成的间歇性故障检测分析项目团队经过长期科学试验数据分析与经验积累,为标准的发布提供了良好的数据基礎,创造了坚实的技术条件,正在编写相关的技术规范。急迫的呼吁有关领导部门启动相关标准立项、立题与研究。同时,结合人工智能技术将间歇性故障检测数据形成预测模型,还可以实现多层、全维度监控装备的状态,预测健康状态趋势,推理未知故障原因,分析故障蔓延影响,在线推荐处置措施,阻断故障传播通道,按需推荐维护保障需求。
李克强总理说要用先进标准倒逼产业升级,形成先进的、自主可控的技术手段和相关标准,解决电子产品间歇性故障的检测问题,是非常具有研究和推广意义的共性技术,是军民融合技术应用的典型代表,这一技术的成功应用不仅为新一代武器装备的智能化提升和质量提升提供了一种有效的方法,还可以为未来自动驾驶等高端制造产业奠定稳固的质量基石,全面提升中国制造的质量水平,培育更多的国际竞争优势产业,成为制造强国。
参考文献:
[1] GJB451A-2005. 可靠性维修性保障性术语[S]. 中国解放军总装备部: 2005.
[ 2 ] S a n k a G a n e s a n . N o -fault-found and Intermittent Failures in Electronic Products[J]. Microelectronics Reliability, 2008, 48: 663-647.
[3] MIL-PRF-32516. Intermitted Fault Detection and Isolation for Chassis and Backplane Conductive Paths[S]. United States Department of Defense: 2015.
[4] GJB681-1989. 射频同轴连接器通用规范[S]. 中国解放军总装备部: 1989.
[5] JESD22-B111. Board Level Drop Test Method of Components for Handheld Electronic Products[S]. JEDEC Solid State Technology Association: 2003.
[6] ISO26262. Road vehiclesFunctional safety[S]. International Organization for Standardization: 2018.
[7] IPC-SM-785. Guidelines f o r A c c e l e r a t e d R e l i a b i l i t y Testing of Surface Mount Solider Attachments[S]. Associatation Of Connecting Electronics Industries: 1992.
[8] IPC-9701. Performance Test Methods and Qualification Requirements for Surface Mount Solder Attachments[S]. Associatation Of Connecting Electronics Industries: 2002.
[9] GJB4896A-2003. 军用电子设备印制电路板验收判据[S]. 中国解放军总装备部: 2003.
[10] GJB1032-90. 电子产品环境应力筛选方法[S]. 中国解放军总装备部: 1991.
[11] GJB299C-2006. 电子设备可靠性预计手册[S]. 中国解放军装备总部 : 2007.
[12] GJB2547A-2012 .装备测试性工作通用要求[S]. 中国解放军装备总部 : 2012.
[作者单位: 丁锋(原总装备部)、魏兰(原总装备部)、宋宝丽(中国和平利用军工技术协会)、赵军号(陆军装备部第七代表室)、章立军(北京科技大学)、孟双德(北京唯实兴邦科技有限公司)]