某航天载荷通信故障分析与可靠性提升研究

2022-11-25 06:28张泽明李鹏张雯梁兆刚
环境技术 2022年5期
关键词:管座激光器中断

张泽明,李鹏,2,3,张雯,梁兆刚

(1.中国科学院空间应用工程与技术中心,北京 100094;2.中国科学院大学,北京 100049;3.香港城市大学 先进设计与系统工程学系,香港 999077 ;4.中国科学院上海光学精密机械研究所,上海 201800)

引言

航天任务投入大,周期长,风险高,在研制过程中规划了严苛的研制试验、鉴定试验和验收试验等试验考核,以了解、分析、提高、评价产品的可靠性,从而降低产品航天应用风险。但是从可靠性工程角度,产品可靠性不能仅仅依靠对系统的检验和试验来获得,还必须从设计、制造和管理等方面加以保证。产品设计是决定产品固有可靠性的重要环节,可靠性对设计是极其敏感的[1]。

众多航天任务的失效甚至灾难性事故都源于可靠性设计不充分,尽管在顶层设计做了冗余备份,但是往往并没有发挥作用,而由于底层的可靠性细节设计存在严重缺陷导致任务失败。1994年,加拿大两颗通信卫星Anik E-1和Anik E-2在两个小时内没有任何故障警报情况下相继自旋失控,是因为空间粒子造成充放电效应导致陀螺导航系统电路永久损坏[2]。1996年,阿丽亚娜5号火箭爆炸自毁,是因为在继承性使用阿丽亚娜4型火箭的软件时没有严谨复核,火箭水平速度的64位浮点数转换成16位整数时发生溢出导致重大损失[3,4]。2018年,俄罗斯“联盟-FG”型运载火箭发射失败,原因是某个传感器引脚变形造成排氧的喷嘴没有打开,致使捆绑助推器异常分离,击中了燃油箱区域的核心级,导致其减压后火箭失去姿态控制。这几个案例均是由于在软硬件细节设计上对潜在故障没有针对性识别,预防设计措施不充分导致的航天灾难性故障[5]。Martin Langer对178颗立方星的在轨寿命和故障统计分析也说明设计不足是导致大量立方星出现早期故障的主要原因[6]。

某航天载荷是实现任务目标的关键核心电子学设备,具有驱动控制激光器的功能。本文剖析了某航天载荷在地面可靠性试验阶段发生的通信故障、排故和可靠性设计提升过程,阐述加强软硬件设计细节对保障产品固有可靠性的重要作用。

1 某航天载荷基本工作原理

某航天载荷由五块板卡组成,如图1所示,DSP主控板为主机,其它4块板卡为从机,主机通过从机实现对激光器的驱动和控制。DSP主控板与FPGA时序逻辑板、主份激光器驱动板、备份激光器驱动板和重泵浦激光器驱动板之间的通信接口之间采用RS-422总线主从通信方式,从机是采用单片机为核心的数字控制电路,DSP主控板与四个从机板卡之间的总线驱动接口和通信使能信号接口是一致的。DSP主控板与地检系统采用点对点RS422通信总线,当四个从板中某个从板没有数据传送给DSP主控板,那么DSP主控板按照通信协议会在传送给地面测试设备的数据格式中将该从板数据块填充零。

图1 载荷通信接口拓扑图

2 某载荷通信故障根本原因分析

某航天载荷在(-25~60)℃的温度循环试验低温升高温过程中,地面测试设备先后3次与主控DSP板失去通信,主控DSP板发送的通信内容中重泵浦激光器驱动板和主份激光器驱动板的数据块为零,并且通信异常后没有自行恢复,通信终止,主控DSP板与备份激光器驱动板、FPGA时序逻辑板通信正常。

经敲击法分析确认,导致上述故障的原因是在热机械应力或振动情况下程序存储器与DIP28管座之间接触不良,对程序存储器进行绑扎固定处理后,敲打设备主体底座时再没有发生驱动板工作异常。

进一步分析,出现通信故障时驱动板单片机进入了软复位中断服务程序,如果软复位中断程序没有问题,软件会复位从地址0000H重新运行,不会造成通信终止问题。激光器驱动板的电源监控和看门狗采用集成电路MAX706MJA,外围电路设计如图2所示,在正常工作条件下,MAX706MJA的WDI输入引脚有周期小于1 s的喂狗信号。在通信故障情况下,检测发现WDI输入引脚为高电平,单片机没有喂狗,而WDO输出低电平,狗叫起作用,MAX706MJA工作正常。

图2 单片机复位和看门狗电路

看门狗起了作用,但单片机没有继续发送喂狗信号,说明软复位中断程序运行异常。经排查,单片机进入到软复位中断服务程序后,运行了软复位中断服务程序中的BUG语句(PUSH 0xCOH),导致软件没有从地址0000H重新运行,造成单片机停止运行,从而导致从板和DSP主控板失去通信联系。

因此,管座选型不当,导致存储器管脚与管座接触不良是通信终止故障的诱因,而软件中断程序错误,引起驱动板卡单片机程序跑飞运行异常,是导致失去通信的深层次原因。最终,通过更换高可靠管座,并将程序存储器直接落焊在DIP28管座上,并对单片机中断服务程序做了修正,故障得以排除。

3 基于软硬件细节设计的可靠性提升策略

可靠性提升是通过对产品的设计、生产工艺、使用条件和维护措施等进行有效改进,使得产品的可靠性逐步改善的过程。通过提高产品的设计,采用可靠性更高的元器件,改善产品的生产工艺流程以及使产品运行在更安全的操作条件以及更加合理的维护条件下,达到不断降低产品的失效率的最终目标。在某载荷通信故障分析和排查过程中,按照航天故障归零的要求,对软硬件设计细节进行了复核和举一反三,全面排查漏洞,提升可靠性。

3.1 硬件设计优化改进

1)程序存储器选用高可靠管座并落焊。除存储器管座接触不良外,重泵浦激光器驱动板上的程序存储器管座(图3)的12和17脚有硅橡胶残余物,也是可能导致接触不良的因素,通过更换高可靠管座并落焊措施解决;

图3 重泵浦激光器驱动板程序存储器管座

2)单片机取消管座。驱动板上单片机采用了DIP40管座,举一反三,将管座取消,单片机直接落焊在激光器驱动板上;

3)增强晶振信号质量。激光器驱动板上采用某型号有源晶振,故障排查时检查晶振信号是否正常,示波器测试晶振的输出信号为11.059 2 MHz的方波信号,如图4所示,符合单片机方波输入(0~5)V电平要求。该检测结果虽然排除了晶振输出信号超限对单片机造成损伤的可能,但上升和下降沿有振铃,为进一步提高电子学系统的可靠性,在晶振的电源端增加10 nF的去耦电容;

图4 单片机晶振输入端波形

4)空闲管脚抗干扰设计。重泵浦激光器驱动板使用了总线收发器SNJ54LS245J,其5管脚数字输入端设计为悬空状态,虽然检测为高电平,但在电磁干扰下有可能会产生下降沿触发单片机扫频中断,影响重泵浦激光器的稳频状态,而且有被静电损伤的可能性。改进措施采取在输入端口接10 kΩ上拉电阻直接连到+5 V电源,如图5所示,确保该管脚为抗干扰安全状态。

图5 总线收发器SNJ54LS245J外围电路

3.2 软件设计优化改进

1)修正中断复位指令。在看门狗中断的软复位程序中,机器码“0xc0 0xc0”对应的指令为“POP 0xC0”,0xC0寄存器是单片机内部受到保护的特殊功能寄存器,从0xC0单元读取的数据内容是不确定的,所以在退出看门狗中断软复位程序执行“POP 0xC0”指令后,程序地址指针也是不确定的,程序有可能跑飞。机器码修改为“0xc0 0xe0”,对应的指令为“POP ACC”,在执行指令“POP ACC”后程序从地址0x0000重新开始运行,确保了软件正常复位;

2)减小中断执行时间。看门狗中断服务程序中有一个激光器保护函数FLD_Pro(),该函数将占用看门狗软复位中断服务程序的运行时间,改为在主程序系统初始化函数InitDevice()中调用FLD_Pro()函数,增强软件设计合理性和可靠性[7];

3)确保正常合理喂狗。删除定时器中断服务程序中的喂狗语句DOG=!DOG,改为在循环扫描找峰的循环语句中喂狗,保证合理发出喂狗信号;

4)通信错误预警和确认应答。激光器控制软件增加对数据注入指令的接收错误计数及实际执行参数的返回,增强故障预警和通信确认机制,保证可靠传输。

3.3 设计验证

采取以上软硬件设计改进和可靠性提升措施后,开展了相同试验条件的6个周期温度循环试验进,该航天载荷无异常发生,验证了可靠性提升措施的有效性。

4 讨论

从本航天载荷通信故障分析案例看,直接的设计更改和针对潜在故障隐患的可靠性细节设计包含十余处,通过测试验证展示了软硬件设计细节对于产品可靠性提升的重要性,也落实了“预防为主”的质量管理思想[8,9]。

德国飞机涡轮机的发明者帕布斯·海恩提出了著名的海恩法则:每一起严重事故的背后,必然有29次轻微事故和300起未遂先兆以及1 000起事故隐患。张森等对130颗卫星272次在轨故障进行统计,其中一个特点是很多故障是重复发生的,说明故障跟前期设计不充分紧密相关[10]。在航天高可靠领域,航天设备往往是小子样产品,缺少大量样品现场应用的反馈数据,更新迭代机会少,这就更加要求在前期设计阶段结合产品具体实际,尽可能挖掘潜在隐患[11],预想故障场景故障模式,通过必要的设计手段消除潜在故障,避免共性事故[12,13]。

研制阶段的例行试验检验对于暴露缺陷排除隐患固然重要,但一定是不充分的。可靠性工程的重点更应放在早期设计阶段,遵循预测预防为主的原则,关键是从技术设计细节出发提前识别产品所有可能发生的故障[14,15]。任何事情都有两面性,做了某项技术设计实现了特定功能,但也可能带来意外的潜在隐患,因此强化“可能出错“的风险意识,挖掘潜在的隐患和薄弱环节,通过故障模式影响分析、故障案例集、成熟的设计准则、专家审核等手段,早期投入,既做功能测试也做非功能测试,排除严重故障,降低残余故障,这是研制高可靠航天产品的一个重点。

钱学森曾指出,产品可靠性是设计出来的,生产出来的,管理出来的。美国波音公司曾总结一个经验公式,高可靠性产品保证=可靠性技术保证+质量保证[16]。实践证明,产品的可靠性首先是设计出来的[17],每一条程序语句,每一个电路连接,每一条布线都伴随着可靠性问题,产品设计过程即是可靠性技术保证过程,如何在设计过程中挖掘和确定隐患将对产品的固有可靠性产生重大的影响。

5 总结

某航天有效载荷是实现激光器驱动控制的关键核心电子学设备。本文针对其在温度循环试验过程中出现的通信故障问题为切入点,分析了管座选型不当和软件中断程序错误的故障原因,从硬件角度和软件角度提出了可靠性技术改正和优化措施,论证了软硬件设计细节在研制高可靠产品中的重要性,对于可靠性提升具有较好的实践意义。本文的相关技术成果也可为从事航天产品电子学设计、工艺、测试、质量保证的相关技术和管理人员提供借鉴和参考。

猜你喜欢
管座激光器中断
超超临界锅炉化学取样管管座失效分析及改进
基于PID控制的一体化恒温激光器系统设计
激光器发明60周年
基于FPGA的中断控制器设计*
跟踪导练(二)(5)
千里移防,卫勤保障不中断
一体化半导体激光器的ANSYS热仿真及结构设计
基于注入锁定法激光器的研究
辅汽联箱插入式管座焊缝相控阵超声检测
巧用卡盘一次装夹多件管座镗削圆弧面