满益明 王征 冯忠伟 朱红 张春阳
(中国运载火箭技术研究院,北京 100076)
波音载人飞船(Starliner)是由美国波音公司出资和NASA共同研制的新型载人飞船,能一次搭载7名航天员,具备3天自主飞行、210天停靠能力,可重复使用10次[1-2]。
2019年12月20日,飞船搭载宇宙神-5运载火箭从卡纳维拉尔角空军基地发射入轨,执行飞船首飞试验测试、与“国际空间站”自动对接并向其运送给养。运载火箭发射上升段飞行正常、船箭分离正常,但飞船入轨后,因软件故障,未能按正常飞行程序执行预订的轨道切入机动操作,经地面抢救后,决定放弃同“国际空间站”对接任务,于2019年12月22日提前返回,着陆于新墨西哥州白沙靶场,完成再入返回测试任务[3-6]。
本文系统梳理了波音载人飞船首飞试验关键事件,采用故障树分析方法,确定了轨道切入机动故障底事件,基于航天器软件系统总体设计“十五步”流程,推测飞船总体设计、软件系统分析与设计、产品测试与试验环节的缺陷和漏洞为故障直接原因,针对空天飞行器软件设计与研制面临的整器信息流高度耦合、系统间匹配性协调性要求高、软件产品配套关系复杂等难题,开展了飞船故障“举一反三”工作,从系统架构、关键时序、发射前工作流程、任务可靠性、试验充分性和测试覆盖性分析与验证等五方面给出了增强整器任务可靠性的具体措施,以降低关键事件识别不充分、冗余设计不全面、测试验证不覆盖等带来的技术风险。
本次试验中,飞船采用宇宙神-5运载火箭无整流罩方式发射。根据发射计划,运载火箭发射后约15 min飞船将与半人马上面级分离,进入远地点约为181.5 km,近地点约为72.8 km的亚轨道,滑行约15 min后,服务舱轨控发动机点火,飞船转移至与空间站对接前的稳定停泊轨道,约25 h后,与“国际空间站”和谐号舱段对接,组合运行7天后,飞船与空间站分离,再入返回,着陆于新墨西哥州白沙靶场。但因飞船软件错误导致服务舱轨控发动机错过了正确的点火时机[7],飞船未能进入预定轨道,经地面人员干预并评估后,飞船放弃与“国际空间站”的对接,24 h后直接离轨再入,返回白沙靶场[8-10]。首飞发射计划任务剖面见图1,计划飞行和实际飞行关键事件分别见表1和表2,表1和表2中的T0为火箭起飞时刻,为世界协调时(UTC)2019年12月20日11时36分。
图1 波音载人飞船Starliner首飞试验任务剖面Fig.1 Mission profile of Boeing Starliner orbital fight test
表1 首飞试验计划飞行关键事件
表2 首飞试验实际飞行关键事件
基于故障树分析方法,开展了飞船首飞轨道切入机动故障树分析,详见图2,由图中可知,该故障共有9个底事件。
图2 轨道切入机动故障树Fig.2 Fault tree of orbit insertion maneuver
1)发动机工作异常(X1)
地面干预后,飞船进入了地面返回待命圆轨道,并成功实施了再入返回,可间接证明发动机工作正常,因此,该事件可排除。
2)船上程控指令异常(X2)
轨道机动有两种工作模式:自主机动或地面程控机动。自主轨道机动通过船上任务管理程控指令触发GNC系统自动转入轨道控制模式,控制计算机根据飞行器当前位置和姿态,自主执行发动机开关机指令。基于现有公开信息,该事件不可排除。
3)地面上行指令异常(X3)
采用地面程控机动模式时,飞船轨道机动前,由地面站生成需要上行的轨道机动指令,并通过船地测控链路将相应指令发送至飞船,完成轨道机动任务。基于现有公开信息,该事件不可排除。
4)船地测控链路异常(X4)
飞船首飞轨道切入机动异常后,地面开展了较长时间的地面抢救工作。由此可以推断,船地测控链路处于工作状态。但从现有公开信息,无法确认轨道机动异常前后及排故过程中,测控链路是否全部正常。因此,该事件不可排除。
5)绝对时间基准异常(X5)
船上时间基准主要有三种来源:运载火箭起飞信号、船箭分离信号或发射前地面上注的基准时间,如-10 min,-2 h等。因发射上升段和船箭分离后,飞船消初偏等动作均正常,可初步确定船上绝对时间零点基准并未优先采用运载火箭起飞信号或船箭分离信号对应的绝对时间,由此推断船上时间零点最大可能采用了发射前某时间基准。基于当前公开信息,该事件不可排除。
6)发射前地面上注时间异常(X6)
飞船发射前已加电工作,为确保时间准确性,一般可安排地面授时或校时,对时间基准进行精修和状态确认。若飞船发射前地面开展了授时或地面校时工作,则地面人员通过判别遥测参数可提前发现时间基准不一致的错误,避免任务失败。但从首飞试验结果来看,飞船发射前最大可能未开展地面上注时间工作。因此,该底事件按可排除处理。
7)船上软件时间初始化异常(X7)
飞船存在大量与时间相关的动作或指令,绝对时间和相对时间的正确初始化是其正确执行的必要条件。船箭分离后,飞船正确执行了消初偏、姿态调整等动作,据此可判断出船上相对时间的初始化正常。
轨道切入机动异常至再入返回前,飞船执行了与绝对时间相关联的动作和指令,且X6分析已明确飞船发射前最大可能未开展地面上注时间工作,因此,无法判断飞船在执行这些动作和指令前,设计人员是否利用船地测控链路对时间基准进行了修正。因此,该事件不可排除。
8)船上计时基准异常(X8)
航天器上单位计时基准常采用高稳定度、高精度晶振,其信号处理后将作为器上时间系统的最小时间单元,与时间相关的所有动作和指令均与该基准相关。从飞行试验来看,飞船完成了消初偏及轨道机动等动作,可推断飞船时间使用的计时器正常。因此,该事件可排除。
9)计时器软件异常(X9)
船上计时主要包括两部分:由硬件实现的计时基准和软件实现的计时器软件。飞船完成了消初偏及轨道机动等动作,因此,该事件可排除。
通过故障树分析,飞船首飞轨道切入机动故障不可排除的底事件有5个:飞船程控指令异常(X2)、地面上行指令异常(X3)、船地测控链路异常(X4)、绝对时间基准异常(X5)、船上软件时间初始化异常(X7)。
飞船首飞轨道切入机动故障不可排除的5个底事件均与飞船软件系统分析与设计、软件可靠性和安全性相关。基于NASA公开信息及航天器软件系统总体设计流程(见图3),本文推测飞船首飞试验在飞行器总体设计、软件系统分析与设计、产品测试与试验环节存在较大缺陷和漏洞。
(1)关键时序及危险事件的识别与分析不到位,缺少可靠性安全性措施。项目软件系统分析与设计重点关注航天器整器系统架构、物理架构、信息流、可靠性、安全性设计、关键时序及危险事件分析与识别等。从图2故障树分析可知,项目软件系统分析与设计环节的关键时序及危险事件的识别与分析、软件可靠性、安全性分析不到位或不全面,导致总体设计层面任务可靠性要求不全面,部分关键时序及危险事件设计要求不明确。
(2)关键信号或指令缺少必要的冗余设计或地面干预接口。对于系统级故障或关键性信号故障,发射前未制定故障预案或故障预案不够细化,缺少可操作性;对于地面备保指令,测控覆盖性或链路设计与分析的工况不够全面,未覆盖飞行工况,导致故障工况下,天地大回路测控保障条件不足以支撑地面处理。
(3)试验充分性、测试覆盖性未覆盖全任务剖面所有工况。按照航天器设计流程,航天器各研制阶段,均会开展测试覆盖性和试验充分性分析,评估测试和试验对任务剖面各工况的覆盖性。从飞行试验故障树分析可知,飞船出厂前的测试覆盖性和试验充分性不全面、不充分,未覆盖部分关键信号、多重冗余策略和部分故障工况。
图3 航天器软件系统总体设计“十五步”流程Fig.3 15-steps process of overall design of spacecraft software system
空天飞行器是一种集航空、航天技术于一体,兼有航空和航天功能,既能在轨执行任务又能在机场水平着陆的飞行器[11-12]。得益于计算机、信息化技术的发展和系统集成化、小型化的规模应用,空天飞行器软件产品比例,器上信息的综合集成比例,系统间、设备间的信息耦合度均比传统航天器高。空天飞行器软件产品设计与研制面临“六多”特点:软件配置项多,A、B级软件多,新研软件多,配套来源多,编程语言多,工具类别及版本多等。与飞船首飞试验相比,空天飞行器任务更多、更复杂,软件系统总体设计难度将更大。
为完善软件系统分析与设计工作,增强整器任务可靠性,基于空天飞行器软件系统总体设计“十五步”流程,开展了飞船首飞故障“举一反三”工作,提出了五方面具体措施。
(1)高度重视系统架构及信息综合集成应用,多方案对比确定系统架构方案。系统架构是软件系统的顶层设计,系统架构对软件实现至关重要,不合理的架构不仅会增加软件或产品实现的设计难度,而且还会制约系统性能,尤其是系统关键指标。空天飞行器研制涉及总体、控制、气动、电气、机构等多个专业,属于典型的系统工程,系统、子系统及设备间信息交互接口、信息流向、信息集成应用等对软件及硬件实现影响较大,不合理的设计将对软件工程实现造成不必要的信息铰链,给总体方案及故障预案设计带来巨大工作量,甚至将导致总体付出不必要的质量、功耗、体积代价。因此,方案设计阶段,总体应充分调研各承研单位软件设计能力,结合任务需求分析,针对系统架构和信息综合集成应用方案开展多方案对比与评估,选择满足功能、性能、进度、经费及质量等多重约束的系统架构方案。
(2)分阶段多层次开展项目软件系统分析与设计工作,确定整器、各分系统及关键产品的关键时序及危险事件。项目软件系统分析与设计主要内容涉及软件系统需求、软件系统架构设计、安全性和可靠性设计、软件系统危险分析等内容。不同设计阶段、随着设计的不断深入,整器及系统间的信息交互和集成将越来越深入,越来越具体,总体及各分系统均需开展多层次软件系统分析与设计工作,不断完善安全性、可靠性设计及危害分析工作,确定整器、各分系统及关键产品的关键时序及危险事件,并纳入各系统任务书中。通过项目软件系统分析与设计工作,飞船首飞故障不可排除的5个底事件均应纳入关键时序及危险事件。
(3)详细梳理发射前工作流程核心关键参数,并纳入最低发射条件。进入发射前工作流程后,飞行器将加电自检,其结果将通过遥测或数传数据下传地面。发射前核心重要关键参数分为3类:终止发射、推迟发射、有影响但在轨可适时恢复,主要包括反映飞行器各系统的状态信息,如转导航状态、自对准状态等,飞行器入轨后立即用到的状态信息,如器上时间、遥控指令信息传递状态等。飞船首飞故障不可排除底事件中的飞船程控指令异常(X2)、地面上行指令异常(X3)、绝对时间基准异常(X5)、船上软件时间初始化异常(X7)状态均应作为发射前核心重要关键参数,纳入飞行器最低发射条件。
(4)重视任务可靠性,高度关注冗余实现方式及故障策略。冗余设计和故障策略是提高任务可靠性,确保任务圆满成功的重要设计手段。提高任务可靠性的常用设计主要包括器上自主、集电极开路指令(OC指令)、程控指令、直接指令、地面遥控指令等多类指令间的互为备保;多次不间断通信状态判信息传输正常或故障;多源信息的融合与应用;异构传感器或执行机构的冗余设计;关键信号的三模冗余设计;关键数据的异地备份等。飞船首飞故障不可排除底事件中的绝对时间基准异常(X5)、船上软件时间初始化异常(X7)等均应采用冗余设计,如全球卫星导航系统(GNSS)自主授时,地面授时和校时等,确保时间基准的正确性。
(5)重视试验充分性和测试覆盖性分析与验证,确保全任务剖面试验充分、测试全覆盖。基于任务剖面和飞行试验方案,开展正常工况、一度故障工况及部分关键时序或指令多重故障工况分析,确定试验项目、试验工况、测试工况及模拟飞行状态,通过地面试验或测试全面验证全部关键事件、系统间接口、信息流、正常/故障工况切换、系统工作模式切换、系统运行状态切换、设备主备份切换,确保全任务剖面、全工况、全接口、全流程等可分析、可试验、可测试、可验证。飞船首飞故障不可排除的5个底事件均可通过发射前的地面试验或整船测试发现设计缺陷,杜绝将此类故障带上天。
基于波音载人飞船(Starliner)飞行试验相关报道及数据,完成了飞船轨道切入机动故障树及故障原因分析。相比Starliner,空天飞行器任务更多、更复杂,软件系统总体设计难度将更大,开展了飞船故障“举一反三”工作,提出了增强空天飞行器系统任务可靠性的五方面建议。主要结论如下。
(1)推断Starliner首飞试验轨道切入机动故障不可排除的5个底事件分别为飞船程控指令异常(X2)、地面上行指令异常(X3)、船地测控链路异常(X4)、绝对时间基准异常(X5)、船上软件时间初始化异常(X7)。
(2)Starliner首飞试验飞船总体设计与试验存在三方面缺陷:总体设计关键时序及危险事件的识别与分析不到位,缺少可靠性安全性措施;关键信号或指令缺少必要的冗余设计或地面干预接口;试验充分性、测试覆盖性未覆盖全任务剖面所有工况。
(3)提出增强空天飞行器任务可靠性,提升软件设计可靠性、安全性的五方面建议:重视系统架构及信息综合集成应用方案;分阶段多层次确定整器、分系统及关键产品的关键时序及危险事件;飞行器核心关键参数应纳入最低发射条件; 高度关注冗余方式及故障降级策略;确保全任务剖面试验充分、测试全覆盖。