杨 宏,周昊澄
(中国空间技术研究院载人航天总体部,北京 100094)
随着我国载人航天事业的不断发展,提高载人航天器在轨可靠性和在轨资源的使用效率成为重点发展的方向。通过提升载人航天器风险识别和控制能力,能够有效延长航天器的在轨飞行寿命,降低航天器在轨运行风险,会产生巨大经济效益。天宫一号是我国首个空间实验室,其巨大的技术跨越带来的风险识别与控制难题需要研究解决。
NASA将风险识别技术列为航天领域优先发展的技术之一。2002年,NASA公布的《概率风险评估过程指南》总结了NASA概率风险评估经验[1-2],综合集成了NASA在航天项目中的概率风险评估方法[3-4]。目前,NASA已把风险识别方法应用在航天飞机[5-6]、国际空间站[7-8]和探月飞船等项目中。NASA分别于1995年、1998年和2003对经过百余次飞行的航天飞机进行机毁人亡风险事件概率的定量评估,评估结果分别为0.42%、0.76%和1.31%[5]。从评估结果可以看出,由于数据采集的方法和对仿真模型认识的不同,即使在成熟型号有大量飞行数据的基础上应用该方法,仍然存在评估结果相差一个数量级的问题。天宫一号具有明显的小子样特性,其试验与在轨数据远低于美国航天飞机,如果采用美国的上述风险识别方法对天宫一号进行风险识别,不确定性会更大。国内相关文献指出,应在航天器全寿命周期内进行风险识别与控制工作,并对航天器各阶段风险因素及措施提出建议[9-10]。天宫一号具有典型的载人航天器特性,其可靠性要求高、小子样的特性是其与一般航天器的重要区别,一般航天器分阶段的风险识别与控制建议并不完全适用于空间实验室。
国际空间站是典型的组合体航天器,正常运行下,美国段负责对组合体进行飞行控制,国际空间站应对组合体飞行模式下轨道控制风险时,美国段向俄罗斯段和货运飞船发送指令,俄罗斯段和货运飞船接收到美国段发来的指令后开关轨控发动机完成组合体轨道控制[11-12]。就这种风险控制方法而言,如果美国段发生重大故障无法工作,国际空间站并无舱段可以接替美国段对组合体进行控制,事实上,仍然存在很大风险。国内风险控制多采用增加设备冗余的方式,验证冗余效果也多采用概率风险评估方法[13-14]。
针对上述问题,本文提出一种适用于天宫一号小子样特性的相对风险识别法,并提出在不增加设备冗余和舱段前提下降级重构风险控制法,以期解决风险识别结果波动过大的问题,降低天宫一号重大故障发生的概率。
我国载人航天器工程的开展具有明显的阶段性,可将空间实验室风险识别与控制工作分为:综合论证与方案阶段评估、研制生产阶段评估、组建阶段评估与运营阶段评估4个阶段。每一个阶段由于工程进展的不同,其数据采集和设计师对系统的熟悉程度也有所不同。应结合同阶段数据采集的程度,选择合适的方法进行风险识别,并提出最优的风险控制方法。
1)综合论证与方案阶段
综合论证与方案阶段,系统方案尚未确定,工程人员也未完全到位,计算机仿真和地面实验数据不足,此阶段并不具备进行定量风险识别的基本条件。此阶段应该着重考虑大系统设计方案的可行性、合理性、新技术应用性和成熟产品核心技术的继承性等[15]因素。通过建立初步的事件链,对系统进行顶层风险的识别,给决策者定性的风险评估结果并从方案论证阶段给设计师提出系统的风险控制措施,此阶段的设计改进为整个工程期间改进成本最小的阶段。
2)研制生产阶段
研制生产阶段可以分为:初样阶段和正样阶段。期间需要对每一个系统和分系统建立事件树和故障树模型,数据采集时需要把握关键项目,将计算机仿真与地面试验数据收集起来建立数据库,并且随着仿真与试验的不断深入尽可能高效的更新数据库。通过系统模型的不断完善,在初样阶段给予系统合理的风险控制建议且提供依据,在正样阶段为飞行事件保障链的建立提供数据及理论依据。
3)在轨组建阶段
在轨组装建造是空间实验室区别于普通航天器的重要阶段,天宫一号和载人飞船的计算机仿真及地面实验数据都比较完整,并且有一定量的在轨数据。该阶段开展的风险分析不应再针对设计方法,应当着重考虑空间实验室单飞和组合体飞行的不同状态对系统风险的影响,把重点放到长期在轨运营上。关键子系统应当独立构件事件树识别风险,通过事件树了解系统发生故障的过程,考虑单飞和组合体飞行的不同状态建立动态故障树模型,并确定机毁人亡、航天员伤亡、航天员应急撤离、压力舱损坏、分系统失效和碰撞六种不良后果状态。再结合飞行事件保障链,提出合理的控制风险的举措。
4)在轨运营阶段
运营阶段是一个漫长的阶段,我国未来空间站在轨运营寿命将在10至15年[16],如此长时间的在轨任务对系统的可靠性,安全性和维修性都提出了更高的要求。在轨运营阶段需要对关键系统进行长期的风险监控与识别机制,期间还要对观测到的数据重新建立在轨运营数据库;尽早识别出系统可能存在的风险完善系统的维修性,并建立常规维护和应急操作策略。
综上所述,不同研制阶段的风险识别与控制有不同的特点。综合论证阶段应以定性识别为主,提出初步的风险控制思路;研制生产阶段应重点识别关键项目风险,建立完备的风险识别数据库,将风险控制在初样阶段;在轨组件阶段应将风险识别的重点放在组合体形态上并提出合理的风险控制举措;在轨运营阶段应将风险识别的重点放在系统延寿上,建立长期的风险识别与控制机制。
基于风险识别与控制方法分阶段应用特点分析,本文提出相对风险识别方法,即基于相对概率风险评估的定性与定量相结合的综合性风险识别方法。定性风险识别方法可以使系统设计师对复杂系统特性进行全面深刻地了解,找到影响长寿命设计的关键项目;定量风险识别方法可以定量地区分不同影响因素的重要程度,为风险控制方案的实施提供定量依据。
空间实验室主要任务是作为被动交会对接目标完成交会对接试验,在轨运行2年,为航天员在轨工作、生活以及科学应用提供必要条件,为我国建立长期载人空间站进行技术验证。
天宫一号运行在350~400 km的近圆轨道上,处于低轨空间环境中,飞行期间正值太阳活动高年,需适应太阳辐射、地球磁场、高能带电粒子、电离层、微流星体及空间碎片等空间环境因素,在轨飞行时间由载人飞船的5~7 d提高至2年,低轨长期运行是天宫一号不同于以往载人飞船的显著特点,寿命设计不全面是天宫一号的主要风险之一。
影响天宫一号长寿命的因素包括外在因素与内在因素如图1所示。其中,外在因素是指天宫一号的轨道空间环境,内在因素是指系统的资源配置、系统功能重构与冗余配置、以及关键设备/材料的设计与验证,通过任务分析,天宫一号长寿命设计的关键包括:
1)充分识别影响天宫一号寿命的低轨空间环境因素;
2)系统产品特别影响系统长寿命设计的关键设备/材料具备2年任务寿命内可靠工作的能力。
3)系统配置的推进剂、环热控工质、空气可满足2年在轨飞行期间进行3次交会对接任务的要求。
图1 天宫一号低轨长寿命分析示意图
定性风险评估方法可以通过空间环境因素及任务需求识别出天宫一号长寿命设计将会遇到的风险,有助于设计师更具针对性的开展风险控制工作。
定量的相对风险识别方法的识别过程分三步,本文以天宫一号控推系统为例。
第一步:主逻辑图是一种自上而下分层次梳理的树状图,可以分为顶事件,中间事件和底事件。通过主逻辑图可找到导致重大风险发生的初因事件如图2所示。
第二步:结合图2识别初因事件结果如表1所示,对空间实验室控推系统建立故障树模型如图3所示。
第三步:基本事件重要度权重分析。
结合故障树模型,可以将风险重要度准则分为两层。第一层为主要功能:姿态测量功能(C1)、姿控力矩功能(C2)、轨道控制功能(C3);第二层按照故障树将功能进一步细分:天宫一号星敏感器头部或线路失效(C11)、 “红外+数字太阳+陀螺”精度不足(C12)、天宫一号姿控发动机推进剂泄露(C21)、CMG框架、转子或电源失效(C22)、天宫一号轨控发动机控制阀失效,喷注孔阻塞(C31)。
图2 主逻辑图
表1 初因事件列表Table 1 Initial event list
图3 空间实验室故障树模型
通过F-V重要度确定单个事件对风险的重要性。假设系统失效,以系统失效R0为风险基线。
(1)
部件可靠性Pr(Ci=1),系统可靠性Pr(S=1),系统不可靠性Pr(S=0),部件完好时系统完好的条件概率Pr(S=1|Ci=1),部件完好时系统失效的条件概率Pr(S=0|Ci=1),部件失效时系统完好的条件概率Pr(S=1|Ci=0),部件失效时系统失效的条件概率Pr(S=0|Ci=0)。其中,Pr(Ci=1)已知,Pr(S=1)和Pr(S=0)之和为1,权重计算结果如表2所示。
通过权重计算对控推系统风险进行重要度排序:姿控力矩功能异常,轨道控制功能异常,姿态测量功能异常。待解决风险点的优先级为:天宫一号姿控发动机推进剂泄露;天宫一号轨控发动机控制阀失效,喷注孔阻塞;天宫一号星敏感器头部或线路失效;CMG框架、转子或电源失效;“红外+数字太阳+陀螺”精度过低。
相对风险识别方法通过计算重要性权重,从相对风险的角度对关键项目进行了重要度排序,为设计师对系统实施风险控制的优先级提供依据。
表2 重要性权重分析结果Table 2 Analysis of importance weight
空间实验室任务提出采用可重构安全模式的在轨风险控制措施,通过空间实验室故障时系统的自主重构控制风险并阻断风险的传播路径。空间实验室提出安全阈值分级管理方法,建立了重要风险不同安全阈值与系统安全模式的映射数据库,当关键参数达到不同的预置阈值时,采取报警、关闭大功率设备、关闭应用载荷等处理措施逐级撤销飞行器功能,对飞行器功能进行降级重构,实现自主处置结果最优化如图4所示,以解决风险处置随机性与平台任务连续性的难题。
图4 可降级重构的自主安全模式框图
载人飞船与空间实验室对接形成组合体后,正常情况下由空间实验室完成组合体的控制。空间实验室通过固有的冗余性设计难以消除2.2节通过故障树分析识别的3种影响航天员安全的重大风险。针对上述难以消除的在轨安全风险,提出了载人飞船接管组合体的方法实现两飞行器重构的方法。对组合体降级重构设计,提出了全姿态捕获和组合体定向控制模式,解决了载人飞船接管组合体控制时面临大姿态角偏差的难题。
空间实验室组合体由天宫一号和载人飞船组成,且都具备单舱独立飞行能力,故本文针对空间实验室组合体控推系统影响航天员的重大风险建模。
用主逻辑图可以识别出导致空间实验室控推系统异常的初因事件如表1所示。
应用上述可降级重构的风险控制方法对空间实验室进行降级重构设计,在组合体形态天宫一号控推系统异常时由载人飞船接替天宫一号控制组合体。应用可降级重构设计后,对空间实验室控推系统建立故障树模型和重要度权重分析如图5、表3所示。
图5 应用风险控制方法的双舱故障树
表3 重要性权重分析Table 3 Importance weight analysis
表4可以看出,空间实验室组合体控推系统的3种重大故障,通过风险控制改进后其相对差比均为负。所得相对风险评估结果为:控推系统重大故障发生概率相对减少21.1%。再结合表2和表3中第二层准则的权重值,应用风险控制方法后第二层准则内所有事件的权重值明显降低。空间实验室在不增加舱段冗余的前提下大幅提高了系统的可靠性,优于国际空间站未应用可降级重构风险控制的设计方法。
表4 应用风险控制方法的相对差比Table 4 Relative difference ratio using risk control method
1)应用本文提出的相对风险识别法和降级重构风险控制法,空间实验室控推系统重大故障发生概率(相对于方法应用前)减少了21.1%,规避了风险识别结果波动过大的问题。
2)在空间实验室组合体控推系统中应用了本文提出的可降级重构的风险控制法,使控推系统重大风险影响量的相对比差降为负值(-0.903、-0,974、-0.896),在不增加设备冗余和其他舱段的前提下降低了系统风险。