张 森 石 军 王九龙
(北京空间飞行器总体设计部,北京 100094)
在恶劣的空间环境中长期稳定工作是卫星技术发展和应用的关键。虽然卫星设计中都充分考虑了各种因素,但仍有很多卫星在完成预定任务之前就出现严重故障,使得任务终止。也有一些卫星虽然主要分系统发生了严重故障,但由于处置及时合理、功能备份完善,仍然能够完好地恢复操作,并达到设计寿命。本文调研的故障主要来自http://w w w .sat-index.co.uk/failures/,该网站截至2010年2月共记录了218 颗卫星的故障,本文选取其中部分典型故障并加入了一些其他文献的资料, 共分析了1975-2007年间的272 次卫星故障,研究了各种失效模式对卫星任务的影响,并提出了故障规避和故障恢复的建议。本文分析结果也可用于故障对策的针对性设计。
研究中对卫星分系统进行如下分类:姿态和轨道控制分系统(AOCS)、指令和数据处理分系统(CDH)、测控与通信分系统(TTC)、结构机构分系统(M ECH)和有效载荷分系统等。
卫星的失效会导致功能暂时或永久性的丧失。本文把有相同故障模式的故障算作故障源所在分系统的一次故障。例如,1995年NASA 和ESA 发射的“日光层观测台”(SOHO)卫星三年内先后损失了3 台陀螺[1],统计中把这些故障算作一次。单一失效可能带来多种故障现象,统计中把这些现象也算作一次故障。失效的损失程度分为两类。一是“任务失败”,指发生了灾难性的故障,使卫星任务失败;二是“任务降级”,这种失效发生以后就要放弃部分任务,通信卫星的暂时通信中断也属于这一类。
统计的272 次失效事件中,53 次为瞬时故障,219 次为永久故障。瞬时故障一般是卫星暂时失去通信或控制指向,但很快又自动恢复;永久性故障导致卫星失去某项功能或失去某个备份部件。
瞬时故障的原因一般有:环境干扰、静电或单粒子翻转。环境干扰是太阳质子、磁暴等导致通信暂时中断或干扰卫星上仪器正常工作,静电充电/放电有时较严重,有时比较轻微,轻微时仪器暂时停机或重新启动;严重时会由于电流过大使部件烧毁。地球轨道卫星的单粒子翻转一般发生在南大西洋异常区上空,使存储器或计算机发生比特错误。由于时间较短,瞬时故障经常难以确定故障源。
永久故障一般是由于静电放电、辐射损伤、设计余量不足、生产加工缺陷或机械磨损。星上的易耗损部件主要为高速转动部件,如动量轮、陀螺等,因此发生了大量动量轮、陀螺的故障(占总数10.45%)。
本节对272 次卫星故障进行总结。图1 为失效在卫星各个分系统的分布。因为瞬时故障时间短,难以确定发生位置,因此不在统计范围内。
图1 卫星故障分系统Fig.1 Affected subsystems
图2 卫星失效类型Fig.2 Failure type
图3 发射后的失效时间Fig.3 Time of failure after launch
“其他”包括机械、载荷和未知原因的失效。因为每颗卫星的结构和载荷各不相同,且故障的随机性较大,因此不做重点讨论。57%的失效会影响AOCS 和电源分系统,后面将对这两个系统做详细分析。图2 显示失效类型。失效类型分类如下:机械、电、软件和未知。机械故障由机械现象导致,如热、温度、外力、摩擦和压力变化等。电源过载、短路、电池异常损耗等都看作是电子故障。软件故障主要是指令走飞和软件设计缺陷。故障有如下特点:
1)电子线路故障多于机械故障
电子线路的损耗小于机械部件,所以一般认为它的故障次数应该比机械故障少。但统计发现卫星电子和电气故障占故障总数的54%,是机械和热故障(占27%)的一倍。原因有三:第一,现代卫星中,电子设备的数量远远超过机械部件,因此故障次数也会相对较多;第二,辐射、太阳风暴和电磁场这种空间环境也主要影响电子部件;最后,还有些电子设备损耗很严重,如电池和太阳翼等。
2)在轨第一年的故障较多
入轨后故障发生的时间分布如图3 所示。43%的故障发生在在轨的第一年,主要是因为卫星测试不足以及对卫星和空间环境的建模不充分。故障发生的越早,任务的损失越大[2],因此应该尽量减少早期失效的发生。
3)及时发现处理的故障损失较小
图4 显示失效严重程度。只有18%的失效是灾难性的,而导致功能损失的失效大约占54%,不用任何处理很快就自动恢复的故障占28%。这表明,可以通过一些手段减少失效的影响。卫星经过仔细设计和备份,可以较好地从故障中恢复,针对这种情况应进行故障识别、隔离和恢复系统的开发[3-4]。
4)空间环境的影响较多
空间环境指太阳辐射、宇宙射线、电磁风暴、小行星和空间碎片等不利因素。图5 显示空间环境造成失效的分布比例。虽然花费了大量的经费对太阳和电磁辐射进行防护,但这个比例仍是可以接受的。这是因为空间环境难以捕捉且复杂多变,设计余量只能通过间接经验来确定。
5)人为操作失误较少
人为错误包括操作人员的错误和设计人员的错误。操作人员错误经常是发送错误的指令或对遥测数据的理解不正确。设计错误指卫星设计阶段出现的计算错误、参数错误等。调查中发现,只有11%的故障与人有关。人为错误只占错误总数的11%,这可能是因为卫星的设计和操作都要经过专家反复迭代和确认。
图4 失效对任务的影响Fig.4 Failure impact on the mission
图5 空间环境对卫星失效比例Fig.5 Percentage of space environment impact on satellites
最后,根据现有数据对故障部件进行了分类。图6 包括了卫星的主要故障部件和对应的数量。
图6 卫星失效部件Fig.6 Satellite failed components
6)太阳翼的故障较多,且多发生在在轨的第一年
故障次数最多的部件是太阳翼。而其中约40%是由于机械原因,主要表现为展开失败或太阳翼结构失效。电子失效主要由于太阳阵驱动机构短路。并且,大量太阳阵失效是卫星生产单位的重复性问题。2002年1月波音卫星系统公司指出,BSS-702 平台太阳翼上用于增加发电量的光聚集器,使至少7 颗卫星在寿命期内失去了电源[5]。55%的太阳阵失效发生在第一年,这是它致命的另一个原因。因此,卫星生产时必须进行充分的测试。并避免如BSS-702 平台这种重复出现的问题。
7)在轨控制器故障较多,但多数影响不严重
故障的次数仅次于电源的分系统是在轨控制处理器。因为主控制器失效时可以切换到备份,它的失效一般不如太阳翼严重。但CDH 系统灾难性故障中56%是因为主备控制器先后故障或者切换失败,它占所有灾难性故障的8%。
AOCS 系统包含很多关键部件,它的失效将严重影响卫星的运行。图7 重新对AOCS 的失效进行了分组。
图7 AOCS 失效类型分布Fig.7 AOCS failure type distribution
图8 AOCS 失效时间分布Fig.8 AOCS failure time distribution
与其他分系统不同,有超过一半的AOCS 故障是机械故障(53%),只有少量是电子故障。从图8可见,AOCS 系统故障的发生时间比较均匀。只有22%发生在第0~1年,这远远低于所有分系统的43%。图9 显示AOCS 失效的损失程度,图10 是发生故障的部件统计。
图9 AOCS 失效对任务的影响Fig.9 AOCS Failure impact on the mission
图10 AOCS 失效部件分布Fig.10 AOCS failed components
AOCS 失效的严酷度不高,并且比其他分系统失效恢复得更好。它的降级故障比整体低8%。其实可能有大量未知的故障是AOCS 引起的,只是因为缺少信息。同时,AOCS 系统失效的50%是因为如下部件:陀螺、动量轮和推力器。
在感觉上,电源分系统的故障应该比AOCS 分系统少,因为与后者不同,电源分系统的任务比较单一。可是,卫星的运行的能量全部要靠电源产生和存储,因此也应对电源故障加以详细分析。
图11 电源分系统失效类型Fig.11 Power failure type
图12 发射后电源分系统的失效时间Fig.12 Failure time of power after launch
重要的载荷或卫星平台如果被电源故障影响,都可能使任务终结。图11 和图12 显示电源分系统的相关统计。
66%的电源系统失效是由于电子产品故障。值得注意的一点是发射以后发生故障的时间,几乎一半(49%)发生在第一年,这可以归结为地面测试的不足,也可能是因为设计缺陷而造成的。图13 显示失效带来的损失,图14 显示引起失效的部件。
电源失效对卫星是致命的。45%的失效会导致任务失败,80%(35%+45%)会明显影响卫星任务。而且,几乎一半的电源失效与太阳翼有关。这个部件的失效比卫星其他任何部件都多。它也占第一年内所有失效的一大部分。很多太阳翼问题是由于展开机构的故障(这也可以归结到结构机构分系统的失效)和发电量不足。这种故障经常出现在卫星在轨的早期。增加地面测试可以减少在轨操作时发现的故障。可是,地面测试需要经费和时间,必须在代价和减少风险之间折衷考虑。
图13 电源分系统失效对任务的影响Fig.13 Power failure impact on the mission
图14 电源分系统失效的部件Fig.14 Failed power components
把CDH 和T TC 分系统的故障组合到一起,是因为它们的故障较少而且分析方法类似。图15 至图16 显示了CDH 和T TC 分系统的相关数据。
图15 CDH 和TTC 分系统的失效类型Fig.15 Failure type of CDH and TTC
图16 CDH 和T TC 发射后失效时间分布Fig.16 CDH and TTC failure time after launch
这类失效的最主要原因是电子器件和软件故障。软件故障主要是指错误的指令和软件漏洞。最著名的软件故障就是美国“火星气候轨道器”(MCO)。它在进行轨道注入机动时失效,根源是地面弹道模型软件中错误地使用了英制单位。这个错误使对卫星过载的影响估计低了45%,以致卫星烧毁[6]。这两个分系统的故障发生时间与电源类似,有45%发生在第一年内。第一年的故障主要发生在T TC 分系统。超过70%的TTC 故障发生在第一年,而CDH 分系统第一年的故障只占24%。天线故障有很多种,包括展开失败、通信丢失和收发机失效等。图17 显示失效损失的程度, 图18 显示CDH 和T TC 失效影响的部件。
与AOCS 故障类似,CDH 和T TC 故障不太致命,并且较容易恢复。这主要是因为卫星的控制处理器(也就是在轨计算机)、收发机、行波管放大器经常有备用单元。T TC(占失效总数的18%)和CDH(占所有失效的20%)的失效概率比其他器件低。
图17 CDH 和T TC 失效对任务的影响Fig.17 CDH and TTC failure impact on the mission
图18 CDH 和TTC 失效的部件Fig.18 CDH and TTC failed components
图19 空间环境导致的CDH 和TTC 故障比例Fig.19 CDH and T TC failure percentage due to space environment
空间环境是这类失效的主要原因, CDH 和TTC 失效中21%是由于空间环境。太阳风和电磁风暴导致单粒子效应和计算机切机,如果处理不恰当,可能造成致命影响。空间环境对CDH 和T TC分系统的影响如图19 所示。
结构机构分系统主要有停泊机构、各种展开机构和卫星结构等等,超过一半的这种故障发生在入轨的第一年。载荷包括相机、数据传输装置和探测器等,这种失效大部分发生在地球观测和科学探测卫星上。这类分系统故障率较低,而且重复发生的故障模式少。
本次统计研究发现的一个重要结论是,大量失效发生在卫星在轨的第一年。姿态与轨道控制系统第一年失效的比例最低,而电源和测控通信分系统在第一年的失效率非常高。这些分系统大多数由电子部件构成,要求至少能够可靠工作3~5年(通过部件筛选达到)。而且,很多失效就发生在入轨以后。因此,应该深化故障模式与影响分析(FM EA)工作,加强部件热设计,进行充分的环境应力筛选,加强元器件筛选复验,提高元器件使用可靠性[7]。在不影响发射进度情况下,增加出厂测试的覆盖率。
冗余(包括硬件冗余和功能冗余)是提高卫星可靠性的主要手段。姿态与轨道控制执行器、传感器和卫星在轨处理器等都需要有充分的冗余[8]。哈勃太空望远镜(Hubber Space Telescope)有6 个陀螺,某个陀螺损坏以后切换到备份组件,如果损坏数量过多则需要及时更换以保证它的可靠运行;很多卫星在失去主处理器时依靠备份控制器才能运行。但有时切换失败或发生备份失效的情况,这就会导致灾难性后果。
卫星软件和硬件的灵活性使地面工程师或操作员可以重新对卫星系统编程。这也是失效恢复的一个重要手段。很多卫星在动量轮完全失效以后,通过程序注入实现用磁力矩稳定;有的卫星在陀螺失效以后,通过编程实现用敏感器进行姿态获取。
空间环境是卫星故障的主要因素。单粒子事件效应、静电充放电和物理损伤等[9]都是空间环境所致。因此应该增加对空间环境的监测,建立完备、准确的空间环境模型[10]。做好辐射、静电防护和余量设计。
随着设计和生产水平的提高,除了在轨初期的故障以外,几乎所有致命的故障都是由系统间接口、空间环境和多故障并发引起的。因此,设计时要充分考虑系统间功能的耦合,应当用仿真来识别未知风险,提高卫星的安全性。
部件的老化难以避免,及时监视部件性能的下降可以预测一些故障的发生,防止故障损害卫星的主要功能。故障检测技术是航天器自主的基础,是降低生命周期费用、提高安全性和成功率的关键。
本文对130 多颗卫星的272 次在轨故障进行了统计。对不同分系统的失效特点和典型失效模式的分析得出结论:很多故障是重复发生的;良好的备份和故障处理可以减轻故障影响;应加强出厂前测试等。并指出了最容易出故障的主要卫星部件。基于本文研究和相关失效事例给出了故障防护设计建议,分析了开发故障识别、隔离和恢复(FDIR)系统的重要性。
)
[1]Massimo T, Ellen L H, Freeman H R, et al.SOHO mission interruption joint NASA/ESA investigation board[R].NASA, 1998
[2]Rrook R S, David L A.A survey of serviceable spacecraft failures[C]//American Institute of Aeronautics and Astronautics, 2001
[3]Wertz J R, Larson W J.Space mission analysis and design[M].3rd Torrance, CA, USA:Microcosm Press,1999
[4]姜连祥,李华旺, 杨根庆,等.航天器自主故障诊断技术研究进展[J].宇航学报, 2009, 30(4):1320-1326
[5]Caceres M.Satellites and launches trend dow n[J].Aerospace America, 2004, 42(1):18-20
[6]Young T, Arnold J.Mars program independent assessment team report[R].NASA, 2000
[7]赵海涛,张云彤.东方红三号系列卫星在轨故障统计分析[J].航天器工程, 2007, 16(1):33-37
[8]张新邦,索旭华.卫星故障诊断技术[C]//全国仿真技术学术会议,北京控制工程研究所, 2001
[9]Koons H C, Mazur J E, Selesnick R S, et al.The impact of the space environment on space systems[R].Aerospace Technical Report TR-99(1670)-1, 1999
[10]Xapsos M A, Summers G P, Barth J L.Probability model for w orst case solar proton event fluences[J].IEEE Trans.on Nucl Sci, 1999, 45(6):1481-1485