方漪 王羲翰 于海霞 ( 中国空间技术研究院, 北京空间科技信息研究所)
航天是高风险的科学探索活动,在各类航天活动中,对太阳系及更远太空的探索任务难度大,风险高,面临来自技术、政策、人员、环境、资源等很多不确定因素的影响。以月球探测为例,截至2019年底,全球共实施月球探测任务122 次,其中任务成功或部分成功63 次,任务失败59 次;2019年,印度的月船-2(Chandrayaan-2)任务落月失败,再一次说明在探索宇宙的活动中,必须将风险管理作为核心要素。美国国家航空航天局(NASA)在长期的空间探测任务中,开展了大量研究与实践,成功将风险管理的理念、方法和工具应用在空间探索任务的全过程之中,为保障任务成功提供关键支撑[1]。
NASA 通过长期任务实践发现,一项空间探测任务面临的主要风险包括四个方面:一是设备故障导致探测器功能降级或失效;二是外部环境和事件影响,例如地震、洪水等自然灾害对研制任务的影响;三是人员失误风险,主要是操作失误、判断失误、消极怠工;四是组织机构风险,如内部沟通不畅,责任界面不清、管理维度缺失、整体员工士气不足,员工专业技能和培训不足等。
为有效应对这些风险,NASA 制定了面向航天项目管理的一套成熟的风险管理系统,从研制进度、人力资源、技术、机构配置、安全、环境、成本预算这七个方面开展风险管理,使风险管理系统成为航天项目控制、系统工程和安全与任务保障的有机组成部分[2]。
在航天项目风险管理中,NASA 在项目全生命周期各阶段按照分级分类的方式进行风险识别和管理,对风险进行优先级排序,定期评估风险和风险管理控制的有效性,强化风险管理信息沟通的软硬件,从而提高NASA 风险管理的决策质量,确保航天项目的目标任务实现。
具体而言,NASA 风险管理系统包括基于风险信息的决策(RIDM)和持续风险管理(CRM)。基于风险信息的决策分三步:识别航天项目的备选方案;对备选方案进行风险分析;对基于风险信息的备选方案进行选择[3]。
NASA 的持续风险管理由风险识别、风险分析、风险缓释计划、风险跟踪、风险控制、沟通和记录六大模块构成,具体流程形成一个类似“计划-执行-检查-处理”(PDCA)的闭环管理:
NASA 风险管理的主要领域和流程
1)制定风险管理计划。执行成功的风险管理所必需的前期活动,需要根据航天项目的目标、任务特点、过程控制需求以及风险管理策略、资源和方法来制定风险管理计划。
2)开展风险识别。对发现的风险进行持续的识别和记录。通过研究历史数据,采访专家,对比目标和现有能力,判断指标趋势等方法来识别风险。
3)进行风险评估和分析。对风险发生的概率、影响和时间表进行评估,并对相关风险进行分类和优先级排序。需要确定风险的原因、条件、可能性、后果、风险敞口等;评估中使用风险矩阵、风险指标评估、多属性决策等定性或定量分析评估方法。
4)实施风险应对。根据项目目标、资源和风险评估结果,制定风险应对计划。首先指定风险责任人,然后选择或重新设计风险应对备选方案,通过评估和权衡,确定最佳解决方案,制定风险应对计划。
5)跟踪和控制风险。跟踪风险变化情况及风险应对计划的实施状态,并根据需要采取纠正措施来控制风险。
6)风险管理沟通和记录。在风险管理全流程持续记录风险变化和管理实施情况,为管理决策提供支持;主要通过表格等方式将风险管理活动中的风险、分析、处理/行动数据进行记录整理,输出风险管理数据库报告、状态报告、跟踪日志等[4]。
在管理工具层面,NASA 的风险管理工具分为定量和定性两类,定量分析工具包括基于统计分析的风险评估模型和风险分析技术,例如概率风险评价(PRA);基于原因和影响的风险分析,例如影响和关键性分析(FMECA)以及基于系统工程的风险识别与分析等。定性分析工具包括失效模型与影响分析(FMEA),故障树分析(FTA)、风险评估分类(RAC)、头脑风暴法、危险程度分析法、关联度分析法、过程映射分析法、基于分类的问卷调查法、帕累托分析法等[5]。
NASA 在空间探测任务中,注重分析与航天器设计、生产、测试和验证相关的典型风险因素对多阶段项目的影响,确保每个里程碑按进度和质量完成。
以NASA 的猎户座探测任务为例,该任务要完成“三步走”:第一步是无人飞行测试-1(EFT-1),将开展绕地轨道5800km 高度飞行并再入返回;第二步是探测任务-1(EM-1),将开展为期25天的无人绕月往返任务;第三步是探测任务-2(EM-2),计划在2021年实现近地小行星的载人探测任务。猎户座探测任务阶段多时间跨度长,风险管理难度大,NASA 在项目中运用风险矩阵和风险分析软件实现综合风险识别和分析。
风险矩阵是常用的风险评估工具,通过风险发生概率和风险影响两个指标来描述风险。风险发生概率评级从1 到5 不断提高,概率小于10-6几乎不会发生的风险评级为1,概率大于0.1 很有可能发生的概率评级为5。风险影响评级从1 到5 不断上升,对人身安全、设备、人员健康、探测环境、任务成果、成本、进度等几乎无影响的可忽略风险影响评级为1,对人身安全、设备、人员健康和自然环境产生重大威胁、任务失败、成本过高导致任务取消、里程碑延期5 个多月或任务取消的关键风险影响评级为5。识别的风险、发生概率和风险影响评级来自于过去40年中NASA 空间探测任务的历史数据和经验,以及本次任务中工程师和项目管理人员的意见。
NASA 的工程设计人员完成这两个指标的评级后,可以建立一个发生概率和风险影响的风险矩阵,得到各个风险的级别。文中例举的风险矩阵中,每个方框代表一个风险级别(例如:低、中、高),有时使用颜色表示(例如:绿色、黄色、红色),风险级别越高,解决这个问题就越紧迫和重要。在此基础上进行风险等级排序,判断哪些是高等级风险,据此开展资源的配置。
在风险评估过程中,NASA 还使用量化风险分析软件,建立风险模型,有效提升定量分析效率,如创建综合进度时间表,为每个子任务分配一个风险评分,预估完成各个里程碑最小、最大和最可能的时间,建立进度风险评估模型,计算对具体任务进度风险的连续分布,还可以计算不同风险级别任务的比例和数量[6]。
NASA 确定的空间探测任务风险等级
国际合作是空间探测任务的常见模式,共享资源、共担风险,但国际合作也面临多方管理协作沟通等方面的要求和挑战,处理不好,可能引入新的风险,甚至影响任务成败。因此,国际合作开展的空间探测任务中,风险管理的协同就非常重要。
以“卡西尼- 惠更斯”(Cassini-Huygens)土卫六探测任务为例,该任务是NASA 和欧洲航天局(ESA)的国际合作探索项目,将探测土星、土星环及其卫星,参与该项目的专家来自美国和欧洲的16 个国家。“卡西尼”轨道探测器由NASA 研制,承担环绕土星飞行和中继通信任务;“惠更斯”着陆器由ESA 研制,在飞到土卫六时脱离“卡西尼”轨道探测器并在其表面着陆。
NASA 的风险管理工作集中在“卡西尼-惠更斯”整体飞行器的发射和轨道调整上;ESA 主要关注处理“惠更斯”着陆器所特有的风险。两个机构都在积极开展任务全过程的风险管理,并通过国际合作形成风险管理协作,从而主动识别、评估和管理任务风险。
NASA 和ESA 的风险管理协作首先是在风险识别与评估领域。NASA 和ESA 联合组建风险管理小组,定期对现有和潜在的风险跟踪评估。NASA 每季度安排风险小组会议,全面评估系统中的风险和优先级并讨论风险缓释方案。ESA 协同主承包商、每个分系统小组的专家对任务的风险进行评估。两者共同识别和评估“惠更斯”着陆器脱离“卡西尼”轨道探测器和信号中继的风险。
其次是风险分析的协同。NASA 每季度记录风险指标的变化趋势,开发了一个3×4 的风险矩阵。ESA 开发了一个5×5 风险矩阵,结合NASA 已确定的风险,基于ESA 标准重新评估并将其纳入ESA 风险管理工作。NASA 和ESA 团队定期同步项目计划,NASA 每季度记录风险指标并同步给ESA,将其纳入ESA 风险管理数据库,实现双方信息无缝链接和风险评估标准的互通协同。
NASA 和ESA 的风险量化标准
NASA 和ESA 还制订了“卡西尼-惠更斯”项目行动计划协调机制(MOP)。该机制可以让两个团队的成员随时获得操作计划状态和结果并进行沟通和审查,还通过对任务需求和研制活动的清晰定义减少了误解的风险。通过制定联合时间表和行动计划,消除机构间的方案偏差,紧急情况下可以按约定的行动计划执行。MOP 作为风险评估和风险缓解方面的指导性文件,有效地促进了两个机构协作风险的管理。[7]
空间探测是航天活动中风险比较高的一类,做好风险管理工作更为重要。美国和欧洲国家在空间探测领域风险管理积累了大量经验和数据,建立了覆盖探测任务全周期的风险管理方法,很多做法值得我们研究、学习和借鉴。这些管理方法主要集中在四个方面:一是风险管理有机融入宇航研制项目管理流程,已经与项目管理、系统工程和任务安全保证等管理有效对接,嵌入到项目进度、成本预算、技术攻关、系统研制、人员队伍等各类要素的管理和控制之中;二是关注深空环境、航天员安全等方面的特有风险因素的影响;三是建立基于历史经验数据建模和量化分析的风险识别、风险分析、风险应对策划、风险实施与跟踪,效果评估与控制闭环管理;四是注重多国别、多机构的风险信息沟通与管理协同方法开发与应用。