袁 利,黄 煌
近年来新一代人工智能技术飞速发展,在图像、语音、搜索等应用领域的感知智能取得了重要突破,并逐步走向产业应用;在围棋、德州扑克等领域的决策智能也取得了显著进展,特别是2016年在无人机空战模拟对抗中,人工智能以不超过1毫秒的战术调整速度,战胜了经验丰富的美军退役上校团队[1].人工智能的突破性进展为空间智能自主控制提供了理论、方法和技术支撑.
国际上各航天大国都对空间人工智能技术高度重视.美国在2015年DARPA未来技术论坛上,将太空机器人、自主人工智能列为讨论主题,同年发布的《美国国家创新战略》将“太空探索和高性能计算”列为人工智能优先发展的9大领域之一[2];2019年颁布《美国人工智能倡议》,将人工智能确定为政府研发的优先事项[3].德国2018年发布《德国联邦政府的人工智能战略》,提出加强航空航天与人工智能技术的结合.我国2017年发布《新一代人工智能发展规划》,提出构建自主无人系统智能技术体系和支撑平台.
通过引入智能技术,在感知、决策、操控等方面赋予空间飞行器类人行为属性,可显著提升其执行遥感预警、空间操作、深空探测等任务的自主能力.本文首先对国内外空间飞行器智能自主控制技术在轨应用情况及发展现状进行分析,然后结合未来任务需求和智能技术发展趋势,对照传统导航、制导与控制,讨论空间飞行器智能自主控制的新特征,提出5级分级方法.最后从感知与认知、决策与规划、学习与操控、健康管理和系统体系架构五个方面,给出空间智能自主控制技术的发展建议.
诺伯特·维纳在1948年首次提出控制论的概念,指出控制论是研究动态系统在变化的环境条件下如何保持平衡状态或稳定状态的一门科学[4].70多年来,控制的内涵不断丰富,在反馈原理的框架下,逐步涵盖感知、认知、推理、决策、交互等内容[5].
自主控制,是指系统在没有人或其他系统干预的条件下实现目标的控制过程,并能够对环境和对象的变化做出适应性反应.经典的PID控制、鲁棒控制、自适应控制等自动控制方法,基于解析模型进行设计,对突发事件、未知环境等变化的适应能力不强[6],任务能力受限,属于较低等级的自主控制.
智能自主控制,是指具备感知、学习、推理、认知、执行、演化等类人行为属性的自主控制.智能自主控制是自主控制的高级阶段,赋予空间飞行器等无人系统主动探索、获取知识、灵活应用等智能,使其具备复杂未知变化环境下的感知、决策和操控能力,实现生长和演化,最终达到群体协同下的智能涌现.这是对IEEE控制系统协会[7],付京孙[8],以及Saridis等人[9]智能控制概念的综合,并针对自主无人系统应用,进一步强调了进化、群智等属性.
空间飞行器智能自主控制以近地轨道航天器、在轨服务与维护机器人、深空探测器等空间飞行器为对象,在星上资源的约束下,利用人工智能技术,实现透彻感知、最优决策和自主操控,从而使空间飞行器具备在复杂环境下执行多变任务的能力.
自上世纪70年代开始,美国JPL实验室围绕火星探测器开展了空间智能控制相关技术研究,并引入专家系统进行任务规划[10].随后,以美国、欧洲、日本为代表的航天国家和机构,开始关注太空环境中人类角色与自动化和机器人的作用[11],研究主题涉及到自然语言处理、决策支持系统、遥操作与远程监测、人机交互等,并开始尝试用专家系统进行故障诊断[12]或利用神经网络进行卫星通信资源调度管理优化[13],以提升空间飞行器自主执行任务的能力.进入90年代后,学者们开展了径向基函数网络[14]、多层前馈神经网络[15]、模糊逻辑[16]等在空间应用的方法研究.
以下从对地遥感、空间交会与操控、深空探测三个应用领域,对国外空间飞行器智能自主控制的发展现状进行调研和分析.
1.1.1 对地遥感
目前绝大多数遥感卫星仍采用“卫星数据获取—地面站接收处理—数据分发—专业应用”的传统模式,数据处理与应用的时效性不高.
最具代表性的智能遥感卫星是美国2000年发射的地球观测卫星1号(EO-1).星上携带了自主决策软件ASE,采用基于迭代修复的局部搜索算法生成规划方案,并能够快速自主地选择通信链路将实验数据快速传回地面[17-18].EO-1可以在星上直接对观测图像进行分析和识别,自动发现地面环境的变化,并自主选择时机对兴趣点区域进行成像,将最有价值的观测信息传回地面,能够比地面工作人员更快地发出预警.ASE的引入,使得对卫星的地面运维成本由2 500 000美元/年降至1 000 000美元/年[19].目前,美国洛克希德·马丁公司也正在研制基于SmartSat技术的软件定义卫星,可通过上注软件,在轨改变卫星任务.
德国宇航中心于2001年发射了双谱段红外探测卫星(BIRD),实现了对可见光、中波红外和热红外3个波段图像的星上辐射校正、几何校正、纹理提取和神经网络分类等处理[20],从而实时监测地表火源/热点信息,快速评估上述事件对环境的影响.
法国航天局于2011年发射的Pleiades高分光学成像卫星,采用基于时间线的约束网络方法建立单星规划模型,并融合启发式规则和迭代随机贪婪算法,进行星上自主任务规划[21].
1.1.2 空间交会与操控
空间自主交会方面,美国XSS-10/XSS-11微小卫星演示验证项目对自主逼近与交会进行了在轨演示,验证了自寻的制导敏感器和自主制导算法.美国空军于2014年发射了“地球同步空间态势感知计划(GSSAP)”系列空间监视卫星的前两颗,同时搭载了“局部空间自动导航与制导实验(ANGELS)”微型技术试验卫星.GSSAP卫星能够对地球静止轨道目标进行巡视探测和抵近侦查.
在轨操作方面,1997年日本ETS-Ⅶ首次成功实现在轨捕获合作目标,抓捕过程可自动完成,但动作序列由地面事先精确规划和设计.美国2007年实施的轨道快车项目完成了对合作目标的自主交会、接近、捕获、对接等在轨飞行试验.其他研究计划还包括美国的凤凰计划、地球静止轨道卫星机器人服务项目、德国在轨服务项目、俄罗斯国际空间站机器人组件验证计划[22]等.总体来看,目前在轨实现的操作任务大多依靠地面遥操作,且局限于带有标志器的合作目标,对于非合作目标操作,还处于地面验证阶段.
卫星平台控制方面,目前在轨航天器采用的先进控制方法主要集中在H2/H∞鲁棒控制、LQR控制和μ综合,具备小范围内抗干扰和抵御不确定性的能力[23],姿态控制还不具备自主学习和对环境的主动适应能力.
此外,国外在相关理论方面也开展了一些研究工作.例如,文献[24]基于神经网络的自学习能力、泛化能力和广义逼近能力,研究在未知环境下航天器的行为进化方法.
1.1.3 深空探测
目前绝大多数深空探测器的飞行过程主要依靠地面指令,只在实时性非常强的任务段,例如进入着陆过程,使用了自主控制和故障诊断技术.
美国深空1号(DS-1)是最具代表性的自主深空探测器之一,验证了自主导航、远程代理、自主软件测试和自动代码生成等相关技术[25].其中,远程代理模块利用规划引擎进行多约束任务规划的求解,实现指令生成、分发和执行[26],并借助自主故障诊断系统Livingstone,进行模式识别与系统重构[27].2003年美国“漫游者号”火星探测器搭载了机器视觉算法模块,能够在下降段进行特征地形的跟踪,并基于图像对水平速度进行估计,以应对下降过程切向风对落点精度的影响[28].
2018年,日本隼鸟2号探测器实现了基于地形识别的小行星全自主着陆[29].欧空局为“罗赛塔”号彗星探测器开发了星际轨迹规划器,利用蒙特卡洛树搜索策略,最终得到多个目标彗星的最优掠飞和环绕轨迹[30].
此外,美国的自主纳米技术蜂群项目(ANTS)计划于2020年到2030年间发射.该任务由大约1000个重1公斤的卫星组成蜂群,进行小行星带探测.整个系统模拟一个昆虫的社会结构,通过有效协调不同功能的个体,进行观测资源和观测策略的自主配置、小行星特征知识库建立、通信网络自主优化、单体/集群故障的协同修复、危险协同预警与规避等[31].ANTS项目计划将遗传算法、模糊控制等人工智能技术应用到系统中[32].
国外在相关理论方面也开展了一些研究工作.例如,文献[33]针对地外星体软着陆的最优控制问题,利用传统最优控制方法生成若干训练样本,对深度神经网络进行有监督训练,实现对优化问题的稳定求解;文献[34]利用深度卷积网络识别着陆点,叠加递归神经网络,研究2D仿真环境中月球软着陆推力矢量的最优控制问题.
我国空间飞行器智能自主控制的发展始于上个世纪80年代.1987年杨嘉墀先生指出,智能控制和故障诊断是未来航天技术的发展方向.未来的航天器控制就是要实现智能自主控制,利用智能手段达到自主控制的目的.1995年,杨嘉墀先生发表了论文《中国空间计划中智能自主控制技术的发展》,指出:“由于传统控制技术在空间飞行器姿态和轨道控制方面存在的问题,各空间国家10多年前就发展智能控制技术,对中国来说,发展这项技术更有其必要性”[35].
经过20多年的发展,我国形成了基于特征模型的智能自适应控制理论框架[36-37]、模块级进化容错方法[38]、自抗扰控制[39]等原创性成果,已实现了由程序控制到自动控制、自适应控制,再到自主控制的提升[40],有效支撑了对地遥感、空间交会对接、月球软着陆等国家重大任务.
1.2.1 对地遥感
为了提升对地遥感卫星入轨后对时敏事件的快速响应能力,北京控制工程研究所着力发展自主感知与任务规划技术,已完成地面演示验证.通过色彩与纹理融合的特征识别,实现对目标上方可成像“云洞”的预先判断,采用多约束快速规划与决策方法,综合运用深度学习、启发式搜索等智能算法,得到规避遮挡的成像策略,提高成像数据可用性.
2017年,我国首颗商业遥感卫星“吉林一号”发射入轨,具有一定的星上图像处理能力,可实现机动路径自主规划.2019年发射的软件定义卫星“天智一号”,可进行在轨数据处理,根据地面需求下传处理后的结果.
近年来众多学者开始研究基于深度学习的遥感图像处理方法.例如,文献[41]提出利用线性主成分分析网络对高分辨率遥感图像进行预处理,提高网络的泛化能力;文献[42]利用四层卷积神经网络,对单幅遥感图像进行超分辨率重建.此外,针对单星自主任务调度规划,研究了启发式调度规则、连续性规划、迭代修复等方法;针对多星星地一体化协同任务调度规划,研究了基于优先级的调度算法、层次化的确认/授权机制等方法[43].
1.2.2 空间交会与操控
1992年9月21日,我国载人航天工程正式获批,目前已成功发射11艘载人飞船,2个空间实验室,1艘货运飞船,实现了载人飞船的返回再入和空间交会对接.智能自主相关理论、方法与技术,是上述任务得以高可靠、高精准完成的关键因素之一.
基于吴宏鑫等[36-37]提出的特征建模与自适应控制理论框架,文献[44]提出了基于升阻比估计的自适应控制方法,解决了返回舱升阻比变化大严重影响落点精度的控制难题,神舟系列飞船10次返回开伞点精度均达到10 km左右.
文献[45-46]提出了黄金分割自适应相平面控制方法,实现了空间大范围智能自主轨道机动,完成了全相位条件下的快速自主交会对接.从神舟飞船与天宫一号首次交会对接,到天舟货运飞船与天宫二号的快速交会对接,9次对接均一次成功,“太空穿针”的横向位置偏差均小于5 cm.
围绕智能自主能力的提升,国内学者也开展了一些理论方法研究.例如,文献[47]利用卷积神经网络进行航天器组合体惯性参数的辨识;采用粒子群优化算法[48]或Sarsa强化学习方法[49],提高空间机械臂抓捕目标过程中对不确定性的处理能力;文献[50]考虑目标飞行器价值、服务消耗、能量和时间约束,提出了一种基于离散粒子群的多服务飞行器目标分配方法.
1.2.3 深空探测
我国月球探测任务分为“绕、落、回”三个阶段,嫦娥三号、嫦娥四号完成了“落”月探测,分别实现了月球正面和背面软着陆(图1).针对“落”月任务,文献[51]提出了惯导结合测距测速修正、多波束融合的自主导航方法,克服了月表不确定性导致的敏感器数据异常问题;提出了主减速段参数自适应和目标自学习的动力显式制导方法,可在线自主调整目标位置,在保证燃耗接近最优的同时,避免了探测器质量变化对制导性能的影响;文献[52]基于机器视觉图像处理技术,提出了灰度安全点结合姿态机动粗避障、高度安全点结合位姿机动精避障的“接力避障”控制技术,实现了崎岖地形自主安全着陆.
图1 嫦娥三/四号自主软着陆过程Fig.1 Soft landing process of Chang’E-3 and Chang’E-4 Lunar Probes
嫦娥五号飞行试验器是我国验证月地轨道以第二宇宙速度再入的先导飞行器,应用原创性的自适应弹道预测方法、时变动态控制增益变换方法、基于一阶特征模型的全系数自适应制导方法、预测-跟踪相结合的双环再入制导方法以及升阻比估计的自适应制导方法[53],实际飞行的开伞点精度0.509 km,相对标称轨迹制导方法,精度上有数量级的提升.
国内学者近年来也开始研究利用智能算法的深空轨道设计和轨迹规划问题.例如,文献[54]采用深度神经网络离线训练的方法,求解太阳帆航天器轨道转移过程中最小时间的轨迹优化问题,并且设计了多尺度网络的协同策略;文献[55]采用监督学习训练深度神经网络,实现软着陆过程轨迹在线实时重规划和控制.
自1957年第一颗人造地球卫星入轨以来,空间飞行器经历了从程控自动化到自适应控制,再到自主控制的发展过程,在轨自主运行能力不断提升,目前正向具有更高智能水平的自主控制阶段发展.
在提升空间飞行器的智能水平方面,美国走在世界前列,研制了以ASE为代表的优化决策系统和以Livingstone为代表的自主故障预警系统,显著提升了空间飞行器的安全性和易用性,获得了可观收益.我国在空间交会对接、返回再入、地外软着陆等方面的自主控制与国际一流水平相当.智能方面形成了若干原创性成果,实现了“点”的突破,但尚未形成系统应用.
传统的制导、导航与控制(GNC)系统重点解决绝对/相对姿态、轨道的自主确定和控制问题.导航模块进行独立的数据获取和处理,制导模块根据任务目标和约束条件,计算期望的运动轨迹,控制模块根据该期望轨迹,计算执行机构的工作指令,从而驱动空间飞行器运动.
随着空间探索的不断深入,任务越来越复杂,空间飞行器数量越来越多,需要解决任务层面的自主性问题,也就是说,在少依赖或不依赖地面干预的情况下能够完成任务,甚至在复杂对抗环境下也能够完成预定任务.这就需要将原来依靠地面人员实现的目标识别、任务规划、指令编排等工作移交到空间飞行器上自主完成,并能够对变化的环境进行智能分析和有效响应[56].因此,需要站在新的高度,重新思考空间飞行器智能自主控制的新特征.
为了实现对动态环境和变化任务的快速响应,空间飞行器需要自主完成态势感知、决策规划等功能,形成感知-决策-操控的星上闭环.为此,本文提出一种新的星上闭环系统结构,如图2所示.
图2 智能自主控制系统结构Fig.2 Intelligent autonomous control system structure
新的系统结构以感知、决策、操控和健康管理为功能模块,与传统的GNC系统相比,内涵更加丰富,具有如下特征:
(1)感知
传统GNC系统中的“感知”仅局限于导航功能.利用星敏感器、陀螺、太阳敏感器等的测量信息,确定空间飞行器的姿态;利用光学敏感器、雷达、GNSS接收机等的测量信息,确定空间飞行器的绝对轨道和相对位姿.
新系统结构中的感知,不仅包括传统的导航,还包括对空间飞行器与目标、环境组成的整个任务场景以及交互过程的理解和认知,需要综合处理不同模态的跨时空信息,实现数据融合,形成对环境的层次化透彻建模,并通过推理学习,实现场景理解和态势预测.
(2)决策
传统GNC系统中的“决策”的内容比较少,主要完成自主制导,任务决策和规划需要依赖地面完成.
新系统结构中的决策,直接面向任务和环境,针对顶层任务需求,根据感知结果,对数据进行综合分析,通过知识推理和迭代优化,形成序列化的最优决策和轨迹规划,使空间飞行器能够根据动态任务、运行环境和自身状态,自主完成任务调整、分解、规划与编排.对于空间集群飞行器,还包括群体决策、任务分配、自组织策略等.
(3)操控
新系统结构中的操控,是针对整个飞行器的,不仅包括平台部分的姿态轨道控制,还包括对载荷、目标的操作和控制.对空间碎片等非合作目标的操作过程,主要包括目标跟瞄、接近停靠、柔顺捕获、姿态镇定、离轨机动等,对于在轨维修维护,还包括模块更换、在轨加注、精细组装、部件维修等.由于先验知识欠缺,接触操作过程交互作用复杂,目标的材质、质量特性等未知,需要通过学习和训练,使得操作过程具备对环境和对象的主动适应能力.
(4)健康管理
新系统结构中的健康管理,不仅包含传统的数据有效性判断、故障诊断和硬件重构,还包括故障预警、寿命预测、健康评估和进化修复.健康管理作为独立模块,与感知、决策、操控模块都可进行信息交互,通过建立状态特征与异常之间的映射关系实现故障预警,构建从正常到异常再到失效的故障演化模型,实现系统性能退化分析和寿命预测,完成重构和进化修复,评估空间飞行器健康状态与执行任务的能力.
为了准确把握未来的发展趋势,并对任务能力进行清晰地划分,有必要针对空间飞行器智能自主控制的水平和能力,建立一个通用的评价方法.
对于一般的控制系统,文献[7]依据是否可自主完成控制、感知与决策,将系统划分为3个等级.其中,等级1的系统能够实现受控运动,等级2的系统能够识别目标和事件,进行推理和预测,等级3的系统能够感知并理解环境,进行最优决策,并能够在环境大范围变化下进行受控运动,从而适应危险敌对环境.该分级方式较为笼统.
NASA从飞行器对环境的适应能力、对性能指标的优化能力、对突发事件的响应能力三个方面,对飞行器控制系统的智能水平进行了分级,其中,等级0只具备轨迹跟踪能力,等级1进一步具备参数调整能力,等级2进一步具备性能优化能力,最高等级3具备任务规划能力,能够应对突发事件,具备故障诊断和恢复能力,且能够自我调整以适应环境变化[56].该分级主要对飞行器姿态轨道控制系统的鲁棒性和自适应性进行了等级划分,但仍然局限于传统的GNC系统设计框架.
2006年,AIAA下属的空间操作与支持技术委员会对空间飞行器的智能自主水平,特别是推理、思考等类人智能水平,划分为六个等级,如表1所示[57].
上述分级根据人在系统中的参与程度,对智能自主水平进行划分,提出了在轨智能推理和自主思考这一“强智能”的发展目标.
针对空间飞行器智能自主控制的技术特点和功能特征,本文根据系统对地面的依赖程度和处理复杂任务的智能水平,以运动控制、感知认知、决策规划、操作执行和健康管理为能力要素,提出一种新的等级划分方法,如表2所示.
表1 航天器智能推理分级(AIAA 2006)[57]Tab.1 The stages of intelligent reasoning (AIAA 2006)[57]
表2 空间智能自主控制分级Tab.2 Levels of space intelligent autonomous control
*注:此处将图2中的操控模块分为运动控制与操作控制,其中运动控制是指空间飞行器平台的三轴姿态控制和轨道控制,对应传统GNC系统中的控制部分.
对表2中不同等级的技术特征进一步说明如下:
等级1:空间飞行器结构相对简单,星上完成姿态确定和姿态稳定控制,依靠地面站进行测定轨,星上根据地面注入的程控指令实施轨道机动.
等级2:实现带有大挠性附件空间飞行器的三轴姿态机动,利用星上敏感器进行轨道确定,自主实施轨道位置保持控制,形成制导、导航与控制星上闭环.
等级3:实现变结构空间飞行器的姿态轨道机动控制,实现星间相对导航与控制,具备对目标典型特征的识别能力,能够自主进行简单任务和机动路径规划,进行人在回路中对特定目标的在轨操作.
等级4:实现大尺度全柔性体分布式控制和复杂组合体机动控制,能够融合星上多源异构数据对目标行为和环境态势进行感知,完成多约束多目标的优化决策,能够主动探索环境,根据环境反馈进行自我学习,提升复杂任务的自主执行能力.
等级5:实现多智能体协同控制,能够进行推理学习和知识共享,实现态势感知和演化预测;实现群体决策、自主任务分配,完成面向多任务的操控学习、触类旁通和协同操控,具备复杂动态环境下多任务的群体自组织协作能力.
根据表2的分级,美国已具备星上目标识别、自主机动能力,智能自主水平整体上处于等级3,当前正在向等级4发展,部分完成在轨试验.我国已掌握自主交会对接、月面自主软着陆技术,在轨实现了卫星典型特征的识别、空间站与神舟飞船变结构体的控制,还在完善等级3,同时也在向等级4发展.
新一代人工智能的迅猛发展,为空间飞行器智能自主能力的提升,提供了丰富的技术储备[58].然而,以深度学习为代表的人工智能技术,当应用于空间任务时,依旧面临着众多挑战,其中在数据、算力和算法三方面的挑战如下:
1) 空间任务中可用于学习训练的样本少
空间飞行器长期在轨运行,虽然下传的数据很多,但标注困难,能够用于学习训练的有效样本非常少.以故障诊断为例,尽管低轨卫星通常每1秒生成一条遥测数据,运行一年可以生成107量级的数据(与ImageNet的样本数量相当),但是其中发生故障的样本通常为个位数甚至没有.
2) 空间环境下计算资源严重受限
空间飞行器受制于功耗、体积、质量、空间辐射等因素,星载计算机的算力与地面相差甚远,难以满足大规模学习训练的需求.例如目前较先进的星载计算机RAD5545,其处理主频仅为466 MHz,而主流智能手机处理主频一般在2 GHz以上.
3) 智能算法的空间适应性问题
现有的主流智能算法网络规模较大,对算力要求高,星上难以实现;对于操控类任务,只能在地面仿真环境中先进行训练,由于地面仿真环境与空间环境存在差异,需要进一步解决算法的迁移问题.
针对上述挑战,本节从感知与认知、决策与规划、学习与操控、自主健康管理和系统体系架构五个方面,给出空间智能自主控制技术的发展建议.
空间环境下进行智能感知时,需要在姿态、轨道、敏感器能力等约束条件下,针对环境特点和任务需求,从测量、识别、理解三个方面开展研究:
1) 信息高效获取和多元数据融合.研究多模态数据的表达、时空对齐及多域映射的问题;研究如何在统一的时空基准下,对各类敏感器数据进行数据融合.对于由各类不同功能和机动能力的空间飞行器组成的多智能体系统,研究高效协同观测、信息共享问题.采用多模态机器学习方法[59]有望发展出适用于空间任务的融合算法.
2) 空间环境下的目标分割、分类、定位和跟踪.区别于地表环境,空间环境下的目标识别,面临着样本数量少、成像质量低、目标尺度变化大、光照条件恶劣等特有问题,需要研究空间目标图像的快速分割、基于上下文的特定部位精准识别、大尺度远近变化下的动目标稳定跟踪、空中/地面目标全天时监测与识别等问题.
3) 目标行为属性判断与空间场景理解.研究如何根据目标的类别和运动特点,对运动目标的行为意图进行理解;研究开放环境下缺少先验知识的场景理解问题,形成对“空间飞行器-空间环境-任务需求”三者关系的透彻理解.
此外,针对智能算法的空间应用需求,还需研究模型轻量化问题,即如何通过网络优化组合、映射、统计、剪枝与权重共享等手段,实现网络模型的无损压缩,便于星上部署.值得关注的方法有剪枝、权值共享和量化、哈夫曼编码的三段式深度压缩框架[60]、动态网络剪枝框架[61]、核级剪枝和通道级剪枝[62]等.
空间飞行器的多任务决策、时序编排、轨迹规划,其本质是一个多约束条件下的寻优过程,需要综合考虑能源、机动能力、安全性、载荷等约束[43].
1) 单星多约束快速优化.研究如何利用在轨数据和仿真推演数据,构建智能决策知识库和算法库.可借鉴AlphaGo Zero基于价值网络和策略网络的深度强化学习框架[63],结合先验知识,研究动作的高效探索机制和快速收敛算法.针对多点观测任务,研究兼顾点目标和区域目标的任务规划方法、星地一体化联合规划方法等内容.
2) 空间操作任务决策与轨迹规划.针对翻滚目标消旋,研究如何构建基于反应式学习的智能决策框架,根据目标运动状态,通过强化学习,得到有效的消旋策略;针对非合作目标柔顺抓捕,研究如何根据目标运动状态信息,确定抓捕部位、接近路径、操控载荷运动轨迹;针对在轨精细操作,研究多臂任务分配、避碰轨迹规划等内容.
3) 多星协同-竞争机制下的博弈决策.需要解决多星架构互异、功能配置互异下的通用、分布式、可扩展的协同决策架构设计问题.在此基础上,研究大规模集群空间飞行器的冲突消解、任务分配方法,以应对攻防追逃等复杂任务;研究如何借鉴蜂群、蚁群、狼群等群体的高效协同机理,实现群智涌现[64].一些通用的协同决策优化算法值得关注,如纳什均衡博弈决策算法[65]、贝叶斯动作解码器多体学习算法[66]等.
空间环境下的智能操控,可遵循“数字仿真学习-地面试验-在轨二次学习”这一思路,根据对象和任务的不同特点,从以下几方面开展研究:
1) 复杂飞行器/组合体的运动控制.超大规模全柔性航天器、复杂柔性连接组合体等对象的动力学特性复杂,传统的鲁棒、自适应等基于解析模型的控制方法遇到了困难[67].在进一步研究分布式控制方法的同时,可采用“Actor-Critic”的学习框架,通过运动体在环境中的试探,根据环境反馈,迭代优化评价网络,不断调整控制策略,从而实现控制预期[68].
2) 与环境接触交互作用下的操作学习.空间操作的接触交互过程难以用解析模型精确表达,地面也难以等效模拟在轨操作的相关特性,需要研究学习训练环境与作业环境存在差异时算法的可靠迁移问题,以及在新场景下如何利用高价值样本进行二次学习问题.可通过设计训练样本的分布、加入合理噪声等手段[69],提高算法在相似场景和对象上的学习效率.
3) 面向多任务的操作学习.需要研究如何利用一套模型,通过学习训练,掌握插拔、旋拧、剪切、夹持等基本动作,完成目标抓取、软管加注、模块更换等多类任务.可从自编码网络等表示学习方法寻求突破口,实现对高维特征的统一表达,并研究新算法实现已有技能与新技能的共存、融合与促进.
当前空间飞行器健康管理主要针对已认知的故障,采用“硬件备份+解析冗余+专家支持+安全模式”的模式实现事后诊断与处理[70],不能充分挖掘和利用各阶段的历史数据,难以实现提前预警和寿命预测.人工智能技术能够对数据进行表征学习,有望解决空间飞行器的故障预警、诊断以及寿命预测问题.
1) 长时序故障预警.研究如何融合多源数据提取空间飞行器的状态特征,建立状态特征与性能异常的映射关系,实现长时序情况下的故障提前预警.可采用卷积神经网络和循环神经网络相结合的方式提取状态特征,利用知识图谱构建性能-异常映射关系,利用长短时记忆网络解决强时间相关性的长时序故障预测问题.
2) 强适应故障诊断.研究如何将数据与知识相结合建立诊断网络,研究利用强化学习等方法实现诊断阈值的自主调整,融合决策树实现未知故障的聚类和定位,基于专家示教的方式提升学习效率.
3) 动态寿命预测.研究如何从高维海量历史数据中挖掘健康特征,构建剩余寿命评估指标,结合数据驱动和退化机理实现单机级和系统级剩余寿命预测.可利用长短时记忆网络建立单机级性能退化模型[71],再结合竞争失效模型实现系统级动态寿命预测,在此基础上,将可进化硬件、细胞卫星等技术与人工智能技术融合,实现健康状态的自修复.
传统控制系统通常面向确定性任务设计,架构比较封闭,制约了信息的高速获取与深度融合,难以支撑智能自主控制系统技术的实现,需要研究信息物理深度融合的系统体系架构:
1) 开放式的逻辑体系.研究如何将感知、决策、操控和健康管理进行有机共融,在复杂约束下实现最优自主任务.可采用多层开放式结构,基于并联反馈,建立层间联系,实现信息系统与物理系统的深度交互.
2) 深度融合的信息体系.研究如何建立物理系统的多种敏感器、执行机构和功能应用之间的协调关联,实现信息物理深度融合;研究如何解决时空多域冲突问题,实现任务资源调度和信息共享.
3) 协同互联的软件体系.研究如何设计任务调度机制,实现对系统的管理、任务的调度、资源的调配;设计标准接口协议,实现智能应用软件的快速部装.可采用“云中心+节点端”的数据处理方式,实现系统资源的分布式管理.
现阶段智能自主控制系统的设计理念主要围绕智能增强.未来,随着脑科学、神经计算、量子计算、生物智能等前沿新技术的发展,空间飞行器的设计理念、系统架构、运行机制都可能发生颠覆性的变化,可变形的全柔性航天器、瞬间全域感知、仿生集群等构想都将有望得以实现.
经过近半个世纪的发展,各国空间飞行器都已逐步实现了不同程度的自主控制.目前各国都加快了空间智能自主控制技术的研究步伐.展望未来,空间飞行器智能自主控制技术的发展,短期目标是通过引入人工智能技术,实现对空间飞行器功能级、模块级自主能力的赋能与提升,达到第4级的智能自主水平;长期目标是通过发展智能技术,推动空间飞行器设计理念和应用模式的变革,达到第5级的智能自主水平,从而真正意义上实现理解任务、洞察环境、最优决策、灵巧操控,实现空间飞行器的跨代发展.