航天器威胁规避智能自主控制技术研究综述

2023-03-06 13:31姜甜甜

自动化学报 2023年2期

袁利姜甜甜

随着人类太空活动的日渐频繁,轨道空间日益拥挤,空间碎片数量持续增加,给航天器在轨安全稳定运行带来严峻挑战.特别是,2019 年以来 “星链” (Starlink)、“一网” (OneWeb) 等低轨巨型星座计划的持续推进与部署,使得轨道空间密集程度呈现指数级增长趋势[1-2],碰撞风险激增,太空安全事件频发.据美国国家航空航天局 (National Aeronautics and Space Administration,NASA) 2020年8 月发布的报告,国际空间站自1999 年起共实施了27 次避撞机动,其中,2 次躲避 “风云一号C”(FY-1C) 气象卫星2007 年爆炸解体产生的碎片,5次躲避 “宇宙-2251” (Cosmos 2251)卫星和 “铱星-33” (Iridium 33)卫星2009 年撞击产生的碎片[3].2019 年9 月2 日,欧洲航天局(European Space Agency,ESA) 为避免 “风神” (Aeolus) 气象卫星与 “星链-44” (Starlink-44)卫星的潜在碰撞风险(碰撞概率超过1‰),实施了规避机动操作[4].2021年3 月30 日,美国第18 太空监视中队(The 18th Space Control Squadron,18 SPCS)监测到,“一网-0178” (OneWeb-0178) 卫星在升轨过程中与 “星链-1546” (Starlink-1546) 存在很高的碰撞风险,两颗卫星的距离只有约57.9 米,发生碰撞的可能性高达1.3%,之后美国太空探索技术公司(SpaceX)关闭了Starlink-1546 卫星的自动碰撞规避系统,一网采取了主动规避碰撞措施[5].2021 年7 月1 日和10月21 日,出于安全考虑,中国空间站组合体在地面指挥控制下,分别对向其主动接近的 “星链-1095”(Starlink-1095) 卫星和 “星链-2305” (Starlink-2305)卫星实施了紧急避碰控制,规避了碰撞风险.伴随着频繁发生的太空安全事件,航天器执行既定任务时的威胁规避逐渐成为其日常操作中的一项常规任务.

与此同时,太空竞争不断加剧,新形态的轨道威胁不断涌现.太空作为与陆、海、空、网络空间等同的作战疆域,已成为大国角逐的战略制高点.美国针对未来太空战已进行10 余次 “施里弗”(Schriever)系列演习[6];“地球同步轨道空间态势感知计划” (Geosynchronous space situational awareness program,GSSAP)卫星,“局部空间自主导航与制导试验” (Automated navigation and guidance experiment for local space,ANGELS)卫星,以及 “渐进一次性运载火箭次级有效载荷适配器增强型地球同步实验室试验” (Evolved expendable launch vehicle secondary payload adapter augmented geosynchronous laboratory experiment,EAGLE)卫星携带的空间态势感知实验卫星Mycroft 等形成了在轨监视和抵近侦察能力[7-11],太空实战博弈方面优势明显.2014 年以来,GSSAP 卫星进行了数百次机动,以抵近侦察的方式对中国多颗商业卫星实施干扰[12].

面对空间碎片/失效卫星碰撞、敌意卫星干扰等各类轨道威胁,常用的应对手段包括轨道机动、姿态机动、改变工作状态、拍照取证 “溯源拒止”等.目前,通常采用 “地面测定轨+遥测下传→威胁判定→决策规划→上注指令→在轨执行”的 “星地大回路”威胁处置方式,威胁判定和决策规划均由地面人员完成.以ESA 空间碎片办公室 (Space Debris Office,SDO) 提供的碰撞规避服务为例,在收到美国联合太空作战中心(Combined Space Operations Center,CSpOC)共享的交会数据(Conjunction data messages,CDMs)后,地面操作人员会进行交会事件检测和碰撞风险评估,并进一步对碰撞风险高的目标进行轨道确定、轨道和协方差演化分析等,给出规避决策和机动建议,以及考虑各种约束的避碰机动规划[13-14].然而,这种严重依赖地面的威胁处置方式,存在窗口和弧段时空约束多、星地回路时间链条长、运维指控人为因素多等问题,导致威胁处置时效性差、运控压力大,往往对威胁反应 “过钝”或 “过度”,严重影响航天器在轨运行的安全性和业务的连续性,难以适应威胁数量持续增长、环境日益恶化的空间态势.

近年来,世界航天强国致力于发展面对轨道威胁的智能自主控制技术,能够自主感知威胁、自主制定规避策略并自主完成规避动作.例如,美国SpaceX 宣称,星链卫星装载了自动防撞软件,在收到美国CSpOC 发布的潜在碰撞风险通知时,不需要人的参与,该软件将自行决定是否以及如何进行规避机动,并将信息返回给CSpOC[15].再如,为确保卫星及大型星群的安全运行,ESA 正在发展航天器自主防撞系统,可根据轨道编目情况,自动评估碰撞风险,给出通行/不通行的决策建议,并进行规避机动设计与执行[4,16];并在2019 年召开的第一届国际轨道碎片会议(International Orbital Debris Conference,IOC)上,公开了碰撞风险评估和自动缓解方案(Collision risk estimation and automated mitigation,CREAM),目的是通过发展自主决策、规划以及规避机动执行等技术,在没有人为干预的情况下进行安全有效的碰撞规避[17].

本文围绕航天器面对威胁规避任务的智能自主控制技术,首先对轨道威胁的感知、威胁规避决策规划、规避机动动作执行、自主控制系统架构与模型4 个方面的研究现状进行了调研分析;在此基础上,结合航天器自身及其运行环境的特殊性,总结提出了航天器威胁规避智能自主控制技术面临的主要瓶颈问题,分析指出发展 “感知-决策-执行”一体化控制是破解技术瓶颈的有效手段.最后,从一体化控制系统建模、设计、分析与验证多个方面,系统讨论了航天器威胁规避智能自主控制需要重点研究的若干基础问题.

1 轨道威胁自主规避的国内外研究现状

航天器面对威胁规避任务的智能自主控制,不同于传统 “星地大回路”的任务模式,需要通过 “感知-决策-执行”星上闭环,以及与人工智能、博弈论等相关技术的深度融合,赋予航天器面对未知不确定环境和复杂动态任务的感知、决策、执行等能力[12,18-19],进而实现航天器在没有人为干预的情况下,在复杂空间环境、既定任务、星上资源、轨道等约束条件下,以最小的代价,自主完成对空间碎片/失效卫星碰撞、敌意卫星干扰等各类轨道威胁的探测、识别和风险评估,及时生成安全有效的规避策略和动作序列,并完成规避动作的高品质执行 (见图1).

图1 面向轨道威胁的航天器 “感知-决策-执行” 星上闭环过程Fig.1 Spacecraft on-board “perception-decision-action” closed-loop process for orbital threats

上述过程涉及轨道威胁目标的感知、自主决策规划、规避机动动作执行,以及支撑 “感知-决策-执行”星上闭环的智能自主控制系统架构等技术领域.本节围绕以上4 个方面介绍航天器轨道威胁自主规避的国内外研究现状.

1.1 轨道威胁的感知

早在20 世纪80 年代,美国联合领导实验室(Joint Directors of Laboratories,JDL)就从信息融合角度提出了三层威胁评估模型,包括目标状态和属性估计、态势评估与威胁评估三个层级[20-21].其中,目标状态和属性估计主要是获取目标运动、形态和辐射特性等信息;态势评估又可划分为态势元素提取 (特征提取)、态势理解和未来状态预测三个环节[22];威胁评估的重点在于推理对方意图和目的,产生定量的威胁能力评估,并量化判断对方对我方的威胁程度.

对于轨道空间,威胁感知包括利用可见光、雷达、红外等天基空间探测手段,辅以地基空间态势感知系统,获取航天器运行轨道环境及目标的测量信息,进行目标运动状态和轨迹估计、异动行为(如抵近、绕飞、伴飞)检测、本体及载荷形态特征识别,得到威胁目标运动、形态等不同维度的特征要素,形成对威胁目标行为特征的完备表达;并综合目标运动特征、形态特征,以及历史行为特征等进行推理形成知识,给出威胁类型、行为意图、威胁等级的综合判定.其中,威胁类型、行为意图、威胁等级的综合判定侧重于对威胁态势的理解和认知.

轨道空间跨度大,威胁目标的测量距离从米级到千公里量级.当航天器与被观测目标距离较远时,基于光学观测的成像分辨率低,仅能获取目标的视线角信息.由于测距信息的缺失,仅测角无源定位跟踪存在观测几何差、系统可观测度低的问题,难以保证对目标运动状态的有效估计.对此,发展出多视线协同法、轨道机动法、相机偏置法、非线性动力学法等多类方法.通过多航天器的协同观测,利用对目标的多视线测量信息,可采用卡尔曼 (Kalman) 滤波及其改进方法给出目标运动状态的估计[23-24].当协同观测条件难以保证时,可通过航天器轨道机动,利用其累计一个时间序列上的观测量,实现基于单视线测量信息的相对导航[25].文献[26-28]讨论了轨道机动对可观测性的影响,并给出了可观测性最优的轨道机动方案.然而,轨道机动往往会影响航天器业务的连续性,且会增加燃料消耗.Klein 等[29]提出了相机偏置法,通过偏置安装相机,可在距离较近时获得较好的距离可观测度,但不适用于远距离探测.此外,通过引入J2 地球非球形摄动、大气阻力摄动等因素,构建非线性相对轨道运动动力学模型,理论上可使线性模型中不完全可观的距离状态完全可观.沿着这一思路,提出了多种基于非线性动力学模型[30]的仅测角相对导航算法[31],但存在求解复杂度高、实际性能难以保证等不足.

除轨道确定外,空间目标的变轨机动也是需要关注的威胁因素.Roberts 等[32]提出了一种基于卷积神经网络 (Convolutional neural networks,CNN) 的地球同步轨道(Geostationary earth orbit,GEO)卫星经度机动检测方法;文献[33]仅利用目标的视线角信息,给出了一种对测角信息进行多假设检验加权融合的轨道机动检测方法.实际工程中,轨道机动检测结果很大程度上受观测能力和目标机动特性的制约.在天基观测信息不完备、观测条件苛刻的情况下,如何选择轨道机动检测特征量、构建高效准确的检测模型,实现对非合作目标机动的快速准确检测,值得深入研究.

当航天器与威胁目标的相对距离较近时,可利用图像信息、深度点云信息等进行目标运动状态的估计.早期基于图像的非合作目标位姿估计方法,利用手工设计的关键点特征及其描述子 (如尺度不变特征变换(Scale-invariant feature transform,SIFT)[34-35]、加速稳健特征 (Speeded-up robust features,SURF)[36]、最大稳定极值区域(Maximally stable extremal regions,MSER)[37]以及二进制鲁棒独立的基本特征(Binary robust independent elementary features,BRIEF)[38])或者线、边缘等特殊特征[39-40],通过场景和图像之间的透视变换,建立图像中的特征点与已知三维模型相应特征的对应关系,利用非线性几何优化算法求解位姿参数[41],存在具体特征描述在不同结构和物理特性航天器上的可扩展性差、对空间复杂光照环境的鲁棒性差,以及求解准确性依赖于先验位姿信息及特征匹配的准确度等不足.对此,近期发展出基于学习的位姿估计方法,尝试以端到端的方式学习2 维图像空间和6 维位姿空间之间的非线性变换,或是通过离散化姿态空间求解分类问题[42],或是直接求解从输入图像到相对姿态的回归问题[43],但此类方法在实际应用时的精度难以保证.最近,Sharma 等[44]综合基于特征和基于学习的位姿估计方法的优势,提出了基于CNN 的航天器姿态网络 (Spacecraft pose net,SPN),能够在不需要先验位姿信息的情况下,以解耦的方式估计目标航天器的相对位置和姿态;同时,SPN 还具备对姿态输出不确定性和目标中目标的姿态估计能力;文献[45]进一步考虑星载计算资源约束,提出了基于CNN 的相对位姿估计算法,实现了在功率要求有限的小型卫星上的实时运行.此外,目前基于图像信息与点云信息的融合方法 (如基于CNN 的联合滤波器[46]、基于自监督模型的自适应融合机制[47]等),也可用于空间非合作目标运动状态的估计.

以上研究成果侧重于对空间目标运动特征的估计.当航天器面对抵近捕获、接近干扰等轨道威胁时,还需要对机械臂、载荷等典型部件的形态特征进行识别.经典的形态特征提取方法主要分为两类:利用Canny 边缘检测[48]等处理规则几何特征的方法,以及利用Fast[49]、Harris[50]等角点检测处理不规则几何特征的方法.由于航天器载荷的形态复杂多样,且受目标运动及空间光照条件的影响,易出现目标局部过亮或过暗的情况,对形态的精准辨识提出了挑战.近年来,越来越多的学者考虑采用深度学习的方法进行空间目标的分类和部件特征提取.例如,李林泽等[51]提出将基于掩膜区域的卷积神经网络(Mask region-based convolutional neural network,Mask R-CNN)应用于空间非合作目标检测与识别,并借鉴基于区域的全卷积网络(Region-based fully convolutional networks,R-FCN)

和轻量头部基于区域的卷积神经网络(Light-head R-CNN) 对其进行优化改进,以提升算法的实时性.该方法虽然具备一定的迁移泛化能力,但对实际任务中的复杂空间光照环境、章动和进动等因素考虑的较为理想.王柳[52]利用基于深度学习的YOLO(You only look once)模型对空间目标及其特征部件进行识别,采用由两种卫星的三维模型生成的图像数据集进行训练,测试了该模型对不同视角、距离以及遮挡条件下卫星及部件的识别精度.为更贴近空间真实环境,Chen 等[53]提出基于R-CNN 的卫星部件检测算法.在Mask R-CNN 的基础上,结合密集连接卷积网络(Dense convolutional network,DenseNet)、残差网络(Residual network,ResNet)和特征金字塔网络(Feature pyramid networks,FPN)构建新的特征提取结构,并通过提供密集的连接增强各层之间的特征传播,在利用模拟软件生成的不同角度、不同轨道高度、不同类型的卫星图像数据集上,获得了较好的测试精度.由于航天任务特殊性,空间真实图像样本少,目前依赖于大规模训练样本的形态特征提取算法难以直接应用.此时可以考虑基于小样本学习的方法[54],在无标签数据情况下利用无监督学习训练模型,然后迁移至小样本数据中强化相关模型,但模型的复杂程度往往较高,推理过程对算力的需求较高,在轨应用面临挑战.

另外,不同于大气层内散射光照条件,轨道空间受平行光影响,易出现目标局部过亮或过暗的情况,可能造成无法连续提取目标的形态或行为特征.除利用位置姿态变化提取异动特征外,当前人体异常监控、自动驾驶等领域利用局部形态变化提取行为特征的相关研究结果 (如文献[55-57]),可为信息非完备情况下的威胁行为特征提取提供借鉴.

在威胁行为预判和威胁等级定量评价方面,主要基于专家系统[58]、模板匹配[59]和贝叶斯网络推理[60]等方法,进行不确定知识表示,以及行为意图和威胁等级的推理,但相关参数的设置过于依赖于经验知识,影响预测的准确性.为弥补这方面的不足,发展出了多种基于学习训练确定推理网络参数的方法[61],但往往需要大量的样本数据保证训练效果.为了降低对大规模样本数据的依赖,文献[62-63]将数据样本和知识约束相结合,通过引入推理网络参数的单调性约束、参数的取值范围和部分参数的大小关系约束,给出了网络参数的学习算法.文献[64]将领域专家知识转化为不等式约束,给出候选参数的约束空间,提出了一种基于采样数据集和约束空间候选参数样本的网络参数学习算法.然而,轨道威胁的先验知识十分有限,而且往往只是态势元素之间关系的语义级表达,无法直接转化为推理网络参数的相关约束,因此语义知识引导下的小样本学习训练方法需要进一步研究.

1.2 威胁规避自主决策规划

航天器威胁规避自主决策规划是根据任务场景的感知结果,在可能的规避方案中选择符合自身行为准则的最佳方案,并形成序列化的姿态轨道机动动作.

对于空间碎片、失效航天器等非对抗性威胁的规避,目前以基于预测控制或人工势场(Artificial potential fields,APF)的单边优化决策方法为主.例如,Wang 等[65]和Weiss 等[66]均采取滚动时域控制(Receding horizon control,RHC)策略实现接近控制和交会对接中的碰撞规避,其基本思路是首先对威胁状态进行在线辨识或预测,然后基于预测状态计算有限步长内的代价函数之和,并串行优化出最优动作序列,最终只执行当前时刻所需的最优动作并以此类推;文献[67-69]则基于预测的空间碎片演化模型,建立以最小化碰撞概率为目标的规避策略求解算法;文献[70-72]设计了基于人工势场的航天器碰撞规避策略,具体将航天器的规避机动设计成在一种抽象人造力场中的运动,其中目标点(或区域) 对航天器产生吸引力场,而威胁则产生排斥力场,基于二者合力生成的运动轨迹即为航天器的规避轨迹;此外,Hamed 等[73]和Zhu 等[74]还进一步将预测控制和人工势场两类方法相结合,基于RHC 策略在线调整APF 的排斥力场系数,实现燃料最优碰撞规避.

目前来看,在非对抗性威胁规避方面,预测控制类方法能取得较好的决策规划效果,但威胁状态预测和串行优化动作序列两大过程在空间环境和约束复杂时往往存在占用计算资源较多、计算耗时较长的问题,对星载计算机处理能力提出了较高的要求.且规避决策质量与预测精度高度相关,一旦预测失准,可能会对航天器的安全造成严重影响[75];人工势场类方法的计算量相对较小,很适合无地面依托的星上自主在线决策情景,但往往存在局部极小点和目标不可达导致规避失效或规划轨迹振荡的问题,必须设计额外的策略 (如附加力场[76]、虚拟障碍[77]等) 或引入一些新的势场概念 (如流函数[78]、扰动流体[79]等) 以弥补这一缺陷.

对于具有机动变轨能力的对抗性威胁 (如抵近捕获、绕飞干扰等) 的规避决策,可描述为轨道追逃博弈问题[80],其本质上属于双边规划问题,需要考虑对手与我方航天器相冲突的规划目标及其对应策略,使得决策模型更为复杂.目前,相应决策方法主要基于微分对策理论,其基本思路一般为首先建立航天器追逃博弈微分方程模型,继而构造并求解相应的HJB (Hamilton-Jacobi-Bellman)偏微分方程或两点边值问题获得双边最优博弈策略[81].例如,针对航天器零和博弈问题,Jagat 等[82]提出一种基于状态依赖黎卡提 (Riccati) 微分方程的非线性控制律,相较于传统线性二次型微分对策方法具有更好的控制效果;Li 等[83]针对高维两点边值问题求解困难的缺陷,提出一种降维策略求解方法,将博弈问题转化为一个四维非线性方程,并利用混合数值算法求解方程,提升了博弈轨迹的规划效率;文献[84-86]还从多航天器博弈、脉冲推力等角度对基于微分对策理论的轨道追逃博弈方法进行了研究.

以上研究成果大多假设博弈双方知晓彼此的代价函数和相关系数矩阵,相应方法称为完全信息微分对策方法.然而,实际对抗中这些信息往往难以事先获取,此时追逃博弈问题就变成了不完全信息微分对策问题,这也是目前轨道追逃博弈领域的研究热点[81].对此,一般采取 “先预估,后求解”的研究思路,即先在完全信息情景下设计基于微分对策的博弈策略,再采用适当的估计器在线预估对手的未知信息,最终将估计参数输入策略中实现自适应轨道博弈.例如,文献[87-90]利用Kalman 滤波、当前统计模型滤波和交互多模型等方法估计未知信息,并取得了不错的决策规划效果.

总体而言,在基于微分对策的航天器追逃博弈决策方面,目前对完全信息条件下方法的研究比较充分,已涵盖双方/多方博弈、连续机动/脉冲推力变轨等多种任务情景,而对不完全信息条件下的方法研究尚处于相对初级的阶段,主要存在两方面的问题: 一是,微分对策方法普遍存在模型复杂、状态量多、寻求解析解困难的固有缺陷;二是,与上述预测控制类方法相同,不完全信息条件下的规划决策效果十分依赖估计器的性能,当估计结果失准或时间过长时会严重影响航天器的安全.针对这些问题,相关学者尝试将深度强化学习、深度学习等机器学习方法与微分对策方法相结合[91-93],利用神经网络强大的非线性逼近性能、特征提取与学习能力,以及网络前向快速传播的特性,弥补传统基于微分对策的航天器追逃博弈方法中存在的缺陷,值得后续进一步关注.

此外,面向航天器在轨应用,必须考虑威胁规避决策行为的稳定性和可靠性问题.目前,引入决策环节的博弈闭环系统的稳定性、最优性理论研究还比较初步.文献[94]给出存在信息延迟情况下非合作博弈系统纳什均衡解的逼近策略,并证明了闭环系统的稳定性.文献[95]基于自适应控制设计博弈策略,并证明了相应随机动态博弈闭环系统的全局稳定性.策略最优性的相关研究主要包括对完全信息微分博弈的最优性证明[82,96]以及不完全信息下基于估计-博弈闭环系统最优性的定性讨论[89].此外,时滞、随机、脉冲、Markov 等混杂控制系统闭环性能分析[97]的相关研究也可为轨道威胁规避决策过程的性能评价提供思路和方法上的借鉴.

1.3 威胁规避机动动作执行

动作执行是解算执行机构指令并完成规避机动动作的实施,包括姿态控制、轨道机动和载荷操作,要确保航天器在非受控环境下对环境及其自身的变化做出适应性反应并满足控制要求.

对付不确定性并获得高品质的执行效果一直是航天器控制领域重点关注的问题.目前,针对传统的姿态控制、轨道机动,以及合作目标的交会对接控制,已经形成了一套比较成熟的理论和方法体系,发展出包括 “比例-积分-微分” (Proportional-integral-derivative,PID)控制[98-102]、滑模变结构控制(Sliding mode control,SMC)[103-106]、H2/H∞鲁棒控制[107-109]、线性二次型调节器(Linear quadratic regulation,LQR) 控制[110]、基于干扰观测器的鲁棒自适应控制[111-113]、自抗扰控制(Active disturbance rejection control,ADRC)[114-115]、自适应有限时间控制[116-117]、基于特征模型的智能自适应控制[118-120]等多类方法,可实现存在挠性振动、多源干扰、模型不确定性、控制输入受限、姿轨耦合等情况下的高精度、高稳定度的敏捷机动和快速安全交会.

上述方法的技术成熟度比较高,这里不再做详细论述.围绕威胁规避机动控制的及时、适度要求,本文重点关注航天器与威胁目标的避撞机动/安全接近控制的相关进展.避撞机动动作执行要求追踪航天器和目标航天器在接近过程中,为确保自身安全,相对位置应保持一定的安全距离、且姿态同步性满足指定要求 (比如观测要求).航天器构型复杂多样、机动过程中的姿轨耦合、快速响应要求高、执行机构带宽约束等对避撞机动控制律设计提出了挑战.

由于人工势场方法的势场模型可方便地描述运动空间的拓扑结构,且利用势函数的负梯度可进行安全接近控制律设计,简单有效,便于分析,成为解决避撞机动控制问题广泛应用的技术[70,121-127].例如,文献[70,121-122]将APF 方法和SMC 设计方法相结合,考虑接近过程的位置约束、空间环境摄动干扰和不确定性等因素,给出了保证有限时间收敛的相对位置和相对姿态鲁棒控制律,实现了无碰撞的相对位置姿态跟踪.文献[123-124]进一步考虑姿轨耦合,基于6 自由度相对运动动力学方程,设计了终端滑模控制律,证明了有限时间的收敛性.考虑到航天器与目标距离较近时敏感器视场受限对相对位置和姿态信息测量的影响,Dong 等[125]在势函数中引入路径约束和视角约束,基于对偶四元数(Dual quaternion,DQ)姿轨耦合模型,提出了类PD 控制器设计方法,实现了交会对接末段姿轨耦合的安全接近避撞控制.此后,文献[126-127]进一步针对控制输入受限的情况,通过引入饱和函数和线性抗饱和补偿器等,给出了避撞机动的饱和控制律设计方法.文献[128]综合考虑系统不确定性和外部干扰,设计了无抖振的神经网络自适应滑模控制器,实现翻滚目标逼近的姿轨耦合跟踪控制.文献[129]考虑了带有可微分时变输入时延、执行器故障,以及存在外部扰动和目标航天器质量不确定性情况下的椭圆轨道航天器电磁交会控制问题,提出了基于中间观测器(Intermediate observer,IO)的自抗扰控制器,保证了追踪航天器与目标航天器相对位置的最终一致有界性.文献[130-131]针对相对运动测量失效或精度难以保证的情况,提出了基于图像视觉伺服的相对位姿耦合跟踪控制设计方法,实现了对空间翻滚目标的高精度安全接近控制.

以上研究结果将航天器的外形简化为球体,对运动空间约束的描述比较粗糙,往往需要一个较大范围的预设好的危险区域来确保机动控制的安全性.这会造成空间冗余现象,增加了禁飞区域面积,导致航天器可能会采取一些不必要的机动,难以保证执行效率[132].为更加准确地描述空间物体的外包络,文献[133]针对凸形航天器,提出了具有一定通用性的刚体势场描述模型,并针对空间非合作目标的安全接近问题开展了控制方法研究;针对非凸形航天器,进一步采用特定的终端几何构型进行约束描述,初步探索了非凸形航天器安全接近问题.Wang等[134]在复杂航天器三维外形视觉重构的基础上,设计了基于混合高斯模型(Gauss mixture model,GMM)[135]的GMM-APF 控制器,实现对复杂外形目标航天器的安全接近.

近年来,针对控制算法收敛的快速性要求,固定时间(Fixed-time control,FTC) 的姿态轨道控制问题备受关注[136-137].Chen 等[138]基于固定时间控制框架 (如文献[139]),提出了基于混合高斯模型的固定时间控制律(GMM-FTC),保证了收敛时间不受初始相对位置偏差的影响,确保响应的快速性.Huang 等[140]针对非合作目标绕飞跟踪控制问题,建立了基于视线坐标系(Line of sight,LOS) 和修正的罗德里格斯参数 (Modified Rodriguez parameters,MRPs)的6 自由度绕飞运动动力学方程,并设计了自适应固定时间非奇异终端滑模控制器,实现了对目标的绕飞和观测.Hu 等[141]提出了针对自由翻滚目标交会任务的固定时间时变滑模位置跟踪控制方法,实现位置跟踪误差的固定时间收敛,且所设计的滑模面提供了收敛时间调整规则的显式表达.

总体而言,围绕航天器规避动作执行的及时、适度要求,考虑目标航天器复杂外形、姿轨耦合同步、控制输入受限、快速收敛等因素,在传统基于时间的控制框架下 (数据采样和控制律更新都是基于固定时间周期进行的),已经给出了一些解决方案.然而,碎片碰撞、敌意干扰等作为航天器执行既定任务时的随机事件,会触发不同控制策略之间的切换与更新,给闭环系统的稳定性及切换控制器的设计带来新的挑战.近年来,基于事件驱动的控制框架逐渐受到关注,通过引入事件触发机制对控制策略的更新与否进行判断,可在确保随机事件触发下整个控制过程稳定的同时,有效节约通信和计算资源[142-146].因此,基于事件/时间混合驱动系统的控制律设计,值得后续进一步关注.除此之外,无人机、机器人领域基于学习的智能控制方法 (如文献[147-150]) 在处理复杂动态不确定性方面展现出一定的优势,可为大尺度下复杂空间环境下的规避机动动作执行提供有益的借鉴和参考.

1.4 自主控制系统架构与模型

“感知-决策-执行”闭环的控制系统架构涉及系统组成及其关联关系、信息流逻辑等多方面,决定了系统的总体性能.其模型是系统综合分析和优化设计的基础,是系统内在相互作用机理和演化规律的客观科学描述.

陆、海、空、天无人系统几十年的发展,出现了多种类型的自主控制系统架构.目前广泛应用的自主控制系统架构主要包括分层递阶式、反应式以及混合式[151].分层递阶式架构最早由Saridis[152]于1979 年提出,是一种各功能模块间次序分明的串联结构,又称为 “感知-规划-执行” (Sense-plan-action,S-P-A)架构,易实现高等级智能.反应式架构是由Brooks[153]于1986 年提出的一种分层并联结构,以并联形式布置决策规划的各模块,同步接收感知信息,具有 “感知-动作”的分层并联结构特点,对环境适应性较强.上述两种架构的特点对比见表1.

表1 分层递阶式架构与反应式架构优缺点对比[162]Table 1 Comparison of advantages and disadvantages of hierarchical architecture and reactive one[162]

结合上述两种架构的优点,Gat[154]最早提出了一种混合式架构,通过全局规划生成面向目标的分层递阶式行为,通过局部执行生成面向动作的反应式行为.此后,混合式架构的内涵不断丰富,发展出AuRA (Autonomous robot architecture)[155]等形式.基于上述架构已构建多个航天器自主运行与任务管理系统,包括美国 “深空1 号” (Deep space 1,DS-1) 远程智能体系统[156]、“地球观测1 号”(Earth observing one,EO-1)自主航天器实验软件系统[157]以及中国 “嫦娥四号” (Chang＇E-4)自主运行管理系统[158]等.近年来,部分学者融合多智能体(Agent) 在自主性、交互性等方面的优势,提出了基于多Agent 的混合式架构[159],大致分为两类: 1)将系统中分层递阶式模块、反应式模块以及硬件模块中的子模块抽象为Agent[160];2)将Agent 内部通过分层递阶式、反应式进行构建[161].该架构广泛适用于非结构化动态环境,具有较好的开放性和灵活性.

在上述自主控制系统架构的启发下,面向未来空间任务对航天器智能自主控制技术的发展需要,文献[19]提出了一种 “感知-决策-操控”星上闭环的系统结构,并引入健康管理模块,实现数据有效性判断、故障诊断和进化修复等.以此为基础,文献[12]进一步提出了 “感知-演化-决策-执行”(Observation-evolution-decision-action,OEDA)星上闭环框架,其中,演化环节可通过对软硬件资源的自组织调配,实现角色切换,从而使航天器具备根据不同任务改变自身角色的能力,提升航天器执行任务的泛化能力.

另一方面,现有针对复杂系统的模型描述方法主要包括基于智能推理的方法、基于混杂系统模型的方法、基于非线性动力学的方法[163-164]等.其中,基于智能推理的方法可分为功能派[165-166]和结构派[167-168],侧重于刻画系统的外部特性.基于混杂系统模型的方法包括混杂Petri 网法[169]、混合逻辑法[170]等,在描述具有离散跳变与连续动态过程耦合特性的系统方面优势明显,可为航天器 “感知-决策-执行”星上闭环智能自主控制系统建模提供理论和方法上的借鉴.

2 轨道威胁规避自主控制面临的主要瓶颈问题

目前,围绕空间碎片/失效卫星碰撞规避,以及绕飞干扰/抵近捕获等具有机动能力非合作目标的规避任务,在非合作目标相对运动估计、机动检测、形态特征识别、威胁等级评估,以及碰撞概率模型、规避策略设计、避撞机动与安全交会动作执行等方面已经形成了一定的技术积累;在支撑 “感知-决策-执行”星上闭环的智能自主控制系统架构方面也有了比较初步的研究.然而,由于航天器自身及其运行环境的特殊性(见表2),要在复杂空间环境、资源严重受限等条件下实现对轨道威胁的及时、适度、自主应对,仍然面临如下三方面的主要瓶颈问题.

表2 航天器自身及其运行环境的特点Table 2 Characteristics of the spacecraft and its operating environment

2.1 大时空尺度复杂空间环境下威胁行为特征的提取与融合

轨道空间跨度大,威胁目标的测量距离从米级到千公里级,且远距离成像分辨率低,甚至仅有视线方向测量[29-30];空间目标轨道机动检测很大程度上自身受观测能力和目标机动特性的制约,观测信息不完备,观测量往往较为稀疏[33].空间光照条件复杂,目标反射不均匀导致局部图像过亮或过暗,成像连续性差.轨道威胁目标探测的可见性随时间、空间、光照条件变化的差异性大,对目标的运动和形态测量信息不完备,再加上轨道目标图像样本少且分辨率普遍较低,给目标形态特征提取、异动行为检测带来挑战.此外,碰撞、抵近、绕飞等轨道威胁行为特征不明显,难以根据单一维度特征进行判定,并且威胁影响存续时间长(威胁产生、变化、消失的全生命周期),根据单一时刻特征难以判定.因此,需要综合目标形态、运动甚至历史行为才能对威胁的类型、意图、等级给出准确判断.

2.2 业务连续与威胁规避冲突下的动态决策与在线规划

航天器轨道约束强,运行速度大,横向机动能力有限 (典型卫星横向机动加速度最大约0.01～0.05 m/s2),规避机动的燃料消耗严重影响在轨寿命;通信、导航等任务对航天器的业务连续性要求苛刻,与威胁规避任务存在冲突,对姿态、轨道机动等规避动作的时机和力度要求高.因此,需要航天器综合最大化生存概率、最大化任务完成度、最小化燃料消耗等指标,在线求解复杂多目标多约束优化问题.

而且,空间碎片/失效卫星碰撞、绕飞干扰/抵近捕获等威胁行为不确定,航天器威胁规避是面向不确定威胁行为的动态博弈过程[80].目前的博弈决策主要面向特定场景和相对确定的任务模式,虽然具有一定的泛化能力和鲁棒性,但在应对未知动态场景和不确定威胁行为时依然面临挑战.传统的决策求解过程不能根据场景变化自适应调节目标函数、约束、优化变量等要素,缺乏对相应搜索空间的动态调节能力,容易导致搜索维数过度等问题,无法实现计算资源受限情况下的快速在线决策,难以在轨应用.因此,面对决策过程的动态不确定性,为确保决策行为的稳定性和可靠性,需要根据威胁行为以及场景的变化自适应调节优化目标和决策模型,并在资源受限情况下进行快速在线求解,给出合理有效的规避策略.

2.3 资源严重受限下快速应对威胁的智能自主控制系统设计

航天器受制于功耗、体积、质量、空间辐射等因素,星上敏感器、计算、存储等资源严重受限,加之其长期在轨运行且设备难以更换升级,星上资源受限问题尤为突出.然而,威胁规避任务中威胁目标具有随机性和动态不确定性,规避过程涉及目标运动状态估计、机动检测、形态特征识别、威胁等级评估、决策模型构建、规避策略设计、机动及交会动作执行等诸多环节,导致感知、决策和执行各功能模块的组成结构复杂,功能模块内部及模块之间的关联关系和信息流交互复杂.同时,面对威胁规避任务的实时快速应对要求,威胁精准感知和规避自主决策对资源的需求比较高,面临时间和资源的严重冲突.因此,要在资源严重受限条件下实现 “感知-决策-执行”星上闭环,并确保系统的协调运行,一方面需要从系统的逻辑架构入手,系统地考虑感知、决策、执行各组成元素间的相互作用关系,构建多层级协调关联和信息共享机制,实现三者的有机共融和深度融合;另一方面,需要从信息物理深度融合的角度,建立面向时间/事件混合驱动系统的协调运行机制,统筹优化时空多域资源,消解时间和资源上的冲突,使系统总体性能达到最优,降低对星上资源的依赖;进而缩短 “感知-决策-执行”闭环的时间开销,提升动态应对不确定性威胁的处置能力.

综上,“感知-决策-执行”星上闭环需要充分考虑三者之间嵌套、耦合关系,进行一体化框架下的整体分析与设计,并通过对星上资源的动态调配消解冲突,形成 “感知-决策-执行”一体化星上闭环的威胁规避智能自主控制系统 (简称为 “感知-决策-执行”一体化控制系统).

3 威胁规避智能自主控制的若干基础问题

航天器 “感知-决策-执行”一体化控制系统架构的示意图如图2 所示.系统以航天器和环境目标组成的动态系统 (“航天器+环境目标”) 为被控对象,包含多个嵌套耦合的控制回路,比如: “测量-规划-执行”闭环以姿态、轨道测量信息为反馈量,完成轨道机动、姿态控制等动作执行,对应传统的“导航-制导-控制”回路;“感知-决策-执行” (也即“测量-态势判断和威胁行为预测-行为决策-动作规划-执行”) 回路以包含威胁行为特征、属性及意图等的态势特征作为反馈量,通过决策环节引入闭环回路的反馈机制,实现系统行为随场景变化和不确定性威胁行为的自主调整;进一步,在 “感知-决策-执行”闭环回路中引入 “资源分配和任务调度”模块,通过对资源约束和性能要求之间的统筹优化,以及星上受限资源的动态调配,消解事件响应冲突、时间和资源冲突等,保障航天器这类资源严重受限系统面对威胁规避复杂任务时的协调运行,实现控制系统对复杂动态任务的及时、适度、自主应对.

图2 航天器 “感知-决策-执行”一体化控制系统逻辑架构示意图Fig.2 Logical architecture diagram of spacecraft “perception-decision-action” integrated control system

上述嵌套耦合的多层闭环控制回路通过指令下行、层间并联、层间反馈等方式有机地组织在一起,形成具有多层级联的混杂架构,支撑感知、决策、执行各层次及其内部功能模块之间的信息共享与深度融合.一体化控制系统中时间驱动和事件驱动相混合,针对系统运行节点间存在时间异步性、威胁事件触发具有随机不确定性,基于时间冲突、事件响应冲突消解机制进行多层嵌套控制和并发任务的协调,解决时空多域冲突,实现资源约束与性能要求之间的统筹优化,以及资源的动态调配.相比此前提出的OEDA 闭环框架[12],本文重点强调特定 “角色”下以最小的代价规避威胁,不再突出角色切换对应的 “演化”环节,将 “感知-决策-执行”闭环和“资源分配与调度”进行适度解耦,使系统框架层次、逻辑相对清晰,便于一体化系统建模、优化设计和综合分析.

综上可知,航天器 “感知-决策-执行”一体化控制系统属于信息物理深度融合、时间/事件混合驱动、多层级多环路嵌套耦合的混杂动态系统,对一体化控制系统的研究涉及最优估计、图像识别、决策规划等多学科多领域.为确保一体化控制系统的行为稳定可控且满足预期目标,需要从系统科学的角度,探讨一体化控制系统的行为描述、反馈机制设计、闭环性能分析,以及系统行为的可信评价等方面需要重点关注的基础问题.

相比感知、决策,动作执行对应的航天器姿态轨道控制,发展相对成熟和完善.在一体化框架下,动作执行的能力模型作为决策环节的约束条件进入闭环,其面临的基础问题 (如时间/事件混杂系统控制) 在决策和一体化控制系统建模及协调运行机制方面也有进一步体现,本节不再做单独讨论.

下面,针对航天器威胁规避智能自主控制技术面临的瓶颈难题、面向在轨应用的实际需求,从“感知-决策-执行”一体化控制系统建模、轨道威胁感知、自主规避动态决策,以及自主行为可信评价4 个方面,探讨需要重点解决的基础问题.

3.1 航天器 “感知-决策-执行”一体化控制系统建模

建模是系统仿真验证、预测和综合分析的关键基础,要求能够深入和定量地描述系统行为的内在演化规律和因果关系.“感知-决策-执行”一体化控制系统多层级多环路嵌套耦合,时间/事件混合触发,组成元素之间的依赖、竞争、关联等作用关系复杂;系统行为的描述涉及最优估计、图像识别、决策规划等多学科多领域,系统状态包含威胁等级、形态特征、运动参数等多维度变量,单一数学语言无法恰当描述.

因此,如何抽象感知、决策和执行行为的特征要素,刻画 “数据信息-状态特征-威胁判定-决策规划-动作执行”之间的内在关联特性,形成对各层级系统行为的简洁表达;如何描述并优化系统多层级多环路的串并联、反馈等关联形态,形成结构简明、性能可靠、开放灵活的一体化控制系统架构,建立多层级联系统模型;采用何种性能指标衡量系统的协调运行能力,以及如何建立面向多层嵌套控制和并发任务的时间/事件冲突消解机制,实现系统内部资源和约束的自组织调整,是一体化控制系统建模需要解决的关键基础问题.

3.2 复杂空间环境下轨道威胁行为的融合感知

基于目标形态、运动、历史行为等多维度信息的融合感知,是破解大时空尺度复杂空间环境下探测目标可见性差异显著、测量信息不完备、威胁行为特征不明显所带来威胁精准感知难题的有效途径,其难点在于威胁行为与目标形态、运动特征等时空关联关系的表征与学习,涉及形态特征提取、异动特征学习、多模态特征融合推理等多个方面.

因此,采用何种特征量刻画轨道威胁的行为特征,并对大时空尺度变化下轨道威胁的历史行为进行表达;如何表征轨道异动行为与目标形态变化、运动状态之间的关联关系,以及采用何种机制进行关联关系的增量学习;采用何种模型对形态、运动、历史行为等特征进行综合推理,以及如何结合知识进行推理模型的小样本学习,构建多模态特征融合的威胁行为及等级推理网络,实现对威胁行为的准确判断,是轨道威胁融合感知需要重点解决的基础问题.

3.3 复杂多约束下威胁自主规避的动态决策

威胁规避决策要在星上资源严重受限的情况下,确保航天器执行既定任务的同时,以最小的代价实现对碰撞、干扰等威胁的及时有效应对,优化目标维度多、差异大、与约束条件的影响关系复杂,威胁目标行为不确定,自主规避决策要素多、决策空间大.

与此同时,碎片碰撞、敌意干扰等作为航天器执行既定任务时的随机事件,当满足一定触发条件时,会触发规避策略的动态更新,以及底层规避动作执行控制器的切换.事件触发条件、策略更新准则、控制执行过程中的切换不仅影响星上计算、存储、通信资源的消耗,还影响一体化闭环系统行为的稳定性.需要设计适合 “感知-决策-执行”一体化控制系统的反馈机制,实现对动态场景下决策空间的自适应约减,满足在轨精准决策与轻量实现的要求;需要综合资源约束和稳定性要求设计恰当的事件触发条件、优化规避策略的更新准则、合适的控制器切换条件,确保资源受限条件下、闭环系统行为面向场景变化及威胁行为不确定时的稳定性和鲁棒性.

因此,如何根据任务要求、变化场景和威胁特征,并结合航天器自身能力确定威胁事件触发条件,选定初始决策模型;如何根据威胁态势的推演结果和感知结果在线调整决策模型的结构和参数、优化搜索空间,构建反馈机制对决策空间进行自适应约减,使模型复杂度和搜索空间因势而变,实现复杂动态决策问题的快速求解;如何对规避策略的最优性、鲁棒性,以及引入自适应决策过程的一体化控制闭环系统行为的稳定性进行分析和综合评价,建立决策过程性能评价的理论基础,是威胁规避自主决策需要进一步探讨的基础问题.

3.4 航天器智能自主行为的可信评价

智能自主系统其行为的可信评估是由理论方法研究转入工程实际应用并保证性能稳定的关键环节.航天器 “感知-决策-执行”一体化智能自主控制系统对推理、学习等的应用带来智能可解释性、真实场景下性能稳定性、虚假关联有效区分等系统验证与评估的可信性问题,需要一套可信性评估理论与方法对系统能力边界和可回溯性进行衡量判定.

因此,如何建立 “任务/环境-系统状态-任务完成度/智能水平”之间的关系映射,并据此提炼一体化控制系统的关键特征,给出关键特征与能力关联度的准确刻画,构建系统的可验证性和可评价性准则;如何依据任务/环境和系统状态的关联关系设计完备的问题域和评价科目库,通过有限次测试实现对系统的可信性评价,是航天器智能自主行为可信评价需要解决的关键基础问题.

以上4 个方面的基础问题既有独立性,又互为约束,其相互关系如图3 所示.一体化控制系统建模研究系统行为的简洁描述方法和协调运行机制,形成一体化控制系统的表达模型,可为 “感知-决策-执行”一体化控制系统的优化设计提供分析模型,通过一体化设计为感知、决策、执行环节提供功能要求、性能指标、设计约束等优化要素;同时可为系统自主行为的可信评价提供基础模型.威胁感知、规划决策研究满足任务要求的设计算法,为可信评价提供满足性能指标和资源约束的感知、决策算法.可信评价对系统自主行为的可信性和能力水平进行定量评估,反过来指导感知算法和决策算法的优化设计.

图3 4 个方面基础问题之间的相互关系示意图Fig.3 Schematic diagram of the relationship between the four basic theoretical questions

4 结束语

伴随着频繁发生的太空安全事件,航天器执行既定任务时的威胁规避逐渐成为其日常操作中的一项常规任务,对轨道威胁的自主规避能力提出了迫切发展需求.本文基于威胁目标感知、自主决策规划、规避动作执行、自主控制系统架构相关研究进展的调研分析,总结给出了轨道威胁规避智能自主控制所面临的主要瓶颈问题,分析指出发展 “感知-决策-执行”一体化控制是实现航天器智能自主的有效手段.进一步围绕 “感知-决策-执行”一体化控制系统建模、设计方法、行为评价等方面,提出需要重点加强 “一体化控制系统建模、威胁行为的融合感知、威胁规避动态决策、自主行为可信评价”4个技术方向相关基础理论问题的研究,牵引未来航天器智能自主控制技术的创新发展.

展望未来,随着中国大规模星座计划的推进部署,航天器面对规避威胁任务的智能自主控制技术将成为确保星座安全稳定运行的重要使能技术.航天器 “感知-决策-执行”一体化控制系统架构的不断完善,感知、决策、执行等智能技术的不断发展及其工程实用化程度的不断提高,将颠覆 “星地大回路”的传统任务模式,使航天器具备透彻感知理解、审时度势、合理决策、精准执行的类人智能,从而实质性地提升航天器自主应对轨道威胁的能力,从根本上确保中国空间资产安全.