关键词:轨道转移;深度强化学习;TD3算法
中图分类号:TP183 文献标志码:A
0 引言(Introduction)
为解决制定轨道转移策略时人力投入大、反应不及时等问题,本文使用深度强化学习中的TD3算法进行通用脉冲式点火控制器的设计。当卫星收到约束条件下任意的轨道转移任务时,该通用控制器能为其预测轨迹并提供点火策略,助力其在指定时间内成功到达目标轨道。
为了描述卫星在地球轨道上的运动规律,首先,对卫星的轨道动力学进行建模。其次,简单介绍强化学习,并对马尔科夫决策过程进行设计,将卫星轨道转移任务形式转化为一个强化学习问题,使TD3算法能够应用于该问题,并给出通用点火控制器模型的训练方法。最后,开展模拟仿真实验对模型进行评估分析,实验结果表明本文设计的脉冲式点火控制器模型在随机给出的轨道转移任务下具有较高的通用性。
1 研究背景与现状(Research background andcurrent status)
在即将到来的太空任务[1]中,随着卫星数量的增加,地面站将面临更大的压力和挑战。这种复杂的情况,对航天器自主导航与控制能力[2],以及决策制定和规划能力[3]的需求日益增强。对于现代航天器来说,具备自主轨道规划[4]能力变得愈发重要,具备这一能力不仅能减少人力投入,还能在面对风险和变更任务目标时展现出更强的反应能力。因此,航天器在轨时的可用性和可靠性日益受到重视。
卫星轨道转移[5]任务是指卫星在太空中从一个轨道状态转移到另一个轨道状态。这一过程通常需要精确控制卫星的推力,以改变其速度和轨道方向。卫星轨道转移是为了实现不同的科学研究目标,例如实现通信覆盖范围的变化、执行特定的观测任务、避开太空碎片或其他卫星等。对于特定的轨道转移任务,还需要进行精确的轨道设计[6]、飞行路径规划[7]和飞行控制。
目前,针对卫星轨道转移问题,多采用传统的智能优化算法或数值算法进行求解[8],并且大多是针对单个轨道转移任务进行燃料消耗或是时间上的优化求解。然而,对于设计通用的控制方法求解这类问题的研究相对较少。本文将对约束条件下脉冲式卫星轨道转移任务的通用点火控制方法进行进一步研究。
4 仿真实验与结果分析(Simulation experimentsand results analysis)
采用前文提到的TD3方法对卫星轨道转移问题进行求解。
卫星的质量为4 474 kg,发动机在每个方向上能产生的最大加速度为10 m/s2。点火时间将持续1 s,接下来的299 s,卫星将以惯性运动。卫星的初始状态如表2所示的轨道六根数范围内随机产生,轨道转移任务的目标轨道也在如图2所示的轨道五根数范围内随机产生,以对随机产生的轨道转移任务进行模拟。
当卫星到达目标轨道附近时,即半长轴偏差小于40 km、偏心率小于0.1、轨道倾角小于0.2°、升交点经度小于30°、近地点幅角小于30°,则认为当前回合下卫星成功到达目标轨道。
TD3算法中策略网络、值网络1、值网络2及各自对应的目标网络均采用双隐藏层,每层256维,激活函数采用Relu和Tanh两种函数,TD3算法神经网络部分结构图如图2所示(目标网络的结构同其对应的策略网络、值网络)。
训练过程中还涉及前文提到的其他参数,具体参数值如表3所示。
使用Python语言实现网络结构并训练,以每轮训练中每一步的平均奖励表示训练效果,得到的学习曲线如图3所示。
在每1万轮次训练后,要对模型进行评估。评估方法为随机产生1 000个轨道转移任务,即卫星初始位置与目标轨道均是随机的,记录模型给出的点火策略能让卫星在100步内成功到达目标轨道的次数。用成功到达目标轨道的次数除以评估总数,即模型的成功率,并以此评估模型性能。训练过程中,模型性能表现如图4所示,在前40万轮次的训练过程中,模型性能得到显著改进,成功率提升至70%左右;在第40万~110万轮次的训练过程中,模型性能缓慢提升,成功率提升至90%左右;在随后的训练中模型的性能表现有轻微抖动,成功率仍维持在90%左右,最高可达96.1%。
5 结论(Conclusion)
本文研究了卫星多轨道转移问题,创新地将深度强化学习技术引入其中,并设计了通用自主机载控制器引导卫星完成类似任务。首先,基于轨道动力学进行建模,对马尔可夫决策过程进行多次设计,完成了强化学习所需的环境搭建,并解决了状态空间大、奖励稀疏的问题。其次,用深度强化学习中的TD3算法对决策模型进行训练。最后,对模型进行数值仿真、评估分析,通过训练过程中的模型性能、评估环境下任务达成率,验证了本文设计的自主脉冲式点火控制器模型在随机给出的轨道转移任务下具有较高的通用性与可靠性,为未来的类似任务提供了一种全新的思路和方法。
作者简介:
曹海涛(1997-),男,硕士生。研究领域:强化学习。
邱鹏鹏(1996-),女,硕士生。研究领域:强化学习。
蔡 霞(1971-),女,硕士,讲师。研究领域:数据智能,机器学习。