融合DDQN与示教学习的高超声速飞行器智能姿态控制方法研究

2024-02-22 00:00:00刘静蔡光斌凡永华樊红东吴彤尚逸鸣
航空兵器 2024年6期
关键词:强化学习姿态控制

摘 要:""""" 为提高高超声速飞行器姿态控制问题的求解速度和精度, 提出了一种结合示教学习的高超声速飞行器智能姿态控制方法。 首先, 建立了高超声速飞行器的控制模型, 选取姿态角动作作为控制输出。 其次, 设计了一种结合DDQN(Double Deep Q-Network)和示教学习的算法, 将智能体的训练分为预训练和正式训练两个阶段。 在预训练阶段, 智能体从演示数据中抽取小批量数据, 应用四种损失函数进行神经网络更新。 在正式训练阶段, 从飞行器自身训练生成的数据和演示数据中进行采样, 并通过优先经验回放控制每个小批次中两种类型数据的比例, 在与环境的交互中学习, 使飞行器能够根据飞行环境变化自适应地调节姿态。 仿真结果表明, 基于演示数据的强化学习方法能够跟踪控制指令, 实现高超声速飞行器的姿态控制, 并且能够提高神经网络训练初期的表现, 具有更高的平均奖励。

关键词:"""" 高超声速飞行器; 姿态控制; 强化学习; 示教学习; DDQN

中图分类号:""""" TJ765; V249

文献标识码:""" A

文章编号:"""" 1673-5048(2024)06-0050-07

DOI: 10.12132/ISSN.1673-5048.2024.0130

0 引" 言

高超声速飞行器一般是指飞行马赫数大于5, 在临近空间内实现大范围、 远距离快速机动的飞行器, 具有飞行速度快、 飞行航程远、 飞行空域大、 机动突防能力强等诸多优势[1-3。 高超声速飞行器将大幅拓展战场空间、 提升突防与打击能力, 已成为大国空天军事竞争的又一战略制高点, 具有重大军事意义[4。 由于高超声速飞行器本身具有强耦合、 强非线性、 强不确定性的特点, 同时飞行环境中存在各种外界干扰, 飞行高度和马赫数跨度范围大、 飞行环境复杂、 气动特性变化剧烈、 飞行约束条件多, 对高超声速飞行器的姿态控制系统提出了较高的要求。 为了满足强稳定、 高精度的控制要求, 飞行控制方法的设计需要具备快速性、 精确性与鲁棒性, 如何设计满足控制要求的高超声速飞行器姿态控制方法是研究的热点。

目前已有许多方法被应用于高超声速飞行器姿态控制领域, 如增益调度控制[5、 反步控制[6、 滑模控制[7、 鲁棒控制[8等。 针对高超声速飞行器的三维航迹控制问题, 杨庶等[9采用线性变参数输出反馈控制和极点配置理论, 设计了高超声速飞行器一体化式控制律, 对飞行器纵向和横向运动进行综合控制; 针对非仿射高超声速飞行器的姿态控制问题, 路遥等[10提出一种基于反步法的非线性控制方法, 设计扩张状态观测器, 基于动态逆的方法设计了升降襟副翼的控制律; Sagliano等[11提出基于反馈线性化的高阶滑模控制, 在消除抖振的同时, 提升了控制器的抗干扰能力; Ren等[12针对面向控制模型的非最小相位特性和系统不确定性, 将高超声速飞行器的鲁棒跟踪问题分解为一个较为简单的带干扰的线性非最小相位系统的鲁棒跟踪问题和一个无干扰的非线性系统的稳定问题, 设计了一种基于非线性补偿的高超声速飞行器鲁棒跟踪控制器。

传统的高超声速飞行器控制方法为了达到良好的效果, 需要根据系统状态设计相应的控制器参数。 由于高超声速飞行器精确模型获取困难, 飞行环境复杂, 飞行控制器的参数设计非常繁琐。 此外, 参数设计往往依赖于工程师的经验和能力。 因此, 迫切需要一种不依赖工程师能力和经验的控制参数设计方法。 近年来, 强化学习算法在飞行器控制领域优势逐渐突显。 强化学习算法可以在系统状态和控制器参数之间建立直接联系, 通过将大量数据离线训练出的控制策略加载到飞行器上在线运用, 能够实现更好的控制效果。 基于武器智能化的发展趋势, 王冠等[13提出一种基于事件触发的确定学习控制方案, 将飞行器动力学模型划分为速度子系统和高度子系统, 基于离线学习获取的动态知识设计了在线触发控制器; 魏毅寅等[14利用深度神经网络对飞行器关键特征进行辨识, 实现了控制增益的精准调度, 提升了在模型不确定性情况下飞行器的自适应能力; Zhao等[15提出一种基于观测器的强化学习控制方法, 构造高超声速飞行器复合观测器, 综合观测器提供的信息, 设计了一种强化学习控制器来解决最优姿态跟踪控制问题; Wang等[16设计了双行为者批评网络及其自适应权值更新规律, 对未知的、 不匹配的和匹配的外部扰动进行补偿, 解决了具有扰动的高超声速飞行器的输出约束非仿射姿态控制问题。

强化学习算法已经在飞行器控制领域取得了广泛的应用, 但经典强化学习仍存在一定的局限性, 如在高维空间中表现不佳、 样本效率低、 训练不稳定等[17。 DQfD(Deep Q-learning from Demonstrations)作为一种结合示教学习和自我生成数据的算法, 在训练初期利用专家演示数据, 随后结合自我探索数据, 成功地克服了许多传统算法的不足, 提高了模型训练的初期表现和训练效率[18。 目前基于演示数据的强化学习算法已应用到了无人机控制领域, etin等[19提出一种带有对抗网络架构的DQfD算法, 加快了无人机反制系统的训练速度; 孙丹等[20设计了示教知识辅助的无人机控制算法, 相较于其他强化学习算法在控制效果和收敛性方面都有着明显的优势。 在当前人工智能不断发展的背景下, 为进一步强化高超声速武器相较于传统武器的效能优势, 将智能化技术应用于高超声速武器装备已经成为新的发展趋势。

针对高超声速飞行器姿态智能控制算法训练前期训练效率低的问题, 本文结合DDQN算法和示教学习, 设计了一种DDQNfD(Double Deep Q-Network from Demonstrations)高超声速飞行器姿态控制方法, 利用示教学习的优势提升高超声速飞行器算法前期的控制策略求解效率。 将智能体的训练分为预训练和正式训练两个阶段, 训练智能体基于飞行器模型和演示数据, 采用神经网络来近似逼近奖励函数的方式, 通过获得最大奖励值的方法学习姿态控制策略, 实现对俯仰角的自适应调节, 降低了系统的不确定性对控制效果的影响和控制器设计对模型的依赖程度。

1 高超声速飞行器姿态控制模型

将地球看作一个质量均匀的圆球, 忽略地球扁率和地球自转的影响, 基于上述假设, 对高超声速飞行器的受力分析如图1所示。

高超声速飞行器俯仰力学模型描述为

x·=vcosψReRe+h

h·=vsinψ

v·=-Dm-gsinψ

ψ·=Lmv+cosvRe+h-gv

ω·z=MzIz=f(α, ωz, Mz)+bδe

φ·=ωz

α=φ-ψ (1)

式中: v为飞行器速度; ψ为弹道倾角; α为攻角; φ为俯仰角; ωz为俯仰角速度; x为飞行距离; h为飞行高度; m为飞行器质量; b为常数系数; Mz为俯仰力矩; Iz为俯仰转动惯量; Re为地球半径; g为重力加速度。

升降舵舵机的动力学方程表示为

Ge(s)=δeδeu(s)=9 608s2+176.45s+9 608(2)

式中: δe为舵偏角; δeu为升降舵机的驱动电压。

俯仰力矩表达式为

Mz=mzq-SLc

mz=mz0+2mzδe+mzzωzLc2v (3)

式中: S为面积; q-=0.5ρV2为动压; Lc为纵向参考长度; mz, mzδe, mzz为迎角、 马赫数、 舵机的函数。 D为阻力, L为升力, 其计算表达式如下:

L=q-SCLD=q-SCD (4)

式中: CL, CD分别为飞行器升力系数和阻力系数。

2 控制算法设计

本文的控制目标是采用智能控制的方法, 通过对飞行器升降舵机驱动电压的自适应调整, 实现对目标俯仰角的跟踪。 控制器设计基于示教学习与强化学习结合的方法, 训练智能体根据飞行器自身训练生成的数据和演示数据中进行神经网络参数更新, 并通过优先经验回放自动调节两种数据的比例, 通过环境交互进行俯仰角控制策略的学习, 让飞行器能够自适应地调节姿态, 实现对姿态控制指令的快速响应。

2.1 DDQN算法

强化学习是机器学习的分支, 智能体通过与环境的不断交互、 感知, 学习从状态到动作的映射关系, 根据反馈的环境信息获得奖励值, 不断更新神经网络参数。 强化学习的训练过程如图2所示。

飞行器姿态控制策略训练过程中, 智能体在环境中感知到当前的状态St, 然后在动作空间中选取执行的升降舵机驱动电压调节动作at, 通过控制飞行器与环境进行交互, 获取执行动作的奖励值rt+1, 通过与环境进行的交互所选取的动作所获得的奖励值来评价自主学习的行为, 并通过不断地调整自身的动作策略, 使飞行器在姿态调整的任意时间段内都能执行获得奖励最大的升降舵机电压调节动作。 训练过程就是一个与环境不断交互学习的过程, 目标是学习到适应环境的最优升降舵机电压自主调节策略。

DDQN算法是一种基于价值函数的深度强化学习算法, 通过与环境不断交互, 学习并训练出最优动作价值函数Q(st, at), 表示为

Q(st, at)=E(Rt+γ·Q(St+1, At+1))(5)

式中: E为期望; γ为折扣因子。 求解最优动作值函数是根据状态St+1, 选择动作At+1满足Q最大化,即

Q(St+1, At+1)=E[Rt+γ·maxaQ(St+1, a)](6)

对式(6)进行蒙特卡洛近似可表示为

E[Rt+γ·maxaQ(St+1, a)]≈rt+γ·maxaQ(St+1, a) (7)

式中: rt表示当前时刻获得的奖励; γ·maxaQ(St+1, a)为时序差分(Temporal Difference, TD)目标。 TD目标包括当前真实的奖励值和模型预测的奖励值, 通过不断更新, 使得Q接近TD目标。 迭代过程为

Q(st, at)←Q(st, at)+l[r+γ·

maxaQ(St+1, at+1)-Q(st, at)] (8)

式中: Q(st, at)表示t时刻, 状态St下对应动作at的价值; l为学习率; r为奖励。 利用DNN神经网络拟合一个函数代替Q值表对价值函数进行更新。 利用神经网络逼近函数时, 价值函数的更新采用梯度下降法更新神经网络中的参数θ:

θt+1=θt+l[r+γ·maxat+1Q(st+1, at+1, θt)-

Q(st, at, θt)]Q(st, at, θt)(9)

式中: r+γ·maxat+1Q(st+1, at+1, θt)-Q(st, at, θt)为TD目标; Q(st, at, θt)为当前状态的价值函数梯度。 算法的目标值表示为

YDoubleDQNt=Rt+1+γQ(St+1,argmaxa′Q(St+1, a′; θt), θ-)(10)

2.2 DDQNfD姿态控制算法设计

为了提高对控制指令的响应速度, 本文设计了一种结合DDQN和示教学习的DDQNfD算法, 通过模仿专家演示数据辅助强化学习算法的训练, 将示教学习和自主探索结合, 将神经网络训练分为预训练和正式训练两部分, 在预训练阶段使用演示数据, 随后结合自我探索的数据来改进策略、 加速智能体对高超声速飞行器姿态控制的学习过程。

2.2.1 DDQNfD算法损失函数设计

DDQNfD算法的损失函数J(Q)设计为四部分: JDoubleQ(Q)为DDQN中的单步TD损失; Jn(Q)为n步TD损失; JE(Q)为监督最大间隔分类损失, 用于模仿专家策略; JL2(Q)为应用在神经网络权重和偏差的正则化项, 防止策略过拟合。 λ1,λ2,λ3分别为n步TD损失、 监督最大间隔分类损失和L2正则化损失的权重系数。

算法在预训练阶段基于四种损失函数进行神经网络更新, 利用少量的演示数据来加速学习。 其中监督最大间隔分类损失JE(Q)用于确保模型在专家演示数据上正确分类, 鼓励模型在专家选择的动作上产生较高的Q值, 确保专家演示数据中选择的动作的Q值比其他动作的Q值高。 监督损失表示为

JE(Q)=maxa∈A[Q(s, a)+l(aE, a)]-Q(s, aE)(11)

对于状态s, 当演示数据选择的动作与当前策略相同, l(aE, a)=0, 动作与当前策略不同时为一个正数, 本实验取l(aE, a)=0.8。

单步TD损失JDoubleQ(Q)用于保证Q值在单步回报上符合Bellman方程, n步TD损失Jn(Q)通过考虑多个时间步的回报, 确保Q值更新的稳定性和准确性。 单步TD损失和n步TD损失分别表示为

JDoubleQ(Q)=(R(s, a)+γQ(st+1, a))-Q(s, a; θ)2(12)

Jn(Q)=rt+γrt+1+…+γn-1rt+n-1+

maxγnQ(st+n, a)(13)

L2正则化损失JL2(Q)用于更新神经网络的权重和偏差, 只应用于专家经验的更新计算, 防止算法在训练中过度拟合演示数据集。 L2正则化损失表示为

JL2(Q)=Q22(14)

DDQNfD算法的损失函数表示为

J(Q)=JDoubleQ(Q)+λ1Jn(Q)+λ2JE(Q)+λ3JL2(Q) (15)

建立两个经验回放池DE和Dreplay, 分别用来存放演示经验和与环境交互获得的经验。 采用优先经验回放选取数据, 定义样本i的优先级pi为

pi=δ2i+μQ(si, ai)2+ο (16)

δi=[r+γ·maxaQ(Si+1, ai+1)-Q(si, ai)]2 (17)

式中: δi为样本i的TD误差; ο为一个很小的正常数, 用于保证所有样本都有几率被采集; μ为权重系数。 样本被采样的概率为

P(i)=pi∑kpk(18)

2.2.2 DDQNfD算法奖励函数设计

预训练阶段后, 飞行器用学习到的姿态控制策略与环境进行交互, 通过演示数据和自生成的数据进行网络更新, 在正式训练中自动选择演示数据和自生成数据的比例, 提高神经网络的训练效率。

强化学习的控制目标是实现对目标信号的跟踪, 尽快跟踪俯仰角指令的同时确保控制量的变化尽可能平缓, 这两个相互矛盾的指标通过强化学习算法来进行协调。 基于此目标进行奖励函数设计, 将奖励函数分为跟踪奖励、 抖振惩罚和攻角范围惩罚三个部分。

信号跟踪奖励定义为在飞行器姿态控制过程中倾侧角对控制指令跟踪情况的奖励, 所控制的倾侧角越接近目标指令会获得越高的奖励, 鼓励控制飞行器姿态角接近目标角度。 信号跟踪奖励设置如下:

r1=ε11+(φ-φtarget) (19)

式中: ε1为跟踪奖励的权重系数, 用于调整跟踪奖励在整体奖励函数中的重要程度, 实验中选取ε1=1 000。

为了抑制倾侧角调节过程中的抖振, 选取俯仰角速度的平方设计抖振惩罚, 鼓励飞行器进行平滑的俯仰角控制:

r2=ε2·ω2z (20)

式中: 实验中选取ε2=10。

为限制攻角的调节范围, 当攻角的变化超出预定范围时, 给予一定的惩罚:

r3=0α∈A

ε3 αA(21)

式中: A为攻角调节的上下限; ε3为超出攻角范围的惩罚项, 实验中选取ε3=-25 000。

算法每一步的奖励函数表示为

ri=r1, i+r2, i+r3, i(22)

引入遗忘因子η, 训练的总体奖励表示为

R(t)=∑Ni=1ηi-1ri(23)

2.2.3 DDQNfD算法结构图及步骤

文中设计的DDQNfD算法中组成部分包括主网络(用于生成控制动作)、 目标网络(用于评估控制动作的好坏)、 经验池(用于存储和回放历史交互数据)、 奖励函数(用于指导学习过程, 通过给予正面或负面的奖励来强化或惩罚特定的行为), 控制器是由这些部分和控制策略组成的系统, 采用神经网络来近似逼近奖励函数, 通过获得最大奖励值的方法学习姿态控制策略, 自适应地调节舵机驱动电压, 控制舵偏角, 实现对俯仰角的控制。 算法的结构图如图3所示。 算法伪代码如图4所示。

算法1 DDQNfD算法训练步骤

1:" 初始化: 演示数据集DE, 训练数据集Dreplay, 神经网络的权值θ, 目标网络的权值θ′, 更新目标网络的频率τ, 预训练步数k1, 正式训练步数k2;

2:" 对于步骤t∈{1, 2, …, k1}, 执行:

3: 从DE中选取n个具有优先级的小批量数据;

4: 利用目标网络计算损失J(Q), 将(st, at, rt, st+1)存储至Dreplay

5: 执行梯度下降步骤来更新θ;

6: 如果当步数t能够整除τ, θ′←θ;

7: "结束;

8:" 对于步骤t∈{k1+1, k1+2, …, k1+k2}, 执行:

9: 从行为策略采样升降舵机驱动电压调节动作a;

10: 执行升降舵机驱动电压调节动作a;

11: 将(st, at, rt, st+1)存储到Dreplay中, 如果容量超过, 则覆盖最旧的经验;

12: 从Dreplay中选取n个具有优先级的小批量数据;

13: 利用目标网络计算损失J(Q);

14: 执行梯度下降步骤更新θ;

15: 如果当步数t能够整除τ时, 则θ′←θ;

16: s←s′;

17:" 结束。

3 仿真与分析

为了验证上述控制方法的有效性, 采用所设计的DDQNfD姿态控制算法, 以高超声速飞行器的升降舵机驱动电压作为控制量进行仿真实验, 将大量数据训练后的姿态控制器接入仿真环境在线使用, 验证所设计算法对高超声速飞行器的姿态控制效果。 同时在相同环境下进行DDQN算法控制器和PID控制器的飞行器姿态控制作为对比。

3.1 演示数据收集

本文所设计的高超声速飞行器姿态智能控制算法训练所用到的演示数据由DDQN控制器训练得到, 将DDQN控制器训练过程中的数据整理为(st, at, rt, st+1)形式并存放至经验池DE中。 DDQN控制器的训练参数设置如表1所示。

3.2 正式训练

正式训练阶段算法在预训练的基础上继续与环境进行交互, 利用预训练阶段产生的经验和智能体自身与环境交互的经验进行神经网络参数更新。 DDQNfD算法训练的训练参数如表2所示。

图5为DDQNfD算法姿态控制器对正弦指令信号的跟踪情况。 从图中可以看出, 基于DDQNfD算法设计的控制器能够控制飞行器有效跟踪指令信号, 跟踪误差基本控制在±0.05°之内。

图6为训练奖励随训练步数变化的曲线。 从图中可以看出, 随着训练步数的增加, 训练获得的奖励不断增加并逐渐趋于稳定。

为验证本文提出的基于DDQNfD的高超声速飞行器姿态控制方法的性能, 在同一环境下进行了PID控制器和基于DDQN算法控制器的仿真对比实验。 为增强对比效果, 采用阶跃信号作为目标信号, 三种控制器对阶跃信号的跟踪情况如图7所示。

与基于DDQN算法控制器和传统PID控制器相比, 当系统达到稳态时, 结合演示数据的DDQNfD算法控制的超调量更小, 跟踪性能优于传统PID控制器和DDQN算法控制器。 基于DDQNfD算法的飞行器姿态控制能够提高俯仰角控制准确性。

图8为DDQNfD算法和DDQN算法奖励值的对比图。 从图中可以看出, 示教学习辅助的DDQNfD算法姿态控制系统得到的奖励值更高," 最终获得的控制策略的性能更好。 这表明示教知识在算法的学习过程中起到了引导作用, 将演示数据引入训练过程能够提高算法的性能, 有利于算法学习到更好的姿态控制策略。

从上述实验可以看出, 结合示教学习的DDQNfD算法能够从训练速度和控制精度两个方面提升对高超声速飞行器姿态角的控制效果, 使飞行器俯仰角可以更加快速、 准确地跟踪控制指令, 实现高超声速飞行器的姿态控制。

4 结" 论

本文针对高超声速飞行器的姿态控制问题, 建立了高超声速飞行器模型, 并融合示教学习和强化学习算法设计了飞行器姿态控制器, 实现了对高超声速飞行器姿态的自适应调整。 通过在强化学习算法内引入演示数据, 在神经网络正式训练前进行预训练, 避免了强化学习训练初期的“冷启动”问题, 提高了对姿态角的控制精度, 缩短了高超声速飞行器对控制指令的响应速度。 仿真实验结果表明, 结合示教学习的DDQNfD算法能够控制飞行器快速跟踪控制指令, 相较DDQN算法控制器和传统PID控制器具有更快的响应速度和更高的控制精度, 对控制指令拥有更好的跟踪效果。

参考文献:

[1] 张雨浓, 孟飞, 刘杰, 等. 智能化高超声速武器的发展趋势及应用探讨[J]. 战术导弹技术, 2023(6): 77-82.

Zhang Yunong, Meng Fei, Liu Jie, et al. Discussion on Development Trend and Application of Intelligent Hypersonic Weapon[J]. Tactical Missile Technology, 2023(6): 77-82. (in Chinese)

[2] 魏昊, 蔡光斌, 凡永华, 等. 高超声速飞行器再入滑翔段在线制导[J/OL]. 北京航空航天大学学报, doi: 10.13700/j.bh.1001-5965.2022.0965.

Wei Hao, Cai Guangbin, Fan Yonghua, et al. Online Guidance for Hypersonic Vehicle in Glide-Reentry Segment [J/OL]. Journal of Beijing University of Aeronautics and Astronautics, doi: 10.13700/j.bh.1001-5965.2022.0965. (in Chinese)

[3] 张远, 黄旭, 路坤锋, 等. 高超声速飞行器控制技术研究进展与展望[J]. 宇航学报, 2022, 43(7): 866-879.

Zhang Yuan, Huang Xu, Lu Kunfeng, et al. Research Progress and Prospect of the Hypersonic Flight Vehicle Control Technology[J]. Journal of Astronautics, 2022, 43(7): 866-879.(in Chinese)

[4] 熊瑛, 夏薇, 王林. 2023年国外导弹防御发展综述[J]. 战术导弹技术, 2024(1): 1-6.

Xiong Ying, Xia Wei, Wang Lin. Overview of Foreign Missile Defense Development in 2023[J]. Tactical Missile Technology, 2024(1): 1-6.(in Chinese)

[5] 张康康, 周彬, 蔡光斌, 等. 高超声速飞行器指定时间时变高增益反馈跟踪控制[J]. 自动化学报, 2024, 50(6): 1151-1159.

Zhang Kangkang, Zhou Bin, Cai Guangbin, et al. Prescribed-Time Tracking Control of Hypersonic Vehicles by Time-Varying High-Gain Feedback[J]. Acta Automatica Sinica, 2024, 50(6): 1151-1159. (in Chinese)

[6] 路遥. 一种非仿射高超声速飞行器输出反馈控制方法[J]. 自动化学报, 2022, 48(6): 1530-1542.

Lu Yao. A Method of Output Feedback Control for Non-Affine Hypersonic Vehicles[J]. Acta Automatica Sinica, 2022, 48(6): 1530-1542.(in Chinese)

[7] 王雨潇, 丰航, 赵昱宇, 等. 非最小相位高超声速飞行器的动态滑模镇定控制[J/OL]. 国防科技大学学报, https:∥link.cnki.net/urlid/43.1067.T.20240219.1705.002.

Wang Yuxiao, Feng Hang, Zhao Yuyu, et al. Dynamic Integral Sliding Mode Control for Nonminimum Phase Hypersonic Vehicle[J/OL]. Journal of National University of Defense Technology, https:∥link.cnki.net/urlid/43.1067.T.20240219.1705.002. (in Chinese)

[8] Zhang H, Wang P, Tang G J, et al. Fuzzy Disturbance Observer-Based Dynamic Sliding Mode Control for Hypersonic Morphing Vehicles[J]. Aerospace Science and Technology, 2023, 142: 108633.

[9] 杨庶, 钱云霄, 杨婷. 高超声速飞行器线性变参数一体化式控制律设计[J]. 上海交通大学学报, 2022, 56(11): 1427-1437.

Yang Shu, Qian Yunxiao, Yang Ting. Linear Parameter-Varying Integrated Control Law Design for a Hypersonic Vehicle[J]. Journal of Shanghai Jiao Tong University, 2022, 56(11): 1427-1437.(in Chinese)

[10] 路遥, 刘晓东, 路坤锋. 一种非仿射高超声速飞行器姿态系统控制方法[J]. 宇航学报, 2021, 42(1): 132-140.

Lu Yao, Liu Xiaodong, Lu Kunfeng. An Attitude Control Method for Non-Affine Hypersonic Flight Vehicles[J]. Journal of Astronautics, 2021, 42(1): 132-140.(in Chinese)

[11] Sagliano M, Mooij E, Theil S. Adaptive Disturbance-Based High-Order Sliding-Mode Control for Hypersonic-Entry Vehicles[J]. Journal of Guidance, Control, and Dynamics, 2017, 40(3): 521-536.

[12] Ren J R, Hang B, Sang M H, et al. Nonlinearity Compensation Based Robust Tracking Control of Nonlinear Nonminimum Phase Hypersonic Flight Vehicles[J]. ISA Transactions, 2022, 131: 236-245.

[13] 王冠, 夏红伟. 一种基于学习的高超声速飞行器智能控制方法[J]. 宇航学报, 2023, 44(2): 233-242.

Wang Guan, Xia Hongwei. A Learning-Based Intelligent Control Method for Hypersonic Flight Vehicle[J]. Journal of Astronautics, 2023, 44(2): 233-242.(in Chinese)

[14] 魏毅寅, 郝明瑞, 范宇. 人工智能技术在宽域飞行器控制中的应用[J]. 宇航学报, 2023, 44(4): 530-537.

Wei Yiyin, Hao Mingrui, Fan Yu. The Application of Artificial Intelligence Technology in Wide-Field Vehicle Control[J]. Journal of Astronautics, 2023, 44(4): 530-537.(in Chinese)

[15] Zhao S W, Wang J C, Xu H T, et al. Composite Observer-Based Optimal Attitude-Tracking Control with Reinforcement Learning for Hypersonic Vehicles[J]. IEEE Transactions on Cybernetics, 2023, 53(2): 913-926.

[16] Wang Z, Wu T Y, Zhu Z X, et al. Reinforcement Learning–Based Adaptive Attitude Control Method for a Class of Hypersonic Flight Vehicles Subject to Nonaffine Structure and Unmatched Disturbances[J]. Journal of Aerospace Engineering, 2024, 37(2): 04024003.

[17] Hussein A, Elyan E, Gaber M M, et al. Deep Reward Shaping from Demonstrations[C]∥International Joint Conference on Neural Networks (IJCNN), 2017: 510-517.

[18] Hester T, Vecerik M, Pietquin O, et al. Deep Q-Learning from Demonstrations[C]∥ AAAI Conference on Artificial Intelligence, 2018.

[19] etin E, Barrado C, Pastor E. Countering a Drone in a 3D Space: Analyzing Deep Reinforcement Learning Methods[J]. Sensors, 2022, 22(22): 8863.

[20] 孙丹, 高东, 郑建华, 等. 示教知识辅助的无人机强化学习控制算法[J]. 北京航空航天大学学报, 2023, 49(6): 1424-1433.

Sun Dan, Gao Dong, Zheng Jianhua, et al. UAV Reinforcement Learning Control Algorithm with Demonstrations[J]. Journal of Beijing University of Aeronautics and Astronautics, 2023, 49(6): 1424-1433.(in Chinese)

Intelligent Attitude Control of Hypersonic Vehicle Based on

DDQN and Deep Q-Learning from Demonstrations

Liu Jingwen1, Cai Guangbin1*, Fan Yonghua2, Fan Hongdong1, Wu Tong1, Shang Yiming1

(1. College of Missile Engineering, Rocket Force University of Engineering, Xi’an 710025, China;

2. School of Astronautics, Northwestern Polytechnic University, Xi’an 710072, China)

Abstract:" In order to improve the speed and accuracy of solving the attitude control problem of hypersonic vehicle, an intelligent attitude control method of hypersonic vehicle based on demonstration learning is proposed. Firstly, the control model of hypersonic vehicle is established, and the appropriate action is selected as the attitude control output. Secondly, an algorithm based on

DDQN (Double Deep Q-Network)

and DQfD (Deep Q-learning from Demonstrations)

is designed, which divides the training of agents into two stages: pre-training and formal training. In the pre-training stage, the agent extracts small batch data from the demonstration data, and applies four loss functions to update the neural network. In the formal training phase, samples are taken from the data generated by its own training and demonstration data, and the proportion of two types of data in each small batch is controlled through priority experience replay buffer. Learning through interaction with the environment, so that the hypersonic vehicle can adaptively adjust its attitude according to changes in the flight environment. The simulation results show that the reinforcement learning method based on demonstration data can track control command, realize the attitude control of hypersonic vehicle, and improve the performance of neural network in the early stage of training, with a higher average reward.

Key words:" hypersonic vehicle; attitude control; reinforcement learning; learning from demonstrations; DDQN

猜你喜欢
强化学习姿态控制
风扰动下空投型AUV的飞行姿态控制研究
多星发射上面级主动抗扰姿态控制技术研究
自动化学报(2018年2期)2018-04-12 05:46:05
智能车自主避障路径规划研究综述
软件导刊(2017年10期)2017-11-02 11:22:44
一种记忆可修剪型仿生机器人的速度跟踪算法研究
基于强化学习的在线订单配送时隙运能分配
论“以读促写”在初中英语写作教学中的应用
智能交通车流自动导引系统
大经贸(2017年5期)2017-06-19 20:06:37
分布式系统中基于非合作博弈的调度算法
基于UC/OS-II四旋翼姿态控制系统设计
弹射座椅不利姿态控制规律设计