基于MA2IDDPG算法的异构多无人机协同突防方法

2022-08-05 10:08:10李艳斌杜宇峰刘东辉

河北工业科技 2022年4期

畅鑫，李艳斌，赵研，杜宇峰,2，刘东辉

(1.中国电子科技集团公司第五十四研究所，河北石家庄 050081;2.河北省电磁频谱认知与管控重点实验室，河北石家庄 050081;3.石家庄铁道大学经济管理学院，河北石家庄 050043)

异构无人机突防是指挥控制决策体系博弈中的重要策略组成部分[1-5]。在指挥控制博弈中，功能不同的无人机将依据突防任务安排编组为异构多无人机群。异构多无人机如何智能化地产生博弈策略，对于提高指挥控制体系博弈具有关键作用[6]。因此，异构多无人机智能化协同突防方法的研究对于指挥控制决策领域具有重要的研究意义。

当前，国内外协同突防博弈策略产生和优化问题可以分为自动化、自适应化和智能化3个阶段。基于判断逻辑手段实现系统自动化，能够按照预设任务等信息，不考虑与环境的交互，静态的实现任务。基于专家经验知识，考虑环境变化的影响，人工梳理和构建完成任务需求的目标函数和约束函数，实现动态自适应化的系统，如国内外研究中的经典算法包括动态规划方法、最速下降法、牛顿法、共轭梯度法、拟牛顿法、信赖域方法、最小二乘法和最优控制法等。上述方法存在共同的缺点，面对不同任务，需要分别人工提炼任务目标函数和约束函数，且通常要求目标函数连续可导。为了解决该问题，引入启发式寻优等方法改进，使得突防效果提升。但是该思路依然需要人工构建目标函数和约束函数，且多目标优化问题始终是元启发算法的重难点问题，如多目标进化计算。为了提高自动化程度，并且降低人工参与对于系统性能的影响，终极目标是通过机器学习等智能手段，构建通用框架,从环境中提取特征，并且随着在环境中不断地探索和学习，从博弈状态中提取特征，并迭代出最优或者多个次优策略，不断提升任务达成效果。在当前国内外无人机协同突防的研究中，强化学习在博弈策略的智能化产生问题上具有良好表现。

强化学习可以分为值函数方法和策略梯度方法。Q-learning方法是值函数方法中最具代表性的方法[7]。该算法的特点在于基于“状态-动作”配对的价值选择最优动作，具有鲁棒性强、收敛速度快等特点，广泛应用于无人机自动控制领域。但是，由于需要通过查表的方式进行策略训练，在高维状态空间中存在维度爆炸的问题。针对这一问题，深度Q网络(deep Q network，DQN)算法结合深度学习和Q-learning，利用深度神经网络对状态空间的特征提取能力，将Q表保存在神经网络中，解决了维度爆炸的问题。除此之外，依据经验的重要性对重放次数进行加权，提高学习效率。进一步通过算法引入优势函数等数学模型，改进传统DQN的神经网络结构，提出了多种不同神经网络结构的改进DQN算法，如Dueling DQN，Noisy DQN，Distributed DQN，Rainbow等算法[8]。除此之外，在多智能体强化学习领域中也出现了Independent Q-Learning，Value-Decomposition Networks，QMIX等优秀的值函数强化学习算法。基于值函数的深度强化学习的最大缺点表现在对于连续动作空间的处理。基于值函数的深度强化学习的本质是采用深度学习的分类网络，使用离散的动作空间。在连续的动作空间中，需要对动作空间进行采样，将会导致动作空间爆炸的问题。对此，以Actor-Critic算法为代表的策略梯度方法在连续控制问题上表现出了巨大优势。Actor-Critic算法分别构建用于连续动作选择和时域离散估计价值神经网络，将值函数和策略梯度方法相结合，解决了连续动作空间的决策问题。Advantage Actor-Critic算法引入了基线提高算法的性能。Asynchronous Advantage Actor-Critic提出了多线程并行训练框架，有效地解决了强化学习在环境中交互经验利用效率低的问题。为了进一步解决AC算法收敛难的问题，利用DQN算法的经验回放和双网络估值的思路，提出了深度确定性策略梯度(deep deterministic policy gradient，DDPG)方法[9-11]。DDPG方法与MADDPG方法广泛应用于无人机追击、路径寻优、围捕等问题，在自动控制领域表现出了巨大的生命力[12-17]。在上述指挥控制问题中，深度强化学习的落地关键在于提高数据的利用率。除此之外，奖赏函数的设计也将影响智能水平。如果奖赏函数描述的过于微观，将导致智能体的探索受限，而奖赏函数描述的过于宏观，智能体将陷入局部最优。

为了智能化产生异构多无人机协同突防策略，提出多智能体异步模仿深度确定性策略梯度算法(multi-agent asynchronous imitative deep deterministic policy gradient,MA2IDDPG)的异构多无人机协同突防方法，后文中简称MA2IDDPG方法。围绕方法创新，构建异构多无人机协同突防策略优化和生成优化框架，实现智能突防。本文的关键贡献和主要创新在于：首先，面对异构多无人机协同突防策略生成和优化问题，采用异步并行框架改进DDPG算法，提高协同突防经验数据的收集效率；然后，构建共享经验池，增加经验数据的多样性，提高异构多无人机智能体的学习效率；其次，构建基于专家经验知识的牵引性奖赏函数和基于异构无人机任务结果的描述性奖赏函数，分阶段使用两种奖赏函数对异构无人机智能体进行训练，使得异构多无人机智能体在快速达到专家知识水平后，进一步提高智能水平，最后，在详述算法原理的基础上，给出了算法流程。在异构无人机协同突防环境下，从任务达成度的角度对改进算法进行了对比验证。实验结果表明，改进算法能够有效产生异构多无人机协同突防策略。

1 异构多无人机协同突防问题描述与建模

1.1 博弈环境

多无人机协同突防博弈环境的特点在于无人机具有异构性，即为了贴近实战，博弈环境中实体的功能各不相同。除此之外，被突防方非静止，同样具有智能水平，以此充实样本的多样性。在突防方和被突防方相互动态博弈的过程中，不断提高智能水平。

在图1所示的博弈环境中，红方作为防守方，通过红方拦截智能体拦截蓝方攻击智能体，达到保护红方基地的目标。而蓝方作为突防方，通过蓝方拦截智能体和蓝方攻击智能体的相互配合，达到突防攻击红方基地的目标。

图1 博弈环境Fig.1 Game environment

通过分析场景可知，智能体之间通过不断与博弈环境进行交互形成动态博弈，提升异构多无人机系统突防的智能水平，故适合采用深度强化学习方法产生博弈策略。

1.2 马尔可夫决策过程模型

采用深度强化学习的前提是需要将博弈环境梳理为马尔可夫决策过程。抽象要素为智能体位置信息组成的状态空间，与引起状态转移的动作空间和博弈过程得到奖励。智能体通过基于状态选择动作，然后与博弈环境交互进行博弈训练。

状态st可以表示为

st=[x1,y1,x2,y2,x3,y3,x4,y4]，

(1)

式中：st∈S，S是状态空间；x为智能体的横坐标；y为智能体的纵坐标；1代表基地坐标；2代表红方拦截智能体；3代表蓝方攻击智能体；4代表蓝方拦截智能体。

动作a可以表示为

a=[ax,ay]，

(2)

式中：a∈A，A是状态空间；ax和ay分别为智能体沿横坐标和纵坐标的动作，取值范围为[-amax,amax]，amax表示最大速度。

2 基于MA2IDDPG算法的异构多无人机协同突防方法原理

2.1 异步并行框架与共享经验池

MA2IDDPG方法框架如图2所示，其核心是通过联合奖赏产生多智能体的协同策略。博弈场景由博弈环境和多个DDPG算法框架组成。借鉴迁移学习和课程学习的理念，博弈场景分为2个类型，分别为牵引性训练场景和描述性迁移场景。首先，多智能体在基于经验知识的牵引性训练场景中进行自博弈[18]，产生牵引性联合经验存入共享经验池，通过批经验更新生成策略；然后，进一步在描述性训练场景中进行探索，生成超越经验知识的博弈策略；最后，通过与典型规则进行对战，针对性训练智能体，使其产生针对性的博弈策略。

图2 算法框架Fig.2 Algorithm framework

2.2 奖赏函数设计

奖赏函数的设计分为基于专家经验知识的牵引性设计方法和基于任务结果的描述性设计方法，分别对应牵引性奖赏函数和描述性奖赏函数。

对于抽象后的博弈环境而言，红方拦截智能体的任务是拦截蓝方攻击智能体对重要目标的进攻。从博弈过程角度分析，可知红方拦截智能体越靠近蓝方攻击智能体，则有效拦截蓝方攻击智能体的效果越好。定义红方拦截智能体与蓝方攻击智能体的距离d1为

(3)

故利用红方拦截智能体与蓝方攻击智能体位置的距离，得到牵引性奖励函数r1，表示红方拦截智能体在当前状态下选取动作所获得的反馈值:

(4)

同理，蓝方拦截智能体越靠近红方拦截智能体，则有效拦截红方攻击智能体的效果越好。定义红方拦截智能体与蓝方拦截智能体的距离d2为

(5)

利用蓝方拦截智能体与红方拦截智能体位置的距离，得到牵引性奖励函数r2，表示蓝方拦截智能体在当前状态下选取动作所获得的反馈值：

(6)

同理，红方攻击智能体越靠近蓝方重点目标，则攻击效果越好。定义蓝方攻击智能体与红方基地的距离d3为

(7)

利用蓝方攻击智能体与红方基地位置的距离，得到牵引性奖励函数r3，表示蓝方攻击智能体在当前状态下选取动作所获得的反馈值：

(8)

利用牵引性奖赏函数能够使得智能体经过少量训练能快速达到基于专家知识的自动化水平。为了智能体能够通过不断训练达到超过专家知识的智能化水平，本算法首先利用迁移性奖赏函数达到基于专家知识的自动化水平，然后设置描述性奖赏函数，取消专家经验知识对智能体的限制，使得智能体能够以专家经验知识为基础，进一步探索获得更优的博弈策略，从而不断提高博弈效果。

描述性奖赏函数直接将博弈取胜的结果通过公式化表述为奖赏。

(9)

(10)

式中ε为判定距离。

在没有得到结果的回合中，为了促进智能的探索，每个回合奖赏都为-1。

描述性奖励除可以用于训练智能体外，也将用于评估智能体的对战胜率。

2.3 智能体算法模型

在博弈系统中的智能单体使用DDPG算法框架[19]，为蓝方在突防过程中不断提供多样化的经验，促进智能体的智能水平。

DDPG算法的神经网络结构包含策略神经网络Actor和值函数神经网络Critic。Actor拟合策略函数μ，完成状态st到动作a的映射。除此之外，将动作和随机噪声相叠加，能够提高智能体对于未知动作和状态的探索概率。

a=μ(st)。

(11)

Critic拟合价值函数，输入状态s到动作a，拟合价值Q。Actor采用策略梯度下降法更新神经网络参数θ：

(12)

Critic采用均方误差损失函数更新神经网络参数ω：

ri-Q(si,ai|ω)]2，

(13)

式中：γ为奖励折扣；μ′为目标策略神经网络Actor，μ′的参数权重为θ′；Q′为目标值函数神经网络Critic，Q′的参数权重为ω′。

为了提高学习的稳定性，对神经网络参数进行软更新。

(14)

式中τ为软更新比例系数。

2.4 规则算法模型

规则算法针对特定任务设置，用于验证MA2IDDPG算法的性能和效果。在智能体完成牵引性训练场景和描述性迁移场景泛化训练后，基于迁移学习的理念，针对特定任务进行特异性任务的训练，使得智能体能够更有针对性的产生博弈策略。具体到本博弈场景中的红方规则算法可以描述为

(15)

式中mod表示取余。

2.5 算法模型训练流程

算法训练流程具体分为3个阶段。其中前2个阶段为训练阶段，包含牵引性训练和描述性训练，最后1个阶段为评估阶段。

第1阶段为牵引性训练。利用牵引性奖赏对红蓝方智能体进行牵引训练，以专家经验初始化神经网络参数收敛趋势，且不进行胜率评估。第2阶段为描述性训练，利用描述性奖赏使得红蓝方智能体进行自博弈，使得神经网络关联长时间跨度下的状态、动作和奖赏，进一步泛化神经网络拟合得到的策略。第3阶段为评估阶段，将完成训练后的蓝方多智能体与红方规则算法在同场景下进行博弈，评估智能体训练效果。

3 实验结果与分析

3.1 参数配置和实验步骤

本文实验博弈场景中，红蓝方实体数量为4个，包括红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体。

实验训练阶段：设置1 000轮博弈训练，每轮博弈回合数为1 000步。其中牵引性训练500轮，描述性训练500轮。评估阶段设置100轮博弈。

在牵引性训练阶段中，红方拦截智能体采用DDPG算法，由蓝方拦截智能体和蓝方攻击智能体构成的蓝方异构多无人机群采用MA2IDDPG算法，采用牵引性奖赏函数进行训练；在描述性训练阶段，红方拦截智能体采用DDPG算法，由蓝方拦截智能体和蓝方攻击智能体构成的蓝方异构多无人机群采用MA2IDDPG方法，用描述性奖赏函数进行训练；在评估阶段，红方拦截智能体采用规则算法模型，由蓝方拦截智能体和蓝方攻击智能体构成的蓝方异构多无人机群采用MA2IDDPG算法。

在仿真实验中，通过本文提出的MA2IDDPG方法与典型DDPG方法进行对比，表明本文提出算法的创新性。

神经网络模型架构参数配置如表1所示。

表1 神经网络模型架构参数配置

训练参数配置如表2所示。

表2 训练参数配置

3.2 实验结果与讨论

在1 000轮博弈训练过程中，本文方法和DDPG方法的累计回报奖赏如图3所示。由图3可知，在算法训练的过程中，回报奖赏不断提高。MA2IDDPG方法相比于DDPG方法，累计回报奖赏增长更为稳定。

图3 回报奖赏Fig.3 Reward

在博弈评估下，描述性训练500轮如图4所示。描述性训练500轮的自博弈过程中，MA2IDDPG方法胜率最终达到76%，而DDPG方法胜率达到58%。可见MA2IDDPG方法在描述性训练阶段的表现优于DDPG方法。

图4 训练胜率Fig.4 Training win rate

在评估阶段中，采用2.4节中的规则方法，对DDPG方法和MA2IDDPG方法进行对比验证。评估回报奖赏如图5所示。

图5 评估胜率Fig.5 Evaluated win rate

通过分析图5可知，经过训练后，MA2IDDPG方法和经典DDPG方法评估胜率一致，表明均能够有效战胜基于规则算法的红方。但是结合训练实验结果表明，MA2IDDPG算法不但能够有效产生博弈对抗策略，而且在训练阶段的稳定性和效果上均优于经典DDPG方法。

图6 典型博弈过程Fig.6 Typical game process

在整个博弈过程中，典型博弈过程如图6所示。通过分析可知，在场景给定的奖赏趋势下，蓝方拦截智能体趋向于对蓝方拦截智能体进行保护，即通过对于蓝方攻击智能体策略拟合，形成联合策略，在保护蓝方攻击智能体的过程中，对红方攻击智能体进行拦截，从而达成对于蓝方基地的进攻。

4 结语

为了能够智能化产生超过基于专家经验知识的异构多无人机协同突防策略，基于MA2IDDPG算法提出了异构多无人机协同突防方法。

首先，基于经典DDPG方法框架，通过采用异步并行的方法对其进行改进，得到了MA2IDDPG方法框架，能有效提高经验数据的收集效率。然后，构建共享经验池，将不同奖赏下获得的经验同时存储，增加经验数据的多样性。其次，为了解决用于神经网络训练的优质样本问题，构建基于专家经验知识的牵引性奖赏函数。在牵引性奖赏函数的反馈下，异构多无人机能够快速生成达到领域专家水平的策略。再次，为了解决异构无人机智能迁移性的问题，构建基于博弈结果的描述性奖赏函数。最后，借鉴迁移学习和课程学习的理念，分别采用牵引性奖赏和描述性奖赏，将训练阶段分成为牵引性训练阶段和描述性训练阶段，分阶段对神经网络进行训练，使得神经网络能够在快速达到专家知识水平后，进一步提高产生的策略水平。在仿真实验中，构建了异构多无人机协同突防环境，将MA2IDDPG方法与典型DDPG方法进行了对比验证。实验结果表明，MA2IDDPG方法在训练过程中更稳定，对抗效果更优。

研究受限于场景的逼真度，将在后续研究中进一步考虑拦截概率对多智能体策略的影响。当前研究的关键在于深度神经网络的可解释性，当前改善多从超参数调整和神经网络结构调整等外因方面入手，需要深入研究深度神经网络的解释性，从而实现对算力、训练时间和对抗效果之间的预测。