基于任务评估反馈的异构无人机动态任务分配

2024-02-22 00:00:00张友安何子琦李博宸宋磊

航空兵器 2024年6期

摘要：""""" 异构无人机在动态战场环境下的任务分配是实现无人机快速战斗力生成的关键技术之一。针对现有异构无人机的任务分配方法难以响应战场不确定性带来的任务需求变化和潜在的求解可行性问题，提出一种基于任务评估反馈的动态任务分配方法。通过设计任务评估反馈模块实现对无人机任务执行效能的实时监控，并利用事件触发机制响应动态环境中变化的任务需求，基于深度Q网络实现异构无人机分配，利用任务分配和执行解耦以及动作过滤机制缓解传统强化学习稀疏奖励导致训练难以收敛的问题，形成动态快速的任务实时响应方案。仿真结果表明，提出方法可有效应对不确定战场环境带来的任务失效，最终实现比现有方法更优的任务完成率。

关键词："""" 无人机；任务分配；战场不确定性；任务评估；稀疏奖励；深度Q网络；强化学习

中图分类号：""""" TJ760.1； V43

文献标识码：""" A

文章编号："""" 1673-5048（2024）06-0078-08

DOI： 10.12132/ISSN.1673-5048.2024.0027

0 引" 言

无人机因其功能种类丰富，适用场景广泛，控制自由度高等特性，在未来军事领域的应用中被各国政府寄予厚望^［1-3^］。当前，搭载各类载荷、机动能力不一的多型异构无人机已列装或具备大规模使用条件，异构无人机的作战运用已成为亟待解决的热点问题。以任务为牵引，组建符合任务需求的无人编组，从而快速形成战斗力施用于实际战场环境，是解决无人机应用的关键技术之一。通过匹配无人机能力属性与任务需求，实现对无人机的任务分配，是组建无人编组的可行技术路线^［4-6^］。与常规商业用途不同，战场环境更加复杂多变，突发事件以及天气等不可控因素更多，给无人编组的实际任务收益带来了较大的不确定性^［7-8^］。因此针对战场环境下的异构无人机任务分配问题，不仅要求给出满足任务需求的任务分配方案，同时需要能够根据战场态势的变化以及已分配任务执行状态的反馈，及时对分配方案进行调整，以保证无人编组能够顺利实现预定的作战目标。

针对无人编组的任务分配问题，较为传统的方法大多基于优化算法以及智能搜索算法进行求解。文献［9］针对传统目标优化算法难以解决混合变量和多个复杂约束的问题，提出了一种基于拐点的协同多目标粒子群优化算法。文献［10］考虑不确定性因素对任务分配结果的影响，基于模糊可信性理论提出了一种模糊机会约束规划模型，并采用自适应参数调整策略等多种方法对模型进行了优化，使得模型在不确定性环境下的表现有所提升。文献［11］提出一种基于合同网的分布式多无人机任务分配方法，解决了通信约束下的异构无人机察打任务分配问题。上述传统的优化算法，大多未考虑任务执行过程的不确定性，或者在处理环境不确定性时引入人为的主观因素，难以实现战场环境下的动态任务调度。在动态战场环境下，传统的优化方法在资源能力和复杂环境不确定性的双重影响下，容易出现实时求解不可行的问题。

近年来，深度强化学习技术的不断发展为动态不确定环境下的任务分配问题求解提供了新的解决思路。文献［12］将任务分配问题建模为马尔可夫决策过程，提出了一种基于强化学习的任务分配方法，能够在考虑环境不确定性的情况下进行任务分配，与搜索优化算法相比取得了更优的求解效率。文献［13］针对集群在线任务分配存在的环境不确定、耗时过长等问题提出了一种基于分区间强化学习的快速任务分配算法。与传统优化算法相比，上述方法在解决不确定性问题方面具有一定的优势，然而仍局限于静态问题，通常假设在任务分配开始前就已经获得所有任务的全部信息，任务执行过程的实际状态并未得到充分考虑。在战场对抗环境中，实际任务需求往往难以获得精确估计。如击毁某目标建筑物所需自杀式无人机数目通常难以预知，需要根据任务执行过程进行无人机动态调度和编组调整。上述静态任务分配缺乏对于任务执行过程中突发事件的响应能力，而利用多智能体强化学习进行任务需求到无人机动作的端到端生成往往存在稀疏奖励的问题，导致训练难以收敛^［14^］。针对以上问题，基于分层解耦的方法可实现动态环境下的有效任务响应^［15-16^］。如文献［17］提出了一种根据任务执行效能反馈对任务进行优化再分配的架构，在具有较强外部扰动环境下，实现了弹性任务分配。

为了实现任务动态响应，同时缓解强化学习训练过程存在的稀疏奖励问题，本文提出了一种具有分层反馈结构的任务分配框架，通过任务评估模块构建任务执行到任务分配的反馈机制，根据实际任务效果动态调整任务分配结果，从而应对实际战场环境带来的不确定性。基于深度Q网络求解任务分配问题，利用任务评估模块实时反馈当前时步任务信息，以缓解仅考虑任务完成结果导致的稀疏奖励，并设计动作过滤机制提升训练的收敛速率。当任务执行受阻时，该框架可根据任务执行反馈的数据重新评估任务需求，并更新任务分配方案，直至总体目标达成。相比于文献［9-13］，本文提出方法的优势可总结如下：

（1）" 通过任务执行反馈信息及时对无人编组构成进行调整，充分考虑了环境不确定性对任务分配结果的影响，实现对战场态势的快速动态响应，同时避免了传统优化方法存在的求解可行性问题。

（2）" 采用计算解耦的思想，缓解了强化学习算法中稀疏奖励导致训练难收敛的问题，在深度Q网络的基础上，引入了动作过滤机制，提升了模型的训练速度和训练效果。

1 无人编组动态任务分配模型

本文主要考虑战场不确定性环境下的无人编组任务分配问题，即在给定异构无人机能力情况和初始任务部分信息的条件下，生成任务分配方案从而组建无人编组执行指定任务，同时能够根据无人编组的任务执行效果动态调整任务分配方案以满足实际任务需求。其中任务分配指根据已知信息按照优先级顺序为每个任务构建无人编组，使得任务能够完成且执行成本最低。由于在任务开始前，难以获得关于任务的完整信息，且环境条件使得无人编组实际执行效能具有不确定性，因此需要在任务执行过程中，通过任务执行评估模块根据执行状况对前期估计的任务需求进行调整，并适时调整分配方案以动态应对未知或突发状况。

1.1 任务分配

假设共有Nk种类型的无人机可供调用，设i种类型的无人机可供调用的数量为Nui。不同类型的无人机具有不同的若干种能力属性，如隐身能力、侦察能力等。设Nk种类型的无人机共有Nc种能力，由矩阵 Fu∈瘙綆^Nk×Nc表示。其中Fuij 表示第i种类型的无人机第j种能力属性的大小。假设无人机的能力属性受到天气等环境因素的影响。给定任务周边环境条件Env（Tk）下，第j种能力属性的实际效能服从高斯分布N（μjk， σjk），其中μjk， σjk为给定的经验值。

设当前战场上有Nt个需要监视、攻击或驱赶的目标，因此需要对每个目标执行特定战术任务。设任务间不存在相互依赖，每个任务Tm需要由一组具有相应能力的无人机协作完成，如完成近距离侦察任务的一组无人机需要具备隐身、侦察和信息传输的能力。完成任务所需的能力使用任务能力需求矩阵Ft∈瘙綆^Nt×Nc表示。当分配的一组无人机能够提供任务所要求的全部能力时，认为该任务能够顺利执行。考虑资源有限条件下，可能存在有任务无法被立即完成的情况，因此根据任务紧迫性与重要程度，对任务优先级进行评估，优先确保重要任务能够完成。设任务集合T表示当前战场中存在的所有作战任务，则T={T1， T2， …， TNt}，其中下标表示该任务的优先级。

任务分配问题，即为每个任务Tm分配一组满足约束的无人机，使得任务能够完成且执行成本最低。由此，构建任务m的代价函数：

Rm（dm， δ+m）=－wmdm+dm∑Ncj=1δ+m， j （1）

代价函数由任务完成情况和资源冗余两部分组成。式中： wm表示任务m的优先级权重； dm为0， 1变量，表示任务m是否满足其全部能力需求； δ+m， j表示任务m中能力j超出需求的程度。考虑任务需求与环境因素影响，建立任务分配的混合整数线性规划问题模型：

mina， δ+m， j， δ－m， j， b， dJ=∑Ntm=1Rm（dm， δ+m）

s.t.

am，－fa（Fu|Env（Tm））－， j=Ftm， j+δ+m， j－δ－m， j

am，－fa（Fu|Env（Tm））－Ftm， j≥－M（1－bm， j）

bm，－C－， m≥－M（1－dm）

a－， j1≤Nui

δ+m， j≥0， δ－m， j≥0， j∈{1， …， Nk}

ami∈

i∈{1， …， Nk}，

j∈{1， …， Nc}， m∈{1， …， Nt}" （2）

式中： a∈^t×Nk表示任务分配结果矩阵， am，－表示矩阵的第m行，即任务m的分配结果； δ－m， j表示任务m的能力j不满足需求的程度； bm， j为0， 1变量，若任务m的能力j满足约束要求，则bm， j=1，" 未被满足则为0。 fa（Fu|Env（Tm））表示无人机在任务地点附近环境条件Env（Tm）下实际具备的能力； M为无限大正数， 1为全1向量。 C∈^Nt为任务能力特征矩阵：

C－， m=（Ft）T·diag1vm－， m（3）

式中： vm为（Ft）T第m列的元素之和，即矩阵C的每一列元素之和为1。

在上述模型中，优化目标为尽可能使优先级较高的任务需求得到满足，并减少资源冗余。式（2）中第一条约束中松弛量δ+m， j， δ－m， j分别表示任务m所需能力j冗余和未被满足的部分，通过在目标函数中极小化分配成功的任务的能力冗余量实现资源的合理分配。式（2）中第二条约束通过引入变量bm， j对任务中单项能力是否满足进行标记。约束3通过任务能力特征矩阵C判断该任务所需能力是否得到满足，并通过变量dm表示，通过在目标函数中对dm进行加权，使得优先级较高的任务需求能够优先被满足。约束4保证分配方案具有可行性。

1.2 任务评估反馈

考虑在战场不确定性环境中，通常难以在任务开始前获得关于任务的全部准确信息，因此为了能够顺利完成任务，以及应对执行过程中的突发状况，需要通过任务执行状态对预先估计的任务需求进行不断调整。

假设所有参与任务的无人机都能够与指控中心通信。在任务开始前根据已知情报，评估各任务需求并给出Ft。设无人机系统理论状态满足：

x·sim=f（xsim）+g（xsim）u（4）

式中： xsim为无人机理论状态； u为无人机控制输入。考虑到突发的恶劣天气以及对方阵地未知的对空防御力量等状况可能会导致无人机偏离预定理论轨迹，无人机任务实际执行状态定义为xact，并与任务实际情况Tr有关：

xact=J（xsim， u， Tr）（5）

式中： Tr为未知常量。状态评估反馈问题可表述为，给出无人机实际执行状态，通过评估函数更新任务估计需求Te：

Te←E（xsim， xact， Te）（6）

使得Te逐渐接近任务真实情况Tr。

2 基于分层反馈的任务分配问题求解

针对上述问题，本文提出了一个基于分层反馈结构的任务规划框架，" 如图1所示。"" 任务分配算法基于DQN（Deep Q-Learning Network），并利用任务执行效能形成反馈机制。任务评估模块通过接受执行层反馈的无人机状态数据，对当前任务的状态进行评估，当预期执行结果与实际执行结果出现偏差时，重新估计任务实际能力需求，同时对任务分配约束进行修正并重新分配。 2.1 任务分配算法

2.1.1 强化学习方法与基本要素

强化学习方法通过智能体与环境的不断交互，对策略进行不断优化，通常使用马尔可夫决策过程（MDP）对其进行描述。 MDP可由五元组{S， A， P， R， γ}进行表示，其中S表示状态空间， A表示动作空间， P表示状态转移概率， R表示智能体在状态s下采取动作a获得的瞬时奖励， γ表示折扣因子，用于计算累计回报。在MDP中，智能体观察环境状态s并根据策略π选择动作a，环境按照转移概率过渡到下一状态s′，并给出奖励R。

在深度强化学习算法中， DQN是一类较为常见的算法。 DQN算法使用深度网络对状态动作价值函数Q（s， a）进行估计，训练完成后利用Q（s， a）实现决策；通常使用经验回放和target网络更新其网络参数，其模型参数θ的更新方法如下：

θ←θ+α［R+γmaxa′Q（s′， a′; θ－）－

Q（s， a; θ）］Q（s， a; θ）（7）

式中： α为学习率；（s， a）为当前状态动作对；（s′， a′）为下一时刻的状态动作对； θ－为target网络的参数。

2.1.2 任务分配问题的马尔可夫决策过程

将1.1节中所述的任务分配问题建模为MDP，其中各元素定义如下：

（1）状态空间：状态空间表示了当前任务分配的状况，针对任务分配问题，设计状态s为

sTm=［n1， …， nNk， F^Tm1， …， F^TmNf， Env（Tm）］（8）

式中： Tm表示当前正在进行分配的任务； ni表示第i种无人机当前可供分配的数量； F^Tmj表示任务Tm对于第j种能力的需求在当前分配状态下仍未被满足的部分； Env（Tm）表示任务所处的环境状态。

（2）动作空间：指控中心在一次动作中，选择一架无人机a并分配给任务Tm：

a∈A=［1， …， Nk］（9）

（3）奖励函数：奖励函数是智能体进行学习的重要引导。考虑式（2）中提出的任务约束，根据约束满足的不同情况，给予该轮分配相应的奖励：

R=r1－k·w（αm，－， fa， FTm，－）， w≥0

r2·（Fua）Tsgn（FTm，－）， wlt;0" （10）

w（am，－， fa， FTm，－）=am，－fa（Fu|Env（Tm））－FTm，－am，－fa（Fu|Env（Tm））

式中： r1， r2， k为给定的常数，且r2lt;r1。 w（αi，－， Fa， FTi，－）表示当前能力与任务需求之间的相对关系，当前分配的无人编组能够提供的能力大于任务需求时，该值为正， w表示当前能力冗余的比例；若当前分配的无人编组能够提供的能力小于任务需求，该值表示能力欠缺的程度。上述奖励函数的含义为，当分配结果能够满足任务需求时，即任务分配完成时，给予一个较大的奖励，且奖励数值与冗余程度呈负相关；当任务分配尚未完成时，则计算当前动作在需求能力和冗余能力两个方向的增量并给予较小奖励。对于当前分配所能提供的能力值尚未满足任务需求的能力种类，称其为需求能力；冗余能力则指当前能力已经超过任务需求的能力种类。若当前动作对于任务的需求能力增加量大于冗余能力增加量时，给予微小奖励，否则给予微小惩罚。

（4）状态转移：经过一次分配动作后，任务Tm被分配了一架a型号的无人机，相应的可供分配的a类型的无人机数量减少，同时任务需求相应减少：

na←na－1

［F^Tm1， …， F^TmNf］←［F^Tm1， …， F^TmNf］－

［0， …， 1， 0， …， 0］fa（Fu|Env（Tm））（11）

当i∈［1， Nc］， F^Tmi≤0时，本轮分配结束。

2.1.3 动作过滤机制

针对带有约束的优化问题，本文引入了一种动作过滤机制。通过该机制将全部动作空间中违反约束或在目标方向上增量为0的动作剔除，生成可行动作空间，进而加快Q网络的训练速度，同时，保证输出结果始终为可行解。

设计二进制掩码矩阵：

M=［m1， m2， …， mNk］， mi∈{0， 1}（12）

式中： mi=1表示在该轮迭代中， ai为可用动作，否则，表示动作ai违反约束或不可能获得奖励，为不可用动作。得到可行动作空间为

Aa={ai|mi=1}（13）

针对可用无人机数量的约束，构造掩码M1：

M1=kron1（［N1， …， NNk］－［n1， …， nnk］）（14）

式中： kronn为克罗内克脉冲函数，其定义为

kronn（x）=1， x=n0， x≠n （15）

进一步，也可以使用掩码去除与完成该项任务无关的无人机。构造掩码M2：

M2=H（Ftm，－Fu）（16）

式中： H（x）为单位阶跃函数。综合M1， M2得M：

mi=m1i*m2i （17）

2.1.4 基于DQN的任务分配算法

基于DQN算法，本文采用了全连接神经网络对Q函数进行拟合。在训练初期，智能体随机选择动作，并获得奖励，生成的动作记录进入经验池中用于后续的学习。为了提高网络训练的稳定性和收敛性， Q网络的参数按照固定时间间隔进行更新。同时为了提高经验池中具有较高经验价值数据的利用效率，采用优先经验回放的方式对经验池中的数据进行管理和采样。图2简要描述了本文所使用的Q网络的训练方法。

通过训练得到Q网络的一组权值后，基于Q函数给出的状态动作对价值，针对每一个状态s，选择当前状态

算法1： Q网络训练

输入：采样数量E，目标网络更新频率C，最大训练轮数M，学习率α等网络参数

输出： Q网络Q（·， w）

1.初始化经验回放池D

2使用随机权重初始化网络Q

3.生成与Q网络相同的target Q网络

4.当训练轮数小于M时：

5.初始化环境状态s

6.判断当前任务是否分配完成，若未完成：

7.计算可行动作空间Aa

8.若训练步数小于K：

9.在可行动作空间中随机选择动作a

10.否则：

11.在可行动作空间中选择Q值最大的动作

12.计算奖励值R并更新环境状态为s′

13.将动作记录（s， a， r， s′）存放至经验池中，并更新经验池

权重

14.从经验池中根据权重大小抽取E条数据

15.更新Q网络权值

16.每C步，将Q网络的参数同步至target Q网络

17.返回Q网络及其权重参数

下可行动作空间中价值最高的动作a。根据任务优先级由高至低为每个任务分配无人机，当任务约束条件满足，则判定该任务分配完成，开始为下一项任务分配无人机。直至所有任务约束条件满足，或所有无人机被分配完毕。算法流程如图3所示。

算法2：基于DQN的任务分配算法

输入：算法1中训练得到的Q网络

输出：将无人机分配至任务集合T的一组分配方案a

1.根据任务T1初始化状态s

2.当仍有无人机未分配且仍有任务尚未满足约束时：

3.根据当前状态s，计算所有动作的状态动作价值函数Q（s， a， w）

4.根据当前状态s，计算掩码M，以及可行动作空间Aa

5.从可行动作空间Aa中选择Q值最高的动作

6.若当前任务未分配完毕：

则根据状态转移规则更新当前状态

7.否则：

根据下一项任务初始化状态s

8.返回当前状态，即任务分配结果

2.2 任务评估反馈

为了应对未知环境，本文在框架中建立了任务评估模块，并通过该模块建立任务执行与任务分配之间的反馈，通过观测无人机在实际任务过程中的表现，对预先估计的任务需求进行修正，进而调整无人机任务分配方案，从而实现对战场态势的动态响应。

设无人机在无外界干扰的情况下，始终按照给定控制量运动。基于此假设，可以通过测量无人机实际状态与预期状态之间的差异，来评估任务执行的程度。

设系统状态满足：

x·=f（x）+g（x）u（18）

则给定控制量u，系统理论状态为

xtsim=x^t^－1act+（f（x^t^－1act）+g（x^t^－1act）u）Δt（19）

然而，当无人机集群的能力不足以克服外界扰动完成任务时，则无人机无法完全按照给出的控制信号行进。如当无人机接近任务位置时，若当前能力无法突破对方防御，则无人机将难以按照预定计划继续推进。记此时无人机实际状态为xtact：

xtact=x^t^－1act+（f（x^t^－1act）+g（x^t^－1act）u）Δt+

D（x^t^－1act， Ftm，－， a）（20）

式中： D（x^t^－1act， Ftm，－， a）为环境扰动。记t时刻无人机的执行性能Pu为实际状态变化量在理论状态变化量方向的投影，即

Pu=projx·simx·act=

（f（x^t^－1act）+g（x^t^－1act）u）Δt－x^t^－1act·xtact－x^t^－1act·cosθ （21）

在此基础上，定义任务T的总体执行效能Pt为该任务编队中所有无人机执行性能的均值：

Pt=1Ntm∑Ntmi=1Pu（22）

当任务执行效能出现下降时，采集任务中所有无人机的实际运行状态xact，通过最小化误差平方和对实际任务需求Ftm，－进行估计并更新：

Ftm，－←argminFtm，－∑Ntmi=1（xtact－（x^t^－1act+（f（x^t^－1act）+

g（x^t^－1act）u）Δt+D（x^t^－1act， Ftm，－， a）））2（23）

当任务需求发生变化时，触发任务重分配机制，利用2.1.4节中所述基于DQN的任务分配算法重新生成分配方案。

3 仿真实验

3.1 仿真设定

设定仿真任务区域为10 km×10 km的正方形区域^［18^］，仿真步长为0.1 s。该区域内共有三个待执行任务，各任务实际所需的能力种类以及数值如表1所示。

表1中不同能力的量纲不同，能力1表示光电感知能力，能力数值取决于无人机的光电传感器感知范围；能力2表示雷达感知能力，能力数值取决于无人机的雷达感知范围；能力3表示电磁干扰能力，能力数值取决于无人机的电磁干扰的频段和功率大小；能力4表示火力打击能力，能力数值取决于无人机搭载的弹药数和弹药毁伤能力。任务1为侦察任务，任务2和任务3均为察打任务。其中，由于敌方在任务过程中突然增加防守兵力，任务3所需三种能力数值在t=4.5 s时均增加为25。假设初始时刻指控中心已知任务需要的能力种类但未知实际能力需求数值，设置任务所有能力数值初始估计为10，并在任务执行过程中不断对任务能力估计值进行修正。

初始时，所有无人机位于同一初始位置区域，共有4种，每种各15架无人机可供调用。各无人机具有的能力属性如表2所示。无人机类型主要取决于其具备的能力属性，如类型1无人机为搭载光电传感器和电磁干扰装置的侦察无人机，类型2无人机为搭载雷达的侦察无人机，类型3无人机为搭载光电传感器、电磁干扰装置和导弹的察打无人机，类型4无人机为搭载雷达和导弹的察打无人机。

各类能力属性，在不同天气状况下的实际表现出的能力与标称能力的比值近似服从均值为σwhe， j、方差为0.05的高斯分布，不同能力属性受不同天气情况的影响情况如表3所示。

派遣执行任务的无人机在接到分配指令后从初始位置出发前往任务地点执行任务。设无人机的最大速度为100 m/s，当到达任务点的无人机能力总和达到任务能力需求时，认为该任务能够顺利执行完毕。

3.2 任务分配算法训练结果

实验设定的超参数如表4所示。

根据表4所示参数，对含动作过滤机制和不含动作过滤机制的算法分别进行60 000轮训练，每200个回合计算一次单回合的平均奖励，训练过程中平均奖励的变化曲线如图4所示。

由上图可知，算法在约25 000回合后达到收敛。相比于无动作过滤机制的算法，有动作过滤机制的算法在训练过程中奖励收益更为平稳，平均值也更高。

3.3 算法性能分析

为了对本文所提出算法的性能进行分析，利用训练后得到的模型驱动无人机执行任务，测试场景设置与3.1节保持一致。所有无人机假设均从固定初始位置起飞，任务执行过程的关键时间节点截图如图5所示。

图5中L1、 L2、 L3和L4分别代表类型1、类型2、类型3和类型4的无人机，无人机轨迹颜色与其类型对应，蓝色圆形代表三个任务T1、 T2和T3。以无人机为圆心的圆表示其感知范围，与任务过程对应的三个任务的任务效能评估结果以及任务需求满足情况如图6～8所示。

由图5（a）可知， t=0.6 s时，三架1型无人机、一架2型无人机和两架4型无人机被分配给T1；一架2型无人机和两架4型无人机被分配给T2；两架1型无人机、" 一架3型无人机和两架4型无人机被分配给T3。此时的分配基于估计的任务需求而非实际的任务需求，因此在图6～8中，在初始阶段三个任务的实际需求都未被分配的无人机能力满足。图6（a）中， t=2.1 s时，分配给T1的无人编组受到环境影响导致估计的任务性能发生显著下降，此时算法对任务需求进行重估计，并对无人机进行重分配。由图5（b）可知，增加三架1型无人机、一架2型无人机和一架4型无人机执行任务T1。图6（b）中， t=2.2 s时，新增的无人机形成的新的无人编组已经达到任务T1的实际需求。图5（c）中，已到达T1任务位置的无人机感知范围无法完全覆盖目标区域，而在图5（d）中，后续分配的无人机具备更大的感知范围，整个无人机编组最终成功实现对目标区域的全覆盖。类似地，图7（a）中， t=2.9 s时，分配给T2的无人编组任务进程受阻，重分配后增加一架2型无人机和两架4型无人机执行T2。图7（b）中，负责任务T2的编组在t=3.2 s后能力已超过实际任务需求。因此，执行T2的无人编组满足任务需求，在图5（d）中，该编组发现目标且对目标形成了打击（无人机和目标距离小于弹药打击范围）。由图8（b）可知，除环境干扰导致的任务性能受阻外， t=4.5 s时，原有任务需求由10增长为25。尽管无人编组经过重分配在t=4.5 s之前已经满足了原有任务需求，但是由于需求的变化，无人编组的能力已不足以完成原有任务。图8（a）中，分配给T3的无人编组任务进程受阻，重分配后增加一架1型无人机、一架3型无人机和一架4型无人机执行T3，对应可视化界面见图5（d）。由图8（b）可知， t=6.3 s之后，新增的任务需求再次被满足，任务T3也可被顺利完成。当算法不具备反馈机制时，其任务执行情况如图9～11所示，在任务效能出现下降后由于未能及时调整分配做出响应，导致任务效能迅速下降，最终任务未能执行成功。

4 结" 论

针对动态战场环境下异构无人机的任务分配问题，在考虑任务执行过程和任务需求的不确定性的基础上，设计了一种基于任务评估反馈的异构无人机动态任务分配方法，利用全连接神经网络对Q函数进行拟合生成任务分配方案，并通过任务分配执行解耦设计避免稀疏奖励对训练过程收敛速度的影响。仿真实验结果表明，该方法能够较为有效地应对外界因素导致无人机执行任务效能下降的情况，通过反馈机制实现任务重分配，从而根据任务实际需求调整任务编成，最终实现较高的任务完成率。

本文的工作基于集中式任务分配与调度，对通信网络的依赖程度较高。当任务环境较为恶劣时，无人机与指控中心的通信稳定性往往难以保证，任务评估反馈的结果可能难以实时回传至指控中心。在这种情况下，本文提出的方法在任务响应方面可能会存在较大的延时。未来将研究分布式、自组织的任务分配方法，利用历史任务数据构建典型任务场景库，结合模仿学习等方法训练无人编组的动态组织与分配调整策略，并尝试利用较少的通信次数实现有效任务协同。

参考文献：

［1］李鹏举，毛鹏军，耿乾，等. 无人机集群技术研究现状与趋势［J］. 航空兵器， 2020， 27（4）： 25-32.

Li Pengju， Mao Pengjun， Geng Qian， et al. Research Status and Trend of UAV Swarm Technology［J］. Aero Weaponry， 2020， 27（4）： 25-32.（in Chinese）

［2］李博宸，牛双诚，丁璐，等. 面向海上目标打击的无人编组弹性运动规划［J/OL］. 航空学报，doi： 10.7527/S1000-6893.2023.29455.

Li Bochen， Niu Shuangcheng， Ding Lu， et al. Unmanned Group Resilient Motion Planning for Attacking Surface Targets［J/OL］. Acta Aeronautica et Astronautica Sinica， doi： 10.7527/S1000-6893.2023.29455.（in Chinese）

［3］ Notomista G， Mayya S， Hutchinson S， et al. An Optimal Task Allocation Strategy for Heterogeneous Multi-Robot Systems［C］∥18th European Control Conference （ECC）， 2019： 2071-2076.

［4］严飞，祝小平，周洲，等. 考虑同时攻击约束的多异构无人机实时任务分配［J］. 中国科学：信息科学， 2019， 49（5）： 555-569.

Yan Fei， Zhu Xiaoping， Zhou Zhou， et al. Real-Time Task Allocation for a Heterogeneous Multi-UAV Simultaneous Attack［J］. Scien-tia Sinica （Informationis）， 2019， 49（5）： 555-569.（in Chinese）

［5］邹智伟，邹强，尹肖云，等. 基于时间协同的异型反舰导弹集群作战目标分配策略研究［J］. 航空兵器， 2023， 30（1）： 19-24.

Zou Zhiwei， Zou Qiang， Yin Xiaoyun， et al. Research on Allocation Strategy of Special-Shaped Anti-Ship Missile Cluster Combat Target Based on Time Coordination［J］. Aero Weaponry， 2023， 30（1）： 19-24.（in Chinese）

［6］郑习羽，徐梓毓，王京华. 基于聚类分组的异构多机器人任务分配算法研究［J］. 航空兵器， 2022， 29（4）： 100-109.

Zheng Xiyu， Xu Ziyu， Wang Jinghua. Research on Task Allocation of Heterogeneous Multi-Robot Based on Cluster Grouping Algorithm［J］. Aero Weaponry， 2022， 29（4）： 100-109.（in Chinese）

［7］ Neville G， Chernova S， Ravichandar H. D-ITAGS： A Dynamic Interleaved Approach to Resilient Task Allocation， Scheduling， and Motion Planning［J］. IEEE Robotics and Automation Letters， 2023， 8（2）： 1037-1044.

［8］ Zhen Z Y， Chen Y， Wen L D， et al. An Intelligent Cooperative Mission Planning Scheme of UAV Swarm in Uncertain Dynamic Environment［J］. Aerospace Science and Technology， 2020， 100： 105826.

［9］王峰，黄子路，韩孟臣，等. 基于KnCMPSO算法的异构无人机协同多任务分配［J］. 自动化学报， 2023， 49（2）： 399-414.

Wang Feng， Huang Zilu， Han Mengchen， et al. A Knee Point Based Coevolution Multi-Objective Particle Swarm Optimization Algorithm for Heterogeneous UAV Cooperative Multi-Task Allocation［J］. Acta Automatica Sinica， 2023， 49（2）： 399-414.（in Chinese）

［10］张安，杨咪，毕文豪，等. 基于多策略GWO算法的不确定环境下异构多无人机任务分配［J］. 航空学报， 2023， 44（8）： 327115.

Zhang An， Yang Mi， Bi Wenhao， et al. Task Allocation of Hetero-geneous Multi-UAVs in Uncertain Environment Based on Multi-Strategy Integrated GWO［J］. Acta Aeronautica et Astronautica Sinica， 2023， 44（8）： 327115.（in Chinese）

［11］陈璞，严飞，刘钊，等. 通信约束下异构多无人机任务分配方法［J］. 航空学报， 2021， 42（8）： 525844.

Chen Pu， Yan Fei， Liu Zhao， et al. Communication-Constrained Task Allocation of Heterogeneous UAVs［J］. Acta Aeronautica et Astronautica Sinica， 2021， 42（8）： 525844.（in Chinese）

［12］ Zhao X Y， Zong Q， Tian B L， et al. Fast Task Allocation for He-terogeneous Unmanned Aerial Vehicles through Reinforcement Learning［J］. Aerospace Science and Technology， 2019， 92： 588-594.

［13］黄卓，徐振，郭健，等. 基于分区间强化学习的集群导弹快速任务分配［J］. 控制理论与应用， 2023， 40（6）： 1129-1139.

Huang Zhuo， Xu Zhen， Guo Jian， et al. Fast Task Allocation for Missile Swarm Based on Sectioned Reinforcement Learning［J］. Control Theory amp; Applications， 2023， 40（6）： 1129-1139.（in Chinese）

［14］ Pope A P， Ide J S， Mic′ovic′ D， et al. Hierarchical Reinforcement Learning for Air Combat at DARPA’s AlphaDogfight Trials［J］. IEEE Transactions on Artificial Intelligence， 2023， 4（6）： 1371-1385.

［15］ Pope A P， Ide J S， Mic′ovic′ D， et al. Hierarchical Reinforcement Learning for Air-to-Air Combat［C］∥International Conference on Unmanned Aircraft Systems （ICUAS）， 2021： 275-284.

［16］ Seraj E， Chen L T， Gombolay M C. A Hierarchical Coordination Framework for Joint Perception-Action Tasks in Composite Robot Teams［J］. IEEE Transactions on Robotics， 2022， 38（1）： 139-158.

［17］ Mayya S， D’antonio D S， Saldaa D， et al. Resilient Task Allocation in Heterogeneous Multi-Robot Systems［J］. IEEE Robotics and Automation Letters， 2021， 6（2）： 1327-1334.

［18］王爽宇，申庆茂，孙铭阳，等. 基于改进NSGA-Ⅲ算法的多无人机协同目标分配［J/OL］. 航空兵器， doi： 10.12132/ISSN.1673-5048.2023.0222.

Wang Shuangyu， Shen Qingmao， Sun Mingyang， et al. Multi-UAV Cooperative Target Assignment Based on Improved NSGA-Ⅲ Algorithm［J/OL］. Aero Weaponry， doi： 10.12132/ISSN.1673-5048.2023.0222.（in Chinese）

Dynamic Task Allocation for Heterogeneous UAVs

Based on Task Evaluation Feedback

Zhang Youan^{1， 2}， He Ziqi2， Li Bochen2， Song Lei^2*

（1. College of Intelligent Science and Engineering， Yantai Nanshan University， Yantai 265713， China；

2. School of Electronic Information and Electrical Engineering， Shanghai Jiao Tong University， Shanghai 200240， China）

Abstract： Task allocation for heterogeneous UAVs in a dynamic battlefield environment is one of the critical techniques for rapid combat capability generation of UAVs. A dynamic task allocation method based on task execution feedback is proposed to address the challenges of task demand changes and potential feasibility issues caused by battlefield uncertainty which have not been well-solved by existing studies. By designing a task evaluation feedback module， real-time monitoring of the UAVs’ task performance is achieved， and an event triggered mechanism is utilized to respond to changing task requirements in a dynamic environment. Heterogeneous UAVs allocation is implemented based on the deep Q-learning network. By the utilizing the decoupling of task allocation and execution as well as a designed action filtering mechanism， the difficulty of training convergence caused by sparse rewards in traditional reinforcement learning is overcome， which forms a dynamic and fast real-time task response scheme. The simulation results show that the proposed method can effectively deal with task failures caused by uncertain battlefield environments， and ultimately achieve a better task completion rate than existing methods.

Key words：" UAVs；" task allocation； battlefield uncertainty； task evaluation;" sparse rewards; deep Q-learning network;" reinforcement learning