李亿俍,李 娟,刘 畅,李 杰
(北京理工大学机电学院,北京 100081)
近年来,随着战争形态的转变,智能无人武器装备大规模出现并得到迅猛发展,未来战场将从信息化向智能化转变。无人武器装备具有数量多、响应速度快、任务执行效率高、环境适应能力强等优势,能够对战场态势做出快速而灵活的响应。在空中武器装备的发展中,智能化、无人化、集群化的发展趋势尤为明显[1-2]。时至今日,无人机已经成为重要的作战力量,在各类军事冲突或者战争中扮演的角色越来越重要[3-6],某种程度上已经成为一种杀手锏武器。
美国国家工程院院士Vijay Kumar在2016年全球人工智能与机器人峰会(CCF-GAIR)的报告中提出了无人机发展的“5S”趋势[7]:小型化(Small),安全化(Safe),智能化(Smart),高速化(Speed),集群化(Swarm)。其中,集群技术作为一种改变游戏方式的颠覆性技术,一直被中美等国视为无人化作战的突破口,在学术界和国防领域广受关注。随着集群技术的发展和集群武器的应用,无人机集群间的攻防对抗将成为一种新的作战形式[8](如图1所示)。然而,在现有国内外的研究中,尚未出现成熟的集群攻防决策方法[9],对于集群攻防对抗研究仍然存在大量空白。
图1 无人机集群攻防概念图Fig.1 Concept map of attack and defense for UAV swarms
微分博弈起源于20世纪50年代,是一种可靠且高效的空战策略求解方法。由于制导拦截弹药的出现和航天中有关机动追击问题的需要,美国兰德(Rand)公司在空军资助下,美国数学家Rufus Isaacs博士等开展了对抗双方都能自由决策行动的理论追逃问题研究。在 Isaacs[10]的开创性论文中,他运用博弈论、变分法和控制理论的原理来解决涉及两个和多个智能体之间动态冲突的问题。文中采用的微分动态规划的方法使微分博弈从传统博弈的离散时间限制中跳脱出来,能够求解实时、动态的最优均衡策略。虽然微分博弈适用于无人机攻防空战的决策求解,但其计算复杂度的爆炸增长,使得现阶段相关研究中局中人规模仍停留在个位数,远不能达到群的规模,无法直接应用于无人机集群攻防问题的机动策略求解。
追逃博弈是一种重要的攻防对抗形式。对于追逃博弈的研究可以让无人机在空战中发挥性能优势,提高决策控制的自主性。在追逃微分博弈中,追捕者的任务是捕获(或击毁)逃逸者,而逃逸者则需要通过机动尽可能逃脱攻击。近年来,国内外许多学者开展了追逃微分博弈的相关研究,其中不乏关于对于博弈规模拓展性问题的研究。2017年,Tomlin教授及其团队对于NA个攻击者、ND个防御者围绕固定目标区域的模型开展了研究[11],研究团队采用图论领域的最大匹配方法将多对多博弈分解为一对一博弈,使攻击者尽可能多地到达目标位置,而防御者尽可能捕获攻击者的博弈。2018年,清华大学的石宗英等学者研究了矩形区域内的双追捕者与一逃逸者的追逃博弈[12],给出了逃逸者位于优势区域时的最优逃逸策略生成方法。次年,该团队更为深入地研究了追捕者团队与逃逸者团队之间的有界区域追逃博弈[13],其中追捕者对逃跑者的拦截使用了任务分配方法。
目标-攻击-防御(Target-Attacker-Defender,TAD)三方博弈是在追逃博弈的基础上,由攻击-目标、防御-攻击两组追逃博弈组合成的更为复杂的博弈模型。其中,目标任务是逃脱攻击者的追捕,防御者的任务是拦截攻击者。TAD博弈模型对应于反导拦截、领土攻防以及运输保护等多类现实问题,具有很高的研究价值。
在上述研究的启发下,本文针对固定翼无人机集群攻防空战场景,依据作战任务将无人机分为攻击者、防御者和目标3类。以分布式目标匹配方法将三方集群博弈解耦至个体,在TAD单个个体之间使用微分博弈生成策略,并通过仿真对空战过程以及决策智能程度进行评估,验证基于微分博弈的无人机集群攻防空战决策的有效性和适用性。
针对无人机集群攻防决策问题,本文首先基于追逃集群间任务关系,利用分布式任务分配算法,将TAD集群之间的集群博弈解耦为TAD三机博弈,然后采用三方微分博弈生成个体的加速度策略。
在TAD三方博弈中,根据三方的任务关系,可以认为阵营为目标的无人机群是攻击者阵营无人机群的待分配目标,而攻击者集群又是防御者集群的待分配目标。因此,TAD匹配的框架可描述为:通过两次目标分配,实现攻击-目标、防御-攻击的一对一匹配,最终以每个攻击者为纽带,实现TAD的一对一对一配对。在本文中,假设3个阵营的无人机数量相同,即目标分配为等额分配。以各阵营无人机数量N=5为例,分配效果如图2所示。
图2 集群规模为3×5时TAD配对过程示意图Fig.2 Schematic diagram of the TAD pairing process when the swarm size is 3×5
追逃无人机间的匹配由追捕者集群的目标分配实现,原则为选择配对使得第i个追捕者和第j个逃逸者的配对价值valueij之和最大,即匹配最有利于追捕。最优分配函数
本文采用基于三维 Dubins路径的价值函数作为空中追逃问题的最优分配函数。由于高度因素,三维Dubins路径比二维Dubins路径更复杂,三维 Dubins路径的生成需要先计算飞机起始点和终止点的位置和速度方向在地面投影对应的二维Dubins路径,并需要知道最大俯仰角。McLain等[14]的研究表明,三维 Dubins路径有 3种不同的情况,取决于起始点和结束点之间的高度差、二维Dubins路径长度和俯仰角限制。这3种情况被定义为低高度差、中高度差和高高度差。
在判断情况之前,需要先确定无人机的最小转弯半径。对于固定翼无人机,在速度固定、自动驾驶仪控制无滞后且飞机角度调整足够快的理想条件下,偏航角和滚转角之间的关系由协调转弯条件[15]给出
式中,ψ为偏航角,g为重力加速度,V为飞机的固定飞行速度,ϕ为滚转角。由于转弯半径R与偏航角ψ之间存在几何关系
无人机的最小转弯半径Rmin可表示为
其中,ϕmax为无人机的最大滚转角。
(1)低高度差
若高度差满足下式,则起点zs和终点ze之间的高度设置属于低高度差
式中,右边的项表示在二维Dubins距离Lcar(Rmin)和最大俯仰角±θmax约束下的最大高度变化。在低高度差情况下,飞机无需通过额外螺线机动达到终点高度,三维Dubins路径在地面的投影即为二维Dubins路径,如图3所示。在此情况下,飞机的最优俯仰角θ*可表示为
图3 低高度差情况三维Dubins轨迹Fig.3 3D Dubins trajectory for low altitude difference
Dubins飞机路径的长度Lair可描述为
(2)高高度差
如果起、终点之间的高度差满足下式,则称起点和终点之间的高度设置属于高高度差
在高高度差的情况下,飞机需要先通过螺线爬升(或下降)缩小高度差,如图4所示。螺线机动的圈数k满足
图4 高高度差情况三维Dubins轨迹Fig.4 3D Dubins trajectory for high altitude difference
接着扩大最小半径Rmin至最优半径*R,使其满足
Dubins飞机路径的长度为
(3)中等高度差
如果起、终点之间的高度差满足下式,则称起点和终点之间的高度设置属于中等高度差
在中等高度差情况下,由于高度差过大,飞机无法直接通过二维Dubins路径得到三维路径,但可以在起始圆弧之前(或终止圆弧之后)额外插入一个中间弧,以增加二维路径长度,使飞机有足够的时间到达终点高度,如图5所示。中间弧的相关参数如图6所示。中间弧的结束点zi满足
图5 中等高度差情况三维Dubins轨迹Fig.5 3D Dubins trajectory for medium altitude difference
图6 中间弧以及关键节点表示Fig.6 Middle arc and key node representation
其中,cs为中间弧的圆心,R(φ)为使向量绕cs旋转φ的旋转矩阵。加入中心弧的Dubins路径长度可表示为
式中,sψ和eψ分别为起始点和终止点的速度方向(航向角)。寻找最优角度*φ满足
Dubins飞机路径的长度可描述为
当给定追捕方无人机和逃逸方无人机的位置与姿态后,可得到三维Dubins路径的起点与终点信息,对高度差所在范围进行判断后,根据高度差类型选择对应计算方法得到三维 Dubins路径的长度Lair。之后,将路径长度代入下式,即可得到基于三维Dubins路径的价值(其曲线如图7所示)
图7 价值随路径长度变化曲线Fig.7 Curve of value changing with Dubins path length
此价值函数的构建考虑了价值与相对距离的负相关性,同时指数形式的映射能够满足价值大于0的要求。指数的系数-0.005决定了曲线的平缓程度,整体的系数1000决定了价值的范围。此形式的价值函数整体变化较为光滑平缓,并且对于近距离目标的价值区别较大,且通过系数设置使0 <valueij< 1 000,利于拍卖算法快速求解。系数的设置可以根据价值范围和最短路径范围需求动态调整。
在无人机集群攻防决策算法中,TAD三方集群间的无人机博弈被分解为不同群的三个无人机个体间的博弈,即三方微分博弈。本节将介绍无人机追逃背景下三方微分博弈决策模型的构建过程,从追逃场景着手,将三方微分博弈分解为两组追逃博弈。在三方微分博弈中,攻击者-目标、防御者-攻击者分别为一对追逃组合,如图8所示,TAD的加速度形式可以分别表示为
图8 三维空间下TAD三机追逃关系Fig.8 Relationship between the pursuit and escape of the three TAD planes in 3D space
式中,a1、a2和a3分别为目标、防御和攻击者的加速度,a1e和a3e分别表示目标和攻击者的逃逸加速度分量,a2p和a3p分别表示攻击者和防御者的追捕加速度分量。
假设无人机的飞行空间在边长为 1000 m的立方体内,将无人机的形状抽象为边长为1 m的立方块,则在飞行过程中同一集群的两无人机(无追逃关系)形状发生重合(即相撞)的概率为27/109,在本文所考虑算例情形下可以认为是小概率事件。然而,当作战场景更为复杂、集群规模增大时,组内避障将会成为影响集群效能的关键因素。
在三维空间中,追逃无人机的相对运动方程可以表示为
进一步可以简写为
式中,yij为无人机i相对于无人机j的相对状态矢量;为状态系数矩阵;为控制输入系数矩阵。
本节中控制规律的推导基于固定坐标系(如惯性系)定义的线性相对运动学模型。在后续仿真中,本文利用坐标系转换将固定系下的策略转移到载体坐标系,同时加入了自动驾驶仪动力学以及加速度约束,使仿真结果更加接近无人机实际运动轨迹。
针对小型固定翼无人机,一般假设在空战过程中速度大小为定值,即在载体坐标系中,对x轴加速度有
由于无人机性能限制,对于y轴和z轴加速度,存在最大值和最小值约束
和通常为负值,代表加速度在负方向能够达到的最大值。此外,假设研究对象为自杀式无人机,即通过在杀伤半径内引爆机载战斗部的方式摧毁敌方无人机,而非以导弹、机炮等方式远程打击敌方目标,杀伤半径作为可以改变的参数根据需求设置。
对微分博弈模型做出如下假设:
(1)博弈类型为完全信息博弈,即博弈双方时刻知道必要的彼此相对状态信息,不受观察、通信等条件的限制。
(2)系统的状态是准确的,不考虑传感器在工作过程中产生的误差与延迟等对信息准确性产生的影响。
(3)无人机的最大加速度(绝对值)受到约束。在评价函数中通过权重的方式对加速度范围进行“软约束”,加速度的变化在边界附近平缓变化。
基于上述假设,构造成本函数
式中, (S1,S2,S3)为最终状态的权重矩阵;(Rp,Re)为加速度加权矩阵;为追逃双方的相对距离的加权平方;为相对速度在相对距离上的加权投影;为相对速度的加权平方; (aipTRpaip)为追捕者加速度的加权平方; (aejTReaej)为逃逸者加速度的加权平方,tf为博弈结束时间。
成本函数由关于结果的分量与关于过程的分量相加构成。当S1=I时,相对距离的加权平方项在终止时间是偏移量的平方;速度在距离上的加权投影以及相对速度的加权平方两项反映了交战轨迹的形成;权重的相对值 (S1,S2,S3)和(Rp,Re)代表对状态变量和控制变量的软约束。
构建哈密尔顿函数
式中,λ为拉格朗日算子。根据最优化的必要条件可得
将必要条件式(28)与式(29)代入哈密尔顿函数有
将控制输入项移项至等式左边得到
由于本节期望结果是将控制输入构建为关于系统状态的函数,因此可以将λ设为
式中,P为6×6矩阵,为矩阵黎卡提微分方程的解,用于后续加速度策略的求解。将式(35)代入式(33)、式(34)有
按照以上求解过程,分别推导A-T、D-A攻防组合的加速度方程并求解。记A-T组合编号为i= 1,D-A组合编号为i=2;式(36)、(37)对应的加速度计算方程为
由必要条件式(30)和哈密尔顿函数可得
代入式(35)可得
经过展开与代数化简得
由于式(43)要求对于所有yij成立,所以yij的系数与等式右侧必须等于0,即
式(44)的方程形式被称为矩阵黎卡提微分方程。为了将数学模型应用于实际,定义权重矩阵结构为
并定义矩阵R
则矩阵R中的对角元素为
回到式(44)的求解问题,记T=tf-t,求解矩阵黎卡提微分方程可得
其中,
算法1描述了面向无人机平台的基于微分博弈的集群攻防决策算法。其中,UAV_num,simu_time,T_parameters,A_parameters,D_parameters分别表示集群规模、仿真运行总时间,以及目标、攻击、防御无人机初始位置、飞行速度和最大横向加速度。基于微分博弈的集群攻防决策算法首先利用分组匹配算法实现追逃博弈的目标匹配,进而基于微分博弈为每架无人机给出其加速度控制量。算法2为分组匹配算法,内含拍卖算法子函数;算法依据输入的集群个体数量确定双方规模并编号,基于Dubins路径的价值函数确定每个目标对于竞拍者的价值,并基于市场拍卖机制框架进行多轮提价竞拍,最后得出目标、攻击者、防御者三方的最优匹配。算法 3为三维 Dubins路径长度计算算法,在获取追逃双方的位置与姿态后,将追捕无人机的位置与姿态设置为起点与起点方向,将逃逸无人机的位置与姿态设置为终点与终点方向,得到起终点之间三维Dubins路径的长度,长度经函数映射后得到价值,实现某一追捕无人机对某一逃逸无人机的价值确定。
算法1:集群攻防决策算法(swarm attack and defense decision-making)输入:UAV_num, simu_time, T_parameters, A_parameters,D_parameters输出:UAV_track 1 while 仿真剩余时间大于0 do 2 _ , _ATD A=group matching( _ , _UAV numTAD parameters)3 A_D←D_A配对转化为A_D配对4 for i=0 to UAV_num do 5 _[]j A Ti=6 _ []k A Di=7 攻击者i防御者k目标j三方微分博弈生成三机轨迹与姿态8 轨迹保存9 TAD_ parameters ← 无人机最新时刻位姿10 UAV_track←轨迹格式转换11 生成三维动态轨迹图算法2:分组匹配算法(group matching)输入:UAV_num, T_parameters, A_parameters, D_parameters输出:AT_match, DA_match 1 _ ( _ , _ ,_AT match auctionUAV numA parametersT=)parameters 2 _ ( _ , _ , _DAmatch auctionUAV numD parametersA=)parameters 3 4 function ( _ , _ , _auctionUAV numbidder parametersobject)parameters 5 _ _ _biddernum objectnum UAV num==6 for i=0 to bidder_num do 7 for j=0 to object_num do 8 [,]valueij=Dubins path (i_parameters, j_parameters)9 while ( _ ) 0 lennewbid> do 10 for i=0 to bidder_num do 11 if i暂未竞拍到物品 do 12 new_bid←最大收益物品13 new_bidder←i编号竞拍者14 new_price←最大收益-次大收益+ε 15 for 产生新价格的物品 do 16 current_prices←( _ , _ )maxnew pricecurrentprices 17 _currentassignment←最大价格出价者18 return _currentassignment
算法3:Dubins路径长度(Dubins path)输入:i_parameters, j_parameters输出:value 1 2_ / tan(_ )RminV g ϕmax= ×2 L_car←二维Dubins路径的长度3 _ (_ _)zrel abszi z j= -4 if _ _ tan(_ )zrel L car ϕmax< × do 5 L_air←低高度差Dubins飞机路径长度计算6 else if _ (_ 2π _ )tan(_ )zrel Lcar R min ϕmax>+× do 7 L_air←高高度差Dubins飞机路径长度计算8 else do 9 L_air←中等高度差Dubins飞机路径长度计算10 500 (0.0002 _ )value exp L air=×- ×
在实现TAD三机微分博弈过程中,考虑载体坐标系转换以及自动驾驶仪控制模型等约束。首先,更新固定系下位姿速度加速度参数、在固定系下由博弈论控制生成最优控制策略、将固定系下的控制输入转化至载体系、经自驾仪滞后模型以及最大加速度约束后得到最终控制输入。在微分博弈结束后,返回三机在博弈期间每一步的位置,以及博弈结束时飞机的俯仰、滚转与偏航角,以便进行下一轮目标匹配与微分博弈。
集群攻防决策算法结构与模块间的调用关系如图9所示,算法整体由主函数、基于拍卖算法的目标匹配、基于Dubins路径的价值函数和TAD三机微分博弈4部分构成。程序运行过程中各子程序的执行流程如图10所示。在主函数内设置好各项参数后,运行程序即开始仿真;仿真开始后程序将首先检查无人机状态,挑选出可执行任务的无人机(在数值仿真中默认各无人机初始状态良好可执行任务),并对无人机进行目标匹配,将群间攻防博弈问题解耦为三方微分博弈问题;在配对分组后,各组分别调用TAD三方微分博弈模块进行给定时长的分组同步博弈对抗;若在博弈完成后仿真剩余时间为零,则停止仿真循环、保存轨迹并绘制图像;若仍有剩余时间,则重新检测无人机状态,剔除被击落的、已完成任务的无人机后,对剩余的无人机进行匹配分组博弈对抗。
图9 集群攻防决策算法模块结构图Fig.9 Structure of the swarm attack and defense decision algorithm
图10 集群博弈仿真程序运行流程图Fig.10 Flow chart of swarm game simulation process
首先,以3×2规模的空战场景清楚地展示集群间的攻防博弈过程,无人机轨迹与关键时刻位置如图11所示。图中不同形状的黑色多边形表示不同时刻的无人机位置,展示了无人机的走向。由于目标无人机飞行速度较慢,运动轨迹不清晰,所以我们选择攻击者和防御者的飞行轨迹进行分析。从图中可以看出,在攻击者躲避防御者和防御者追捕攻击者的过程中,双方根据当前状态和对未来的预测在飞行中进行了许多博弈:防御者根据攻击者的飞行方向预测其在一段时间后的位置并进行拦截,攻击者无人机通过急转弯影响防御者预测的同时躲避防御者的拦截,在防御者“错过”攻击者后会立即掉头重新跟上攻击者,而在攻击者“摆脱”防御者后会马上转弯追捕目标。
图11 3×2规模无人机轨迹与关键时刻位置Fig.11 Drone trajectory with size 3×2
其次,考虑集群规模为3×4的空战场景,仿真攻防过程如图12所示。其中,相同颜色的无人机个体代表一个目标-攻击-防御分组,共分为红、黄、蓝、绿4组,目标无人机颜色固定,攻击与防御无人机颜色与同组目标无人机颜色一致。集群博弈飞行过程中各个 TAD分组的相对距离变化如图13所示,仿真各模块用时如表1所示。
表1 仿真各模块用时统计Table 1 Time-consuming of each module
图12 集群轨迹关键帧截图Fig.12 Keyframe of trajectory of UAV swarms
整个运行过程经历了 4次分组匹配-微分博弈。在第一次任务分配后,各组无人机从初始位置出发在组内进行博弈对抗,如图12(a)所示,无人机在单次微分博弈过程中只考虑同组内目标。同一集群内的无人机协同体现在任务分配过程中,在图12(b)与(d)中,展示了第 2次与第4次分组匹配后分组的改变。在这两次匹配中,各有两架攻击方无人机的目标发生了互换,导致更换目标的攻击方无人机以及对应的防御方无人机的颜色转变为新的目标无人机的颜色。图12(c)与(d)展示了在重新匹配目标后,分组发生变化的攻击者无人机开始追捕新的目标,分组未发生变化的无人机继续追捕当前时刻的目标。如果缩短单次微分博弈的时间,目标匹配就会更加频繁,攻击者和防御者无人机集群内无人机的协同就会更加紧密,但是由于目标匹配的价值函数与微分博弈中的成本函数形式并不相同,导致过于频繁的目标匹配会对无人机机动的最优性造成影响,需要合理选择单轮微分博弈时长以平衡集群的协同性与控制的最优性。
图13展示了机间相对距离随时间变化曲线图,能够直观地体现出 4次目标分配的影响。由于发生在第10.2 s和30.6 s的第2、4次匹配改变了两对攻击者-目标无人机的配对关系,导致在这两个时刻各有两条曲线发生突变(30.6 s的红色点虚线突变前后数值相近)。在分配过程中,依据基于Dubins路径的价值函数,这意味着重新分配的结果不一定是整体相对距离更近的,但一定是整体Dubins距离更近、更易于到达的,这解释了在第4次曲线突变后攻击者-目标的相对距离之和不减反增的原因。除此之外,在曲线的连续部分能够直观反映出各无人机之间的激烈追逃博弈:曲线下降时,曲线对应配对中的追捕者在追赶逃逸者;曲线达到极小值后突然上升代表逃避者通过急转弯或擦肩而过等机动拉开了与追捕者的距离。
图13 相对距离随时间变化曲线图Fig.13 Curve of relative distance between UAVs versus time
算法运行时间受到无人机的位置、速度、集群规模、仿真时长、微分博弈时长、单次博弈步长等多个参数的影响。从算法复杂度进行分析,目标匹配模块主要受到集群规模影响,匹配时间与群内无人机个数的平方近似成正比;微分博弈模块主要受到博弈时长、步长与集群规模影响,与博弈时长和群内无人机个数成正比、与步长成反比。对于3×4规模集群间的博弈,仿真能够在0.18s内完成集群控制和轨迹生成,能够满足实时性要求(一般要求决策时长小于1s)。
与3×4规模算例相同,3×7规模算例与3×10规模算例的无人机初始三维坐标均在0~500之间随机生成,算例运行的轨迹结果如图14~15所示。从程序运行结果可以看出,各无人机的运行轨迹均由无人机集群攻防决策算法生成,证明算法对于集群规模不超过10架的集群攻防场景均适用。
图14 3×7集群博弈轨迹展示Fig.14 Trajectory of UAV swarms with size 3×7
图15 3×10集群博弈轨迹展示Fig.15 Trajectory of UAV swarms with size 3×10
本文研究了将微分博弈理论应用于集群攻防对抗的途径,设计了一套基于三方微分博弈的无人机集群攻防决策算法,在将三方微分博弈决策控制模型应用于三架无人机空战攻防的基础上,设计了一套基于 Dubins路径价值函数的拍卖算法,以目标分配将单个目标-攻击者-防御者无人机间的博弈拓展至三方集群攻防对抗,完成了三维空间下以加速度为控制输入的集群决策模型构建,能够为等规模三方集群内的个体提供协同决策控制。此外,本文编写了一套以任务匹配-微分博弈循环为主体的仿真程序,能够自主设置主要参数、生成飞行数据以及动态三维轨迹图,并加入了载体坐标系转换以及自动驾驶仪控制模型等约束,提高仿真的真实性。最后,本文对微分博弈决策模型与基于微分博弈的集群攻防算法进行了仿真验证。
未来的研究将在本文的基础上,对集群决策算法的应用场景进行扩展,在加入群内无人机间的避障控制的基础上,使算法不再局限于等无人机数量的 TAD集群对抗,兼容差额匹配对抗,提高算法的适应性。同时,为了将决策方法更广泛地应用于实际情况,未来将在下一阶段融合敌机位置的多源感知、速度的拟合预测和估计,以逐步实现不完全信息条件下的攻防决策。除此之外,笔者还计划将算法在软件在回路以及硬件在回路仿真系统中进行测试,将算法完善为一套可应用与实物的分布式决策算法,最终在无人机平台上进行多机集群攻防对抗试验。