段海滨 仝秉达 刘冀川
(1. 北京航空航天大学 自动化科学与电气工程学院, 北京 100083;2. 中国电子科技集团公司第五十四研究所, 石家庄 050081; 3. 西安电子科技大学 电子工程学院, 西安 710071)
无人机(unmanned aerial vehicle,UAV)自主控制技术及低成本传感器技术的快速发展,使得无人机系统越来越广泛地应用于民用和军事领域[1-2]。 由于任务环境复杂而多变,单架无人机往往不能有效完成任务,而使用多架无人机协作能够有效提高成功率[3],顺利完成各种定位、搜索、攻击、安全、监视、评估等复杂任务[4]。 本文主要针对与安全和防御应用相关场景的无人机协同目标防御问题进行了探索研究,在目标防御问题中,入侵无人机在收集到防御无人机的状态信息后,试图抵达目标区域而不被防御无人机拦截,而防御方若干架无人机的任务是尽快拦截入侵无人机,防止对方抵达目标区域。
von Moll 等[5]将多无人机协同目标防御场景描述为一个微分博弈问题。 场景中的无人机具有简单的运动学方程,防御无人机扮演微分博弈中的追捕者角色,入侵无人机扮演逃跑者角色。Garcia 等[6]研究了多参与者的边界防御问题,并给出了团队合作最优解,场景中的智能体能够利用对手的非最优策略使得己方的收益最大化。 然而,上述研究只考虑了当防御者与入侵者的位置重合时,入侵者才视为被捕获这种情况,且防御无人机要保护的目标边界是无限大的。 事实上,无人机可以在一定距离时使用自身携带的武器,干扰或者摧毁对方,且目标区域可能有界。 Shishika和Kumar[7]研究了一类具有任意凸形状的边界防御问题,入侵者团队试图突破防御者团队对目标区域的保护,而防御者团队试图通过拦截入侵者智能体。 Sinha 等[8]研究了3 个智能体之间的追逃场景,并分别为入侵者和防御者设计了控制策略。 Wang 等[9]考虑了具有通信约束的追逃问题,并分别求解了追逃双方应当使用的策略。 然而,上述研究只考虑了防御者被限制在二维目标区域的边界中运动情况。 实际上,入侵无人机或防御无人机均可以在三维空间中自由运动。
基于上述研究,考虑一个复杂环境下面向多无人机协同目标区域防御问题。 其中,防御无人机的数量M>1,入侵无人机的数量为1。 防御无人机的速度可能各不相同,但均大于入侵无人机。防御团队要保护的目标区域为一个有限大的三维空间,且防御无人机在与入侵无人机一定距离时即可拦截。 基于上述假设,本文将无人机目标区域防御问题建模为约束最优化问题,解决问题的关键是求解出双方无人机的最优拦截(目标)点。因此,本文设计了一种新型的改进鸽群优化算法解决此类问题。
本文设计了一种无人机协同目标防御系统策略,系统中的防御无人机根据系统实时状态进行合作,对进入捕获半径的入侵无人机进行拦截。另外,针对无人机协同目标防御问题需要求解的约束最优化问题定义了多级非稳态罚函数,便于优化算法找出可行的最优解。 对基本鸽群优化(pigeon-inspired optimization,PIO)算法进行了改进,有效解决了原始算法在收敛性和准确性方面的不足,并将改进后的PIO 算法应用于解决多无人机协同目标防御问题。
考虑一个由M架防御无人机P1,P2,…,PM和1 架入侵无人机E构成的无人机协同目标防御系统,系统中所有无人机均在欧氏三维空间中运动。 受文献[5]的启发,系统中的各无人机具有如下运动学方程:
式中:βi>1 为防御无人机Pi与入侵无人机E的速度比;θE∈[ - π,π)和ψE∈[0,2π)分别为入侵无人机的俯仰角和航向角;θPi∈[ - π,π)和ψPi∈[0,2π)(i=1,2,…,M)分别为防御无人机的俯仰角和航向角。 双方无人机的控制量分别为
防御无人机要防御的目标区域为球体,球心为xT= (xT,yT,zT),半径为rT。 防御无人机的目标是拦截入侵无人机,使入侵无人机与所要防御目标区域距离最远,其捕获半径为rc。 入侵无人机的目标为在终端时刻tf时尽量缩短自身与目标区域之间的距离。 假设入侵无人机不可能到达目标平面,即考虑防御无人机能够拦截成功的定量博弈问题。 因此博弈对抗的终止条件为
防御无人机与入侵无人机均以恒定的速度运动,故双方无人机的最优路径均为直线,双方的支配区域由以下等式确定的曲面分隔:
式中:x=(x,y,z)∈R3。 式(8)给出了入侵无人机的可行解区域。 当式(8)中等号成立时,入侵无人机E可以在中途不被防御无人机Pi拦截的情况下到达点曲面上的任意一点。 另外设入侵无人机E的最优目标点为xI= (xI,yI,zI), 除了应当满足式(8)之外,还应当有如下等式成立:
由第1 节的系统建模可知,确定防御无人机和入侵无人机的最优目标点实际是求解一个由式(1)确定的约束最优化问题:
解决约束最优化问题的常用方法是使用罚函数法构建目标函数F(x),转化为无约束最优化问题然后使用优化算法求解。 约束最优化问题由可行解和不可行解组成,其中可行解满足所有约束条件,而不可行解至少违反其中一个约束条件。目前为止,除了试错法(trial-and-error)之外,还没有其他方式定义罚函数的方法。 然而,罚函数的定义仍具有挑战性,如果惩罚值过高,最优化算法通常会陷入局部最优解;如果惩罚值过低,优化算法可能很难得到可行的最优解。
罚函数通常分为稳态罚函数和非稳态罚函数两类。 稳态罚函数在整个最优化的过程中使用固定的惩罚值;非稳态罚函数中,惩罚值是动态变化的。 参考文献[10-11]中的结果显示,使用非稳态罚函数得到的结果几乎总是优于通过稳态罚函数的结果。
本文采用的罚函数可定义如下:
式中:f(x)为式(11)中约束最优化问题的原始目标函数;h(k)为一个动态调整的惩罚值;k为优化算法当前迭代次数;H(x)为惩罚因子,定义为
式中:σ(·)为一个多级函数;γ(·)为罚函数的指数函数;gi(x)为式(12)中的约束项。
本文所要解决的约束最优化问题可采用确定性或者随机性方法求解。 确定性方法,如可行方向法或者广义梯度下降法,对目标函数f(x)的连续性和可微性具有一定要求。 因此,使用随机性方法解决约束最优化问题是近年来的热门发展方向。 虽然进化算法(evolutionary algorithms,EA)主要是解决无约束最优化问题而发展起来的,但其也是解决约束最优化问题的一种可行的替代方法。 典型的进化算法有遗传算法(genetic algorithm,GA)[12]和粒子群优化(particle swarm optimization,PSO)算法[13],均已经被用于解决约束最优化问题中。
针对无人机航路规划问题,Duan 和Qiao[14]提出了一种新的生物启发式群体优化算法——鸽群优化算法。 该算法基于鸽子的归巢行为,设计了地图和指南针算子、地标算子,以求解最优化问题。 假设搜索空间的维度为D,鸽群中的第i只鸽子由D维向量Xi=(xi1,xi2…,xiD)表示,鸽群中取得全局最优值的鸽子用向量Xg= (xg1,xg2,…,xgD)表示。 第i只鸽子的速度由向量Vi= (vi1,vi2,…,viD)表示。
在地图和指南针算子中,鸽群中的鸽子位置根据式(18)和式(19)进行更新:
式中:i=1,2,…,N为鸽群中的鸽子序号;R为地图和指南针因子;r为在[0,1]范围内均匀分布的随机数。 式(18)用于确定鸽群中第i只鸽子第k+1 次迭代的速度,式(19)用于确定鸽群中第i只鸽子第k+1 迭代的位置,即将第k次迭代的位置与第k+1 次迭代的速度相加。
在地标算子中,每次迭代之后鸽子的数量会减少一半,目标函数值较低的一半鸽子将被舍弃,即
尽管基本鸽群优化算法能够求解许多函数最优化问题,但仍然存在收敛性和准确性不足、效率不高等问题。 基于此,本文提出了一种新的改进鸽群优化算法-指数平均动量鸽群优化(exponentially averaged momentum PIO,EM-PIO)算法,以解决多无人机协同目标防御问题。
在机器学习中,反向传播(back propagation,BP)算法是用于训练多层前馈神经网络的最常用算法之一。 BP 算法使用梯度下降法来最小化实际输出和期望输出之间的误差,但这种算法常常取得局部最优或者在附近振荡,无法收敛到全局最优值。 因此可以引入一个动量项来解决此问题,该动量项可作为一个低通滤波器来平滑输出[15]。 受此启发,本文在基本鸽群优化算法中的地图和指南针算子速度更新方程(式(18))中,对方程中的探索部分赋予更多的权重。 新的地图和指南针算子中速度和位置更新方程表示如下:
式中:N为算法总迭代次数;α为式(23)中的动量因子;V为式(24)中鸽群中某只鸽子的速度。 由于动量因子α<1,动量的分布方式更多地在当前速度上。 随着迭代次数的增加,旧速度的系数与动量因子α共同累积,旧的速度值对动量M的贡献将降低,这会有效增强鸽群优化算法的搜索能力,同时防止鸽子被其历史速度加权相加而陷入局部最优值。 另外,由于速度值V是迭代累积求和得到的,不需要额外的空间来存储速度的历史值。
本文提出的EM-PIO 算法解决多无人机协同目标防御问题的具体实现流程如图1 所示。
图1 EM-PIO 算法解决多无人机协同防御问题实现流程Fig.1 Procedure of coordinated target defense with multi-UAVs cooperative using EM-PIO algorithm
本文设防御无人机的数量M=2。 入侵无人机和防御无人机的初始位置分别为xE0= (6,6,3),xP10=(5,4,2)和xP20=(3,5,3),防御无人机与入侵无人机之间的速度比β1=1.1 和β2=1.2。防御无人机要防御的目标区域为球体,球心坐标xT=(3,3,2),半径rc=1 m。 双方无人机位置、目标区域和约束曲面g1(x) =0 和g2(x) =0 的图像如图2 所示。 可以看出,g1(x) =0 与g2(x) =0 相交形成一条曲线,双方无人机的最优目标点一定在曲线上。
图2 约束曲面示意图Fig.2 Schematic of constraint surface
同时,本节设计了仿真实验对比EM-PIO 算法与PSO、GA 算法。 3 种算法的参数值如表1所示。
表1 EM-PIO、PSO 和GA 算法参数Table 1 Parameters of EM-PIO, PSO and GA algorithms
3 种算法的进化曲线如图3 所示。 由图3 进化曲线可见,本文提出的EM-PIO 算法具有更好的全局优化性能和收敛速度,可有效解决复杂态势下的多无人机约束最优化问题。
图3 EM-PIO、PSO 和GA 算法进化曲线对比Fig.3 Comparison of evolution curves of EM-PIO,PSO and GA algorithms
1) 本文构造的多级非稳态罚函数可以通过逐渐增加惩罚值有效地控制遗传算法收敛速度,确保获得可行解。
2) 提出的EM-PIO 算法通过在地图和指南针算子处引入动量因子,增强了鸽群优化算法的搜索能力,同时防止被历史速度加权相加而陷入局部最优值。
3) 提出的EM-PIO 算法具有较为优异的搜索性能,在仿真实验中相比于PSO 和GA 算法具有较快的收敛速度且具有更好的全局优化性能。
本文在分析无人机协同目标防御问题时,只考虑了入侵无人机数量为1 架时的情况,后续将进一步研究入侵无人机数量大于1 的情况。