于飞 李擎 原鑫
摘 要: 研究无人战车在无障碍、有障碍两种对局环境中的追逃问题,主要讨论了追逃定性微分对策中界栅的确定。在无障碍条件下,建立对局双方的运动模型,由于两者到达捕获点的时间是相同的,因此可以通过消除时间参数构建界栅。该方法与Isaac提出的构造界栅的经典方法结果一致,并在此基础上分析了躲避区的最大面积。在无人车的实际行驶过程中肯定会受到障碍物的影响,探讨了在有障碍条件下的追逃微分对策界栅的构建。考虑线性障碍物的影响,分析在障碍物存在的条件下双方的等时线分布情况,并提出用等时线的交集确定界栅的方法。
关键词: 无人战车; 追逃定性微分对策; 运动模型; 障碍; 等时线; 界栅
中图分类号: TN99?34; V412.4 文献标识码: A 文章编号: 1004?373X(2018)15?0161?04
Determination of barrier in pursuit?evasion qualitative differential game of
unmanned combat vehicle
YU Fei, LI Qing, YUAN Xin
(Beijing Key Laboratory of High Dynamic Navigation Technology, Beijing Information Science and Technology University, Beijing 100101, China)
Abstract: The pursuit?evasion issue of unmanned combat vehicle in the play environments with or without obstacle is studied. The determination of barrier in pursuit?evasion qualitative differential game is mainly discussed in this paper. Under the condition without obstacle, the motion model of game players is established. Since the arriving time of two players to the capture point is the same, the time parameters are eliminated to build the barrier. The result of the method is consistent with that of the classical barrier construction method proposed by Isaac, and on this basis, the maximum area of the evading region is analyzed. In the actual driving process of unmanned combat vehicle, the obstacle will affect the method, so it is necessary to construct the barrier in pursuit?evasion qualitative differential game under the obstacle condition. Considering the influence of linear obstacle, the isochron distribution of players under the obstacle condition is analyzed, and a method is proposed to determine the barrier by means of the intersection of isochrons.
Keywords: unmanned combat vehicle; pursuit?evasion qualitative differential game; motion model; obstacle; isochron; barrier
无人战车是信息化装备体系的重要组成部分,在战术预警侦查、战场信息获取,以及战略物资运输方面发挥着重大的作用。微分对策理论为军事对抗问题提供了较为完善的模型,并且能基于最优控制等控制理论求解双方最优策略、优势区域,因此可用微分对策理论研究无人战车应用场景中的问题。微分对策是使用微分方程处理双方或多方连续动态冲突、竞争或合作问题的一种数学工具。它已经广泛应用于生物学、经济学、国际关系、计算机科学和军事战略等诸多领域[1]。根据有无支付泛函,微分对策可以分为定量与定性微分政策两大类。对抗双方关心的不是支付的极值大小,而是某种结局是否能够实现,这种问题称为定性问题。将对策空间划分为捕获区和躲避区,两区域的分界面称为界栅。
追逃微分对策的定性分析多集中在军事对抗方面。其中,文献[2]研究了三维空间双机格斗问题,给出了界栅和等时线组成的捕获区与躲避区的确定方法。文献[3]针对近地共面轨道上两飞行器在轨追逃对策问题,提出基于轨道根数描述运动方程的对策问题,在双方均为径向连续可变小推力的假设条件下,研究定性微分对策方法中考虑推力性能的界栅存在条件。文献[4]基于微分对策理论研究三维空间内导弹拦截飞机末端制导问题。通过轨道线性化将三维非线性对策时间自由的对策问题简化成二维线性对策时间固定的对策问题,构建哈密顿函数求解最优控制,将求解的最优控制代入运动方程倒向积分可得最优轨线,最优轨线构成界栅。文献[5]对2辆自主无人车碰撞问题的定性微分对策进行研究,说明微分对策方法在处理两车碰撞问题上的有效性。但是现实情况中无人驾驶车辆行驶的环境比较复杂,存在禁入区、复杂行驶环境中的障碍,以上文献定性分析都没有考虑到障碍物的影响。本文提出在无障碍对局环境中,一种基于消除时间参数的界栅确定方法,经过证明该方法与Isaac提出的构造界栅的经典方法结果一致。考虑线性障碍存在的对局环境,给出无人战车在该环境中追逃定性微分对策界栅的确定方法。
微分对策中最早研究的是追逃问题,即追逃微分对策,这些问题的例子涉及一个追捕者,其试图捕捉一个逃避者,或是一个逃避者,试图在一个复杂的环境中试图逃脱。在本文中,以无人驾驶车辆为载体,研究不存在障碍和存在障碍环境时追逃问题,对局双方为单一的追击者和单一的逃避者。
对局双方视为点运动物体,它们能够立即执行转向,并且速度不存在随机变化。假设对局双方在对局开始时知道对方的位置,并且除了有界速度之外,它们的运动没有任何限制[6]。对策活动中局中人都有独立决策权,他们根据实际情况行使控制能力使对抗行为朝着有利于自己的方向发展,为了方便分析,对相关符号进行定义:[P(xp,yp)]为追击者的位置;[E(xe,ye)]为逃避者的位置;[Vp]是追击者的最大速度;[Ve]是逃避者的最大速度;[k]为两者速度的比值。
由于在[k>1]時,逃避者处在任意初始位置都会获胜,所以只考虑[k≤1]的情况,追击者的速度比逃避者要快,这样,追击者才有可能捕捉到逃避者。无人战车追逃双方如图1所示。列出追逃双方的运动学方程如下:
[xp=Vpcos φyp=Vpcos φxe=Vecos ?ye=Vecos ?] (1)
式中:捕获者P的运动方向与[x]轴的夹角为[φ];躲避者E的运动方向与x轴的夹角为[?]。
当周围环境不存在障碍时,追捕双方只是简单的移动,其中的一方总是可以知道其对手的位置。捕获者[P]通过选择策略[u],力图实现与逃避者[E]的距离为0,达到捕获[E]的目的,此时对局结束。躲避者[E]选择策略[v],使得两者距离大于0,从而躲避追捕。那么存在一个分界面,在分界面上的每一点都是捕获点,该分界面称为界栅。界栅将这种情况下的对策空间[Rm]分为捕获区和躲避区,在捕获区,无论躲避者采取什么行动总会被捕捉到,在躲避区,无论捕获者采取什么行动躲避者总会逃脱。
对局环境中不存在障碍时,假设捕获者于点[C]处将躲避者捕获。对于捕捉者,为了在最短的时间内结束对局,最佳追捕策略显然是以最大速度[Vp]朝向捕获点做直线运动。在相同时间躲避者由初始点移动到捕获点[C],逃避者此时也是以最大速度朝捕获点做直线运动。下面通过建立运动模型消除公共参数,来确定界栅,追捕场景见图2。
已知[(xe,ye)]和[(xp,yp)]分别是逃避者[E]和追踪者[P]的位置,并且如果追踪者[P]的初始位置是[(xp0,yp0)],对于相同的时间[t],追逃双方的运动方程可以表示为:
[x2e+y2e=v2et2] (2)
[(xp-xp0)2+(yp-yp0)2=v2pt2] (3)
由于追逃双方到达捕获点[C]时所耗费的时间是相等的,可以通过消除公共参数[t]得到:
[x2+y2v2e=(xp-xp0)2+(yp-yp0)2v2p] (4)
代入[xp0=d],[yp0= 0],[γ=VpVe],得到:
[(γ2-1)(x2+y2)+2dx-d2=0] (5)
阿波罗尼斯圆如图3所示,其数学表达式定义如下:
[(k2-1)(x2+y2)+2ax-a2=0] (6)
对比式(5),式(6)得出,捕获点[C]的轨迹[A]即为阿波罗尼斯圆,其将由追击者主导的平面区域与逃避者主导的平面区域分离。此处的轨迹[A]将平面划分为追捕区与躲避区,即为界栅,其构造不考虑追击者和逃避者的角色,而是将对局双方简单地视为运动物体。
轨迹[A]的构建提供了追踪者[P]和逃避者[E]执行最佳追击和规避策略的所有信息,其中阿波罗尼斯圆内是逃避者的主导区域,阿波罗尼斯圆外部是追击者的主导区域。下面将证明逃避者最大速度直线行进产生的主导区域面积最大。
如果逃避者不以最大速度直线行进到捕获点[C],则新形成的阿波罗尼斯圆记做[A]。对于两个阿氏圆[A]和[A]具有相同参考点[E]和[P]。但具有两个不同速度比,分别为[k]和[k],并使得[k>k>1]。另外,[a]和[a]分别为线段[EP]与圆[A]和[A]的交点。首先,由于速度比不同,所以两圆不可能会有交点。其次,通过对比点E到[a]和[a]的距离:
[E-a=1k+1E-P<1k+1E-P=E-a] (7)
可以得出,如果逃避者不以其最大速度移动,则新的追踪者位置将更接近新的逃避者位置。这也就证明了逃避者最大速度直线行进产生的优势区域最大,如图4所示。
无人战车在野外区域进行军事对抗时,首先要进行机器感知,探测周围环境,然后选择出对自己最有益的决策方案。周围环境中的障碍物都可以在对策空间中设置约束与之对应。本节中主要研究对策空间中存在线性障碍时界栅的确定。文献[2]通过将等时点连接成等时线,结合目标集以及界栅得到有限时间内的捕获区,本文通过构造等时线交点来构造此种对局环境的界栅。
图5给出了具有线段障碍物的初始对局情况,其中,□代表逃避者,△代表追击者。假设追逃双方都以最大速度运动,其中追击者速度为逃避者速度的2倍。
在有障碍物的PE游戏中,平面被穷尽地分为三个不相交的区域:由一方严格控制的区域;由另一方严格控制的区域;对局双方都不主导的区域。
证明:考虑平面中的任意点,对于这一点,解决对局双方从初始位置移动到任意点的两个时间最优控制问题。只有两个结果是可能的,即一方所用时间严格小于另一方,或双方时间相等。在第一结果中,任意点在捕获区或者躲避区的内部。在第二结果中,任意点在两个优势区域之间的交界处,由于该情况的特征在于时间的相等性,因此该点属于等时线束的交集。
将追逃问题表述为时间最优控制问题:给定一个运动物体以速度[v]简单运动,初始和最终位置[(xi,yi)],[(xf,yf)]和已知障碍物[H],连接[(xi,yi)]到[(xf,yf)]而不与[H]相交的路径,使得运动物体到达[(xf,yf)]所需的时间最小化。逃避者采取策略使追捕时间最大化,追击者采取相关策略使追捕时间最小化。
定理1 在没有障碍物的情况下,时间最优轨迹是直线,并且等时线是以运动物体的初始位置为中心的同心圆。
定理2 在存在一组障碍物的情况下,时间最佳轨迹是虚线,在障碍物顶点处断裂,并且等时线形成以生成点为中心的同心圆弧,其中生成点是障碍物顶点或者运动物体的初始位置。
定理3 将平面分成具有唯一生成点区域的曲线是线段或双曲线。
以上定理来自于波前传播,可用于该对局环境的研究,它们的证明见文献[7]。
如图6所示,粗线是障碍物,细线是等时线,虚线是分离具有不同生成点的区域的曲线。在区域1中,时间最优轨迹不受障碍物影响,并且等时线形成以运动物体的初始位置为中心的同心圆。对于区域2和3,时间最优轨迹在障碍物的端点处断开,并且等时线在端点处形成同心圆。区域2和3由双曲线弧分隔,其中弧上的每个点可以通过在任一方向上绕障碍物行进而以相等的时间到达。
在指定的持续时间内为每个对局者构造等时线,如为每个对局者以时间为参数形成一组曲线,就形成了等时线。追逃双方都以变量t为参数,如果双方都遵循时间最优路径,消除这个共同参数使得对局者在所有时间点上可以满足的区域,推导过程见式(2)~式(5)。
图7为在存在线段障碍物情况下,界栅的确定方法。图7a)线束来自等时线的每个交叉点,由*标记。在图7b)中,为了清楚起见去除了等时线束,并且绘制了较大的交叉点以形成两个主导区域之间的界栅。在图7中,圆圈表示障碍物不存在时由阿波罗尼斯圆确定的主导区域,由于障碍物的存在而导致界栅改变。
如果对局双方势均力敌,则对抗总是在界栅上展开,即[x∈B](此处的界栅标记为B)。在捕获区内的运动,轨迹[x(t)]将达到目标集的边界并穿过,在躲避区内的运动,轨迹不能达到目标集的边界。追击者P使逃避者E进入捕获区,则不论E采取什么策略,追击者总能选择适当的策略捕获到E。在躲避区域E中,不管追击者采用什么策略,躲避者E总能采取适当的策略躲避P的捕获。
根据无人战车军事对抗对策空间中有无障碍物约束的两种情况,本文对追逃定性微分对策进行相关研究,主要目标是确定躲避区与捕获区的分界界栅。无障碍物时,界栅为阿波罗尼斯圆;存在线性障碍时,界栅由对局双方的等时线交叉点构造。无人战车追逃双方将在界栅上采用自己的最优策略,展开最激烈的争夺以达到取胜的目的。不同的障碍物对界栅的形状会有不同的影响,分析界栅的形状、对策空间的划分对于作战能力评价、指挥训练、作战等都有一定的价值。对其他形状障碍物的分析,以及相关最优策略的求解需要进一步探究。
参考文献
[1] 谭拂晓,刘德荣,关新平,等.基于微分對策理论的非线性控制回顾与展望[J].自动化学报,2014,40(1):1?15.
TAN Fuxiao, LIU Derong, GUAN Xinping, et al. Review and perspective of nonlinear systems control based on differential games [J]. Acta automatica sinica, 2014, 40(1): 1?15.
[2] 佟明安,王立新.三维空间双机格斗的捕捉区和危险区[J].航空学报,1989,10(11):536?544.
TONG Mingan, WANG Lixin. The capture and dangerous range for a three?dimensional two?aircraft air?to?air combat problem [J]. Acta aeronautica et astronau, 1989, 10(11): 536?544.
[3] 张秋华,孙毅,黄明明,等.近地共面轨道上两飞行器在径向连续小推力下的追逃界栅[J].控制与决策,2007,22(5):530?534.
ZHANG Qiuhua, SUN Yi, HUANG Mingming, et al. Pursuit?evasion barrier of two space crafts under minute continuous radial thrust in coplanar orbit [J]. Control and decision, 2007, 22(5): 530?534.
[4] 黄银春.导弹拦截飞机末端制导制导律和界栅的研究[D].哈尔滨:哈尔滨工业大学,2014.
HUANG Yinchun. The research about the barrier and guidance law of misslie intercepting aircraft terminal guidance [D]. Harbin: Harbin Institute of Technology, 2014.
[5] 原鑫,李擎,苏中.基于微分对策理论的两车碰撞问题[J].北京信息科技大学学报(自然科学版),2016,31(5):68?72.
YUAN Xin, LI Qing, SU Zhong. Collision problem of two cars based on differential game theory [J]. Journal of Beijing Information Science & Technology University (natural science), 2016, 31(5): 68?72.
[6] 车竞,钱炜祺,和争春.基于矩阵博弈的两机攻防对抗空战仿真[J].飞行力学,2015,33(2):173?177.
CHE Jing, QIAN Weiqi, HE Zhengchun. Attack?defense confrontation simulation of air combat based on game?matrix approach [J]. Flight dynamics, 2015, 33(2): 173?177.
[7] MITCHELL J S B. A new algorithm for shortest paths among obstacles in the plane [J]. Annals of mathematics and artificial intelligence, 1991, 3(1): 83?105.
[8] CHEN Jie, ZHA Wenzhong, PENG Zhihong. Multi?player pursuit?evasion games with one superior evader [J]. Automatica, 2016, 71: 24?32.
[9] 龚华军,杨长锋,王彪,等.无人机的追逃对抗仿真研究[J].控制理论与应用,2009,26(9):1019?1022.
GONG Huajun, YANG Changfeng, WANG Biao, et al. Simulation of pursuit?evasion among multi?UAV [J]. Control theory & applications, 2009, 26(9): 1019?1022.
[10] 黄力伟.求解微分对策问题的混合法[J].火力与指挥控制,2011,36(1):50?52.
HUANG Liwei. Mixed method for solving the problem of differential games [J]. Fire control & command control, 2011, 36(1): 50?52.
[11] RUIZ U. A visual feedback?based time?optimal motion policy for capturing an unpredictable evader [J]. International journal of control, 2015, 88(4): 663?681.
[12] 王发坤,秦艳琳.三维空间中追逃对抗定性微分对策模型研究[J].舰船电子工程,2008,28(7):8?10.
WANG Fakun, QIN Yanlin. Research on pursuit and evasion resist model in the space based on qualitative differential games [J]. Ship electronic engineering, 2008, 28(7): 8?10.
[13] 蔡文新,方洋旺,吴彦锐,等.基于马尔科夫跳变系统的微分对策制导律[J].弹道学报,2013,25(3):24?27.
CAI Wenxin, FANG Yangwang, WU Yanrui, et al. Differential game guidence?law based on Markov jump system [J]. Journal of ballistics, 2013, 25(3): 24?27.
[14] 车竞,郑凤麒.基于微分对策的追逃对抗仿真[J].飞行力学,2014,32(4):372?375.
CHE Jing, ZHENG Fengqi. Simulation of pursuit?evasion resistance based on differential game [J]. Flight dynamics, 2014, 32(4): 372?375.
[15] 李登峰.微分对策及应用[M].北京:国防工业出版社,2000.
LI Dengfeng. Differential strategy and its application [M]. Beijing: National Defense Industry Press, 2000.