王盼盼,陈 谋,吴庆宪,邵书义
(南京航空航天大学自动化学院, 南京 211106)
近年来,无人机因具有战场适应能力强、生存能力强、低成本高效费比、配置灵活等优点,迅速成为一种新型武器装备。无人机为了有效完成不同任务,须具有一定程度的自主决策和自主规避能力[1],能在保证自身安全的前提下,自主完成进攻、防御和侦察等不同任务。因此,无人机应具有自主认知、自主决策、自主规划和自主控制能力[2]。提高无人机的自主威胁规避决策能力是适应现代化战争的必然趋势[3]。
依据人脑的行为认知模式,美国空军上校博伊德提出观察⁃判断⁃决策⁃行动的循环模型[4]。传统的威胁规避方法主要有预规划的全局式规避和反应式及时规避[5]。由于环境的变化,全局式威胁规避需要不断地进行重规划,使得其应用有很大的局限性;反应式及时规避方法是通过雷达等传感器实时获取局部环境的变化并做出反应动作。文献[6]提出一种可以提高无人机在动态环境下态势感知能力的速度障碍法,有助于生成规避威胁的机动。文献[7]提出基于混合时间集的脉冲微分包含模型,通过分析认知无人机⁃环境系统状态的运动模式,推导出系统防碰撞稳定的条件。结合人脑的思维模式和思维过程,文献[8]提出了基于知识库来实现无人机自主决策的方法。文献[9]提出了一种在非均匀结构雷达威胁模型下基于改进马尔科夫决策过程模型的多无人机航路规划算法,将航路威胁代价和航路综合代价有效降低了25%。利用卷积神经网络(Recurrent neural networks,RNNs)模拟人类的运动皮层,文献[10]在认知地图的基础上进行路径规划和控制决策,并用长短时记忆(Long short term memory,LSTM)神经网络对交通数据、车辆状态数据和车辆机动行为集合进行训练,辅助系统生成规划路径和决策。以上文献从类脑智能规避决策的角度出发,取得了一定的研究成果,但针对无人机威胁规避智能决策的研究仍处于初级阶段,需要进一步深入研究。
无人机自主威胁规避决策是无人机自主控制系统的核心环节,在无人机进行威胁规避时快速做出合理的机动决策对其安全具有至关重要的作用。受上述文献启发,借鉴人类在现实中遇到威胁,能利用直觉结合经验知识迅速做出适宜的判断和决策,快速高效的决策结果能有效避免安全事故的发生。因此,本文提出一种基于经验直觉的无人机威胁规避机动决策方法,模拟人类进行思维决策的过程,使无人机在面临威胁时能像人一样快速做出有效的威胁规避决策。
在复杂的飞行环境下,无人机不仅面临地形威胁、探测威胁、气象威胁,还面临非合作飞行单位威胁等。为了提高无人机的生存能力,需要快速高效地对所面临威胁做出规避决策。无人机通过模拟人类的直觉思维决策过程来进行威胁规避机动,实现基于机器直觉决策原则[11]的无人机威胁规避决策,可以提高无人机的智能威胁规避能力。无人机基于直觉决策原理的威胁规避系统工作原理如图1所示。
图1 无人机直觉威胁规避决策原理图Fig.1 Schematic diagram of UAV threat avoidance decision-making based on intuitions
无人机直觉决策首先要对外界环境进行感知和处理,信息感知过程包括通过传感器获取外界环境中的原始信息并将原始数据进行结构化处理;然后对感知的信息进行搜索匹配,包括情景记忆中相似情景的映射和对情景广义特征的提取;最后根据提取的特征进行机动决策输出。为了实现无人机有效威胁规避决策,本文选取无人机位置、速度、迎角、侧滑角、航迹倾斜角、航迹滚转角、航迹方位角、目标点位置、威胁距离、威胁方位和威胁速度等共15 维数据信息作为广义特征中的关键影响因素;接着对当前态势进行直觉决策,直觉决策包含直觉启发[11]规避和隐式直觉决策。隐式直觉决策是将本征抽象的广义特征直接映射到决策结果的策略空间,即根据当前态势信息直接获得决策结果。另外,直觉启发会对直觉本原中存储的知识进行更新以获得新知识并作用于策略空间,本文利用直觉启发以辅助无人机进行威胁规避决策。最后,通过隐式直觉决策出的结果和直觉启发决策出的结果进行博弈选择,从而获得最合适的决策结果。
在无人机飞行过程中,主要考虑无人机的前视区域威胁和机动限制条件,忽略无人机前视区域之外的威胁。假设无人机的机载传感器能够准确实时感知并获取无人机状态信息,并且机载雷达能准确实时探测到如图2 所示的前视锥形区域的威胁方位与威胁距离。由于雷达的原始数据是使用离散的点描述威胁信息,单个数据点不能准确描述威胁的相关信息,所以需要先将雷达探测到的数据点进行聚类处理。本文将无人机雷达扫描的前视锥形区域均等地划分为若干个扇形棱锥区域,扇形棱锥区域划分的越多,无人机威胁规避性能也就越灵活,但是计算量也会越大。综合考虑,将无人机前视探测区域均等划分成如图2 所示的12 个扇形棱锥,从机头正上方按照顺时针方向依次标记为S1,S2,…,S12。结合无人机威胁规避机动决策需要对7 种基本操作库[12]进行扩充并与12 种不同威胁规避区域相对应,如图3 所示,除此之外无人机动作库中还有匀速前飞、减速前飞和加速前飞。
图2 雷达探测区域与目标点距离示意图Fig.2 Schematic diagram of the distance between the radar detection area and the target point
图3 改进基本机动动作库Fig.3 Improved basic maneuvers library
威胁规避直觉决策模型中需要获取无人机当前态势下的环境信息。从无人机自身角度出发,需要准确获取无人机的位置信息、速度信息和姿态信息,包括无人机的位置、速度、迎角、侧滑角、航迹倾斜角、航迹滚转角和航迹方位角。考虑到复杂环境下无人机会遇到的地形威胁和非合作单位威胁,还需实时获取威胁的位置、速度和方位信息。同时为了防止无人机进行机动规避时背离目标点飞行,还需已知目标点的位置。
通过空速管、陀螺仪和机载雷达等传感器获取无人机的飞行参数和导航参数等如图4 所示的态势信息,将采集的连续12 帧[13]状态信息作为特征向量。对原始数据进行滤波,去除明显错误数据,并修补缺失数据[13],再对数据进行归一化处理并编码成特征向量,为直觉感知中的相似情景的映射和本征抽样做准备[11]。
图4 无人机态势信息感知数据树形图Fig.4 Tree diagram of UAV situation perception data
无人机直觉情景决策知识库的建立,不仅需要将感知数据结构化处理后作为输入数据,还需要输出直觉决策的机动动作。为了便于情景与决策结果之间的映射,将机动动作决策结果与决策标签进行对应。
根据飞行区域、法向过载和推力的改变,对无人机机动动作的7 种基本操作库[12]进行扩充后分别为向上爬升、右上爬升1、右上爬升2、右转弯、右下俯冲1、右下俯冲2、向下俯冲、左下俯冲1、左下俯冲2、左转弯、左上爬升1、左上爬升2、匀速前飞、减速前飞和加速前飞15 种模式。针对这15 种机动模式,分别设置1、2、3、4、5、6、7、8、9、10、11、12、13、14、15 共15 个标签值与之对应,如图5 所示。
图5 机动动作决策与模式解析标签对应图Fig.5 Maneuver decision modes and corresponding labels
无人机机动决策是一个动态的连续变化过程,在无人机机动决策过程中,威胁信息、无人机的机动状态和目标点的位置都有可能发生改变。为了使无人机在不同的飞行状态下,面对复杂的飞行环境都能实时规避威胁,必须准确感知无人机的态势信息,模拟人脑的大局观对当前态势信息进行预测评估,从而对无人机下一帧机动动作做出决策。当无人机直觉情景决策知识库中情景匹配不成功时,需要采用直觉启发算法辅助无人机进行规避决策。
若无人机当前时刻没有感知到威胁信息,只需按照预定的飞行路线保持原飞行状态继续飞行,但当无人机检测到威胁信号时,无人机需要改变原飞行状态,对机动动作选择进行实时迭代更新并进行机动规避。针对威胁信息的不同,需要选取不同的机动动作进行安全规避。为确定威胁规避区域,本文综合考虑威胁等级、目标点的引导作用和无人机的机动限制条件选择无人机的规避区域及其对应的机动动作,如图6 所示。
图6 无人机直觉启发规避区域选择原理图Fig.6 Schematic diagram of UAV intuition-inspired avoid⁃ance area selection
外部威胁对无人机的机动决策起到主要的影响作用,首先需要雷达准确获取威胁所在的方位、距离和速度信息。基于雷达探测所获取的威胁距离和威胁速度,对威胁等级进行评估判定。
无人机在规避的过程中还要考虑到目标点对无人机的引导作用,避免无人机为了规避威胁而逐渐偏离目标点甚至背离目标点飞行情况的发生,因此加入目标点引导概率函数。假设任务目标点的坐标为Oobj(xobj,yobj,zobj),为了方便计算,将其转化到机体坐标系下有[14]:
式中d为无人机前视区域的最大距离,p为无人机雷达的扫描角度。
此外无人机的机动限制条件也会影响其威胁规避动作的选择,所以要在无人机安全边界保护系统的范围内进行机动动作规避,以无人机安全飞行边界为基准,对规避动作进行排除,综合形成无人机直觉启发辅助规避机动决策结果。
LSTM 网络是在RNN 网络的基础上引入人脑的记忆机制和遗忘机制,能有效克服RNN 网络在训练过程中的梯度爆炸和梯度消失问题,而且利用LSTM 模拟人脑的记忆机制和遗忘机制的过程符合人对突发威胁的预判规避机制[13],所以用LSTM 网络训练无人机飞行数据,威胁数据和目标点数据,并与相应的机动决策标签集形成对应关系,从而建立无人机直觉情景决策知识库。
在无人机安全规避决策时,需要考虑LSTM网络在当前时刻的决策输出,然后通过softmax 函数[16]计算模型的输出,softmax 函数如下式所示
式中,A为无人机威胁规避的机动决策集合,s为机动决策集合A中的某个元素,y为机动决策s的输出概率,h为LSTM 网络隐含层最后输出,Wysh为逻辑回归的权重系数,by为逻辑回归的偏置项。
采用0⁃1损失函数计算样本的平均输出误差[16],通过基于时间的误差反向传播算法(Back propaga⁃tion trough time,BPTT)[17],来训练LSTM 网络。
以无人机飞行过程中威胁机动规避为研究背景,实验数据从某仿真系统[18]中提取。通过多次运行该仿真系统,得出无人机的态势信息以及机动决策信息,从中选取多组原始数据,针对每组12×15 数据信息进行滤波,去除明显错误数据,并修补缺失数据,再对数据进行归一化处理并编码成特征向量[13],同时记录下与之对应的机动决策标签集,形成映射关系并输入到LSTM 网络中进行训练,进而获得无人机直觉情景决策知识库,无人机隐式直觉决策基本框架如图7 所示。
图7 无人机隐式直觉决策框架图Fig.7 Framework of UAV’s implicit intuitive decision-making
本节结合2.3 节无人机直觉启发规避和2.4 节无人机隐式直觉决策,提出无人机威胁规避直觉决策算法,进而模拟有经验的飞行员进行直觉规避威胁。
通过对无人机直觉启发辅助规避决策和隐式直觉决策的研究,建立如图8 所示的无人机威胁规避直觉决策算法。对无人机多种经验模态的原始结构化信息进行训练,形成无人机情景记忆决策知识库。首先获取无人机的当前飞行态势数据,判断是否存在威胁,如果无威胁或威胁等级较低时,无人机保持原计划飞行;如果威胁等级处于中等但并不一定会对无人机造成实质性的损伤,无人机减速前行;如果威胁等级较高时,需要对无人机进行机动规避决策。然后提取并结构化处理传感器采集到的飞行数据、威胁数据和目标点数据等,归一化处理并编码成特征向量同时进行情景匹配,如果情景匹配成功,则对决策方案进行预评估,并选取最优决策方案到执行环节;如果没有匹配到成功的情景模式,则需要根据直觉启发辅助规避算法确定无人机的规避机动决策给执行环节,并更新无人机直觉情景决策知识库。
图8 无人机威胁规避直觉决策算法Fig.8 Intuitive decision-making algorithm for UAV threat avoidance
因实际地形过大,为便于仿真分析,将一个实际场景地形数据按照164∶1 的比例尺缩放到仿真三维地图上,包含地形威胁数据,则单个栅格长、宽和高均记为164 m。后续为便于仿真分析,直接使用栅格坐标。假设无人机起始栅格坐标为(10,10,86),无人机的终止目标栅格坐标为(290,270,34)。非合作探测雷达威胁数据和气象威胁数据如表1 所示,非合作飞行器威胁的起始栅格坐标为(300,10,35),终止栅格坐标为(10,300,20)。
表1 雷达威胁和气象威胁数据信息Table 1 Information of radar threats and weather threats
将20 000 组特征向量随机抽取80%作为训练集,剩下20%作为验证集。通过多次仿真实验得出效果最好的LSTM 网络的参数如下:隐含层记忆单元数目N=100,分批训练mini_BatchSize=512,训练迭代次数为2 000,步长α=0.001,超参数β1=0.900,β2=0.999,平滑项ε=10-8。图9 为训练样本在不同迭代次数下的训练准确率,从图中可以看出测试集准确率大约在1 400 次迭代之后达到90%,在1 640 次之后逐渐稳定在92%左右。图10 为信息迭代过程中LSTM 网络的损失函数的变化曲线,Mini⁃batch 损失收敛到0.35 附近。Adam算法[19]结合了Momentum 算法和RMSprop(Root mean square prop)算法的优点,能够自适应地调整学习率更新策略[20],对比使用SGDM 算法和RM⁃SProp 算法训练无人机直觉情景决策知识库模型,使用Adam 算法具有更好的直觉机动决策效果,如图11 所示。对比3 种模型可知Adam 算法不仅收敛速度快,且测试集决策准确度高于SGDM 和RMSProp 算法,所以基于Adam 算法的LSTM 网络更适用于实现无人机直觉情景决策知识库的建立。
图9 训练集和验证集决策准确率变化曲线Fig.9 Curves of decision accuracy rate changing with itera⁃tion for the training set and the validation set
图10 Mini-batch 损失变化曲线Fig.10 Curve of the mini-batch loss changing with iteration
图11 不同优化算法决策准确率变化对比图Fig.11 Comparison of changes in decision accuracy rates of different optimization algorithms
将地形数据信息、威胁信息和目标点信息经归一化处理并编码成特征向量输入到无人机直觉决策情景匹配数据库中,无人机基于经验直觉的机动规避决策序列如表2 所示。
表2 无人机直觉机动决策表Table 2 UAV intuitive maneuver decisions
航迹输出结果如图12~14 所示。其中绿色和黄色半球是不同威胁半径的雷达威胁,红色球体是气象威胁,红色曲线是非合作飞行器的飞行轨迹,绿色轨迹是无人机基于直觉决策平滑处理后的轨迹路线图。图12 是规避航迹俯视图,从图中可以看出无人机的飞行轨迹,实现了气象威胁的规避,但该图对无人机是否进入非合作目标探测雷达的探测区域不能清晰反映。从图13 中可以清楚地看出无人机通过左转弯有效地规避了非合作单位的威胁。结合图13,14,可以看出无人机不仅规避了非合作雷达的探测区域,还实现了地形规避。综上可知,无人机直觉决策算法成功规避多种威胁,确保航迹安全。
图12 多威胁情况下无人机直觉决策规避路径俯视图Fig.12 Top view of the UAV’s intuitive decision-making avoidance path in the multi-threat situation
图13 多威胁情况下无人机直觉决策规避路径左视图Fig.13 Left view of the UAV’s intuitive decision-making avoidance path in the multi-threat situation
图14 多威胁情况下无人机直觉决策规避路径前视图Fig.14 Front view of the UAV’s intuitive decision-making avoidance path in the multi-threat situation
相同飞行环境下无人机直觉决策规避路径与基于群智能算法的规避路径进行对比,如图15 所示,其中黄色曲线是基于群智能算法的规避路径。两种方法均能实现无人机安全规避,从图15(a)俯视图中可以看出两种方法规避路线没有太大的区别,从图15(b)的侧视图中可以看出直觉决策规避路径曲线更为平滑,尤其是机动5 到机动8 直觉决策规避路径比群智能优化算法规避路径的平滑性高。另外,对于具备成熟的情景决策知识库的直觉决策算法时间复杂度为O(1),即直接输出机动决策,而群智能算法时间复杂度为O(n),主要与样本的迭代次数相关。此时在时间复杂度上直觉决策算法优于群智能算法,但是前期需要花费大量的时间来建立和完善无人机情景决策知识库。该仿真实验中直觉决策算法的航迹总长度为68 671.72 m,群智能算法的航迹总长度为71 812.32 m,可见在航迹代价上直觉决策算法略优于群智能算法。
图15 两种不同算法下的无人机航迹曲线侧视图Fig.15 Side view of UAV trajectory curve of the two differ⁃ent algorithms
本文针对无人机在非博弈对抗飞行环境中安全规避威胁及智能机动决策问题,提出了一种基于经验直觉的无人机威胁规避机动决策方法。首先设计了无人机直觉启发辅助规避决策算法,然后提出基于数据的无人机隐式直觉决策算法,选用Ad⁃am 梯度下降算法调整的LSTM 网络对处理好的数据进行训练,建立了无人机直觉情景决策知识库,应用于无人机基于经验直觉的机动威胁规避决策。最终仿真结果表明该方法能准确地对无人机威胁规避进行直觉决策,进一步验证了所提出的基于经验直觉的无人机机动规避方法的有效性。