基于Q-Learning的编队防空目标分配方法研究

2022-07-12 06:02李双霖张修社韩春雷
现代导航 2022年3期
关键词:编队防空分配

李双霖,李 琳,潘 浩,张修社,韩春雷

基于Q-Learning的编队防空目标分配方法研究

李双霖,李 琳,潘 浩,张修社,韩春雷

(中国电子科技集团公司第二十研究所,西安 710068)

研究了编队防空目标分配问题,采用马尔科夫决策模型描述了编队防空动态目标分配过程,构建了编队防空目标分配强化学习系统,描述了系统组成,给出了基于Q-Learning算法的模型求解方法,并对模型效果进行了仿真分析,证明了该模型的有效性。

编队防空;强化学习;Q-Learning

0 引言

随着防空作战逐步面向编队化、协同化方向发展,使得作战决策问题逐渐复杂化,如何应对多平台、多目标实时决策分配问题成为现代化战争对编队防空作战提出的新要求。传统防空决策分配模型中存在大量规则性、经验性的描述,难以应对日益复杂多变的作战需求,本文尝试借助人工智能技术通过离线学习模拟人类智能,利用在线计算实时进行编队防空目标分配决策。

1 过程描述

传统编队防空目标分配模型只考虑了当前时刻的固定作战态势,属于静态分配问题,缺乏对作战过程动态性的描述。

本文建立的编队防空目标分配模型属于动态分配模型,其本质是在任务目标状态分析基础上的序贯决策过程,决策主体在进行策略选择时不但要顾及当前收益,也必须考虑当前所选择的策略对长期造成的影响。编队个平台对个目标的动态分配过程如图1所示。

图1 编队防空动态目标分配过程示意图

编队防空目标分配的结果就是将具备相应任务能力的武器资源与对应的打击目标连接起来,可表示为三元组如式(2)所示:

式中,为待打击的目标;为执行打击任务的平台;为任务开始执行的时间。则编队对个目标的分配结果可以看作是上述三元组的集合:

目标分配的目标就是:求解一个合适的方案*,使得整体最终效能达到最优,即:

2 马尔科夫决策模型

马尔科夫决策(Markov Decision Process,MDP)是一种随机过程,该模型能够提供一种非常简便的表达方式,对于解决序贯决策问题十分有效。

MDP过程所研究的系统处在一个不断动态变化的过程中,首先假设对于MDP过程的任一时刻t的状态仅和前一时刻t-1的动作和状态有关,即该系统具有马尔科夫性。MDP模型如图2所示。

图2 马尔科夫决策模型示意图

MDP模型通常可以用四元组[,,,]来表示,其具体含义如下:

1)状态空间(State Space):表示马尔科夫决策过程中系统所有可能出现的状态的集合,状态的数量是不可知的,只要满足非空条件即可,状态空间是对系统的一种描述,能反应其复杂度;

2)行动空间(Action Apace):表示马尔科夫决策过程中可以采取的行动集合,对于系统的某一状态S∈,(S)代表决策者在该状态下所有可能采取的行动;

3)状态转移函数(Transition Probability Function):表示马尔科夫决策过程中,选择动作a使系统由一个状态S转换到另一个状态S+1的概率,本质上是系统状态空间的概率分布,任意一个状态所对应的行动集合的状态转移概率之和应为1;

4)回报函数(Reward Function):表示马尔科夫决策过程中选择一个动作并执行后所获得的奖励值。

MDP问题的决策策略π可以看作是系统的状态到智能体的动作的映射,该映射需要使智能体选择的动作能够产生最大的累积回报。

MDP模型适合于描述编队防空动态目标分配过程,把基于分配策略的收益作为目标函数来制定决策,建立目标分配最优策略对到来的目标如何进行分配加以控制,使来袭目标群造成的总威胁降到最低,从而使系统长时间内产生的总体收益达到最大。

3 编队防空目标分配强化学习模型

3.1 系统组成

强化学习是MDP框架下的一种机器学习方法,强化学习系统中的智能体由于缺少先验知识,只能通过不断地试探来学习,这样智能体通过与环境持续不断的交互,反馈调整下一次的策略选择,最终达到目标。其算法的特点是对先验知识要求较少,需要接受环境的反馈信息,并且这种反馈是以奖赏的形式给予的。

利用强化学习模型构建编队防空目标分配智能决策系统,如图3所示。

图3 编队防空目标分配智能决策系统组成示意图

3.2 模型构建

系统包括三个组成部分:一是态势感知器,主要完成对环境的感知,获取编队各平台的位置、武器状态以及任务目标位置、状态等信息,通过加工处理获得系统当前状态信息;二是学习系统,根据状态信息机奖励信息,通过自主学习,完成任务决策;三是动作执行器,根据学习系统期望输出的动作,完成打击任务,并进行环境状态更新。因此,编队防空目标分配强化学习模型基本要素如下:

1)状态空间

针对编队防空目标分配问题,可以选取目标相对各平台的距离、航路捷径、抵达时间以及平台武器对其毁伤概率作为系统状态信息,用×4的矩阵表示,=[1,1,1,1;…;i,i,DtPh;…;D,M,DtPh],其中表示编队平台数。

2)动作空间

3)回报函数

回报函数是指智能体在与环境的交互过程中,由感知的环境状态(或状态—动作)到强化信号的映射,是对动作执行后的评价,用来指导今后的动作选择。奖励信息一般用一个标量来表示,如果得到正数表示得到环境的正回报,即奖励;得到负数表示得到环境的负回报,即惩罚。

在编队防空目标分配强化学习系统中,可以用式(6)对每一次动作执行的“好坏”进行评价:

式中,max表示武器可拦截目标的最大航路捷径。

3.3 模型求解

Q-Learning算法是强化学习中最实用的一种方法,它在迭代时采用状态动作对的值(,)作为估计函数,表示从状态出发选择动作所可能获得的奖励值,称为值。在获得正确的值后,在每个状态选择值最大的动作,就是当前最佳策略。Q-Learning算法的核心思想就是通过与环境的交互,迭代逼近真实的值,对于当前时刻,其更新公式如式(8)所示:

式中,r+1是对动作执行后的评价;()表示可行动作集;为折扣因子,取值范围0~1,主要用于平衡长期回报和短期回报,其越接近1,则更多的是考虑长期回报,越接近0,则考虑的多为短期回报;为学习率,用于控制算法学习效率。

Q-Learning算法给每个状态动作对一个随机的初始值,从初始状态出发,选择值最大的动作,按照这个过程不断的累积数据。每一组数据表示为一个五元组[sas+1,r+1,],将每一组数据带入值更新公式更新相应的值,交替进行数据的积累和值的更新,直到值收敛,算法流程如图4所示。

图4 Q-Learning算法流程图

4 仿真分析

在四艘舰艇编队下,设计来袭目标场景,采用Q-Learning算法,设置学习率=0.9,折扣因子=0.8,对上述编队智能防空目标分配模型进行仿真分析。

仿真想定如图5所示,设置来袭目标数量为12批,目标分配决策结果如表1所示。

图5 仿真想定示意图

表1 目标分配决策结果

根据目标分配结果可以看出,对于近距离低空导弹目标,系统选择了前出的舰艇2、3进行抗击,对于远距离的飞机目标,系统选择了拦截距离较远的舰艇1、4进行抗击,目标分配结果合理可行。

分别设置不同的学习次数,统计决策结果的正确率,对离线学习效果进行分析,结果如图6所示。

图6 Q-Learning算法训练效果

根据图6的结果可以看出,通过增加训练次数,可以有效提高系统目标分配能力。

在不同目标批数的情况下,对比Q-Learning算法与遗传算法(Genetic Algorithm,GA)(种群规模:100,迭代次数:100)的决策时延,结果如图7所示。

图7 决策时延对比图

可以看出,GA算法运行时延与问题解空间大小无关,只与种群规模和迭代次数相关;本文采用MDP模型,其问题求解时延与目标批数增加呈正相关,同时Q-Learning算法可以利用学习机制,将累积知识经验形成表,从而根据当前状态快速查表进行响应,其实质是将复杂繁琐的求解耗时通过离线学习的方式形成经验,进而实现在线快速求解。

通过仿真,从决策结果正确性、模型训练效果和决策时延等方面验证了本文构建的编队防空智能目标分配模型的有效性。

5 结论

随着人工智能技术的不断发展,其在军事决策领域的应用逐步成为近年来的研究热点。但是由于现代战争是一个高度复杂的过程,存在大量的经验、规则及环境、政治等主客观影响因素,且可用于训练的样本数据极度匮乏,导致许多较为成熟的算法不能直接使用。如何将复杂的作战问题简单化,采取分而治之的思路去解决问题,同时通过逼真的仿真环境进行博弈对抗来累积作战过程数据,是未来人工智能在军事领域应用亟需思考的问题。

[1] 陈军,张新伟,张修社,等. 网络化舰艇编队的协同防空效能分析[J]. 光电与控制,2015,22(3):15-19.

[2] 刘建伟,高峰,罗雄麟. 基于值函数和策略梯度的深度强化学习综述[J]. 计算机学报,2019,42(6):1406-1438.

[3] 谢俊洁,罗鹏程,穆富岭,等. ABMS中基于Q学习算法的空战目标分配方法[J]. 系统工程与电子技术,2017,39(3):557-561.

[4] 刘钦,韩春雷,张扬,等. 人工智能在对空指挥决策中的应用[J]. 火控雷达技术,2019,48(2):1-8.

Research on Target Allocation Method of Formation Intelligent Air Defense Based on Q-Learning

LI Shuanglin, LI Lin, PAN Hao, ZHANG Xiushe, HAN Chunlei

The target assignment of formation air defense is studied, markov decision model is used to describe the dynamic target assignment process of formation air defense, the formation air defense target allocation reinforcement learning system is constructed, the system composition is described, the model solving method based on Q-Learning algorithm is given, and the model affect is simulated and analyzed, which proves the effectiveness of the model.

Formation Air Defense; Reinforcement Learning; Q-Learning

TN966

A

1674-7976-(2022)-03-207-05

2022-03-09。

李双霖(1989.11—),山西运城人,硕士研究生,工程师,主要研究方向为协同作战信息系统。

国防科技基础加强计划资助

猜你喜欢
编队防空分配
英国天剑防空系统
美173空降旅与克罗地亚防空团正在进行实战演练,发射FIM-92毒刺防空导弹
防空营打靶记
LY-70:防空领域的“变形金刚”
1种新型燃油分配方案设计
Crying Foul
遗产的分配
基于事件驱动的多飞行器编队协同控制
电磁航天器编队位置跟踪自适应协同控制
基于RQPSO-DMPC的多无人机编队自主重构控制方法