基于AHP-DQN的作战效能优化方法研究

2023-06-12 10:31王国岩曹红松刘鹏飞张芝源翟超凡

指挥控制与仿真 2023年3期

王国岩,曹红松,刘鹏飞,张芝源,翟超凡

(中北大学机电工程工程学院,山西太原 030051)

某国外舰艇编队威胁海域安全,使得反水面作战策略研究更加紧迫。本文采用兵棋推演平台——“墨子联合作战推演系统”,制定不同的作战策略,并进行作战过程仿真与效能优化分析。

目前,国内通过兵棋推演进行作战策略效能评估的研究很多。程恺等人将作战行动效能(即作战效能)定义为作战单元在规定条件下,完成其作战任务的有效程度[1]。刘翔宇[2]等人将作战方案评估归结为6类,并对3种典型作战方案进行了分析。赵玉鹏[3]等人基于仿真推演,从海战推演的不同阶段全面地分析提取关键因素,综合模糊评判和层次分析构建了海战的综合评估模型,但并未结合仿真进行验证。刘海洋[4]等人在规范评估指标后,以兵棋推演实验产生方案级指标度量结果,降维后构建基于深度学习的评估模型,并利用数据样本对评估模型进行训练。李勇[5]等人对压制机场跑道作战过程进行建模,构建机场跑道打击方案评估模型,并进行了示例验证。以上的文章均未涉及齐射武器数、导弹的选择以及战机发射导弹的高度等参数对作战效果的具体影响研究,本文采用墨子联合作战推演系统,基于蓝方防空反导设定条件下制定了红方的作战策略,依据经验法,分别以陆基、空基、海基为主探索了引诱、攻击等作战过程,获取仿真数据,以AHP(Analytic Hierarchy Process)法获取其作战效能,以AHP的权重引入DQN(Deep Reinforcement Learning)算法的奖励值,对海基策略进行优化,生成新策略,分析对比4种策略的优劣。

1 作战想定设计

想定设计主要是确定作战场景、武器装备及部署、作战规则。假想蓝方以舰艇编队威胁红方海域安全,红方进行主动打击,以击中毁伤为作战目的,蓝方舰队携带“标准3”等舰空导弹,本次想定设计蓝方以防空反导为主要策略。

1)作战场景

选择一片海域作为作战场景,海域上分布小岛,可起降战机,在大陆部署陆基反舰导弹。

2) 蓝方兵力部署

蓝方为舰艇编队,由1艘航母、1艘巡洋舰、4艘驱逐舰组成[6],在该海域朝向西北方向航行。巡洋舰距离航母前方40海里警戒,4艘驱逐舰距航空母舰8～10海里环状铺开。队形如图1所示。

图1 蓝方舰队队形Fig.1 Blue fleet formation

3)红方兵力部署

红方对于海域的防护主要采用3种方式,分别是基于陆基、海基、空基打击为主的策略。因此,兵力部署也按照3种策略进行设计。

①陆基打击兵力部署

陆基打击主要采用A、B两款导弹,分布于红方各地。8枚B导弹部署于大陆北部,考虑到射程小,16枚A导弹部署在南方,如图2所示。

图2 陆基打击兵力部署Fig.2 Land based strike force deployment

②海基打击兵力部署

海基打击主要利用舰载导弹为主进行攻击,部署驱逐舰携带64枚C导弹,部署航母1携带32枚D导弹。同时部署航母2搭载多战机共携带80枚E导弹用于突防,如图3所示。

③空基打击兵力部署

空基打击以机载导弹为主,红方岛屿机场共部署多架歼击轰炸机共挂载C3导弹攻击蓝方舰队。红方部署驱逐舰携带64枚E导弹用于突防。部署情况如图4所示。

图3 海基打击兵力部署Fig.3 Sea based strike force deployment

图4 空基打击兵力部署Fig.4 Air based strike force deployment

2 红蓝方导弹装备及性能分析

1)蓝方导弹及性能

舰艇编队自身携带的导弹射程以及可拦截的来袭导弹速度与高度范围如表1所示。

表1 蓝方舰空导弹性能Tab.1 Performance of blue ship to air missile

表中可信度代表了基准命中率。从表1可以看出,主要的舰空导弹有4种,可信度均较高。射程覆盖广,目标涵盖高、中、低空。

2)红方导弹及性能

由于红方计划采用陆基、海基、空基为主的三种打击策略对舰艇编队进行突防和攻击,本文重点分析导弹穿透率、射程、速度以及巡航高度等战技指标,其具体性能参数如表2所示。

表2 红方各反舰导弹性能Tab.2 Performance of each anti-ship missile of the Red Party

表2中,穿透率以及毁伤参数代表单枚导弹穿透了目标的百分比以及在此穿透率下的毁伤能力,该毁伤能力可表征弹药当量。如墨子系统中,航母损伤点设为7 700 DPs,A导弹穿透率为100%下毁伤是4 200 DPs,即1.83发A导弹即可完全毁伤航母。而巡洋舰、驱逐舰的损伤点分别为1 320、1 270 DPs。另外,A、B导弹射程远、速度高,均达到11Ma,适合陆基超远距离打击;C导弹可基于多平台发射,基于平台的不同分为C1、C2、C3,飞行速度均在2～4Ma之间,相对机动性高、不易被拦截,适合做中期的攻击;D导弹为舰载反舰导弹,毁伤大但巡航段速度仅为0.8Ma,前期易被拦截,适合在作战后期攻击。E导弹射程达800 km,巡航速度仅为0.7Ma,速度慢,毁伤小,适于在作战中引诱敌方;F导弹属机载超声速反辐射导弹,飞行速度为2.4Ma,可用于打击敌方雷达、发射架。

3 红方打击策略的设计与分析

红蓝双方依据各自导弹性能制定作战策略,蓝方以防御敌方导弹为主,红方以击沉舰队为目标。

3.1 蓝方导弹防御策略

在作战时,蓝方为确保舰队安全,以舰队雷达进行监测,发现敌方舰队自动规避,武器均在最大射程自动开火。其中“标准3”拦截导弹,“海麻雀”、“海拉姆”、增程主动弹拦截导弹、战机。“海拉姆”以单发齐射方式拦截。其他蓝方导弹对于超声速导弹,4、5代战机,以2发齐射方式进行拦截,其他目标以单发齐射方式拦截。此外,“标准3”和“海拉姆”自防御距离为最大射程,其余导弹为9.26 km。

3.2 红方打击策略设计

红方反舰的导弹有陆基、海基,空基三种平台,以每一类平台为主,通过仿真计算确定突防、攻击时不同的导弹数量、齐射方式,从而确定作战策略。

1)陆基打击为主的作战策略与分析

① 突击策略

本次设计红方发射8发导弹进行突击。针对航母、巡洋舰、驱逐舰目标,采用1发、2发、4发的齐射策略进行突击。在墨子系统中,分别对不同的方案仿真,统计蓝方导弹命中率、红方导弹引诱比,结果如表3所示。

表3 导弹齐射突击策略比较Tab.3 Comparison of A missile volley assault strategies

墨子系统中,命中率基于目标速度、目标信号特征以及弹目方位角进行了修正,修正公式如下:

(1)

其中,P基准为导弹可信度,P目标速度修正为20%,P目标信号特征修正为10%[7]。由图2、式(1)和表3可知,A导弹任一齐射方式下突击航母、巡洋舰、驱逐舰时,标准3的命中率随其与A导弹的Target方位角增大而降低。并且由表2可看出,“标准3”的命中率随着A导弹齐射数的增加而降低,即突击策略选择以4发齐射突击驱逐舰,此时“标准3”修正角大,命中率最低,A导弹的引诱比最大。

② 攻击策略

在突击阶段完成后,由表1、表2知,这两种弹不在蓝方剩余弹药的拦截范围内,蓝方对陆基反舰弹道导弹的拦截威胁已清除。攻击阶段由A、B导弹攻击舰艇编队。但航母以及巡洋舰的防御型ECM对主动雷达导引头具有35%的干扰概率,MK214具有20%的干扰率。需要通过计算所需导弹数量、多种齐射方式仿真,查看红方弹药利用情况、毁伤效果来确定攻击各舰的弹药数量、齐射方式。

以航母为例,实施方案如下:

•确定分配弹药数量

由导弹需求数量公式:

(2)

式中n为击沉某水面舰艇所需导弹数量,PCredibility为导弹可信度,PECM为防御型ECM的干扰率,PJammer为干扰弹的干扰率,PInterception为舰空导弹的平均拦截率,求得击沉航母所需的弹药量为3.542 5发B导弹或者4.21发A导弹,为比较相同当量下的攻击效果,两种弹均选择4发。

•确定弹药齐射方式

经蒙特卡洛仿真得2种弹不同齐射数量对航母的毁伤和弹药利用的情况,如表4所示。

表4 弹药毁伤效果Tab.4 Ammunition utilization and damage effect

由表4可知,B导弹的攻击效果具有起伏性,2发齐射效果最差。A导弹单发与B导弹4发齐射在所有攻击方式中对航母毁伤数同为最高0.85艘,且前者故障数较低,但B导弹命中数比A导弹多0.43发,未命中数比其少0.57发,因此,选择总数4发的B导弹以4发齐射攻击航母。

同理为驱逐舰各分配1发B导弹,为巡洋舰分配2发A导弹齐射。

③ 补射策略

经20次蒙特卡洛攻击仿真后,得蓝方损失如表5。

表5 装备损失

蓝方被攻击后,剩余受损严重的巡洋舰一艘、航母一艘、驱逐舰两艘,红方剩余6发导弹。为达到击沉剩余舰艇、弹药消耗最少的目的,以巡逻任务方式对战舰单发补射,同样仿真20次,4.3发导弹能够将剩余舰艇完全击沉。

通过上面的武器数量、攻击方式的设计与仿真分析,得作战策略流程如图5所示。

2)以海基打击为主的作战策略与分析

① 突击策略

据式(2),巡洋舰需分配70.34枚F导弹,这里共携带72枚F导弹低空[8]突袭巡洋舰。经仿真,其中44.9发命中,使巡洋舰雷达、发射架完全失去功能。

图5 陆基策略流程图Fig.5 Land based strategy flow chart

同样,航母需分配58.81枚E导弹,这里取整分配60枚进行。经仿真,共消耗蓝方133发拦截的A/D型“海麻雀”导弹,另外19发击沉航母,2发击沉1艘驱逐舰,6枚未命中,29枚被拦截,4枚发生故障。

② 攻击策略

在巡洋舰失去拦截能力,航母被击沉后,红方以某舰的C2三发齐射攻击残余舰艇。经仿真,完全攻击成功需要3波次发射,不再补射。

通过上面的武器数量、攻击方式的设计与仿真分析,得作战策略流程如图6所示。

图6 海基策略流程图Fig.6 Sea based strategy flow chart

3)以空基打击为主的作战策略与分析

① 突击策略

红方驱逐舰发射58枚E导弹。经仿真,其中2.3发击沉了1艘驱逐舰,55.4发消耗增程主动弹、A/D型“海麻雀”共131枚,为后续攻击清除障碍。

② 攻击策略

依据式2,巡洋舰的攻击需分配导弹7.424 1发。第一波分配多架战机携带8发C3导弹,以低空飞行躲避雷达方式攻击巡洋舰。仿真结果显示2.3发击沉了巡洋舰,1.6发未命中,0.5发故障,3.6发被“海麻雀”导弹拦截。

驱逐舰需分配6发,第二波分配多架战机共携带6发C3导弹进行最小高度攻击[9]。经仿真,命中驱逐舰4.5发,3发未命中,1.1发故障,9.4发被拦截。

计算得航母需分配23.5发,以多架战机共携带24发C3导弹,在13.716 km最大高度、距目标9.26 km进行饱和攻击,同时,武器发射条令以27.78 km单发齐射,提防剩余驱逐舰。经仿真,10.8发命中,7.5发未命中,1.7发故障,4发被拦截。

通过上面的武器数量、攻击方式的设计与仿真分析,得作战策略流程如图7所示。

图7 空基策略流程图Fig.7 Air based strategy flow chart

3.3 三种作战策略仿真结果分析

经仿真得蓝方装备平均损失如表6。

由表6可知,3种策略均能使巡洋舰平均损失96%、航母平均损失97.6%、驱逐舰平均损失数量92.8%,策略有效,可在此条件下进行作战策略的分析与比较。

表6 蓝方装备平均损失Tab.6 Average loss rate of blue equipment %

4 作战效能建模与分析

作战策略效能评估的方法有数学解析法、试验统计分析法、专家评估法等,层次分析法AHP作为专家评估法的一种,具有系统、实用、简洁的特点。DQN算法是DeepMind团队[10]提出的一种off-policy的深度强化学习算法,是对Q-learning算法思想的延伸,在该算法基础上,引入了人工神经网络代替Q-table,可解决离散动作在连续状态空间的问题。

通过依据各层级评估指标建立层次结构模型,构造两两比较判断矩阵,计算判断矩阵权重,判断矩阵一致性检验的顺序,从而获得经验法中作战效能较优策略,在此基础上以AHP的权重引出DQN算法的R值,对较优策略进行优化。

1)作战效能层次模型建立

建立层次结构模型需要依据各层级评估指标[11],评估指标应是可比较、计算、测量、分析的,应真实客观,不受主观因素的影响。

根据墨子系统的仿真数据,将作战策略的效能设为目标层A,以引诱、攻击、毁伤、生存、稳定能力[12]作为准则层B,指标层C为评估作战效能的各项指标。具体评价指标如下:

引诱能力(B1):代表了在正式攻击前进行的引诱,引诱能力的高低将直接影响后期的攻击与毁伤。C1为引诱密集度:引诱时间内,红方1发弹每分钟内引诱的蓝方弹的数量。C2为引诱种类比:红方弹种与其引诱的蓝方弹种之比。C3为引诱当量密集度:红方引诱总当量与引诱时间之比。C4为对敌舰伤害:红方引诱弹对蓝方舰艇的伤害。

攻击能力(B2):代表了对蓝方的打击能力。C5为抗拦截密集度[13]:攻击时间里,单发蓝方拦截弹单位时间内遭遇的红方弹的数量。C6为抗干扰密集度:攻击时间里,单发蓝方诱饵或干扰弹单位时间内遭遇的红方弹的数量。C7为攻击当量密集度:红方攻击总当量与攻击时间之比。C8为命中率:红方命中数与发射数之比。

毁伤能力(B3):代表对舰队的毁伤效果。C9为舰船毁伤:蓝方航母、巡洋舰、驱逐舰平均毁伤数量。C10为战机毁伤:蓝方舰载机平均毁伤数量。C11为人员伤亡:战舰和战机毁伤造成的人员伤亡。

生存能力[14](B4):遂行任务中后期,红方单位的存活能力。C12为距航母的平均距离:红方单位与舰队的平均距离,选取舰队典型目标——航母作为基准。C13为单实体防护:红方各单位的防护能力。

稳定能力(B5):包含了使战术更加稳定的因素。C14为用弹种类:整个过程所用的弹的种类,种类越多,可选的攻击方式越灵活多变。C15为协同方式[15]:对时间协同、空间协同、功能协同方式的使用。C16为战术融合度:引诱与攻击的重合时间。

依据上述指标建立策略作战效能层次结构模型,如图8所示。

图8 作战效能层次结构模型Fig.8 Hierarchical structure model of operational strategy effectiveness

2)指标判断矩阵建立

利用9分位标度,两两比较指标层建立衡量指标,比较结果可得如下矩阵。

(3)

3)判断矩阵权重计算

由yaahp软件计算得到准则层内5因素对目标层的权重以及指标层5个矩阵对准则层B1到B5的权重,如表7所示。

表7 综合权重

由上表可知,毁伤能力是影响作战效能最重要的因素,权重达到0.413 8,各指标权重均在0.13以上,其次是攻击能力,权重为0.273 4,引诱能力对作战效能影响也较大,生存能力、稳定能力对此影响较小。得AHP效能计算公式,即

Evalue=0.371*x1+0.010 3*x2+0.026 5*x3+0.062 8*x4+0.034 2*x5+0.034 2*x6+0.102 5*x7+0.102 5*x8+0.142 8*x9+0.137 9*x10+0.133 1*x11+0.040 1*x12+0.050 1*x13+0.0143*x14+0.042 9*x15+0.028 6*x16

(4)

其中,x1～x16为方案层对标准层的权重,将经验法的3种策略仿真数据整理代入式(4),可得各策略的效能:海基(0.398 123 83)>陆基(0.327 920 52)>空基(0.273 822 18),即知以海基为主的打击策略具有较高效能。

4)基于AHP-DQN的效能优化

由上可知海基策略效能较优,为求得效能最优解,可在第二组仿真基础上进行优化,这里使用DQN算法。

DQN在探索方式上采用ε-greedy的策略,即根据当前的输入状态s和最新估值的Q(s,a),以概率(0,1]选择argmaxa∈AQ(s,a),以概率ε随机选择动作,随着训练的进行,ε在区间(0,1]线性变化,DQN也从“强探索弱利用”转化至“弱探索强利用”[16]。具体Q值更新公式如下:

Q(S,A)←Q(S,A)+α[R+γmaxQ(S′,a)-Q(S,A)]

(5)

其中,α为更新步长,α越大,表明越靠后的累计奖励越重要;γ为折扣奖赏权重,γ值越大,表明之前的经验越重要,R为奖励或回报函数,引导神经网络加工输入状态信息的特征[16],直接影响DQN算法的收敛速度和性能。

以引诱密集度为例,对E导弹航线进行规划即可引起其引诱能力的变化,进而引起方案层对标准层权重的变化,即该类权重实际应为某个范围,如表8所示。

表8 方案层对标准层权重范围Tab.8 Weight range of scheme layer to standard layer

即DQN的Agent将在以上连续状态空间动作,以获取最大奖励。由实际可知,引诱种类比、距航母的平均距离、单实体防护、用弹种类不会变化,因此,表中仅列出了12个权重范围。

将式(4)作为DQN的回报函数:

(6)

从式(4)、(5)能够看出引诱密集度、附带损伤等共16个指标权重对DQN优化计算的影响。

AHP定奖励的DQN效能评估优化具体步骤详见算法:

算法 APH定奖励的DQN[17]作战效能优化。

输入:明确目标xi范围,Q网络目标参数,Experience buffer等参数。

输出:16个目标参数与效能分配表。如图9所示。

图9 AHP-DQN算法流程图Fig.9 AHP-DQN algorithm flow chart

经过53 804次训练,最终得到能使Evalue最大的各目标参数,以训练得到的参数组成第4种作战策略,4种策略各指标效能如图10所示。

图10 各策略指标比较Fig.10 Comparison of various strategic indicators

由图10中SUM可将各作战策略效能排序:海基优化(0.419 455 73)>海基(0.398 123 83)>陆基(0.327 920 52)>空基(0.273 822 18),基于AHP-DQN改进的策略4作战效能最优,由图10整理,可得单一指标效能的提升如表9。

表9 单一指标效能提升百分比Tab.9 Single indicator performance improvement %

由表9可知引诱密集度提升最多,达到30.28%,人员伤亡提升较小,仅0.09%。整体效能比未经优化的海基策略提升5.36%,表明了基于AHP-DQN优化的有效性,也说明了海基策略在引诱、攻击、协同方式等方面还有提升空间。基于经验法的策略中,海基打击为主的作战策略较优,其在附带损伤、命中率、协同方式等方面有较高表现,尤其攻击当量密集度、战术融合度远超其他2种策略,但距离航母较近。而陆基策略在引诱密集度、引诱当量密集度、距航母距离以及单实体防护方面表现突出,体现了陆基导弹的优势。相较于海、陆基策略,空基策略在引诱、抗拦截、毁伤上有优势,但距离近,防护性能不高。

5 结束语

本文以舰艇编队威胁海域安全为背景,基于墨子联合作战推演系统建立了想定,详细设计了以海陆空基为主的3种打击策略,采用蒙特卡洛的作战过程仿真分析了武器装备毁损相关参数。以此构建了效能评估指标体系,基于AHP建立了作战效能评估模型,并在海基策略的基础上加入了强化学习算法,形成AHP-DQN优化方法。结果显示,优化后的海基打击策略效能最高,海基次之,陆基稍次,空基打击相对损耗高,打击效果差。所建模型较清晰地展现了各作战策略优劣,对海陆空联合作战具有参考意义,所采用的方法对作战策略研究与优化具有参考价值。