崔 伟,崔 钢,房 磊
(空军航空大学,吉林 长春 130022)
建模的实质就是用一定的数学语言及符号来描述和解决实际现象和问题。在数学领域中它不仅是一种思考并解决问题的方法,更是采用相关语言和数学工具,通过抽象和简化去近似解决客观实际问题的一种措施。数学建模着重关注经济、社会、民生问题以及客观前沿问题,而军事建模则侧重军事领域中各类备战与打仗问题,是集全军上下官兵的智慧,应用数学工具和计算机技术,采用定量分析的方法来解决影响战斗力生成的瓶颈问题,为指挥机构决策提供数量依据的一种科学方法。军事建模的实质是利用数学工具与数学思维定量分析军事问题。以美国为代表的军事强国,早已把建模仿真应用在装备研发、训练演习等各个方面,其在建模与仿真应用中的经验非常值得学习和借鉴。在军事领域中,随着信息技术的不断发展,各类活动与数学思维结合得空前紧密。任务规划、辅助决策、装备运用以及作战效能评估等过程和环节都需要准确的计算与分析,这就要求我军学会并善于运用数学思维来分析和解决现实军事问题。军事建模的本质是将军事问题抽象为一个或多个数学问题,检验运用数学思维分析并解决具体军事问题的能力。文献[3]提出基于一体化的建模思想,而文献[4]则分析了军事系统与建模领域的发展,构建出完整的军事系统与建模领域知识图谱。
基于人工智能的算法战是美军第三次抵消战略中作战创新发展领域之一,其主要目的就是利用智能化发展和技术突破,不断中和甚至是抵消中俄等国与美军在装备规模和设备硬件水平等方面的代差,同时逐渐拉大武器装备在智能领域的差距,不断维持和扩大在未来军事上的优势。文献[5]介绍了算法战基本内容并分析了美军针对算法战开展的一系列措施。文献[6]讨论分析了算法战在空战中的落脚应用问题,有助于装备升级和智能化转型。
认知电子战能对各种电磁威胁目标进行自主预测、发现、识别、对抗并进行评估。认知电子战能从侦收到的海量数据中快速准确地分析出可用情报,从而可以智能选取最佳的电子攻击方式,通过不断感知来对电子攻击的效能进行整体评估和判断,并且能根据评估结果的好坏程度来指导下一次电子行动,是一个智能的、动态的、整体自适应系统。认知电子战的基本内涵有2种表述:一是从其本身所具备的能力现状和发展出发,主要强调其智能化、自适应特性和自主能力,这种从事物发展进程来理解的电子战称为认知化电子战;另一种则是从作战对象与作战过程中所面临的威胁出发,强调电子战能够自主对抗各类新型电子系统,因此将这种认知电子战称为认知系统电子战。可以看出,不论如何定义与描述认知电子战,其本质都是不变的,那就是自主性与智能化。文献[9]从体系对抗的高度以及作战视角描述了认知电子战行动的主要过程和环节。文献[10]则对认知干扰的建模与感知关键技术进行了探讨。
从最终作战效果来看,军事模型与算法战中的算法是一脉相承的,都是为了实现作战行动或解决军事问题而采取的一系列步骤与措施。算法战就是要通过一系列的算法来解决军事模型中所代表的具体问题。电子战不仅是现代信息化作战的重点元素与组成部分,在美军的橙旗、黑旗演习中也将电子战升级为一种典型的作战行动,因此利用算法战的思想对电子战进行建模不仅十分有必要,而且可以使电子战更加具有智能和敏捷的特征。基于这种融合思想,就可以搭建出“算法战-算法-模型-认知电子战建模”的模型链条。算法战以算法为驱动,模型以算法为核心,认知电子战建模为实践应用,从而可以有效促进算法战与认知电子战的融合与渗透,将认知电子战升级为有核心算法支撑的智能化、敏捷性作战行动。
在此模型链条中,各元素相互作用,协同发展。首先,模型对算法具有拓展作用,模型作为实施算法行为的工具手段,它延伸了算法的空间范围,同时模型简洁容易对算法也具促进与改善作用。其次,算法战的作战需求对算法有指导性作用,算法可以将人们分析处理问题的方法和思路数字化,并通过程序来实现作战意图。同样,算法对算法战也具有强化支撑作用。在信息化时代,算法是解决海量数据的最优工具。通过算法可将所有的作战行动以代码与指令的方式来分析和处理,从而真正解决算法战的核心问题。第三,算法对电子战作战模型具有驱动作用。随着现代战争智能化程度的提升,算法将逐渐成为控制和驱动电子战作战模型的大脑,成为整个电子战体系应用的核心。它将会促进与实现电子战系统的智能化,帮助电子战装备实体实现极限作战性能,全面提升电子战整体效能。最后,算法是抽象的,不能单独存在和运用,必须依托一定的电子战模型作为载体。在以算法战为支撑的电子战模型中,无论是各元素之间相互作用还是模型内部之间的相互关系,都将不断促进整个电子战体系的演变、优化和创新,推进电子战作战体系向着智能化的方向迈进。
对认知电子战来讲,其核心本质就是使己方有效利用电磁频谱,同时拒止或中断敌方接入和利用电磁频谱的能力,进而降低敌方利用电磁频谱的效能与效率。认知电子战中的电子侦察、电子干扰和效能评估是电子战的基本环节,不管是通信、雷达还是光电等领域的电子战,这些基本环节和代表的作战过程是不变的,完全可以构建起相对完整的军事模型。认知电子战的建模问题实际上就是关于电子战作战行动的军事建模问题。基于建模思想,实现算法战与认知电子战的渗透与融合,可以从以下3个层面来具体实现。
(1) 对认知侦察技术进行建模。迅速、精确而又全面地从战场环境中截获各种信息,利用机器学习、向量机等方法来展开对认知侦察技术的研究,建立自适应算法实现威胁信号分选、识别和特征提取,在侦察工作过程中不断积累和更新威胁信号,通过对数据库中信号知识的不断学习研究,从而实现提升认知能力的目的,为后续决策、电子攻击生成以及效能评估等过程提供支撑。认知侦察的模型与算法流程图如图1所示。图1中横向为模型流程,纵向为算法流程。从算法流程来看,认知侦察主要包括2个方面内容:一是先检测未知辐射源,判断当前条件下是否出现未知目标,针对未知目标和已知目标分别进行目标特征识别与状态识别;二是针对每种威胁目标识别其工作状态,根据识别结果更新识别模型,并对未知目标威胁等级进行评估。同时,认知侦察的输出为认知干扰模型提供作战支援信息,干扰模型在实施干扰的过程中会根据对抗环境的变化不断开窗进行自适应侦察。
图1 认知侦察模型与算法流程示意图
(2) 对认知电子干扰建模。基于智能化开发干扰技术优化算法,着重考虑和研究目标状态与干扰策略、目标威胁等级与对抗措施、不同类型对抗目标的干扰参数设置以及干扰策略选择等问题,从而达到所期望的最佳干扰效果。认知干扰模型与算法流程图如图2所示。图2中横向为模型流程,纵向为算法流程。从算法流程来看,模型首先接收认知侦察算法的识别结果,如果当前对抗场景中只有已知雷达状态则直接调用学习算法,从而根据已知目标的工作状态来学习并确定最优干扰样式。假如出现未知识别结果,当无法识别其工作状态时随机选择干扰样式。在侦察未知样本积累到一定程度后,可利用雷达数据聚类分析来划分出未知目标类别,同时识别出未知雷达工作状态,再次调用学习算法,对未知雷达的工作状态进行学习并确定出所需要的干扰样式。算法收敛后便存储多个雷达辐射源目标不同工作状态下的最优干扰样式,方便以后调用。
图2 认知干扰模型与算法流程示意图
(3) 对认知效能评估技术进行建模,建立智能化效能评估模型与方法。通过分析目标受干扰前后信号特征以及信号样式的变化情况,综合评估干扰样式的有效性和针对性。对各类目标工作状态的差异、不同工作状态时特征参数特性的不同进行全面分析和详细总结,在此基础上形成智能化效能评估推理机制,以便能准确推测目标当前所处的工作状态,进而不断指导并优化干扰措施合成,最终保证取得最佳的干扰效果。
在Q学习雷达对抗模型与策略中,表示在某一时刻雷达的工作状态,代表状态改变时从外部环境获得的奖励值,雷达对抗模型根据侦察到目前雷达的工作状态,在正确判断威胁等级的基础上,利用Q学习算法推测出并选择当前状态向量函数(,)最大时所对应的干扰策略,并且根据外部环境的不断变化和干扰效果及时调整相关参数,从而不断选择合适的干扰策略。
雷达威胁等级主要与雷达的威胁因素有关,而威胁因素又与雷达的工作参数密切相关。掌握了雷达的工作参数,就可以通过模型估计出雷达最可能的威胁等级。这些雷达的工作参数主要包括雷达瞬时带宽、重频以及脉宽等,威胁等级模型主要由威胁因素的隶属度函数以及对应权值构成。权值反映了威胁因素对威胁等级的作用强度,而威胁因素隶属度函数则代表了各威胁因素对威胁等级的影响程度,威胁程度评估模型为:
(1)
式中:()为威胁因素隶属度函数;为威胁因素的权值。
考虑到实际雷达的工作情况,威胁因素隶属度函数()主要包括脉宽隶属度函数()、瞬时带宽隶属度函数()以及重频隶属度函数(),根据雷达威胁程度与参数的关系,隶属度函数分别为:
(2)
()=1-e(-)
(3)
(4)
对威胁因素的权重而言,可利用环比评分法来确定:
(5)
(6)
式中:为威胁因素之间相互比较的重要性比率;为归一化后的权值。
代表在时刻雷达的工作状态,代表干扰机在时刻所采取的干扰策略或干扰样式,当雷达工作在状态时,干扰机选择干扰样式并进行干扰,干扰机在进行干扰时干扰效能评估为,即干扰效果回报值,∈,为干扰效果回报值矩阵。同时雷达受到干扰后转移到新的工作状态+1,那么,根据Q学习算法的基本原理,工作状态-干扰策略价值更新为:
(,)=(,)+[+1+
max((+1,′))-(,)]
(7)
式中:(,)为工作状态-干扰策略价值矩阵;为折现因子;∈(0,1),为学习因子。
Q学习中行为决策和值函数的迭代相互独立,是一种离线算法,采用值函数最大值进行迭代。
雷达存在多种工作状态,干扰策略集合中包含多种干扰样式,定义干扰效果回报值为:
(8)
式中:→min代表雷达威胁等级降到最低,这时奖励回报值为100;↔(!→min)代表工作状态除转向最低威胁等级状态之外的低威胁等级状态的转变;!↔代表工作状态的威胁等级不变或是升高,意味着干扰效果差,奖赏值为-1。
干扰机存在多种干扰策略,但由于外界条件的不确定导致干扰样式的选择不一定与理论值完全匹配,这就意味着不能直接单一选择某种干扰策略,干扰机需要在干扰策略的探索与利用之间进行平衡,这时便可以采用-Greedy算法进行干扰策略选择。∈(0,1),为探索因子,如果某次干扰策略选择的动作为“探索”,那么干扰机会在所有可能干扰样式中随机选择一种,执行相应的动作后并记录回报值;若某一次干扰策略选择动作为“利用”,干扰机会根据在探索过程中得到的经验从干扰策略集合中选择回报值最大的干扰策略并执行。根据上面的分析,对抗模型与策略算法如下:
步骤1:初始化(,)矩阵和值矩阵为零矩阵,并初始化学习因子、折现因子和探索因子。
步骤2:根据侦察情况,估计识别雷达的工作模式并对威胁等级进行估计,根据-Greedy算法选择干扰策略。
步骤3:开始循环
(1) 对雷达的工作状态进行侦察,估计新状态的威胁等级,若威胁等级发生变化则当前状态为新工作状态+1,更新雷达数据库;
(2) 增加(,)矩阵与相对应的行和列,利用式(8)计算干扰效果回报值;
(3) 利用式(7)更新(,)矩阵;
(4) 进行状态更新=+1;
满足条件,停止循环。
步骤4:输出干扰策略、选择方式和工作状态。
仿真实验:
在实际条件下,雷达具有发现、识别、搜索、跟踪、制导等多种工作模式,针对不同的作战需求和作战对象采用不同的工作模式。而针对雷达的这些工作模式状态,可采用噪声干扰、扫频干扰、距离欺骗干扰、速度欺骗干扰以及假目标干扰等多种干扰样式。对干扰机来讲,需要通过不断学习来确定雷达工作状态的威胁程度以及不同工作模式状态之间的转换,雷达根据任务需要以及外部干扰的变化也会不断调整自身的工作状态,因此不同时刻侦察机接收并判断出雷达威胁等级和工作状态是变化的,同时不断选择合适的干扰策略实施干扰,实时计算干扰回报矩阵与工作模式-干扰样式矩阵。假定雷达有,,,,,6种不同的工作状态,6种工作状态对应的典型信号参数分别为(PW,,)(PW,,)(PW,,)(PW,,)(PW,,)(,,),在侦察机侦收到以上参数时,根据式(1)~(6)可以计算出6种工作状态的威胁等级由高到低。
由于采用-Greedy算法来进行干扰策略选择,首先分析对算法的影响,初始化学习因子=09、折现因子=08;假定分别等于0.1、0.3、0.7、0.9,每次仿真在‖-+1‖<0005时认为算法趋于稳定。最大值和迭代运算次数以及随变化的结果如图4 所示。从图4中可以看出,随着迭代次数的不断增加,值不断增加并且逐渐趋于稳定,也就意味着经过迭代后可以得到最优干扰策略。当较小时,利用概率减小,探索概率增大,选择最佳干扰样式的概率也会逐渐增大,但此时所需要的时间也随之增加。反之,利用概率会逐渐增大,探索概率逐渐减小,无法得到最佳干扰路径。
图3 收敛值随循环次数的变化
图4 Q值随γ的变化
从算法本身可以看出,代表着模型对未来回报的重视程度。当逐渐变小时,代表模型仅开始关注当前出现的状态,而未来可能出现的状态对值的影响会越来越小。代表系统对每次增量的学习能力,取值越大代表学习能力越强。在=06时,随着不断增大,收敛的值也不断增大,表示对未来的回报折扣越来越小,如图5所示。此时随着学习率的不断增加,系统学习误差的能力不断下降,值完全收敛时(2次循环后值差为 0) 所需循环次数不断减小,系统决策时间也不断减少,如图6所示。值应越大越好,当=1时,可能会存在“过学习”的风险。在实际作战场景中,要根据现实情况的变化合理取值,在合理选择干扰样式的同时又能提升算法运行速度。
图5 Q值随α的变化
认知电子战军事建模的关键在于根据电子侦察、电子干扰、效果评估的军事要求以及已知情报数据状态和先验知识,构建能够解决对应实战电子战问题的算法,而算法战的核心内容就是算法本身。因此,利用军事建模的思想,实现算法战与电子战的深度融合,构建智力超群、灵活敏捷、系统鲁棒的认知电子战模型,对深化电子战领域纵向研究、拓展电子战研究内涵、为电子战注入先进算法、让电子战实体具备人类的智慧和独立遂行任务的能力是可行的,也是十分有必要的。