韩 晨 刘爱军 牛英滔 李永贵 童新海
1.国防科技大学第六十三研究所 江苏南京 210007 2.陆军工程大学通信工程学院 江苏南京 210007
电磁频谱安全是维护国家安全的重要保障[1-2].2012年,美军基于认知思想提出认知电子战,其目的是通过研究新的干扰样式,改善干扰效果,提高频谱优势[3].近年来,干扰智能化的相关研究得益于认知理论的迅速发展而逐渐深入,并引起了学术界的广泛讨论,对其研究热情也日益高涨.Roberto D P 等指出认知干扰应具备认知无线电的能力,可以通过感知学习来选择最佳的干扰策略[4].武忠国研究了认知电子战中干扰波形的设计问题[5].吴剑锋等基于遗传算法提出认知引擎以优化干扰决策[6].Pelechrinis K 等提出认知干扰机应针对通信协议的薄弱环节施加干扰,以实现最大的干扰收益[7].在现有文献的表述中,认知干扰与智能干扰在内涵与外延上有较多重叠,故本文将认知干扰纳入智能干扰范畴.Yang H 等提出可以快速学习用户的通信规律,并及时调整干扰功率以最大化干扰收益的智能干扰模型[8].Pirzadeh H 等研究的智能干扰针对训练阶段和传输阶段施加干扰攻击,以降低MIMO 系统性能[9].Sheikhi A 等根据对信道信息的探测,设计智能干扰信号攻击MIMO 系统[10].Han B 等研究的智能干扰充分利用信号特征以施加干扰攻击,兼具压制干扰和欺骗干扰的干扰效果[11].文献[12-14]研究的智能干扰可以针对通信系统的纠错编码性能、通信信号的帧结构以及调制方式,实行相应的最佳干扰.文献[15-16]研究的智能干扰机可以通过经验积累和环境监测主动调整干扰策略.
许多优秀的工作针对干扰智能化进行了广泛的研究,随着强化学习(reinforcement learning,RL)技术在通信领域的广泛应用,干扰智能化的相关研究进一步深化.Amuru S D 等采用强化学习技术,使干扰机在未知的电磁环境中学习对方的通信行为,并自适应调整干扰参数以实现最佳干扰[17].Han C 等通过强化学习技术,调整多个智能干扰机的部署位置以实现高效干扰[18].杨鸿杰等基于强化学习技术,提出了一种智能干扰算法以达到跟踪干扰的目的[19].裴绪芳等基于随机森林,提出一种智能干扰算法[20],通过在线学习实现对通信规律的学习,并实现高效干扰.张柏开等提出一种基于强化学习的认知干扰决策方法,能够自主优化干扰效果[21].Xiao L 等研究的智能干扰可以根据正在进行的通信活动,灵活调整干扰策略[22-23].Lu X 等研究的智能干扰可以通过对网络状态的估计,优化干扰信道和干扰功率选择[24].这些干扰机在与通信方的通信对抗中,通过经验积累或者探索学习得到“干扰知识”,并进行干扰决策,动态适应因为通信对抗而导致的电磁环境的局部改变,以提高自身效益.以强化学习为代表的决策技术使得智能干扰机可以在与环境的动态交互中,实现干扰策略的自适应和自优化.
此外,博弈论广泛用于通信对抗的动态建模.张春磊等指出,可依据博弈理论优化干扰波形,实施认知干扰攻击[3].Tang L 等引入社会契约,把多干扰机的干扰决策问题建模为合作干扰博弈,从而求解最佳策略[25].Han C 等研究的干扰机基于学习算法和博弈理论,针对卫星互联网的关键节点施加干扰,来提高干扰效率[26].阚保强等提出的智能干扰机可以感知信道状态,并将通信对抗建模为Stackelberg 博弈,以一定概率干扰通信链路[27].Lu J 等应用Stackelberg 博弈建模通信对抗中双方的动态交互,所研究的智能干扰机可以自适应调整干扰策略[28].Han C 等研究的智能干扰体现在干扰机可以根据干扰效果调整干扰动作,依据学习算法和博弈理论实现智能化干扰[29].Aziz F M等研究的智能干扰可以学习LTE 网络参数,并将智能干扰机与通信用户之间的交互建模为重复博弈[30].博弈论为建模通信双方的对抗策略提供了理论工具,借助博弈理论,分析对方的策略均衡,从而预演对抗形势,提前部署和筹划对抗策略,以实现高效干扰[31].
在现有文献中,智能干扰的定义仍然没有达成共识,自适应干扰、认知干扰、智能干扰的概念范畴相互交错.许多相关工作只是集中在对AI 技术的应用,而没有进一步分析智能干扰的逻辑特征,对于干扰智能化的逻辑闭环还缺少分析论证.如图1所示,希望通过对智能干扰目的、方式、反馈的解析,厘清智能干扰的概念内涵,分析干扰智能化的逻辑特征,并构建智能干扰的整体框架,为其实现提供一定的理论支撑.本文认为:智能干扰是一种可以对环境进行深刻认知,学习通信规律,预测通信行为,以更低消耗、更高效率实现干扰目标的新型干扰机理.它不是一种具体的干扰样式,而是对基本干扰样式的综合、灵活、高效运用.智能干扰通过学习、预测、决策,实现对通信方通信规律的深刻学习,预先判断通信行为,实施前瞻性的精准攻击,并在动态博弈的过程中实时评估干扰效果,主动调整干扰策略,以更小代价、更高效率、更实时精准、更安全隐蔽的手段,削弱或消除无线传输对信息系统的支撑作用,降低敌方信息化作战能力.
图1 智能干扰的目的、方式和反馈Fig.1 The purpose,method and feedback of smart jamming
对于干扰攻击而言,如果干扰信号在各个域度(功率域、频率域、空间域、时间域等)都完全压制通信信号,那么就可以实现常规意义上的完全最佳干扰[32].但这往往意味着更大的资源消耗和对干扰任务的过度完成.智能干扰的目的在于学习通信用户的通信规律,以尽可能低的消耗,尽可能高的效率,实现己方的干扰意图,降低通信方的抗干扰容限,甚至阻断通信.而其中的关键,就在于如何学习对方的通信规律.
无线通信的过程可以认为是在通信环境的基础上进行的通信行为.其中,通信环境包括支持用户接入并完成通信任务的软硬件条件以及受地理、经济、社会发展所影响的频谱可用状态、流量时空分布等长期通信规律;通信行为是指用户利用通信环境完成具体任务的系列活动,包括用户对功率、频率等资源的使用调度,以及为消减无意干扰或应对恶意干扰所采取的通信策略.通信行为体现了通信方的短期通信规律.
因此,对于通信对抗而言,通信方的通信规律既体现在通信环境在时域、空域、功域、频域等多个维度的长期特征,同样也体现在通信方采取的多种抗干扰技术所蕴含的策略规律.不同抗干扰技术所涉及的抗扰主体、实施场域、协议结构都不尽相同,但是这些抗干扰技术背后蕴含的通信规律仍然具有可知性和规律性,且这些通信规律可以在电磁频谱数据中得到体现.
从信号的角度出发,其幅度、频率、相位信息在电磁环境中表现为对抗双方可获取的功率、频率、时间等电磁频谱数据[33].如图2所示,实际通信系统可以映射成虚拟的拓扑结构,其中,通信设备或者用户映射为节点,而设备或者用户之间的连通关系映射为有向边.通过数据采集、处理、分析得到拓扑中各个节点的时-频-功信息,并因此分析信息中蕴含的通信规律.因此,本文主要围绕信号的功率信息、频率信息、时间信息、网络空间信息展开讨论,从功率、频率、时间、空间4 个维度,解构通信行为规律.其中,空间是通信规律的宏观呈现;时间是通信行为的顺序体现;频率是通信行为的载体;功率表征通信强度的增减.
图2 多维域通信规律Fig.2 The multi-dimensional communication rules
通信网络的空间域概念由不同位置的网络节点和节点之间的有效链路所构成的拓扑结构及其所承载的通信活动共同构成.空间域特征主要指目标网络的拓扑结构以及流量分布,前者包括关键节点、关键链路等信息;而后者主要指的是网络中各个节点、链路所体现的通信流量规律——即不同节点、不同链路在不同时刻的通信流量的分布规律,也可以用该节点、该链路在不同时刻的功率-频率使用规律来近似表征.
时间既可作为分配资源,又可作为通信行为发生的度量.通信行为的时间规律,往往与空间、频率使用规律具有较强的相关性,既包括时分复用等多址方式,也包括基于时间相关性的流量预测以及频谱可用性预测.具体而言,通信行为的时间域规律体现在目标网络用户的时分复用规则、MAC 层协议竞争退避时长、流量规律的时间相关性、路由算法的收敛时长、干扰脉冲的持续时间以及释放时间、扫频信号的扫频周期、卫星服务的过顶时刻及持续时间等.
通过分析目标网络的功率、频率数据,得到目标网络的功率储备、可用频谱集合、目标网络的噪声水平、解调门限信噪比等,从而对目标网络进行有针对性的高效干扰.
本文认为智能干扰是一种新的干扰机理而不是一种具体的干扰样式.它是对基本干扰样式的综合、灵活、高效运用.
干扰分类纷繁复杂、千差万别,按照不同的分类标准,有多种不同的干扰分类方法[34].但一般而言,通信对抗主要考虑的是压制式恶意干扰,而频率域干扰又是其中最常见的干扰类型.对于压制干扰,一般有两种压制手段——瞄准式压制干扰和阻塞式压制干扰[35],对这两种基本干扰样式的综合、灵活、高效运用,是智能干扰的具体承载方式.下文将从干扰的目的、形式和效果出发,对智能干扰策略的具体承担者和实施者——瞄准干扰和压制干扰进行分析.
从干扰目的上看,瞄准干扰主要针对特殊的用户或者具体的通信行为,而阻塞干扰不仅可以针对用户,而且更倾向于针对通信系统或者通信网络;从干扰形式上看,瞄准干扰主要针对具体的通信单元或者资源单元,比如针对具体的通信信道、节点或者链路实施精准压制,而阻塞干扰主要针对全部或者部分的干扰空间,比如攻击部分通信子网,甚至阻塞整个目标网络;从干扰效果上看,瞄准干扰主要采取直接的强对抗、硬对抗手段,对目标单元进行攻击致毁或者争夺占用,而阻塞干扰更多的是降低目标网络的抗干扰裕度,降低整个网络的通信性能.
总体而言,瞄准干扰是一种高精度、低消耗的精准干扰,主要应用于“能量受限、能力较强”的干扰场景,但其高效精准是建立在充分的侦察情报和经验积累的前提下;阻塞干扰一般应用于“能量有余、能力不足”的情况,干扰方缺乏对通信方的有效侦察,只能以大量的能量消耗,整体降低通信方的通信性能,其作用效果相当于提高目标空间的背景噪声,恶化通信环境.
智能干扰机根据对通信环境的感知,对于干扰目标或者干扰范围较小,干扰要求较高,通信规律把握较深,运用瞄准干扰的方式,基于学习算法和相应的推理决策能力,根据用户的通信行为,甄别不同链路的状态差异,争夺当前频谱的信道资源,判断网络节点的重要程度,实现更高精度、更快速度、更低消耗的高效干扰;而如果干扰范围较大,干扰要求不高,对于通信方通信规律掌握不够全面,则可以在现有知识的情况下,尽可能缩小目标范围,运用阻塞干扰的方式,根据用户通信行为、目标网络拓扑的周期改变规律和网络节点的流量分布规律,实现干扰范围广、干扰时间长的有效干扰.
如图3所示,智能干扰从经验中学习,提取环境特征,根据交互信息调整干扰策略.所以,对于智能干扰而言,需要解决3 个方面的问题:1)如何积累经验;2)如何从经验中学习;3)如何根据学习结果进行干扰决策.人工智能技术中的深度学习(deep learning,DL)技术可以从环境数据中提取有效特征[36],强化学习技术可以实现与环境的动态交互,进行自主决策,而结合两者优势的深度强化学习(deep reinforcement learning,DRL)技术可以实现对复杂环境的特征提取,并进行相应的高效决策.所以,如何解决经验的积累,是智能干扰当前面临的关键问题.
图3 干扰反馈Fig.3 The diagram of jamming feedback
智能干扰需要积累的经验来自干扰释放后,通信方或者通信环境对干扰效果的反馈.干扰机进而根据干扰效果反馈,动态调整干扰策略,实现智能高效的精准干扰.所以要实现干扰的智能化,需要研究及时、高效的干扰反馈机制[37].一般意义上的情报侦察和信息支援的滞后性和阶段性,并不能满足智能干扰对于动态博弈中实时性和高效性的要求.所以,需要从新的角度获取干扰反馈数据,并从中提取关键信息,以调整策略.从通信要素的角度来看,无论是干扰方还是通信方,在电磁对抗的过程中,可以获取的信息主要有功率、频率、传输时间等通信要素,以及敌方网络拓扑结构的大致信息.所以,智能干扰的经验积累以及效果反馈,也应从这些有限的战场信息中收集并提炼.本节从以下两个角度对智能干扰的反馈机制进行初步的探索和分析.
干扰方对通信网络实施基于统计学习的干扰,干扰机不关注通信方具体的通信行为,而是根据通信环境中关键节点的功率、频率信息,估计目标网络受扰后的吞吐量,并将其作为干扰效果反馈.该场景下的干扰反馈,体现在干扰方对通信网络的性能评估.基于目标网络当前的拓扑结构,测算并估计流量较大节点的功率水平和频谱利用情况,分析该网络中主要路径的总吞吐量的降低值作为干扰效果,从而对干扰策略做出相应调整.在这种针对网络的干扰场景下,利用学习算法,学习网络的流量规律,愈是拥塞的节点,愈加剧其拥塞,可以使得目标网络进一步瘫痪.
在通信资源相对有限的对抗环境中,干扰机作为对抗中占据优势的对抗实体,与通信方竞争资源,以自身对通信资源的争夺和占用,作为干扰效果反馈,并相应地改变干扰策略,实现智能干扰.以频谱争夺为例,在同一频点,干扰机与通信机进行功率博弈,干扰机作为优势方,加大功率可以迫使用户退出该频点,从而对该频点实施占领,获得该频点反馈的干扰收益.然而,即便干扰方是优势方,但干扰能力终归受限,所以干扰机占据的频点最终将趋于饱和,而通信方也将获得自己可用的通信频点.故干扰机需要研究,在一段频谱中,应以怎样的功率分配,对哪些频点实施干扰,可以最大程度降低对方收益,提高己方的收益,以决定最终的干扰策略,实现智能化干扰.
需要指出的是,大致相当的对抗能力是本文研究通信对抗的基本前提,在敌我悬殊的场景下研究对抗双方基于理性的对抗策略不属于本文讨论的范畴.同时,无线环境固有的动态波动以及对抗双方的动态博弈,共同造成了通信环境的不确定性.因此,干扰机需要通过己方博弈收益的变化,学习通信环境的变化规律以及通信方的通信行为规律,有针对性地施加干扰.
传统的干扰决策机制对于当前频谱态势的把握主要基于人为判断,并且干扰攻击的施加时刻和方式都具有一定的主观性.此类干扰决策方法对于历史数据的利用比较粗浅,大多是基于直观的因果关系进行干扰决策,而且往往会面临“小样本数据”难题.一旦陷入先验信息获取不足的境地,往往只能通过盲干扰的策略,以大量的资源消耗代价,来阻塞敌方通信,效率低下且效果不佳.而智能干扰可以通过数据生成和环境学习,实现对历史数据的深入挖掘和对当前频谱态势的深刻把握,从而进行主动干扰决策,并且实现自配置和自优化.
如图4所示,智能干扰机采集电磁频谱数据,并进行数据存储、数据标记等处理,然后将得到的通信环境特征与知识库进行匹配推理,如果知识库中已经存在该种通信情景下的干扰决策,那么直接输出干扰策略;如果此时是一种未知的通信场景,则进行深入学习,学习通信行为的空、时、频、功等多维特征,然后进行学习推理.此时,知识库中的干扰知识可以通过迁移学习的方式,辅助当前的学习过程,得到最佳的干扰策略[38].通过学习推理或者案例匹配得到干扰策略后,与之前的历史数据进行综合分析,分析敌对方的通信策略,并预判通信行为,然后综合考虑当前可用的干扰资源,进行最终的干扰决策,并输出干扰动作.通过对抗环境的干扰反馈对干扰策略进行优化调整,实施高效、精准的干扰攻击.
图4 智能干扰技术图Fig.4 The logic diagram of smart jamming
在图4的基础上,本文构建了一个智能干扰模式的简单示例,如图5所示.首先将干扰机与通信方之间的对抗建模为Stackelberg 博弈,研究对抗双方的动态交互[18].对于干扰机而言,在对抗环境中感知设备或者数据采集节点收集得到的频谱数据往往是小样本数据.小样本数据难以深入挖掘对方的通信行为以及电磁环境的时变特性,因此,生成对抗网络首先用来学习采集数据的深层表达,并产生大样本数据[39].生成对抗网络通过训练生成器和判决器两个神经网络来产生大量样本数据.生成器用来深度学习样本数据分布,并且利用噪声源产生与真实数据尽可能相似的合成数据.判决器用来判断输入数据是真实数据的概率.如果判决器判断正确,则调整生成器的参数,使得合成数据更“真实”;反之,则调整判决器的参数,从而避免下一次类似的错误.最终,将得到一个成熟的生成器用来产生与真实数据分布相似的大样本数据.长短期记忆网络用来预测频谱数据中蕴含的通信行为规律[40].长短期记忆网络可以自动学习在记忆单元内存储的时序信息,删除不重要的信息,从而更好地生成有助于预测下一个频谱状态的特征.基于对于频谱状态的预测,干扰机可以有效地减小干扰范围并且实施更精准的干扰攻击.深度强化学习技术用来处理无线环境的动态性,并且探索最佳的干扰动作[26,41].深度神经网络用来提取频谱数据的特征.对于干扰信道的选择问题,在强化学习的范式下,智能体观测当前的频谱数据作为状态,然后从可用动作集合中选择下一时刻的干扰信道作为动作,该动作作用于无线环境后,会得到干扰反馈.基于深度强化学习技术,干扰机可以主动调整干扰动作以提高干扰效益.
图5 一个智能干扰模式简单示例Fig.5 A simple example of implementing smart jamming
传统的抗干扰技术,诸如跳频通信,基于预测技术或者基于强化学习技术都可以在经验学习中得到跳频图案,从而有针对性地施加预判式精准攻击.而对于双方都采取智能策略的通信对抗而言,智能化的实现源于智能算法和计算能力的深度融合.脱离了硬件设施和计算能力,智能对抗就会退化成战术思想的碰撞,而差距悬殊的硬件条件会导致通信对抗中绝对优势方的出现,此时的通信对抗研究意义不大.在双方能力相差不甚悬殊的条件下,研究智能化的对抗策略,将干扰机与通信用户之间的策略对抗建模为Stackelberg 博弈,可以在有限约束下实现动态均衡解,取得有意义的研究结果.
本文认为智能干扰是干扰机理的突破,干扰策略的进化,而不是干扰样式的创新.在策略层面,智能干扰相比于被动式的自适应干扰,实现了从“决策-反馈”到“感知-学习-预测-决策-反馈”的策略闭环,使得干扰机不仅具备对通信方抗干扰动作的动态反应能力,还可以前瞻性地预判通信行为,从而提前部署并阻断通信;从承载方式的层面,智能干扰是对基本干扰样式的综合、灵活、高效运用,一般而言,即是根据对抗实际需要,基于推理、预测和决策能力,综合、灵活地运用瞄准或者阻塞干扰的方式,阻断或者削弱通信方的有效通信;从干扰效果反馈的层面,智能干扰机需要真正实现对于对抗环境的深刻学习,并由此获得可靠的干扰效果反馈.在此基础上才可以实现智能干扰机与环境之间有效的动态交互,并及时优化干扰策略,实现自学习、自优化的智能干扰.本文通过策略目的、承载方式及效果反馈3 个方面,解读智能干扰“按域拆分、学习规律”的策略方法,“基本样式、综合运用”的方式属性以及“经验积累、学习优化”的技术特征.希望可以为智能干扰的实现提供一定的理论支撑和方法指引.