基于信号博弈的移动目标防御最优策略选取方法

2019-07-11 03:55蒋侣张恒巍王晋东
通信学报 2019年6期
关键词:主动防御网络系统攻击者

蒋侣,张恒巍,2,王晋东

(1. 战略支援部队信息工程大学三院,河南 郑州 450001;2. 信息保障技术重点实验室,北京 100093)

1 引言

网络系统作为国家关键基础设施,对电力、交通、金融、能源、航运等重要领域的有效运转具有关键支撑作用[1]。然而频繁爆发的网络安全事件表明,网络安全形势十分严峻。网络攻防对抗中“易攻难守”的特点突出,攻击者具有时间优势、信息不对称优势和成本优势[2]。移动目标防御(MTD, moving target defense)作为主动防御技术,能够有效地提升防御效能,其核心思想是利用多样化、随时间持续变化的机制和策略,来增加网络攻击的复杂度和成本,降低网络系统脆弱性暴露和被攻击的概率,提升防御能力[3]。防御策略选取方法是提升防御效能的关键和最佳途径,也是移动目标防御领域的研究重点。

网络安全的本质是攻防对抗,因此从攻防对抗的角度出发,研究探索网络攻防分析和防御决策方法体系具有重要的现实意义[4]。博弈理论与网络攻防所具有的目标对立性、关系非合作性和策略依存性十分吻合[5]。目前,运用博弈理论开展移动目标防御决策研究已经取得部分成果。文献[6]提出了一种基于完全信息静态博弈的MTD模型,但是由于采用完全信息条件,在描述实际攻防过程时准确性不足。文献[7]对此加以改进,采用不完全信息静态博弈研究 MTD的防御机理。文献[8]进一步针对MTD与Web平台的适配性,提出了基于不完全信息静态博弈的最优防御策略选取方法,增强了网络防御效能。但是,以上成果均以静态博弈模型为基础,由于网络攻防具有动态性,攻防双方同时行动的限制条件很难满足。因此,动态不完全信息博弈更加符合实际,研究成果的实用性和指导意义更大。

从网络攻防实际出发,信号博弈模型(SGM,signaling game model)因为可以准确地描述情报信息对攻防双方策略选择的关键作用而受到研究者的特别关注。文献[9]针对DDoS攻击的防御决策问题,采用信号博弈模型研究攻防行为和信号作用机理,设计了防御决策算法。文献[10]通过分析精炼贝叶斯均衡,对信息安全威胁定量评估进行了研究。文献[11]采用信号博弈来建模攻防场景,设计了一种信息安全防御机制。但是,上述理论研究成果未与具体防御机制结合,在网络防御实践应用方面存在不足。

本文以信号博弈理论和移动目标防御原理为基础,探索结合2种方法优势的主动防御机制,首先,从攻击面转换(ASS, attack surface shifting)和探测面扩展(ESE, exploration surface enlarging)的角度形式化来定义移动目标防御策略,通过主动改变目标系统的资源属性,提升系统的防御主动性。其次,针对攻防信息的不完全性和攻防过程的动态性,基于对防御者释放信号机制的一般性分析,采用防御者为信号发送者、攻击者为信号接收者的结构对网络攻防过程进行建模和博弈分析,提出精炼贝叶斯均衡求解方法,设计最优主动防御策略选取算法。最后,利用仿真实验验证了本文模型和方法的有效性,通过分析实验结果,总结结合信号博弈和移动目标防御方法实施综合性主动防御的特点规律。

2 移动目标防御信号博弈模型

2.1 移动目标防御机制

在网络攻防对抗中,如果防御者能够通过主动行为对攻击者的决策与行动实施干扰或影响,则体现了主动防御思想,具有更好的防御效果[12]。移动目标防御是一种典型的主动防御技术,通过增加网络系统的动态性和随机性,从时空维度提高网络系统结构的不可预测性,削弱和降低攻击者在网络对抗中的优势[13]。

定义1 攻击面(AS, attack surface)是指防御者为了防止攻击者利用某些系统资源脆弱性成功发起攻击所需转移或变换的资源集合,由攻击面维度及其取值构成,记为AS={ASD,ASV}。其中,系统表示攻击面维度的取值。

定义2探测面(ES, exploration surface)是指攻击者为了能够进入目标系统并实现攻击目的所需探索的系统资源集合,由探测面维度及其取值范围构成,即ES={ESD,ESV}。其中,探测面维度为,表示攻击者所探测到的系统资源集合,即目标系统资源配置属性,如系统指纹、数据存储位置等;表示攻击者所探测到的系统资源维度的取值范围。

参考文献[13-14],给出2种主要防御手段,即攻击面转换和探测面扩展的定义。

定义3攻击面转换是指在t时刻,目标系统满足以下2个条件之一,则说明目标系统攻击面发生了转换。

定义4探测面扩展是指t时刻,目标系统满足以下2个条件之一,则说明探测面发生了扩展。

MTD通过灵活组合使用探测面扩展和攻击面转移、攻击面变换等手段,能够有效增强目标系统的动态性、多样性和不确定性,提高目标系统的攻击难度。

2.2 基于信号博弈的移动目标防御分析

分析网络攻防对抗实际场景可知,一方面,因为网络信息系统的开放互联需求、服务监管的要求等约束,网络系统的防御能力、防御策略,甚至防御设备都是公开信息;另一方面,攻击者往往采用嗅探、扫描等技术手段主动收集网络系统的防御情报。上述由攻击者抓取或防御者释放的有关防御信息是攻击行动决策和规划的重要依据,本文将其定义为防御信号。从主动防御思想出发,防御者通过有选择地主动释放真实描述网络系统的信息(真实信号)或与网络系统真实情况不一致的信息(虚假信号),影响或制约攻击者的情报判断和行动规划,增强攻击者对目标的认知难度,提升防御效果。

由于网络对抗中防御者一般会事先部署和实施防御策略,本文将防御者定义为信号博弈的leader和信号发送者,攻击者定义为信号博弈的follower和信号接收者。结合MTD机制在实际攻防对抗过程中的特点,该类型博弈具有如下特征。

1) 主动性

攻防双方不会将己方关键的博弈策略信息告知对方,攻击者可以通过网络探测手段获取目标系统的脆弱性信息;防御者通过转换攻击面中网络资源的脆弱性维度和取值或者扩展探测面的维度空间和取值范围,可以降低或避免系统脆弱性暴露的可能。因此,作为信号发送方的防御者通过主动释放虚假攻击面或者探测面信息,欺骗、迷惑作为信号接收方的攻击者。相比单纯的主动防御手段,利用信号博弈机制可以增强防御者在攻防过程中的主动性,提升MTD的防御效果。

2) 不完全信息性

由于攻防双方都希望在对抗过程中占据信息优势,攻击者与防御者会尽可能地减少自身博弈信息的暴露程度。因此,攻防双方的对抗博弈具有不完全信息性。

3) 动态性

在攻防过程中,攻防双方的行动有先有后,攻击者在接收到防御者释放的防御信号后,基于自身对防御类型的先验知识和后验判断,采取相应的攻击策略,防御者根据攻击策略采取针对性防御策略。因此,攻防博弈具有动态性。

由于防御者无法预知遭受攻击的时间,MTD实际应用中一般采取固定周期或动态周期机制变换防御策略来抵御攻击。MTD防御策略的内容主要包括改变攻击面和探测面的维度空间、不同维度取值范围和变化频率。其中,AS/ES的维度空间代表各种网络系统资源;AS/ES的维度取值范围代表不同系统资源属性的取值范围;变化频率代表单位时间内AS/ES的维度和取值范围改变的次数,包括固定频率和动态频率2种方式。维度空间和取值范围越大,变化频率越高,表明系统结构的动态性和随机性越强,攻击者越难发现并有效利用系统脆弱性。综上,将MTD防御策略形式化描述为一个五元组(asd,asv,esd,esv,sf),其中,asd、asv、esd、esv的定义见2.1节,sf代表变化频率。

2.3 博弈模型构建

本文采用信号博弈刻画在攻防博弈过程中防御者采取MTD防御策略,同时主动释放防御信号来欺骗、迷惑和诱导攻击者,进而增强其对防御类型的不确定性,提升防御效能。本文定义防御者是信号发送方,攻击者是信号接收方。

定义5移动目标防御信号博弈模型(MTDSG,moving target defense signaling game model)可以表示为七元组(N,T,M,B,p,,U),各参数定义如下。

1)N={Na,Nd}是博弈模型局中人集合,Na为攻击者,Nd为防御者。

3)M为防御信号空间,由防御者释放,信号名称与防御者类型对应,防御者可以自主选择发送真实信号或虚假信号。

4)B=(D,A)是博弈双方的策略空间。为防御者的 MTD策略集合,,其中为攻击策略,h≥1,hN+∈。

5)p是攻击者的先验信念集合,表示攻击者对防御类型的先验知识,记为,满足

2.4 博弈策略收益量化

攻防策略收益量化直接影响博弈分析和均衡计算,也是最优防御策略选取的基础。结合文献[11,15],本文对攻防策略收益进行量化计算。

定义6系统损失代价(SDC, system damage cost)是指攻击者发动攻击后给系统带来的损失,一般由攻防策略共同决定,可认为是攻防策略的回报,通常用系统资源重要程度(C, criticality)、攻击致命度(AL, attack lethality)、安全属性损害(SAD, security attribute damage)进行描述,一般将防御策略实施后降低的系统损失代价作为防御回报。攻击成本(AC, attack cost)是指攻击者发现并利用系统资源脆弱性发动攻击所付出的成本,通常包括对探测面的信息侦测和情报收集,以及发动攻击行为所需的时间和系统软硬件资源等。防御成本(DC, defense cost)是指防御者为隐藏自身防御类型信息,以及实施 MTD策略所需的时间和系统软硬件资源。具体定义及计算方法参考文献[16-17]。

定义7信号成本(SC, signal cost)是指防御者主动释放虚假信号,用以欺骗、迷惑和诱导攻击者所付出的代价。

依据不同等级防御策略的差异度量信号成本。参考文献[11,18],根据防御策略能够应对的攻击行动的权限不同,将SC分为3个等级,取值范围分别为基于上述定义,参考本文改进的收益量化方法,可以得到攻防双方的期望收益分别为

由于同一防御等级的防御策略成本大致相同,可以认为它们的防御收益也基本一致,若某个防御等级有m个防御策略,则可以认为防御者采用等概率选择该等级的第k个防御策略,得到防御者在该防御等级下的期望收益为

3 博弈均衡计算与防御策略选取

3.1 博弈均衡计算

定义 8MTDSG的精炼贝叶斯均衡由策略组合(m∗(td),a∗(m))与后验概率(t|dm)组成,并且满足以下条件。

精炼贝叶斯均衡的具体计算过程可参考4.2节收益计算与4.3节均衡求解与防御策略选取。

3.2 最优防御策略选取算法及对比分析

基于上述研究,给出基于信号博弈的移动目标防御最优策略选取算法,如算法1所示。

算法 1基于信号博弈的移动目标防御最优策略选取算法

输入MTDSG

输出最优防御策略

11) 根据最优攻防策略求出满足贝叶斯法则的攻击者对防御类型的后验概率推断

15) end if

分析均衡求解算法可知,计算时间复杂度主要取决于精炼贝叶斯均衡解的计算过程,根据3.1节的分析,设防御类型空间和防御信号空间的大小为n,令,由动态博弈理论[19]可知,计算均衡的平均时间复杂度为存储空间消耗主要集中在策略收益和均衡求解中间值的存储上,为O(un)。

将本文提出的模型及方法和其他文献进行对比,具体如表1所示,其中,博弈类型是指攻防双方对博弈信息的掌握情况及博弈行为顺序;局中人类型是指在博弈模型中博弈参与者是否区分不同类型和类型的多少,实际攻防对抗过程中攻防双方在策略收益、行为成本等方面存在差异,局中人类型细化可以更好地提高攻防策略选取的准确性与针对性;信号机制是指攻防分析是否采用信号博弈以及设定的信号发送方;模型通用性是指博弈类型和攻防策略的数量是否能够扩展;均衡求解是指文献中是否给出了求解博弈均衡的具体方法,如果没有将严重削弱实用性。

通过分析已有方法可知,文献[6]是基于局中人具有完全信息的假设基础之上的,但实际攻防过程中,由于攻防双方侦察能力有限,同时攻防双方均会减少或隐藏自身攻防信息暴露,因此网络攻防对抗一般应作为不完全信息博弈考虑。文献[7]是将攻防对抗作为静态博弈进行研究,不符合实际攻防场景的动态性特征。文献[9,17,20]以攻击者作为信号发送方进行建模研究,基于 2.2节的分析,防御者释放信号的情况具有更强的一般性,同时防御者可以利用信号机制主动欺骗、迷惑、诱导攻击者,实施主动防御,具有更好的防御效果。文献[21]将基于MTD的攻防对抗抽象为马尔可夫博弈,无法分析攻防信息对博弈过程和结果的影响。

通过分析可知,对比文献[6-7]中攻防模型的静态性和信息完全性假设,本文方法基于动态攻防过程和不完全攻防信息开展研究。对比文献[21]采用马尔可夫博弈描述攻防过程,本文方法采用信号博弈进行建模研究,可以准确描述情报信息对攻防双方策略选择的关键作用。对比文献[9,17,20]采用攻击者作为信号发送方,本文方法使用防御者作为信号发送方,增强了方法的一般性,并能够刻画主动释放防御信号来欺骗、迷惑和诱导攻击者的主动防御机制。

本文工作针对攻防实际,基于移动目标防御原理设计防御策略,通过主动改变目标系统的资源属性,增强了系统结构的动态性和随机性,增大了攻击者对目标系统及其防御措施的认知难度,提升了防御效能。同时,基于主动防御思想,结合信号博弈和移动目标防御的优点实施综合防御,利用主动释放针对性防御信号实现了防御欺骗,不但增加了防御样式和手段,进一步提升了防御主动性,而且虚假防御信号的欺骗、迷惑作用可以扰乱和延迟攻击行动,为移动目标防御策略的实施提供反应时间。

表1 模型与方法对比分析

4 仿真实验与分析

4.1 仿真环境描述

为了验证MTDSG模型和最优防御策略选取算法的可行性与有效性,构建如图1所示的典型网络系统[16]开展仿真实验。实验网络系统主要由业务网、接入网和外部互联网构成,其中业务网主要包括业务服务器、数据服务器和客户端,接入网主要包括IIS网络服务器和网络防御设备。

图1 实验网络系统拓扑

实验网络系统配置相应的访问控制策略规定网络节点之间的访问权限[12]。利用Nessus漏洞扫描工具获得网络系统中各节点的资源脆弱性,如表2所示。

表2 网络节点脆弱性

参考文献[22-24]和美国 MIT林肯实验室攻防行为数据库[18],给出攻击和防御动作信息,分别如表3和表4所示。为方便攻防博弈分析,设防御者类型对应的防御信号为

表3 原子攻击描述

表4 防御策略描述

4.2 收益计算

借鉴文献[4,22]的方法,综合考虑投入成本和专家意见,设定攻击策略为;自然以概率选择防御类型攻击者对防御类型的先验概率攻击者收到信号m1后对防御类型的后验修正概率为攻击者收到信号m2对防御类型的后验修正概率为防御信号成本(40,100,180),网络系统的安全属性代价,其中IIS网络服务器、业务服务器、数据服务器的SAD分别为20、30、50,资源重要度C分别为3、3、5。

参考文献[11,16]和式(1)~式(3),分别计算攻击者与防御者的博弈收益。当防御者类型为高等级防御,防御策略为d1,释放防御信号m1,攻击者采取攻击策略a1时,攻防双方收益为

同理,当防御者采取策略d2、d3、d4时,攻防双方收益分别为。综上,该场景下攻击者和防御者的平均收益分别为。同理求得其余攻防策略对应的收益,攻防博弈如图2所示。

为了验证仿真实验中 MTD策略的有效性与针对性,考虑攻防对抗过程中目标系统性能受到的影响程度,借鉴文献[25]中的量化计算方法对目标系统的服务质量进行分析,具体分析在不同攻防策略下,系统中Web服务和在线视频服务的平均时延(ADT, average delay time),以此反映系统的性能损失。实验分别对上述2种服务进行了15次测试,并与系统正常工作时的时延进行对比,获得在攻防对抗情况下的平均时延。具体数据如图2所示。

4.3 均衡求解与防御策略选取

按照3.1节给出的均衡计算步骤,求解MTDSG模型精炼贝叶斯均衡,并选取最优防御策略。

1)攻击者推断的最优攻击策略

当m=m1时,有

图2 攻防博弈树

根据上式,当α∈[0,1],a∗(m1)=a1。

当m=m2时,同理有,当β∈[0,1]

2)防御者推断的最优防御策略

3) 防御类型的后验概率修正

4.4 实验分析

仿真实验采用Matlab2013a实现了防御策略选取算法,根据所得到的实验数据,通过对攻防博弈过程、攻防收益和博弈均衡的一般性分析,可以发现结合 MTD和信号博弈进行综合性主动防御的规律。

1) MTD策略的成本普遍较高,由表4可知,策略成本普遍大于传统防御策略,但防御者采取MTD策略时防御收益普遍大于其他传统防御策略。在仿真实验中,选择高等级防御类型,释放高等级防御信号m2,防御收益分别为(3 075,2 980, 2 885);选择低等级防御类型,释放高等级防御信号m2,防御收益分别为(2 920,2 675,2 235)。这说明相较于被动防御方式,MTD策略通过主动改变目标系统的不确定性,能够增加攻击者的攻击难度,更加有效地抵御攻击行为。

2) 由于攻击者对防御者类型的后验推断直接影响攻防博弈过程和均衡求解,防御者可利用信号机制直接影响博弈过程和均衡策略求解。攻击者根据先验概率、防御者释放的防御信号和防御者的最优策略使用贝叶斯法则对防御类型进行修正。因此利用信号机制防御者能够影响攻击者的后验推断的形成,提高防御者在攻防对抗过程中的主动性。

3) 防御者采取MTD策略同时结合信号博弈可以更加有效地增强主动防御效果。从防御策略特点和防御信号作用的角度分析,MTD策略是防御者通过目标系统脆弱性的随机化、动态化和不确定化,使防御者在攻防过程中获得基于目标系统自身的防御主动性;信号博弈可以使防御者通过主动选择及释放针对性信号,在攻防信息获取和认知领域实现对攻击者的欺骗、迷惑,削弱攻击者的信息优势,提升主动防御能力,并能为移动目标防御策略的实施提供准备和反应时间。

4) 低等级防御者通过信号机制发送诱导信号可以增强防御效果,提高防御收益。由图2可知,当目标系统处于低等级防御时,使用高等级防御信号,防御者获得的收益为(3 050,2 980,2 460);而使用低等级防御信号时,防御收益为(2 920,2 675,2 235)。

综上,低等级防御者伪装成高等级防御者可以对攻击者起到威慑、迷惑的效果,攻击者无法清晰地认识防御者的虚实情况,导致攻击者出于自身利益,一般采取保守的试探攻击,在一定程度上能够起到主动防御的效果。

5 结束语

移动目标防御是一种改变攻防不对称、网络防御“被动挨打”格局的前沿性主动防御技术,在实际应用中具有良好效果和巨大潜力。为进一步提升主动防御能力,本文将移动目标防御与信号博弈相结合,从攻击面转换和探测面扩展的角度定义防御策略,在分析攻防对抗过程的基础上,构建了基于信号博弈的移动目标防御模型,设计了博弈均衡求解方法和最优防御策略选取算法,通过仿真实验和数据分析,验证了所提模型和方法的有效性,总结了结合信号博弈和移动目标防御方法实施综合性主动防御的特点规律。本文的研究成果为信息受限的动态攻防过程中增强移动目标防御的效能提供了有效的模型方法,并能够对防御策略的选取提供指导。

下一步工作主要包括从参数的灵敏度和多属性分析角度改进移动目标防御策略的量化计算方法,提升博弈收益计算准确性;针对多阶段连续性网络攻防过程,结合随机博弈和微分博弈开展研究,提高模型与方法的适用范围。

猜你喜欢
主动防御网络系统攻击者
变电站动静互联式的主动防御小动物入侵系统开发
浅析石油化工工厂网络系统的一体化设计与实现
主动防御飞行器的范数型微分对策制导律
辽宁省高速公路收费集中监控网络系统建设探讨
正面迎接批判
正面迎接批判
基于DEMATEL-ISM的军事通信网络系统结构分析
网络安全主动防御技术分析
有限次重复博弈下的网络攻击行为研究
纯电动客车的CAN网络系统设计与开发