平台动态防御信号博弈策略

2021-06-27 05:11陈彤睿马润年王志屹

重庆邮电大学学报(自然科学版) 2021年3期

陈彤睿，王刚，马润年，王志屹,3，冯云,4

(1.空军工程大学信息与导航学院，西安 710003；2. 94195部队，甘肃定西 730500；3. 93656部队，北京 101100； 4. 95703部队，云南曲靖 655601)

0 引言

平台动态防御(platform dynamic defense，PDD)技术是针对平台层的动态目标防御(moving target defense，MTD)[1]，它通过对服务器平台和系统软件等层面的动态迁移，使得攻击者之前侦察到的漏洞信息失效，无法发起有效攻击，从而保护网络的安全。和传统静态防御策略相比，PDD能化解网络攻防中防御方处在被动的窘境，解决安全漏洞的多样性和隐蔽性问题。一般情况下，防御者能掌握到的攻防信息十分有限，而攻击者则能通过各种漏洞扫描工具窥探到目标系统的薄弱环节，因此，网络攻防行为属于典型的不完全信息动态博弈。考虑攻防双方信息的不对称性，防御方可利用信号博弈的思想，通过历史经验等判断访问者的类型，实施针对性平台迁移，通过主动求变提升防御效果。

包括PDD在内，目前针对动态防御的研究集中体现在技术分析和博弈策略方面。在技术分析方面，文献[2]对基于虚拟化平台的主动防御技术进行研究，提出了基于枚举序列法、隐马尔科夫模型建立系统行为的层次化模型，能够为主动防御平台的入侵响应提供重要的判定依据。文献[3]提出了一种在线智能伪装框架，通过实施不同配置的计算节点之间实时迁移虚拟机和通过将恶意行为的虚拟机迁移到隔离区两个方面实现平台安全。文献[4]基于Web应用的服务器端各结构层次，在应用逻辑层、Web服务器层、数据存储层、操作系统层、基础架构层实现多样性设计。文献[5]借鉴移动目标防御SCIT模型的思想，增加终端控制器、终端清洗审计以及终端资源池等模块，进一步扩展系统的随机面维度。技术层面的研究成果推动平台动态防御的实现门槛越来越低，但是平台动态防御不单单是一个技术问题，还需要配套的策略提升系统的防御效能。

在博弈策略研究方面，文献[6]提出了动态目标防御策略的收益量化方法，基于不完全信息动态博弈构建了面向动态目标防御的单阶段和多阶段博弈模型，获得了不同安全态势下的最优动态目标防御策略；文献[7]建立基于攻防信号博弈的高级持续性威胁(advanced persistent threat,APT)防御决策模型，提出精炼贝叶斯博弈均衡的求解方法，设计防御决策算法并对比分析算法的性能；文献[8]提出了一种基于事件和基于时间的混合动态目标防御(moving target defense,MTD)模型，基于事件采用竞争马尔可夫决策过程来对每个可能状态做适当的移动，基于时间是根据接收警报的历史转移攻击表面；文献[9]将用户作为移动目标防御博弈中的第三方参与者，结合Stackelberg博弈和Markov模型来构建非对等三方博弈，以确定移动目标防御的最优策略；文献[10]将防御类型分为高等级和低等级的防御，利用信号博弈给出了最优移动目标防御策略选取方法。现有研究成果侧重对普适的动态防御策略进行研究，结合平台动态防御迁移特性和攻击者隐蔽攻击的现实情况，还需要做进一步探讨。

当前的平台动态目标防御技术主要通过入侵检测机制，对所有平台进行无差别的迁移。由于网络攻击日趋复杂多样，传统的迁移策略已难以应对，在利用PDD进行主动防御时还应当综合考虑以下几个问题：①权衡攻防成本。高等级的防御固然有效，若付出的成本已经高出了关键数据的价值，则得不偿失，如何选择防御策略进行适度防御一直是网络攻防策略研究的关键。考虑网络攻击的一般规律，在其薄弱环节将其阻断，则可事半功倍，提前防御则浪费资源，延迟防御则会对系统安全构成威胁；②双方信息的不对称性。网络攻击通常是敌暗我明，防御者能够掌握的情报少之又少，如何立足于已知的信息，选择合理的防御策略，是决定防御有效性的关键之一。其本质是不完全信息动态博弈的过程，可引入博弈理论，选择针对性策略；③立足不同的网络拓扑结构。攻击者发起攻击通常需要对网络进行侦查，针对网络的结构选择攻击路径。而在进行防御时同样要想敌人之所想，针对网络结构推断攻击者可能的攻击路径，以此为依据，选择针对性防御策略。

针对上述问题，本文引入信号博弈的方法，立足于平台动态目标防御，建立信号博弈模型，根据先验知识提出针对性策略，动态切换平台信息，阻断网络攻击，保护关键数据安全。

1 平台动态防御原理

平台动态防御是通过时变的系统状态为攻击者营造不确定的网络环境[11]，为网络中的固定节点提供“机动”条件，规避攻击者的攻击。下面以一种典型的平台动态防御系统为例，分析平台动态防御原理。在传统部署有隔离区(demilitarized zone,DMZ)的静态防御系统基础上，在DMZ区的堡垒主机硬件平台和Web服务器上使用动态多样化技术，在多个备份平台之间来回切换，以实现动态防御。该平台动态防御网络拓扑结构如图1。以攻击者攻击堡垒主机为例，其在T1时刻侦察上线平台为装载Windows操作系统的堡垒主机1，如果攻击者在T2-T1的时间内不能完成对堡垒主机1发起攻击前的准备工作并发起攻击，则从T2时刻开始，堡垒主机1下线，而装载Linux操作系统的堡垒主机2开始上线，攻击者针对堡垒主机1的攻击代码对堡垒主机2是无效的，需要重新对平台开始侦察，这就打断了攻击者原先的攻击链。

图1 面向DMZ区的平台动态防御网络拓扑图Fig.1 DMZ-oriented platform dynamic defense network topology

在实际的网络攻防中，防御者通常可根据历史经验和数据敏感程度做出对攻击者类型的先验判断，并在此基础上，选择合适的平台迁移方案，对网络攻击进行防御。

2 博弈策略设计

2.1 博弈模型及相关定义

定义1平台动态防御信号博弈模型 (platform dynamic defense signal game model，PSGM)用六元组(N，A，T，D，μ，U)描述。

1)N={Na,Nd}为博弈局中人空间。Na为访问者，Nd为防御者；

2)A={a1,…,ag}为攻击策略集，g≥1，g∈N+；

3)T={TA,TD}为博弈者的类型空间。TA={t1,t2}为访问者类型集合，分别为攻击者(t1)和正常用户(t2)，TD={t}为防御者类型集合；

4)D={d1,…,dh}为防御者动态变换系统状态策略集，h≥1，h∈N+；

5)μ为防御者先验信念，表示防御者对攻击者类型的先验判断；

6)U={Ua,Ud}为攻防双方收益函数集合，分别为Ua=fa(aj,dk)和Ud=fd(aj,dk)，1≤j≤g，1≤k≤h，其描述了攻防双方从博弈当中获得的收益，不同的攻防策略具有不同的收益值。

定义2资源重要程度Cr。指平台在网络中所具有的重要程度，网络中不同功能的平台对网络的贡献程度不同，贡献程度越高，Cr值越大。

定义3防御成功时间td。指防御方阻止攻击者进入系统，保证系统安全的时间，具体时长和双方的策略有关，可表示为td(aj,dk)。

定义4系统沦陷时间ta。指攻击者攻击成功后，开始控制系统的时间，具体时长和双方的策略有关，可表示为ta(aj,dk)。

定义5系统损失SD。指攻击方攻入系统后，造成的防御方损失。考虑SD与Cr和ta有关，攻击者攻击的目标Cr越高，控制时间越长，造成的SD越大。则系统损失的计算公式为SD=Cr×ta。

定义6攻击面转移成本ASSC。指平台迁移时需要付出的系统开销，其大小和平台间的相似度有关，相似度越小，意味着迁移前需要做的准备工作越多，转移成本也就越高，例如，一个平台运行的是Windows 7操作系统，其业务向Windows 10操作系统上迁移，所付出的系统开销要小于向Linux操作系统上迁移，因为Windows操作系统版本间相似度大，而与Linux操作系统相似度小。

定义7负面影响成本NC。指平台发生迁移时，带来的工作或服务质量下降。

定义8防御方收益DR。指防御方使用平台动态防御技术阻止攻击行为收获系统安全价值，本文认为DR与Cr和td有关，即DR=Cr×td。

定义9攻击方成本AC。指攻击方侦察、访问、编写攻击代码、发起攻击和持续等阶段所做的努力。

定义10系统平台迁移间隔t′。指2个平台在进行切换时的时间间隔，若观察到的信号为正常信号，则迁移间隔较长；若观察到的信号为异常信号，则迁移时间较短。

定义11正常访问者收益NR。由于正常访问者属于合法用户，在防御者进行迁移时会向所有合法用户广播迁移信息，因此，不受平台迁移的影响，只考虑需要将现有的通信链接迁移到新的平台上所需要付出的代价和正常完成通信所得到的收益即可。设正常完成通信所得到的收益为NR=Cr×t′-NC，且防御方收益等于正常访问者收益减去迁移成本，即DR=Cr×t′-ASSC。

综上，双方的收益函数可以分别表示为

Ua=fa(aj,dk)=Cr·ta(aj,dk)-AC

(1)

Ud=fd(aj,dk)=Cr·td(aj,dk)-ASSC-NC

(2)

2.2 信号博弈过程与求解

步骤2访问者Na根据自己的类型ti，从攻击策略集A={a1,…,ag}中选择策略aj；

步骤3防御方Nd通过分析访问者行为，如判定访问者类型为攻击者，推理其攻击策略aj，进而从防御策略集D={d1,…,dh}中选择策略dk；

步骤4双方收益函数分别为Ua=fa(aj,dk)和Ud=fd(aj,dk)，且为共同知识。

具体求解方法如下[12]。

1)对于防御者。防御者对每一攻击策略aj，根据不同类型访问者发送信号aj的信念概率μ(ti|aj)，选择己方收益最大的行动D*(aj)

(3)

2)对于访问者。对己方每一个类型ti，在给定防御方策略D*(aj)条件下，选择己方收益最大的策略A*(ti)

(4)

3)对于访问者策略集中每一个aj，如果在类型集T中存在A*(ti)=aj，即对访问者类型的后验概率p′(aj|ti)不为0，则接收者对应于aj的策略集A中所持有的信念取决于贝叶斯法则和攻击者的策略

(5)

4)对于访问者策略集A中的aj，如果对于类型集T中的每一个ti都有A*(ti)=aj，即对访问者类型的后验概率p′(aj|ti)不为0，则访问者策略集A中的后验信念概率μ*(ti|aj)，由对应情况下的贝叶斯法则及攻防双方的均衡策略组合决定。

信号博弈中纯策略的精炼贝叶斯均衡，为一对策略组合{D*(aj)}和{A*(ti)}以及对应的信念概率分布μ*(ti|aj)，满足以上4个条件。

2.3 博弈流程

防御者拥有对访问者类型的先验知识，在观察到访问者释放的信号之后，观察信号属于正常信号还是异常信号，针对不同的信号类型，采取不同的防御措施，博弈流程如图2。

图2 平台动态防御信号博弈流程Fig.2 Platform dynamic defense signal game process

博弈流程的具体说明如下。

1)攻击者进行先期侦察、访问目标系统；

2)防御者检测到攻击者释放的“访问”信号，观察信号类型；

3)攻击者根据网络拓扑结构和系统平台信息，根据每条路径的攻击成功概率选择一条攻击路径；

4)结合已知的访问者类型先验知识，选择最优防御策略，进行平台迁移。

防御方选择的策略应当是在对访问者类型的先验判断下，观察到访问者释放的信号x，x1是正常信号，x2是异常信号。选择己方受益最大的最优防御策略

(6)

在信号博弈中的精炼贝叶斯纳什均衡为一对策略组合{D*(xn)}和{A*(ti)}，以及相对应的信念概率分布μ*(ti|aj)，μ*(ti|aj)是防御者根据先验概率μ(ti)、观察到的攻击者的策略aj以及防御者的最优策略D*(xn)，通过贝叶斯法则计算得到。

3 示例和仿真验证

3.1 网络环境描述

参照图1网络拓扑搭建实验网络，设定连接关系、访问规则如前文所述。采用2种不同操作系统搭建堡垒主机平台，堡垒主机1装载Windows 7系统，堡垒主机2装载Linux系统；在部署Web动态服务器方面，搭建2种不同的Web服务器平台。使用Nessus工具扫描给定实验网络环境，获得平台漏洞信息。使用漏洞评估方法对各平台攻击面进行度量，其中，攻击者使用漏洞发起攻击的概率分为漏洞利用成功概率和攻击成功概率2种。前者指该漏洞的可利用性，后者用来衡量利用该漏洞加载攻击代码的成功几率。

3.2 参数计算

结合网络连接关系建立可视化攻击图，设初始上线平台分别为堡垒主机1和Web服务器1，考虑Web服务器包含4层架构，攻击者在扫描到4层架构上的漏洞后，会选择较容易利用的漏洞制定攻击策略，可对攻击图进行简化，其中，实线表示现状态可行攻击路径，虚线表示经过平台迁移后可能存在的攻击路径，特别应该说明的是，由于Web动态服务器的可信控制器在堡垒主机上，因此，获得堡垒主机权限后，可控制Web服务器停止迁移，然后攻击Web服务器获得权限。查询国家信息安全漏洞库和美国国家漏洞库有关数据[13-14]，可得到攻击路径上各边的概率，攻击图如图3。参考文献[15]中漏洞利用成功概率计算方法，计算各漏洞利用成功概率。利用漏洞评分系统(common vulnerability scoring system，CVSS)时效度量要素中提供的可利用性指标作为攻击成功概率参数，图3中各节点信息如下。

图3 平台动态防御网络攻击图Fig.3 Platform dynamic defense network attack graph

s2：漏洞编号CVE-2017-14377，成功率0.9；

s3：漏洞编号CVE-2013-7364，成功率0.9；

s4：漏洞编号CVE-2018-0787，成功率1；

s5：漏洞编号CVE-2013-2553，成功率0.85；

s6：漏洞编号CVE-2018-14619，成功率1；

s9：漏洞编号CVE-2017-1000011，成功率0.85；

s10：漏洞编号CVE-2018-16791，成功率0.9；

s11：漏洞编号CVE-2018-8477，成功率1。

表1 ta和td取值Tab.1 ta & td value

参照文献[15]中先验概率计算方法，初始化外部属性节点S1的先验概率P(S1)=0.7，考虑当前状态上线平台为堡垒主机1和Web服务器1，因此，无S4和S6节点，可得出攻击图中各路径的攻击成功概率。设攻击者选择每一个攻击策略的概率取决于攻击成功率。取堡垒主机资源重要程度为1 000，Web服务器资源重要程度为800，参考文献[16]中关于防御总成本的计算方法，双方的策略信息如表2。

表2 双方策略信息Tab.2 Bilateral strategy information

按照博弈流程，将资源重要程度、各攻击路径成功概率和各项成本等参数代入(1)式和(2)式，计算得出双方收益值，参考文献[10]中攻防博弈树建立方法，从访问者身份可能性出发，列出博弈扩展式如图4。

图4 博弈扩展式Fig.4 Game extension type

3.3 均衡求解与分析

按照2.2节中求解方法步骤，当观察信号为正常信号x1时，将博弈扩展式中攻击者采取不同策略下的防御收益UD代入(3)式，可得防御者最优策略为

argmax[727.6-570.4q,

727.6-557.8q,717.6-512.4q]

(7)

(7)式中，令727.6-557.8q=717.6-512.4q，可得q′=0.22。因此，当0≤q≤q′时，D*(x1)=d2，当q′

同理可得，当观察信号为异常信号x2时，可得w′=0.20。当0≤w≤w′时，D*(x2)=d2，当w′

在搭建的仿真网络中，设防御者对访问者类型的先验判断为μ=0.2。由μ∈[0,q′],1-μ∈(w′,1]，在求得的均衡下，防御者策略选择为D*(x1)=d2，D*(x2)=d3。即在已知先验概率下，若观察到正常信号x1，则选择对Web服务器进行跳变；若观察到异常信号x2，则选择对堡垒主机和Web服务器同时进行跳变。

在推理过程分析可知，攻击者可能会被系统判断为合法用户，正常用户也可能会被判断为攻击者。在实际攻击中，攻击者会隐藏真实身份，其行为具有欺骗性；防御者不确定访问者的真实身份，存在误判概率。在本文的仿真网络中，攻击者选择通过堡垒主机进入内网或窃取数据库和文件服务器信息的成功率比较低，第1个策略选择的概率也较低，与具体的网络拓扑结构相吻合。综上所述，该防御策略能很好体现实际网络攻击特点，针对网络具体拓扑结构提供防御策略，从而提高防御效率。

3.4 仿真验证

通过100次模拟攻击，分别比较该策略下防御方实际收益与期望收益对比，以及信号博弈策略与传统防御策略的对比，验证策略有效性。传统策略在收到预警信息后全平台立即进行无差别迁移，考虑平台节点间往往具有非线性耦合关系，全平台动态迁移时各平台业务承载能力必将因相互影响而急剧下降。设防御者对访问者类型的先验判断为μ=0.2。

在模拟攻击实验中，依据图4博弈扩展式对每次选取的攻防策略对收益情况进行累计，得出防御者实际收益。根据3.3节中对防御方收益函数均衡结果的分析，计算得100次防御者的期望收益。分别绘制变化曲线，如图5。可以看出，期望收益和防御收益非常接近，最终误差不超过2.7%，即实际收益和理论计算值相吻合，理论收益计算方法正确。

图5 防御方实际收益与期望收益比较Fig.5 Comparison of the defensive’s actual and expected earnings

传统平台动态防御策略是对堡垒主机和Web服务器都进行迁移，根据3.2节中对2种资源重要程度、防御总成本和收益的计算方法，进行100次模拟攻击，累加得到传统策略下的防御方实际收益，与100次信号博弈策略下的防御方实际收益情况进行比较，如图6。在图6中可以看出，信号博弈策略和传统策略相对比，收益要比传统策略最终高出96%，这是因为传统策略在进行无差别的跳变时，会损耗大量的系统资源，导致收益的下降，而信号博弈策略则在先验信念的指导下进行有针对性的跳变。

图6 信号博弈策略与传统策略收益对比Fig.6 Signal game strategy and traditional strategy earnings comparison

4 结束语

本文针对平台动态防御策略设计中平台迁移的选择问题，立足于对攻击者类型的先验判断，建立了平台动态防御完全信息博弈模型，设计了平台动态防御信号博弈策略。示例和仿真表明，在已知攻击者类型的先验概率的情况下，所提策略能克服信息不对称性和防御的被动性，选择针对性方案，打破攻击者的攻击链，完成对目标网络的防御。本文的防御策略依赖于防御者对攻击者的先验判断，在无法得到先验信息时，进行防御就比较困难，因此，在下一步的工作中，将重点对双方的对抗过程深入分析，找出更加准确的攻击检测机制，提升防御方在网络攻防中的主动性。