基于演化博弈的拟态防御策略优化

2024-03-05 10:27王敏付文昊王宝通石乐义

计算机应用研究 2024年2期

王敏付文昊王宝通石乐义

收稿日期：2023-05-31；修回日期：2023-07-14 基金项目：国家自然科学基金资助项目（62111530052）；山东省自然科学基金资助项目（ZR2019MF034）

作者簡介：王敏（1998—），女，山东济南人，硕士研究生，主要研究方向为主动防御、博弈论；付文昊，男，硕士研究生，主要研究方向为网络安全、主动防御；王宝通，男，硕士研究生，主要研究方向为网络安全技术；石乐义（1975—），男（通信作者），山东临朐人，教授，博导，CCF高级会员，主要研究方向为主动防御、工控系统安全、区块链、博弈论（shileyi@upc.edu.cn）．

摘要：网络空间拟态防御是近些年出现的一种主动防御理论，以异构冗余和动态反馈机制不断调整执行环境来抵抗攻击。然而，面对黑客的多样化攻击手段，仅凭借拟态防御抵抗攻击是不安全的。为了增强系统的安全防御能力，在目前已有的防御系统基础上提出更为合理的防御选取方法。将有限理性的演化博弈引入到拟态防御中，构建了由攻击者、防御者和合法用户组成的三方演化博弈模型，并提出了最优防御策略求解方法。该博弈模型利用复制动态方程得到了演化稳定策略。仿真实验结果表明，系统通过执行推理的演化稳定策略可以降低损失，遏制攻击方的攻击行为，对拟态防御系统中防御策略选取和安全性增强具有一定的借鉴意义。

关键词：拟态防御；主动防御；演化博弈；演化稳定策略；防御决策

中图分类号：TP393 文献标志码：A

文章编号：1001-3695（2024）02-039-0576-06

doi：10.19734/j.issn.1001-3695.2023.05.0244

Defense strategy optimization of cyber mimic defensebased on evolutionary game theory

Wang Min， Fu Wenhao， Wang Baotong， Shi Leyi

（Qingdao Institute of Software，College of Computer Science and Technology， China University of Petroleum（East China）， Qingdao Shandong 266580， China）

Abstract：As an active defense technology， cyber mimic defense uses heterogeneous redundancy and dynamic feedback mechanism to constantly adjust the execution environment of defense system to resist attacks. However， in the face of diverse attack methods of hackers， it is unsafe to resist attacks by only relying on cyber mimic defense. In order to enhance the security defense capability of the system， this paper proposed a more reasonable defense selection method based on the existing defense system. It applied evolutionary game theory of bounded rationality to cyber mimic defense， constructed a three-party evolutionary game model consisting of attackers， defenders and legitimate users， and proposed a solution method for the optimal defense strategy. This game model used the replication dynamic equation to obtain evolutionary stable strategy. The simulation results show that the system can reduce the loss and restrain the attack behavior by implementing the evolutionary stable strategy of reasoning， which has certain reference significance for the selection of defense strategy and security enhancement in cyber mimic defense system.

Key words：cyber mimic defense（CMD）; active defense; evolutionary game theory; evolutionary stable strategy; defense decision-making

0 引言

随着信息技术的蓬勃发展，计算机网络已渗透到生活的方方面面。网络设备的大规模构建，带来更多未知的漏洞和后门攻击。正因如此，网络安全问题越发突出。传统的被动式防御大多以静态、固定、敌暗我明为主要特征，不足以防御复杂多变的网络环境。因此，为了改变攻防不对称的局面，主动防御技术被提出。它们通过改变自身的参数使系统呈现出不确定性变化，给攻击者增加了收集信息的难度。在攻击者成功入侵系统之前，系统动态变化的防御体系有效降低了面临的风险。现如今，国内外学者对主动防御技术的研究有了很多进展。移动目标防御［1］、端信息跳变技术［2］、拟态蜜罐［3］等通过改变系统的多样性、动态性和随机性来呈现系统关键特征的不确定性变化，以增加攻击成本和对攻击的抵抗力，实现主动防御。

网络空间拟态防御（CMD）借鉴了自然界中拟态章鱼的拟态伪装启发，由邬江兴［4］院士于2014年提出。其基本思想是把多个结构不同、功能等价的执行体组织起来共同处理同一请求，并进行动态调度。由于多个异构执行体同时出现相同漏洞的概率极低，从而降低了攻击成功率。然而，异构执行体的数量和组合方式总是有限的，并且攻击者随着时间的推移，掌握的系统信息会越来越多。因此，本文有必要提出一种合理的防御决策方法来指导系统科学地抵御恶意攻击。

近年来，研究者将博弈论应用于网络安全中，并取得了一些成果。刘江等人［5］利用不完全信息动态博弈研究了移动目标防御最优策略选取问题，通过构建单阶段和多阶段MTD博弈模型，推理分析出最优防御策略。胡永进等人［6］将信号博弈应用于网络攻防分析，通过构建多阶段欺骗博弈模型，以及考虑信号衰减等因素，实现了网络对抗的动态分析，提出了最优欺骗防御策略选取方法。Liu等人［7］通过构建攻防对抗博弈模型，在复杂的混合策略中找到了最佳攻击与防御策略。拟态防御系统凭借异构执行体的动态切换和反馈机制进一步阻止攻击的发生，Chen等人［8］通过结合执行体失效概率和多模裁决的输出，提出了风险最小的贝叶斯决策思想，在考虑防御成本的基础上，设计了最优清洗策略。在综合考虑拟态防御系统设计成本和安全性平衡的状态下，Chen等人［9］构建了马尔可夫抗攻击模型，分析了CMD在不同攻击类型下的效果，然后利用不完全信息动态博弈推理出最优防御策略，实验结果表明，该模型在保证安全性的同时降低了成本开销。Shi等人［10］利用不完全信息动态博弈论证了DHR体系结构的防御机制，然后推导出所有参与者在不同条件下的行动策略，这对DHR防御机制的完善具有一定的理论意义。然而，上述研究皆是从完全理性角度出发，面对复杂、多元、不确定的真实社会，人们的认知能力是有限的，很难满足完全理性。因此，基于完全理性假设的博弈分析与实际情况不符，从而降低了模型的实用性。为此，有学者将有限理性的演化博弈引入到网络安全领域来分析攻防对抗过程。

演化博弈［11］是将博弈论与动态演化相结合的方法，强调参与者行动策略的动态平衡。它建立在有限理性前提下，以群体为研究对象，刻画了参与者不断学习、模仿和改进自身策略来使自身收益得到最优的过程。演化稳定策略（evolutionary stable strategy，ESS）由Smith和Price提出，是指群体之间为了争夺资源采取各种策略进行竞争或合作，在自然选择下，群体之间采取的某种策略最终趋于稳定和平衡，此时趋向于稳定的策略即为演化稳定策略。若S*∈S，针对所有不同于S*的s∈S，假设U（S*，S*）≥U（S*，S），且U（S*，S*）=U（S*，S）成立，则U（S*，S*）＞U（S*，S），那么S*为ESS。

针对无线传感器网络易遭受攻击的问题，巩俊辉等人［12］构建了入侵检测攻防演化博弈模型，分析了攻防双方行动策略动态演化，设计了最优防御策略。徐晓桐［13］通过利用随机微分博弈方程来构建网络攻防中的随机微分博弈模型，考虑了网络环境中随机干扰因素对攻防对抗的影响。为了确保演化博弈中策略学习机制的随机性和收敛性，Jin等人［14］使用回归最小算法（RM）对策略学习机制进行优化，构建了基于RM算法的网络攻防演化博弈模型。实验表明，与传统复制动态方程相比，其收敛速度提高了12.8%。面对黑客的多样化攻击手段，仅凭借拟态防御抵抗攻击是不安全的，为了增强系统的安全防御能力，需要提出一种合理的防御方案。基于拟态防御的特性和系统参与者有限理性的特征，本文利用演化博弈理论对拟态防御系统的攻防过程进行剖析和探究，构建由攻击者、防御者和合法用户组成的三种群演化博弈模型，为拟态防御系统提供了一种合理的防御策略选取方法，能有效减少防御方的损失，遏制攻击方的攻击行为。

1 系统模型

网络空间拟态防御是一种受生物界拟态伪装启发而提出的主动防御技术。动态异构冗余（dynamic heterogeneous redundancy，DHR）是拟态防御系统的核心架构，其关键特征是动态性、异构性和冗余性。DHR架构如图1所示。

DHR模型由五个元组组成，DHR=（I，E，A，D，H）。

I代表输入代理，其负责将输入数据分发给在线执行体。

E=（A1，…，Am）代表执行体集。它由一组功能相同结构相异的执行体组成。执行体之间的差异越大，系统就越安全。假设从异构池中选择异构配置，如下所示：（Linux，Go，MySQL），（Windows7，Python，MySQL），（Linux，Python，PostgreSQL）。

A代表裁决器。系统的最终输出由裁决算法给出。

D代表动态调度算法，根据每个执行体的实时信息，决定何时以及如何从执行体池中获取在线执行体。

H=（E1，…，En）表示异构组件集。它包含多个执行体，可以实现相同的网络功能。

拟态防御机制包括非周期地从功能等价的异构执行体池中随机地抽取若干元素组成当前的服务集，通过动态调度模块不断变换在线执行体集，使攻击者难以有效地再现成功攻击的场景［15］。

2 博弈模型

2.1 博弈模型描述

拟态防御系统由多个执行体组成，入侵容忍能力是拟态防御系统显著的安全特性，这在很大程度上依赖于裁决机制对多执行体输出结果的判决。由于系统卓越的容忍性，可以容忍攻击者入侵执行体，只有攻破的执行体数目超过拟态防御系统预先设定的最大容忍限度即k值，才会攻擊成功。图2给出了CMD演化博弈模型。

对于拟态防御系统中的每个参与者而言，攻击者希望攻破执行体集获取机密信息，以达到不为人知的目的；合法用户希望访问服务以获取所需信息；防御者的期望是能尽可能地抵御各种攻击，并能为用户提供服务，使系统处于一个相对安全的环境。故本文对此作出以下假设：a）在拟态防御系统中，表决器算法的研究众多，本文仅考虑大数裁决算法。定义threshold为裁决门限，即输出一致的分组中执行体的数量大于等于该值时，认为该分组是大数裁决中的多数方，多数方将在裁决中胜出，此时称该数值为裁决门限。threshold的取值通常为（n+1）/2≤threshold≤n，其中n表示运行池中执行体数目。定义n=k+threshold，其中k表示忍受攻击的最大限度［16］。

b）假设攻击者每次随机使用一种方式进行攻击，若该攻击方式能同时攻破k值以上的处于运行池中的执行体，则该拟态系统被攻破［17］。

在拟态防御博弈模型中有三种参与者，分别是防御者ND、攻击者NA和合法用户NU。定义CMD演化博弈模型CMDEGM（cyber mimic defense evolutionary game theory）为一个四元组，假设CMDEGM=（N，S，P，U）［18］。

N=（ND，NA，NU）表示博弈参与者。

S=（SD，SA，SU）表示博弈参与者采取的行动策略空间。SD=（SD1，SD2）意为系统打开执行体服务或关闭执行体服务。SA=（SA1，SA2）表示攻击者攻击执行体或不攻击执行体。SU=（SU1，SU2）表示合法用户选择访问执行体或不访问执行体。

P=（PD，PA，PU）表示博弈参与者采取行动策略的概率集合。假设防御者以概率x选择SD1行动策略，以概率1-x选择SD2行动策略；攻击者以概率y选择SA1，以概率1-y选择SA2；合法用户以概率z选择SU1，以概率1-z选择SU2。

U=（UD，UA，UU）表示博弈参与者的收益函数。

2.2 建模与分析

由于攻击者有攻击成功和攻击失败两种情况，所以分两种情况给出了收益矩阵，如表1所示，相關的参数含义如表2所示。

系统中共模漏洞数小于等于k（n≤k）。如果系统提供服务和访问者访问时，攻击者将遭受损失为b，合法用户正常访问将获得收益a，防御者将获得收益a-nc/N。相反地，如果系统不提供服务和访问者访问时，攻击者和合法用户的收益分别为-b和-a。这意味着他们都无法获得服务，将遭受损失。

系统中共模漏洞数大于k（n＞k）。如果系统提供服务和访问者访问时，攻击者将获得攻击收益nγa/N-b，合法用户正常访问将获得收益a，防御者将遭受损失a-（nc+nγa）/N。相反地，如果系统不提供服务和访问者访问时，和前文情况一样，攻击者和用户都会遭受损失，防御者没有收益。

2.2.1 未攻破系统情形

当n≤k时，攻击者不会攻破系统。根据上述三方收益矩阵，可以得到采取各种行动策略的收益函数。

设防御者提供服务时的收益是UD1，不提供服务时的收益是UD2。由此可知

UD1=y［z（a-ncN）+（1-z）（-ncN）］+（1-y）［za+（1-z）×0］=za-yncNUD2=y［z×0+（1-z）×0］+（1-y）［z×0+（1-z）×0］=0（1）

用UD表示防御者的平均收益，由式（1）可得

UD=x×UD1+（1-x）×UD2=x（za-yncN）（2）

设攻击者选择发起攻击的收益是UA1，选择不攻击的收益是UA2，则

UA1=z［x（-b）+（1-x）（-b）］+（1-z）［x（-b）+（1-x）（-b）］=-b

UA2=z［x×0+（1-x）×0］+（1-z）［x×0+（1-x）×0］=0（3）

用UA表示攻击者的平均收益，则由式（3）得

UA=y×UA1+（1-y）×UA2=-by（4）

设合法用户选择访问的收益是UU1，选择不访问的收益是UU2，则

UU1=x［ya+（1-y）a］+（1-x）［y（-a）+（1-y）（-a）］=2ax-a

UU2=x［y×0+（1-y）×0］+（1-x）［y×0+（1-y）×0］=0（5）

用UU表示合法用户的平均收益，则由式（5）得

UU=z×UU1+（1-z）×UU2=z（2ax-a）（6）

基于以上分析，可得到三方复制动态方程：

FD（x）=dxdt=x（UD1-UD）=x（1-x）（za-yncN）

FA（y）=dydt=y（UA1-UA）=y（1-y）（-b）

FU（z）=dzdt=z（UU1-UU）=z（1-z）（2ax-a）（7）

令FD（x）=FA（y）=FU（z）=0，得到8个平衡点。本文通过分析平衡点的稳定性进而得到演化稳定策略。Friedman提出，通过分析均衡点在雅可比矩阵中的特征值，可以得到平衡点处的稳定性［19］。根据李雅普诺夫稳定性理论，如果雅可比矩阵中所有特征值都具有负实部，则系统是稳定的；否则是不稳定的。根据式（7）得到雅可比矩阵。

J=FD（x）xFD（x）yFD（x）zFA（y）xFA（y）yFA（y）zFU（z）xFU（z）yFU（z）z=

（1-2x）（za-yncN）x（1-x）（-ncN）x（1-x）a

0（1-2y）（-b）0z（1-z）2a0（1-2z）（2ax-a）（8）

将8个均衡点代入雅可比矩阵，得到对应的特征值λk（k=1，2，3）。根据特征值的正负值判断演化稳定性，平衡点对应的稳定性如表3所示。

从表3可以看出，（1，0，1）是唯一的演化稳定策略。当n≤k时，攻击者发动攻击并未攻破系统，此时防御者提供服务、攻击者不攻击和合法用户访问是最优防御策略。

2.2.2 攻破系统情形

当n＞k时，攻击者发动攻击会攻破系统。演化博弈推理过程与n≤k一致。平衡点稳定性分析结果如表4所示。从表4可以看出，当nγa/N-b＜0时，（1，0，1）满足稳定均衡点条件。这表明当攻击者回报小于攻击成本时，此时防御者提供服务、攻击方不攻击和合法用户正常访问，达到理想的网络攻防环境。

当-（a-（nc+nγa）N）＜0且-（nγaN-b）＜0，（1，1，1）满足稳定均衡条件，这表明系统提供服务、攻击者攻击、合法用户访问。在这个策略中，攻击者攻击系统时攻击所获得收益大于攻击成本，系统的损失小于系统的总体收益。因此，系统提供服务和攻击者攻击。

表5列举出所有的演化稳定策略，从而得出以下结论，系统可以通过配置运行池中执行体有足够大的异构度，使其共模漏洞数目尽可能地少。于是，攻破k个执行体的概率较低，从而可以提高系统安全性。但是对于执行体而言，做到完全异构是不太可能的。

在DHR系统中，N值决定了不同的演化稳定策略。很显然，（1，0，1）（即系统提供服务、攻击者不攻击、合法用户访问）是系统防御的最优策略。当n>k时，可以试图调整拟态防御系统中的N值来改变演化稳定点。

本文依据演化稳定策略为拟态防御系统的构建提供了理论支持，在总体评估系统各部分收益的基础上，依据演化稳定策略的条件来确定CMD系统中合理的异构冗余执行体数目（N值），使得系统在保证最小损失下实现安全防御。例如通过配置系统组件满足nγaN-b＜0，使得系统处于不攻击状态。

当前提供服务的执行体集的异构性越大，存在共模漏洞的几率越小。并且随着执行体集数量N的增大，被攻破的可能性也越低。这是因为不同执行体结构设计的差异性使得存在相同漏洞的概率极低，且攻击者只有攻破半数以上执行体才能获得控制权。当N无限大时，在N个执行体中有N/2及以上个执行体都存在某种漏洞的情况微乎其微。虽然依靠冗余和动态反馈的机制可以提高系统的安全防御指数，但在实际场景中也应具体考虑系统安全性與性能、设计成本之间的平衡。

3 仿真实验

3.1 Gambit仿真实验

在前面理论推导的防御策略的基础上，本文将使用Gambit来验证分析结果的正确性。

a）为探究共模漏洞数量n对ESS的影响，将使用不同的n值来分析和讨论博弈过程，模拟N=5时分别攻破ni个执行体时的博弈平衡。首先，考虑n=1，当前执行体中存在的漏洞各不相同，没有共模漏洞。如图3所示，系统有绝对优势，此时最优防御策略为（1，0，1）。在n=2时，系统仍然没有被攻破，最优策略仍为（1，0，1）。如图4所示，攻击者收益为-75，服务器收益为110。

在图5、6中，模拟n=3和n=4的情况。很显然，此时系统被攻破。随着共模漏洞数量的增加，一旦被非法用户利用该漏洞，系统会受到很大的影响。在n=3时，在兼顾安全性和成本的平衡下，系统最优防御为（1，0，1）。在n=4时，攻击者的访问策略被修正。因为攻击者得到了回报，获得了正收益。因此，系统最优防御策略为（1，1，1）。

b）为探究异构冗余执行体数量N对ESS的影响，将模拟N=5，6，7，8，9，10时攻破n=4个执行体的博弈均衡，实验数据如表6所示。

由表6可知，伴随N数量的递增，CMD系统的异构性越强，于是n<

3.2 MATLAB仿真实验

先前博弈推理的结论可以清楚地看出，均衡条件与异构冗余执行体的数量N和被破坏执行体的数量n有关。因此，在CMD系统上进行了两个主要方面的MATLAB仿真实验。

图7描述了三方收益随n的变化。令N=5，k=2。随着n的增加，防御者的收益曲线呈下降趋势，攻击者收益曲线呈上升趋势。当n≤2时，执行体异构性很大，共模漏洞数量有限，攻击者无法攻破系统，因此攻防双方收益保持相对稳定；当n＞2时，系统的共模漏洞数量增加，系统破坏的执行体数量增加，最终攻击者攻破系统，攻防双方收益急剧变化，系统遭受巨大损失，攻击者夺取系统控制权。对于合法用户的收益曲线，当合法用户访问系统时，无论n如何变化，收益都是120。

图8描述了收益函数随N的变化。随着N的增加，防御者的收益曲线呈上升趋势，攻击者收益曲线呈下降趋势。设n=3，则当N＜7时，攻击者破坏了半数以上的执行体，系统处于破坏状态，起初，防御者收益为负值，攻击者收益为正值，随着N的增加，系统处于有利地位，防御者的回报显著增加，攻击者的成本明显提升。当N≥7时，攻击者不再攻破系统，系统保持动态平衡，N的增加对攻防双方几乎没有影响，双方收益曲线保持相对稳定。对于合法用户的收益曲线，当合法用户访问系统时，无论N如何变化，增益都是120。

3.3 NS2仿真实验

NS2是目前较为流行的网络仿真工具，便于模拟真实的网络环境。本文使用NS2模拟DHR攻击与防御过程，网络拓扑如图9所示。

在网络拓扑结构中，主要有9个节点，其中服务器1～5表示DHR中的在线执行体。两个边缘路由器分别连接服务器和访问者。访问者包括攻击者和合法用户。

3.3.1 博弈推理策略的NS2仿真实验

当任务主机的服务执行体数量一定时，改变共模漏洞数量来观察拟态防御系统和访问者的策略变化。假设N=5，k=2，a=120，b=75，c=25，γ=1。利用NS2模拟n=2，n=3和n=4时三方博弈过程。其中蓝色代表系统提供服务，绿色代表合法用户访问系统，黄色代表攻击者发起攻击（见电子版）。

当n=2时，NS2博弈过程仿真如图10所示，此时满足n≤k，当前在线执行体异构性较大，对攻击者不利，仿真结果为系统提供服务、攻击者不攻击、合法用户访问。

当n=3时，NS2博弈仿真如图11所示，此时满足条件n＞k，对攻击者而言有极大概率会控制系统，然而nγa/N-b＜0，攻击者攻击成本大于攻击收益，攻击者选择放弃入侵拟态系统。

当n=4时，NS2博弈仿真如图12所示，此时满足条件n＞k，-（a-（nc+nγa）/N）＜0和-（nγa/N-b）＜0，仿真结果为系统提供服务、攻击者攻击、合法用户正常访问。这与推理一致，验证了博弈的有效性，也说明了执行体间的异构性会影响防御的选择。执行体间的异构性越大，当前共模漏洞越少，系统越不容易被攻击。

3.3.2 系统的性能测试

为了进一步测试系统部署不同环境对性能的影响，本文正常服务采用FTP流，攻击采用SYF-Flood攻击，每次攻防交互时间为50 s。记录每次系统受到的攻击流和合法用户得到的服务流。

当攻击概率在［0，0.33］变化时，令n=4，对三种不同服务执行体数目进行测试。图13显示了不同攻击概率下系统受到的攻击流。图14展示了不同攻击概率下合法用户得到的服务流。随着攻击概率的增加，系统受到的攻击也逐渐上升，并且攻击者的攻击随着异构执行体数量N的增加而逐步降低。对比N=5与N=6，当攻击概率增大时，N=6时系统受到的攻击明显少于N=5。在N=7时，攻击者不再攻破系统，但此时系统仍能为正常用户提供服务。此外，随着攻击概率的增加，合法用户得到的服务流呈下降趋势，并且在攻击者的攻击概率不断增大时，N=7能为合法用户提供更好的性能。

以上实验从各个角度验证了防御策略的合理性和有效性。相较于CMD系统仅仅依赖DHR架构和动态反馈来抵抗攻击，最优防御策略的提出为拟态防御系统的安全防护提供了新思路，依据博弈均衡制定现阶段最优的策略，从而有效减少防御方的损失，遏制攻击方的攻击行为。

4 结束语

网络空间拟态防御的核心机制动态异构冗余架构是一种容错的主动防御体系结构。每个执行体中尽可能存在不同的漏洞、后门，使得敌方在利用漏洞发起攻击时，同时攻破半数以上的执行体的概率大大降低。如果发生攻击，不同的执行体将替换前者继续进行防御。

本文从有限理性的角度出发，将演化博弈理论与CMD系统相结合，研究了拟态防御系统在面对攻击时作出的防御决策，然后推导出参与者在不同条件的行动策略。最后通过Gambit、MATLAB和NS2仿真实验验证了推理策略的合理性。将其应用于实际的网络环境中，可以为自身最优防御策略的选取提供一定的依据，对提高系统的安全防御能力有一定的积极作用。未来工作的重点将集中在如何准确地评估、量化收益函数，以此达到进一步增强拟态防御系统安全性的目的。

参考文献：

［1］Jajodia S， Ghosh A K， Swarup V， et al. Moving target defense： creating asymmetric uncertainty for cyber threats［M］. Berlin： Springer Science & Business Media， 2011.

［2］石乐义，贾春福，吕述望. 基于端信息跳变的主动网络防护研究［J］. 通信学报， 2008，29（2）：106-110. （Shi Leyi， Jia Chunfu， Lyu Shuwang. Research on end hopping for active network confrontation［J］. Journal on Communications， 2008， 29（2）：106-110.）

［3］Shi Leyi， Jiang Lanlan， Liu Deli， et al. Mimicry honeypot： a brief introduction［C］//Proc of the 8th International Conference on Wireless Communications， Networking and Mobile Computing. Pisca-taway， NJ： IEEE Press， 2012： 1-4.

［4］邬江兴. 拟态计算与拟态安全防御的原意和愿景［J］. 电信科学， 2014，30（7）： 2-7. （Wu Jiangxing. Meaning and vision of mi-mic computing and mimic security defense［J］. Telecommunications Science， 2014，30（7）： 2-7.）

［5］劉江，张红旗，刘艺. 基于不完全信息动态博弈的动态目标防御最优策略选取研究［J］. 电子学报， 2018，46（1）： 82-89. （Liu Jiang， Zhang Hongqi， Liu Yi. Research on optimal selection of moving target defense policy based on dynamic game with incomplete information［J］. Acta Electronica Sinica， 2018，46（1）： 82-89.）

［6］胡永进，马骏，郭渊博，等. 基于多阶段网络欺骗博弈的主动防御研究［J］. 通信学报， 2020，41（8）：32-42. （Hu Yongjin， Ma Jun， Guo Yuanbo， et al. Research on active defense based on multi-stage cyber deception game［J］. Journal on Communications， 2020，41（8）： 32-42.）

［7］Liu Fei， Gao Hongyan， Wei Zegang. Research on the game of network security attack-defense confrontation through the optimal defense strategy［J］. Security and Privacy， 2021，4（1）： e136.

［8］Chen Zequan， Sun Jifen， Yang Xin， et al. Optimal strategy selecting method for mimic defense based on incomplete information dynamic game［C］//Proc of the 9th International Conference on Networks， Communication and Computing. New York： ACM Press， 2020：34-39.

［9］Chen Zequan， Cui Gang， Zhang Lin， et al. Optimal strategy for cyberspace mimic defense based on game theory［J］. IEEE Access， 2021，9： 68376-68386.

［10］Shi Leyi， Miao Yifan， Ren Jiahao， et al. A defense mechanism ana-lysis for dynamic heterogeneous redundancy［C］//Proc of the 23rd Asia-Pacific Network Operations and Management Symposium. Pisca-taway， NJ： IEEE Press， 2022： 1-4.

［11］Sigmund K， Nowak M A. Evolutionary game theory［J］. Current Biology， 1999，9（14）： R503-R505.

［12］巩俊辉，胡晓辉，杜永文. 基于演化博弈的最优防御策略选取研究［J］. 计算机工程与应用， 2021，57（13）： 116-123. （Gong Junhui， Hu Xiaohui， Du Yongwen. Research on selection of optimal defense strategy based on evolutionary game［J］. Computer Enginee-ring and Applications， 2021，57（13）： 116-123.）

［13］徐晓桐. 基于演化博弈的网络安全攻防策略模型的研究［D］. 南宁：广西大学， 2020. （Xu Xiaotong. Study on network security attack and defense strategy model based on evolutionary game［D］. Nanning： Guangxi University， 2020.）

［14］Jin Hui， Zhang Senlei， Zhang Bin， et al. Evolutionary game decision-making method for network attack and defense based on regret minimization algorithm［J］. Journal of King Saud University-Computer and Information Sciences， 2023，35（3）： 292-302.

［15］鄔江兴. 网络空间拟态防御研究［J］. 信息安全学报， 2016，1（4）：1-10. （Wu Jiangxing. Research on cyber mimic defense［J］. Journal of Cyber Security， 2016，1（4）：1-10.）

［16］任权，邬江兴，贺磊. 基于GSPN的拟态DNS构造策略研究［J］. 信息安全学报， 2019，4（2）： 37-52. （Ren Quan， Wu Jiangxing， He Lei. Research on mimic DNS architectural strategy based on generalized stochastic petri net［J］. Journal of Cyber Security， 2019，4（2）： 37-52.）

［17］张杰鑫，庞建民，张铮，等. 基于非相似余度架构的网络空间安全系统异构性量化方法［J］. 电子与信息学报， 2019，41（7）： 1594-1600. （Zhang Jiexin， Pang Jianmin， Zhang Zheng， et al. Heterogeneity quantization method of cyberspace security system based on dissimilar redundancy structure［J］. Journal of Electronics & Information Technology， 2019，41（7）： 1594-1600.）

［18］Shi Leyi， Wang Xiran， Hou Huiwen. Research on optimization of array honeypot defense strategies based on evolutionary game theory［J］. Mathematics， 2021，9（8）： 805.

［19］Friedman D. Evolutionary games in economics［J］. Econometrica： Journal of the Econometric Society， 1991，59（3）： 637-666.