基于攻防博弈和蒙特卡洛模拟的网站防御策略选取方法

2018-09-12 03:05吴昊范九伦赖成喆刘建华

通信学报 2018年8期

吴昊，范九伦，赖成喆，刘建华

吴昊1，范九伦1，赖成喆1，刘建华2

（1. 西安邮电大学通信与信息工程学院，陕西西安 710121；2. 西安邮电大学信息中心，陕西西安 710121）

针对网络攻防对抗中的安全防御策略选取问题，研究攻防双方策略相互影响的动态变化过程。从攻防双方的博弈过程出发，构建攻防博弈模型，基于蒙特卡洛模拟法模拟攻击者的攻击过程，得到攻击者的最佳攻击效用，进而计算防御者的最佳防御效用。该方法实现了在有限的资源投入下选取最优的防御策略，以达到网络安全防御效用的最大化。仿真实验验证了该方法的有效性，并分析了不同参数设置对防御策略选取的影响。

攻防博弈；防御策略；蒙特卡洛模拟；效用函数

1 引言

随着互联网和社会信息化进度的不断发展，网络规模日趋复杂，网络安全问题日益突出。同时，“黑色产业链”带来的每年数千万级的海量病毒和网络攻击，加剧了攻击和防御的不对称，使网络空间安全状况进一步恶化。如果仍然使用传统的被动防御策略已经很难提供有效的防御保障，亟需对网络攻防行为进行分析和预测，并依据分析结果实施有效的主动防御。在安全风险管理中，采用的每种主动防御措施都有一定的防御成本。如何权衡收益和成本是一个具有挑战性的问题，如何在有限的防御成本条件下选取最优的防御策略已成为当前的研究热点[1-2]。

网络攻防的本质就是一种攻防双方策略相互影响的动态变化过程。网络攻防对抗中的攻击方和防御方是2个具有理性思维能力的主体，双方的对立性、策略依存性和关系非合作性正是博弈论的基本特征[3-4]。由于双方在攻防博弈过程中获得的收益有差异，随着时间的推移，在收益差异的牵引和学习机制的驱动下，不断根据对方策略的选择来调整自身策略以确保自身收益，由此形成攻防对抗中的网络安全态势不断动态演化[5-6]。因此，在网络攻防对抗中使用博弈的思想寻找最优的防御策略，是一种很有效的方法[7-10]。文献[11]基于非合作、非零和动态博弈理论提出了完全信息动态博弈主动防御模型，给出了分别适应于完全信息和非完全信息这2种场景的攻防博弈算法。文献[12]用三角模糊数来表示攻防双方各策略的损益值，提出了基于三角模糊矩阵的博弈算法。文献[13]基于静态贝叶斯博弈的绩效评估模型PEM-SBG，提出了蠕虫攻防策略绩效评估方法，通过纳什均衡的计算结果来指导防护策略的选择。文献[14]建立了基于系统动力学的攻防演化博弈模型，通过博弈模型和系统动力方法对攻防双方的策略选取机制进行了分析。文献[15]从动态对抗和有限信息的视角对攻防行为进行研究，构建了攻防信号博弈模型，并提出了精炼贝叶斯均衡求解算法。文献[16]提出了一种基于非合作的演化博弈理论，基于此构建攻防演化博弈模型，提出演化稳定均衡的求解方法。文献[17]设计了多阶段攻防博弈均衡的求解方法，并给出了最优主动防御策略选取算法。文献[18]结合进化博弈论和马尔可夫决策过程，构造了一个基于有限理性约束的网络攻防分析的多级马尔可夫进化博弈模型，能够对多阶段、多状态网络攻防过程进行动态分析和推理。文献[19]基于不完全信息动态博弈构建了面向动态目标防御的单阶段和多阶段博弈模型，给出了精炼贝叶斯均衡求解算法和先验信息修正方法，获得了不同安全态势下的最优动态目标防御策略。文献[20]借鉴传染病动力学理论构建了攻防微分博弈模型，并提出了鞍点策略的求解方法和最优防御策略的选取算法。文献[21]设计了一种基于无标度多目标零和博弈的网络攻击建模方法，使用帕累托前沿确定最有害的攻击，并利用帕累托优化来找到对这些攻击的最佳防御。但这些方案大都没考虑到网络安全防御资源投入受限的情况。在实际的应用过程中，尤其是一些中小企业的网络系统，在网络安全防御资源的投入上往往会受到人力、物力、财力等各方面的限制，很可能无法达到理论上最优防御策略的要求。因此，如何在防御资源投入总额限定的情况下做出最优的防御决策，实现网络安全防御效用的最大化，是本文着力解决的问题。

网络安全防御应平衡网络安全与系统资源投入的关系，采用“适度安全”的攻防策略，正是基于这一目标，本文在研究攻防博弈的基础上，结合蒙特卡洛模拟法模拟攻击者的攻击，得到攻击者的最佳攻击效用，进而使防御者在有限可选策略集合中选取最优的防御策略。随后通过实验对该方法的有效性进行了验证，实验结果表明，该方法能够通过完整模拟攻防过程中攻防双方的博弈过程，帮助管理员在防御资源投入总额受限的情况下选取最优的防御资源配置，为安全防御决策提供实用而有效的指导。

2 基于攻防博弈和蒙特卡洛模拟的网站防御策略

2.1 网络攻防博弈模型

图1 攻防博弈过程

2.2 防御者的防御目标

2.3 攻击概率模型估计

算法1 最优攻击决策算法

begin

end

3 最优防御策略选取实例

管理员的防御投资为

3.1 攻击者决策过程和攻击效用计算

图2 攻击者决策过程

表1 每种资源的功用和相关系数

5) 每次攻击都面临的攻击成本如下。

7) 攻击者实施攻击获得的收益与其付出的风险成本成正比。风险越大，收益可能越大。因此，我们将攻击者的攻击效用函数定义为

可以得到攻击者的随机期望效用为

3.2 防御者防御效用计算

图3 攻击者数量与防御能力关系

管理员希望不断规避风险，同时尽可能少地投入，本文将管理员的防御效用定义为

4 策略选取结果分析

4.1 参数选取

假设某网站每年的安全防御预算不超过30万元，每种资源的单价和最大数量如表2所示。

表2 防御资源单价及最大数量

模型中其他参数选取如下。

4.2 实验结果及分析

由于防御总预算不超过30万元，可行的防御方案总共有241种，每种方案测试50次，图4显示了每种方案的平均防御效用。我们选取其中最优的5种方案，它们的投资和防御效用如表3所示。

图4 每种方案的平均防御效用

表3 最优防御方案Top5

由表3可知，排名第一的防御策略的投入比第二名、第四名、第五名的投入都低，这说明好的防御策略并不是投入得越多越好，而是根据周边的威胁情况，选择合适的防御方案。这样不仅投入少，还能获得更好的防御效果。

4.3 参数选取对防御策略选取的影响

为了充分了解算法中不同的参数与防御策略的选取之间的内在关系，下面分别从提高犯罪罚款和提高攻击收益这2个方面分析不同的参数选取对防御策略的影响。

1) 提高犯罪罚款

图5 提高攻击者犯罪罚款后每种方案的平均防御效用

表4 提高攻击者犯罪罚款后的最优防御方案Top5

由表4可知，前五名防御策略的平均投入为28.4万元，相较原先的平均投入28.9万元有一定的减少，由此可以看出，当提高犯罪罚款标准以后，网络攻击者由于忌惮被抓后高额的罚款，会减少攻击，这样防御者可以用更少的投资即可达到预期的防御效果。由此可见，只有加大对危害计算机信息系统安全犯罪的打击力度，才能有效地震慑计算机犯罪，保障计算机信息系统安全和信息安全，促进我国互联网的健康发展。

2) 提高攻击收益

图6 提高攻击平均收益后每种方案的平均防御效用

表5 提高攻击平均收益后的最优防御方案Top5

由表5可知，前五名防御策略的平均投入为29.2万元，相较原先的平均投入28.9万元进一步提高，其原因在于随着攻击预期收益的增加，攻击者会更加铤而走险地发动攻击，防御者就得相应地增加防御投资来抵御被攻击的风险。因此，对一些保存有重要信息和资源的网站，更应该增加网络安全防御的投入，以加强对周边安全威胁的主动防御。

5 结束语

通过攻防博弈模型对网络攻防行为进行分析和预测，可以帮助系统管理员及时发现网络中潜在的网络威胁和存在的安全隐患[29]，根据不同的安全需求进行最优防御策略的选择和实施，最大效率地达到网络安全防护的目的。

本文从攻防双方的博弈过程出发，构建攻防博弈模型，结合蒙特卡洛模拟法模拟攻击者的攻击，从而得到攻击者的最佳攻击效用，进而获得防御者在防御资源投资总额限定下的最优防御策略。实验结果表明，该方法有效可行，可以帮助网站管理人员通过预先估计攻击者各种攻击行为可能性的变化，采取更高效的防御手段，提升防御效果。

[1] ZHANG H G, HAN W B, LAI X J, et al. Survey on cyberspace security[J]. Science China Information Sciences, 2015, 58(11): 1-43.

[2] 龚俭, 臧小东, 苏琪, 等. 网络安全态势感知综述[J]. 软件学报, 2017, 28(4): 1010-1026.

GONG J, ZANG X D, SU Q, et al. Survey of network security situation awareness[J]. Journal of Software, 2017, 28(4): 1010-1026.

[3] 姜伟, 方滨兴, 田志宏, 等. 基于攻防随机博弈模型的防御策略选取研究[J]. 计算机研究与发展, 2010, 47(10): 1714-1723.

JIANG W, FANG B X, TIAN Z H, et al. Research on defense strategies selection based on attack-defense stochastic game model[J]. Journal of Computer Research & Development, 2010, 47(10): 1714-1723.

[4] 王元卓, 于建业, 邱雯, 等. 网络群体行为的演化博弈模型与分析方法[J]. 计算机学报, 2015, 38(2): 282-300.

WANG Y Z, YU J Y, WEN Q, et al. Evolutionary game model and analysis methods for network group behavior[J]. Chinese Journal of Computers, 2015, 38(2): 282-300.

[5] LIANG X, XIAO Y. Game theory for network security[J]. IEEE Communications Surveys & Tutorials, 2013, 15(1): 472-486.

[6] ROY S, ELLIS C, SHIVA S, et al. A survey of game theory as applied to network security[C]//Hawaii International Conference on System Sciences. 2010: 1-10.

[7] YANG R, KIEKINTVELD C, ORDONEZ F, et al. Improving resource allocation strategies against human adversaries in security games: an extended study[J]. Artificial Intelligence, 2013, 195(1): 440-469.

[8] FALLAH M. A puzzle-based defense strategy against flooding attacks using game theory[J]. IEEE Transactions on Dependable & Secure Computing, 2010, 7(1): 5-19.

[9] CHENG D, HE F, QI H, et al. Modeling, analysis and control of networked evolutionary games[J]. IEEE Transactions on Automatic Control, 2015, 60(9): 2402-2415.

[10] 王元卓, 林闯, 程学旗, 等. 基于随机博弈模型的网络攻防量化分析方法[J]. 计算机学报, 2010, 33(9): 1748-1762.

WANG Y Z, LIN C, CHENG X Q, et al. Analysis for network attack-defense based on stochastic game model[J]. Chinese Journal of Computers, 2010, 33(9): 1748-1762.

[11] 林旺群, 王慧, 刘家红, 等. 基于非合作动态博弈的网络安全主动防御技术研究[J]. 计算机研究与发展, 2011, 48(2): 306-316.

LIN W Q, WANG H, LIU J H, et al. Research on active defense technology in network security based on non-cooperative dynamic game theory[J]. Journal of Computer Research & Development, 2011, 48(2): 306-316.

[12] 高翔, 祝跃飞, 刘胜利. 应用三角模糊矩阵博弈的网络安全评估研究[J]. 西安交通大学学报, 2013, 47(8): 49-53.

GAO X, ZHU Y F, LIU S L. Networks security assessment based on triangular fuzzy matrix game[J]. Journal ofXi’an Jiaotong University, 2013, 47(8): 49-53.

[13] 刘玉岭, 冯登国, 吴丽辉, 等. 基于静态贝叶斯博弈的蠕虫攻防策略绩效评估[J]. 软件学报, 2012, 23(3): 712-723.

LIU Y L, FENG D G, WU L H, et al. Performance evaluation of worm attack and defense strategies based on static Bayesian game[J]. Journal of Software, 2012, 23(3): 712-723.

[14] 朱建明, 宋彪, 黄启发. 基于系统动力学的网络安全攻防演化博弈模型[J]. 通信学报, 2014, 35(1): 54-61.

ZHU J M, SONG B, HUANG Q F. Evolution game model of offense-defense for network security based on system dynamics[J]. Journal on Communications, 2014, 35(1): 54-61.

[15] 张恒巍, 余定坤, 韩继红, 等. 基于攻防信号博弈模型的防御策略选取方法[J]. 通信学报, 2016, 37(5): 51-61.

ZHANG H W, YU D K, HAN J H, et al. Defense policies selection method based on attack-defense signaling game model[J]. Journal on Communications, 2016, 37(5): 51-61.

[16] 黄健明, 张恒巍, 王晋东, 等. 基于攻防演化博弈模型的防御策略选取方法[J]. 通信学报, 2017, 38(1): 168-176.

HUANG J M, ZHANG H W, WANG J D, et al.Defense strategies selection based on attack-defense evolutionary game model[J]. Journal on Communications, 2017, 38(1): 168-176.

[17] 张恒巍, 李涛. 基于多阶段攻防信号博弈的最优主动防御[J]. 电子学报, 2017, 45(2): 431-439.

ZHANG H W, LI T. Optimal active defense based on multi-stage attack-defense signaling game[J]. Acta Electronica Sinica, 2017, 45(2): 431-439.

[18] HUANG J, ZHANG H, WANG J. Markov evolutionary games for network defense strategy selection[J]. IEEE Access, 2017, PP(99): 1.

[19] 刘江, 张红旗, 刘艺. 基于不完全信息动态博弈的动态目标防御最优策略选取研究[J]. 电子学报, 2018, 46(1): 82-89.

LIU J, ZHANG H Q, LIU Y. Research on optimal selection of moving target defense policy based on dynamic game with incomplete information[J]. Acta Electronica Sinica, 2018, 46(1): 82-89.

[20] 张恒巍, 李涛, 黄世锐. 基于攻防微分博弈的网络安全防御决策方法[J]. 电子学报, 2018, 46(6): 1428-1435.

ZHANG H W, LI T, HUANG S R. Network defense decision-making method based on attack-defense differential game[J]. Acta Electronica Sinica, 2018, 46(6): 1428-1435.

[21] SUN Y, XIONG W, YAO Z, et al. Analysis of network attack and defense strategies based on pareto optimum[J].Electronics, 2018, 7(3): 36.

[22] SEILA A. Simulation and the Monte Carlo method[J]. Technometrics, 2009, 24(2): 167-168.

[23] RUBINSTEIN R Y, KROESE D P. Simulation and the Monte Carlo method, second edition[M]. Wiley New York, 2007.

[24] 林要华, 梁忠, 胡华平. 贝塔分布的布谷鸟搜索算法[J]. 南京大学学报, 2016, 52(4): 638-646.

LIN Y H, LIANG Z, HU H P. Cuckoo search algorithm with beta distribution[J]. Journal of Nanjing University, 2016, 52(4): 638-646.

[25] 梅素玉, 王飞, 周水庚. 狄利克雷过程混合模型、扩展模型及应用[J]. 科学通报, 2012, 57(34): 3243-3257.

MEI S Y, WANG F, ZHOU S G. Dirichlet process mixture model, extensions and applications[J]. Chinese Journal, 2012, 57(34): 3243-3257.

[26] 严宇宇, 陶煜波, 林海. 基于层次狄利克雷过程的交互式主题建模[J]. 软件学报, 2016, 27(5): 1114-1126.

YAN Y Y, TAO Y B, LIN H. Interactive topic modeling based on hierarchical Dirichlet process[J]. Journal of Software, 2016, 27(5): 1114-1126.

[27] 常诗雨, 宋礼鹏. 基于演化博弈论的网络安全投资策略分析[J]. 计算机工程与设计, 2017, 38(3): 611-615.

CHANG S Y, SONG L P. Analysis of network security investment strategy based on evolutionary game theory[J]. Computer Engineering & Design, 2017, 38(3): 611-615.

[28] ZHANG S, ZHANG L, QIU K, et al. Variable selection in logistic regression model[J]. Chinese Journal of Electronics, 2015, 24(4): 813-817.

[29] 周靖哲, 陈长松. 云计算架构的网络信息安全对策分析[J]. 信息网络安全, 2017(11): 74-79.

ZHOU J Z, CHEN C S. Analysis of network information security in the cloud computing architecture[J]. Netinfo Security, 2017(11): 74-79.

Website defense strategy selection method based onattack-defense game and Monte Carlo simulation

WU Hao1, FAN Jiulun1, LAI Chengzhe1, LIU Jianhua2

1. School of Communication and Information Engineering, Xi’an University of Posts and Telecommunications, Xi’an 710121, China 2. Information Centre, Xi’an University of Posts and Telecommunications, Xi’an 710121, China

Aiming at the selection of security defense strategy in network attack-defense, the dynamic change process of mutual influence between attack-defense strategy was studied. Based on the game process of both offense and defense, the attack-defense game model was constructed, the attack process of the attacker based on Monte Carlo simulation was simulated and the attacker’s best attack utility was obtained, so as to calculate the best defensive utility of the defender. In order to maximize the effectiveness of network security defense, the optimal defense strategy under limited resources was implemented. Simulation experiments verify the effectiveness of the proposed method and analyze the influence of different parameter settings on the selection of defense strategy.

attack-defense game, defense strategy, Monte Carlo simulation, utility function

TP393

10.11959/j.issn.1000−436x.2018131

吴昊（1981−），男，江苏武进人，西安邮电大学讲师，主要研究方向为信息安全。

范九伦（1964−），男，河南温县人，博士，西安邮电大学教授，主要研究方向为信号处理和信息安全。

赖成喆（1985−），男，陕西汉中人，博士，西安邮电大学副教授，主要研究方向为信息安全。

刘建华（1963−），男，陕西宝鸡人，西安邮电大学高级工程师，主要研究方向为信息安全。

2018−03−22；

2018−07−28

国家重点研发计划基金资助项目（No.2017YFC0803800）；国家自然科学基金资助项目（No.61671377）；陕西省自然科学基础研究计划基金资助项目（No.2017JQ6010）

The National Key Research and Development Program of China (No.2017YFC0803800), The National Natural Science Foundation of China (No.61671377), The Natural Science Basic Research Plan of Shaanxi Province (No.2017JQ6010)