基于演化博弈的WSNs攻防策略选择动力学分析

2017-09-23 03:02:25张可径曹奇英沈士根
计算机应用与软件 2017年9期
关键词:惩罚收益无线

张可径 曹奇英* 沈士根

1(东华大学计算机科学与技术学院 上海 201620)2(绍兴文理学院计算机科学与工程系 浙江 绍兴 312000)

基于演化博弈的WSNs攻防策略选择动力学分析

张可径1曹奇英1*沈士根2

1(东华大学计算机科学与技术学院 上海 201620)2(绍兴文理学院计算机科学与工程系 浙江 绍兴 312000)

针对无线传感器网络(WSNs)容易被恶意攻击的问题,引入奖励因子与惩罚因子,提出一种WSNs防御系统与恶意节点的博弈模型。通过对模型的量化分析,计算出博弈双方的收益函数,根据复制动态原理,进行演化动力学分析。给出博弈双方的演化稳定策略,揭示攻防双方策略选择的规律,为WSNs防御机制设计提供理论参考。数值实验验证了演化稳定策略命题的正确性和奖励因子、惩罚因子的有效性。

无线传感器网络 恶意节点 演化博弈 复制动态

0 引 言

近年来,随着通信技术的高速发展,无线传感器网络(WSNs)以其组网迅速、多跳、无需固定基础设施等特点,在多个领域得到了广泛的应用并成为学术界新的研究热点。在一个无线传感器网络中,包含着许多传感器节点,这些节点相互关联构成了可以覆盖一定区域的无线网络。在无线传感器网络的监控区域中,通过节点间的数据传输,可以实时地感知、采集监控区域内的信息,并可以对这些信息加以处理,最后将处理结果返回给搭建好的远程服务器。无线传感器网络的这些特性使其可以代替人力在恶劣的环境条件下完成工作任务,故在气象监测、军事等领域有着广泛的应用。

要使得WSNs大规模应用到现实生活中来,安全问题是首先需要考虑的重要因素[1]。但由于无线传感器通常被部署在开放、自然条件恶劣的环境中,容易遭到黑客的攻击且不便于物理维护,这些安全问题大大限制了无线传感器网络的使用。姜伟等基于非合作博弈,提出一种新的网络攻防博弈模型,并证明了该模型的可行性[2]。文献[3]在WSNs中,针对攻防双方提出了一种非对称演化博弈模型,通过分析得出攻击成本很大程度上影响着WSNs系统的安全性与稳定性。Chen等提出了一种基于演化博弈的动态激励机制,促进节点之间相互合作,最终使节点收敛于合作状态,以便于系统能更好的运行[4]。文献[5]在无线传感器网络中提出了两种路径博弈,对内部节点和外部节点成本最低的路径进行分析并计算出了它们的支付函数,最后通过实验表明基于演化博弈理论的方案比起传统方案更有优势。文献[6]提出了一种WSNs主动防御模型,使得节点可以动态地调整自己的策略,实现高效的防御。文献[7]运用演化博弈理论,改进了现有的协议,有效地解决了负载平衡问题,成功地延长了网络的生命周期。Farzaneh等提出了一种资源控制协议,并运用演化博弈加以分析论证,有效地节约了能源[8]。文献[9]将演化博弈理论运用在DTNs(Delay Tolerant Networks)的防御当中,分析和促进网络中节点的策略变化,达到防御的目的。文献[10]运用博弈论,在无线传感器网络中对恶意攻击进行建模,研究防范WSNs系统中的恶意节点和节点的自私行为。文献[11]利用演化博弈理论,提出了一种传感器节点自动调节保密率机制,为实现数据的保密传输提供了新思路。

本文运用演化博弈思想分析WSNs防御系统与恶意节点的攻防策略选择动力学过程。同时在WSNs防御系统中引入奖励与惩罚机制,揭示攻防双方在动态博弈过程中奖励、惩罚因子对恶意节点策略选择的影响,总结其策略选择变化规律。通过建立防御系统与恶意节点的演化博弈模型,反映双方的收益得失,体现WSNs节点的有限理性和选择策略的模仿性。利用复制动态理论,分析WSNs防御系统与恶意节点策略选择的动态变化过程,找出攻防双方的演化稳定策略。研究结果为WSNs系统安全机制的设计提供理论参考。

1 演化博弈与WSNs安全

1.1 演化博弈论概述

演化博弈论源自于达尔文生物进化论,是将博弈理论与生物进化相结合而产生的一门新型理论,属于博弈理论的一个分支。在博弈过程中,参与者可以根据自身的收益来动态地调整自己的策略,最终系统会达到一个平衡状态,此时即使个别个体发生突变扰动,也不会对整体产生影响,体现的是一种动态的平衡。演化博弈理论当中包含两个重要概念:(1) 复制动态理论;(2) 演化稳定策略。Taylor等提出了一种复制动态模型,目前此模型已经得到了广泛应用[12]。该模型较为形象、清晰地揭示出自然界中群体行为的演化规律。将一个生物学中的物种看作一个群体,演化过程就像生物学中的优胜劣汰那样,对一次博弈中收益较高的策略,在下一次博弈中将被更多的参与者选择,继续在群体中存在,反之将被淘汰。复制动态方程的本质是一个动态微分方程,它是某策略在博弈过程中被采用频数的抽象表达,如式(1)所示:

(1)

演化博弈理论当中的纳什均衡被称为演化稳定策略 (ESS)[13],可以理解为系统处于纳什均衡即能“消除变异个体”或“驱逐入侵个体”。即如果一个种群中所有个体都采用了某一策略,此时任何突变策略或外来策略都不能替代原策略,则称此策略是演化稳定的。

1.2 WSNs的安全问题

鉴于无线传感器节点的工作环境及自身有限的硬件资源,故WSNs的安全问题与传统的计算机网络有很大不同。如无线传感器节点由于工作需要,经常被部署在一些相对开放、条件恶劣的环境中,部署成功后很难去进行物理维护与人为看守,工作过程中容易发生故障和遭到攻击。由于无线传感器节点自己的处理能力、存储空间等都非常有限,导致一些成熟的安全协议难以应用其中,这就使WSNs安全面临着更严峻的挑战。

其面临的主要安全问题包括:

(1) 节点的物理安全

无线传感器节点通常被安置在自然条件恶劣的开放环境当中,使用过程中不易于人工维护,容易发生故障。而且处于这样的环境中,节点很容易遭到黑客的攻击而变成具有潜在攻击威胁的恶意节点。

(2) 链路层的安全问题

链路层面临的主要安全威胁是数据包在传输过程中被破坏,具体的攻击方式有碰撞冲突,不公平竞争的拒绝服务攻击等。

(3) 网络层的安全问题

无线传感器网络之中的数据是直接由传感器节点进行传输与转发,没有成熟的传输协议与有效的防范措施,使得在信息的传输过程中易被攻击者拦截、篡改,造成损失。

2 基于演化博弈的WSNs攻防模型

2.1 模型描述

参与者“恶意节点”代表了WSNs中那些已经被攻击者俘获控制,具有潜在攻击威胁的传感器节点。“WSNs系统”实质是驻留在WSNs系统中的防御系统。图1给出了“恶意节点”和“WSNs系统”之间的博弈过程。

图1 参与者“恶意节点”和“WSNs系统”之间的博弈过程

为描述“WSNs恶意节点攻防博弈”的支付矩阵,记ω(ω>0)为一个传感节点感知数据的价值,CD为WSNs系统启动防御成本,P为WSNs系统拦截攻击成功率,CA为恶意节点攻击成本。当WSNs系统检测出节点无攻击动作时,将奖励该节点收益αω,其中α为奖励因子;当WSNs系统检测到节点有攻击动作时,将惩罚节点βω,其中β为惩罚因子。当恶意节点攻击成功时将获得收益ω,而WSNs系统损失ω;当WSNs系统防御成功时,由于保护了价值为ω的数据,将获得收益ω,而恶意节点损失ω。

假设WSNs系统可以检测到恶意节点的攻击动作,考虑奖励因子、惩罚因子对博弈过程的影响,若WSNs系统和恶意节点采用策略对(防御,攻击),WSNs系统成功拦截攻击获得收益pω,拦截失败损失(1-p)ω,故WSNs的支付为:

(2)

对恶意节点而言,攻击成功获得收益(1-p)ω,攻击失败损失pω,而攻击动作被WSNs系统检测到被惩罚βω,故恶意节点的支付为:

(3)

若WSNs系统和恶意节点采用策略对(防御,不攻击),WSNs系统支付:

(4)

恶意节点因其正常工作,无攻击动作而受到奖励αω,其支付为:

(5)

若WSNs系统和恶意节点采用策略对(不防御,攻击),WSNs系统支付:

(6)

恶意节点的支付为:

(7)

最后,若WSNs系统和恶意节点采用策略对(不防御,不攻击),双方的支付均为0。

根据上述分析,可得出WSNs防御系统与恶意节点的收益矩阵,如表1所示。

表1 “WSNs恶意节点攻防博弈”的支付矩阵

2.2 “WSNs恶意节点攻防博弈”动力学分析

记防御方之中选择“防御”策略的个体占总体比例为X,攻击方之中选择“攻击”策略的个体占总体比例为Y。由于是在传感器节点有限理性这一前提下进行研究,故X、Y的值是随时间不断变化的,传感节点通过学习其他节点以及自身收益的高低来调整策略,是一个不断完善和进化的过程。

2.2.1 防御方策略选择动力学分析

由表1,防御方选择“防御”策略的期望收益:

E(Ud)=Y[(2P-1)ω-CD]+(1-Y)(-CD)=

(2P-1)Yω-CD

(8)

防御方选择“不防御”策略的期望收益:

E(Und)=Y(-ω)=-Yω

(9)

防御方群体的平均期望收益:

X[(2P-1)Yω-CD]+(1-X)(-Yω)

(10)

所以,由式(1)可以得到防御方选择“防御”策略群体比例的复制动态方程为:

X(1-X)(2PYω-CD)

(11)

2.2.2 攻击方策略选择动力学分析

由表1,攻击方选择“攻击”策略的期望收益:

E(Ua)=X[(1-2P-β)ω-CA]+(1-X)(ω-CA)=

ω-(2P+β)Xω-CA

(12)

攻击方选择不攻击策略的期望收益:

E(Una)=Xαω=αXω

(13)

攻击方群体的平均收益:

Y[ω-(2P+β)Xω-CA]+(1-Y)αXω

(14)

所以,由式(1)可以得到攻击方选择“攻击”策略群体比例的复制动态方程为:

Y(1-Y)[ω-(2P+α+β)Xω-CA]

(15)

2.3 “WSNs恶意节点攻防博弈”稳定性分析

2.3.1 WSNs系统策略选择演化稳定性分析

根据以上的分析,分情况讨论:

2.3.2 恶意节点策略选择演化稳定性分析

类似于防御方的分析,分类讨论:

3 实验分析

实验环境为Matlab R2012b,通过设置CD、CA、P、ω、α、β等参数不同的取值来验证博弈过程中的演化稳定策略。由于篇幅有限,这里只验证恶意节点策略选择的稳定性,WSNs系统策略选择稳定性的分析方法与恶意节点策略选择的分析方法相同。

3.1 恶意节点策略选择分析

(1) 当X的取值大于临界值时,分别取X=0.90,X=0.75,X=0.60,实验结果如图2所示。

图2 恶意节点策略选择收敛曲线(1)

从图2中可以得到,当X的取值大于临界值0.2时,恶意节点不受数值微小变动的影响,最终都收敛到Y=0的状态,即恶意节点都选择“不攻击”策略。实验结果验证了命题4并反映了X取值对恶意节点策略选择收敛速度的影响,X取值越大,攻击方收敛速度越快。

(2) 当X取值等于临界值时,分别取临界值附近数值0.21和0.19与其比较,实验结果如图3所示。

图3 恶意节点策略选择收敛曲线(2)

从图3中可以得出,当X取值等于临界值0.2时,恶意节点不能收敛于确定数值,无演化稳定策略。实验结果验证了命题5的正确性。

(3) 当X取值小于临界值时,分别取X=0.15,X=0.10,X=0.05,实验结果如图4所示。

图4 恶意节点策略选择收敛曲线(3)

从图4可以得出,当X取值小于临界值0.2时,恶意节点不受数值微小变动的影响,最终都收敛到Y=1的状态,即恶意节点都选择“攻击”策略。实验结果验证了命题6并反映了X取值对恶意节点策略选择收敛速度的影响,X取值越小,恶意节点收敛速度越快。

3.2 奖励、惩罚因子对攻击方收敛情况的影响

设定:ω=10,P=0.5,CA=7,恶意节点选择“攻击”策略的初始比例Y=0.5,WSNs系统选择“防御”策略的初始比例X=0.5。

(1) 考察奖励因子α对恶意节点收敛情况的影响。设定β=0.3,α=0.3,α=0.2,α=0.1,实验结果如图5所示。

图5 α对恶意节点收敛情况的影响

从图5可以得出,奖励因子α取值越小,恶意节点达到演化稳定状态的速度越慢;反之取值越大,收敛速度越快。考虑到WSNs防御系统的成本,奖励因子的取值通常不会太高,收敛速度的影响较小。WSNs系统可以根据对系统稳定性的需求小范围地调整奖励因子,以保证系统高效稳定的运行。该实验结果与实际情况相符。

(2) 考察惩罚因子β对恶意节点收敛情况的影响。设定α=0.2,β=0.9,β=0.6,β=0.3,实验结果如图6所示。

图6 β对恶意节点收敛情况的影响

从图6可以得出,惩罚因子β取值越小,恶意节点达到演化稳定状态的速度越慢;反之取值越大,收敛速度越快。在实际应用中,WSNs系统可以根据防御需要对惩罚因子进行调整(如所传输数据的重要性),故惩罚因子的可调范围较大。该实验结果与实际情况相符。

4 结 语

本文根据演化博弈理论提出了WSNs与恶意节点博弈模型,反映了攻防双方在选择不同策略时的收支状况。运用复制动态方程研究博弈双方策略选择的变化过程,有效体现了节点的有限理性及演化博弈学习、进化的本质特点。在模型中引入奖励因子对无攻击动作的节点给予额外收益,引入惩罚因子对具有攻击威胁的恶意节点进行收益的削减,使 WSNs系统可以根据不同的工作需求而动态地调整两种因子的数值,促使系统更快速地达到稳定状态,有助于提升 WSNs防御系统的工作效率与稳定性。最后通过数值实验,验证了不同参数情况下命题的正确性,为WSNs防御系统的设计提供理论参考。

[1] 裴庆祺,沈玉龙,马建峰.无线传感器网络安全技术综述[J].通信学报,2007,28(8):113-122.

[2] 姜伟,方滨兴,田志宏,等.基于攻防博弈模型的网络安全测评和最优主动防御[J].计算机学报,2009(4):817-827.

[3] 刘雪艳,张强,王彩芬.传感器网络安全投资的演化博弈分析[J].计算机工程,2010(12):190-192.

[4] Chen Z,Qiu Y,Liu J,et al.Incentive mechanism for selfish nodes in wireless sensor networks based on evolutionary game[J].Computers and Mathematics with Applications,2011,62(9):3378-3388.

[5] Chen Z,Qiao C,Xu L,et al.Optimizing wireless unicast and multicast sensor networks on the basis of evolutionary game theory[J].Concurrency Computation Practice and Experience,2014,26(5):1130-1141.

[6] Chen Z,Qiao C,Qiu Y,et al.Dynamics stability in wireless sensor networks active defense model[J].Journal of Computer and System Sciences,2014,80(8):1534-1548.

[7] Abd M A,Al-Rubeaai S F M,Singh B K,et al.Extending wireless sensor network lifetime with global energy balance[J].IEEE Sensors Journal,2015,15(9):5053-5063.

[8] Farzaneh N,Yaghmaee M H.An adaptive competitive resource control protocol for alleviating congestion in wireless sensor networks:an evolutionary game theory approach[J].Wireless Personal Communications,2015,82(1):123-142.

[9] Guo H,Wang X,Cheng H,et al.A routing defense mechanism using evolutionary game theory for Delay Tolerant Networks[J].Applied Soft Computing,2016,38:469-476.

[10] Abdalzaher M S,Seddik K,Elsabrouty M,et al.Game theory meets wireless sensor networks security requirements and threats mitigation:A survey[J].Sensors,2016,16(7).

[11] 沈士根,黄龙军,屠昂燕,等.基于演化博弈的传感节点保密率自适应调节方法[J].电信科学,2014(11):73-79.

[12] Taylor P,Jonker L.Evolutionarily stable strategies and game dynamics[J].Mathematical Biosciences,1978,40(1-2):145-156.

[13] Fudenberg D,Levine D K.The theory of learning in games[M].Cambridge:The MIT Press,1998:67-72.

DYNAMICANALYSISOFATTACKANDDEFENSESTRATEGYSELECTIONFORWSNSBASEDONEVOLUTIONARYGAME

Zhang Kejing1Cao Qiying1*Shen Shigen21

(CollegeofComputerScienceandTechnology,DonghuaUniversity,Shanghai201620,China)2(DepartmentofComputerScienceandEngineering,ShaoxingUniversity,Shaoxing312000,Zhejiang,China)

In order to solve the problem of WSNs vulnerable to malicious attacks, we put forward a game model between the WSNs defense system and malicious nodes by introducing incentive and punitive factors. Through the quantitative analysis of the model, we calculated the income function of both sides of the game, and carried out the evolutionary dynamics analysis according to the dynamic principle of replication. We gave the evolution strategy of both sides of the game, revealed the law of the choice of both sides of the offensive and defensive strategy, and provided the theoretical reference for the WSNs defense mechanism design. Numerical experiments verify the validity of the evolutionary stability strategy proposition and the effectiveness of the incentive and punitive factors.

WSNs Malicious node Evolutionary game Replicator dynamics

TP3

A

10.3969/j.issn.1000-386x.2017.09.027

2016-10-20。国家自然科学基金项目(61272034)。张可径,硕士,主研领域:信息安全,博弈论。曹奇英,教授。沈士根,教授。

猜你喜欢
惩罚收益无线
《无线互联科技》征稿词(2021)
螃蟹爬上“网” 收益落进兜
今日农业(2020年20期)2020-12-15 15:53:19
神的惩罚
小读者(2020年2期)2020-03-12 10:34:06
Jokes笑话
无线追踪3
基于ARM的无线WiFi插排的设计
电子制作(2018年23期)2018-12-26 01:01:08
惩罚
趣味(语文)(2018年1期)2018-05-25 03:09:58
ADF7021-N在无线寻呼发射系统中的应用
电子制作(2016年15期)2017-01-15 13:39:03
2015年理财“6宗最”谁能给你稳稳的收益
金色年华(2016年1期)2016-02-28 01:38:19
东芝惊爆会计丑闻 凭空捏造1518亿日元收益
IT时代周刊(2015年8期)2015-11-11 05:50:38