基于博弈论的无线传感网络DDoS攻击防御优化策略

2015-05-30 13:59徐翔沈士根曹奇英
智能计算机与应用 2015年6期
关键词:无线传感器网络博弈论

徐翔 沈士根 曹奇英

摘 要:如何有效优化现有无线传感器网络中DoS/DDoS攻击的防御策略是当前的研究热点问题之一。本文结合目前无线传感器网络中的防御技术,利用博弈论的方法建立模型。该模型通过优化防火墙阀值和针对攻击节点给予惩罚措施的方法,来降低攻击节点的收益,使理性攻击者放弃攻击,从而达到了有效防御DoS/DDoS攻击的目的。最后实验通过比较现有的防御策略与提出的优化策略,验证了该防御优化策略的有效性,从而达到了防御DoS/DDoS攻击的目的。

关键词:无线传感器网络;DoS/DDoS攻击;博弈论;防御策略优化

中图分类号:TP393.0 文献标识号:A

Abstract: In Wireless Sensor Networks(WSNs), how to defense DoS/DDoS attack efficiently is one of the challenging security problems. This paper combined with the current defense strategies in WSNs, establishes the model based on game theory. This model prevents malicious nodes from DoS/DDoS attack by optimizing the threshold of firewall and giving malicious nodes punishment, which lower the income of the malicious nodes. Finally, the experiments further verify the efficiency of the proposed optimized defense strategies by comparing the present defense strategies and the optimized ones, to achieve the purpose of preventing DoS/DDoS attack.

Keywords: WSNs; DoS/DDoS Attack; Game Theory; Defense Strategies Optimization

0 引言

近年来,无线传感器网络(Wireless Sensor Networks,简称WSNs)在军事、农业、环境监测等各个领域都有广泛的应用。这是一种全新的信息获取、处理和传输技术。由于无线传感器网络具有组网快捷、灵活、不受有线网络约束等特点,使得无线传感器网络作为现代通信技术中一个新的研究领域,引起了学术界和工业界的高度重视。但是,又因为WSNs具有通信能力有限,节点能量有限、动态的网络拓扑等结构特点,使得WSNs容易受到攻击,因而网络安全引起了人们的极大关注,各种预防网络攻击的安全措施相继被提出。

在众多的网络攻击中,拒绝服务攻击(Denial of Service,简称DoS攻击)的危害尤为严重[1]。当攻击者控制大量的节点进行DoS攻击时,这种攻击方式就被归类为分布式拒绝攻击(Distributed Denial of Service,简称DDoS攻击)。攻击者在WSNs中发起DoS/DDoS攻击时,一般会通过持续发送重放或伪造的报文给网络中的某些节点的方法,使这些节点不停的转发数据包,从而导致有限的节点能量被迅速消耗殆尽,最后导致WSNs的瘫痪。

近年来,大量学者对WSNs中的DOS/DDoS攻击的防御策略的研究问题表现出了极大的兴趣,纷纷展开了该领域的研究工作 [2-6]。针对无线传感器网络安全问题,不少学者提出使用博弈论的方法来解决在WSNs中的DoS/DDoS防御问题,这也是研究方向之一[7-10]。文献[11]总结了如何用不同的博弈模型研究WSNs中的安全问题。文献[12]介绍了一种基于博弈论的DDoS入侵检测防御策略。文献[13]给出了在WSNs中Dos/DDoS攻击的协议分析。本文在上述文献的基础上,提出了一种基于两个参与者、非合作非零和博弈的模型,用来分析WSNs中DoS/DDoS的防御策略优化问题。现有的WSNs网络防御技术分两种比较普遍的方式。第一种方式就是建立防火墙,这是防御WSNs中DoS/DDoS攻击最直接的策略,通过直接过滤速率较高的数据流来进行防御;第二种方式是采用入侵检测系统,对检测到的攻击节点采取措施。本文针对WSNs的网络拓扑的特点,结合上述两种防御方式,使用博弈模型进行策略优化。

本文选择的博弈模型优点在于模型的灵活性高,可以在保持具体方法不变的前提下,根据不同的WSNs网络环境调整对应的参数,这样的模型适用于实际应用。本文的创新点在于,利用简单的博弈模型将上述使用的两种防御措施相结合;另外,本文提出了一种通用的防御优化方式,在实际使用时可以根据具体的WSNs环境设置相应的参数,因此,该策略适用于不同的WSNs网络环境。

1 背景知识

博弈论是研究存在利益冲突的参与者之间的行为和决策的理论和方法。博弈论也可以被理解为用于模拟两个或两个以上的决策者在一定条件下相互作用的关系[14]。具体就是通过严格的数学理论和模型推导,在各种策略之间进行利益权衡,从而选择对参与者自身最有利的策略。本文将WSNs中DoS/DDoS攻击看作是攻击者和防御者的相互关系,攻击者和防御者都会选择对自己最有利的策略以实现自己的利益最大化。一般来说,决策者可以分為理性决策者和非理性决策者。理性决策者在选择决策时会考虑他人的策略,而非理性决策者不会。在大多数的博弈模型中,决策者都是理性决策者。

在博弈过程中,每个决策者都以自己的利益最优作为选择决策的依据,由于每个决策者做出的决策会影响其他的决策者的利益,所以纳什均衡(Nash equilibrium)的概念就被提了出来。纳什均衡又被称为非合作博弈均衡,是一种策略组合,使得每个参与者的决策是对其他参与者策略的最优反应。如果一个博弈存在纳什均衡,而决策者没有选择纳什均衡中的策略的话,那么其收益一定低于选择纳什均衡中的策略带来的收益。

博弈模型的类型可以根据博弈的参与者之间是否存在约束性的条件或者一致达成坚不可破的联盟而被划分为合作博弈和非合作博弈。决策者根据各自的策略集来判断是否合作。在DoS/DDoS攻击中,攻击者和防御者没有相互的合作关系,因此这个模型属于非合作博弈。此外博弈模型又可以划分为零和博弈与非零和博弈。当决策者的总收益之和存在变化时,这种博弈类型称为非零和博弈。

2 基于博弈模型的防御策略优化

2.1 概述

本文基于WSNs现有的防御方式,利用博弈模型实现防御策略优化的目的。其中,博弈模型是一个基于两个参与者的非合作一次零和博弈。为了更好地刻画攻击者和防御者之间的关系,该模型包括了DoS/DDoS攻击者和防御者考虑的多个因素。在该博弈模型中,攻击者的目标是找到最优的攻击配置参数,以此达到花费最小,收益最大的目的;而另一方面,防御者的目的也是找到最优的防御配置参数,以此来降低攻击者的收益。本文假定攻击者是一个理性的攻击者,也就是说攻击者总是以收益最大化作为自己的目的。由于本文的模型是一个一次博弈模型,这也就意味着双方选定策略之后,将不会改变各自相应策略直到博弈结束;而非零和博弈意味着,攻击者与防御者的收益公式将分开计算,并且攻击者与防御者的收益之间没直接的联系。当找到了博弈模型中的纳什均衡点时,就表示找到了优化策略的最优解。

2.2 网络拓扑及现有的防御措施

本文使用文献[15]中的网络拓扑。图1中的網络拓扑是WSNs中常见的网络拓扑图。图1中间的部分就是WSNs,与其相连的可能有Internet以及其他的无线网络。WSNs采取聚簇结构,每个簇中有一个Sink节点(Sink Node)以及一些传感器节点(Sensor Node)。Sink节点监控每一个传感器节点的行为,并将传感器的信息发送给基站(Base Station),最后通过基站与其他网络连接。由于WSNs的资源有限性,Sink节点到基站的带宽是存在瓶颈的,而WSNs与其他网络连接时,其带宽可以假设不存在瓶颈。

图2显示了当WSNs网络中存在正常节点以及攻击节点时,防御措施是如何工作的。在Sink节点到基站中间中会有两层防御设施。首先,第一层的防火墙会将数据包速率超过阈值的数据包丢弃。之后的第二层防御措施是一个入侵检测系统,当有攻击行为被检测出来时,系统会发出警告。

2.3优化策略的引入

本文提出了两种优化策略:

(1)给出优化的防火墙阀值,以达到最优的防御效果。因为现有的防火墙措施是将速率超过一定阈值的数据包丢弃,然而,这个阈值如何设定比较合理,很难做出判断。如果阈值设定得过高将使防御效果降低,但是过低的阈值也会导致正常的节点无法使用。

(2))针对检测出的攻击节点给予一个优化的惩罚值。现有的入侵检测系统缺乏惩罚措施,使得攻击节点无须考虑攻击行为对后续收益的影响[16]。

实际上,攻击者的总收益取决于以下四个因素:

(1)被攻击节点消耗的平均带宽;(2)由于瓶颈的限制而导致正常节点数据包丢失的数量;(3)攻击者使用的攻击节点的数量[15];(4)被防御措施惩罚的时间。

其中,(1)和(2)中的收益是正收益,而(3)和(4)中的收益是负收益。如果攻击节点在攻击之后会得到惩罚,使得攻击的成本大于收益,那么,一个理性的攻击者将不采取攻击的行为,从而有效地遏制攻击行为。

2.4优化策略的计算

本文的博弈模型中,参与者是攻击者与防御者。攻击者的行动分为攻击与不攻击两种,记为行动集 。而对于防御者而言,由于WSNs的资源有限性以及开启防御措施的能量消耗,防御者在实际中并不一定需要时时刻刻地开启防御措施,因此,防御者的行动为防御与不防御,记为行动集 。最终的博弈行动集记为 。由于攻防双方选择策略时均无限制,所以最终的博弈策略空间为 。

攻击者与防御者每个人选择一个策略,那么n维向量 称为一个策略组合,其中 是参与者i选择的策略。用 表示参与者选择其策略集j策略。对于特定的策略组合,参与者i的收益记为 。由于这里的博弈模型是非零和博弈,所以对于收益满足如下公式:

2.4.1 WSNs网络

假定在WSNs网络中,包括正常节点 是正常节点数)和攻击节点 是攻击节点数)。DoS攻击可以看作是攻击节点数a为1的DDoS攻击。所有的节点发送的都是基于UDP协议的数据包。在模拟UPD数据流时,通常认为UDP数据包的速率服从某一种确定的概率分布或者是多种概率分布的混合,比如正态分布、指数分布、对数分布等等。在本文的模型中,每一个合法节点以某一种速率发送数据包到基站,这种速率是服从泊松分布的,如公式(2)所示:

公式(2)中, 表示正常节点发送的数据包速率, 是正常节点发送数据包速率的数学期望。为了模拟合法的数据流的流率,攻击节点也同样地使自身的发包速率服从概率分布,这个概率分布 可能是泊松分布 ,或指数分布 ,或正态分布 。这里的 是攻击节点速率的数学期望, 是攻击节点速率的方差。之所以考虑指数分布和正态分布是为了考虑多种因素以更好地概括攻击者的行为。

2.4.2 攻击者收益

在计算攻击者收益时,需要考虑2.4概述中提到博弈空间的四种策略组合,必须结合防御者选择的策略,然后才能分别进行计算。本节将依次计算四种策略组合下的攻击者收益。

(1)攻击者选择不攻击,防御者选择不防御时:

由于攻击者选择不攻击,所以攻击者额外的消耗带宽,没有导致正常节点的数据包丢失,自身没有消耗额外的能量,也不会被防御措施惩罚。在这种情况下,攻击者的收益为0,可以用公式(3)表示:

(2)攻击者选择不攻击,防御者选择防御时:

攻击者的收益同情况(1)相同,如下所示:

(3) 攻击者选择攻击,防御者选择不防御时:

由于防御者选择不防御,防火墙与入侵检测系统将不会影响攻击节点。所以攻击者的收益只受三部分影响: , 和 。定义 是被攻击者消耗的平均带宽, 是正常节点数据包丢失的比率, 是转化的代价。 的计算方式如公式(6)所示:

在计算 时,由于UPD协议为了保持通讯需要发送心跳包,所以为了保持协议,数据包的速率有一个最低值,低于该速率的数据包不能传送到目的地。定义 是可以传送数据包的最低速率, 是瓶颈处的带宽上限,则 如公式(6)所示:

公式中, 表示 比 小的概率。定義 ,分别是被攻击节点消耗的平均带宽、正常节点的丢失比率和使用的僵尸节点数的权重系数,攻击者的收益如公式(7)所示:

(4) 攻击者选择攻击,防御者选择防御时:

在计算该部分时需要考虑防火墙与入侵检测系统。在实际过程中,由于防火墙的存在,无论是正常节点还是攻击者,速率高的数据包将会被防火墙拦截。这个情况导致了正常节点的平均速率发生了改变;同时,攻击节点的平均速率也会因为防火墙的拦截发生改变。假定防火墙拦截数据包的速率阈值为 ,公式(8)和(9)表示了新的速率是如何计算的:

再考虑入侵检测系统,假设攻击者的某一个攻击节点在持续攻击了 时间之后,以概率 被检测出是攻击节点,那么在被检测出是攻击节点的基础上,入侵检测系统将会持续 段时间丢弃该节点的数据包,而这个主动丢弃的措施对于攻击者来说是透明的,攻击者在 段时间的攻击就相当于没有任何收益的。假设攻击节点在攻击 时间之后恒定地以 的概率被检测出来,被惩罚 段时间,那么攻击者在这段时间的收益可以用两部分来表示,如公式(12)所示:

上述公式中, 是数据包的速率, 是缩放因子, 是影响参数,是瓶颈处的带宽上限。图3给出了不同值的情况下,检测率 的变化趋势。从图中可以分析得出,不一样的影响参数将会得到不一样的检测率曲线。对于速率较低的数据包,检测率将比较高;而对于速率较高的数据包,检测率将会降低,但是由于防火墙的存在,所以速率较高的数据包有很大的可能性在第一层防御的时候就被拦截。

2.4.3 防御者收益

影响防御者的收益的主要因素有如下几点:

(1)正常用户消耗的平均带宽;(2)防御措施成功防御的攻击;(3)防御措施自生消耗的能量;(4)防御措施将正常用户拦截的数量。上述的这四点中,第一点与第二点均是启用防御措施带给防御者的正收益,而第三点与第四点则是负收益。

同攻击者的收益计算方式相同的是,计算防御者收益时同样必须按照策略的组合分四种情况进行分析讨论。

(1) 攻击者选择不攻击,防御者选择不防御时:

在这种情况下,由于攻击者没有采取任何攻击行为,所以防御者的收益只有正常用户消耗的平均带宽带来的收益。定义 是正常节点消耗带宽的权重系数,防御者的收益如公式(17)所示:

(2) 攻击者选择不攻击,防御者选择防御时:

定义 是启用防御措施而带来的消耗的权重系数,是由于防御措施而导致受影响的正常节点数的权重系数,则这种情况下防御者的收益如公式(18)所示:

(3) 攻击者选择攻击,防御者选择不防御时:

在这种情况下,由于防御者没有采取任何的防御措施,将不会有攻击者被拦截。但是相对地,也没有产生任何因防御措施带来的消耗。由于瓶颈处的带宽上限,将会有部分的正常节点被丢弃,这也会对防御者的收益产生影响。防御者的收益公式如下:

(4) 攻击者选择攻击,防御者选择防御时:

由于攻击者的攻击,使得正常节点消耗的平均带宽下降。启用防御措施会带来消耗,但是启用了防御措施后,将使攻击的数量下降,防火墙将拦截速率高的攻击节点,入侵检测系统通过检测将给予惩罚。另外,启用防御措施带来不利的一面就是会影响正常节点的工作。定义是成功防御攻击节点的权重系数,则防御者具体的收益公式如下:

2.4.4 纳什均衡计算

本文中,非零和博弈的收益矩阵如表4所示。

在表1的基础上,结合2.4.2与2.4.3中收益的计算公式,并根据攻击者选择的决策进行讨论。

由于该博弈是一个纯策略博弈,那么在这种模型下,只需找到攻击者与防御者的纳什均衡,即能选择防御者的策略。通过计算可以发现,在防御者选择防御时,攻击者选择攻击的收益大于不攻击的收益,在防御者选择不防御时,攻击者同样是选择攻击的收益较高,所以攻击者一定会选择进行攻击;防御者的计算方式也是相同的,所以博弈中策略组合(攻击,防御)是一个纳什均衡。

由于该博弈是非合作博弈,所以防御者的目的是使自身的收益提高,对方的收益下降,也就是使双方的收益变大。定义攻击者的参数集是 ,防御者的参数集是( )。公式(21)是防御者参数集的计算方式。

综上所述,防御者只需在特定的WSNs环境中,找到满足公式(21)的参数组合,就是防御者最终得到的优化策略。

3实验分析

为了更好地解释实际情况中纳什均衡的计算,本节将对WSNs中的参数进行设置,并使用工具模拟在假定环境下的纳什均衡解。

假设正常节点数 ,节点发送的数据包速率服从泊松分布并且平均速率 ;Sink节点到基站的数据通讯瓶颈限制是5Mbps;使协议保持通讯至少需要的速率是 设定如下的限制: (仅限正态分布)。

首先讨论在攻击者选择攻击,防御者选择防御的情况下,攻击者的收益情况。由于最后的收益公式相对较为复杂,本文采取从简到繁的方法,一步一步讨论。图4表示的是攻击者的收益,攻击者发送的数据流服从泊松分布,。在这个例子中,攻击者能调整的参数只有僵尸节点的数量,防御者能调整的参数只有阀值。可以看到,当值低的时候,攻击者的收益很高,这是因为过低的值提高了丢弃正常节点的数据包的概率。另一方面,当防御者提高其阈值时,攻击者的收益降低了,这个是符合理论的事实,因为阈值提高,较少的正常的节点被防火墙拦截。同时观察到,当攻击者增加其僵尸节点数量时,所收益降低,这也是符合事实的一点。纳什均衡的点是攻击者使用89个僵尸节点,防火墙的值在128时。这时的收益是。

图4是博弈中的一个子博弈,在图4的基础上,进一步地模拟攻击者的模型。在第2节中已提到,攻击者发送的数据包的速率不是单一地服从泊松分布的,速率可以服从泊松分布,正态分布或者是指数分布,那么将这些情况都考虑进来,构成包含多种分布的子博弈。具体的计算过程如算法1所示。

如图5所示,具体显示了不同概率分布,不同速率下的纳什均衡点。在攻击者选择泊松分布的情况下,攻击者的最高收益出现在速率为88Kbps时,最高收益是504;在攻击者选择正态分布的情况下,攻击者的最高收益出现在速率为99Kbps时,最高收益是604;在攻击者选择指数分布的情况下,攻击者的最高收益出现在速率为100Kbps时,最高收益是630。从图5中可以发现,选择指数分布在该WSNs环境中几乎都是优于其他分布的。

再计算防御方的收益,防御者在考虑攻击者不同速率的情况下,防御者的自身最高收益如图6所示。

从图6可以看出,在攻击者速率较低的时候,防御者的收益较大,同时,随着防火墙阀值的上升,防御者的收益不断上升;而当攻击者速率上升的时候,防御者的收益有所下降,这是由于攻击者占用的带宽不断上升的原因,并且此时,随着防火墙阈值的上升,防御者的收益不再是一直上升,而是到达某一个值之后就开始出现下滑,说明随着阈值的上升,防御的效果变得不再明显。假设当攻击者发送的数据包速率为100时,防火墙设到70时将使防御者收益最高。

而最后真正决定防火墙阀值 与惩罚系数 应该取何值,还是需要计算防御者与攻击者收益的差值,图7显示了不同防火墙阀值与不同惩罚系数 的情况下,收益的差值情况。

从图中可以看出,在惩罚系数选择为0.83,并且防火墙阈值选择在150时,防御者与攻击者的收益差值最大。表2显示了攻防双方最高收益下的参数配置:

综上所述,在实验给定的WSNs环境下,防御者将防火墙的阀值设定在150Kbps,惩罚系数 的条件下,会使攻击者收益降到最低。与现有的防御策略相比较,首先,现有的防火墙阈值如果没有设定在最优值,攻方双方的收益差可能得到更高的收益,而将阈值设定在最优值上,无论攻击者如何更改攻击参数,在理论上攻防双发的收益差降到最低;其次,现有的入侵检测系统的警告作用并不能降低攻击者的收益,而引入惩罚机制会使攻击者的收益进一步的降低。实验表明,提出的两个防御优化策略能使防御效果更加有效。

另外,本实验是在确定的参数下进行分析,通过模拟分析防御策略优化的有效性。通过其他实验发现,在本文的博弈模型基础上,利用参数调节来设置不同的WSNs环境,提出的防御优化策略同样有效。

4 结束语

本文针对WSNs中DoS/DDoS攻擊防御的过程,利用博弈论的方法进行建模。在现有的防御措施防火墙以及入侵检测系统的基础上,分别提出了如何合理有效地设置防火墙阈值,以及在入侵检测系统中引入惩罚措施的优化策略,使得攻击节点的收益降低,从而达到有效防御的效果。本文提出的优化策略可以适用于不同WSNs环境,为WSNs中DoS/DDoS攻击防御策略优化提供了理论的基础。

参考文献:

[1] FOUCHAL S, MANSOURI D, MOKDAD L, et al. Recursive-clustering-based approach for denial of service (DoS) attacks in wireless sensors networks[J]. International Journal of Communication Systems. 2015, 28(2): 309-324.

[2] RAJA K N, BENO M M. On securing Wireless Sensor Network-Novel authentication scheme against DOS attacks[J]. Journal of Medical Systems. 2014, 38(10):84-85.

[3] LEE S M, KIM D S, LEE J H. Detection of DDoS attacks using optimized traffic matrix[J]. Computers and Mathematics with Applications, 2012, 63(2): 501-510.

[4] 李晋,曹晓梅. WSN中抗DoS攻击的广播认证方案[J]. 计算机应用. 2014, (S1): 43-46.

[5] WANG H, JIA Q, DEN F. A moving target DDoS defense mechanism[J]. Computer Communications, 2014, 46(15): 10-21.

[6] SON Y H, HONG J K, BAE K S. Authentication masking code against DoS of T-MAC protocol[J]. Journal of Central South University, 2013, 20(7): 1889-1895.

[7] LIANG X, XIAO Y. Game theory for network security[J]. IEEE Communications Surveys and Tutorials, 2013, 15(1): 472-486.

[8] FALLAH M. A puzzle-based defence strategy against flooding attacks using game theory[J]. IEEE Transactions on Dependable and Secure Computing, 2010, 7:5-19.

[9] AMIRTHAVALLI K, SIVAKUMAR P. Comparison of AODV, Dos attack and Game theory in power conservation in wireless sensor networks[J]. IEEE Transactions on Communications and Mobile Computing, 2009, 3:507-511.

[10] WU Q, SHIVA S, ROY S, et al. On modeling and simulation of game theory-based defence mechanisms against DoS and DDoS attacks[J]. Society for Computer Simulation, 2010 (159):1-8.

[11] SHEN S, YUE G, CAO Q, et al. A survey of game theory in wireless sensor networks security[J]. Journal of Networks, 2011, 6( 3) : 521-532.

[12] MOOSAVI H, BUI F M. A game-theoretic framework for robust optimal intrusion detection in wireless sensor networks[J]. IEEE Transactions on Information Forensics and Security, 2014, 9(9): 1367-1379.

[13] MIHAJLOV B, BOGDANOSKI M. Analysis of the WSN MAC protocols under jamming DoS attack[J]. International Journal of Network Security, 2014, 16(4): 304-312.

[14] 李慧芳,姜胜明,韦岗. 无线传感器网络中基于博弈论的路由建模[J]. 传感技术学报. 2007, 20(9): 1-3.

[15] SHAHABODDIN S, AHMED P, LAIHA M, et al. Cooperative game theoretic approach using fuzzy Q-learning for detecting and preventing intrusions in wireless sensor networks[J]. Engineering Applications of Artificial Intelligence, 2014(32): 228-241.

[16] 楊黎斌,慕德俊,蔡晓妍. 基于博弈理论的传感器网络拒绝服务攻击限制模型[J]. 传感技术学报. 2009, (01): 90-94.

[17] SPYRIDOPOULOS T, KARANIKAS G, TRYFONAS T. A game theoretic defence framework against DoS/DDoS cyber attacks[J]. Computers and Security, 2013, 38: 39-50.

猜你喜欢
无线传感器网络博弈论
基于无线传感器网络的绿色蔬菜生长环境监控系统设计与实现
基于无线传感器网络的葡萄生长环境测控系统设计与应用
一种改进的基于RSSI最小二乘法和拟牛顿法的WSN节点定位算法
无线传感器网络定位技术可靠性分析
对无线传感器网络MAC层协议优化的研究与设计
无线传感器网络技术综述
基于博弈论的计算机网络对抗问题分析
博弈论视角下的自首行为分析
无知之幕与博弈:从“黄灯规则”看博弈论的一种实践方案
樊畿不等式及其在博弈论中的应用