利用接触跟踪机制实现Email蠕虫的检测

2011-02-10 05:45:26黄智勇曾孝平周建林石幸利

电子科技大学学报 2011年3期

黄智勇，曾孝平，周建林，石幸利

(1. 重庆大学通信工程学院重庆沙平坝区 400044；2. 重庆科技学院学报编辑部重庆渝中区 401331)

近年来，Email蠕虫逐渐成为一种主要的网络攻击手段，各种Email蠕虫程序在网络中广泛传播[1]，如Melissa、Love Letter、W 32/Sircam、SoBig、MyDoom、Bagle和Netsky等[2]。大量无用的Email数据存在于整个网络，直接导致网络数据传输阻塞，严重地影响了邮件系统网络的工作性能[3]，针对Email蠕虫的检测和控制成为研究热点之一。文献[4]介绍的“反馈防御系统”检测法(feedback defense system)，利用现有的入侵检测软件对可疑邮件进行拦截，再采用虚拟的蜜罐系统进行分析检测。该方法对Email用户有很好的保护作用，但是对于Email蠕虫在网络中转播的主动控制，效果不是很明显。文献[5]介绍的利用机器学习对网络异常流量进行监测方法，能够有效地减少检测误报率，但是该方法需要对网络流量进行统计，存在一定的检测延迟性。文献[6]提出利用熵值来归类垃圾邮件，即通过对垃圾邮件行为特征的分析(如在单位时间段里连续发送邮件的数量)，利用熵值的大小快速区分垃圾邮件和正常邮件。该归类方法的精度取决于阈值的大小，对于防御者来说，很难找到一个合适的阈值使检测结果同时达到最小的假阳性和最小的假阴性。针对这些问题，为了提高检测速度，并保证检测的精度，针对Email蠕虫的传播，本文提出了CTCBF 检测方法，该方法应用了传染病检测的接触跟踪机制[7-8]，通过建立跟踪链对异常的Email传播过程进行监控，并根据跟踪链的状态确认Email蠕虫感染节点。

1 CTCBF检测方法

1.1 检测系统基于假设

Email蠕虫最大的特点是能够利用Email的方式进行主动自我传播，本文的检测机制是基于蠕虫的这一行为特征进行研究的。系统考虑了两种行为特征——感染特征和连接特征。感染特征指被监控节点出现了异常的主动连接其他网络节点的行为(如在单位时间段里主动连接其他节点的数目超过规定的阈值)；连接特征指节点被感染节点或者可疑节点连接的行为。根据这两种特征，对网络中的节点做如下假设：

1) 一个节点如果是感染节点，那么它一定会再次感染其他节点。

2) 一个节点如果出现了感染特征，那么它可能已经是感染节点。

3) 一个节点如果出现了连接特征，那么它存在被其他节点感染的可能性，一旦它又出现感染特征，那么它也可能成为新的感染节点。

1.2 CTCBF算法

CTCBF算法由单点检测算法和多点跟踪算法两部分组成：1) 利用单点检测算法对单个节点的感染特征进行检测；2) 利用跟踪算法提高检测精度，在单个节点感染特征的基础上，通过分析节点之间的连接特征，从而确认真正的感染节点。

1.2.1 单点检测算法

利用文献[10]的试验数据，本文进行仿真。如图1所示，整个观测周期划分为4个时间段：T1、T2、T3、T4，利用“差分熵”的定义分别对4个时间段的数据进行计算。分析仿真结果，得出以下结论：

1) 当v(t)>>M 时，V(t)与V′(t)的相似度较高，DH→0。

2) 当v(t)<

图1 差分熵检测效果

1.2.2 多点跟踪算法

多点跟踪的目的是在假阳性较高的单点检测机制基础上，利用跟踪链提高检测精度。

定义 1 网络中的任意节点r∈S都可能与其他节点发生连接，并且成为任意跟踪链的根节点，所以每个节点分配S－1跟踪链存储空间。

定义 3 根据网络节点的行为特征，将节点划分为正常类型(NS)；连接类型(CS)；可疑类型(SS)；感染类型(IS) 4个类型。

1) NS：没有出现感染特征和连接特征；

2) CS：出现连接特征，但没有出现感染特征；

3) SS：出现感染特征；

4) IS：出现过感染特征，且所在跟踪链被确认为感染链。

根据定义，算法初始化为：

① 节点之间建立跟踪链的联系必须存在因果关系，即一个NS类型的节点必须首先被其他节点感染以后才可能去感染另外的节点。

② 由于重复感染的存在，跟踪链上的节点类型一旦被确定为感染类型，所有节点信息应立刻被重新初始化。采用该算法可以发现更多的感染路径，加快了检测速度。

③ 阈值K的大小直接决定了系统的性能，K值越大，跟踪链的误报率越低，但是检测速度会降低；K值越小，检测的速度提高，系统的精度会降低。本文将介绍一种动态调节阈值K的方法来平衡检测精度和速度之间的关系。

图2 跟踪链建立过程

1.3 动态阈值

典型的蠕虫传播周期分为初始期、上升期、饱和期3个阶段。定义∆I为单位时间段内增加的感染节点数目，用∆I代表网络的感染等级。

2) 上升期：感染节点数目逐渐增多，增长速度急剧加快，∆I迅速增大，网络感染等级增加。

3) 饱和期：感染节点数目的增加速度减慢，∆I逐渐减小，网络感染等级逐渐降低。

本文的策略是在网络感染等级较低时，采用较大的阈值K以提高跟踪链的精度，减少误报率；在网络感染等级较高时，采用较小的阈值K以提高跟踪链的速度，减少更多节点被感染的可能性。分别定义Kmin和Kmax为上限阈值和下限阈值，动态阈值K( t)的算法为：

上限阈值和下限阈值的设定限制了动态阈值参数的波动范围。区别于单点检测，需要满足阈值K越大，检测精度会越高，但同时也降低了检测灵敏度。Kmax值不能设置过大，可以综合其他因素进行设定，如跟踪算法的效率、网络拓扑结构、蠕虫传播效率等。

2 试验仿真

本文应用C语言编写仿真程序来验证跟踪算法的性能。设定网络总节点数 S= 6 400；网络中的节点可以描述为表示节点i的状态；irP表示节点i被感染的概率，每个节点的感染概率不能确定，但是可以作如下假设：

1) 网络中节点数目足够多；

2) 节点具有分布性，且节点之间的连接行为相互独立。

基于以上两点假设，定义irP服从高斯分布代表节点i的度数，节点度数越高，感染其他节点的可能性越大。仿真实验将验证跟踪链的效率和跟踪链的鲁棒性。

2.1 跟踪链效率仿真

图3为在不同阈值K的情况下，跟踪链的跟踪效率的变化，阈值越大，跟踪链被确认需要的时间也越长。K=11时，跟踪链的检测速度明显慢于K=4时的检测速度。采用动态阈值算法，由于仿真仅仅验证动态阈值算法在不同感染等级下对跟踪链的影响，所以，根据前文介绍的阈值设定原则，在有效范围内设置参数初始状态下，仿真结果显示算法能够根据不同的感染等级∆I调整动态阈值达到调整检测速度的目的。

图3 不同的阈值K检测效果对比

2.2 跟踪链鲁棒性仿真

跟踪链的鲁棒性直接影响检测的效率，考虑影响跟踪链鲁棒性的两个因素：

1) 节点度数。节点度数D体现为蠕虫发送Email的目标地址数目，通常蠕虫不仅仅从被感染节点获取Email地址，也可以从网络收集得到。攻击者为了提高攻击效率，会收集更多的Email地址，而节点度数的提高更有利于跟踪链的建立。

2) 节点有效率。前面讨论的情况都基于所有网络节点能够参与跟踪链建立的假设，但实际情况并非如此。如一些节点没有安装检测软件，一些节点参与了跟踪链的建立，但是由于受到攻击(如DOS攻击)而失效，这类网络节点统称为失效节点。能够有效参与跟踪链建立的节点称为有效节点，定义为有效节点数目，定义节点有效率节点有效率越高，建立跟踪链的可能性就越大。定义检测率为通过跟踪链确定的感染节点数目，为被感染节点数目。

图4 跟踪链鲁棒性仿真

如图4所示，产生的3个随机网络平均节点度数分别为 D= 70,30,10。在范围[0,1]内逐步增加节点有效率q，分别运行跟踪算法。结果显示: 1) 当D= 70时，即使存在大量的无效节点，算法仍然维持比较高的检测率R(当q>0.3时，R>0.95)；2) 节点度数减小，要维持高的检测率R>0.95，需要存在大量的有效节点，当D=30时，q>0.5，当D=10时，q>0.7。从攻击者的角度看，高的节点度数更有利于维持攻击网络的鲁棒性，同样，高的节点度数也更有利于跟踪链发现更多的感染节点。刻意地降低节点度数会降低跟踪链的鲁棒性，同时也会使攻击网络更容易被破坏。另外，减小失效节点的数量能够增强跟踪链的鲁棒性。

3 总结与展望

本文阐述了基于CTCBF机制检测Email蠕虫的方法，检测系统由单点检测和多点跟踪两部分组成。分别介绍了利用“差分熵”归类的单点检测算法和利用接触跟踪机制的多点跟踪算法。为了动态适应网络环境变化，采用了动态阈值算法。与单点检测机制相比较，多点跟踪机制通过传输跟踪链能够有效减小单点检测误差引起的误报率。通过仿真，认为CTCBF机制能够快速准确实现对Email蠕虫传播的检测。今后的研究工作还需要进一步提高单点检测算法和多点跟踪算法的检测效率，特别是在复杂多变的网络环境下能够保证算法的高效性。

[1] KHERA R. Messaging anti-abuse working group[EB/OL].[2009-09-25]. http://www.maawg.org.

[2] CERT/CC advisories[EB/OL]. [2009-09-27]. http://www.cert.org/ advisories.

[3] SYMATEC. Internet security threat report trends Jan-June’ 07[EB/OL]. [2009-08-02]. http://www.symantec.com.

[4] ZOU C, Gong W, TOWSLEY D. Feedback email worm defense system for enterprise networks[R]//Umass: ECE,2004.

[5] GUPTA A, SEKAR R. An approach for detecting self-propagating Email using anomaly detection[C]//Proceedings of Recent Advances in Intrusion Detection.Pittsburgh PA: Springer, 2003: 55-72.

[6] HUSNA H, PHITHAKKITNUKOON S, DANTU R. Traffic shaping of spam botnets[C]//Proceedings of CCNC 2008,5th IEEE. Las Vegas, NV: IEEE, 2008: 786-787.

[7] HYMANA J, LI Jia, STANLEY E. Modeling the impact of random screening and contact tracing in reducing the spread of HIV[J]. Mathematical Biosciences, 2003, 181: 1-16.

[8] EAMES K, KEELING J. Contact tracing and disease control[C]//Proceedings of the Royal Society. London:PubMed, 2003: 443-454.

[9] SHANON C. A mathematical theory of communication[J].Bell System Technical Journal, 1948: 379-423.

[10] ZHANG Jun. Storm Worm & Botnet Analysis[EB/OL].[2009-03-02]. http://www. securitylabs.websense.com/content.

[11] ZOU C, TOWSLEY D, GONG W. Modeling and simulation study of the propagation and defense of internet email worm[J]. IEEE Transactions on Dependable and Secure Computing, 2007, 4(2): 105-118.

编辑张俊