基于协同训练及数据融合技术的网络异常流量检测

2017-12-13 12:14黄翊翔
电脑知识与技术 2017年33期
关键词:数据融合网络安全

黄翊翔

摘要:随着网络技术的发展,网络安全问题日益严峻。通过网络行为特征所建立的分类模型能够很好地发现海量数据中潜在的异常行为,然而巨大的网络流量数据中往往存在着大量多领域异构信息,如何有效地将各类信息特征融合在一起对于提高模型检测准确率起着至关重要的作用;除此之外,在网络异常检测领域,已被标记为异常的IP地址数量稀少,也导致在有监督学习过程中严重缺乏训练数据。该文介绍了一种基于协同训练分类模型及数据融合技术的网络异常流量检测方法,并通过真实数据的实验对模型进行了验证,结论表示在保证了模型检测准确率的前提下,该模型同时解决了训练数据的稀缺问题。

关键词:网络安全;网络异常检测;标记数据缺失;半监督学习;数据融合;协同训练

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2017)33-0081-02

Abstract: With the development of network technology, network security has arised as one of the most serious problems. Classification methods Based on network behavior features always have good performance, however, in face of the multi-domain information of network traffic data, its important to fuse them together efficiently. Besides, its hard to train a proper model due to the lack of labeled abnormal IP addresses. This paper introduces an anomaly detection model Based on Co-Training and data fusion method. Through experiments on real data, the results prove that this method well solve the lack of ground truth under the premise of ensuring detecting accuracy.

Key words: network security; network anomaly detection; ground truth scarcity; semi-supervised learning; data fusion; co-training

1 背景

網络恶意攻击行为是信息时代的网络安全所面临的重要问题之一,其中包括了如发送垃圾邮件、端口扫描、僵尸网络[1]以及DDoS攻击等恶意攻击行为,而这些恶意行为往往会给网络用户及企业等带来严重的损失。以往的研究结果表明,网络中的任何恶意行为都会伴随着一系列的显著的或者隐性的异常特征模式[2],例如,当网络流量数据中存在某些源IP地址在较短时间内有规律地发送了大量的网络请求,那么它极有可能属于某个僵尸网络。通过分析这些异常行为,并为其建立合适的特征分布模型,可以有效地从海量网络流量数据中检测出行为异常的IP地址。然而由于网络流量数据的复杂性,导致模型的建立与分析面临很多问题。

巨大的网络数据中往往包含了多领域的信息,如HTTP流量,TCP流量以及DNS流量数据等,它们源自于不同的通讯协议,在行为模式上存在着一定的共性与关联,可也包含了不同的信息。在以往的研究中,研究人员大多是针对其中某个领域的数据进行建模分析,或者是将不同领域的数据特征直接合并在一起训练分类模型,然而这样非但不能有效结合多领域信息,由于不同种类的数据特征间通常不是简单的线性关系,直接结合反而会引入不必要的噪音,降低模型的准确率,而只选择单一领域的方法也会损失掉数据中的关联信息,导致模型无法发现很多潜在的异常行为。除此之外,由于已被标记的网络异常IP地址数量有限,很多大型网络安全企业如赛门铁克等对自己的网络黑名单也进行严格保密,因此在该领域的研究中,训练数据的稀缺一直困扰着研究人员,缺少训练数据不仅会导致模型准确率降低,也增加了模型的验证难度。

为了解决上述问题,提出了一种基于协同训练模型及数据融合技术的网络异常流量检测方法,该方法是一种半监督学习算法[3],不仅能够通过数据融合技术有效结合多领域异构行为信息[4],而且在面对只有少量的已标记训练数据的情况下,通过使用优化的协同训练算法,在多次迭代过程中不停地扩充训练集,使模型的检测准确率相比使用原始训练集训练出的模型高出将近8个百分点。文章也通过了大量基于真实数据的实验验证了以上结论。

2 协同训练数据融合模型

协同训练数据融合模型主要包括两部分:数据融合部分和迭代训练部分。图1中展示了整个协同训练数据融合模型框架。

数据融合方法要求从多领域数据中提取不同类型的数据特征,这里选取两种不同的经典分类算法SVM(支持向量机)和K邻近算法(KNN)作为协同训练算法中用于处理不同领域特征的子分类模型。不同的分类算法在特征空间上会有不同的处理方式,在训练过程中,协同训练算法会通过公式1将两种子分类模型的分类结果结合在一起,该融合过程可以很好将两种类型的特征信息融合在一起[5],从而达到数据融合的作用。这里定义网络流量数据来源包括HTTP数据流和TCP数据流,根据文献[6]中的方法,从两种领域的网络数据中提取能够表示多种网络异常行为的特征,其中包括统计特征Fs和时间序列特征Ft,由HTTP数据生成的特征定义为Fhttp,其中Fhttp = Fshttp + Fthttp,由TCP数据生成的特征定义为Ftcp,Ftcp = Fstcp + Fttcp,由于没有连续的时间序列标注数据,该方法将时间序列特征同样转化为统计特征。完成数据预处理与特征提取之后,Fhttp和Ftcp将会分别作为两种子模型的输入。endprint

[ResCo-training=ResSubModel1*ResSubModel2=P1good*P2good,P1bad*P2badLabelCo-training=MaxResCo-training] (1)

通常來说,训练集的大小对于分类器的准确率有着至关重要的影响。由于已标记为异常或者正常的训练数据相比整体的数据集非常少,为了保证模型的准确率,在协同训练过程中使用迭代选取置信度较高的未标记数据加入训练集的方式,可以在训练过程中不停补充训练集,进而优化模型参数。由于协同训练的过程是使用两个子模型的分类结果进行相互补充,因此在迭代过程中也会有一定的信息融合。

2.1 迭代过程中的模型优化

根据文献[7],[8]的研究表明,协同训练的数据融合过程要求多领域特征间要满足一定的独立性,然而现实中的数据错综复杂,从中提取的特征很难严格满足算法要求,因此,文章中为模型对迭代训练的过程进行了优化。对于每次迭代,记录协同训练模型各个子模型的测试准确率,如果当前迭代过程中的准确率高于前一次迭代的结果,则认为本次选取的补充集对整体模型有正作用,并将该补充集添加到训练集中;否则认为其对整体模型有副作用,并将其返还测试集,等待下次迭代过程。如果一个训练实例有N次被算法认作副作用数据,则将其视为噪声数据,并从整体数据中剔除,不再参与后续迭代。通过这种方法,既可以避免模型在训练过程中收到不满足独立性条件的特征影响,又能保证模型能够达到最终的收敛状态。

3 实验验证及结果分析

文章中使用139GB的真实网络流量数据进行了大量的模型验证,并且使用准确率和F1值得方式对模型优劣进行评估。表1中描述了实验所用的数据详情。

实验结果表示(见表2),相比使用原始数据分别训练分类模型,基于协同训练和数据融合的网络异常流量检测模型可以在同样缺少训练数据的情况下降检测的准确率提高将近8个百分点,通过真实数据下的实验,也证明了该模型在实际应用中面对复杂的网络流量数据有着较好的鲁棒性。

4 结束语

本文提出了一种基于协同训练和数据融合的网络异常流量检测模型,不仅将数据融合技术应用到了网络异常检测,成功对于多领域数据进行有效的特征融合,同时也很好地解决了在异常检测研究中经常遇到的训练数据稀缺问题,通过大量基于真实数据的实验结果表明,本文提出的模型能够在只有少量训练数据的前提下将异常检测的准确率提高将近百分之八,这在数据量很大的情况中具有很高现实意义。当然模型在一定程度上还有可优化提高的地方,比如在能够获取连续的时间序列标注数据的前提下,使用序列标注模型如LSTM等代替经典分类算法作为协同训练的子模型,并对不同领域的数据采用不同的特征提取方式,可以有效提高特征间的独立性,提高模型准确率,在后续工作中也会对这方面进行重点研究。

参考文献:

[1] Marnerides A K, Mauthe A U. Analysis and characterisation of botnet scan traffic[C]. In International Conference on Computing, NETWORKING and Communications, 2016: 1-7.

[2] Trajkovic L. Mining network traffic data[C]// In Intelligent Computing and Intelligent Systems, 2009. ICIS 2009. IEEE International Conference on, 2009: 1-2.

[3] Zheng Y. Methodologies for cross-domain data fusion: An overview[J]. Big Data IEEE Transactions on,2015, 1(1):16-34.

[4] Nagar M, Pandit S, Maurya J P. Detection and classification of network anomalies using svm and decision tree[J]. International Journal of Computer Science and Information Technology, 2014, 136(4). (下转第86页)

(上接第82页)

[5] Balcan M F, Blum A, Yang K. Co-training and expansion: towards bridging theory and practice[C]. In International Conference on Neural Information Processing Systems, 2004.

[6] Iglesias F, Zseby T. Analysis of network traffic features for anomaly detection[J]. Machine Learning, 2015, 101(1):59-84.

[7] Blum A, Mitchell T. Combining labeled and unlabeled data with co-training[C]. In Proceedings of the eleventh annual conference on Computational learning theory, 2000: 92-100.

[8] Brefeld U, Scheffer T. Co-em support vector learning[C]. In International Conference, 2004: 121-128.endprint

猜你喜欢
数据融合网络安全
网络安全知多少?
网络安全
网络安全人才培养应“实战化”
上网时如何注意网络安全?
多传感器数据融合技术在机房监控系统中的应用
《可靠性工程》课程教学的几点思考
“4.29首都网络安全日”特别报道