基于孤立森林算法的移动警务网络流量监测方法研究

2019-01-02 09:01袁艺芳,李雁,陈绪,高永龙,席新
软件 2019年12期
关键词:网络算法

袁艺芳,李雁,陈绪,高永龙,席新

摘  要: 本文针对移动警务网络复杂多变、数据量大的特点,提出一种基于孤立森林算法的网络流量监测方法。该方法以网络IP数据流为基础,通过对IP数据流提取特征参数,并将特征参数作为输入向量,利用孤立森林算法进行训练以实现监测。这种方法能够快速、有效地检测出移动警务网络中的异常流量,精确率高,在一定程度上对移动警务网络的智能运维和安全防护起到重要作用。

关键词: 孤立森林,算法,移动警务,网络,流量监测

中图分类号: TP391.0    文献标识码: A    DOI:10.3969/j.issn.1003-6970.2019.12.051

本文著录格式:袁艺芳,李雁,陈绪,等. 基于孤立森林算法的移动警务网络流量监测方法研究[J]. 软件,2019,40(12):229232

Research on Mobile Police Network Traffic Monitoring Method

Based on Isolated Forest Algorithm

YUAN Yi-fang1, LI Yan2, CHEN Xu2, GAO Yong-long2, XI Xin2

(1. Science and Technology Information Bureau of the Ministry of public security 100005, China;

2. Tianjin Public Security Bureau Science and Technology Information Office 300393, China)

【Abstract】: Mobile police network is complicated and changeable, and it has a very large amount of data to be handled. According to these characteristics, a network traffic monitoring method based on isolated forest algorithm is proposed in this paper. This method is based on the IP network data. Feature parameters are extracted for each IP data flow, and the feature parameters are taken as the input vectors for isolated forest algorithm to train isolated trees and achieve monitoring. This method can detect abnormal traffic in mobile police network quickly and effectively, which can play an important role in intelligent operation and security protection of mobile police network.

【Key words】: Isolated forest; Algorithm; Mobile police; Network; Traffic monitoring

0  引言

2002年以来,公安部對公安信息移动接入及应用系统安全建设进行不断完善,全国公安系统信息化得到了很大的提升。2017年初,天津市公安局新一代移动警务系统开始建设,目前已建设完成投入运行。新一代移动警务平台体系相对复杂、运维成本高且难度大,平台中一旦出现问题,往往需要大量的专业人员参与,协同诊断问题,耗时长,代价高。为缓解以上问题,我们对移动警务平台中网络流量数据进行分析,利用一种基于孤立森林算法的网络流量监测方法对网络流量异常检测。目的是可以及时发现网络攻击行为和网络结构问题引起的异常流量,从而增强网络态势感知能力和安全防护能力,对移动警务平台的智能化运维有重要推进作用。

网络流量异常是指网络的流量行为偏离正常行为的情形,引起的原因有网络设备异常、网络操作异常、闪现拥挤异常、网络攻击行为等。目前,国内外学者已经提出了多种网络流量异常检测方法,通常可分为基于分类、基于统计、基于聚类及基于信息论的网络流量异常检测方法等[1-4]。这些网络流量异常检测方法,通常首先需要对正常和异常的网络行为、网络流量模式分别进行定义和分析,其次通过特征分析、数据建模等方式对网络流量数据进行检测。大多方法局限性较强,对特定模式或者特定特征的网络异常行为才有较好的检测效果,而且前期数据分析和建模工作量大,部分方法复杂度也很高[5,6]。

移动警务网络复杂多变、数据量大,未知的网络结构或者网络行为模式时有发生,而且在移动警务网络流量分析中异常流量具有随机性、孤立性和稀疏性,因此获取网络异常流量的难度较大。因此很多情况需要在无监督下进行检测,在执行监测任务中,对时效性要求往往也比较高,这进一步对我们选择的方法提出了更高的要求。孤立森林算法是一种基于集成的快速无监督异常检测方法,具有线性时间复杂度和高精准度[7]。本文基于孤立森林算法提出了一种网络流量监测方法,可以快速、有效地进行网络流量异常检测,对于未知网络结构或者网络行为的情况有较好的检测效果,可适用于移动警务网络流量监测中。

1  孤立森林(iForest,Isolation Forest)算法原理

3.2  性能度量

由于实验使用的是移动警务网络的实际数据,数据量大,无法对数据进行标记,因而采用精确度(Precision)作为性能评估参数。精确度是指所有判断为异常的样本中,真正为异常的样本所占的比例,即P=TP/(TP+FP)。其中TP为判断为异常的异常样本数,FP为判断为异常的正常样本数,(TP+FP)即为判断为异常的样本总数。

3.3  实验评估

在根据孤立森林算法训练阶段步骤进行训练时,构建100棵树,每棵树的最大高度是8,使用有放回的抽样构造每一棵孤立树,采样数为256个样本。训练完成后,对测试数据集进行检测,得到实验结果如表1所示。

表1  在五台服务器上的实验结果

Tab.1  Experimental results on five servers

测试数据集 异常比例 精确度

1号服务器 0.88% 90.3%

2号服务器 0.83% 89.9%

3号服务器 0.76% 90.0%

4号服务器 0.97% 90.9%

5号服务器 0.51% 91.7%

平均值 0.79% 90.6%

表2中是抽取的异常流参数示例。与未判定为异常的数据比较,可以看出,得到的异常流基本上都是传输数据量大、持续时间长、包重发数多的流。这与训练数据的构成有关。在正常业务流中,这样的流占极少数,因而被判定为异常。如表2所示。

表2  异常流参数示例

Tab.2  Exception flow parameter example

序号 1 2 3 4 5 6

包数 3910 632 2030 895 508 1991

平均包长 1297.88 1232.72 1168.18 1062.48 843.44 1170.33

最大包长 1500 1500 1500 1500 1500 1500

长包数 3401 523 1611 671 362 1623

短包数 501 107 390 199 134 356

总延时 109937 109918 52729 52715 149829 149829

包最大延时 65001 65002 26107 26123 65015 64999

平均延时 28.12 174.20 25.99 58.97 295.52 75.29

长延时包数 5 3 11 9 12 17

单向包数 532 110 448 256 216 439

包重发数 494 101 383 195 130 350

经对检测出的异常流数据查看分析,该算法在保持检测精确度的情况下,也达到了较高的查全率,有较好的检测效果。

4  结论

新一代移动警务的网络安全防护、态势感知和智能运维面临着多方面的挑战,大数据分析和人工智能的发展则为移动警务网络安全带来更多的新技术、新方法,可以为移动警务平台的安全性和稳定性起到重要支撑作用。本文提出了基于孤立森林算法的移动警务网络流量监测方法,以对网络IP数据流为基础,通过IP数据流提取特征参数,利用孤立森林算法进行训练以及异常检测。该方法不需要预先进行大量的数据分析和建模,能得到较高的检测精确度和查全率,而且运算速度快,能够迅速、有效地检测出移动警务网络中的异常流量,使异常流量能够得到及时的回溯、定位和排查,为及时解决或预防网络安全问题奠定基础,为移动警务网络的智能运维和安全防护提供支持。

参考文献

[1]Monowar H. Bhuyan, D.K. Bhattacharyya, J.K. Kalita, A Multi-step Outlier-based Anomaly Detection Approach to Network-wide Traffic, Information Sciences[J]. 2016 Volume 348, 20 June 2016, Pages 243-271.

[2]Hamamoto, Anderson Hiroshi, Carvalho, Luiz Fernando, Sampaio, Lucas Dias Hiera. Network Anomaly Detection System using Genetic Algorithm and Fuzzy Logic, Expert Systems with Applications[J]. Volume 92, February 2018, Pages 390-402.

[3]王伟. 基于深度学习的网络流量分类及异常检测方法研究[D]. 北京: 中国科学技术大学, 2018年.

[4]M Ahmed, AN Mahmood, J Hu. A survey of network anomaly detection techniques, Journal of Network & Computer Applications[J]. Volume 60, January 2016, Pages 19-31.

[5]Hamamoto, Anderson Hiroshi, Carvalho, Luiz Fernando, Sampaio, Lucas Dias Hiera.Network Anomaly Detection System using Genetic Algorithm and Fuzzy Logic, Expert Systems with Applications[J]. Volume 92, February 2018, Pages 390-402.

[6]Hui Xia, Bin Fang, Matthew Roughan, Kenjiro Cho, Paul Tune. A Basis Evolution framework for network traffic anomaly detection, Computer Networks[J]. 2018 (135), Pages 15-31.

[7]劉高. 基于Spark的孤立森林算法并行化研究[D]. 武汉: 华中科技大学, 2018.

[8]Fei Tony Liu , Kai Ming Ting , Zhi-Hua Zhou, Isolation Forest, Proceedings of the 2008 Eighth IEEE International Conference on Data Mining [C]. 2008, Pages 413-422.

[9]Fei Tony Liu, Kai Ming Ting, Zhi-Hua Zhou. Isolation-based Anomaly Detection. ACM Transactions on Knowledge Discovery from Data (TKDD) [C]. 2012, 6(1): Article 3.

[10]张晓宇.基于流被动测量的时间测度的研究[D]. 南京: 东南大学, 2009.

[11]朱河清, 梁存铭, 胡雪焜. 深入浅出DPDK [M]. 北京机械工业出版社. 2016年.Pages 30-49.

[12]石金龙, 孙翼. 基于Libnids库的Internet网络协议还原系统研究. 电子技术[J]. 2014, 13-19.Pages 13-19.

猜你喜欢
网络算法
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
进位加法的两种算法
基于增强随机搜索的OECI-ELM算法
计算机网络管理技术探析
刍议计算机网络信息化管理
油气集输系统信息化发展形势展望
基于网络的信息资源组织与评价现状及发展趋势研究
基于网络的中学阅读指导
一种改进的整周模糊度去相关算法