大数据环境下网络入侵检测技术的探究

2019-08-26 01:35蓝文奇

数字技术与应用 2019年5期

蓝文奇

摘要：互联网为信息资源的交流提供了高效而便捷的全新方式，但同时信息资源的安全性也更加重要，信息资源的盗用、入侵、甚至毁坏给互联网的信息资源带来了严重安全威胁。而作为动态安全系统最核心的技术之一，入侵检测技术在网络防御体系中起着极为重要的作用，它是静态防护转化为动态防护的关键，也是强制执行安全策略的有力工具。本文将在阐述网络入侵检测常见方法的基础上，从数据流角度，提出动态的集成PU学习数据流分类的入侵检测方法，在验证数据集上进行突变漂移和逐渐漂移的比较实验表明，该方法具有较好的分类性能。

关键词：大数据;网络;入侵检测;PU学习算法

中图分类号：TP393 文献标识码：A 文章编号：1007-9416（2019）05-0197-03

0 引言

随着网络快速发展，数据信息呈爆发式增长，一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合出现。大数据的出现意味着数据安全面临更加严峻的考验。网络发展初期在对抗网络入侵的安全部署中被动式防御的防火墙得到了广泛应用;随着网络技术的发展，网络入侵手段更加复杂多样、层出不穷，而入侵检测作为一种积极主动的安全防护技术，提供了对内外部攻击和误操作的实时保护，很好地弥补了防火墙的不足。

现阶段在入侵检测研究中应用数据挖掘技术以提高系统性能已成为重要趋势。较有代表性的工作有采用数据挖掘算法从系统审计数据中抽取活动模式及特征，并根据获得的特征定义从审计数据中生成入侵检测规则;采用支持向量机来抽取网络数据的特征，建立入侵检测模型;其它还包括关联规则、奇异点挖掘、聚类算法、分类算法、遗传算法等。目前数据挖掘蓬勃发展，出现了很多新的挖掘方法，一些新的挖掘思路在入侵检测领域鲜有应用研究。在论文的研究中，用正例未标注（PU，Positive and Unlabeled）来模型化数据进行分类分析的入侵检测研究，根据不同数据集的特点进行入侵检测的数据流挖掘研究，提出相关算法，并通过实验证明了算法在该种数据集挖掘上的优势。

1 入侵检测技术常见方法与发展趋势

1.1 入侵检测技术常见方法

入侵检测是通过检测网络和系统以发现违反网络安全策略事件的过程，入侵检测模型最早由美国斯坦福国际研究所（SRI）D.E.Denning提出来的，目前的各种入侵检测技术和体系都是在此基础上的扩展（图1表示了该通用模型的体系结构）。

入侵检测技术的方法很多，现阶段常用的如表1所示。

1.2 入侵检测技术的发展趋势

首先，入侵检测智能化。针对入侵行为方法的复杂多样，未来需要通过改进入侵检测模型和方法，将学习、数据挖掘、人工智能应用于入侵检测领域，较为一致的解决方案为将智能检测软件或模块与常规入侵检测系统结合使用。

其次，分布式入侵检测技术。传统入侵检测系统是在网络的不同网段放置探测器来收集网络信息，或在多个检测主机上设置代理主机安全信息，然后将它们传输到主制器进行分析处理。此种模式缺乏对异构系统及大数据量网络的检测能力，不能适应大规模分布式入侵在大型网络中发生的情况。而分布式入侵检测技术是从网络中的不同关键点收集信息用于检测，其关键技术为检测信息的协同处理与入侵攻击的全局信息的提取。

再次，入侵检测技术标准化。从体系结构、通信机制、消息格式等各方面对IDS规范化，具有标准化接口将是下一代IDS的基本特征。

最后，入侵检测系统与其他安全技术以及产品相结合。入侵检测系统作为一种重要的安全部件，在保障网络与信息安全方面发挥的作用有限，实现安全组件之间联动越来越重要，因此对于安全部件之间的互动协议和接口标准的研究是入侵检测研究的一个重要方向。目前主要是与防火墙、认证等网络安全技术相结合。但随着网络规模越来越大，结构越来越复杂，还需要多个安全组件提供更加完善的计算机网络安全保障。

2 动态集成PU学习算法的入侵检测方法

在入侵检测研究中，PU學习算法可降低人工标注训练样本的工作量，在基于PU学习马尔可夫模型的入侵检测中取得了良好的分类效果，目前针对数据流的分类算法主要是针对全标记的数据流，而本文将从数据流角度，提出一种动态的集成PU学习数据流分类的入侵检测方法。

2.1 相关工作

本文提出一种动态的集成PU学习数据流分类的入侵检测方法 DCEPU，在只标注入侵样本条件下，在入侵样本和普通样本中学习得到分类器，可进行入侵行为识别。实验证明该集成方法处理数据流的分类检测时，比PU单分类器有较高的分类精度，增强了实用性。

2.2 动态集成PU学习数据流分类方法

在数据流上针对每个数据批（Data Batch），分别用POSC45、PTAN、PHNB算法构造基分类器，这里给出PU学习数据流动态分类器集成方法DECPU，在数据批Di上的学习算法为：

算法1：DECPU动态分类器集成学习算法

输入：训练数据流，其中Pi表示第i个数据批上的正例训练样本集，Ui表示第i个数据批上的未标注训练样本集。

z，集成分类器的大小;

输出：集成分类器Ei。

（1）;

（2） else{删除Ei-1中getAccuracy（Di）最小的3个基分类器;};

（3）return Ei。

在数据批Di上，利用POSC45、PTAN、PHNB 3种PU学习算法构造出3 个基分类器，如果集成分类器Ei-1中基分类器个数小于z，将新训练出来的分类器直接存放到Ei-1中;否则，删除Ei-1中性能最差的3个基分类器后，再将新训练出来的分类器直接存放到Ei-1中;返回得到的集成分类器Ei。

这里，getAccuracy（Di）用于估算基分类器在数据批Di上的分类性能。

针对待检测样本t，DECPU的动态分类器集成分类算法如下：

算法2：DECPU的动态分类器集成分类算法

输入：t，待分类样本;

训练数据流

输出：样本t的检测结果。

（1）centroID=the centroid of Pi;

（2）Sort samples in Ui according to its distance to centroID descendingly;

（3）V=top samples in the sequence;

（4）V=;

（5）For each ;

（6）Tj.weight=Tj.getAccuracy（V）;

（7）endfor;

（8）通过加权投票的方式计算t的类别标签l;

（9）Return l。

其中，centorlID为正例样本集Pi的质心，在未标注样本集Ui中，计算到该质心距离最远的个样本，构成数据集V，从而得到验证数据集V=。在验证数据集V上，估算集成分类器Ei中每个基分类器的准确度，并依次作为权重，进行加权投票，预测待检测样本t的类别。

2.3 实验与分析

实验数据集采用KDD99数据集，使用PU的POSC45、PTAN、PHNB，作为基础分类器，对DECPU方法和Stacking的静态集成方法进行概念逐渐漂移和突变漂移实验。

在逐渐漂移实验中，采用KDD99数据集的Probe、DoS两种中攻击方式，分为A、B两组不断转换在场景中的比例作为攻击概念的漂移，每个场景共生成39批数据集，每批上包含2000个相关攻击样本和6000个正常数据。在每个场景中，攻击手段在Probe和DoS方式之间进行漂移。在每一个批中，标记Probe、DoS攻击样本H个正例样本，另外的样本作为未标记样本，正例样本从Probe或DoS中随机获得。

场景A为概念无漂移时，即入侵攻击全部为Probe方式时。在场景B中从第5批开始，由Probe攻击到DoS攻击的比例每隔5批变化20%，并到第25批以后完全变为DoS攻击。在C和D场景中，模拟攻击手段Probe和DoS所占比例在不断地变化中。其中场景D的比例变化较大。以上得到的F1指标变化如图2所示。

由图2的F1指标变化可以看出，场景A中当概念没有出现漂移时，动态分类集成算法DCEPU分类效果优于静态集成算法Stacking。在场景B中，当第10批时，攻击手段突变比例较大，造成两种算法分类效果下降幅度较大，随着Probe攻击逐步被DoS攻击取代，在第20批样本后，分类效果逐步回升，并基本保持稳定，DCEPU算法整体比Stacking算法好。

在场景C和D中F1的值都出现了震荡变化，但总体上DCEPU算法比Stacking算法更适应逐渐漂移的概念变化。

在突变漂移实验中，同样采用Probe、DoS这两种中攻击方式作为正例，并在这两种攻击方式间作突变漂移。

突变漂移的场景为E、F、G、H四种，其中场景E为攻击手段的突变表现在每个批次中，突变频率最高，F场景中则为攻击手段间隔性突变，为每隔 5个批次发生一次，在G和H场景中，攻击手段的突变频率变低，为渐歇性突变，各场景的F1指标变化如图3所示。

由图3的F1指标变化可以看出，在场景E时，由于突变不断变化导致，F1指标波动比较大，在F、G、H场景中，在突变漂移发生时，F1指标下滑，分类效果下降，总体上，DCEPU算法在适应突变漂移的能力上比Stacking算法要好。

3 结语

本文探讨了基于入侵数据流的PU学习动态分类器集成检测方法，提出一种动态的集成PU学习数据流分类的入侵检测算法DCEPU，在只标注入侵样本（正例）条件下，在正例和未标注样本中学习得到分类器，进行入侵行为识别。在真实数据集模拟的各种攻击手段突变和渐变的变化实验中，通过与Stacking算法进行F1指标变化曲线的比对显示了该算法具有更好的概念漂移处理能力，取得了较好的分类效果。

参考文献

[1] 蒋亚平，曹聪聪，梅骁.网络入侵检测技术的研究进展与展望[J].轻工学报，2017，32（3）：63-72.

[2] 樊佩佩，杨德义.浅析计算机网络入侵检测中免疫机制的应用[J].科学技术创新，2018（18）：74-75.

[3] 蔣永旺，张迪.基于数据挖掘的网络入侵检测方案实现[J].自动化与仪器仪表，2018（7）：810-816.

[4] 谢景伟.基于云计算架构的大规模网络入侵检测算法[J].电子技术与软件工程，2017（24）：202-203.

[5] 李成云，支冬栋.基于动态SVM的网络入侵检测研究[J].计算机与数字工程，2012，40（11）：118-120.

[6] 王曙霞.大数据环境下的网络主动入侵检测方法研究[J].科技通报，2015，31（8）：225-227.

[7] 费宏慧，李健.大数据的分布式网络入侵实时检测仿真[J].计算机仿真，2018，35（3）：267-270.