一种多分类算法FELM在网络入侵中的应用

2017-06-27 19:08魏瑶李红信
中国科技纵横 2017年9期
关键词:极限学习机模糊性

魏瑶+李红信

摘 要:极限学习机(ELM)有着分类精度高、速度快等特性,被广泛的应用和研究。本文提出了一种用于多分类问题的模糊单隐层神经网络算法FELM,同时考虑分类器的模糊性和误报率之间的关系。通过在入侵检测数据集NSL-KDD上的实验证明:本文提出的方法有着较好的有效性和稳定性。

关键词:极限学习机;多类分类;网络入侵检测;模糊性

中图分类号:TP393 文献标识码:A 文章编号:1671-2064(2017)09-0036-01

1 引言

随着网络技术的日益发展,人们开始依赖于网络进行工作、生活。安全就成为计算机系统面临的重要问题,为保证计算机和网络通信的安全,对入侵检测技术的研究和发展成为人们工作的重点[1]。机器学习算法在入侵检测领域得到了广泛的应用,被应用的基本分类算法包括支持向量机、神经网络BP、决策树、极限学习机等等[2-4],这些算法都有着各自的优势,并能保证一定的分类效果,但在算法的数据处理速度方面,现有的建模方法都有待改进。

在本文中,我们所提出的入侵检测模型是一个多类分类器,它将网络事件分区分为正常或攻击事件,有Normal、DoS、Probe、U2R和R2L五种。在本文的试验中,这个新FELM分类器模型被应用到经典的NSL-KDD入侵检测数据集上,并得到比传统分类算法好的分类效果。我们的主要贡献有:

(1)使用了ELM算法的思想,在保持一定可接受范围内的分类精度下,加快了学习算法的的预测速度,并将其用于入侵检测问题中,有效的提高了分类的精度和速度。

(2)通过模糊分治策略改进了极限学习机的学习方式,实现一种新颖的多分类算法FELM,打破了原本ELM算法的限制,可用于处理多类分类问题,并应用到入侵检测系统中。

文章的其他部分内容如下:第二部分对模糊极限学习机算法进行简要介绍,第三部分在NSL-KDD数据集上的实验结果,第四部分总结和展望。

2 模糊极限学习机FELM

模糊理论很早被提出,它描述了一种不能被准确定义的事情的存在方式,不能归于大多数定义的集合点。我们现在将模糊向量的模糊性与分类的预测输出联系起来,会发现大多数的分类器有着类似于模糊向量的输出,向量的每个元素代表了测试样本属于某一类的成员隶属度。这一类型的分类器包括:神经网络,支持向量机,决策树等等。本文中的极限学习机属于神经网络算法的一种,是一种单隐层神经网络训练的结构,可以用来产生样本的模糊值的输出。

给定一个训练集,通过分类器能得到相应的预测概率值的输出,得到的成员度矩阵U是由多个样本的模糊度向量组成的,这些向量中每个元素的值在[0,1]范围内,代表着样本对每一类的隶属度。针对于一个样本的模糊性描述,可以通过计算模糊向量的平均值来得到。这个模型是依賴与训练样本的分布,稍复杂的模型在一定程度上会提高分类器的性能。

在本文的算法中,我们选用极限学习机ELM作为基础的分类器,极限学习机是一种三层的前馈神经网络,输入层和隐藏层之间的权值矩阵R随机选择,隐藏层和输出层之间的权值矩阵S是由转置矩阵确定的。本分类器的学习目标是确定R和S的值,然而R是随机选择的,因此分类器的主要目标仅仅是如何确定输出权值S。

所提出算法的实现主要包括七个步骤:(1)随机划分训练样本为类标数据和无类标数据,它们的比例保持9:1;(2)基于类标数据训练ELM模型;(3)对于无类标数据的每个样本,通过分类器的预测,我们获得一个模糊向量;(4)计算每个输出的模糊值;(5)根据模糊值的大小对样本进行排序,分为低中高三类;(6)选择模糊值高和模糊值低的样本组加入到类标数据组,进行新的模型训练,得到最终的分类器;(7)最后用测试集对模型进行有效性验证,并得到每一类的精确度。

3 实验分析

本文所用的NSL-KDD数据集是KDD Cup 99 数据集的修订版,它消除了KDD99数据集中的多数冗余信息。这个数据集有41维的特征,每一个数据样本可以被标记为正常类或者是攻击类(包括Dos,Probe,U2R,R2L四种类型)。首先对原始数据进行了一些预处理:数值编码和标准化的方法,将属性数据标准化到[0,1]范围内,分别用1-5表示五种类别,这些预处理措施会提高数据的一致性、分类准确性。本文通过使用指示变量技术,将数据集的维数从41维增加到51维。当某个特征的种类不是很多的情况下,这种处理方式有着较高的稳定性。

对原始数据集预处理之后,为了验证新算法的性能,我们从NSLtrain训练数据集中抽取出三个子数据集(10%,20%,50%),根据每一类的比例进行抽取,并用同一个测试集NSLtest进行实验。这样可以保证我们所运行的实验都使用完整的数据集。

为了显示本文算法的性能,对每个数据集,从每类的精度,整体精度方面进行了实验,FELM算法的实验结果如表1所示,在表中我们可以看出,提出的新方法有着一定的分类能力,可以达到一定的精度要求。

4 总结和展望

本文提出了一种新的多分类模型FELM,并将其应用在网络入侵检测中。通过在NSL-KDD的三个数据集进行实验,通过对准确率指标的分析,可知基于改进的多分类FELM模型在进行网络入侵检测中应用效果较好,而且该方法在处理大批量数据分类时具有较低的时间复杂度。

在将来的研究工作中,一是要考虑加入特征选择的方法,通过降低维度可以使网络入侵检测模型达到较好的精度。二是考虑如何提高少数类的分类精度,通过提高少数类的识别率可以使入侵检测模型具有更好地有效性和稳定性。

参考文献

[1]OJALA, J. Personal contentin online sports communities: motivations to capture and share personal exercise data [J].International Journal of Social and Humanistic Computing.2013,2(2):68-85.

[2]KIM, G. et al. A novel hybrid intrusion detection method integrating anomaly detection with misuse detection[J]. Expert Systems with Applications.2014,41(4):1690-1700.

[3]EESA, A. S. et al. A novel feature-selection approach based on the cuttlefish optimization algorithm for intrusion detection systems[J]. Expert Systems with Applications.2015,42(5):2670-2679.

[4]FOSSACECA, J. M. et al. MARK-ELM: Application of a novel Multiple Kernel Learning framework for improving the robustness of Network Intrusion Detection[J]. Expert Systems with Applications. 2015,42(8):4062-4080.

猜你喜欢
极限学习机模糊性
模糊性程度和模糊性厌恶对中国股市的影响研究
《刑法修正案(十)》中“公共场合”的教义学理解——兼论刑事立法语言的统一性和模糊性
神经元的形态分类方法研究
极限学习机修正误差的体育成绩预测模型
基于极限学习机的玻璃瓶口缺陷检测方法研究
网络语言的模糊性特征初探
基于关节信息和极限学习机的人体动作识别
法律英语中形容词搭配及其模糊性探讨——基于USC语料库的reasonable个案研究
从语义模糊性看日语委婉表达