基于贝叶斯分类算法的网络入侵行为检测方法

2020-11-13 03:38何新洲
微型电脑应用 2020年10期
关键词:属性

何新洲

摘要:传统的网络入侵行为检测方法检测时间长、检测率低,导致网络安全受到严重威胁,因此基于贝叶斯分类算法对网络入侵行为检测方法进行研究。首先设计用户行为日志采集系统,通过采集节点模块、数据分析与存储模块对用户行为日志数据进行采集,其次通过消除冗余数据、数据规范化等环节预处理采集到的数据。针对预处理后的数据,构建基于朴素贝叶斯分类的网络入侵行为检测模型,基于不同的属性集构建非网络入侵与网络入侵分类规则,实现网络入侵行为检测。实验结果显示该方法检测结果准确度在97%以上,检测过程花费时间与对比方法相比降低4s以上。

关键词:贝叶斯分类;网络入侵;行为检测;行为日志;属性;分类规则;卡方检验法

中图分类号:TP393

文献标志码:A

NetworkIntrusionDetectionMethodBasedonBayesianClassificationAlgorithm

HEXinzhou

(DataandInformationSchool,ChangjiangPolytechnic,Wuhan430074,China)

Abstract:Thetraditionalnetworkintrusiondetectionmethodhasalongdetectiontimeandlowdetectionrate,whichleadstoaseriousthreattothenetworksecurity.ThispaperstudiesthenetworkintrusiondetectionmethodbasedonBayesianclassificationalgorithm.Firstly,theuserbehaviorlogcollectionsystemisdesigned,itcollectstheuserbehaviorlogdatathroughthecollectionnodemodule,dataanalysisandstoragemodule,andthenpreprocessesthecollecteddatabyeliminatingredundantdataanddatanormalization.Accordingtothepreprocesseddata,thenetworkintrusiondetectionmodelbasedonnaiveBayesianclassificationisconstructed,andthenonnetworkintrusionandnetworkintrusionclassificationrulesbasedondifferentattributesetsareconstructedtorealizethenetworkintrusiondetection.Theexperimentalresultsshowthattheaccuracyofthemethodismorethan97%,andthedetectionprocesstakesmorethan4slesstimethanthecomparisonmethod.

Keywords:Bayesianclassification;networkintrusion;behaviordetection;behaviorlog;attributes;classificationrules;Chisquaretest

0引言

隨着互联网技术在人们日常生活中的普遍使用,具有复杂性和连通性的开放系统逐渐替代原有的独立系统[1],随着而来的不仅是互联网强大的使用功能,还有网络安全与计算机安全问题。在此条件下,高效的网络入侵行为检测方法研究对于网络安全具有重要意义,是网络信息安全建设的关键环节[2]。

检测互联网上无授权计算机资源使用情况的行为即网络入侵行为检测[3]。目前已有很多学者网络入侵行为检测方法进行相关研究。刘强、蔡志平等学者针对入侵检测框架、特征自动生成、安全检测理论及方法等问题进行研究,梳理出网络安全检测算法和框架、并总结了网络安全检测与控制技术发展趋势。邓帅等学者提出使用改进的汤普森采样方法作为采集函数,基于改进贝叶斯优化算法的CNN超参数优化。IDS作为使用最普遍的网络入侵检测系统,IDS在分析海量数据集过程中采用神经网络、模糊逻辑与支持向量机的机器学习方法[4]。但随着网络入侵行为的升级,上述方法下的网络入侵行为检测方法对于用户行为的分类效率与精度均有不同程度的下降,无法满足当前网络入侵行为检测的需求。

贝叶斯分类算法是一种概率分类方法[5],是当前未知分类检测的最佳算法,普遍应用于不同信息领域内。在网络入侵行为检测中引入贝叶斯分类算法,提出基于贝叶斯分类算法的网络入侵行为检测方法,可在短时间内准确分类用户行为日志数据集。

1网络入侵行为检测方法

1.1用户行为日志数据获取

用户行为日志数据是网络入侵行为检测的基础[6],利用行为日志采集系统可实现用户行为日志数据的采集。

用户行为日志采集系统结构框架,如图1所示。

用户行为日志采集系统由采集节点模块、数据分析与存储模块、WEB查询统计与管理模块、管理员模块四部分组成。数据分析与存储模块和WEB查询统计与管理模块均选取JAVA语言开发[7],在开发工程中使用Spring和Hibernate等框架。以CentOS操作系统为采集节点模块运行平台,该模块同数据分析与存储模块和WEB查询统计与管理模块相对独立,具有数量变化特性[8],满足数据采集过程的动态扩充需求。

同时,行为日志采集系统具有交换机网络端口流量镜像功能,无需额外安装插件,即可实现目标业务流量与系统连接网络端口之间的镜像,方便用户行为日志数据的处理。

1.2用户行为日志数据的预处理

用户行为日志数据预处理共分为三个环节[9],分别是消除冗余数据、数据规范化和日志数据库。

在海量的用户行为日志数据内,存在大量重复的,不必要的信息,为降低网络入侵行为检测难度,提升检测效率,需先消除日志数据内的冗余数据,再规范数据形式。

日志数据内的各信息中均包含部分重要属性信息与部分次要信息。举例说明:在某日志数据内包含的相关内容有:用户IP地址、用户名、使用时间、请求内容以及反馈使用端的状态码与字节数等,当此日志数据可疑时,其中的请求内容与反馈使用端的状态码是重要属性信息,其余则为次要信息。日志来源有所差异的条件下日志格式也有所差异,因此日志规范化处理应以完整性、简洁性与可扩展性为目标[10]。其中完整性和简洁性是确保日志数据处理后其中的不必要信息删除,而重要属性信息需完整;可扩展性则是表示规范后的日志数据内可容纳类型差异的日志数据。

日志数据库设计过程中,通过设计同类日志扩展格式,使类型相同系统日志的扩展,利于网络入侵行为检测效率的提升。

1.3网络入侵行为检测

1.3.1朴素贝叶斯分类下的网络入侵行为检测

针对预处理后的用户行为日志数据以WenkeLee入侵检测理论为基础[11],构建基于朴素贝叶斯分类的网络入侵行为检测模型(以下简称为朴素贝叶斯分类检测模型),模型结果如图2所示。

朴素贝叶斯分类检测模型构建过程如下:利用n维特征向量描述用户行为日志数据,训练样本的类标识可固定模型结构,即类节点。各训练样本内包含的全部特征属性均为存在于根节点内、具有独立性的子节点[12],基于此当确定贝叶斯分类模型结构后,基于训练样本A节点的概率即可确定模型参数。

如图2所示的模型以预处理后的用户行为日志数据为基础进行分组,将其分为测试集和训练集。首先,对训练集内的用户行为日志数据经过学习后实施朴素贝叶斯分类,通过类标识标记训练数据,来区分正常记录和异常记录,获取分类结果。测试集内的用户行为日志数据与训练结果均通过朴素贝叶斯分类器去掉数据中一些与分类相关性不大甚至不相关的属性,最后获得检测所需结果,实现网络入侵行为检测目的。利用该模型进行网络入侵行为检测的过程中,训练过程与检测过程是重中之重。

上述模型分类原则,如式(1)。

RLjB1,B2,…Bn=max

RLiB1,B2,…Bn(1)

式中,n所表示的是类别总数,R表示训练样本的概率,Lj类内包含B1,B2,…Bn。

上述模型工作原理如下。

用B={B1,B2,…Bn}和L1,L2,L3,…,Lm分别描述一个n维特征向量和m个类别,维数n表示特征数量。

用Y表示一个给定用户行为日志数据样本,通过上述模型将样本内的数据划分至类Lj内,

在RLjY>RLiY条件下,

1≤i,j≤m,i≠j。根据贝叶斯理论,如式(2)。

RLjY=RYLj

R(Lj)R(Y)(2)

1.3.2贝叶斯分类模型优化

朴素贝叶斯分类检测模型内,特征差异对于分类结果不产生影响。但在实际分类应用过程中,不同特征对于分类结果产生的作用是有所差异的[13]。基于此,需要优化朴素贝叶斯分类检测模型,利用卡方检验法确定不同分类特征对分类结果产生的不同作用[14],由此获取某问题的重要特征,利用该特征降低用户行为日志数据分类难度。通过优化后的分类检测模型既能够确保特征数据的正确获取(分类结果准确性)又能够降低数据分类难度,提升网络入侵行为检测效率。

特征对于分类的关键度可通过特征权值描述,特征权值定义,如式(3)。

ej=CH(Bj)∑nj=1CH(Bj)(3)

式中,CH所表示的是关键度基数,表示第j个特征数量的特征向量。

在朴素贝叶斯分类检测模型内引入特征权值进行优化后,检测模型未知样本的后验概率可计算过程描述,如式(4)。

RLjB1,B2,…Bn=R(Lj)∏nn=1enr

(BnLj)∑mi=1R(Lj)∏nn=1enr(BnLj)(4)

式中,R(Lj)∏nn=1enr(BnLj)表示对Lj类样本存在概率

r(BnLj)的最大化处理。

∑mi=1R(Lj)∏nn=1enr(BnLj)

表示在假定类概率为等概率的条件下,对r(BnLj)的最大化处理。

针对给定的未知用户行为日志数据样本,∑mi=1R(Lj)∏nn=1en

r(BnLj)通常为常数,由于y=lnx函数为单调递增函数[15],因此分类未知用户行为日志数据样本时仅需对比lnR(Lj)∏nn=1enr(BnLj)即可。

优化后的朴素贝叶斯分类检测模型实现网络入侵行为检测的过程如下:

(1)计算各训练样本中的不同特征,清除用户行为日志数据内冗余特征,获取新的特征集合。利用式(3)确定分类特征权值,由此定性、定量的判断不同特征对于数据分类的影响。

(2)評估Rj=R(Lj)描述所属Lj类的样本在特征集合中存在的概率。

(3)评估用户行为日志数据集合内各属性B的各取值Bi在Lj类样本内存在的概率R(BiLj)。

(4)通过式(5)实现类别划分,如式(5)。

Lnb=argmaxlnR(Lj)∏nj=1ejr(BjLj)

(5)

通过上述分类过程即可达到网络入侵行为检测目的。

2实验分析

2.1实验环境

实验为测试本文提出的基于贝叶斯分类算法的网络入侵行为检测方法性能优势,选取2011年深圳举办的第十五届亚太知识发现与数据挖掘国际会议中检测网络入侵检测系统性能过程中所使用的相关数据集为实验用数据集。该数据集内各数据中均包含如持续时间与协议类型等不同的39个特征,并对全部数据进行正确类型(是否为入侵行为)划分。在该数据中随机选取十万条数据作为实验用训练集,并选取九万条数据作为随机生成5个测试集,所选数据中入侵行为划分,如表1所示。

各測试集内网络入侵行为数据信息情况,如表2所示。

2.2实验结果

分别采用本文方法、基于模糊逻辑的检测方法和基于支持向量机的检测方法对上述三个测试集中的数据实施网络入侵行为检测,如表3—表5所示。

由表3、表4和表5可得,本文方法检测三个测试集得到的检测结果准确度基本控制在97%以上,两种对比方法检测结果准确度均显著低于本文方法,由此可知本文方法在网络入侵行为检测过程中具有较高的检测精度。

各测试集检测过程中花费的时间,如图3所示。

分析图3能够得到,采用本文方法检测三个测试集花费的平均时间均控制在11s左右,与两种对比方法相比降低4s以上,由此可知本文方法具有较高的检测效率。

3总结

网络入侵检测技术随着计算机技术的发展与普遍使用受到越来越多的关注。本文针对以往基于支持向量机等的机器学习算法的检测方法检测效率与检测精度无法满足当前网络入侵行为检测需求的问题,提出基于贝叶斯分类算法的网络入侵行为检测方法,实验结果显示本文方法的检测精度与检测效率均优于对比方法。

参考文献

[1]陈惠娟,冯月春,赵雪青.利用SSO的自适应黑名单分组过滤器网络入侵检测方法[J].控制工程,2018,25(10):19401945.

[2]刘强,蔡志平,殷建平,等.网络安全检测框架与方法研究[J].计算机工程与科学,2017,39(12):22242229.

[3]夏景明,李冲,谈玲,等.改进的随机森林分类器网络入侵检测方法[J].计算机工程与设计,2019,40(08):21462150.

[4]邓帅.基于改进贝叶斯优化算法的CNN超参数优化方法[J].计算机应用研究,2019,36(7):19841987.

[5]梁潇,王海峰,郭进,等.基于贝叶斯网络的列控车载设备故障诊断方法[J].铁道学报,2017,39(8):93100.

[6]刘浩然,孙美婷,王海羽,等.基于分类优化贝叶斯结构算法的篦冷机参数状态分析及其算法收敛性分析[J].计量学报,2019,40(4):662669.

[7]RifaiChai,GaneshRNaik,TuanNghiaNguyen,etal.DriverFatigueClassificationWithIndependentComponentbyEntropyRateBoundMinimizationAnalysisinanEEGBasedSystem[J].IEEEJournalofBiomedical&HealthInformatics,2017,21(3):715724.

[8]刘彬,范瑞星,刘浩然,等.基于混合樽海鞘差分进化算法的贝叶斯网络结构学习算法[J].通信学报,2019,40(7):151161.

[9]BrankovicA,FalsoneA,PrandiniM,etal.AFeatureSelectionandClassificationAlgorithmBasedonRandomizedExtractionofModelPopulations[J].IEEETransactionsonCybernetics,2018,48(4):11511162.

[10]王洋,吴建英,黄金垒,等.基于贝叶斯攻击图的网络入侵意图识别方法[J].计算机工程与应用,2019,55(22):7379.

[11]魏照坤,谢新连,潘伟,等.基于朴素贝叶斯算法的船舶异常行为监测[J].交通运输系统工程与信息,2017,17(6):147154.

[12]李海玲,张昊.卷积边界扩展研究与实现[J].微型电脑应用,2018,34(10):4749.

[13]石乐义,朱红强,刘祎豪,等.基于相关信息熵和CNNBiLSTM的工业控制系统入侵检测[J].计算机研究与发展,2019,56(11):23302338.

[14]郭雷.远程网络校准测控系统设计[J].微型电脑应用,2018,34(7):4345.

[15]X.Geng,Q.Li,D.Ye,etal.Intrusiondetectionalgorithmbasedonroughweightilyaveragedonedependenceestimators[J].JournalofNanjingUniversityofScience&Technology,2017,41(4):420427.

(收稿日期:2020.04.07)

猜你喜欢
属性
解读数学概念,品尝数学的味道
解读数学概念,品尝数学的味道
从法的部门和法域的角度来思考经济法的属性
关于《巴黎圣母院》的文本赏析
互联网时代的生成性教学属性分析与实践研究
对两种实体观的探析
用好文件“属性” 解决实际问题
督促程序的属性
面向对象在关系数据库中的设计与应用
Winsock控件的属性及应用方法