(9)
则称函数族(见式(8))是L2的一个Gabor框架,并且称A和B为框架界。而‖·‖和<·>表示L2的范数和内积,当式(9)中A和B相等时称对应的框架为紧框架。
文中采用的观测矩阵为伯努利随机矩阵,其定义为:
对于矩阵Φ∈RM×N,矩阵中每个独立且同分布的元素都服从伯努利分布,即:
(10)
伯努利矩阵具有较强的随机性,因此符合RIP要求。
3.2 支持向量机的选取
文中采用最小二乘支持向量机(LS-SVM)的方法。LS-SVM是普通支持向量机的一种扩展,将最小二乘线性误差的平方和取作损失函数,从而求解一系列方程组。LS-SVM收敛速度快,计算速度得到提升,因而在非线性分类和模式识别中得到广泛应用。
Π为非线性映射,则最小二乘支持向量机的优化问题可以描述为:
(11)
其中:w为权值向量;γ为正则化系数;ek为实际值与真实值的误差。
约束条件为:
yk[ωTp(xk)+b]=1-ekk=1,2,…,N
另一方面,文中选用Poly+RBF构成组合核函数,其形式为:
K(x,xi)=α[(x·xi)+l]q+(1-α)× exp(-‖x-xi‖2/σ2)
(12)
式中,权系数α(0≤α≤1)作用是调节两种核函数在作用时的权重。
当求出优化问题的解ai之后,组合核函数LS-SVM模型的决策超平面可表示为:
(13)
3.3 系统建立及算法描述
文中的入侵检测系统共包含5个模块,具体如图1所示。
图1 入侵检测系统模块
具体实现步骤表述为:
Step1:数据预处理。将原始数据向量化表示。
Step2:文中采用随机伯努利矩阵作为测量矩阵,采用Gabor紧框架字典作为稀疏正交基。此时测量矩阵和稀疏基满足RIP条件,且利用它们构成的压缩传感矩阵能够有效地完成对原始数据的特征提取,得到低维向量。
Step3:将得到的特征数据归一化到[0,1]的区间内,避免特别大的数据在数据集中起主导作用,提高计算精度。归一化操作如下式:
yi'=(yi-min)/(max-min)
(14)
Step4:使用最小二乘支持向量机分类。作为对照,并分别选取RBF核函数和POLY+RBF组合核函数。
Step5:运用K折交叉验证(K-CV)的方法选择最优参数。将数据集平均分成10组,接着轮流将当中9组作为训练集,其中1组作为验证集(或叫测试集),进行10次实验。依据每次实验的分类精度,来确定针对该数据集的最优参数。
Step6:利用最优参数对数据进行训练和预测,得出最优分类器和分类结果。
4 仿真实验
4.1 实验平台
实验所用平台为:IntelCorei5,CPU2.4GHz,4GBRAM,Windows8.1操作系统,Matlab2014a。
4.2 数据来源
为分析比较实验结果,文中采用KDDCUP99入侵检测数据集,对分别采用不同的特征提取策略,不同的支持向量机,以及不同核函数的情况下得到的入侵检测算法效率进行比较分析。KDD99数据集总共由500万条记录组成,文中攻击数据采用KDDCUP99中特征比较显著的四大类网络攻击:
(1)DenialOfService(DOS);
(2)RemotetoLocal(R2L);
(3)UsertoRoot(U2R);
(4)Surveillanceorprobe(Pride)。
由于数据量过大,文中只采用部分数据进行仿真实验,如表1所示。
表1 仿真实验用的样本数据
4.3 对比算法和性能指标
为使文中的CS-LSSVM算法检测结果更具说服力,引入KPCA-LSSVM,CS-SVM,LSSVM进行对比试验,并引入如下四个检测性能指标:
运行时间t。
4.4 结果与分析
图2~4展示了以KDDCPU99为实验数据,在五种算法中进行入侵检测的DR、FDR和LDR。通过对比,进一步研究了基于压缩感知的入侵检测下具备的优势和不足。
图2 不同算法的检测率
图3 不同算法的漏报率
图4 不同算法的误报率
对图2~图4进行分析,可得到如下结论:
(1)在CS-SVM算法中,使用POLY+RBF构成的组合核的性能指标明显优于单一核,可见组合核更能充分划分出数据的特性。
(2)CS-LSSVM的性能指标明显优于KPCA-LSSVM。这表明就特征提取的策略而言,在本问题中,运用CS的效果优于KPCA。
(3)CS-LSSVM的性能指标稍逊色于CS-SVM。这是运用了最小二乘理论,牺牲分类精度换取收敛速度所导致的必然结果;然而,CS-LSSVM的精确度足以满足一般要求。
(4)CS-LSSVM的性能指标与采用普通LSSVM的性能指标相接近。这说明文中采用的稀疏基和观测矩阵是合适的,能够充分提取原始数据的特征。
五种算法的运行时间如图5所示。
图5 训练与检测时间
由图5可知,采用CS-LSSVM算法,运行时间比KPCA-LSSVM更快,且远少于其他算法。这是由于运用压缩采样进行特征提取,极大地降低了数据维度,提高了数据稀疏性导致支持向量维度降低,样本的训练和分类速度快。结果表明了文中CS-LSSVM的巨大优势和运用价值。
5 结束语
文中提出了一种基于压缩感知并结合运用最小二乘支持向量机的入侵检测算法。该方法的创新点在于:通过选择恰当的稀疏基和观测矩阵,有效对网络数据压缩采样。特别在网络数据获取阶段,直接使用特征提取后的数据,用组合核LSSVM构建的分类器进行训练和入侵检测。仿真实验的结果表明,该方法与传统方法在DR、FDR和LDR上较为接近,但运行时间远优于传统的非压缩方法。另一方面,采用组合核函数构建的LSSVM在分类精度上明显优于单一的核函数。未来,还将进一步研究如何提高检测精度,以及在已经正确分类的前提下如何对压缩后的数据进行重构等问题。
[1]PerezFM,Mora-GimenoF,Marcos-JorqueraD,etal.Networkintrusiondetectionsystemembeddedonasmartsensor[J].IEEETransactionsonIndustrialElectronics,2011,58(3):722-732.
[2]HofmannA,SickB.Onlineintrusionalertaggregationwithgenerativedatastreammodeling[J].IEEETransactionsonDependableandSecureComputing,2011,8(2):282-294.
[3]PandaM,AbrahamA,PatraMR.Ahybridintelligentapproachfornetworkintrusiondetection[J].ProcediaEngineering,2012,30:1-9.
[4]YusufovnaSF.Integratingintrusiondetectionsystemanddatamining[C]//Procof2008internationalsymposiumonubiquitousmultimediacomputing.[s.l.]:[s.n.],2008:256-259.
[5]YiYang,WuJiansheng,XuWei.IncrementalSVMbasedonreservedsetfornetworkintrusiondetection[J].ExpertSystemswithApplications,2011,38(6):7698-7707.
[6] 陈桂林,王生光,徐静妹,等.基于GA和组合核的SVM入侵检测算法[J].计算机技术与发展,2015,25(2):148-151.
[7] 张 拓,王建平.基于CQPSO-LSSVM的网络入侵检测模型[J].计算机工程与应用,2015,51(2):113-116.
[8] 黄 亮,吴 帅,谭国律,等.基于EPSO-RVM的网络入侵检测模型[J].计算机工程与应用,2015,51(3):85-88.
[9]DonohoDL.Compressedsensing[J].IEEETransactionsonInformationTheory,2006,52(4):1289-1306.
[10]CandesEJ,RombergJ,TaoT.Robustuncertaintyprinciples:exactsignalreconstructionfromhighlyincompletefrequencyinformation[J].IEEETransactionsonInformationTheory,2006,52(2):489-509.
[11] 戴琼海,付长军,季向阳.压缩感知研究[J].计算机学报,2011,34(3):425-434.
[12] 焦李成,杨淑媛,刘 芳,等.压缩感知回顾与展望[J].电子学报,2011,39(7):1651-1662.
[13]DonohoD,TannerJ.Observeduniversalityofphasetransitionsinhigh-dimensionalgeometry,withimplicationsformoderndataanalysisandsignalprocessing[J].PhilosophicalTransactionsofTheRoyalSocietyAMathematicalPhysicalandEngineeringSciences,2009,367(1906):4273-4293.
[14] 郭丽娟,孙世宇,段修生.支持向量机及核函数研究[J].科学技术与工程,2008,8(2):487-490.
[15]ZhangT.SparserecoverywithorthogonalmatchingpursuitunderRIP[J].IEEETransactionsonInformationTheory,2011,57(9):6215-6221.
[16]TyS,AllenJD,LiuX.Detectionofmodifiedmatrixencodingusingmachinelearningandcompressedsensing[J].ProcofSPIE,2011,8063(13):1216-1217.
[17] 邓 蕊,马永军,刘尧猛.基于改进交叉验证算法的支持向量机多类识别[J].天津科技大学学报,2007,22(2):58-61.
[18]YangMeng,ZhangLei,ShiuSCK,etal.GaborfeaturebasedrobustrepresentationandclassificationforfacerecognitionwithGaborocclusiondictionary[J].PatternRecognition,2013,46(7):1865-1878.
IntrusionDetectionAlgorithmBasedonCompressedSensingandLeastSquareSupportVectorMachine
CHENTian-yu,WUFan,MAShi-jie,LILei
(NanjingUniversityofPostsandTelecommunications,Nanjing210023,China)
Duetoalargeamountofrawdata,andhighdimensionandredundancyinintrusiondetection,resultingintheproblemoflowrecognition,longoperationandbadperformancefortraditionalintrusiondetectionalgorithminthefaceofmassivedatadetection,amethodofcombiningcompressedsensingandleastsquaresupportvectormachinetoapplytointrusiondetectionsystemisputforward.Innovationasfollows:Introducingcompressivesamplingtoextractthefeaturefromtheoriginaldata,thehighdimensionaldataistransformedintoalowoneonthepremiseofretainingthemainfeaturefororiginaldata;Usingleastsquaresupportvectormachinetodirectlytrainandclassifydataintheobservationdomain,andthekernelfunctionisconstructedbythecombinationofkernelfunction.Simulationshowthatusingcompressedsensingtoextractthefeaturecansignificantlyreservetheoriginalfeature.Moreover,leastsquaresupportvectormachinecanacceleratethespeedofclassifyingwithoutlosingaccuracy.Thismethodcangreatlyreducethetrainingtime,andeffectivelyimprovetheaccuracyofdetection.
compressedsensing;leastsquaremethod;supportvectormachine;intrusiondetection
2015-04-21
2015-07-23
时间:2016-05-05
国家自然科学基金资助项目(61070234,61071167,61373137);国家大学生创新创业训练计划项目(201410293021Z)
陈天宇(1994-),男,研究方向为机器学习;李 雷,教授,博士生导师,研究方向为核方法、机器学习、模糊数理论和智能控制等。
http://www.cnki.net/kcms/detail/61.1450.TP.20160505.0814.024.html
TP
A
1673-629X(2016)05-0099-05
10.3969/j.issn.1673-629X.2016.05.021