基于病毒繁衍机制的云平台大数据安全检测算法

2015-09-12 07:50薛医贵
兵器装备工程学报 2015年11期
关键词:汉明数据挖掘样本

薛医贵

(陕西工业职业技术学院,陕西 咸阳 712000)

随着通信网络技术的不断发展,各种云技术也层出不穷,黑客入侵以及基于云技术的攻击也日益严重。由于云系统中大量数据是以网络通信中的云缓存技术的方式存放在云空间中的,恶意代码可以通过入侵云节点中的数据缓存区域来达到数据攻击与信息窃取的目的。这种攻击往往是采取代码注入的方式来实现对云节点中信息代码溢出,然后通过加载特别涉及的执行序列来实现黑客目的。一般而言,基于云缓存的入侵者往往需要采取如下的两步:针对通信系统涉及特定的代码;采取适当的执行序列构造来触发特定的信息执行来达到信息窃取目的[1]。

由于现有计算机技术的局限性,不可能针对任意的云访问请求进行一一检测和鉴定,因此无法做到对单位时间内访问平台的每一个代码进行缓存越界鉴定。因此一旦发生信息代码溢出,那么攻击者就有可能实现加载恶意代码的目的。

为保障云系统的正常高效运行,因此必须采用一定的检测手段来对重点的云访问请求进行检测。本文提出的基于病毒繁衍机制的云平台大数据安全检测算法就是一种经过改善的分析检测方法,通过对抽样的访问序列进行基于病毒繁衍式的取样检测,同时匹配当前系统内缓存的特定特征序列,来达到过滤未知攻击源的目的[2-3]。

1 检测技术的简单介绍[4-7]

(1)简单特征匹配检测。这种检测首先需要对过往云访问记录的特征进行提取,建立一个特征访问数据库,在进行入侵检测时,将一个访问周期内的信息访问序列进行抽样提取并进行切片。一旦切片信息与特征访问数据库中记录不同时,系统自动进行预警提示。当预警提示超过系统设定的阈值,则判断该次访问为非法访问,将其进行过滤。

(2)汉明距离检测。该方法是简单特征匹配检

测的一种改进,与简单特征匹配检测相同的是,汉明距离检测也会建立一个特征访问数据库。但是汉明距离检测方法进行信息访问序列切片时,会进行随机切片,然后再和特征访问数据库进行比对。一旦错误切片数量超过了系统设定的阈值,则判定该次访问为非法访问,并进行过滤。和简单特征匹配相比,汉明距离检测的随机性更强,更不容易被攻击者非法构造的访问所欺骗。

(3)数据挖掘检测方法。数据挖掘检测方法会通过抽样的方式对本次访问进行随机取样,然后和过往访问样本进行混合挖掘训练,同时对训练过程进行标注,一旦发现训练过程出现异常,则进行示紧提示。当示紧提示在一个访问周期内达到一定数目时,就判定这种访问为非法访问。

不过,这些在大数据下的云平台常用入侵检测方法也存在很明显的局限性:

必须提前设置大量的样本进行鉴定判断,当数据量扩大到一定程度的时候,系统将很难在一个访问周期内对全部的样本进行比对,从而降低了访问质量。由于云访问中实时性要求很高,因此为了降低特征检测的时间及资源开销,将不得不对样本库进行一定比例的缩减,这无形中扩大了系统的脆弱性。当云系统的访问信息处于多变的大数据环境中时,一旦访问特征是过往访问所没有的特征,那么必定会产生访问拒绝的现象。

2 本文大数据安全检测算法设计

当云系统受到攻击时可能出现以下的几种情况[8-11]:系统异常,攻击者成功进行了信息注入,攻击成功;系统异常,攻击者没有达到信息注入的目的,攻击失败;系统正常,攻击者没有达到信息注入的目的,攻击失败;系统正常,攻击者成功进行了信息注入,攻击成功;显然,任何一种成功的检测算法,只能是在第三种情况下才能被认为是进行了成功的信息检测工作,因此本文的检测算法仅对第三种情况进行解决。首先引入系统缓存与物理隔离机制,将样本与外界进行隔绝,然后进行病毒式复制及样本鉴定。一旦在检测过程中发现异常,将进行一定程度的时延后再提交处理,最后更新特征库和访问规则。本文算法流程见图1。

图1 检测流程

具体步骤如下:

步骤1:数据取样:对访问数据进行取样,将取样数据置于系统预留缓存里,缓存与系统保持物理隔离,转下一步;

步骤2:数据初始化:物理隔离的数据,在一定时期内进行病毒式复制并与特征数据库进行对比。随后将序列复制为长度为m总数为n的序列集合,完成初始化过程,转步骤3;

步骤3:检测过程初始:采取检测准则检测访问序列集合。将房屋序列集合和特征库中的特征序列进行比对,当比对数超过一定数值k之后,则确认该序列为疑似序列,转步骤6.否则,转步骤4;

步骤4:访问序列异常检测:一旦在步骤3中检测出疑似序列,则检测访问序列是否出现一定的异常,然后在一定的延时周期T内检测是否出现访问序列继续异常,出现异常则转步骤6,否则转步骤5;

步骤5:系统异常检测:查看系统是否出现异常,然后在一定的延时周期T内检测是否出现系统继续异常,出现异常则转步骤6,否则转步骤2;

步骤6:添加特征库。一旦流程转到本步,则认为访问序列为非常访问,将采用数据挖掘方式添加到特征库中,一旦下次遇到相同特征的访问序列,直接进行过滤处理;

步骤7:完成添加特征库后,更新访问规则,然后在下一个检测流程中继续本过程。

3 仿真实验与结果分析

为验证本文提出的算法,采用linux为实验平台,操作系统为ubuntu系统,预装nginx系统服务,测试参数如表1所示。图2显示了在不同攻击数量下本文算法和简单特征匹配检测、汉明距离检测、数据挖掘检测对入侵的检出对比情况。从图中我们可以看到:在不同的攻击次数下,本文算法具有明显的优势,这是因为本文算法采取病毒繁衍模式对序列样本进行检测,和简单特征匹配检测以及汉明距离检测相比,提高了序列样本检测的效率;同数据挖掘检测相比,因此本文算法采取了时延机制,使得单次漏检的序列在下一个周期内被检测出来,因此检出数量也得到提高。在不同攻击数量的情况下,本文算法通过病毒繁衍机制,将不同类型的攻击源分离进行隔离复制;采取延时机制,保障了在上一时刻中未被检测出的攻击序列能够被有效的检测出,因此在检测上的效率也得以提高。

表1 仿真参数

图2 不同攻击数量下的入侵检测实验结果对比

图3 攻击持续时间增加下的实验结果对比

图3显示了随着攻击持续时间的不断增加的情况下在过往时间段内对入侵的平均检测数量的比较。由于本文采取病毒繁衍模式,随着时间的不断增加,对过往序列的特征训练程度也不断提高,因此提高了检出效率。同时将疑似处理和异常检测结合起来,大大提高了检测的准确度。

4 结束语

由于云技术的普及,当前大量的信息访问集中在云平台上,因此对这些访问信息和数据进行足够的检测就是一件非常重要的事情。本文首先通过对系统运行中的总体数据样本进行病毒繁衍训练,并通过病毒繁衍机制进行推演,从而达到对未知攻击源的预先防范及入侵检测功能。算法中使用识别符进行特征识别,从而大大降低了检测机制的激发。与传统入侵检测机制相比较,本文提出的算法在安全性、系统占用性方面有明显的优势,对于当今云平台下大数据系统的安全运行有一定的参考意义。

[1]吴志祥.一种基于大数据的入侵检测算法研究[J].武汉科技大学学报,2012,3(4):401-409.

[2]Bal M.Rough Sets Theory as Symbolic Data Mining Method:An Application on Complete Decision Table[J].information Sciences Letters,2013,2(1):111-116.

[3]Yang K,Shahabi C.An efficient k nearest neighbor search for multivariate time series[M].Information and Computation,2013:65-98.

[4]Gounder V,Prakash R,Abu-Amara H.Micheline data miming:date and techniques[J].Wireless Communications and Systems,2014,22(2):1-6.

[5]陈明,刘晓涵.基于云技术的简单序列检测的研究[J].重庆理工大学学报,2014,20(4):124-127.

[6]蒋明华,王志军.一种基于数据挖掘检测的大数据攻击源检测与预防[J].吉林大学学报,2012(7):54-59.

[7]Ngai EWT,Hu Y.The application of data mining techniques in financial fraud detection:A classification framework and an academic review of literature[J].Decision Support System,2011,50(3):559-569.

[8]Ester P,Sander S.A key efficient way of data mining techniques[J].Machine and Systems,2014,36(12):74-79.

[9]舒敏,李军.一种基于归纳演绎准则的数据挖掘检测技术的研究[J].安徽大学学报,2009,14(1):98-103.

[10]杨理,贾斯丁.基于云平台下的入侵检测技术的研究与实现[J].北京邮电大学学报,2009,12(1):5-8.

[11]李婧.一种基于概率的快速聚类算法[J].重庆工商大学学报:自然科学版,2014,31(2):61-65.

猜你喜欢
汉明数据挖掘样本
改进支持向量机在特征数据挖掘中的智能应用
用样本估计总体复习点拨
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
具有最优特性的一次碰撞跳频序列集的新构造
规划·样本
随机微分方程的样本Lyapunov二次型估计
软件工程领域中的异常数据挖掘算法
媳妇管钱
“官员写作”的四个样本