刘 兰,林 军
(1.广东技术师范学院,广东 广州 510655,2.工业和信息化部电子第五研究所,广东 广州 510610)
大数据环境下安全海量规则分析技术研究
刘 兰1,林 军2
(1.广东技术师范学院,广东 广州 510655,2.工业和信息化部电子第五研究所,广东 广州 510610)
大数据环境下异构的网络安全设备会产生海量的安全事件,本文针对大数据具有的数据量巨大、查询分析复杂的特点,分析面向大数据的网络安全海量规则分析处理的相关技术,提出对各类数据源进行清洗整合,通过安全事件的关联分析,对安全规则建立描述模型,提出安全事件海量规则的模糊等量约束的因果关联算法和时空同现模式挖掘安全事件的规则间关联算法.
大数据;关联分析;规则;时空同现
1.1 大数据分析为信息安全带来机遇
大数据分析为信息安全领域的发展带来了新的挑战和机遇,在信息安全领域可以归纳为两个方面:首先是从宏观上来说我们需要感知网络安全的整体态势,其次我们需要从微观上发现大数据环境下的具体安全问题[1].
宏观上大数据的信息安全主要表现为利用大数据分析技术的特点,例如并行计算、海量存储和高效查询等,我们可以实现规模巨大的异构网络中安全事件的关键数据的有效获取,在此基础上对核心数据进行实时关联分析,根据分析结果建立信息安全评价模型,依据模型指标评估网络行为,发现网络的异常事件,从而对网络安全进行全局的预警并进行防范.
微观上大数据信息安全应用指的是从安全信息数据中发现具体的安全事件,例如蠕虫、DDOS或 APT攻击.系统可以收集网络中的主机、关键服务器和交换机节点上的流量数据和日志信息,对数据利用大数据分析进行去冗余、数据清洗、归一化和特征分析及关联,确定安全事件的具体种类,检测和还原出具体的安全事件场景,从而及时、动态的发现各类安全事件,保护整体网络的安全.
1.2 网络安全海量规则处理优势
因为大数据技术的出现,我们可以跳出信息安全领域以往的 PDR2被动防护体系:防护(Protection)、检测(Detection)、响应(Reaction)、恢复(Restore),主动发现网络中潜在的安全风险,其优势主要表现为:
(1)分析范围更大
在网络安全规则处理中,引入大数据技术,能够全面的找出针对重要资产的攻击行为.我们可以通过分析面向不同信息资产的业务数据,发现其业务数据模式,从而找出异常操作行为,判断这些异常操作是否会进一步危害网络.这在传统的规则分析中是不会涉及到的.因此,大数据分析技术对数据范围分析的扩大使得对网络安全的监控更为细致和全面.
(2)处理数据时间跨度更长
由于计算机处理能力的限制,以往的安全规则分析一般都是跟系统的内存相关的,实时的异常分析系统通过探测器采集网络中的数据,比对系统的规则库来发现攻击.这样的规则匹配技术其分析能力取决于内存的大小,对于时间跨度比较大的慢攻击往往不能鉴别.通过大数据分析,我们可以进行海量规则的处理,分析时间跨度较大的数据,有效的发现和处理隐蔽性和持续性较强的慢攻击行为,使系统具备更强的安全事件处理能力.
(3)对安全事件的预测能力
网络安全行业的传统防护技术大部分是在事件发生之后才能对安全事件进行相应的归类,而大数据时代,网络安全海量规则分析的目的是通过已经发生的事件的特征,预测网络中发生的安全事件及安全态势,并通过实时分析从全局的角度来考虑安全事件对整体安全环境的影响.
(4)对未知威胁的检测能力
原有的威胁分析一般有专业人员依据个人从业经验进行信息的分析和判断,这依赖于信息安全分析师的已有经验和网络系统的实际情况.而大数据分析技术则是通过大规模数据的关联分析,建立各类安全威胁的分析模型,通过数据挖掘的方式来实现对未知威胁的检测[2、3].
大数据分析擅长的场景是人们对于数据中的目标几乎一无所知,而是通过其中的一些相关数据进行分析,其产生的结果数据远大于数据的简单叠加.大数据环境下安全海量规则分析系统中最关键的模块为安全事件的关联分析.异构的网络环境中各类网络设备及安全设备产生海量安全数据,对于信息安全的数据挖掘技术,国内外学者有着很多研究成果,比如:贝叶斯网络推理理论、支持向量机 SVM、决策树、人工神经网络等[4].这些建模方法的做法通常是从数据中抽取出最突出的特征来代替原始数据,并将剩余内容忽略.在大数据环境下,安全海量规则分析系统的数据处理能力已经不是系统的瓶颈了,我们将从建模、算法等方面进行考虑,在不损失数据价值的前提下规范分析数据,并对核心数据进行数据关联分析,发现海量安全数据中的异常事件,及时对网络态势预警.
2.1 数据特点
大数据环境下的安全数据有个非常独特的特点:安全数据不仅仅只在网络终端,而且也还表现在网络的各种不同层次和位置,如网络服务器、网站、BBS等网络内容发布和支持场所.这就需要我们从多个角度(多维度),多种层次(多粒度)的主动搜索采集数据.将各种网络设备的原始流量以及各终端和服务器上的日志,保存在大数据平台上,然后进行集中的海量数据存储和深入分析,可以在发现网络安全事件的一点蛛丝马迹后,通过全面分析这些海量数据来还原整个安全事件的场景.
通过典型的大数据分析平台如 Hadoop平台上的分布式文件系统 (Hadoop Distributed File System)分布式保存海量数据,利用 MapReduce处理大量半结构化数据集合,例如对海量数据进行初步处理,从中取出两类数据,分别是特定类型文件,主要是常用于恶意代码植入的各类文件如:exe、pdf、flash、word、ppt和 exec等以及包括 SNMP、ODBC及 Log Files等接口收集到的网络流量数据.
2.2 模型
成千万上亿条的海量规则交由一台处理机来进行处理几乎是不可能的事情,为了能够及时处理用户设定的多维度各种粒度的规则,并能及时对用户作出响应,需要由多台处理机同时对规则网进行并行处理,从而改善处理效率.大数据环境下安全海量规则分析技术,其中规则关联行为分析的依据不再只是单纯的行为分析基础上的逻辑判断,而是在大数据基础上的广泛性信息收集,以及从多个维度的数据挖掘结果之上得出的判定结果.利用行为分析的“相关性技术”把安全事件综合联系起来,确定其是否属于恶意行为.分析和借鉴基于流量行为、神经网络和模式识别的网络异常检测技术,充分利用学科交叉知识来解决大数据网络环境下的安全事件关联分析问题;通过大数据环境下的规则关联分析与评估,建立网络异常报警机制;
模型中有两个需要考虑的问题:第一,大数据本身有可能成为APT攻击的数据载体;第二,大数据分析本身也容易为黑客利用,变成新的攻击.传统的信息安全数据挖掘算法的时间复杂度较高、算法的误报率和漏报率一直是难以解决的问题,因此并不适合大数据环境,相关的科学研究也发现,在数据处理效率得到提高的背景下,反而某些简单算法对于大数据的处理更有效[4].
在这样的研究背景下,我们对信息安全海量规则进行分析研究[5、6],提出面向大数据环境的异构网络安全海量规则分析模型,结构图见图1.
数据采集模块:通过采集海量数据,可以搜集多个来源的数据,这些数据表面上看来没什么关系的数据之间有时存在着某种内在的联系.数据源包含网络系统中的各种网络设备、安全设备、主机和服务器等.提供对SNMP、ODBC、Log Files、Socket、SDK、Cisco、NAP等的接口能力.
数据整合模块:通过数据整合模块,我们对源数据进行规范化处理,通过特征提取和分类规则对数据进行分类.此模块的核心是特征提取、数据降维和分类算法的研究.
关联分析模块:
图1 网络安全海量规则分析模型结构图
通过智能化的分析方法找出海量安全事件之间的关联,从而还原攻击场景图,这是整个系统的关键.这个模块对海量安全事件进行诊断和响应,识别攻击意图,重构安全威胁场景.一个完整的安全事件通常由多个步骤构成,这些步骤之间又是相互关联的,如果能够把这种隐含关系找到,就能够更加准确的还原安全事件的行为,更加准确的确定安全事件对网络的影响.
安全评测可视输出模块:此模块将分析过程得到的新知识充实到自己的知识库中,完善自身的学习能力.基于多维度、多粒度的规则智能检测模型会随着时间的增加而具有越来越强的未知安全事件的识别能力.而可视化以一种更科学直观的方式呈现网络安全事件场景.先通过分析将安全事件的行为与时间进行关联起来,建立起安全事件的时间轴;同时多个网络安全事件可能在攻击中进行了协作来达到目的,在可视化呈现时要将所有与此事件有关的行为都囊括进来.再根据整理好的数据采用非图形化或者非图形化的方式呈现出来.
面向大数据的异构网络安全规则的关联算法主要需要考虑几个问题:
第一,安全事件的规则描述粒度,安全事件发生时,不同粒度数据项之间存在着关联关系,在多个来源不同粒度的数据之间通过关联分析找到数据之间的隐含关系,文中采用模糊等量约束因果关联分析算法进行处理.
第二,一个完整的安全事件通常由多个步骤构成,这些步骤之间又是相互联系的,异构设备数据之间的相关性也需要协调分析,本文采用时空同现模式挖掘安全事件的规则间关联.
第三,如何高效描述异构数据之间的关系、如何快速利用关联分析方法进行检测是需要深入研究的内容.本文利用云计算的并行处理能力,提出海量规则并行处理机制,并实现了系统原型.
3.1 安全事件模糊等量约束因果关联分析
文本选择两个相关性最大的特征值作为回归参数。由表1可知,t2t和HR与SBP的相关性较强,逐步分析得到SBP的方程为SBP=-141.3t2/t+0.68HR+145.6。t2t和HR与DBP的相关性较强,逐步分析得到DBP的方程为DBP=-93.3t2/t+0.15HR+120.6。
在安全事件的关联分析中,对任意安全事件 e1和 e2,引入二元模糊因果关系R˜,R˜定义在C(e1)×P(e2)上,表示事件 e1和 e2之间的关联关系,并定义隶属度函数 μR˜(c,p),此函数取值范围是实轴闭区间[0,1],函数大小表示模糊集合R˜上的序偶对(c,p)的隶属度.其定义如公式 1所示:
0 公式中,ui,vi分别表示 c=pred(u1,u2,...,uk)和 p=pred(v1,v2,...,vk)所对应的属性值.Mat(c,p)为 c与 p相匹配的属性数目.W(ui,vi)是 ui,vi的权值,其中 W(ui,vi)∈[0,1]记为: 对于基本属性 ui,vi,W(ui,vi)的取值范围在0-1之间,而对于非基本属性ui,vi,W(ui,vi)的取值为经验值.在此基础上,可以定义集合 C(e1)×P (e2)上的二元模糊关系R˜的支持度函数SupR˜(C,P): 如果 SupR˜(C,P) 的值大于支持度阈值Tsup∈(0,1)时,算法分析认为安全事件 e1和 e2之间存在关联关系. 3.2 时空同现模式挖掘安全事件的规则间关联 大数据环境下,攻击行为可以从多个不同位置发起并指向相同目标.采用时空同现模式的数据挖掘方法,提出从不同的网络位置上分析数据,发现这些规则之间的联系从而检测出安全攻击行为. 在这个过程中,我们引入时空复合兴趣度,这个值描述了攻击行为的空间兴趣度与时间兴趣度的复合关系. 时空同现模式挖掘方法可以基于 Time Aggregate Graph(TAG)算法和基于模式增长的方法.算法处理时,我们需要预先设定相关频繁子模式的最小置信度和最小支持度,同时可以加入时空复合兴趣度的影响因子.TAG的定义为TAG=(N,E,TF,f1…fk,g1…gm,w1…wp|fi:N->RTF,gi:E->RTF,wi:E->RTF), 在定义中,N表示一组节点,E表示发生安全事件的边,TF表示事件发生的时间片,f表示存在事件相邻关系的事件集合,g是事件间邻近的时间序列,w表示边上的权值序列,即时空复合兴趣度. 本文通过以上算法来分析安全异常事件的频繁子模式,如果系统检测到目前的实时安全事件和频繁子模式超过支持度阈值,则预测为网络安全异常行为.检测过程中,用户可以通过修改阈值来提高处理效率. 将构建两个大数据分析平台,一个平台用于搜集传统网络环境中的数据和SDN架构网络实验平台环境的数据,采集的各种日志和网络流量数据经过处理后导入到大数据分析平台上进行分析处理,如图1所示. 为了测试和验证我们提出的大数据环境下安全海量规则分析技术,我们构建了一个大数据分析测试平台,采集的各种日志和网络流量数据经过处理后导入到大数据分析平台上进行分析处理,对于核心数据,我们通过搭建简单的Hadoop MapReduce集群实验环境对其进行分析处理.实验环境包含 1个控制结点(JobTracker)和8个数据分析结点(TaskTracker).数据分析节点的配置如表 1所示. 表1 计算节点配置情况 我们通过Mapreduce的并行处理能力对实验环境中产生的分布式安全数据进行处理,在测试环境中初步实现了安全海量规则的高效并行分析,对于不同类型的安全事件可以做出初步判别和分析. 大数据时代国家的核心竞争力在很大程度上依赖于把大数据量低价值的数据转化成核心知识的能力,本文提出了大数据环境下的安全海量规则分析系统的一些关键问题和解决思路,从体系模型和算法分析等方面提出大数据环境下安全海量规则分析技术的行为机制.在实验室模拟了一个测试环境来对算法进行模拟测试和分析,通过测试系统可以对部分安全事件发现并响应,需进一步对模型中的规则表示和算法进行优化. [1]王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138. [2]Bahadori M T,Liu Y,Zhang D.Learning with minimum supervision:a general framework for transductive transfer learning.IEEE International Conference on Data Mining (ICDM),2011. [3]Shahreza S,Ganjali Y.FleXam:Flexible Sampling Extension for Monitoring and Security Applications in OpenFlow[C].HotSDN.2013:167-168. [4]Zhitang Li,Binbin Wang,Dong Li,Hao Chen,Feng Liu, ZhengBin Hu.The Aggregation and Stability Analysis of Network Traffic for Structured-P2P-based Botnet Detection[J].Journal of Networks.2010,5(5):517-526. [5]刘兰,林军,蔡君,面向大数据的异构网络安全监控及关联算法研究[J].电信科学,2014(7):30-33. [6]Lan Liu,Xiaoping Xu etc.A kind of fuzzy constraint correlation algorithm based on prerequisites and consequences of security event.In:Proceedings of IEEE International Computer and Information Technology.2009 (10):225-229. [责任编辑:王晓军] Research on Network Security Analysis Technique of Massive Rules in the Age of Big Data LIU Lan1LIN Jun2 In the age of Big Data,we should consider large-scale,heterogeneous network security behavior.In this paper,according to the features of huge amount and complex,Big Data analysis technologies for network security massive rules were proposed.Various types of heterogeneous data sources by data cleaning were analysised.The key data through security event correlation and spatiotemporal co-occurrence pattern mining security event correlation rules were proposed. Big Data;Correlation Analysis;Rule;Spatiotemporal co-occurrence TP 309 A 1672-402X(2016)08-0041-05 2016-03-10 国家自然科学基金(61571141);2015年广东省教育厅本科高校教学质量与教学改革工程项目(粤教[2015] 133号网络工程专业综合改革) 刘兰(1977-),女,湖南益阳人,博士,广东技术师范学院副教授.研究方向:网络技术、信息安全. 林军(1976-),男,广东廉江人,硕士,高级工程师.研究方向:网络安全,大数据.4 实验测试
5 结论
(1.Guangdong Polytechnic Normal University,Guangzhou 510655; 2.China Elecrtonic Product Reliability and Environmental Testing Research Institute,Guangzhou 510610)