王 双
(中国民航大学信息安全测评中心,天津 300300)
一种多源安全日志融合方法的研究
王 双
(中国民航大学信息安全测评中心,天津 300300)
为了有效发现网络中隐藏的攻击事件,以多源日志为研究对象,提出改进加权信任度值D-S证据理论算法来融合日志。经过数据预处理和动态自适应时间间隔阈值算法聚合生成超级告警日志,将安全设备对不同告警事件的检测率作为证据,动态修正权值并融合。实验结果与传统D-S证据理论算法的比较结果表明,改进加权信任度值D-S证据理论算法能够更准确地检测到网络中的攻击事件。
多源日志;动态自适应时间间隔阈值;D-S证据理论;日志融合
随着网络环境日趋复杂,由被动防御转变为主动防御已迫在眉睫。为了监测可能发生的异常行为或网络攻击事件,在网络边界出入口部署防火墙、IPS、IDS等安全设备,设备的日志文件记录了网络的变化情况,各类设备每天都记录大量日志,但不同设备之间的日志信息相互独立。针对如何在海量日志中发现异常行为,国内外学者开展了大量研究并取得了丰硕成果。Tim Bass[1]提出通过传感器采集日志数据,并将其作为数据源进行态势评估。Stephen Lau[2]创新性提出在三维空间中采用点来表示网络流量信息,并将该技术运用到“The Spinning Cube of Potential Doom”系统中,以提高网络安全态势感知能力。刘效武等[3]提出基于粒子群算法计算D-S证据理论的最优信任度值,降低多源日志的不确定性,实现基于多源日志融合的安全态势评估模型。AsifiqbalH等[4]利用数据挖掘工具Weka对多源日志进行解析,然后采用聚类算法过滤日志,对日志事件关联分析,该算法在聚类时没有考虑时间属性。Myers J等[5]提出了一种面向多源异构日志的关联分析法,但未对告警日志进行分类,在对日志进行关联分析和异常日志优先级计算时,过多依赖先验知识。黄林等[6]采用时间间隔阈值聚类算法对日志进行聚合,但初始时间阈值更多依靠专家经验进行设定,从而造成聚合度降低。上述研究均存在以下不足:①采用的日志数据源过于单一,忽略了事件之间的关联性和多源日志数据的异构性,不能还原出真实的攻击行为;②对多源日志进行融合时,设置相同信任度值导致融合后的结果不准确,忽略了不同安全设备对异常事件的检测率不同。
针对上述日志数据源单一、信任度值设置相同的问题,开展多源日志分析,探讨同类及不同类告警日志的关系,采用动态自适应时间间隔阈值的聚合算法形成超级预警日志,运用改进加权信任度值D-S证据对多源超级预警日志进行融合,将安全设备对不同告警事件的检测率作为证据,结合融合训练阶段得到的告警数据不断对权重进行修正,有效发现隐藏的攻击事件。
通过大量分析防火墙日志和IDS日志,设计一种多源日志融合分析的系统模型,包括4个功能模块:日志采集模块、数据预处理模块、日志融合模块和态势展示模块,如图1所示。本文主要介绍系统模型中的数据预处理模块和日志融合模块。
图1 多源日志分析系统功能模块图Fig.1 Functional module diagram of multi-source log analyzing system
由于网络安全设备类型不同及网络安全事件的不确定性,致使一些日志信息可能不完善甚至存在错误或缺失重要属性。因此,为保证日志数据的准确性和有效性,降低误报率,需对日志进行预处理。数据预处理包括两个过程:日志清洗[7]和日志归一化[8]。
通过清洗日志,删除或补充日志重要属性中不完整的数据[9],去除冗余数据,为日志归一化提供准确数据。原始日志可能存在的错误信息包括:
1)信息不完整 日志属性缺失和无用的日志数据;
2)IP地址异常 为逃避追踪,攻击者通常会使用虚假的源IP地址,当目的IP不在检测网络范围内时,需要过滤掉这类日志数据;
3)重复日志数据 同一攻击可能会在短时间内产生大量相同的日志记录,如果这些日志记录为同一个安全事件,将此类记录归并为一个安全事件。
根据上述3种情况,采用如图2所示的日志清洗流程。
图2 日志清洗流程Fig.2 Log cleaning process
由于防火墙、IDS等安全设备类型不同,生成的日志属性间的差异很大。因此,在对日志进行处理时,需要先精简各类安全设备的日志属性,提取有用属性,然后将不同日志格式进行归一化操作。在不丢失原始日志信息的基础上,确定选取的日志属性包括日志编号、源/目的IP、源/目的端口、时间、协议类型、设备类型[10],通过这些属性确定不同的攻击种类。采用XML格式[11]对这些日志进行归一化,格式如下:
上述归一化的XML中,对应的属性含义如表1所示。
表1 属性含义Tab.1 Attribute meaning
因此,将归一化后的日志形式描述为:(logID,DeviceType,sourceIP,destIP,sourcePort,destPort,StartTime,EndTime,ProtocolType)。
1)定义聚合规则
根据攻击事件之间的差异及其手段和攻击方式,综合考虑攻击事件对系统造成的严重后果,将攻击事件归结为以下三类:
a)恶意代码注入类 根据网络或系统中存在的脆弱性,构造跨站脚本、木马等恶意代码,注入到目标系统的节点上,如SQL注入、跨站脚本攻击(XSS)等。
b)扫描探测类 攻击者通常采用NMAP等探测工具扫描目标网络主机端口,分析系统漏洞,达到攻击目的。如弱口令猜测、漏洞利用等。
c)拒绝服务类 拒绝服务攻击主要是对同一目标发起攻击,攻击者可能向服务器注入流量,耗尽服务器资源,导致不能为合法用户提供正常服务[12],如DDOS攻击等。
结合以上对攻击事件的分类,以及对日志属性的分析,定义了4条告警日志聚合规则,如表2所示。
表2 聚合规则Tab.2 Aggregation rule
按照表2中定义的聚合规则,根据优先级从最高到低的顺序进行匹配。当告警日志到达时,先与优先级最高的规则进行匹配,若匹配不成功,则分别与次优先级的规则进行匹配。当告警日志与某条规则匹配成功,则进行下一条日志的匹配,如果相邻的两条日志属于同一类攻击,此时需与前一条日志进行聚类。
因此,聚合规则是日志聚合的必要条件,也是后续对多源日志进一步分析的前提。在对告警日志聚合时,为提高日志聚合的准确率,采用自适应时间间隔阈值算法,实时更新动态时间间隔。定义分析日志聚合的时间属性。
定义1中间日志(midLog)用于存放初始时间阈值间隔、聚合过程中实时更新各种攻击类型的间隔阈值、相邻日志时间间隔和、相邻日志时间间隔平方和。
2)自适应时间间隔阈值聚合算法
自适应时间间隔阈值聚合算法伪代码如图3所示。
图3 自适应时间间隔阈值聚合算法Fig.3 Adaptive time interval threshold aggregation algorithm
Step 1:取一部分训练集数据,对模型进行训练,将所得各类攻击日志的间隔阈值存入中间日志,将其作为初始时间间隔阈值;
Step 2:读取日志总条数;
Step 3:执行循环,如果执行次数小于等于日志总条数,进入Step 4,否则中止循环;
Step 4:与定义的4条规则进行匹配;
Step 5:如果小于等于中间日志中的间隔阈值,执行Step6,否则执行Step 7;
Step 6:进行聚合,计算时间间隔和、时间间隔平方和、时间间隔平均值、时间间隔相对标准差,得到自适应时间间隔;训练模型,将所得各类攻击的初始间隔阈值存入中间日志,更新中间日志的间隔阈值;
看了这一条,读者通过逻辑思维必然会觉得“原来鹅鼻山就是秦望山!秦始皇是登上鹅鼻山‘以望南海’的!”但再一想又不对了:大越不会有两座秦望山,前一条说山在县东南四十里,入城者已经难以看到它,现在搬到县西南七十里,使涉境者更难见到了。
Step 7:将该日志作为初始日志;求出该条日志与下一条到达日志间的时间间隔,与中间日志中的间隔阈值比较,如果小于等于中间间隔阈值,执行Step 6,否则执行下一次循环。
D-S证据理论是由DempsterAP[12]在1967年提出,并由Shafer推广而发展起来的一种不确定性推理方法。在证据理论中,其主要特点是采用“区间估计”方法直接对“不知道”和“不确定”的数据信息进行描述。下面对D-S证据理论进行简单介绍。
识别框架Θ:Θ是一个有限完备的论域集合,表示有限个系统状态{θ1,θ2,…,θn},而系统状态假设 Hi为Θ的一个子集,即Θ的幂集P(Θ)的一个元素。D-S证据理论的目标是根据对系统状态E1,E2,…,Em的观察推测出当前系统所处的状态,而这些观察仅仅是系统状态的不确定表现,并不能唯一确定某些系统状态。作为证据理论的底层概念,首先定义某个证据支持一个系统状态的概率函数,这个函数被称为基本概率分配(BPA)[13]。
定义2BPA定义为从Θ的幂集到[0,1]区间的映射,即
其中:使m(A)>0的A 称为焦元(Focalelements)。
定义3Dempster规则形式化定义如下:
在识别框架Θ上基于基本概率分配(BPA)m的信任函数为
在证据理论中,对于识别框架Θ中的某个假设A,根据基本概率分配(BPA)分别计算关于假设的信任函数Bel(A)和似然函数Pl(A)组成信任区间[Bel(A),Pl(A)],用以表示对某个假设的确认程度[14]。
对于∀A⊆Θ,识别框架Θ上的有限个mass函数m1,m2,…,mn作为证据的 Dempster合成规则为
式中
由于传统证据理论对每个证据源的设定都有相同的信任值,但在真实的网络环境中,安全设备对于相同网络攻击的检测能力各有不同,因此提供的证据信任值也各有差异。为使得到的结果更加准确,发现隐藏的攻击行为,对D-S证据理论进行改进,引进距离函数,对证据差异化进行量化,算出证据的可信度值,将该值作为安全设备的加权值。采用不同加权信任度值对多源日志进行融合,并根据训练阶段融合结果呈现出的实际网络安全态势值不断修正信任度权值。
根据研究和实验总结,设定Dempster合成规则。由于不同厂商的安全设备定义的规则不同,在对同种攻击事件进行检测时,其检测率也不同。通过量化距离函数对证据的差异化得到证据可信度取值,使BPA满足其中:ri表示安全设备获得的权值;mi(A)表示第i个安全设备对事件A的基本概率分配。
距离函数确定安全设备的权值为
搭建模拟网络拓扑环境,如图4所示,共划分4个区域,分别为安全管理区域、对外应用服务区域、生产网区域、内网办公区域。安全管理区域部署检测安全事件的各厂商安全设备,包括绿盟漏洞扫描设备(RSAS)、入侵检测系统(IDS)、安全审计系统等;对外应用服务区域包括对外提供服务的服务器;防火墙(网御星云)部署在主干网,配置防火墙和IDS相应的规则。在网络出口开放一个端口,用于模拟攻击实验。攻击者采用科来数据包播放器软件,对攻击包进行回放,攻击包中包括的攻击类型有口令猜测、HTTP攻击、端口扫描、DNS攻击、漏洞扫描。
依据1.1节提取日志属性的关键字段和两周攻击实验得到的原始数据,对采集到的原始数据进行处理后,所得部分实验数据如表3所示。
图4 模拟拓扑环境Fig.4 Simulation topology environment
运用2.1节的实验数据进行融合,融合过程包括训练阶段和实验阶段。训练是为了能够准确得到安全设备在网络中所占的权重和对攻击的识别率;将融合后所得数据与真实攻击进行比较,如果结果偏差过大,则根据式(6)~式(8)、结合训练阶段的报警数据,动态修正加权值。
根据证据理论对超告警日志进行融合,共选取超告警日志473条,其中防火墙日志91条,IDS日志382条;根据专家经验,设置防火墙日志的BPA为{0.7,0.3},IDS 日志的 BPA 为{0.78,0.22};然后采用加权证据理论对其融合,得到6种超告警日志数量,如表4所示。
因为不同类型的安全设备对攻击事件检测率各有差异,所以在进行日志融合时设备所占的权重也有所不同。为了确定安全设备对不同安全事件的检测率,反复实验后得到不同设备的检测率,并将对不同攻击事件的监测率作为证据理论融合的权值。经过大量实验得出安全设备对告警事件的检测率,如表5所示。
表3 实验数据(部分)Tab.3 Experimental data(part)
表4 防火墙和IDS中告警的日志数Tab.4 Number of alarms in firewallsand IDS
对表5进行归一化得到表6。
表5 安全设备对不同安全事件的检测率Tab.5 Detection rate of security equipment for different security incidents
表6 安全事件检测率归一化Tab.6 Security event detection ratenormalization
将得到的归一化检测率作为证据进行融合,由表6采用传统证据理论融合得到表7。
表7 传统D-S证据融合Tab.7 Traditional D-Sevidence fusion
从表7可以看出,经过传统D-S证据融合后端口扫描和HTTP攻击的置信度较大,根据式(5)可以判断当前发生了这两种攻击,能够及时为管理员提供管理决策。可以看出TCP攻击和ICMP攻击的置信度小,所以这两种攻击事件为误报。原因可能是网络链路不通,造成数据包过多,CPU不能及时处理。DNS攻击的置信度较小,但在攻击实验室中发送了包含DNS攻击的攻击包,原因是融合时采用相同的信任度权值,网络中不同安全设备对相同攻击事件的检测率并不相同。
因此,为提高对安全事件的检测率,结合融合训练阶段所得结果与真实攻击进行比较,根据式(6)~式(8)计算安全设备的权值,不断修正信任度权值。经过计算和训练将防火墙和IDS的权值重新调整定义为{0.78,0.22},再次进行融合,结果如表8所示。
表8 加权信任度值的D-S证据融合Tab.8 D-Sevidence fusion of weighted trust value
由表8可以看出,经过加权信任度证据理论融合后的端口扫描、HTTP攻击和DNS攻击置信度很大,这与实验模拟的攻击相符;并且得出的结果更能准确检测原来的攻击,更加符合真实攻击行为。对比表7和表8,结合图5可以得出,改进后的证据理论能够更加准确地检测网络中的安全事件。
图5 两种融合算法对比结果Fig.5 Comparison of two fusion algorithms
针对攻击类异常日志进行融合,提高了检测告警事件的准确度。将安全设备对不同告警事件的检测率作为证据,结合融合训练阶段得到的告警数据不断对权重进行修正,对多源日志进行融合,发现了隐藏的攻击事件,为建立风险预警系统提供有效的数据支持。
[1]TIMB.Multisensor Data Fusion for Next Generation Distributed Intrusion Detection Systems[C]//1999 IRIS National Symposium on Sensor and Data Fusion,Laurel,USA,1999.
[2]STEPHEN L.The spinning cube of potential doom[J].Communications of the ACM,2004,47(6):25-26.
[3]刘效武,王慧强,禹继国,等.基于多源融合的网络安全态势感知模型[J].解放军理工大学学报(自然科学版),2012,13(4):403-407.
[4]ASIFIQBAL H,UDZIR N I,MAHMOD R,et al.Filtering events using clustering in heterogeneous security logs[J].Information Technology Journal,2011,10(4):798-806.
[5]MYERS J,GRIMAILA M R,MILLS R F.Log-based Distributed Security Event Detection Using Simple Event Correlator[C]//the 44th Hawaii International Conference on System Sciences,Hawaii,2011.
[6]黄 林,吴志杰,黄晓芳,等.一种改进的多源异构告警聚合方案[J].计算机应用研究,2014,31(2):579-582.
[7]于兆良,张文涛,葛 伟,等.基于Hadoop平台的日志分析模型[J].计算机工程与设计,2016,37(2):338-344.
[8]亚 静.基于多源日志的网络威胁分析系统的研究[D].北京:北京交通大学,2014.
[9]赵 皓,高智勇,高建民,等.一种采用相空间重构的多源数据融合方法[J].西安交通大学学报,2016,50(8):84-89.
[10]殷 俊,王海燕,潘显萌.基于DNS重定向技术的网络安全审计系统[J].计算机科学,2016,43(S2):407-410.
[11]ALGHAMDINS,RAHAYUW,PARDEDEE.Semantic-based structural and content indexing for the efficient retrieval of queries over large XML data repositories[J].Future Generation Computer Systems,2014,37(7):212-231.
[12]谢 珏.分布式拒绝服务攻击模拟系统设计与实现[D].四川:电子科技大学,2014.
[13]赵新杰,刘 渊,孙 剑,等.基于迁移学习和D-S理论的网络异常检测[J].计算机应用研究,2016,33(4):1137-1140.
[14]李建平,王晓凯.基于模糊神经网络的无线传感器网络可靠性评估[J].计算机应用,2016,36(z2):69-72.
Research on multi-source security log fusion method
WANG Shuang
(Information Security Evaluation Center,CAUC,Tianjin 300300,China)
In order to effectively find hidden attacks in network,taking multi-source log as research object,an improved weighted trust value D-Sevidence theory is proposed to fuse logs.With data preprocessing and dynamic self adaptive time interval threshold algorithm,super warning log is aggregated.Taking detection rates of different alarm events by safety equipment as evidence,the weights of alarm data are dynamically revised and fused.Comparison between experimental result and traditional D-S evidence theory algorithm indicates that the improved weighted trustvalue D-Sevidence theory can improve the detection accuracy of network alarm event.
multi-source log;dynamic self-adaptive time interval threshold;D-Sevidence theory;log fusion
王双(1986—),女,黑龙江哈尔滨人,实习研究员,硕士,研究方向为民航信息系统、民航网络安全.
TP399
A
1674-5590(2017)05-0041-06
2017-05-08;
2017-06-14
国家自然科学基金项目(61601467);民航安全能力建设基金(PEAS0001)
?
刘佩佩)