吴朝雄,王晓程,王红艳,石 波
(中国航天科工集团第二研究院706所,北京100854)
在网络安全态势感知[1]的研究方面,主要有算法在网络态势中的应用及算法优化,如D-S证据理论预测[2]、神经网络、灰度理论等,信息融合的网络安全态势评估模型[3,4]、大规模网络安全态势技术研究[5]、流量态势感知的研究[6]、网络安全态势评估方法的分析[7]等。然而,网络安全态势感知方面的研究仍然存在以下一些问题:
(1)态势感知定义模糊,没有统一的理解。态势感知的理解和定义目前仍然存在着很大的争议,不少研究人员对态势感知都有自己的见解,但是都未形成标准。
(2)网络安全态势感知缺乏精确的数学模型。目前所说的网络安全态势感知模型实际上是指网络安全态势感知系统结构和框架,并没有固定的数学知识表达模型。
(3)对复杂网络攻击缺乏感知的方法、工具。实时精确检测复杂网络攻击是保证度量网络安全态势感知准确的基础和支撑。因此,提高对复杂网络攻击感知是首要解决的问题。
(4)网络安全态势感知缺乏实时性。不管是网络安全态势预测还是评估方面,都缺乏时效性,不能及时的给系统管理员呈现安全态势信息。
本文针对上述 (3)、 (4)两点不足之处,主要从攻击威胁角度出发,设计了一种模块化的实时感知系统结构,并在结构中提出了基于粗糙集 (rough set,RS)和事件流处理 (event stream processing,ESP)相结合的实时网络安全威胁态势感知方法。该方法和技术在一定程度上提高了对复杂网络攻击感知的能力并解决了网络安全威胁态势分析的时效性。
RS是一门基于分类思想研究不确定性和不精确问题的理论。波兰科学家Pawlak提出了粗糙集的概念[8]。粗糙集在知识发现中的应用主要体现在使用等价关系对数据进行聚类形成等价集合,对属性、对象进行约简计算,提取决策规则[9]基于粗糙集提取出的规则能够更好的客观描述样本数据属性之间的本质关系。而且粗糙集与证据理论、概率论、模糊集理论等理论相比,其最大的优势在于粗集理论不需要任何的先验知识和专家知识,因此推理出的知识是客观可信的[10]。ESP 是一种从大量持续性事件流中过滤、分析出有意义的事件,并能够实时取得这些有意义的信息的技术,且其分析引擎具有较高的吞吐量[11]。根据网络安全态势感知中的数据特点,本文将RS以及ESP 引入到网络安全态势感知系统中。系统分为在线和离线感知两部分。系统主要由数据采集、数据预处理、知识发现、实时攻击感知、安全态势分析、态势可视化等模块组成。如图1所示。
图1 基于RS-ESP的系统结构模型
数据采集收集多源异构的安全事件数据,数据预处理是对各种安全事件的标准化。知识发现模块的数据源来源于两部分,一部分是已有的复杂攻击样本数据库,另一部分是则来源于采集到的安全事件。实时攻击感知既接收标准化后的数据流,也接受攻击知识库中的复杂攻击规则。安全态势分析接收攻击感知的结果对安全态势进行分析,并同时进行可视化的展示。
大规模网络下的安全态势感知其处理的数据是海量的,通过RS理论能够很好的从已有的小样本攻击态势数据中发现真正有意义的复杂攻击知识,揭示潜在的复杂攻击规律。同时通过ESP技术结合发现的复杂攻击规则能够实现在线对网络环境中的安全事件进行动态分析,从而为实时网络安全态势分析提供基础。实时态势感知的基本思想是通过RS理论从攻击态势样本数据集中建立攻击态势决策表,对攻击态势决策表中的属性约简得到精简的攻击态势决策表,最后通过计算属性之间的依赖度,提取出复杂的攻击规则。ESP将提取的攻击规则按照一定的规定转换成机器所能识别和运行的语言,然后在线对网络安全事件流进行上下文关联分析,并将分析的结果提供给实时态势分析和态势可视化。实时态势分析根据攻击感知的结果,对整体网络安全态势进行分析,从而得到对网络安全态势的整体把握。实时网络安全态势感知流程如图2所示。
图2 基于RS-ESP的实时态势感知流程
RS将客观世界抽象为一个信息系统。信息系统由四元组S 表示,S=<U,A,V,f>。U 是对象或者事例的有限集合,称作论域,A 是属性的有限集合。V 是属性值的值域,f 是信息函数,即f:U×A→V,f(xi,Aj)∈Vj,其中xi∈U,Aj∈A。属性集A 又常常分为两个集合C 和D,即C∪D=A,C∩D=,C 表示条件属性集,D 表示决策属性集,将带有条件属性集和决策属性集的系统称为决策系统,记为S=<U,C∪D,V,f>。
在网络安全态势感知中,安全告警事件集对应论域U,即简单攻击相互组合后所形成的复杂攻击,各单个简单攻击为条件属性集C,这些一连串的简单攻击对系统所造成的威胁程度对应决策属性集D。建立如表1所示的攻击态势信息决策。
表1 信息决策
对攻击态势决策表中的条件属性集进行约简,删除对攻击态势决策结果不产生影响的攻击条件集。为了理解属性约简,做了如下定义。
定义1 对所有的p∈P,xi,xj∈U,称为P 对U 的等价关系,记为U/eq(P)
定义2 粗糙集是以上近似和下近似来近似定义粗糙集,其中对于集合X U,X 的下近似表示为B_(X)
定义3 等价关系B 的子集C 和D,定义D 关于C 的正域为POSC(D)
定义4 对任意的Ci∈C,如果删除属性Ci使得POSC-Ci(D)=POSC(D)则称Ci属性为无效攻击态势因子。
对于约简后的攻击决策表,可以得出表中各属性之间的依赖关系,即提取攻击规则。本文提取攻击规则的原则是算出组合条件属性对决策属性的依赖度,与一般计算置信度有一定的差别。
定义5 规定提取的攻击规则C→D,规则的可信度由表示cf也就是说有条件属性C 可以以cf 的可信度来确定D。cf 越高,表明条件组合C 对D 的影响程度越大。
ESP实时分析实际上是对网络攻击的实时感知,其将由RS获取到的复杂攻击规则集转换成ESP 分析引擎所能识别的语句,从而实现对流经其引擎的安全事件流进行上下文关联分析,及时发现恶意的、潜在的复杂网络攻击行为。本文引入了Esper作为ESP 的分析引擎,对复杂网络攻击进行分析处理。
Esper处理的事件一般是实时或者近实时的事件。其核心模块包括事件处理语言 (event process languange,EPL)语法解析引擎、事件处理、事件监听机制等。Esper主要应用在实时性要求比较高的行业,如股票、金融方面。因此其处理实时性方面的特点与本文的实时性要求很吻合。ESP实时分析引擎 (Esper)表面看和IDS相似,但是他们之间有着巨大的差别:
(1)处理对象不同。前者处理的对象包括数据流、事件流,处理对象更为高层和抽象。而后者处理对象为数据包。
(2)处理速度不同。前者具有很高的吞吐率和较快的处理速度,面对大数据量时不出现速度瓶颈,具有较高的吞吐率。同时还支持协同分布式部署和处理。后者面对大数据量时容易出现处理速度瓶颈,且后者不支持协同分布式处理。
(3)处理复杂度不同。前者能够处理复杂的对象和事件,因为其具有强大的存储记忆力,能够在线关联上下文,支持多级处理模式。而后者则不具备存储记忆力,IDS 属于即时处理,不具备关联能力,因此IDS只能检测简单的单步攻击。
一次简单攻击可以用十元组AttackR=<rulename,sip,dip,sport,dport,psign,timestamp,timeout,reality,pri>来表示,其中rulename为规则名称,sip 表示源IP,dip 表示目的IP,dport表示目的端口,psign 表示信息的类型,pro表示协议类型,timestamp 表示攻击发生的时间,timeout表示攻击之间的时间窗口,reality 表示攻击成功度,reality 值越大也说明攻击成功的可能性越高,取值范围为1~5,pri代表该攻击的重要程度,取值范围为1~5。复杂攻击是由一个或者多个像这样的十元组形成的一条攻击链路,形如AttackR1→…→AttackRi→…→AttackRn。ESP对通过逐级模式匹配完成对复杂网络攻击的感知和分析。其复杂攻击分析模型如图3所示。
图3 复杂攻击分析模型
复杂攻击分析模型由过滤器,触发器,关联器,评估攻击值4个基本模块组成,过滤器主要负责除杂和分流的任务,触发器根据上一级关联分析结果判断是否需要触发下一级的关联分析执行。关联器按照复杂攻击规则对接收到的事件流进行关联计算,评估攻击值模块根据当前的资产信息、攻击规则以及当前攻击评估当前攻击的攻击威胁值attvalue。ESP分析引擎对安全事件流的整个分析过程都是通过EPL语句进行模式匹配分析完成。
同时,通过复杂攻击分析模型可以看出该模型结构是一个级联结构,能够支持多级扩展,因此对于变长的复杂链路攻击具有较好的适应性和扩展性。
为了简化网络结构,本文从服务、主机、网络系统3个层面分析网络安全威胁态势。
服务层威胁:针对服务层的攻击对服务的威胁程度,用TS 表示
num 发生的次数。attvalue由式 (3)计算得出
式中:asset——资产值,其取值范围为1~3,nl——一条复杂攻击规则链路的长度,rl——当前复杂攻击链路的长度。通过式 (3)计算攻击值能够较为真实的反映出复杂攻击给服务带来的影响。
主机层威胁:所有主机上开放的服务受到攻击后对主机的威胁程度,用TH 表示
式中:SP——该服务在所有主机开通的服务中所占的比重。
系统层威胁:所有受攻击的主机对体统的威胁程度,用TN 表示
式中:HP——主机所占重要度的权重,用资产来进行衡量
为了测试和验证本文的提出的态势感知方法的时效性,搭建了实验环境如图4所示,实验中有多台PC机,且每个PC机上所开服务和所存信息也不尽相同。利用外部攻击软件对所搭建的实验网络不定时的发动攻击。
图4 实验环境
为了简化安全态势建模,选取一个样本中的数据进行说明。选取的攻击样本包含6 个条件属性,即C= {C1,C2,C3,C4,C5,C6}= {ping,SNMP,teardrop,Finger,电子邮件钓鱼攻击,键盘记录木马},决策属性D 为攻击对系统的影响程度,值域为1~5。
攻击态势决策见表2。
通过2.3节中的定义,计算出各个属性的有效性,如POSC= {1,2,3,4,5,6,7,8,9},说明属性C2属于无效属性,同理可以计算出属性C1,C3,C5,C6属于有效属性,属性C2,C4无效属性,得到如表3所示的攻击态势约简。
表2 攻击态势决策
表3 攻击态势约简
对表3中的数据进行复杂攻击规则提取,选取不同的攻击属性组合,得到不同的规则,如将C5,C6作为一个组合,即可得到C5C6→D 的可信度为0.67,同理可以计算出表中所有可能合理的规则。将得到的规则转换为EPL 语句用来对安全事件流进行关联分析检测,如图5所示。
图5 C5C6→D 关联分析语句
首先对模型中涉及的指标进行量化,测试环境中开放了Telnet,DNS,Http,FTP、SMTP、POP3 服务,各服务所占的比重SP= {0.05,0.1,0.3,0.15,0.2,0.2},主机资产的度量按照机器上存储数据的数量和重要性度量,asset= {2,3,3,…,1,2,1}。HP = {0.167,0.5,0.5,…0.167,0.333,0.167}。将样本中所有数据按照3.2节的方式建模,部署在实验环境中,采集某一天上午11∶00-11∶30的网络安全事件,每隔两分钟分析一次安全态,利用式 (5)得到表4所示的分析数据。
表4 网络安全威胁态势值
根据表4所测得安全态势值的MATLAB 曲线如图6所示。
图6 实验结果
从图6中可以看出在测试的半小时内实验网络的安全状况以及趋势。在第5次到第9次的安全态势分析中发生了较为密集的攻击行为。同时,关于ESP 分析引擎对攻击分析的速度也做了统计分析,单个ESP 分析引擎在实验中能达到5000 条/秒,为实时安全威胁态势的分析提供了保障。
本文设计了模块化的实时感知系统结构,并结合RS理论和ESP技术,实现了对复杂网络攻击的实时分析检测以及以分钟为单位的网络安全威胁态势的实时分析。本文虽然在一定成都上解决了时效性问题,但是仍然有其它问题需要深入研究,如,对RS算法的高效优化,优化ESP 分析引擎的资源占用、样本数据集的扩大等。有关这些方面的问题还有待更进一步的研究。
[1]Bass T.Intrusion systems and multisensor data fusion [J].Communications of the ACM,2000,43 (4):99-105.
[2]SHI Bo,XIE Xiaoquan.Research on network security situation forecast method based on DS evidence theory [J].Computer Engineering and Design,2013,34 (3):821-825 (in Chinese).[石波,谢小权.基于D-S证据理论的网络安全态势预测方法研究[J].计算机工程与设计,2013,34(3):821-825.]
[3]WEI Yong,LIAN Yifeng,FENG Dengguo.A network security situational awareness model based on information fusion [J].Journal of Computer Research and Development,2009,46(3):353-362 (in Chinese). [韦勇,连一峰,冯登国.基于信息融合的网络安全态势评估模型 [J].计算机研究与发展,2009,46 (3):353-362.]
[4]LAI Jibao,WANG Ying,WANG Huiqiang,et al.Research on network security situation awareness system architecture based on multi-source heterogeneous sensors [J].Computer Science,2011,38 (3):144-149 (in Chinese).[赖积保,王颖,王慧强,等.基于多源异构传感器的网络安全态势感知系统结构研 [J].计算机科学,2011,38 (3):144-149.]
[5]WANG Juan.Research on key technology in large-scale network security situation awareness [D].Chengdu:University of Electronic Science and Technology of China,2010:3-6 (in Chinese). [王娟.大规模网络安全态势感知关键技术研究[D].成都:电子科技大学,2010:3-6.]
[6]ZUO Ying.Research on cyberspace sitnational awareness technology based on topology and traffic mining [D].Beijing:National University of Defense Technology,2010:101-104 (in Chinese).[卓莹.基于拓扑_流量挖掘的网络态势感知技术研究 [D].北京:国防科技大学研究生院,2010:101-104.]
[7]GONG Zhenghu,ZHUO Ying.Research on cyberspace situational awareness [J].Journal of Software,2010,21 (7):1605-1609 (in Chinese).[龚正虎,卓莹.网络态势感知研究[J].软件学报,2010,21 (7):1605-1609.]
[8]Pawlak Z.Rough sets [J].International Journal of Information and Computer Science,1982,11 (5):311-356
[9]Pawlak Z,Gzymala Busse J,Slowinski R.Rough sets [J].Communications of the ACM,1995,38 (11):88-95.
[10]WANG Guoyin,YAO Yiyu,YU Yihong.A survey on rough set theory and applications [J].Chinese Journal of Computers,2009,32 (7):1229-1246 (in Chinese).[王国胤,姚一豫,于一洪.粗糙集理论与应用研究综述 [J].计算机学报,2009,32 (7):1229-1246.]
[11]CHENG Suju, WANG Yongjian, MENG You,et al.PMTree:An efficient pattern matching method for event stream processing [J].Journal of Computer Research and Development,2012,49 (11):2481-2484 (in Chinese).[程苏琚,王永剑,孟由,等.PMTree:一种高效的事件流模式匹配方法[J].计算机研究与发展,2012,49(11):2481-2484.]