贾 焰,韩伟红,王 伟
(国防科学技术大学计算机学院,长沙,湖南 410073)
网络空间中网络安全事件频发,影响巨大,例如伊朗的“震网”事件和“乌克兰停电事件”等。网络空间种各行各业各部门,如政务、金融、电商、银行、交通等,从各自的目标和需求角度出发,已部署了防火墙、入侵检测和防病毒等安全产品。目前,各安全产品针对网络攻击纷纷报警,但用户还是缺乏宏观的网络态势全局视图,因为网络攻击是跟资产漏洞相关的,资源消耗性攻击还跟系统状态相关,复杂的网络攻击还是跨系统、跨管理域的,因此需要多通道数据综合分析,才能对网络事件进行准确发现。大规模网络安全态势分析是面向网络空间安全的需求,基于大数据采集和存储管理技术,采用数据分析、挖掘和智能推演等方法,发现安全事件、评估其危害,并预测其发展,并对整个全局网络安全态势进行从微观到宏观的多层次、多粒度的全局掌握,给出全局视图,为网络空间安全提供决策支持。
围绕大规模网络安全态势分析与预测系统的研究,从公开文献来看,美国、日本、欧盟和中国等均已建立了国家级网络安全事件监控系统。美国研制了全球预警信息系统GEWIS(Global Early Warning Information System) [1],爱因斯坦计划(国家网络安全保护系统NCPS,The National Cybersecurity Protection System,俗称“爱因斯坦计划”)[2], 是美国国家《全面的国家网络安全行动(CNCI)》的重要组成部分,是由美国国土安全部负责设计和运行,提供全局、局部乃至操作层面的网络事件监测、分析、预警和态势感知。日本研制了互联网扫描数据获取系统ISDAS(Internet Scan Data Acquisition System) [3]。欧盟龙虾计划(Lobster)[4],属于欧洲基础设施先导性实验计划,通过部署于一些学校、研究性组织、以及部分电信运营商的传感器获取相关信息,实施精确的互联网通信流量监测,利用深度包检查和深度流检查的手段来识别0day蠕虫传播、识别动态端口应用,并对互联网服务进行度量等等。欧盟袋熊计划(WOMBAT)[5],全称为《世界范围恶意行为与攻击威胁观测台工程》,是欧盟资助的一个利用密罐、爬虫、外部数据源等技术手段,采集、分析网络中当前存在的和新出现的威胁(尤指恶意代码)的计划。中国研制了863-917网络安全监测平台,对国家骨干网的网络安全态势进行分析。上述系统均自成体系,实现了面向特定问题领域的监测预警。
网络安全态势分析技术的发展经过了三个阶段:第一阶段,主要聚焦基于特征的安全事件检测研究,以美国2003年推出爱因斯坦计划为代表;第二阶段,主要聚焦面向复杂安全事件的关联分析、威胁量化评估研究,以美国2009年的爱因斯坦计划2为代表;第三阶段,主要聚焦面向复杂攻击的智能分析、基于指标体系的量化评估和发展趋势预测研究,以2013年美国爱因斯坦计划3为代表。
大规模网络安全态势分析面临的主要挑战包括:1)针对网络空间的安全攻击种类繁多,目前至少有5万余种,且不断演化和涌现,如何对其进行实时准确的研判? 2)网络系统安全涉及的因素众多,攻击、漏洞、资产、网络等,且关联复杂,如何实时、量化、可理解地给出其威胁及安全态势?3)网络攻击事件瞬间爆发,危害极大,如何对其进行事先预测,以便采取相关预防手段?
针对上述挑战问题,我们设计实现了大规模网络安全态势分析系统YHSAS,其体系结构如下图所示。
图1 YHSAS系统体系架构
主要功能包括1)安全信息采集:可对全网全数据类型采集,包括文件、包、流、会话、内存信息、注册表信息、地址信息、协议信息、服务信息、载荷传输信息等进行采集,支持10PB数据存储规模,可集成187类网络安全设备; 2)安全攻击检测:可检测网络扫描攻击、口令攻击、木马攻击、缓冲区溢出攻击、篡改信息攻击、伪造信息攻击、拒绝服务攻击、电子邮件攻击等常规攻击和APT攻击,覆盖率为92.3%; 3)态势量化计算:可量化的安全指标体系,能够描述目前国家互联网的宏观整体安全态势; 4)安全态势分析:可对网络安全事件进行深入分析和发现,对当前的网络安全态势进行计算及多模式多维度的可视化输出;5)安全态势预测:可以准确预测将来某一时段内的安全趋势,计算的预测模块能够对木马攻击传播、DDoS攻击、病毒态势、僵尸网络、APT攻击进行预测,预测的符合度良好。
大规模网络安全态势分析系统关键技术主要包括:网络空间安全大数据实时分析计算平台技术、面向网络安全全要素信息采集与高维向量空间分析技术、支持超大规模网络安全知识表示和管理的知识图谱技术、多层次多粒度多维度的网络安全指标体系构建方法以及基于自适应预测模型的多模式、多粒度网络安全事件预测技术。
网络空间安全数据是典型的大数据,阻碍大数据实时计算和分析的核心问题是磁盘I/O瓶颈(目前磁盘I/O速度是内存I/O速度的1/120)。针对这一挑战,YHSAS采用了基于“分布式数据处理中间件+已有数据管理技术”的体系架构,并在此基础上插接内存计算、“划分-规约”计算和流计算的数据分析加速模块,支持大数据在线计算和分析,且具有高可扩展和在线插拔等特性,如图2所示。第三方测试表明,该平台支持PB级网络安全数据在线复杂分析。
图2 网络空间安全大数据分析计算平台
该分析计算平台主要包括以下几个组成部分:
(1)基于分布式对象的内存数据库模型StarOTM技术
基于分布式对象的内存数据库模型StarOTM支持分布式对象的状态加载、原子性和一致性保持、以及持久存储等技术;实现了内存数据管理和处理系统,大大减少磁盘I/O,实现了PB级大数据在线分析;该平台在国际开源社区OW2中开源,产生了巨大的国际影响。
(2)面向复杂网络安全状态分析的“划分-规约”迭代递归计算模型
采用支持大数据复杂分析的“划分-规约”迭代递归计算模型,该模型将复杂分析计算逐级分解成分布的简单计算并执行,再将结果逐级归并。该技术将单盘的读写并行化为多盘的读写,打破了磁盘读写瓶颈。该模型早于Google提出的MapReduce模型。基于该技术开发的系统在处理数据量、吞吐率等方面均满足YHSAS系统性能要求。
(3)在线流大数据复杂分析技术
设计实现了一组在线数据流复杂分析计算算法,包括基于滑动窗口的分布式流增量排序查询算法(如表1所示),基于Bloom-filter的分布式增量突发流检测算法(如表2所示),基于物化流立方的流数据实时分析的支撑模型等;流计算无需读写磁盘,打破了磁盘I/O的瓶颈。
表1 分布式流增量排序查询算法
表2 分布式流突发事件检测算法
针对传统的安全设备和产品通常根据自己局部目标进行数据采集,缺乏对全局、以及未知和复杂安全事件分析支撑的问题,YHSAS提出了面向网络安全的全要素信息采集模型,再通过对该多维度、多层次的高维向量全信息进行安全特征的提炼和分析,大幅提高了对复杂安全事件的准确和实时检测的支撑能力。
(1)多层次、多维度的网络安全信息全要素采集模型
针对传统安全设备缺乏对全局、未知和复杂安全事件分析支撑的问题,YHSAS采用基于多层次多维度的全要素采集模型,如表3所示。通过主动获取与被动接收相结合的方式,从协议层、行为层、敏感行为层、攻击层、广谱内容层和精确内容层六个层次,对文件、包、流、会话、协议和网络对象等十三个维度的对象进行细粒度的全信息采集与提取,得到反映安全对象全信息的高维空间向量。
表3 全要素采集模型
(2) 向高维向量空间的安全事件特征信息分析方法
针对全要素信息采集导致的高维向量空间超大计算复杂度的问题,YHSAS提出了基于高维向量空间的网络安全事件特征信息提炼方法,如表4所示。该方法首先在流上对海量数据样本进行聚类,再根据所产生类别的特征进行筛取,一方面可聚焦后续分析的范围,减小计算复杂度,另一方面可通过聚类发现可疑新的事件类别;其次面向产生的类别信息,通过已训练的特征识别神经网络识别其特征信息,以此构建网络安全事件信息特征向量空间,为下一步的事件研判奠定基础。
表4 高维向量空间聚类与特征训练的采集信息分析方法
(3)基于轻量构件技术的网络安全信息采集探针自动部署技术
针对网络系统的超异构复杂性和在线演化性,以及数据采集探针的巨规模特性,YHSAS提出了一种基于轻载构件技术的数据采集探针的在线插拔技术。该技术首先对各类数据采集探针进行构件化封装,并通过构件化应用服务器技术进行集成,实现了探针的在线插拔;其次通过基于正则表达式的配置文件对目标数据进行抽取和集成,并支持配置文件的自动生成和数据模式的自动转换。本技术能够高效集成网络安全设备和数据,YHSAS系统支持187种网络安全设备,并且在性能上是秒级实时的。
针对网络安全知识的大规模、在线演化和时空相关等特性,YHSAS采用网络安全知识表示和管理的超知识图谱模型,突破了多模态知识图谱的自动/半自动的构建方法,以及在线演化和快速匹配等核心关键技术,构建了一个大规模网络安全知识图谱,突破了网络安全事件的准确、实时检测技术,在标准测试集上该系统去重率为99.8%,误报率0.01%,漏报率0.2%。
(1)支持大规模网络安全知识表示和管理的超知识图谱模型
针对网络空间安全知识巨规模、高演化和实时利用的问题,YHSAS采用超知识图谱知识表示模型。在传统知识图谱三元组的基础上,添加了属性和规则,针对网络空间安全知识巨规模、高演化和实时利用的问题,提出了五元组
(2)基于多模态信息的超知识图谱的自动构建方法
针对网络安全知识图谱知识获取的瓶颈,YHSAS提出了基于多模态的网安大数据,通过实体词识别、关系抽取、实体链接构建大规模网安知识图谱的方法。基于句法依赖规则识别自由文本中的其他候选实体词,以及基于模式推理识别表格数据中的其他候选实体词,获得扩充实体集E’。关系抽取方面,首先从网安大数据中查找出现过G中知识的原始数据片段,采用LSTM深度学习模型进行训练,获得t的分类器Ct;然后,对原始数据中出现E’的数据片段采用Ct进行计算,获得E’中各实体词间可能存在的关系类型。实体链接方面,根据知识的属性和关系构建实体基因,根据实体基因与上下文特征的相似度,实现数据上下文中所提及实体词与G中已知实体的链接,对无法链接的实体词,视为新实体加入到G中,实现消歧融合与知识扩充。
W估计参数= σ训练函数(Y已知关系/ (tanh降维( [V句子向量,P实体词位置]T))
y关系类型= softmax (W估计参数×(tanh降维( [V句子向量,P实体词位置]T))
(3)基于张量分解与路径排序相结合的知识自动推理算法
针对网络空间安全知识巨规模、高演化、时空属性和实时利用的问题,YHSAS采用网络安全超知识图谱的演化方法,基于张量分解的思路提出了面向边和属性的知识自动推理算法,即根据本节点和相邻节点的属性值预测为止属性的值,并基于可达路径排序的方法,根据两点之间所有可达路径,预测两个节点之间可能的新的可达边。在网络安全知识图谱的演化过程中,采用候选实体识别、实体间关系类型分类、实体确定技术,自动从网络安全漏洞库及利用方法中演化推理。基于自动演化推理算法,可以快速对为网络安全检测到的数据流进行研判,突破了安全事件的实时、准确研判难题。
V预测属性值=∑λi*f(kj节点Vi值)+∑σt*
∑λi*fij(ki相邻节点Vi值)
S(l,f)预测边值=∑P路径(vl点,vi点;l长度(π)≤n)·ωπ权重
(4)基于容忍度K的增量式子图匹配的网络安全事件检测技术
基于子图匹配和活动模式向结合的方法,YHSAS提出了基于容忍度K的增量式快速攻击子图匹配研判算法,实现了僵尸网络和慢速DDoS的检测。在实验数据集上,提出基于动态时间弯曲距离相似性度量方法,对僵尸网络迁移检测的准确率达到92%;基于僵尸网络恶意行为目标和时间关联分析的僵尸网络协同检测方法结果为:在时间跨度为2个月、僵尸主机IP数大于40时,检测方法漏报率为0。针对隐蔽性强的慢速DDoS攻击检测存在检测困难和效率低下的特点,提出了基于流量与服务协作检测的慢速DDoS攻击检测方法。为评测本方法的有效性,网络模拟实验对检测系统进行了检验,实验结果正确检测率为99.7%,漏警率为0.4%,虚警率为0.3%,检测系统性能良好。
针对影响大规模网络安全态势分析的因素多种多样,其重要性也不尽相同的特点,给出建立了多层次、多粒度和多维度的网络安全指标体系的构建方法,及其指数的可配置、实时计算和在线演化的方法,准确描述和量化大规模网络从宏观到微观的网络安全态势。
(1)基于主从分析的R聚类与因子分析相结合网安指标提取方法
YHSAS采用主从分析的R聚类与因子分析相结合网安指标提取方法,首先通过主成分分析法确定影响网络态势的主要因素和合理层级;其次利用德尔菲法确定网络安全态势指标体系的层数,再通过R聚类将同一个层中的指标分类,使得不同的类代表网络态势评估的不同方面;最后通过因子分析法筛选出各个类别中因子载荷大的指标,使得少数的指标可以反应整个网络的安全态势。建立的网络安全态势指标体系标准,仅用了16%的指标,反应了99%的原始信息,可有效、客观地衡量网络安全态势。
(2)多模式的网络安全指标体系计算模型
通过分析不同网络安全因素的特点,根据不同的网络安全指标特性,给出了包括极值法、统计标准化法、反余切函数法、中间变量法和对数法等不同的网络安全指数量化方法;对量化以后的网络安全指标,采用聚集算法将各个子指数聚集计算成上一级指数,形成层次式的网络安全指标体系。主要计算模型包括:加权平均法,具有直观易理解的特点;最大值法,通过刻画局部最严重的程度,取其中一项的最大值作为聚集后的指数结果;调和三角模法,能够同时体现全局性和局部性的特点。
(3)基于深度学习的网络安全指标体系自演化技术
针对网络安全攻击不断创新和演化,已有的指标体系需要适应性变化问题,采用了基于卷积神经网络的网络安全指标体系自学习、自演化技术。该技术首先构建了指标体系评测方法,从正确性、稳定性和冗余性三个角度衡量指标体系与实际的符合度,从而指导深度学习算法对网络安全指标体系的量化方法和聚集算子,以及其中的各项参数的权重进行反馈调整,测试表明基于该方法指标体系与实际的符合率超过了90%。
针对当前技术对网络安全发展的趋势难以预测的问题,YHSAS提出了基于自适应预测模型的多模式、多粒度的网络安全态势预测技术,包括:多种预测方式有机结合的网络安全态势预测技术,基于特征事件序列频繁情节的预测技术,基于小波分解及ARMA模型的预测技术,基于改进型支持向量回归预测的多维熵值异常检测方法,实现了网络安全态势的准确预测。
(1)支持多种预测方式的网络安全态势预测框架
针对影响网络安全态势演化的因素多,只采用单一的预测技术难以预测的问题,YHSAS采用了多种预测方法相结合的网络安全态势预测系统架构。将时序数据预测的相关技术应用于网络安全领域,根据不同网络安全数据的特征和应用要求合理的选择预测模型,并利用历史安全事件数据进行建模,进而根据多种不同的预测模型对不同安全数据源进行多个粒度的预测。对于短期预测主要考虑近期历史数据的发展规律进行建模预测,对于中期和长期预测主要考虑历史安全事件在一段较长时间内所体现出的季节性因素和总体长期趋势。测试证明,系统支持短期、中期、长期等多种时间粒度的预测,支持木马、蠕虫、僵尸网络等主要网络安全事件的预测,且预测效果理想。
(2)基于特征事件频繁情节的时序数据预测技术
针对僵尸网络、蠕虫等具有长时间传播特性的网络安全事件往往具有自相似性的特点,YHSAS提出了一种新的时间序列数据预测问题的解决思路:首先通过对时间序列数据的分段和对时序子段特征的离散事件化将时间序列数据转换为事件序列,再引入事件序列处理领域中频繁情节的相关概念和方法提取预测所需的知识,进而利用这些知识对时间序列数据未来的发展进行预测。所提方法的具体预测过程可分为知识提取和预测两个阶段:在预测阶段,使用提取出的频繁情节前缀事件匹配近期时间序列数据形成的特征事件序列,继而利用选定的频繁情节后缀事件预测未来时序子段上的特征事件。实际使用证明基于特征时间频繁情节的预测使得僵尸网络、蠕虫的长期多步预测场景下的预测精度提高了15%左右。
(3)基于改进型支持向量回归模型的多维熵值异常检测方法
针对大规模网络中流量数据中的噪音、扰动因素的特点,YHSAS提出了将支持向量回归模型(LSSVM)应用于网络流量数据各维度上熵值的预测的方法,可以很好地屏蔽网络中流量数据中的噪音、扰动因素,并及时发现流量熵值异常。主要技术突破包括:快速多维熵值计算,通过多个维度上的熵值突变进行关联增加检测精度,对大规模网络上异常检测需要对海量流量数据进行实时处理;遗传算法改进支持向量回归,采用自适应交叉与变异算子,交叉与变异针对种群中所有个体进行,提高了算法的搜索能力,且只保留适应度大的个体,确保进化方向,加速收敛速度避免变异使交叉所产生的优良个体发生退化。测试证明,对DDoS攻击、蠕虫能可能引起流量异常的攻击行为的早期检测与预警具有很好的效果。
大规模网络安全态势分析系统YHSAS面向国家骨干网络安全以及大型网络运营商、大型企事业单位等大规模网络环境,对能够引起网络态势发生变化的安全要素进行获取、理解、显示以及预测未来的发展趋势。本文对YHSAS系统的关键技术进行深入研究,包括:网络空间安全大数据实时分析计算平台技术、面向网络安全全要素信息采集与高维向量空间分析技术、支持超大规模网络安全知识表示和管理的知识图谱技术、多层次多粒度多维度的网络安全指标体系构建方法、基于自适应预测模型的多模式、多粒度网络安全事件预测技术等。性能测试显示,YHSAS系统在态势分析和预测方面均具有较高的实时性和精度,满足了大规模网络安全态势分析与预测的需求。
大规模网络安全态势分析系统还面临很多新的挑战,在大规模网络安全事件预测的准确性方面,由于影响安全事件发生的因素太多,新的攻击手段是未知的,实际攻击过程中又存在因各种目的而活动的网络黑客人为操作等情况, 导致对重大网络攻击事件的发生和发展趋势的准确预测难度大。作为本领域公认的世界性难题之一,是有待进一步研究的方向。
[1] GEWIS(Global Early Warning Information System) , http://www.acronymfinder.com/Global-Early-Warning-Information-System-%28GEWIS%29.html.
[2] https://www.dhs.gov/national-cybersecurity-protection-system-ncps.
[3] JPCERT/CC, ISDAS(Internet Scan Data Acquisition System), http://www.jpcert.or.jp/isdas/.
[4] http://www.ist-lobster.org/downloads/index.html.
[5] S Zanero , D, Ph .WOMBAT: towards a Worldwide Observatory of Malicious Behaviors and Attack Threats.