◆朱义杰 杨玉龙 李 帅 成建宏
面向大数据环境的网络安全态势感知平台研究
◆朱义杰 杨玉龙 李 帅 成建宏
(贵州航天计量测试技术研究所 贵州 550009)
针对传统的网络安全态势感知架构难以适应大数据环境下的网络安全态势感知的问题,本文提出了一种面向大数据环境的网络安全态势感知平台架构,并从数据获取、数据融合、数据分析、态势评估、自动预警、自主防御和数据可视化多个方面阐述了态势感知平台所需的关键技术,为构建集数据采集、处理、分析,安全风险监测、评估,网络威胁主动报警、预判和网络攻击自主防御于一体的大数据环境下的网络安全态势感知平台提供技术思路和解决方法。
大数据;网络安全;态势感知;态势评估
伴随着互联网技术的迅速发展,信息网络在各领域、各行业实现了全覆盖、全普及、全应用,导致数据量呈现爆炸式增长,大数据已成为一种新型资源[1]。网络的新发展、新应用所带来的问题是:数据的数量级迅速加大、数据类型更为复杂、数据来源愈加多样、攻击手段日趋多元化、安全漏洞和安全事件大幅增加,可以说随着信息网络的深入应用和大数据时代的到来,网络安全问题有愈演愈烈之势。
为了及时应对大数据环境下的网络安全威胁,有效遏制各类网络攻击,亟需研究大数据环境下的网络安全态势感知技术,发挥大数据技术的海量存储、并行计算、高效查询等特点优势,突破传统态势感知模型的数据融合能力差、数据挖掘水平弱、数据展示类型简单等“瓶颈”问题,构建面向大数据环境的网络安全态势感知平台,实现多源多类型数据高效获取、海量数据高速融合、数据挖掘准确可靠、态势展示类型丰富、应急响应决策合理的目标要求,为各领域信息技术的应用研究、信息产业的快速发展保驾护航[2]。
目前传统的网络安全态势感知主要针对单一网络环境,在设计上仅实现了对网络攻击行为的数据收集和检测结果的归纳总结,网络的安全态势评估是基于某种特定的理论模型检测结果的归纳总结,且未考虑网络安全态势感知的预测。同时,传统的网络安全态势感知未建立网络安全指标体系,仅针对特定的网络攻击行为进行检测,态势感知评估结果单一,无法从整体上全面评估网络的安全状态,存在局限性和不准确性[3]。随着网络规模的不断扩大,个别网络安全态势感知开始建立相应的指标体系,但指标不全面,精准性与实时性方面存在缺陷。图1是传统的网络态势感知框架。
图 1 传统的网络态势感知框架
通过分析目前国内网络安全态势感知与评估系统的能力和特点,发现已有态势感知评估系统不适应大数据环境下的网络安全,未建立完善的网络安全指标体系,未充分利用大数据技术的海量存储、并行计算、高效查询的特点优势进行数据融合、数据分析,实时性和精确性欠缺,缺乏系统设计的规范性。因此,需要开展新一代面向大数据环境的网络安全态势感知平台研究,建立完善的网络安全指标体系,解决大数据环境下的网络安全态势感知实时性、精确性问题,填补大数据环境下网络安全态势评估的空白,以此提升大数据环境下网络及信息系统的安全预警及防御能力。图2是新一代面向大数据环境的网络安全态势感知框架。
图2 面向大数据环境的网络安全态势感知框架
从上面可以发现,在新一代面向大数据环境的网络安全态势感知框架中增加了网络的主动预警和自主防御功能,决策执行也不再只简单针对威胁评估,而扩展到对网络威胁的主动预警和自主防御上。从而实现网络状态实时感知、网络威胁的主动预警和网络攻击的自主防御。
面向大数据环境的网络安全态势感知与态势评估系统是以当前复杂网络环境为应用背景,将态势感知与预警系统、自主防御技术、态势评估、可视化等紧密结合,利用大数据技术的海量存储、并行计算、高效查询的特点优势,从而实现适应复杂网络环境的网络安全态势感知与评估一体化系统。它可以实时监控网络的安全状态,保证网络的安全性能,为网络安全管理相关人员提供对应的决策支撑。
其中,态势感知主要用于对各种类型的网络数据进行采集、融合和分析,得出的分析结果即为网络安全态势感知的结果。数据采集主要是针对传感器网络、有线网络、无线网络、网络设备、网络服务器、用户终端等的数据进行采集,采用多源日志收集技术实现与网络安全指标体系相关的数据提取;数据融合的目的是统一数据格式,获取融合后的数据源;预警系统和自主防御技术通过建立相应的特征库,采用机器学习方法不断训练匹配规则,提升匹配度;态势评估技术对态势感知的各项结果进行评估得出发生的概率或权重;可视化是对态势感知的结果、预警、自主防御和评估结果等进行展示的过程。图3是面向大数据环境的网络安全态势感知平台技术架构。
面向大数据环境的网络安全态势感知平台最终形成态势感知系统、态势评估系统、预警系统、防御系统四个子系统。态势感知系统实时展示网络安全的状态;态势评估系统对当前的网络安全状态给出定性分析和评估结果;预警系统对发现的网络威胁进行自动识别,并实时主动预警;防御系统对发现的网络攻击行为进行自动识别,并给出防御方案。
图3 面向大数据环境的网络安全态势感知平台技术架构
网络安全态势感知要素指的是用来支持数据分析和态势感知的各个原始的安全数据。基于多源日志的网络安全态势感知是对部署在网络中的多种设备提供的日志信息进行提取、分析和处理,与仅基于单一日志源分析网络的安全态势相比,可以提高网络安全态势的全面性和准确性。
基于多源日志的网络安全态势感知需要获取的数据类型多、分布广、数量大,因此需要对数据源进行分类。按数据来源一般可分为安全设备、网络设备、应用系统、网络流量等;按信道种类一般可分为有线网、无线网等;按数据结构一般可分为结构化、半结构化、非结构化、数据流等;按协议类型一般可分为SNMP、Syslog等。
态势感知要素获取需针对不同类型的数据采取不同的数据获取方法。(1)自动获取:通过服务器自身的审计功能,采集网络系统、安全系统、数据库系统以及事件采集代理产生的日志信息或安全事件信息,经过过滤、归一化等预处理之后,形成信息事件传送到态势感知系统。(2)代理获取:通过安装在主机操作系统上的事件代理软件,采集Windows系统产生的事件信息,或者采集应用服务器产生的日志信息。(3)主动获取:通过在网关处部署监听或抓包软件,对经过网关的数据进行获取和预处理,形成相关事件信息。(4)联动获取:通过态势感知系统与安全设备(防火墙、漏洞扫描、入侵检测等)、安全产品(杀毒软件、主机监控与审计系统)联动,实现对安全设备的安全监测、审计数据的实时获取。
由于态势感知采集的网络数据来自众多的设备(如传感器、防火墙、网络设备等),数据类型多样,数据格式、数据内容、数据质量千差万别,存储形式各异,表达的语义也不尽相同,因此需借助数据融合技术,使多个数据源之间取长补短,进行归一化融合操作。为得到网络安全态势感知结果,需采用数据分析技术对融合后的数据进行数据挖掘,得出网络的安全状态。现有的技术难以满足基于大数据的网络安全态势感知平台对实时性和高效性的要求,因此需研究解决大数据环境下多源多类型海量日志的数据融合,为网络安全态势感知提供更为全面、精准的数据源,同时需研究大数据分析技术,实现网络安全态势感知结果的实时性、准确性。
数据融合,首先按信息抽象程度的高低,将数据融合从低到高分成三个层次:数据级融合、特征级融合和决策级融合,其中特征级融合和决策级融合是该项目主要使用的融合方法,在此基础上,有针对性地统一数据格式,进而通过网络中具有相似或不同特征模式的多源信息进行互补集成,完成对数据的自动监测、关联、相关、估计及组合等处理,实现数据的融合。
数据分析,可利用关联分析、数据融合、态势要素分析等方式,并结合大数据所提供的基础平台和大数据技术进行网络安全态势的分析处理。该过程可基于Spark框架实现,采集完成后的数据经ETL对多源异构的原始数据进行预处理后,存储到Hive数据库中,再通过Hive的HQL解析,把HQL翻译成Spark上的RDD操作,然后通过Hive的metadata获取数据库里的表信息,取出相关文件、数据等放到Spark中进行计算分析[4]。
态势评估是对当前整个网络安全状态进行量化操作的过程,也可对态势感知的每项结果进行量化操作。为实现对网络安全的态势评估,需建立网络安全态势评估指标体系,研究基于大数据技术的适用于复杂网络环境的网络安全态势评估技术,解决现有的评估方法实时性、准确性差的问题。
指标体系的建立是网络安全态势评估的基础,在指标体系的选取上,将参考信息安全风险评估的BS 7799(ISO/IEC17799)评估标准,网络安全态势评估的指标识别应遵循科学性、全面性、目的性、实用性、可操作性等原则。针对网络安全态势风险的特点,结合文献研究法和归纳法形成了一种风险因素识别的方法。首先采用文献分析法,研究各种指标体系建立方案,归纳出各种风险因素指标;然后分析网络安全态势,对归纳出的各种风险因素进行筛选,得到网络安全态势的风险因素;最后邀请相关专家对筛选出的风险因素进行讨论研究修改完善,最终构建得到基于大数据的网络安全态势评估指标体系。
图4 指标体系建立流程图
网络安全态势感知预警能够根据态势感知分析处理的结果(如威胁、漏洞情况),对使用单位、部门开展预警和通报工作,能够实时发布预警信息,对安全态势进行趋势分析、预测及总结。态势感知预警系统将态势感知和扫描检测到的威胁和漏洞情况进行分类、总结、预判。主动预警主要采用机器学习的方法实现,通过建立网络安全威胁特征库,并进行匹配训练加以完善,当系统感知到异常数据时,系统自动与特征库进行匹配,给出预判结果和预警信息,然后通过终端、短信、邮件、手机APP等方式向单位、部门和个人发布预警信息,并且会把预警信息发送至自主防御系统,以便于尽快形成应急处置预案。
大数据环境下的网络安全自主防御技术是对态势感知的网络威胁进行应急处理的过程,在传统的态势感知系统中,对感知到的威胁进行分析时,仅将分析的结果(威胁、漏洞等情况)展示给相关人员,未实现对网络威胁和漏洞的自动应急处置。在大数据环境下,为保证网络的安全可靠,抵御恶意网络攻击,避免不必要的损失,研究网络的安全自主防御技术,采用机器学习的方法,建立网络安全态势感知应急处置方案库,当系统感知到威胁和漏洞时,系统自动匹配出处置方案,并及时通告给管理人员,并实现与主机防御、防火墙等网络安全管控设备的联动,快速阻断网络攻击行为。
在网络安全态势感知中应用可视化技术,将网络安全态势合并为连贯的网络安全态势图,可快速发现网络安全威胁,直观把握网络安全状况。通过传统的文本或简单图形表示网络的安全态势,在寻找有用、关键信息时非常困难,可读性差,不够直观,无法展示网络未来的变化趋势。将可视化技术应用于网络安全态势感知与评估领域,在网络安全态势感知的每一个阶段都充分利用可视化方法,最终形成连贯的网络安全态势图,可快速发现网络安全威胁,直观把握网络安全状况。
由于网络数据是一种具有层次结构和多维属性的复杂数据,针对复杂网络环境下的网络安全态势感知与评估数据可视化问题,可采用一种树图中的多维坐标MCT(multi-coordinate in treemap)技术解决[5],可满足网络安全数据具有层次和多维两种属性数据的可视化分析要求,将其应用在基于大数据的网络安全态势感知与评估系统中,更加直观地展示网络安全状态,使得态势展示类型更加丰富。
态势感知是网络安全的“眼睛”,而从海量数据中发现安全威胁是安全态势感知的基础。本文从大数据环境下网络安全的需求出发,分析了传统的网络安全态势感知框架的不足及应用大数据技术进行网络安全态势感知、态势评估、自动预警、自主防御的架构,在此基础上提出了一种面向大数据环境的网络安全态势感知平台,并给出了平台的技术架构,从数据获取、数据融合、数据分析、态势评估、自动预警、自主防御和数据可视化多个方面阐述了态势感知平台所需的关键技术,为构建集数据采集、处理、分析,安全风险监测、评估,网络威胁主动报警、预判和网络攻击自主防御于一体的大数据环境下的网络安全态势感知平台提供技术、思路和方法。
[1]张锋军.大数据技术研究综述[J].通信技术,2014.
[2]陈建昌.大数据环境下的网络安全分析[J].中国新通信,2013.
[3]贾焰,王晓伟,韩伟红等.YHSSAS:面向大规模网络的安全态势感知系统[J].计算机科学,2011.
[4]Zaharia M,Chowdhury M,Das T, et al. Fast and interactive analytics over Hadoop data with Spark[J].USENIX,2012.
[5]陈谊,甄远刚,胡海云等.一种层次结构中多维属性的可视化方法[J].软件学报,2016.
[6]朱亮,王慧强,郑丽君.网络安全态势可视化研究评述[DB/OL].http://www.paper.edu.cn.
[7]龚正虎,卓莹.网络态势感知研究[J].软件学报,2010.
[8]王娟,张凤荔,傅翀等.网络态势感知中的指标体系研究[J].计算机应用,2007.
贵州省科技计划课题(黔科合重大专项[2017]3004号)。