基于大数据的网络安全态势感知平台应用研究

2023-08-10 03:19李泽慧徐沛东
计算机应用与软件 2023年7期
关键词:态势日志威胁

李泽慧 徐沛东 邬 阳 魏 奇

(自然资源部信息中心 北京 100812)

0 引 言

根据国务院《“十三五”国家信息化规划》的指示与要求,各企事业单位应加强网络安全防治、网络威胁监测预警和应急处置能力的建设[1]。作为国家重要政府部门,自然资源部面临着严峻的网络安全形势。自2008年以来,自然资源部开展了信息系统安全等保建设,在系统、应用、网络等方面积累了一定的基础安全防御能力。然而,由于安全资源管理分散、信息系统建设孤岛等问题,使得本部许多的网络安全日志数据并未得到充分的分析利用。有鉴于此,自然资源部按照国家关于建设网络安全态势感知平台的指导思想,结合自然资源部网络安全的内外部现状,整合现有的安全基础设施,利用大数据、态势感知、可视化、机器学习等技术,增加并丰富互联网安全事件的监测、预警和应急响应手段,开展具有自然资源部个性化特色的态势感知平台服务建设,以积极提升网络安全的主动防御能力,进一步强化自然资源部外网安全监测常态化管理,提高自然资源部外网安全运维管理效率和水平,不断提升整体网络安全防御能力,最大程度地降低网络安全风险。

1 态势感知算法

通过态势感知,可以发现潜伏在网络中的攻击威胁和入侵行为,进而进行预警和展示,这一过程是通过综合计算态势感知指标体系来实现的[2-3]。目前基于态势感知指标体系计算分析的方法主要有基于特征规则的主动防御态势预警法[4]、基于多源日志的网络安全态势感知预警法[5]、基于Apriori算法的网络安全日志数据分析预测法[6]等。以上方法只适用于企事业单位小规模的局域网络安全态势预测和防御,而在面对海量态势整体指数数据集时显得无能为力。为破除该技术壁垒,结合已在大数据领域广泛应用的MapReduce处理优势,本文提出一种基于MapReduce并行处理的Apriori算法,用于分析外网网络安全日志数据,使得在挖掘网络安全态势指标数据的过程中获得更大的剪枝程度以及更加准确的预测规则,以提高态势感知平台对海量网络安全日志数据的处理能力和处理效率,获得平台具有更佳的扩展能力[7-10]。算法实现步骤如图1所示。

图1 算法原理

(4) 对分组后Group ID中的数据再进行Map处理,筛选高频项集,得到各子项集的频繁项集,然后进行Reduce运算,逐步关联数据挖掘规则。

(5) 统计各个子项集节点最后的运算结果,形成全局频繁项集,再通过行为画像和可视化等技术在态势感知大屏上展示网络安全威胁指标态势。

2 平台逻辑架构设计

网络安全态势感知平台的逻辑架构如图2所示。

图2 网络安全态势感知平台逻辑架构

平台从逻辑上分为数据采集层、数据处理与汇聚层、业务服务层和系统展示层[11]。

在数据采集层,通过探针设备采集各类网络安全日志数据,包括原始流量数据、漏洞数据、IDC基础资源数据、IP/域名备案数据、资产数据/日志、僵木蠕数据、威胁情报、流量监测数据、DNS解析数据、外网网站数据和NETFLOW信息。各类数据经消息总线和协调总线输入至数据处理与汇聚层。

在数据处理与汇聚层,数据处理组件的ETL模块负责将数据采集层汇入的各类数据进行入库和存储,同时也对上层的业务服务层或其他关联系统提供实时的数据源和文件源。平台为实现海量网络安全日志的精准检测和分析,集成了特有的安全组件。其中检测引擎模块封装了脆弱性分析、攻击行为分析、安全漏洞分析、检测规则引擎、关联规则引擎和算法引擎等组件。本文提出的基于MapReduce并行处理的Apriori算法即封装在算法引擎中[12]。智能分析模块则封装了威胁预警、攻击画像、脆弱性态势、恶意操作态势、攻击态势和趋势预测等组件,对检测引擎提供的网络安全态势指标进行计算分析,形成态势预测结果数据,进而输送至系统展示层进行显示。为了解决自然资源部先前的安全资源管理分散、信息系统建设孤岛、原有平台计算能力不足等问题,数据处理与汇聚层嵌入了分布式数据存储分析模块,引用大数据安全技术框架,使用HDFS分布式存储和HBase来压缩读写、存储及备份数据。运用Storm实时流计算技术、MapReduce离线计算技术、YARN分布式任务调度技术、Spark内存迭代计算技术,对数据进行计算、索引、挖掘和处理,并通过服务总线进行数据的分发、共享,实现处理结果的多系统在线查询和分析辨认。

在业务服务层,可实现用户多类业务逻辑和算法处理结果的直接应用。根据自然资源部业务类别的差异,该层分为网络安全管理、安全管理能力、基础资源管理、大数据应用模块。

(1) 网络安全管理模块。异常流量监测功能。通过建立异常流量监测模型,用于监测、分析自然资源部外网网络流量数据,判断其是否存在异常流量[13]。

移动恶意程序监测功能。用于监测自然资源部外网中是否有通过移动互联网来窃取信息系统资产漏洞的恶意事件。

僵木蠕监测功能。用于监测自然资源部外网中的僵木蠕事件,捕获、分析疑似僵木蠕样本。

(2) 安全管理能力模块。主动溯源功能。通过主动回溯分析方式,分析网络安全攻击事件的切入点,挖掘已知威胁进入内网的方式,从而加固闭环、封堵缺口,为安全服务人员提供快速分析和追溯能力,避免同类事件发生。

应急处置功能。当网络安全事件发生时,为避免事态升级或影响重要业务,需要对事件进行快速应急处置。通过打造三级协同联动的响应机制,让平台智能化,精准分析全网未知威胁和针对性攻击,利用协同联动实现针对性加固防御和精准打击,让全网的安全建设具备主动防御的能力。

会话分析功能。基于采集的流量和会话数据,可以分析主机在失陷过程是否存在对外、对内的异常会话,分析是否有数据外传、泄漏等风险发生。便于在溯源处置后,分析已发生的其他威胁,形成知识库。

(3) 实用工具管理模块。等保管理功能:专门在等级保护建设整改过程中,将系统定级、差距评估、备案、整改、测评过程中产生的文档结论进行统计归档,并使用可视化的统一界面进行展现与管理,最大程度发挥安全措施的保护能力。同时提供快速的检索能力,可及时查找历史文档,方便整改。

情报数据共享:针对多分支管理或多横向单位场景(如级联或专网多平台场景),数据与情报的相互共享可有效提升平台对新威胁的应对能力。当系统之间采用相同格式的标准对接时,即可实现数据的快速共享。

绿色查杀工具:平台内嵌绿色版僵尸网络查杀工具集合,可解决平台检测出的失陷主机(病毒、木马控制类)的闭环处置。

(4) 大数据应用模块。大数据应用模块将各类安全事件数据进行关联,通过机器学习、数据挖掘等手段发现安全事件之间存在的联系,通过攻击链模型分析多维数据指标,将攻击行为从点到面地串联起来,结合安全事件日志中的威胁情报数据,精准地预警信息系统资产即将面临的安全威胁及其趋势,制定主动防御和快速响应策略,进而实现攻击溯源和态势画像。

系统展现层使用ext作为JS框架,基于ECharts作为图形库,以vue架构作为大屏可视化呈现支撑,实现网络安全态势数据的可视化展示。基于从数据处理与汇聚层的数据接口,读取展示数据,提供整体网络综合态势、资产管理、网络安全事件分布、流量异常监测、脆弱性、攻击溯源、漏洞管理、网络安全预警信息、潜伏威胁的全局展示。展现层保留系统管理功能。

3 系统部署方案

基于大数据的网络安全态势感知平台的部署架构如图3所示。

图3 系统部署架构

网络安全态势感知平台部署在自然资源部网络拓扑中服务器区的旁路交换机边,以便获取数据进行管理和展示。服务器区和办公区的前端服务器为网络安全态势感知平台提供前置数据来源。

在服务器区二层交换机和核心路由器上均旁路部署了潜伏威胁探针对镜像流量进行采集、检测。潜伏威胁探针可检测IDS,运用漏洞利用攻击检测规则和Web应用攻击检测规则从交换机镜像流量中检测已知威胁,生成安全日志输送至平台。同时,潜伏威胁探针内置了异常行为检测引擎,可实时在采集的流量数据中发现、标记流量片段中的异常行为,传送给平台,由平台进行大数据关联分析,对潜在的威胁进行追踪溯源。

若有多单位监管需要,也可进行多分支场景部署,通过将潜伏威胁探针下放到各个单位进行监控,保障潜伏威胁探针采集的流量数据能够通达平台即可实现多单位全局网络安全态势感知。

4 实验及平台应用分析

4.1 算法实验仿真分析

为了检验本文算法性能,设置一台Windows 7操作系统的虚拟机,配置8 GB内存和2.6 GHz CPU。JDK版本是1.8,在Eclipse环境下运行算法程序。设定瞬时输入平台的安全日志数据集的容量为64 MB,预警规则矩阵的维度从1×1到100×100按步长1 000进行逐渐递增,选取本文算法与文献[6]所提Apriori算法进行对比仿真,统计二者的执行时间,如图4所示。

图4 算法仿真对比

由图4可知,对于处理同样体量的安全日志数据集,在相同维度的预警规则矩阵下,本文算法执行时间较文献[6]算法要短。并且,随着预警规则矩阵维度的逐渐递增,本文算法借助MapReduce的分布式处理机制,执行时间呈低斜率线性增长,且维持在很小的时间范围内浮动,即便是规则总数达到10 000,算法的执行时间仍在5 s内,可适用于处理海量的网络安全日志数据集。而文献[6]的常规Apriori算法的执行时间却在规则总数超过5 000后呈现出类似几何级的增长趋势,甚至在规则总数达到10 000时,算法执行时间超过了25 s,由此会大量消耗虚拟机的计算资源,并不适用于海量数据应用场景。

为检验本文算法对安全日志数据集的处理性能,设定预警规则矩阵的维度为80×80,向仿真平台输入的安全日志数据集的瞬时容量范围为16 MB至1 024 MB,计算本文算法的执行时间,如图5所示。

图5 安全日志数据集处理时间

从图5可知,安全日志数据集的瞬时容量在16 MB至256 MB时,本文算法执行时间在10 s以内,随着数据集瞬时容量的翻倍增长,算法执行时间也随之陡然增加,并未在预期的时间区间[0 s,20 s]内进行收敛。究其主要原因,是算法第一步在计算次矩阵时消耗了系统大量的计算能力,且Map环节的分布式项数若设置较低,也会造成计算线程数阻塞,影响执行时间。因此,本文算法在安全日志数据集瞬时容量256 MB以内时可取得较好的处理性能。

4.2 平台应用

平台在经过性能测试后投产运行,截至2020年6月,平台已对外网45个域名进行了长达978天的持续监测,持续监测数次数6 830万次,监测数据量达19.2 TB,瞬时安全日志数据集约14.3 MB/min,累计通报预警了1 460次安全事件。检测出的威胁数据会以安全事件的方式展示,可作为威胁事件的入口点进行分析,从而评判自然资源部网络安全建设的薄弱环节。平台综合安全态势展示如图6所示。

图6 网络安全的综合安全态势展示结果

从图6中可以清晰地看到自然资源部信息系统所面临的安全威胁,主要体现在6个维度:资产态势、脆弱性态势、网络攻击态势、安全事件态势、外连态势和横向威胁态势。各类安全威胁依照系统设定的规则进行等级和分值划分。平台整合分散在管辖范围内不同区域的各类网络安全数据,经态势感知算法和大数据分析生成可视化的监测指标,展现在大屏上,并将预警信息实时推送至平台管理员或运维人员,协助本单位实时掌握全网安全态势。当锁定产生安全事件的风险终端时,平台会进行相应的扣分,综合评分会随之降低并显示告警。当运维人员及时处理安全事件后,综合评分会相应回升。

5 结 语

本文结合自然资源部对网络安全态势感知平台的建设需求,分析了平台建设所需要使用的关键技术。面向海量网络安全日志数据集,提出一种基于MapReduce并行处理的Apriori算法,并通过实验仿真论证了该算法的适用性。设计并阐述了平台建设的逻辑架构。通过在外网各个关键区域节点旁路部署潜伏威胁探针的方式实现了平台的安装集成,形成了一套网络安全管控解决方案。平台运营至今,积极维护了自然资源部的外网网络安全,有效保障了信息系统的稳定健康运行。考虑到外网网络攻击事件层出不穷,网络安全日志数据集的实际体量会逐渐庞大,平台的数据存储和计算能力略显不足,算法引擎的性能会受制于平台服务器的计算资源配置,自然资源部在未来的工作中会加强平台的规划建设,通过设备扩容和配置升级来不断完善平台的防护能力,以更好应对网络威胁带来的考验。

猜你喜欢
态势日志威胁
一名老党员的工作日志
扶贫日志
人类的威胁
2019年12月与11月相比汽车产销延续了增长态势
汇市延续小幅震荡态势
我国天然气供需呈现紧平衡态势
受到威胁的生命
面对孩子的“威胁”,我们要会说“不”
游学日志
县乡一体化探索呈加速态势