基于大数据技术的攻击溯源研究*

2021-12-09 11:28邹初建
信息安全与通信保密 2021年11期
关键词:攻击者日志结构化

王 涛,张 淋,邹初建

(杭州迪普信息技术有限公司,浙江 杭州 310051)

0 引 言

信息技术的蓬勃发展带来了机遇,同样也带来了挑战,大量应用系统丰富了我们的生活,由于通过网络攻击可获取更多经济利益,这一结果进一步刺激了网络攻击的泛滥。在网络空间这个战场上,攻防双方的博弈实质上是信息获取能力的对抗,只有获取更多、更全的信息才能制定有效的攻防策略,在攻防博弈中取得优势。作为防守方,需要明确谁攻击了我,用了何种手段,突破点,攻击路径,这便是攻击溯源。通过攻击溯源技术确定攻击源,以制定具有针对性的防护和反制策略,实现主动防御,抑制网络攻击产生的影响。由此可见,攻击溯源在网络攻防战中的重要作用。

攻击溯源技术发展至今,此领域已涌现出大量的溯源方案,如通过挖掘进程、文件与文件名之间的因果依赖关系的BackTracker溯源方案[1],基于系统日志和应用日志关联溯源的OmegaLog框架[2-4],基于威胁情报的攻击溯源方案[5]等,但这些溯源技术只是解决了一定场景中的攻击溯源,无法覆盖网络攻击的整个过程或需要大量的人工干预。

本文提出了一种基于大数据技术的攻击溯源方案,该方案用于解决网络攻击的全流程溯源场景。首先,通过对网络流量的采集、业务日志及系统日志收集,以及对主机脆弱性的检测构建网络攻击溯源数据集;其次,对数据集进行单例分析、上下文分析、主机侧与网络侧数据关联分析以及结合主机脆弱性对攻击数据进行分析和降噪;最后,通过MITRE公司提供的攻击战术、技术和常识的ATT&CK[6]模型对攻击的各个阶段映射构建完整的网络攻击溯源全景图。

1 攻击溯源

本节将详细介绍攻击溯源的原理、方法以及现状等情况。

1.1 攻击溯源基本思路

网络攻击溯源是指利用各种手段追踪网络攻击发起者。在攻防的视角里,进攻方会占据比较多的主动性,而防守方则略显被动,作为防守方需要尽可能多地收集网络攻击产生的痕迹,并将这些痕迹汇总分析,发现攻击者意图和攻击路径,进一步反向跟踪直至找到攻击者。

网络攻击溯源一般分为3个部分,首先,要通过安全设备告警、日志和流量分析、服务资源异常、蜜罐系统等对网络攻击进行捕获,发现攻击;其次,利用已有的IP定位、恶意样本分析、ID追踪等技术溯源反制收集攻击者信息;最后,通过对攻击路径的绘制和攻击者身份信息的归类形成攻击者画像,完成整个网络攻击的溯源。

1.2 攻击溯源技术的应用现状

攻击溯源技术发展至今,已经有多个机构和组织提出了针对不同场景的解决方案,以下针对部分方案进行介绍。

(1)BackTracker溯源方案[1]:通过分析进程、文件和系统日志之间的关系构建溯源模型,分析进程创建的依赖关系,在系统日志中寻找文件和进程之间、文件名和进程之间的依赖关系并分析溯源恶意文件,但由于仅通过文件关联,适用的场景有限。基于建模的因果推断(Modeling-based Causality Inference,MCI)[7]在BackTracker溯源方案基础上进行改进,加入了基于因果关系的语义分析,增强了系统日志的依赖关系分析能力。以上模型均属于典型的主机侧溯源方案,由于仅关注进程、文件和系统日志,无法溯源到恶意文件投放路径,所以仅能完成主机侧溯源。

(2)OmegaLog框架[2-4]:提出了一种通过结合系统日志和应用日志的溯源框架,认为将系统上所有与取证相关的事件统一到一个整体日志中可以显著提高攻击调查能力。OmegaLog框架使用内核模块拦截应用程序的系统调用,将进程号/线程号(Process ID/Thread ID,PID/TID)和时间戳信息梳理至业务日志,再通过控制流分析对应用日志和系统日志进行解析,生产事件流带入溯源框架完成溯源。该方案结合应用日志,极大地增强了主机侧的溯源能力,但由于拦截系统调用部署的难度较大,也仅能完成主机侧溯源。

(3)基于威胁情报的攻击溯源方案[5]:通过对IP反查、Whois域名解析、连接记录中的统一资源定位器(Uniform Resource Locator,URL)等信息,关联威胁情报中记录的IP、域名、URL、文件哈希值等信息反查攻击者信息,实现网络侧攻击主机的定位。该方案是利用同类攻击不会只在互联网上发生一次的思想形成共享情报,再通过对攻击者的网络地址进行反向追踪溯源。情报来源于共享,共享的数据本身存在滞后性,单从情报角度进行攻击溯源可完成对已知攻击再次发生的攻击溯源,但很难应对攻击手段变化情况的攻击溯源。

攻击溯源仍是一个较新的领域,发展仍处于探索阶段,场景覆盖程度和自动化程序均是目前研究的热点。

2 基于大数据技术的攻击溯源

大数据技术是指从各种各样类型的数据中,快速获得有价值信息的能力。

大数据技术特点可以概括为5个V,即数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)、真实性(Veracity)[8]。信息时代的发展会产生大量的数据,以网络带宽为例,互联网早期每秒仅处理千字节级的数据,现在一个中型城市的出口每秒就要太字节级的数据,每天就要处理近百拍字节的数据,在此量级多样的网络数据基础上完成数据高速存储,分析提取,发现有价值的数据,就是大数据技术。

近年来,大数据技术在安全领域已经取得了许多新成果,如薄明霞等人[5]提出了基于大数据技术构建威胁情报共享平台,为企业构建基于威胁情报的主动防御体系。运用大数据技术构建具有安全分析、持续安全监测以及安全运营能力的安全管理平台等成功案例。

大数据技术的核心能力是在海量的数据中提炼出高价值的数据,网络攻击中典型的高级可持续威胁(Advanced Persistent Threat,APT)攻击往往会长时间潜伏,而少量攻击数据则是伴随巨量的业务数据共同产生的,一个每秒几千兆字节数据的业务流量场景,真实的攻击行为数据可能只有不到几千字节的数据。而在这种情况下,利用大数据技术快速完成攻击溯源恰恰是值得深入研究的。

2.1 基于大数据攻击溯源总体框架

攻击溯源本质上是在大量的正常数据中寻找出攻击者在攻击过程中留下的痕迹,并通过这部分痕迹回溯攻击者。攻击溯源往往是在攻击者对攻击目标产生危害并被察觉后产生的动作,但由于时间跨度较大,或者攻击者对攻击痕迹的清理等因素,给溯源工作带来极大的阻碍。大数据技术的成熟为攻击溯源带来了新的可能,大数据技术可以收集大量的异构数据,并对这些数据进行清洗,提炼出有价值的攻击痕迹,再通过数据分析和模型关联将这些信息串联起来形成攻击路径,通过攻击路径的反溯找到攻击入口、还原攻击过程。

结合攻击溯源技术和大数据技术,本文提出了一个基于大数据技术的多层溯源框架(Hierarchical Traceability Architecture,HTA),如图1所示,HTA分为3层:基础层为数据集层,中间层为数据清洗分析层,顶层为全景关联溯源层。基础层采集攻击溯源所需的、不同来源的数据集,通过数据清洗分析层实现数据分类、归并、标签化处理,根据用途逐层分类、提炼分析,为全景关联溯源层的多维度关联分析提供依据。

图1 HTA

2.1.1 数据集层

数据是攻击溯源的基础,溯源往往是在攻击发生之后的动作,很多的网络攻击是在发生之后很久才被发现。传统的攻击溯源思路需要先在受害主机上发现恶意文件,再对少量数据进行分析发现明显的异常,但应对APT攻击溯源时明显不足。整个APT攻击过程可能覆盖系统漏洞发现。漏洞利用攻击、恶意代码植入、远程控制、数据泄露等过程,攻击手段繁杂,所以数据收集的思路就需要改变,只有收集足够多、足够丰富的数据才能完整地绘制一条攻击链。如利用系统漏洞攻击时,系统日志、应用日志、网络入侵检测设备均可监控到部分攻击线索。如果主机执行恶意程序,系统进程信息、文件名、系统日志等信息则会留下恶意程序执行后的痕迹。

数据的丰富程度决定了溯源能力的高低,HTA的数据集层收集威胁监测设备的攻击日志、入侵防御系统、Web应用防火墙等网络安全设备日志、原始网络报文和网络侧连接信息构建网络侧数据集,收集业务访问记录、服务器日志、系统日志、系统进程监控数据等作为主机侧数据集,同时收集威胁情报作为辅助佐证数据集,利用这些不同类别的数据集构建一个大的异构数据集,这样尽可能地涵盖攻击溯源所需的数据。

2.1.2 数据清洗分析层

拥有大量的原始数据就相当于拥有了检测能力,但数据并不是越多越好,需要对数据进行分类、归并和标签化处理,提炼有价值的数据。获取的数据主要涉及结构化、半结构化和非结构化,由于半结构化和非结构化数据不利于分析处理,所以需要对其进行信息抽取。这一层的核心目标是完成有价值的数据的初步提炼,为后续的数据分析提供结构化的数据。

HTA采用数据分类归纳法完成数据的初层次提炼,同类型数据清洗流程如图2所示,然后按照数据用途进行数据逐层分类。

图2 同类型数据清洗流程

按照数据类型分为结构化数据、半结构化数据和非结构化数据,再分别对结构化数据、半结构化数据和非结构化数据进行分类。如攻击日志、访问记录等属于结构化数据;进程运行记录、服务后台错误记录等属于半结构化数据;原始报文、系统运行状态等属于非结构化数据。

使用同类数据归纳法对冗余数据进行去重处理。使不同来源的同类数据在同一框架规范下进行异构数据清理、去重、归一、索引建设等步骤,形成高质量、有价值的归纳数据。以防火墙记录的连接关系日志和服务端记录的业务访问记录为例,两种数据都是访问记录,针对此类记录需要提取公共信息和必要的附加信息,并针对冗余数据进行去重,避免冗余信息干扰。

同类数据完成归纳清理后,根据用途逐层分类、提炼分析。例如,为确定攻击溯源的入口,攻击溯源首先需要做的就是将大量的访问记录和受害者主机上记录的各类日志统一发送至大数据平台的数据清洗分析层,对清洗后的数据进行提炼分析发现单点事件;发现单点事件后,一般可以先从网络安全检测设备入手,例如,通过全流量威胁检测探针、入侵防御系统、Web应用防火墙、主机检测软件等发送的攻击检测日志。针对这一类数据,一般按照攻击时间、攻击手段、攻击频次、地理位置、攻击状态、攻击方向等方面进行再次分类,并按照数据类型建立数据查询索引,为后续的溯源模型及关联分析建立溯源主线索。攻击事件溯源主索引确定后,可以沿着攻击路径进行深入的攻击溯源分析。

2.1.3 全景关联溯源层

溯源模型的构建是自动化溯源的基础,所有技术均围绕着溯源模型进行分析处理,自动化溯源调度工作流如图3所示,在数据清洗分析层基础上进行单场景溯源、全场景关联。

图3 自动化溯源调度工作流

HTA采用场景建模法建立单场景溯源模型,如典型的勒索病毒“永恒之蓝”在传播过程中会利用SMB服务器的漏洞,利用过程的行为至少分为两个步骤,在建立场景化模型时,一是针对这一类勒索病毒的攻击方式、攻击特点等方面建立场景模型;二是按照在模型内部对行为发生的时序进行限制,从而提升此类攻击溯源的准确性。

完成单场景溯源模型的准备后,再通过ATT&CK模型进行全场景关联溯源,ATT&CK模型由MITRE公司提出,它是一个站在攻击者视角来描述攻击中各阶段用到的技术模型,将攻击划分为战术和技术两部分,该模型涵盖了网络侧数据的映射和主机侧数据的映射,按照攻击者的思路梳理出一个完整的攻击过程全景图。此模型可作为攻击溯源基础指导模型,对各阶段的数据进行映射,形成攻击事件的战术和技术分布图,再进一步对时间轴、受害资产属性、威胁情报、相关联的攻击路径上的数据进行多维度关联,将映射过的数据与攻击场景相结合进行系统的分析、攻击降噪和攻击取证,最终形成完整的攻击溯源报告。

3 应用实例展示

本文基于HTA构建的大数据溯源平台,以一次挖矿木马的攻击溯源过程为例进行实际效果展示说明。

大数据溯源平台通过接收在网络环境中部署的全流量威胁检测探针采集数据,并借助大数据技术的优势将采集到的数据持续永久化,为攻击溯源提供数据支撑。此案例主要收集了攻击日志、访问记录、原始报文、资产属性等数据,并将数据入库建立数据集。按照HTA的数据分类归纳法将收集到的数据进行分类,再对数据进行标签和属性富化处理,提升单条数据的价值权重。该平台采用告警触发和轮询触发两种方式自动溯源,设置攻击日志作为权重最高的索引线索。

以此案例中监测到的攻击日志为例,IP地址34.1.1.10对IP地址192.168.100.1的扫描探测攻击日志在被监测到后根据分类规则被划分至攻击日志,攻击日志作为溯源的主索引权重较高,借助大数据的实时流式处理技术进行属性富化处理,将源IP地址的地理位置、国家编码以及目的IP地址的资产名称、资产类型等信息富化至攻击日志,并将此日志归类为针对资产类攻击线索的结构化数据——网络攻击日志。大数据实时流式处理技术可快速高效地将数据富化,尽可能将信息归并至一条数据内,有效降低单日志分析模型的关联分析工作,提高溯源效率。处理后的数据如图4所示。

图4 分类后的攻击日志数据

完成数据集的构建和数据清洗工作之后进入HTA的全景关联溯源层,首先针对持久化之后的数据,需要进一步分析完成单点事件的场景化分析。通过场景化事件模型分析过滤掉干扰数据,将判定成功的数据生成告警信息输出,并作为全景溯源的数据输入。以此案例的nmap扫描探测攻击告警信息为例,由于监测到了多次IP地址34.1.1.10对IP地址192.168.100.1的nmap扫描探测攻击日志,在非结构化的原始报文中关联取证发现,扫描探测报文中携带了nmap的签名信息,符合网络侧攻击溯源模型中nmap扫描探测攻击模型,由此可以判定此攻击较大概率真实发生。

大数据技术提供了实时分析和离线分析两种模式,结合攻击溯源技术可采用实时处理模型分析短时间内的热数据,再通过离线分析模型处理多种数据之间的关联关系,足以应对主机侧溯源、网络侧溯源、网络侧主机侧关联溯源的各类复杂场景。告警信息如图5所示。

图5 nmap扫描探测攻击告警信息

完成单点事件模型分析后进入HTA的ATT&CK 模型映射过程,针对告警数据采用告警信息的攻击类型和告警名称词法分析映射,将攻击日志映射至ATT&CK的战术和技术中,再将攻击日志关联的连接信息、原始报文等信息映射至对应的战术和技术中。ATT&CK的技术涵盖了主机侧技术和网络侧技术,可覆盖攻击者从网络侧入侵到主机侧执行控制的全路径,作为全场景溯源的数据组织框架,使用战术和技术抽象出攻击关系,可有效解决单分析主机侧数据和单分析网络侧数据的溯源不完整问题。以nmap扫描探测攻击告警为例,攻击类型为扫描探测,告警名称为“nmap安全工具扫描(nmap)”,攻击类型包含关键词扫描探测映射至战术扫描探测,告警名称包含工具扫描映射至技术进行主动扫描。ATT&CK模型映射阶段不考虑告警之间的关联关系,将全量告警信息映射至ATT&CK模型,对后续的攻击者与受害者之间的攻击关系和攻击发生的时间进行关联分析,进一步分析溯源形成完整攻击路径,再针对完整的溯源结果重新绘制事件的ATT&CK映射关系图,图6为此案例最终的模型映射图。

图6 ATT&CK模型告警映射图

最后根据攻击者和受害者之间的逻辑关系、ATT&CK模型各阶段的逻辑关系以及时间轴关联溯源,形成完整的攻击路径,还原攻击全过程。以此案例为例,从受害者192.168.100.1回连攻击者71.0.1.147的比特币挖矿告警信息作为时间轴终点反向回溯攻击过程,比特币挖矿属于ATT&CK模型的深度影响阶段,可以判定71.0.1.147为数据回连服务器,此类攻击在通常情况下不会将数据回连服务器作为攻击者发起攻击,所以需要关联其他攻击受害者192.168.100.1的告警信息,反向溯源发现攻击者34.1.1.10对受害者192.168.100.1发起多种类型的攻击且覆盖了ATT&CK的多个阶段,同时关联受害者192.168.100.1发起的告警信息,发现192.168.100.1向192.168.100.123发起了Web漏洞攻击,属于ATT&CK模型内网的横向扩散阶段,还原整个攻击过程为:攻击者71.0.1.147利用扫描探测、Webshell上传、Webshell注入、命令注入、信息泄露、恶意软件下载等手段实现了对受害者192.168.100.1的远程控制,使受害者192.168.100.1沦为挖矿主机,且正在试图向192.168.100.123横向扩散。完成溯源后的基于攻击关系的溯源关系如图7所示。

图7 溯源关系

图8 为完成溯源后的基于时间轴还原的攻击过程截图。

图8 完整攻击过程

相较于仅集成系统日志与应用程序日志的OmegaLog框架[2-4],一方面,HTA涉及的数据范围更广,包括集成攻击日志、入侵防御系统、网络安全设备日志、网络侧日志、主机侧日志等,同时收集威胁情报作为辅助佐证;另一方面,由于整合多源数据,HTA的溯源分析不再局限于主机侧的溯源,而是涵盖主机侧、网络侧、终端侧,同时结合漏洞、情报库等实现溯源佐证,使溯源路径更完整。OmegaLog框架[2-4]侧重于分析主机侧的系统日志和应用日志,关联分析发现安全事件。在本案例实施过程中,OmegaLog框架仅能看到恶意软件在主机侧的恶意行为,无法监测到入侵动作前和入侵后的扩散动作。HTA解决了攻击溯源未关联网络侧数据问题,能够通过分析网络侧相关数据发现入侵前行为和横向扩散行为,使绘制的溯源路径更加完整。

4 结 语

网络攻击发展至今,使我们面对的是有一定反检测能力的攻击者,特别是高级APT攻击通常较为隐蔽,不易触发单点的安全策略和检测,需要进行更多维度和大视角的数据分析,才能发现攻击并进一步溯源。本文提出的基于大数据技术的多层溯源框架(HTA)结合多元数据实现自动化溯源,还原攻击过程,为构建大数据溯源平台提供方法。

随着数据收集越来越完善,可在持续提炼模型和关联手段方面持续研究,如关联地址备案信息、DNS域名备案信息、邮件备案信息等,通过大数据技术实现更深层次的攻击溯源,实现溯源至攻击者ID信息的攻击溯源。

猜你喜欢
攻击者日志结构化
机动能力受限的目标-攻击-防御定性微分对策
一名老党员的工作日志
促进知识结构化的主题式复习初探
扶贫日志
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
正面迎接批判
游学日志
有限次重复博弈下的网络攻击行为研究
基于软信息的结构化转换