孙惟皓,凌宗南,陈炜忻
(北京神州绿盟信息安全科技股份有限公司,北京 100089)
在中国人民银行、中国银监会的监管要求下,各银行对信息化的安全建设不断加大投入,部署的安全防护设备也日益增多,各类安全设备每天产生海量的告警日志,所存储的日志量每天可达到GB数量级。
针对这些庞大的运维告警日志,存在难以有效地进行管理和分析的问题,对于当前的安全运营管理人员和团队来说亟待解决。银行数据中心,IT运维领域涉及的运维数据涵盖应用日志、系统日志、性能数据、网络数据、流量数据、资产配置数据、数据库日志、漏洞管理数据等。上述信息的数据量大,格式差异大且分散在不同的服务器中,如何搭建日志智能分析平台,将数据集中整合、加工处理并应用和展现在运维管理中,进而提升安全运维能力、提高运维服务质量和效率,是本文探索研究的重点。
传统SOC/SIEM虽都具备日志审计与分析的功能,但是随着攻防对抗的加剧,其架构已经不能满足目前的需要,下面就传统SOC/SIEM与基于大数据日志智能分析平台在架构、功能方面进行对比,如表1所示。
表1 传统SOC/SIEM与新一代日志智能分析对照表
因此,基于大数据的日志智能分析平台是目前主流的解决方案,在架构、性能、功能、扩展性上都具有明显的优势。
日志智能分析平台逻辑架构上分为资源层、数据采集管控层、大数据层、服务层、业务层,如图1所示。
图1 日志智能分析平台逻辑架构图
资源层主要包括各采集对象的网络设备、安全设备、应用系统、主机系统、数据库和服务器等。
数据采集管控层主要负责多渠道获取数据,并支持数据预处理,将采集来的数据分区分块进行存储。
大数据层分为数据存储模块和数据分析模块。数据存储模块主要负责将采集的数据以索引方式存储,同时对常用的查询分析的结果进行缓存。数据分析包括数据分析模块、数据处理模块、平台管理模块等;数据分析模块支持对数据进一步的加工处理,并支持结构和非结构化的数据处理、关联分析查询、深度学习。服务层可以提供对各类的应用服务,如资产管理、情报处理、工单管理、告警处理、响应管理、任务管理、数据管理等,服务层提供的管理模块还涵盖了用户认证、数据权限控制等内容,保障数据访问的安全可控。
业务层包括业务功能模块和数据呈现功能,包括态势感知、行为分析、风险管理、情报预警等模块,并提供图形、表格、报表等不同的展现方式进行组合与钻取分析。
大数据日志智能分析平台普遍使用了基于Hadoop的大数据架构,分布式部署的方式以及非关系数据库技术的应用,满足了每秒数十万的日志采集和处理的需求,可以为大规模、超大规模网络提供高性能的日志采集存储功能。
ElasticSearch大数据分布式弹性搜索引擎模块可以实现海量数据秒级的快速在线检索分析。
通过使用Spark技术,在并发内存内处理机制方面能够带来数倍于其他采用磁盘访问方式的解决方案,借助离线计算引擎在小时级别内,即可完成对PB数量级的数据挖掘。例如:6个月内的安全事件之间的相关性、安全事件之间的影响程度、安全事件之间的规律性等并以报表形式进行输出。
大数据日志智能分析平台基于业务场景结合机器学习、基线梳理、关联分析、威胁情报等多种分析引擎,以实现高效、准确的智能日志分析,可极大地提高安全运维的分析效率与准确性。
日志智能分析平台对安全设备、网络设备、应用系统、主机系统等进行日志采集和索引分析后,运用多种分析引擎,对日志进行智能的归并和处理分析,提炼出当前网络的攻击事件,使得一线及二线运维人员可以一次性对多台安全设备、网络设备、应用系统、主机系统上的日志进行事件查询分析;使得安全攻击行为和事件查询变得简单高效,这也是目前主流日志分析平台的主要使用场景。
在上述传统日志下钻或多源关联分析基础上,为了进一步提升告警分析定位能力,引入了攻击链模型,参照该模型将攻击分为攻击和攻陷两个阶段,运维人员可以重点聚焦失陷阶段的告警事件,及时止损。
通过日志智能分析平台的数据存储层,可以对该事件相关的数据进行记录,并基于IP、时间、攻击手法重新构建攻击的逐步过程,安全分析人员可以清晰地了解和查询攻击时间和位置、提权以及安装特征等,安全分析师可以快速地构建恶意攻击的概要信息,并通过链条式分析将注入路径衔接起来,识别出第一感染源头和其他被感染者,或下一步预判,使安全团队提前发现威胁,能够快速补救损害,将损失降到最低。使用攻击链分析模型,可以帮助安全运维人员聚焦在对业务影响较大的攻击事件上,如图2所示。
图2 攻击链告警分析
图4 运维日志的异常分析与审计
(1)攻击链高危攻击告警。通过告警界面的攻击链视图发现不同阶段的攻击告警事件,并从中选择威胁最大的攻陷阶段告警。
图3 网络流量行为梳理与异常分析
(2)分析攻击源与目标。通过下钻式分析,锁定安全事件的攻击源与攻击目标。
(3)攻击手法、时间分析。通过对组成告警事件的原始日志下钻式分析,确认攻击手法与时间,为进一步的处置提供技术输入。
通过采集防火墙或DPI类设备的网络访问日志以及NetFlow等方式,借助机器学习的手段,实现对网内网络流量互联动态基线的建立,从而发现异常网络访问行为,如图3、图4所示。
(1)发现防火墙策略配置问题。由于完成了安全域边界的网络访问基线梳理,一旦有防火墙配置不当导致非正常访问就可以触发告警。
(2)发现非法外联。无论是在互联网还是第三方专网接入边界,可以通过外联访问基线筛选出异常的非法外联行为。
(3)发现内部流量异常。包括内部的恶意扫描、ARP欺骗攻击、内部违规访问等行为。
(4)发现资产变化。通过网络流量提取的资产信息,发现未报备IT资产,避免出现通过主动扫描发现资产时间窗口过长的问题。
图5 基于情报的关联分析与预警
图6 基于攻击链的态势呈现与攻击者画像
根据银行内部安全控制要求,运维人员只能通过审计系统(堡垒机)间接访问生产服务器,其在生产环境的操作行为和结果以文件形式保存,最终采集到日志智能分析平台中。基于上述操作行为数据,结合一些配置数据,平台实现了多维度的操作行为分析和审计:
(1)实现了机构用户维度的操作行为分析。使得管理层用户了解各部门用户的运维习惯(如上午9:00是应用运维部门的访问高峰,主要是运维人员进行巡检及处理昨日非紧急问题),基于时间建立访问基线,从而发现在非核心时段的可疑登录、多IP交互登录、休眠账号的异常登录等行为。
(2)实现了应用维度的权限行为分析。通过对应用的实际访问账号与实际管理权限的对比,直观展示不合规访问情况。
(3)实现了账号维度的操作行为分析。通过对比实际管理要求,找到非授权用户使用root类高权限账号进行生产操作的情况。
(4)实现了命令维度的操作行为分析。例如Top10用户统计等,对高危险命令的使用合理性进行审查和通报,有效降低了用户操作风险。
日志智能分析平台支持外部开源和第三方情报数据,利用威胁情报提高安全运维分析的准确度和时效性。
利用大数据分析平台将本地数据、资产数据与情报数据按照多个维度进行关联分析,即可快速感知威胁,通过平台安全规则的筛选和过滤最终形成漏斗效应,保证威胁告警更加精准和有效。为运维管理人员提供异常的情报分析和威胁情报的预警如图5所示,其主要场景如下:
(1)实现快速漏洞定位预警。严重漏洞爆发时,基于日志智能分析平台积累的资产信息(主要是资产的版本信息)与漏洞影响的版本进行比对,快速锁定漏洞影响的资产范围。
(2)实现日志与信誉库实时关联分析。威胁情报提供的恶意IP、URL、C&C、文件信誉库以及行业与客户情报标签与告警日志进行关联定位,有助于管理员及时发现高危特别是针对金融行业的攻击行为。
(3)实现基于情报的多维度下钻式分析。利用威胁情报的内在联系,实现对可疑信息进一步的深入挖掘分析,以发现更多攻击者线索,有助于完成攻击者的行为画像。
在攻击链分析等多种引擎处理的基础上,可以针对整体范围或某一特定时间与环境,基于这样的条件进行因素理解与分析,最终形成攻击者的画像、历史的整体态势以及对未来短期的预测,如图6所示。
将分析结果按照入侵、异常流量、病毒、系统漏洞,网站安全态势进行多维度可视化呈现,形成各种类型的安全态势分析趋势,能够很好地洞察银行内部整体安全状态,并通过量化的评判指标直观地理解当前态势情况。
日志智能分析平台就是基于以上方法论从海量数据中分析统计出目前存在的风险,通过趋势图、占比图、滚动屏等方式清晰展示网络安全态势,协助安全分析人员快速聚焦全网高风险点。
威胁情报系统会定期下发IP、URL、僵尸网络的情报信息,日志智能分析平台会与这些活跃数据进行关联匹配。
日志智能分析平台捕获到89.45.10.18的IP正在进行攻击,该IP是最近正在活跃的一个罗马尼亚恶意IP,与日志智能分析平台的事件成功匹配,意味着这个事件威胁可信度较高。
此外,点击此事件对此IP进行溯源,能够查看历史行为,可以看到情报监控到它是Botnet客户端,说明很可能是黑客利用该IP作为跳板在对该用户本地资产进行攻击。
在某客户内部网络中一台恶意主机扫描网络主机的所有端口,进行系统扫描,会触发日志分析平台的流量行为分析视图出现如下特征(如图7所示),基于该特征运维管理员就能快速定位恶意主机。
基于可视化的攻击链呈现,使运维管理人员可以直观、快速地定位到被黑客攻陷的IT系统,并支持下钻分析。
通过该视图查看主机192.168.x.x的攻击详情,发现该主机相关的事件为木马事件,连接的可疑IP是两个DNS服务器(8.8.8.8/208.67.y.y),并且对公网其他IP进行了攻击。
继续下钻查看对应的木马事件日志详情,发现该主机请求的域名为暗云木马对应的域名,从而确定失陷主机为目前流行的暗云木马所控制。
图7 基于网络流量行为的统计分析(示意图)
基于大数据分析架构的日志智能分析平台,相对于传统的日志分析技术,技术复杂度和学习处理能力更为先进。能够提供更为快速的处理分析和展现,适用于当下大数据的存储与分析应用,能够帮助银行业在关键业务系统及内部系统实现全面的智能关联分析,提高运维人员在IT运维管理过程中的工作效率及安全态势的感知能力。