刘 欢,黄金涛,刘星江,张建川
(中国电子科技集团公司第三十研究所,四川 成都 610041)
当前,网络安全问题日益严重,网络攻击方式日趋多样化和隐蔽化,安全漏洞等安全风险和事件层出不穷,依托人工经验、基于单点安全防御能力分析和响应的网络安全运维模式已经不足以应对,亟需从全网整体安全运维的角度去考虑,将分散的安全监测与响应机制整合起来,提升安全响应效率,构建以观察、定位、决策和响应为一体的新型网络安全运维体系。
为了解决网络安全运维面临的突出问题,Gartner 公司最早于2015 年提出了“SOAR”的概念,其定义为安全运维分析与报告(Security Operations,Analytics,and Reporting)。随着安全运维技术的快速发展与演变,2017 年Gartner 公司将“SOAR”概念重新定义为安全编排自动化与响应(Security Orchestration,Automation and Response)[1]。该技术旨在帮助企业和组织收集监控到的各种网络信息,进行安全事件的综合分析和告警分类,并通过标准化工作流程,利用人机结合的方式,整合不同安全厂家的相关产品和安全服务,帮助安全运营人员定义、排序和驱动标准化事件响应活动,以提升网络安全事件运维能力和效率。
伴随着人工智能技术的快速发展和不断成熟,网络安全行业逐渐将发展重点之一聚焦到基于人工智能技术的自动化网络安全防御解决方案,改善现有的网络防御体系并提升核心防御效能。将人工智能与传统安全编排响应技术相结合,可以使安全编排响应由“自动化”向“智能化”转变,因此构建更加高效、灵活、快速的网络安全事件响应机制成为网络安全事件运维发展新趋势。2021 年7 月,工信部公开征求对《网络安全产业高质量发展三年行动计划(2021—2023 年)(征求意见稿)》的意见,其中明确将“安全编排自动化与响应”列入发展创新安全技术重点任务。
本文首先分析新形势下网络安全事件运维面临的困境,阐述SOAR 概念、核心能力和架构,以及目前SOAR 系统存在的问题;其次在此基础上提出智能化网络安全事件响应架构,并详细阐述涉及的关键组件、关键技术和处理流程,从而实现对传统SOAR 系统的智能化赋能。
随着网络环境复杂性的不断增强,安全事件中的攻击手段不断升级,使得网络空间的攻防战愈发激烈。新形势下网络安全运维所面临的困境主要表现为以下几个方面。
根据网络安全事件的起因、表现和结果等,可将其分为恶意程序、网络攻击、信息破坏、内容安全、设施故障等多种类型。近年来,随着网络空间和数字经济的高速发展,各类网络安全事件频发,并且呈现出规模化、组织化、专业化等特点,甚至有些网络事件的始作俑者是以国家为背景的组织,具有针对性高、伪装性和潜伏性强等特点,使得安全运维处置更加复杂[2]。例如,2022 年4 月,黑客入侵国内某医疗机构信息系统,半年时间非法获取系统数据10 万余条,造成了客户信息大量泄漏;2022 年9 月,西北工业大学遭受境外有组织的网络攻击,攻击方使用了41 种网络攻击武器,攻击链路多达1 100 余条,以窃取学校关键网络设备配置、运维数据等核心技术数据;2022 年12 月,蔚来汽车因服务器配置漏洞,导致了百万条用户信息泄露,并遭受了巨额勒索,造成了严重经济损失。
传统的人工运维方式通过人力完成对各类网络安全事件的响应,如今已经无法应对如此复杂的网络安全事件,这是因为:首先,面对各类网络防御设备复杂的安全策略配置、层出不穷的攻击手段和繁杂多样的安全事件,需要相关安全人员具备很高的运维水平、丰富的领域知识及优秀的持续学习能力,而高水平网络安全人才严重短缺;其次,网络安全事件的处理严重依赖安全运维人员的经验和知识主观判断来选择合适的安全设备和策略进行抵御和防护,大大加重了安全运维人员负担,安全事件处置的及时性、合规性和有效性难以得到保证;最后,随着对网络安全人才需求的不断增加,高水平安全运维人才容易流失,使得成功经验无法固化且短时间难以弥补,对企业来讲是难以弥补的损失。
当前网络安全事件运维体系最初由安全信息及事件管理(Security Information and Event Management,SIEM)发展而来。SIEM 对所有IT 资源(包括网络、系统和应用)产生的安全信息(包括日志、告警等),以及外部的入侵行为和内部的违规、误操作等行为进行统一的实时监控、收集和分析,并将更多注意力聚焦到安全事件精准告警和威胁发现,使得用户的平均检测时间(Mean Time To Detection,MTTD)更低,能够更快、更准确地检测出攻击和入侵[3]。然而,基于人工运维为主的响应处置方式,采用手动下发安全防御调整策略和调整安全防御力量,需要多人、多系统、多界面协同完成,在给安全事件的响应带来复杂性的同时,进一步降低了响应处置效率,无法帮助用户降低平均响应时间(Mean Time To Response,MTTR),而快速消除安全事件是减少甚至是避免损失的关键所在。
现有的网络系统安全建设方案通常根据不同安全设备提供的防御能力,部署各类基于单点工作机制的安全设备,实现对网络系统的整体安全保障。典型的安全设备包括防火墙、入侵检测、密码设备、日志审计、访问控制、态势感知等。各种设备之间的技术整合度低、联动性不强,各个设备形成了一个个安全孤岛。当发生网络安全事件时,采用单点设备分析和响应的模式经常面临安全告警风暴、安全策略冲突、人工保障负担重等情况,无法充分利用各自的安全防御能力进行协同联动处置,使得整体网络安全事件分析难度高、防御调整慢、响应效果差。
为了应对安全运维面临的困境,Gartner 公司提出了安全编排自动化与响应技术“SOAR”,旨在帮助企业和组织对监控到的各种网络安全信息进行事件分析和告警分类,并在标准工作流程的指导下,整合不同安全厂家的相关产品,帮助安全运营人员定义、排序和驱动标准化事件响应活动。
SOAR 技术是软件定义安全体系的具体应用,其本质是将物理及虚拟的网络安全设备抽象为安全资源池,统一通过软件编程方式进行安全业务编排、管理,并自动驱动各类安全设备执行网络防御动作,实现高效、自动的安全威胁响应和事件处置。
SOAR技术具备的核心能力包括以下几方面[4]。
(1)可定制安全编排能力:将安全事件响应业务处置流程抽象为剧本模型,对系统部署的各类安全功能组件通过可编程接口(Application Programming Interface,API)封装后形成的安全能力和人工检查点,按照一定的逻辑关系进行安全服务编排,形成一系列有机组合的应急响应动作,以剧本形式作为输出结果,并能够针对不同网络安全事件处置特点,对响应顺序、管控策略等进行灵活调整和修改,是SOAR 技术最基本和核心的能力。
(2)自动化高效执行能力:具备一套可根据剧本有效指挥安全应用的机制,将剧本处理建模为多个流程动作,由工作流引擎控制业务走向,通过应用语义和剧本控制,并结合已定义的规则和策略,自动寻找到合适的安全服务,然后通过应用适配器下发管控指令至对应安全防护设备,是SOAR 技术能够有效提升安全时间处置响应效率的前提和基础。
(3)一体化协同联动能力:通过统一标准化的服务接口调用实现安全设备、安全服务的集成,将孤立的设备进行有效的联动,将零散的安全能力进行有效的整合,构建安全防御链,有效提升安全运维的效率和效果,同时一体化协同不仅是剧本中各个环节的协调,而且是机器与人的协同,通过将不同环节、不同设备、不同人员进行联动,实现人机一体化,是SOAR 技术体系构建的关键。
SOAR 系统作为软件定义安全体系的重要应用落地,仍然遵循将控制逻辑和业务执行相解耦的设计理念,采用管理平面、控制平面、服务平面3 层架构,实现对网络安全威胁事件的高效、自动化和协同响应处置[5]。SOAR 系统核心架构如图1 所示。
图1 SOAR 系统核心架构
(1)管理平面:依据安全风险告警信息输入,采用人机交互拟制或响应预案库提取的方式,完成安全服务编排和策略规划,形成响应处置剧本,从而指挥控制平面完成业务驱动。
(2)控制平面:接收管理平面下发的处置任务、流程和策略等信息,依次调用标准化安全服务API 接口实现各类安全服务调度,并按需进行工单派发和执行状态监控,最终实现响应流程全生命周期的执行管控。
(3)服务平面:由各类密码安全防护设备组成的安全服务池构成,依据控制平面下发的管控指令和风险数据信息,执行各类安全防御处置操作,提供具体的安全防护能力。
通过引入SOAR 系统有效提高了网络安全建设水平,其通过自动化的协同联动处理方式,提升了企业安全运营质量,在恶意流量处置、可疑文件分析、网络漏洞管理、恶意邮件处置等多场景安全事件处置中发挥了重要作用[6-7]。然而,目前仍然存在一些制约SOAR 发展的因素,具体如下文所述。
(1)安全服务接口标准化程度低,使得不同安全设备集成和交互变得困难,限制了系统防护能力的整体扩展性。
(2)SOAR 系统需要与安全告警系统、态势感知平台以及工单管理系统实现不同业务交互,复杂度较高,增加了系统部署和运维人员的学习难度等。
(3)剧本编排能力不足[8],是制约SOAR 系统发展的最大障碍,主要表现为:剧本数量少,应用场景受限,其采用预置剧本的方式,基于固定模式的处理逻辑,难以适应多场景安全运维需求;人工编排负担重,当现有剧本无法应对突发的安全威胁事件时,仍然需要安全运维人员手动决策、编排和调整处置流程,工作量大;辅助编排手段不足,人工编排的过程还是主要依赖主管经验和知识判断,智能化辅助手段不足,编排的合规性和有效性无法得到保证。
神经网络、专家系统等人工智能技术的日益成熟,以及在网络安全管理中的广泛应用[9-10],为增强安全编排综合能力,辅助安全运维人员更加高效地应对各种网络安全风险威胁,进一步提升SOAR系统整体效能提供了有效的技术手段。
智能化安全编排与响应系统基于SOAR 核心架构,通过构建智能安全编排功能单元,提升安全事件处置剧本智能编排和响应调整能力。智能化安全编排与响应系统架构如图2 所示。
图2 智能化安全编排与响应系统架构
智能化安全编排与响应系统在实现SOAR 核心能力的基础上,通过智能安全编排单元实现对安全响应案件管理单元派发的安全事件信息进行响应剧本智能规划、生成和动态调整,并支持安全运维人员对生成的方案进行修正和优化。
智能安全编排单元作为本系统核心功能模块,其关键功能组件包括知识库、智能推理引擎和效能评估等,各功能组件协同配合,支撑安全编排响应由“自动化”向“智能化”转变。
3.2.1 知识库
规划知识库为智能推理引擎提供安全编排规划决策依据和规则。规划知识库由2 部分构成,一部分为策略决策知识库,对网络安全专家提供的安全保密装备特性、合规性判决等领域知识和安全事件案例特征以权值矩阵的形式进行存储,提供对安全事件处理策略的快速判决依据;另一部分为编排规则库,提供对安全事件响应处理规则约束的形式化定义,为实现剧本的智能规划和调整提供知识支撑。
3.2.2 智能推理引擎
智能推理引擎包括相似度推理、编排策略推理和剧本编排规划3 个功能模块。其中相似度推理通过将当前发生的安全事件和案例库样例进行特征提取、对比,筛选出相似度最高的剧本模板,以便运维人员进一步优化调整;编排策略推理模块实现对安全事件响应编排策略的判决;剧本编排规划模块基于控制策略和编排规则库,实现安全剧本响应动作的编排,并能够根据事件处置响应和效能评估结果,对生成的剧本进行动态调整。
3.2.3 效能评估引擎
效能评估引擎包括评估指标创建和综合评估两个功能模块,其中评估指标创建模块建立智能化安全事件响应的多维、多因子、多层次的综合效能指标体系,是安全编排方案效能评估的基础和先决条件;综合评估模块基于效能评估指标,对当前安全编排方案和处置执行情况,逐层进行权重计算和量化评估,并输出效能评估结果,为智能推理引擎编排和调整响应方案提供评估支撑。
智能化安全编排与响应系统在实现处置流程自动化控制、安全装备协同处置等机制的基础上,采用了安全编排知识库构建、神经网络专家系统协同推理和综合效能评估等关键技术,为现有SOAR 系统安全编排智能化赋能。
3.3.1 安全编排知识库构建技术
安全编排知识库包含策略决策库和编排规则库,其中:策略决策库的构建是将领域专家知识和安全事件案例进行特征抽象转化,并采用基于前馈多层的人工神经网络进行监督学习,得到数值表示的权值矩阵而形成隐式知识规则,具有并行性、快速性和抗噪性强等特征,更适合决策结论推理;编排规则库的构建是将领域知识、功能关联特性等陈述性知识用JSON 进行形式化表示,并采用易于理解又易于专家推理的“IF-THEN”结构,实现对已知知识关联分析推导的规则表达,能够更好地为安全运维人员提供可解释的规划过程和最终方案说明。
3.3.2 智能化协同辅助编排技术
智能化协同辅助编排技术是综合利用神经网络和专家系统等人工智能技术,协同配合共同完成安全响应剧本的编排和调整。采用神经网络并行推理技术,依托权值矩阵知识库,根据安全事件输入特征快速计算并归类推理出相应的编排策略,以确定后续规则推理方式;采用专家系统推理机技术,依托编排规则库,根据编排策略实现对规则的搜索、匹配和回溯,并结合案例检索算法筛选出的相似案例剧本和本次安全事件属性等信息,形成多个安全响应剧本备选方案,最后根据效能评估结果进行优先级排序,辅助安全运维人员完成方案选择和修正。智能化协同辅助编排技术如图3 所示。
图3 智能化协同辅助编排技术
3.3.3 综合效能评估技术
综合效能评估技术采用层次分析法对有效性、可用性、合规性、安全性、健壮性等安全事件响应能力目标逐层分解,构建多级、多因子“金字塔”评估指标体系,并对各级指标进行比对和权值衡量;然后依据权值计算和指标量化结果逐层进行效能评估,通过综合数值、效能图像对比等方式实现安全编排方案效能评估结果的可视化展示和人机交互。
基于智能化安全编排与响应系统架构实现安全事件响应的处理流程包括安全事件预处理、安全编排智能规划、辅助人工决策和响应处置控制4 个阶段。安全事件响应智能化处理流程如图4所示。
图4 安全事件响应智能化处理流程
3.4.1 安全事件预处理阶段
对接收的安全风险预警进行解析,按需创建安全事件实例,并对当前安全事件信息进行特征抽取,生成安全事件响应需求。
3.4.2 安全编排智能规划阶段
根据响应需求输入的情况,分别执行安全编排规划。当本次响应需求为新建的安全事件实例时,通过和案例库样例特征匹配进行相似案例筛选,如找到相似案例,则在已有案例处置剧本的基础上进行要素调整,否则通过剧本智能编排规划,产生新的备选安全响应剧本;当本次响应需求为已有安全事件实例执行处置后反馈的新增响应需求时,则通过对已有剧本要素的动态调整,产生备选安全响应剧本。
3.4.3 辅助人工决策阶段
系统自动对安全编排智能规划阶段产生的备选安全响应剧本进行效能评估,辅助安全运维人员剧本进行修正调整,形成最终响应剧本,并将剧本和评估结果存储至案例库。
3.4.4 响应处置控制阶段
响应控制引擎依据最终响应剧本动作,执行工单派发、控制指令下发至安全防护装备等管控操作。
面对当前日益严峻的网络安全环境,以及传统的SOAR 系统在应对安全事件响应中安全编排能力的不足,本文设计了基于智能化安全编排的网络安全事件响应架构,将人工智能技术与传统SOAR 系统相结合,提出了安全编排知识库构建、智能化协同辅助编排等关键技术,使安全编排响应由“自动化”向“智能化”转变,可以为新型数字化基建业务网络安全运维提供借鉴。