基于知识图谱的网络空间安全威胁感知技术研究

2022-08-08 01:35:44石波于然,朱健

信息安全研究 2022年8期

石波于然, 朱健

1(北京计算机技术及应用研究所北京 100854) 2(江苏航天七零六信息科技有限公司南京 210012)

网络空间作为继陆、海、空、天之后的“第五维空间”，其攻防对抗正逐步成为国家间对抗的核心要素之一.新形势下的网络空间安全威胁正向着智能化、自动化、规模化发展，安全威胁的种类及危害程度也在快速增长，影响越来越大，影响范围越来越广.

经过长期系统性、针对性的发展，目前传统的安全防护技术已趋于成熟，如访问控制、攻击检测、恶意代码防范等，在网络安全防护中发挥了重要作用，很大程度上减轻了网络攻击带来的损害.然而在网络空间攻防对抗新形势下，安全威胁日新月异，传统安全防护手段的发展已跟不上攻击技术的更新.传统网络安全防护偏重被动防御，属于静态防护，单纯的被动静态防护已无法满足网络空间安全需求，亟需创新安全理念，结合知识图谱、大数据、安全威胁情报等，发展动态主动安全防御技术.

知识图谱技术能够清晰展示网络空间中各类信息主体之间的逻辑关系，如不同攻击之间的关系、攻击与漏洞的关系、漏洞与漏洞的关系、不同安全威胁之间的关系等.知识图谱本质是一种语义网络，由节点和边组成，其中节点代表实体/概念，边代表实体/概念之间的语义关系.运用知识图谱，通过对各类安全主体、安全主体属性以及安全主体关系进行分析，可以判断推理出安全主体之间更深层次的关系.

1 知识图谱应用概况

知识图谱是人工智能技术的重要研究内容之一，依托其建立的知识库具有高效、开放的语义处理能力，在智能推荐、智能问答等场景下得到了广泛应用[1].黄宏程等人[2]、李世宝等人[3]分别基于知识图谱开展了人机交互模型和推荐模型的研究，评估用户与实体交互的概率，给参与交互的人有针对性地推荐感兴趣的内容.

在网络安全领域，知识图谱也得到了广泛应用.国外研究者最早提出并不断完善了网络安全本体论，定义了目标、方式、结果、漏洞、威胁、产品、服务、过程等本体类型[4-5]，明确了资产、风险、威胁、攻击、防御、影响等本体定义[6]，对本体属性进行了扩展，并对本体间的关联关系进行了分析融合[7].国内方面，贾焰等人[8]开展了深入研究，提出了构建网络安全知识图谱的方法和推演规则，利用机器学习以及Stanford NER等方法构建网络安全知识库.陈华钧等人[9]、游瑞邦等人[10]、石波等人[11]、张阳等人[12]、陈佳等人[13]分别将知识图谱应用于内容安全、流规则演化及应用、安全态势预测、网络安全数据组织、DDoS攻击源检测等，在网络安全监测及态势感知、网络安全知识学习及数据分析技术等方面均取得相关成果.齐斌等人[14]提出网络安全知识图谱模型，通过信息熵表征知识图谱复杂度，并提出基于模糊集的知识图谱选择技术.面向威胁情报领域，董聪等人[15]、王通等人[16]开展了相关研究，设计了面向威胁情报的知识图谱构建框架，提出针对威胁情报知识图谱的实体和实体关系深度学习模型，并利用图数据库进行可视化.

安全威胁情报在网络安全防御体系中扮演着越来越重要的角色，但当前安全威胁情报存在来源复杂、不易理解、难以共享等问题.针对这些问题，本文基于受限玻尔兹曼机(restricted Boltzmann machine, RBM)实现威胁情报特征深度学习，将原始威胁情报特征从高维空间逐层向低维空间映射，构建网络空间安全威胁知识图谱，刻画网络空间安全威胁特征以及安全威胁情报之间的关系；进而利用网络空间安全威胁知识图谱，结合当前上下文情境，基于事件流处理进行安全威胁路径演化和追踪溯源，精准感知网络空间安全威胁.

2 基于RBM的网络空间安全威胁知识图谱构建

2.1 知识图谱构建流程

网络空间安全威胁知识图谱构建流程如图1所示,主要包括以下2个过程：

图1 网络空间安全威胁知识图谱构建

1) 安全知识抽取.从网络空间安全威胁情报半结构化、非结构化数据中提取安全实体、安全实体间关系、安全实体属性等知识要素.

2) 安全知识融合.包括安全数据整合、安全实体对齐、安全知识推理、安全本体构建、安全本体质量评估等步骤，消除安全实体、安全实体间关系、安全实体属性等要素与实际对象之间的歧义，最终形成高质量的网络空间安全威胁知识图谱.

2.1.1 安全知识抽取

安全知识抽取主要面向安全威胁情报半结构化和非结构化数据，利用机器学习等技术抽取可用要素，并以此为基础，形成高质量、可理解的安全知识表达.

1) 安全实体抽取：实体是知识图谱中的最基本元素，其抽取的准确性、完备性等将直接影响网络空间安全威胁知识图谱的质量.

2) 安全实体间关系抽取：安全实体间关系刻画实体间的语义链接，需要提前定义安全实体间的基本关系类型.

3) 安全实体属性抽取：安全实体属性形成对实体的完整描述和表达.

2.1.2 安全知识融合

网络空间安全威胁情报数据来源广泛，导致数据冗余严重甚至存在错误，且不同安全实体间的关联关系复杂且隐蔽，因此必须进行安全知识融合.即构建安全知识规范，形成统一、完整的知识基本表达，在此基础上对多源数据进行除错、去重、关联、验证、更新等操作，最终形成高质量、可理解的网络空间安全威胁知识图谱.具体包括以下几个步骤：

1) 安全实体对齐.消除异构数据中冲突、歧义等问题，创建统一知识库并不断学习更新，支撑海量多源异构数据学习，形成高质量知识.

2) 安全本体构建.安全本体通过树状结构呈现，其中相邻节点之间具有严格的包含关系.通过构建本体库而形成的知识图谱具有理解性强、层次性强、冗余度低等优点.

3) 安全本体质量评估.与安全实体对齐一起进行，通过对知识的置信度、准确度进行量化，支撑对知识的更新维护，有效确保知识质量.

4) 安全知识更新.包括模式层与数据层的更新.模式层更新是安全本体元素的更新，包括概念的增加、修改、删除，概念属性的更新以及概念间关系的更新等.数据层更新是安全实体元素的更新，包括安全实体的增加、修改、删除以及安全实体属性的更新.

5) 安全知识推理.在已有的网络空间安全威胁知识图谱的基础上进一步挖掘隐含的知识，达到不断丰富、扩展、完善知识图谱的目的.安全知识推理的对象可以是安全实体、安全实体属性、安全实体间关系等.安全知识推理需要大量关联规则，关联规则的形成主要基于对安全实体以及安全实体间关系的持续深度学习.

2.2 知识图谱构建实现

利用深度学习构建多层次、结构性的网络空间安全威胁知识图谱能够体现知识图谱的结构性特征，使得图谱具有较低的维度和较高的抽象层面.网络空间安全威胁知识图谱构建是一个无监督自动特征学习过程，其深度学习模型如图2所示.该模型含有多个隐藏层，从第1个隐藏层到第k个隐藏层逐层单独训练，节点数目逐层减少.相邻层的节点之间存在连接关系，层内以及跨层的节点之间没有连接，连接强度用连接权重表示.

图2 网络空间安全威胁知识图谱深度学习模型

RBM是一种2层的神经网络模型[17]，包括可视层和隐藏层，能够有效完成从高维空间到低维空间的编码.鉴于网络空间安全威胁知识图谱构建正是需要将原始威胁情报特征从高维空间向低维空间映射，且要实现多层映射，因此本文采用多个层叠的RBM实现深度学习模型，获取网络空间安全威胁知识图谱.RBM网络结构示意图如图3所示:

图3 RBM网络结构示意图

设有n个可视节点和m个隐藏节点(m

采用多个层叠的RBM将高维威胁情报特征降维，每层RBM的威胁情报特征输出作为下一层RBM的输入.具体来说，首先训练第1层RBM，输入无标定的威胁情报数据，该层的可视层具有n1个节点，处理后生成m1个节点，若m1

单层RBM训练算法流程描述如下：

1) 初始化

① 给定威胁情报特征训练样本集合S(|S|=n)；

② 给定训练周期J和学习率η；

③ 指定可视层和隐藏层的节点数目n和m；

④ 初始化偏移量集合V,H以及权重矩阵W；

2) 训练(循环J次)

⑤ 输入S,W,V,H，采用多个层叠的RBM构成的深度学习模型进行训练，输出训练后的偏移量集合和权重矩阵，分别用ΔV,ΔH和ΔW表示；

⑥ 调整参数：W=W+η(ΔW/n),V=V+η(ΔV/n),H=H+η(ΔH/n)，重复步骤⑤.

3 基于知识图谱的网络空间安全威胁感知

3.1 安全威胁感知流程

3.1.1 安全威胁路径演化

基于网络空间安全威胁知识图谱对输入的安全威胁事件进行分析，可以实现网络空间安全威胁路径演化.具体流程如图4所示.

输入安全威胁事件，并按照实体、实体属性、实体间关系3种层次结构进行解析，便于知识图谱进行规则匹配和推理演化.路径推理演化的本质是计算可能的威胁演化路径概率.自定义概率阈值，若威胁演化路径概率高于阈值，则表示网络安全威胁事件极大可能已经发生，进行安全实体智能检索，记录推理路径，并判断该网络实体是否为重要网络资产(如关键主机、服务器等).若是重要网络资产，则立即发出威胁告警；否则，继续进行路径推理演化，重新计算威胁演化路径概率.若威胁演化路径概率未超过阈值，则表示网络安全威胁事件尚未发生，结束路径推理演化.

图4 基于知识图谱的网络空间安全威胁路径演化流程

3.1.2 安全威胁追踪溯源

与基于知识图谱的网络空间安全威胁路径演化类似，基于知识图谱的网络空间安全威胁追踪溯源是对已发生的网络空间威胁事件进行逆向推导.具体流程如图5所示.

输入已发生的安全威胁事件，并按照实体、实体属性、实体间关系3种层次结构进行解析.同样经过概率计算，判断概率是否超过自定义阈值.如果未超过阈值，则完成推理；否则，进行安全实体智能检索，并记录推理路径.在获取安全实体后，检索已发生的历史安全威胁事件中是否存在与该安全实体相关的事件.若存在相关安全威胁事件，则对检索出的历史安全威胁事件继续进行路径推理演化；若不存在，则完成推理.

图5 基于知识图谱的网络空间安全威胁追踪溯源流程

3.2 基于事件流处理的安全威胁分析

事件流处理引入多事件复杂关联模式分析，包括事件继承、事件相关、事件因果关系等.事件流处理模式与数据库管理模式不同.数据库管理模式中的数据是静态的，逻辑关系随需求而变动；事件流处理模式中已定义的行为模式是静态的，数据是动态变化的.事件流处理流程如图6所示.

图6 事件流处理流程

事件流处理引擎支持事件流实时查询、计算、过滤、关联等动作.事件流处理引擎采用在线分析技术，实时输出安全威胁分析结果.在事件流处理模式下，基于网络空间安全威胁知识图谱构建关联规则，每当有符合知识图谱模式的事件流经引擎时，都能够触发某些行为模式，从而实现对安全威胁的实时检测，并反馈给用户.

基于事件流处理的安全威胁事件分析主要采用树结构进行，树结构能够将安全威胁事件之间的时序性、过程性等图谱特征表达清楚.图7为基于网络空间安全威胁知识图谱构建的某种关联规则树，节点表示安全威胁事件，节点之间的连线表示安全威胁事件之间的顺序.图7中，R2和R6为R1之后的安全威胁事件，R3，R4和R5为R2之后的安全威胁事件，R7和R8为R6之后的安全威胁事件.

图7 安全事件关联规则树

图8 处理单元结构

1)rulename：关联规则名称.

2)src_ip：源IP.

3)dst_ip：目的IP.

4)dst_port：目的端口.

5)plugin_sid：信息类型.

6)protocol：协议类型.

7)timestamp：安全威胁事件发生的时间戳.

8)timeout：时间窗口，表示与上一级安全威胁事件的时间间隔.

9)success：安全威胁事件发生概率，值越大，发生概率越高.事件流处理过程中，越接近叶子节点，该值越大，安全威胁事件发生的可能性越高.该值通过规则触发来改变.

10)importance：安全威胁事件的严重程度.

基于事件流处理的安全威胁分析将安全事件关联规则树转换为事件流处理引擎能识别的数据流处理语言.事件流处理引擎将流经的安全威胁事件与关联规则进行快速模式匹配分析，从而发现符合网络空间安全威胁知识图谱的安全威胁事件.事件流处理引擎运行在实时流计算平台上.事件流处理引擎中的处理单元包含4个组件：过滤器、触发器、关联器和攻击重计算.处理单元结构如图8所示.

过滤器负责除杂和分流的任务；触发器根据上级分析结果判断是否需要触发下级的分析执行；关联器按照规则(即知识图谱特征)对安全威胁事件进行关联分析；攻击重计算是对当前安全威胁事件进行重新评估，即依据当前环境和安全威胁事件综合计算安全威胁值，从而有效反映当前安全威胁事件对于特定目标的威胁性.

处理单元只能处理简单的安全事件，复杂的安全威胁事件分析需要串联多个处理单元，形成复杂处理结构.复杂处理结构能够实现安全威胁事件上下文关联，如图9所示.

图9 复杂处理结构图

4 实验验证

4.1 实验环境搭建

搭建网络模拟环境，网络中配套部署部分业务系统和安全设备/系统.基于大数据基础平台，对网络中的全局安全日志、终端日志、审计日志等进行采集、归一化和存储，并进行网络空间安全威胁知识图谱构建和安全威胁分析、预测和可视化.在模拟环境中部署网络攻击工具，模拟网络攻击威胁，对比本文提出的基于知识图谱的安全威胁感知方法与传统威胁检测方法的准确率，并以可视化方式呈现给用户.网络模拟环境如图10所示.

模拟环境涉及的设备和系统清单如表1所示.

表1 模拟环境设备/系统清单

4.2 构建网络空间安全威胁知识图谱

选取互联网开源威胁情报数据集malware-traffic-analysis作为数据源[18].该数据集包含2013—2020年的所有威胁情报，总计1 837个文本型威胁情报集合，30 000余条威胁情报.

采用本文提出的基于RBM的网络空间安全威胁知识图谱构建方法，对malware-traffic-analysis中的结构化、非结构化情报进行清洗和处理，耗时13min32s，形成完全独立的安全威胁知识图谱1 137个，覆盖全部1 837个文本型威胁情报集合以及所有30 000余条威胁情报，并且通过关联规则挖掘出3 564条新的安全威胁特征.

4.3 安全威胁感知准确率对比

选取数据集CICIDS 2017作为本文实验的威胁样本集，CICIDS 2017可实现的攻击包括暴力FTP、暴力SSH、DoS、Heartbleed、Web攻击、渗透、僵尸网络和DDoS等[19].CICIDS 2017是一个通用规范的数据集，现有主流的威胁检测方法均能达到95%左右的检测准确率.因此本文重点关注高强度、高速率下的检测准确率，即以多倍速率不断重放该威胁样本集.

将CICIDS 2017按照不同速率进行多次重放，分别为正常速率、2倍速率、4倍速率、8倍速率、16倍速率以及32倍速率.分别采用本文构建的基于事件流处理的安全威胁分析方法和传统威胁检测方法进行检测，并对检测准确率进行对比，如图11所示：

图11 检测准确率对比

由图11可以看出，在4倍速率以下的威胁模拟情况下，本文方法检测准确率略低于传统方法.在4倍速率以上的威胁模拟情况下，传统方法由于是基于线性规则匹配的，检测准确率出现严重下滑，在16倍速率下不足70%，在32倍速率下甚至不到50%.本文方法在16倍速率下接近85%，在32倍速率下仍能高于70%，说明基于安全威胁知识图谱的匹配能够满足高强度安全威胁下的感知需求.

5 结束语

基于知识图谱的网络空间安全威胁感知技术能够将原始威胁情报特征从高维空间逐层向低维空间映射，实现对安全威胁的高效精准感知，并且感知结果具备高度的可理解性，为网络空间对抗新形势下的安全威胁检测提供了一个新思路.下一步工作将探索证据理论与安全威胁知识图谱构建算法的结合，对硬件资源进一步扩展，以提升威胁感知在实际环境中的准确度和感知更高强度的安全威胁.