网络空间对抗防御中的智能监测技术研究*

2021-12-09 11:28郭世泽王小娟何明枢任传伦俞赛赛
信息安全与通信保密 2021年11期
关键词:网络空间威胁分类

郭世泽,王小娟,何明枢,任传伦,俞赛赛

(1.北京邮电大学 网络空间安全学院,北京 100876;2.北京邮电大学 电子工程学院,北京 100876;3.中国电子科技集团公司第三十研究所,四川 成都 610041)

0 引 言

随着网络和信息化技术的发展,网络空间数据规模体量爆炸式增长、内涵外延边界裂变式衍生、与实体空间铰链式耦合,网络威胁呈现通信加密、分片传输、特征频变、时序混淆、深度伪装、行为混杂等特点,网络安全防御面临威胁看不全、看不完、看不到、看不懂等一系列问题。作为网络大国,我国网络防线表现出大纵深、线长、面宽、点多等特点,面临的网络安全威胁形势越来越严峻。传统基于时域、依赖先验知识的威胁监测方法存在分析效率低、准确率低、误报率高等不足,难以应对国家网络空间大规模数据分析和不断演化涌现的网络安全威胁,亟待从新的视角和对抗性思维理解中认识网络空间和防御问题,提出新型的网络空间数据流观测与威胁行为分析理论,指导生成智能化的威胁监测方法,精确发现预判网络空间安全隐患和识别预警国家级网络威胁,提高我国网络空间防御水平。

当前面向网络流的主要分析方法是针对流数据的原始分布展开研究,通常以同一五元组确定的一条网络流作为研究对象,一条网络流由多个网络数据包组成,而在一次网络连接、传输过程中,如果流数据在分布、统计上与大部分背景流量存在较大的差异,那么就可以认为流数据有着异常的分布;如果流数据的分布或特点符合先验知识,那么网络流将被识别处理。可以看到,已有方法主要聚焦网络流在原始时空域空间中的分布分析,如果在时空域上网络流的分离性和表征性有限,那么即时训练的模型或规则很难达到满意的检测效果。亟需加强基础创新研究,提出新的理论来刻画描述网络空间数据流、表征分析各类网络行为,解决大带宽、小样本、频演化、流加密等条件下的威胁分析难题。

我们认为,应该在现有防御体系的基础上,用对抗性的思维和视角,去审视思考网络空间防御,进而提出“流谱”的概念。定义:“网络空间中,可观测的复杂网络流按照某种时域到某变换域的映射方法,形成的可分离、可解释、可计算的特征表示集合,称之为网络流谱,简称流谱。”具体到网络空间防御应用方向,又具象成“行为谱”,即“以网络行为作为表征向量的流谱”。这样,如果把网络正常行为作为基线,那么“行为谱”可以直接推导出“威胁谱”,从而实现对网络威胁的高效分析。

具体而言,本文聚焦网络空间防御中智能检测及流谱空间中的表征技术开展研究,结构如下:第1节提出对抗防御理念并分析其内涵,第2节从方法、场景、应用性等方面对现有网络流智能检测技术现状进行分析对比,第3节提出流谱基本理论,给出流谱、变换域空间的定义及网络流特征矩阵、流谱变换域的数学表示,第4节从可分离性、表征性出发,给出面向流谱变换的指标评估体系,基于公开的CICIDS2017数据集对提出的流谱理论进行仿真实验验证,第5节总结全文。

1 对抗防御及当前安全问题描述

按照安全机理不同,网络空间防御可被划分为内生防御、保护防御和对抗防御3种。其中,内生防御是指依靠网络自身构造和运行因素而产生及演进的安全效应和能力,来遏制和抗击网络威胁或破坏行为。保护防御是指在网络空间发生的,利用访问控制、入侵检测、应急响应等方法,遏制和抗击网络空间威胁或破坏行为。对抗防御是在网络空间发生的,发现、定位、溯源、预警、处置、遏制和反击敌在或通过网络空间产生的威胁或破坏行为的各类措施与活动。其中,对抗防御主要用于有效遏制国家级、大规模、高隐蔽攻击威胁,主要包括以下特点:

(1)非合作或弱合作条件防御。合作指的是被防御者与防御者之间的配合程度。一方面,大量的被防御者出于政策、体制、思维模式等考虑,不提供相应配合;另一方面,过度要求被防御者的配合,也会影响到被防御者的正常业务,为此,网络空间防御的大量业务会在非合作或弱合作的条件下开展。这是思考和认识对抗防御的基本出发点。

(2)网络空间状态可观测。在弱合作和非合作条件下开展对抗防御,就必须对网络空间的状态进行掌握,如何对庞大的空间状态进行掌握,需要在现有监测手段的基础上,提出一种新的空间观测思路,能够满足在带外对空间状态掌握的需求。

(3)融入网络空间防御大体系。对抗防御是一种新的防御视角和模式,是现有防御体系面对新威胁时必然产生的延展和加强,与现有体系相辅相成,互相支撑,共同见效。

因此,我们认为网络空间需要建立完善的对抗防御机制,将攻击、威胁、恶意行为进行针对性刻画,在弱合作网络中实现异常行为检测。

2 网络流智能监测技术综述

目前,各类机器学习、深度学习技术和统计方法常被用于构建不同类型的入侵检测系统来保护网络。根据关注的研究点不同,现有研究大体可以归为3类:一是关注修改模型或方法,用于提升数据集分类及检测准确率;二是关注应用场景,例如小样本检测、非平衡数据、网络流数据增强、特征筛选过滤等;三是关注技术方式,如使用无监督、半监督、自监督等非完全监督式学习方式进行检测,具体内容如表1所示。

表1 现有网络流监测研究工作汇总

续表

2.1 基于模型及方法创新的网络流监测研究

关注模型以及方法创新的网络流检测技术,往往从模型的结构出发,对成熟的机器学习、深度学习算法进行修改、优化、更新,以提升模型鲁棒性、泛化性并最终提升检测性能和准确度。

Yin等人[1]基于递归神经网络的检测系统的二分类和多分类性能均优于传统分类方法,提高了入侵检测的准确性,为入侵检测提供了一种新的研究方法。Wang等人[2]首次对加密的网络流分类域应用端到端方法,提出了一种具有一维卷积神经网络(One-Dimensional Convolutional Neural Network, 1D-CNN)的端到端加密网络流分类方法,并在公开数据集上验证了其有效性。文献[3]和文献[4]利用支持向量机和贝叶斯等方法,对支持向量机的参数进行优化,提高了异常检测的精度和准确度。文献[5]和文献[6]通过深度学习的方法提升了入侵检测的准确性。Waskle等人[7]提出了一种利用主成分分析和随机森林分类算法来开发高效入侵检测系统(Intrusion Detection System,IDS)的方法。其中,主成分分析(Principal Component Analysis,PCA)将通过减少数据集的维数来帮助组织数据集,可以获得更高的精度。Bassene等人[8]设计了基于图的物联网流分类方法(Group-based Internet of Things Classification,GBC-IoT),能够通过网络流分析识别连接的物联网设备,处理开销更小,准确率更高。Kwon等人[9]给出了基于深度神经网络(Deep Neural Network,DNN)的网络数据自动分类的初步结果,验证了DNN对网络数据分类的潜在有效性。文献[10]和文献[11]分别提出了基于稀疏自编码的随机森林检测方法和优化卷积神经网络(Convolutional Neural Network,CNN)和分层多尺度长短期记忆网络(Long Short-Term Memory,LSTM)统一模型,提高了检测的准确率。

基于模型及方法的网络监测绝大部分有着较高的准确率、召回率等分类评估结果,但仍然存在着资源消耗过大、模型过拟合以及应用场景单一等问题。如Yin等人[1]提出的递归神经网络模型会花费更长的训练时间,通过GPU加速才能得到降低;文献[3]和文献[4]需要大量的迭代计算才能确定向量机的参数,同时这些方法在针对不同场景时往往无法迁移,其对数据的要求较高,可迁移性不强。

2.2 基于特定应用场景的网络流监测研究

由于现有方法普遍对特定数据集和场景有效,对于广泛网络流检测效果有限,所以针对特定场景、特定应用问题的相关研究也被提出。

有研究[12-14]针对物联网网络流进行分析,分别提出了新的基于深度学习模型的网络流分类(Network Traffic Classification,NTC)技术、合成少数类(Synthetic Minority Over Sampling Technique,SMOTE)技术以及进化神经网络(Evolutionary Neural Networks,ENN)的模型机制,在数据集上的测试结果表明,检测的准确率和精确率得到了提升。有研究[15-20]针对网络流分类的问题,分别提出了基于分组字节的两级结构卷积神经网络、评估审查技术(Program Evaluation and Review Technique,PERT)框架、基于网络仿真器(Mininet)的简单网络拓扑仿真框架、基于虚拟连接(Virtual Connection)的智能系统原型、深度学习模型以及二值分类的方法,在实际的分类测试中对于相应的数据集均取得了较高的准确率。Xu等人[19]提出了一种基于混合深度神经网络的低速拒绝式服务(Low-rate Denial of Service, LDoS)攻击检测方法。对实际数据集的测试结果表明,该方法只需要统计网络流的时间就能够有效检测出波动HTTP网络流下的LDoS攻击。Raikar[21]实现了自动化的网络资源管理,减少了人为对流量表征和分析的干预。

针对不同应用场景,网络流监测的模型及方法在实验仿真中都有较好的分类效果,但在实际应用中仍然存在性能较低的情况。以上提出的流量监测方法绝大部分是在实验室环境内使用公共数据集进行测试和验证,对于在现实场景中的表现还不清楚。例如,Zhou等人[14]就明确提出面对更加复杂的应用环境,需要在现实场景中进行进一步的测试与调整。而且如Yu等人[20]所述,某些低频攻击在实际场景中可能会产生更大的威胁,但是目前的大部分方法对其的检测性能较差。

2.3 基于学习方式的网络流监测研究

网络流精准检测往往依赖大量的先验知识,这导致必须要有大量的标注数据才能达到满意的识别效果,所以大量研究者将无监督、半监督、自监督等非完全监督式学习方法用于数据流监测。

文献[22]、文献[23]和文献[24]各自提出了一种半监督方案,可以根据协议、应用程序和攻击类型等角度对这些网络流进行检测及分类。Yang等人[25]将改进的条件变分自动编码器(Improved Conditional Variational AutoEncoder,ICVAE)与DNN相结合,该方法在少数攻击和未知攻击中也具有较高的检测率。文献[26]、文献[27]和文献[28]分别提出了基于卷积神经网络的有效载荷分类方法和基于递归神经网络的有效载荷分类方法、DeepMAL模型以及无监督学习聚类方法BiGkmeans,无需特征方程以及专家的手工制作,即可实现网络入侵检测。有研究[29-35]分别采用了基于信息增益和多层感知器神经网络的轻量级网络IDS、基于相似度的模糊熵加权K最邻近(K-Nearest Neighbor,KNN)的网络流攻击检测方法、深度神经网络和关联分析技术、深度并行网中网模型、深度聚类算法与BIRCH聚类算法相结合、深度学习以及叠加的深度神经网络,通过有监督学习方式对网络流进行分类,提高网络入侵检测的准确性。

基于网络流分类研究了各种有监督、半监督和无监督学习方式。在该过程中,需要对数据集进行测试和验证,要求模型采用的数据集尽可能完善,包含所有的攻击类型,这将直接影响其分类效果。然而,目前还存在及时完善的数据集难以获取的问题。在模型测试中,Li等人[22]、Yang等人[25]、Hemalatha等人[34]都采用了多种数据集进行模型的训练和测试,Gao等人[24]采用比KDD99数据集更全面的NSL-KDD数据集进行测试。但同时,全面数据集的构建往往需要大量的资源和高水平的专家知识,可能会导致资源消耗过多的情况。

从当前的研究内容和方法中可以得到,相比于图像、语音、信号等数据,网络流的监测往往需要对数据更高的理解程度;对数据的表征性、泛化能力要求更好;对特定行为的刻画能力要求更高,这也对设计一种新的网络流表征与监测方法提出了更高的要求。

2.4 公开科学问题分析

网络流威胁检测是网络防御的重要内容,而网络流的特征表征是完成网络流威胁检测的基础性科学问题。分离度高、表征性强的特征是网络行为检测分类的基础,通过规则、模型、方法、技术去弥补数据复杂性带来的不足所起到的作用是十分有限的。对当前一些网络流智能监测技术进行分析,可以看到这些方法在特定数据集上已经有出色的表现,优化在原数据流上进行分析的方法对任务带来的性能提升比较有限。因此,本文考虑从频域、空频域的变换域分析出发,构建流谱理论实现对网络流的进一步表征,流谱理论将提供以下科学问题的解决思路:(1)建立不同威胁行为的流特征泛化模板,应对不同背景流量下威胁形式多变性问题;(2)研究多场景应用中的表征矩阵,达到对网络流的本质性理解,提升表征矩阵的表达性、可解释性、可观测性;(3)构建对训练数据依赖度低的网络流行为检测分类策略,减少对网络行为数据标注的数量及质量要求。

3 流谱理论提出

3.1 流谱定义及变换域空间

在网络空间中,可观测的复杂网络流按照某种时域到某变换域的映射方法,形成的可分离、可解释、可计算的特征表示集合,称为网络流谱,简称流谱。行为谱是以网络空间中的网络行为作为表征的流谱,以正常网络行为的行为谱作为基线,可以区分出异常网络行为的威胁谱。流谱空间的构建过程,考虑将原数据域网络流映射到新的变换域上,从变换域进行分析,找到更加本质性的网络空间行为分析谱,基于流谱理论刻画网络行为谱、威胁谱。

域,一般指数域,设C是由一些复数组成的集合,其中包括0与1,如果C中任意两个数的和、差、积、商(除数不为0)仍是C中的数,则称C为一个数域。常见的数域包括复数域、实数域、有理数域等。在数域的基础上,扩展衍生出许多其他域,例如,描述数学函数(物理信号)对时间关系的时域、描述二维图像的空间域以及描述信号随频率变化关系的频域等。本文提出了面向网络流时域、空域、频域、空频域的流特征表达及分析过程,如图1所示。

图1 流谱理论中的网络流分析域变换框架

网络流一般由不同数目的网络包组成,其与信号、光、图像的表示都有一定的差异,在这里,定义网络流的原域空间为F,其表示了网络流最基本的表示形式,而流谱空间则是原始网络流的变换域空间,用S表示。针对不同的网络威胁、攻击或行为,本文提到的流谱空间变换可以分为一维时域变换、二维空域变换,其分别针对网络流的一维时域输入f(t)以及二维空域输入f(x,y),那么流谱空间的变换描述如表2所示。

表2 流谱空间变换描述

其中,f(t)是输入网络流时间特征矩阵(一维矩阵,向量),f(x,y)是输入网络流空域特征矩阵,r(t,v)、r(x,y,u,v)为正变换核,s(x,y,u,v)为反变换核,t表示网络流特征的时间变化序列,v表示变换域上的映射序列,N表示离散时间序列的数目上限。T(u,v)为f(x,y)的正变换,给定T(u,v)后,可以用T(u,v)的反变换还原f(x,y)。

由此,就可以完成不同情况下的网络流原域空间向变换域空间的变换,如果有:

则变换过程是可分的,同时,如果有:

那么变换过程就是对称的。

3.2 网络流特征矩阵

在对网络流进行流数据清洗、网络流切片等数据预处理后,对于不同攻击技术,分析各种攻击技术特征,可以构建其特征矩阵。下面完成了对网络威胁特征矩阵F的构建。

(1)攻击战术矩阵a:首先,对网络威胁进行攻击战术划分,构建攻击战术行向量。将涉及的攻击战术置1,不涉及的置0,可以得到攻击战术行向量为a。

(2)攻击技术矩阵t:其次,进行攻击技术关联,构建攻击技术矩阵。对照攻击战术与攻击技术表,将涉及技术置1,不涉及的置0,即可得到攻击技术矩阵为t。

(3)网络流特征矩阵s:通过分析数据集的报文,可以提取网络流数据的五元组、包大小、包持续时间,然后进行流数据清洗,去除无关数的数据,并对不同网络包重复上述过程构成包序列特征集合,最后,经过特征提取和排列得到网络流特征矩阵。将网络流包按时间划分为n个阶段,其中n即为矩阵的t列数,通过观察包头元素熵变情况等方法,提取每个阶段的网络流包组的原子攻击行为,得到网络威胁的流特征矩阵s。

最终,结合得到的攻击战术行向量α、战术关联的攻击技术矩阵t和网络流特征矩阵s,通过网络威胁表征矩阵的计算公式创建最后的目标矩阵,计算过程为:

上述求解过程中,a·t代表网络威胁的隶属关系,s代表网络威胁的流特征,F代表对威胁攻击的表征。将网络威胁的攻击战术与攻击技术进行关联,从可拓展的攻击技术池中提取攻击战术对应的攻击技术,构建有映射关系的攻击技术矩阵。通过提取的网络攻击流特征,可以使每种攻击技术映射到相应的技术特征,构建技术特征矩阵。通过3个矩阵的构建,可以完整地表征出网络威胁的攻击战术,以及每种攻击战术所对应的攻击技术,每种攻击技术所产生的特征表现。最终得到的网络威胁表征矩阵反映了该攻击对于网络流特征的影响,作为区分该攻击与其他网络威胁的依据。

3.3 流谱变换

首先,对流谱变换的过程进行介绍。假设在原数据空间中,一个网络流特征向量表示为Xe,在当前空间域下进行空间变换(平移、翻转或其他复杂操作)映射到新的空间上,在新的空间上,其被表示为Xe',那么从原空间上的表示Xe映射到新的空间上的表示Xe'的过程就称为基变换。假设变换空间上基向量e'使用原域二

维空间中的基向量e可以表示为:

则可以通过基向量的映射关系,求得:

那么这个变换过程就可以用上式中的矩阵表示,其包含了由原向量空间向变换域空间映射的过程,可以称为原域到变换域的变换矩阵。也就是说,对于二维空间中的一种变换过程,可以通过矩阵表示出来,实质上是两个基向量的系数组成的矩阵,可以称为系数矩阵或表征矩阵。

同理,将基于基向量的变换映射到基于矩阵的变换上,就可以找到矩阵的变换基。其变换的目的是:改变原数据的表现形式,原数据并没有发生改变。针对矩阵的变换域空间,可以从线性映射变换给出定义。假设有M个N维向量,将其变换为由R个N维向量表示的新空间(空间变换域)中,则可以将原空间向量表示为一个矩阵F,而新空间的变换核表示为:

其中,pi是一个行向量,表示新的变换域空间上的第i个基向量,qj是组成原矩阵的列向量,那么就可以实现式(8)描述的映射关系,这样矩阵F就完成了从一个变换域映射到新的空间

S的过程:

由于其变换过程中的算子为相乘,完成了矩阵的基本线性映射,也就是说,对于一个原域空间上的矩阵,都可以看作由n个列向量组成,那么对矩阵的变换映射实际上就是对每一个列向量做新的空间S上的基变换映射,任意一个网络流(表征为矩阵形式)都可以被表征到另一个空间中,而对于更复杂的情况,定义一个新的算子Δ,对于网络流矩阵:

其中,F表示原始网络流特征矩阵,Score表示新的空间S上的一组基,S就是矩阵在变换域上的系数矩阵,通过系数矩阵可以对原域空间上的行为进行表达。

在现有网络流监测研究工作中,涉及变换域的绝大多数为时域变换,应用卷积神经网络对网络流进行监测时,多基于二维时域变换,采用二维卷积核来提取特征。文献[20]将多个卷积池模块与具有字节友好大小的多个过滤器进行级联,形成两层架构:第一层堆叠多个卷积池模块,以从每个分组的字节中提取特征;第二层使用一层二维卷积滤波器将在包数的维数上执行卷积操作的滑动,提取包级的特征。文献[26]提出了一种基于卷积神经网络的有效载荷分类方法,其结构中包含3个卷积层:第一卷积层从原始数据中提取底层特征;第二卷积层从低级特征中提取高级特征,其卷积核大小逐渐减小;第三卷积层重新调整卷积核尺寸后提取更精细的特征。由此可见,每个卷积层都包含不同维数大小的二维卷积核,从单个角度提取特征。

4 面向流谱变换的指标评估体系

针对流谱构建过程中的变换映射过程,需要构建一个合理有效的评估体系,完成流谱空间同构过程的可靠性判断,以提高流谱对网络流的表征性,并提升检测的准确率,降低冗余度。本节将对流谱理论指标评估体系进行讨论,主要从可分离性和表征性两个方面展开。

(1)可分离性:可分离性描述了在一个拓扑空间里,任意的点、子集等彼此之间能被不相交的开集分开的程度。在流谱理论中,主要讨论基底表征矩阵的可分离性,可以分为面向数据和面向结果的可分离性问题。

①面向数据的可分离性:针对数据的可分离性,高维数据通过数据压缩后映射到低维子空间,此时针对低维数据进行可分离性的分析更直观。可分离性可以从两种分布来考虑:一是同类特征空间压缩类内间距尽可能小;二是不同类特征空间拉伸类间空间尽可能大。为了度量这种特征占据空间的大小,可以采用编码长度公式来进行测量。常见的编码长度测量方法如表3所示,其中,A和B为两点,其坐标为A(x1,y1),B(x2,y2)。

表3 常见编码长度测量方法

②面向结果的可分离性:面向结果的可分离性是指将基底矩阵数据送入单层感知机、循环网络等可分类网络中,依据精确率、准确度等度量指标直接从分类结果上判断数据是否存在可分性,常见的分类度量指标如表4所示。

表4 常见分类度量指标

其中,TP表示被正确分类的正例的数量,FP表示负例被错分为正例的数量,FN表示正例被错分为负例的数量,TN表示被正确分类的负例的数量。

精确率是针对预测到的向量化的特征而言的,指在所有被预测为正的样本中实际为正的样本概率。召回率是针对原始数据而言,在实际的特征提取并向量化后,得到的结果与预测所能向量化的结果的概率。准确率是指对于给定的测试数据集,分类器正确分类的样本数与总样本数之比,代表分类器对整个样本判断正确的比重。F1分数是精确率和召回率的调和平均数,综合对精确率、召回率进行评估。

精确率、召回率和准确率是机器学习、深度学习研究领域中最为常用的评估指标。Anish等人[4]对比了入侵检测系统采用不同分类方法下的检测性能,选取准确率作为评估指标,对比分析后发现支持向量机(Support Vector Machines,SVM)算法相比朴素贝叶斯算法对于恶意网络流的分离度更好。Bendiab等人[6]提出了一种新的物联网恶意软件流分析方法,选取精确率、召回率和准确率进行评估,证明了其检测恶意软件流的有效性。

在流谱理论中,基底矩阵的分离结果将直接影响空域上对于网络流行为的表征。从分离结果来看,可以将基底矩阵送入分类模型中,根据精确率、召回率、准确率、F1分数等分类度量指标评估可分离性。

(2)表征性:表征性是指在将原始数据转换成应用数据的过程中,应用数据更容易被有效分析利用的程度。

流谱理论旨在将网络空间“流”从“时域”映射到“频域”,将不同类型的业务行为固化成“谱”,然后在流谱空间上对网络空间流进行有效直接的观测、分析,从而对所有行为进行归类表达,凸显异常行为,把握整体安全态势。在这个转换映射过程中,流谱空间信息流的表征性将直接影响业务行为归类的准确性,由此,需要综合评估流谱空间信息流能够被理解、能够使用可认知方法进行解释呈现的程度,可解释性越高,表征性也就越高。

机器学习算法可以看成是一个黑盒子模型,训练数据流入黑盒子,训练出一个函数(模型),输入新的数据到该函数得出预测结果。关于模型的可解释性,可以通过一些与模型无关的可解释模型,对原本的黑盒模型进行解释,并生成度量值作为度量空间的组成部分。常用的评估方法如表5所示。

表5 常见可解释评估方法

a(i)为样本i到同簇其他样本的平均距离,b(i)为样本i到其他某簇的所有样本的平均距离,Jcv(θ)为高偏差时交叉验证集代价函数,Jtrain(θ)为测试集代价函数,M是针对树模型分析中树的数量。

5 流谱理论在对抗防御中的可行性验证

本节在网络威胁数据集上,对流谱理论在面向针对性威胁的对抗防御场景中的应用可行性进行验证。实验中,选取了包含不同攻击类别的网络流数据集进行流谱映射实验。通过应用可行性分析证明利用流谱理论构建网络对抗防御体系的有效性。使用的数据集中包含了普通的和常见恶意网络流,以PCAP包的形式存储,实现的攻击包括暴力FTP、暴力SSH、DoS、Heartbleed、Web攻击、渗透、僵尸网络和DDoS。每个样本数据包含80多个特征。

从优化目标出发,在划分的训练集上显式构建多层映射网络,正向构建可解释模型并将原始特征映射到新的变换空间,完成500次迭代过程。

在多层映射网络模型构建完成后,将特征矩阵同构到新的变换空间中,其数据的分离性得到了明显的提升,如图2所示。

图2 流谱热力图

在原始网络流热力图中,不同类别的流之间存在不同程度的相似度,在经过流谱的同构映射后,不同类别网络流间的相似度被削弱,在图2中表现为只剩下对角线上的网络流(同类间)存在相似性。模型在已优化目标的指导下,通过增大不同类别数据间的间距、减小相同类别数据距离等方式将网络流映射到一个特征相对独立的子空间中,在这个映射空间中不同类别的流以很低的相似度独立。本节实验也是流谱理论在原始流特征数据上的最基本变换映射分析,其在网络流行为分析任务中具备一定可行性,后续将继续研究其在频域、空频域上的变换,并对其可行性进行讨论,主要目标包括:(1)在时域上完成网络流特征提取,得到网络流特征向量或矩阵;(2)完成特征矩阵的空域映射,并找到一组空域变换基底矩阵,对基底的表征性进行评估并分析正交性及完备性;(3)对时域到频域上的一维变换、空域到空频域上的二维变换理论进行研究,分析傅里叶变换、拉普拉斯变换、小波变换等基本变换的特点以及其在流谱空间上的有效性;(4)从群、环、域出发,分析流谱理论变换空间的基本性质。

6 结 语

面对复杂的网络环境,流谱理论旨在建立全新的防御视角,发展类平行空间的视角维度,实现对网络空间威胁的全流程智能监测。首先,基于攻击类型将网络威胁进行分类,将产生的特征通过构建矩阵的方法联系起来,产生映射关系。其次,从原子攻击行为、文本内容特征、网络流统计特征和协议连接特征等多个角度入手,提取表征网络威胁攻击技术的复合指标,并构建网络威胁攻击技术矩阵。由此,在网络威胁分类的基础上,任意攻击可以被表示为攻击战术行向量、攻击技术矩阵和流特征矩阵的组合,通过流谱理论的矩阵计算,得到网络威胁表征矩阵的表征结果,实现对网络威胁的可视化表征。最后,在完成网络流行为表征的基础上,对网络流进行时域、空域、频域及空频域的变换映射,将流映射到流谱空间中,以达到更好的表征性,并对目标威胁、攻击进行模板刻画,达到对抗防御中不同场景的监测要求。

未来工作主要有:(1)针对未知协议,构建面向未知协议的流谱特征关联分析体系,提升流谱理论在现实对抗环境下对未知协议的分析效果。(2)针对传输层安全性协议(Transport Layer Security,TLS)、安全套接字协议(Secure Sockets Layer,SSL)等复杂的特定威胁,开展流谱实例应用研究,构建威胁检测模板,刻画特定威胁的特征重要性、威胁族谱、特征热力。(3)搭建流谱理论验证平台,针对网络空间防御的典型场景,对比传统分类模型,使用流谱模型理论及其应用模型进行攻击检测与异常发现的网络流分类处理。

猜你喜欢
网络空间威胁分类
分类算一算
共建诚实守信网络空间
人类的威胁
分类讨论求坐标
网络空间并非“乌托邦”
受到威胁的生命
数据分析中的分类讨论
面对孩子的“威胁”,我们要会说“不”
教你一招:数的分类
网络空间安全人才培养探讨