基于改进RoBERTa的恶意加密流量检测*

2023-02-23 04:55杨立圣罗文华中国刑事警察学院
警察技术 2023年1期
关键词:加密向量流量

杨立圣 罗文华 中国刑事警察学院

引言

随着互联网技术的发展,流量数据的传输更为频繁。计算机网络作为传输信息数据的重要载体,若其存在安全漏洞及缺陷,且流量数据以非加密形式传输,那么数据的安全性和可靠性将无法保证。流量加密技术是保障网络数据的隐私性和安全性的重要手段。近些年来,随着加密技术不断发展,流量加密技术也广泛应用于数据传输过程中。在2019年已有超过80%的网络流量加密传输,且加密流量占网络流量的比率仍在逐年升高[1]。加密流量虽保护了用户数据的隐私和安全,但也为恶意加密流量的检测识别带来了巨大挑战。攻击者可使用流量加密技术隐藏恶意流量,从而逃避网络安全审计系统的识别与检测[2],这为公安机关打击黑客类网络犯罪、维护网络空间的秩序和安全带来了困难。因此,如何有效地识别检测恶意加密流量,对于公安机关维护网络空间安全、有效打击黑客类网络犯罪、提升网络监管效率具有重要意义。

一、相关研究及本文贡献

(一)相关研究

恶意网络流量检测是对大量通过网络传输到主机的流量数据进行实时检测,及时发现网络攻击行为的过程[3]。恶意网络流量检测是网络入侵系统的关键应用,也是网络入侵检测系统的研究重点。目前针对网络流量的检测研究发展迅速,从发展进程的角度来看,恶意流量识别方法可以大致分为四种[4]:基于端口号方法、深度包检测方法、机器学习方法以及深度学习方法。基于端口号的方法主要是根据流量包中的端口号来进行流量识别,但随着网络技术的不断发展,此方法的缺陷也越来越明显[5]。新产生的应用会定义通信端口号,端口号与应用之间的对应关系可能会发生改变;某些应用在数据传输时采用的端口号不固定;多个服务的数据包可能采用同一个端口号,这些问题都导致了采用该方法进行流量识别无法满足目前对识别准确性和可靠性的要求。深度包检测方法主要是对整个数据包进行检测,匹配关键字以及数据包的行为模式,但该方法主要针对的是未加密流量。由于加密流量和非加密流量存在较大的差异[6],如:加密流量和非加密流量的内容显著不同、不同的网络协议也会采用不同的加密算法等,这些都为加密流量的识别检测带来了巨大困难[7]。为了对加密流量进行有效识别,产生了基于特征工程的机器学习方法,该方法依赖于统计或者时间序列特征,利用机器学习的算法实现加密流量分类。但基于机器学习的方法在特征工程阶段代价较高,识别结果依赖于所选定的特征,这使得其泛化性不强。深度学习方法避免了复杂的特征工程,该方法通过原始输入和对应标签学习两者之间的非线性关系,通过学习自动提取特征并实现分类。基于原始流量表示的深度学习模型结构虽然可以对加密流量数据特征进行自动提取,但其主要依据是带有标签的流量数据,并未充分挖掘无标签的流量数据特征。

目前,使用深度学习技术中预训练模型进行恶意加密流量的研究较少。尽管PERT[8]开创了将预训练模型引入加密流量任务分类的先河,但其方法较为生硬,缺乏输入表示和预训练任务的设计,影响分类效果。突发(Burst)特征作为加密流量的一种重要特征[9],比较广泛应用于机器学习方法,但特征工程提取的突发特征仅仅有长度信息,其深层次的特征信息并未被有效发掘。ET-BERT[10]提取突发流量数据作为模型输入序列,并采用预训练任务发掘突发特征的深层特征信息,但其提出的掩码BURST任务以静态方式对突发特征进行遮罩,降低了训练数据的多样性以及数据的复用效率。

(二)本文贡献

为了更好地提取恶意加密流量特征,实现对恶意加密流量的有效检测,本文提出了一种改进RoBERTa的恶意加密流量检测方法。首先将无标签的流量数据进行编码,转换为由标记组成的输入表示。为使RoBERTa适应恶意加密流量检测任务的需求,对RoBERTa进行改进,提出了动态突发遮罩任务以学习表征信息并进行预训练,再利用预训练后得到的模型在恶意流量检测任务上,使用少量带标签的流量数据进行参数微调,以达到更好的检测效果。

本文的主要贡献如下:

(1)将RoBERTa模型引入恶意加密流量检测任务,并对其进行改进,提出动态突发遮罩预训练任务,利用大规模无标签加密流量数据进行预训练,使模型充分挖掘无标签的流量数据特征。

(2)以加密流量中的突发流量特征作为分类依据,充分考虑到突发流量特征的重要性和强显性。

(3)将突发流量特征转化为匹配模型的标记特征,避免了复杂的特征工程,并提高了模型的迁移能力。

二、面向恶意流量检测的RoBERTa模型改进

RoBERTa模型原本是应用于自然语言处理领域的预训练模型,是对BERT[11]模 型的改进版本。Liu等人[12]对BERT 模型进行研究发现,BERT仍存在较大的优化空间,并针对BERT模型中的一些设计缺陷,进行合理地优化,提出了RoBERTa预训练模型。RoBERTa在BERT预训练模型的基础上,将掩码语言模型进行修改,提出了动态掩码技术,使模型在预训练阶段可以挖掘语料库的更深层次特征信息。RoBERTa在一系列自然语言处理任务中取得了优于BERT的效果。由于RoBERTa在自然语言处理任务中性能表现优异,考虑将RoBERTa模型引入恶意流量检测任务,但引入过程不能生搬硬套,需要对一些技术细节进行重新设计。为了使其匹配恶意加密流量检测任务,对其进行如下改进。

(一)输入表示

数据流量可能包含不同种类的数据流,为了使表征更具有稳定性和区别性,首先从原始数据中将具有相同协议、IP地址、端口号的数据流相分离,使每一部分都包含同种类型流量的完整会话,再从完整会话中得到突发流量。在加密流量分类领域,突发特征是一种极为重要的特征。突发是方向相同的连续流序列,其中流序列必须满足源IP地址、源端口号、目的IP地址、目的端口号以及协议均相同。突发可用(1)、(2)式表示。

普通高中财务会计核算工作的质量会影响到高中资金活动的使用,所以需要提升会计核算的质量和效率。就目前的具体分析来看,如何在会计实务中,会计核算的项目确定清楚,具体核算的内容明确,有效的避免核算的纰漏,在会计核算中明确内容十分的必要。基于此,从高中具体工作实践入手对会计核算的具体内容做清楚的分析,然后基于内容讨论研究会计核算质量提升的策略和方法,这于实践工作而言价值十分突出。

其中n表示单向数据包的数量,t表示数据包具有相同的IP地址、源端口号、目的IP地址、目的端口号以及协议。

获得突发后,需要将突发转换为可以用于预训练的标记。将用十六进制位表示的突发,按照两个字节为单位进行分组。将分组后的数值单位进行编码,编码范围为0到65535,每个单位都有唯一的编码与之对应,并将单位与编码的记录生成词表,该词表的最大记录长度为65536。词表中还需包含特殊标记,如[CLS]、[PAD]、[MASK]。其中[CLS]主要用于实现分类任务,与[CLS]对应的最后一层隐藏层输出向量表示为输入对应的类别信息。[PAD]为填充符号,当输入序列不满足最小长度要求时会使用[PAD]标记填充到指定长度。[MASK]为遮罩标记,用于预训练任务中对突发转换成的标记序列进行遮罩。将流量转化为符号表示的过程如图1。

获得标记后,需要将标记转换为向量表示,该向量称为输入表示,生成输入表示过程如图2。

输入表示由标记向量与位置向量之和组成。输入表示v计算公式如式(3)。

其中v t表 示标记向量,v p表示位置向量。

标记向量是由标记向量矩阵和输入序列相乘得到的实值向量表示。标记向量v t的计算公式如式(4)。

其中e t为输入序列的向量表示,xx表示词表大小,N为最大序列长度,d为标记向量维度,这里d=768。

位置向量用来表示每个输入标记的位置信息。位置向量v p的计算公式如式(5)。流量数据中位置与传输的时间及顺序有较大关系,使用位置向量就可以很好地学习这些关系。将输入标记按照位置顺序产生位置编码,再利用位置向量矩阵与位置编码相乘得到位置向量。

其中e p为输入序列的位置编码N为最大序列长度,d为位置向量维度,这里d=768。

(二)嵌入表示

获得输入表示后,输入表示会经过多层Transformer编码器结构。Transformer编码器结构如图3。

Transformer编码器的核心就是多头自注意力机制,采用该机制可以捕获突发中的流量数据符号表示的前后依赖信息。通过使用三个不同的权重矩阵W q、W k、W v将输入向量分别映射为查询向量(Q)、键向量(K)和值向量(V),并通过式(6)计算出注意力输出结果。再通过式(7)和式(8)拼接计算再次映射,生成一个最终的多头注意力值。

其中:

将多头注意力值与输入表示相加,再通过正则化和全连接层,将正则化后的结果与通过全连接层后得到的结果再进行相加操作,所得结果再进行正则化,得到单层的Transformer编码器的输出结果。输入表示通过多层的Transformer编码器模块,最终得到嵌入表示结果。

(三)动态突发遮罩任务

预训练阶段就是通过大规模的流量数据,采用特定预训练任务更新网络结构中的权重和偏置,以达到输入表示的最好嵌入表示结果。在预训练阶段中,预训练任务的设计极为重要。预训练任务设计的基本思想是,对于突发流量数据输入表示的单个标记进行遮罩,使模型完成类似于完形填空的任务,以学习流量特征信息。

由于静态遮罩会降低训练数据的多样性及数据的复用效率,提出动态突发遮罩任务。动态突发遮罩任务示意图如图4。

动态突发遮罩任务在预训练阶段采用,该任务的核心是在预训练过程中实时决定掩码位置,对流量标记进行遮罩,并令模型预测被遮罩的内容,以学习突发的深层特征信息。在对预训练的训练数据加载过程中,获取当前序列的序列长度,利用随机产生整数的函数,从0到序列长度-1的范围内生成一个随机数,将该随机数对应位置的标记单元进行遮罩。这样可以保证无论训练多少轮,都可以在最大程度上保证同一个突发流量在不同轮次下产生不同的掩码遮罩方式。

三、实验及结果分析

(一)数据集及预处理

本文选用ISCX-VPN加密流量数据集验证模型对加密流量的分类效果,选用USTC-TFC加密流量数据集验证模型对恶意加密流量的检测效果。ISCX-VPN数据集按照流量类型分为ISCX-VPN-App和ISCX-VPN-Service。将数据集中每一类别的流量随机选出5000个样本,不足5000的选择其所有样本。随机选择后的数据集统计信息如表1~表3所示。

?

?

?

将样本中的ARP与DHCP等无关数据包删除,避免其对实验产生影响。对于分组的首部,去除以太网帧首部、IP首部,以及TCP首部中的协议端口信息等具有强指向性的信息。在使用微调实现分类任务时,将数据集按照8:1:1的比例划分为训练集、验证集和测试集。

(二)实验环境及超参数设置

本文实验采用物理主机连接云服务器的方式,使用云服务器运行Python脚本。物理主机使用SSH连接Linux云服务器。云服务器的环境配置如下:处理器为AMD EPYC 7601 256G 64核,实际分配16核CPU,显卡为NVIDIA GeForce RTX 3090,显存大小为24GB,代码基于Python3.8,深度学习框架主要使用PyTorch 1.12.0+CUDA 11.3版本,运行内存为256GB,实际分配64GB。

用于恶意加密流量检测的改进RoBERTa模型参数设置如下:改进的RoBERTa包含12层Transformer编码器,隐藏层维度为768,有12个自注意力头,在预训练阶段仅采用动态突发遮罩任务。模型选择NLLLoss损失函数,优化器选择AdamW,批量大小为32,学习率为2e-5,epoch大小为10。

(三)评价指标

本文对加密流量检测任务的评价指标采用四种常用的指标:准确率、精确率、召回率、F1。四种指标的计算方法为:

对于全部类别分类情况的评估,采用宏平均的方式进行计算。

(四)实验结果

为了验证模型对加密流量分类任务的有效性,本文选择了几种常见的用于加密流量分类任务的深度学习方法,分别是:Deep Fingerprinting(DF)、FS-Net、GraphDApp、Deeppacket、PERT。其在ISCX-VPN数据集上的实验结果[9]与改进的RoBERTa模型在ISCX-VPN数据集上的实验结果进行对比,实验结果如表4、表5。

?

?

实验结果表明改进的RoBERTa模型在对加密流量检测分类任务上确实有效,且效果较其它方法更为理想。相较于没有使用预训练模型的深度学习检测方法,改进的RoBERTa模型对加密流量的分类效果有显著提升。相较于未对模型设计预训练任务和输入表示的PERT模型,该方法也优于PERT模型的分类效果。相较于使用掩码突发模型预训练任务的ET-BERT模型,动态突发遮罩任务使模型学习到更深层次的突发特征信息,可以有效地提高分类效果。

为了验证该模型在恶意加密流量检测任务中的表现效果,选用上述深度学习及预训练模型在数据集USTCTFC上进行实验,实验结果如表6。

?

从实验结果来看,改进RoBERTa模型对于恶意加密流量的检测效果要优于其他模型,该模型与其他未使用预训练模型的深度学习方法效果对比较为明显,改进的RoBERTa在准确率、精确率、召回率和F1分数上均有显著提升。

四、结语

针对恶意加密流量与日俱增的现状及现有恶意加密流量检测技术检测效率低下的问题,本文提出一种改进的RoBERTa模型,该模型在自然语言处理中的RoBERTa模型基础上,为保证其可以迁移到恶意加密流量检测任务,对模型进行了调整。首先从流量中提取突发,并将其转化为RoBERTa模型可接受的输入表征形式。在预训练阶段采用动态突发遮罩,以实现对突发深层次特征的有效挖掘。实验结果表明该模型对于加密流量具有良好的分类能力且对恶意加密流量检测也可以达到很好的效果,有助于公安机关提高预警、研判、打击黑客类网络犯罪活动的效率。

但本文在改进的RoBERTa模型的预训练阶段仅仅使用了动态突发遮罩,并未对不同突发之间的深层关系进行考量。下一步将对跨文档整句输入任务进行改进,使其适应恶意加密流量检测任务,以获得更好的实验结果,并增加其在打击黑客类网络犯罪活动中的实践应用。

猜你喜欢
加密向量流量
冰墩墩背后的流量密码
向量的分解
张晓明:流量决定胜负!三大流量高地裂变无限可能!
聚焦“向量与三角”创新题
寻找书业新流量
一种基于熵的混沌加密小波变换水印算法
向量垂直在解析几何中的应用
认证加密的研究进展
向量五种“变身” 玩转圆锥曲线
基于ECC加密的电子商务系统