网络高隐蔽性恶意攻击行为辨识方法研究

2023-12-25 07:55:08张艾森

自动化仪表 2023年12期

张艾森

(上海工业自动化仪表研究院有限公司,上海 200233)

0 引言

现阶段,物联网技术不断突破,应用软件日益多样化,使得物联网得到普及。物联网吸引了越来越多的网络用户,已成为政府、公司和个人等不可或缺的工具[1]。由于网络用户缺乏安全意识、计算机安全等级较低等,多种类型的计算机病毒会利用应用软件攻击网络,使网络的正常运行和服务遭到破坏,导致用户隐私信息泄漏和财产损失。随着网络攻击方式的不断改变,攻击行为越来越隐蔽。因此,研究高隐蔽性恶意攻击行为辨识方法、排查计算机病毒的攻击行为、提高网络安全领域的防护能力具有重要意义[2-3]。

当前,网络攻击行为辨识的相关研究已取得较大进展。网站接收资源信息访问请求后,通过黑名单排查访问网络互联网协议(Internet protocol,IP)。若IP地址在黑名单数据库中,拒绝访问请求;若IP不在黑名单中,则利用恶意攻击行为多级过滤器,分析访问者的域名特征、符号特征、关键词特征等,从而进一步判别访问是否安全[4-5]。文献[6]提出基于支持向量机的网络攻击行为辨识方法,分析网络攻击行为辨识特征,包括数据场数据、时间周期、报文标识符;利用支持向量机算法,识别网络攻击的入侵报文数据。但该方法提取的小样本特征不全面、网络攻击行为召回率较低。文献[7]提出基于IP熵变量的网络攻击行为辨识,通过IP熵和通信熵设计了1个基于熵变量的网络攻击溯源模型,并结合异常流量区分算法和网络攻击溯源算法得到网络攻击行为识别算法。但该模型检测攻击行为的时间容忍范围存在限制,网络攻击行为误报率较高。

针对以上问题,本文结合现有的研究理论,提出基于半监督学习的网络高隐蔽性恶意攻击行为辨识方法。

1 高隐蔽性恶意攻击行为辨识

1.1 攻击数据区分

获取网络流量数据后,为区分正常数据和攻击数据,需要对攻击数据进行预处理。预处理采集网络流量数据,设数据集合为{a1,a2,…,an},可以得到流量数据矩阵A。

(1)

式中:a1,a2,…,an为网络流量数据。

本文通过小波方程式,确定流量数据隶属度,得到流量数据权重系数d,并利用极值函数计算攻击行为辨别中心的欧德数值。流量数据的属性B(A)为:

(2)

式中:b为流量数据与辨别中心的最远距离值;ci为第i个流量数据的模糊组数据;Hj为辨别中心第j个权重值[8];Ci为第i个流量数据的样本数。

流量数据越大,则判定ci越大。

按照属性值由大到小的顺序排序流量数据,可以得到包含全部属性的数据行为序列{D1,D2,…,Dm}。行为序列的变量值E(D)为:

E(D)=-∑F(De)log2F(De)B2(A)

(3)

式中:De为第e个数据行为,e=[1,2,…,m];F(De)为De的有效检验率。

t时刻的流量数据恶意目标g(t)为:

(4)

式中:E(De)为第e个数据行为的变量值[9];m′为辨别中心权重值的个数。

网络接收的数据输入输出信号为:

h(t)=f×G(t)+g(t)

(5)

式中:G(t)为t时刻网络数据传输过程中流量数据的发射信号,dB;f为网络信道振幅值,Hz,h(t)为t时刻接收的网络传输信号[10]。

本文根据式(5),将网络传输信号h(t)分解为流量数据发射信号G(t)和恶意目标g(t)。若流量数据没有恶意目标,g(t)值为0。本文以g(t)不为0的流量数据作为攻击数据。本文根据攻击数据的最大值h(t)max和最小值h(t)min,对h(t)进行归一化处理。

(6)

1.2 高隐蔽性恶意攻击行为数据检验

本文通过改进空间聚类算法分析预处理后的攻击数据,对攻击数据集合进行空间分类和降维操作,并利用攻击数据在空间上的特征分布检验攻击数据是否产生网络攻击行为。高隐蔽性恶意攻击行为数据检验过程如下。

①计算需要设置的空间数量。本文设改进空间聚类算法的维度为I,则需要设置的空间数量J为:

(7)

②数据降维。本文利用类簇局部收敛函数,在J个空间中选择多个数据属性,把高维空间数据集转换为低维空间。本文利用改进密度聚类算法,对J个空间进行二次聚类和分类操作。本文引入区域和噪声的概念,任意选择攻击数据集合的1个空间,以空间为中心建立1个圆形区域,使区域半径固定,把不属于任何区域的孤立数据作为噪声数据。本文将J个数据空间作为改进密度聚类算法的输入数据,从空间密度的角度出发对攻击数据进行聚类运算操作,输出攻击数据的类簇集合和孤立点集合。

③数据聚类分析。本文利用改进证据累积聚类算法,将多个类簇合成1个单独数据区域。本文把类簇集合和孤立点集合作为改进证据累积聚类算法的输入数据,通过密度稠密分解方法计算类簇质心p和孤立点q的相异距离。当转换后的低维空间维度L≤2,将曼哈顿距离K1(p,q)作为相异距离,则有:

(8)

当2

(9)

当L>5时,将切比雪夫距离K3(p,q)作为相异距离,则有:

(10)

式中:l为低维空间的协方差矩阵。

相异距离越小,则判定类簇质心和孤立点的相似度越大。本文根据网络安全防护性能,设定攻击行为检测阈值。若相异距离大于阈值,判定攻击数据产生网络攻击行为;否则,未产生攻击行为。至此本文完成攻击数据是否产生网络高隐蔽性恶意攻击行为的检验。

1.3 高隐蔽性恶意攻击行为辨识

本文提取产生攻击行为的攻击数据特征,输入半监督学习模型,以辨识网络高隐蔽性恶意攻击行为。辨识步骤如下。

①构建模型。本文利用3个稀疏自编码器组成半监督学习模型,通过稀疏正则化项,约束模型神经元数量,提取攻击数据特征向量。半监督学习模型包括输入层、隐藏层和输出层。本文设产生攻击行为的数据集合为{O1,O2,…,OM};数据集的归一化值为h(O)。本文单独训练每个稀疏自编码器,映射输入的攻击数据归一化值。计算式为:

N(O)=P[Q·h(O)]+R

(11)

式中:N(O)为数据集合的映射值;P为编码器的权重矩阵;R、Q分别为激活函数和偏置向量。

②优化模型。本文将最小化代价函数作为半监督学习模型训练的优化目标,不断调整模型参数的取值,直至获取最优参数值,把N(O)作为h(O)的新特征表达。本文将N(O)作为下一个编码器的输入,重复数据映射过程,从而把最后一个编码器的输出作为攻击数据的最终特征表达。本文以监督学习模型输出层的所有新特征值{r1,r2,…,rU}作为攻击数据的新特征值向量、以输出层的所有权重值{s1,s2,…,sV}作为攻击数据的原始特征权重值向量,并设权重值取值范围为[0,1]、所有权重值和为1。

本文初步判别网络攻击行为类型,将2种特征向量映射到另一个同维度向量。计算式为:

(12)

本文把映射的特征向量划分为语法特征、领域特征。语法特征包括路径长度、路径深度、字符串最大长度、特殊字符个数等。领域特征包括危险等级、是否含有恶意关键字等。本文为每个攻击行为类别训练1个分类器,把属于该类别的攻击行为视为正例,其余攻击行为类别视为负例。每个分类器产生第i个攻击数据的概率值Pi为:

(13)

式中:Ti、Zi分别为攻击数据新特征向量、原始特征权重向量,表示对攻击行为分类器的隶属度;y1、y2、y3分别为攻击行为伪装、泛洪、注入发生的概率。

本文对比所有分类器输出的攻击数据概率值;将概率值最大的攻击数据作为该分类器的正例;将分类器对应的攻击行为类别,视为第e个攻击数据产生的攻击行为类型。至此,本文完成网络高隐蔽性恶意攻击行为的辨识,实现了基于半监督学习的网络高隐蔽性恶意攻击行为辨识方法设计。

2 试验论证分析

本文将所设计的方法与基于支持向量机的网络攻击行为辨识方法、基于IP熵变量的网络攻击行为辨识方法进行对比试验,以比较网络攻击行为召回率、误报率和准确率。

2.1 试验准备

本文采用KDD99数据集作为试验数据。数据集为Wi-Fi环境下采集的网络数据,由IXIA PerfectStorm工具创建。数据包含正常行为和攻击行为。在数据集中,本文选取40%数据进行平等划分,得到1 000个攻击行为和1 000个正常行为。本文对数据集进行格式化处理,规范攻击数据和正常数据的特征表示,包括流量、网络连接、网络协议。特征值采用十进制表示。数据集包括多种大攻击类型和子攻击类型。子攻击类型包含在大攻击类型中。

攻击数据行为类型如表1所示。

表1 攻击数据行为类型

攻击数据特征包含流特征、基本特征、内容特征、时间特征、附加属性特征、类别特征等。本文使用普通计算机,构建分布式站点平台,集成Hue、Spark、Kafka、Zookeeper组件,并把数据集存储在字符分隔值(comma-separated values,CSV)文件。本文通过访问统计工具、通信平台网络,输入、输出信息数据,以40 min为1个统计时段,记录40 min内访问的停留时间、访问深度、IP数,并利用Bro-IDS工具和Argus工具模拟站点平台攻击流量(包括漏洞扫描工具模拟攻击、人工构造攻击流量);通过采集网络数据时接入计算机网卡实际经过的流量,以tcpdump工具捕获原始网络流量数据以辨识攻击行为。

2.2 试验结果分析

试验比较3种辨识方法的网络攻击行为召回率R,以衡量攻击数据被正确分类的比例。

(14)

式中:TP为攻击行为判别正确的数量;FP为攻击行为判别错误的数量。网络攻击行为的召回率试验对比结果如图1所示。

图1 召回率试验对比结果

由图1可知:本文方法网络攻击行为平均召回率为95.0%;基于支持向量机的网络攻击行为辨识方法平均召回率为86.8%;基于IP熵变量的网络攻击行为辨识方法平均召回率为78.9%。本文方法攻击行为召回率相比对比方法分别增加了8.2%、16.1%,提高了攻击数据被正确分类的比例。

试验比较3种辨识方法的攻击行为误报率F,以衡量正常数据的误分类比例。

(15)

式中:NP为正常行为判别错误的数量;NF为正常行为判别正确的数量。

网络攻击行为的误报率试验对比结果如图2所示。

图2 误报率试验对比结果

由图2可知,本文方法平均误报率为0.05%,另外2种方法平均误报率分别为0.11%、0.19%。本文方法网络攻击行为误报率相比对比方法分别减少了0.06%、0.14%,降低了正常数据的误分类比例。

试验比较3种辨识方法的攻击行为准确率β,以衡量攻击数据和正常数据正确分类的比例。

(16)

网络攻击行为的准确率试验对比结果如图3所示。

图3 准确率试验对比结果

由图3可知,本文方法平均准确率为97.8%,另外2种方法平均准确率分别为95.1%、92.3%。本文方法网络攻击行为准确率相比对比方法分别增加了2.7%、5.5%,提高了攻击数据和正常数据正确分类的比例。综上所述,本文方法实现了网络攻击数据的预处理,能够在提取攻击数据特征前消除攻击数据存在的噪声点。这增加了攻击行为召回率和准确率、减少了误报率,使攻击行为辨识结果更加准确、可靠。

3 结论

针对网络流量攻击数据辨识过程中,由数据属性缺失引起的辨识准确率较低的问题,本文提出了基于半监督学习的网络高隐蔽性恶意攻击行为辨识方法。该方法通过半监督学习模型提取攻击数据特征、辨识网络高隐蔽性恶意攻击行为,保证了高准确率、高召回率、低误报率的辨识性能。但本文方法仍存在一定不足,例如对网络攻击行为特点的分析还不够完善,以及模型辨识效率还有待提高。今后的研究会分析网络攻击行为特点,应用机器学习算法检验攻击数据集合,并进一步完善半监督学习模型的特征提取工作,使攻击行为辨识更加高效、智能。