基于机器学习的网络安全态势感知系统研究

2023-05-23 09:29王可阳
无线互联科技 2023年6期

作者简介:王可阳(1996— ),女,吉林长春人,助教,硕士;研究方向:大数据与云计算。

摘要:随着信息技术的快速发展,网络环境变得更为复杂,网络攻击手段也越来越多,网络空间的安全性就更为重要。在此背景下,网络安全态势感知技术应运而生,成为评估网络安全现状,洞察网络安全风险,预测网络未来发展的关键技术。研究网络安全态势感知系统可以提高网络的监控能力、应急响应能力等,文章分析了当前网络安全态势感知模型和网络安全态势指标,采用双向LSTM网络安全预测模型,并用贝叶斯优化方法确定模型的超参数,从而提高了网络安全态势预测模型精度与效率。

关键词:网络安全态势感知;网络安全态势预测;LSTM模型

中图分类号:TN915 文献标志码:A

0 引言

随着网络的日益发展,互联网用户数量攀升,网络技术日新月异,安全问题层出不穷。为了保障网络环境的安全,研究人员在网络安全方面进行了大量的研究,采用多种技术防护网络安全,但是这些技术都是采用被动的方式来防护网络攻击,网络管理人员要从被动防护转换成主动防御,就需要采用网络安全态势感知技术。网络安全态势感知系统可以收集影响网络安全的相关因素,并对其进行分析、处理,从而来推断未来网络变化趋势,可以帮助网络管理员预测网络发展趋势,及时做出相关的对策来进行预防,因此,网络安全态势感知系统有着极为重要的研究意义。

1 网络安全态势感知概述

态势是一个全局的概念,主要体现系统与系统对象之间的关系。感知是对系统数据进行收集、处理、分析等操作。态势感知(Situation Awareness)指的是在一定的时空范围内,认知、理解环境因素,并对未来发展趋势进行预测。1999年,Tim Bass将态势感知引入网络安全,网络安全态势感知就此诞生。现在学术界对于网络安全态势感知还没有一个明确统一的定义,研究人员认为网络安全态势感知就是在网络环境下,提取影响网络安全态势变化的安全因素,对其进行处理、分析,并预测网络安全发展趋势。因此,网络安全态势感知是一个宏观的概念,强调的是网络整体状态和整体的发展趋势[1]。实际上,它融合了多元素数据,采用人工智能与大数据技术,深入挖掘数据,并对其进行分析处理,然后将预测的网络安全状况提供给网络管理人员。网络管理人员可以直观地了解网络环境下存在的威胁和风险,并及时采取相关措施进行防范。

2 网络安全态势感知关键技术分析

现阶段,网络安全态势感知技术更加整体化、自动化,可以及时地发现网络环境中存在的安全隐患,有针对性地制定处理方案。网络安全态势感知技术就是采集网络安全要素信息,然后对其进行处理,提取安全态势要素特征,再进行评估和预测。这就需要使用到数据融合技术、数据挖掘技术、特征提取技术和态势预测技术[2]。

数据融合技术是网络安全态势感知的基础,网络复杂化,数据的来源与种类非常多,不同的数据来源,带来不同的数据类型,而网络安全态势的判断需要多种类型的数据,这就需要采用数据融合技术对这些数据进行统一化融合处理,为网络安全态势感知提供精准、全面的数据支持。数据挖掘技术是数据融合技术的进一步操作,在得到统一化的数据后,可以对这些数据进行筛选,借助人工智能、大数据技术对海量数据进行挖掘,找出有关联的数据,从而来预测相应的结果。这是一个非常有用的技术手段,发现数据与数据之间的关联关系,找出暗藏的重要信息,可以帮助网络管理人员及时发现网络环境中隐藏的安全威胁。特征提取技术就是在机器学习、模式识别和图像处理中,从初始的一组数据开始,建立提供信息和特征,促进后续的泛化步骤。这里的特征提取就是将数据中的多元化数据,比如文本数据、二进制数据、流数据等,通过相应的技术和方法,提取相关特征供机器学习算法来使用。这些数值特征可以很好地反映出当前的网络态势情况,需要注意的是,网络安全态势特征提取效率与网络安全态势感知评估与预测的结果息息相关,特征提取越好,其结果就更为准确。在网络安全态势感知中,网络攻击时间、攻击手段与攻击目标都是随机的,网络安全态势变化是非常复杂的非线性过程,使用简单的线性预测模型无法满足当前的需要,需要使用预测模型来进行预测。

3 基于机器学习的网络安全态势感知系统研究

网络安全态势感知系统构建主要分为4步:第一,态势感知模型;第二,构建指标体系;第三,网络态势评估;第四,网络态势预测。

3.1 态势感知模型

模型是网络安全态势感知的重要研究内容之一,也是构建网络安全态势感知系统的基础[3]。网络安全态势感知模型对于网络安全态势感知系统的构造是非常重要的,现阶段,根据网络环境的不同,有针对性的网络感知模型。安全态势感知模型分为3层:第一层,态势提取,目的是获取网络系统的配置信息、运行状态、流量数据等与网络安全相关的因素;第二层,态势评估,这是态势感知技术的核心,对获取的數据进行分析、理解,然后借助相关模型来评估网络运行的安全状态;第三层,态势预测,根据之前的运行情况,预测未来的网络安全态势。其模型如图1所示。

态势感知模型指的是态势感知在一定时间范围内对环境中安全因素进行感知和理解,并对未来的网络趋势进行预测。态势感知模型的核心就是态势感知部分,信息的来源主要是依赖网络安全相关设备或 者是自主开发相关软件等。态势感知模型主要由数据源、人机接口、数据库管理系统、数据预处理、数据融合、态势评估、态势预测、过程处理等组成。这里采用的态势感知模型为LSTM模型,如图2所示。

LSTM预测模型有4层:输入层、全连接层、双向LSTM层和输出层。输入层是将网络安全态势前面的态势值输入预测模型中;全连接层的作用是对双向LTSM层输出的非线性特征进行加权处理;双向LSTM层的作用是对数据进行计算,并向输出层输出结果;输出层输出模型预测的网络安全态势值。

3.2 构建指标体系

合理的网络安全态势评估指标体系是网络安全态势评估准确的基础,如果指标体系过大,就会增加评估的计算量,影响评估的性能;指标体系过小,就会导致评估指标不完整,结果不准确。因此,在构建指标体系的时候,要遵循系统性原则、近似性原则、层次性原则和易操作原则,构建科学合理的指标体系,才能保证全面、准确的评估结果。这里采用的评价指标是平均绝对误差(MAE)、均方误差(MSE)和均方根误差(RMSE)。

其中,xt是t时刻网络安全态势真实值;xt是t时刻网络安全态势预测值;N是样本总数。

3.3 利用机器学习技术来训练模型

训练模型的技术有很多,最为出色的是BP神经网络,这里选用BP神经网络对模型进行训练。反向误差(BP)神经网络是对人类大脑和智能的探索,是一种模仿人脑结构和功能的信息处理系统,可以快速地适应环境,学习处理外界事物。神经网络用处广泛,主要用在预测、分类和聚类中,需要利用历史数据来训练神经网络,然后再对其分类、提取并进行预测。一般来说,BP神经网络分为输入层、隐藏层和输出层3个部分,是从输入层输入训练数据,这个训练数据是网络安全特征向量,再根据相应的计算公式进行运算,得出一个激励函数,进行转换后,形成一个计算结果,对比实际结果与计算结果,得出误差,然后将误差反向传递,及时调整参与计算的权重值以及偏置值。多次重复上述计算过程,直到二者数值达到相应的误差范围内为止。

这样就完成了网络安全态势预测模型的实时更新,在网络训练过程中,可以使得网络结构更加稳定。

3.4 利用机器学习技术预测网络安全态势

网络安全态势预测主要是根据网络环境的历史状态,对其进行预测,帮助网络管理人员及时了解网络的安全状况,化被动为主动,及时采取相应措施解决网络中的安全威胁。这里采用基于双向LSTM的网络模型预测网络安全态势,利用前t时刻的态势值x1,x2…xt,预测后k个时刻的态势值xt+1,xt+2…xt+k。当k=1,就是预测下一时刻的态势值。为了提高预测的精准度,可以采用下面相关技术对态势预测相关的因素进行优化。

在使用基于双向LSTM的网络安全态势预测模型的时候,为了提高模型的收敛速度,避免过度拟合的问题,模型训练完成后,还需要确定超参数,可以使用贝叶斯优化对模型参数进行全局优化。贝叶斯优化是贝叶斯全局优化算法,其流传就是采用近似逼近方法,利用函数来选择样本点进行计算,直到收敛为止,从而优化超参数。优化的超参数包括:输入层、双向LSTM层神经元节点个数、batch_size和dropout率。优化后的参数值如表1所示。

根据上表可知,输入层时序是3,隐藏层双向LSTM是一层包含32个神经单元,单次传递给程序用以训练的参数个数(batch_size)为32,dropout率是神经网络模型的正则化方法,取值范围为0.2~0.5,这里给定的概率是20%,即0.2。

超参数优化完毕后,需要初始化权值。权值初始化也是机器学习领域的关键,直接影响着神经网络的收敛性能。这是由于初始化权值与网络模型结构的参数传递息息相关,如果权值过大,数据就会丧失自身的意义,权值太小,就会影响数据在传递过程中对后续节点的影响,对整个神经网络来说是非常不利的。这就需要使用Xavier初始化权值,根据对比发现,使用Xavier初始化权值的迭代次数更少,模型收敛速度更快。

Xavier初始化权值与节点个数的计算公式为:

其中,fanin是神经网络输入节点;fanout是神经网络输出节点;Uniform是均匀随机取值。

神经网络过度拟合可以提高预测的精准度,然而过度拟合又会降低模型的泛化能力,这就需要使用Dropout技术,可以有效避免神经网络过度拟合,提高模型的泛化能力。如果原模型过度擬合,Dropout技术也可以提升模型性能。由上述内容可知,神经网络在训练数据的时候会将输入的数据通过网络向前传播,再将误差进行反向传输。Dropout技术的核心是删除隐藏层不工作的节点,改变模型的本身,依旧保留完整的训练模型。在更新模型的时候,这些节点就会被隐藏不更新,但是在进行数据计算的时候,这些节点也会使用,保证数据完整性。Dropout技术减少神经元之间共同适应的复杂性,即使在个体不完整的情况下,也可以保证神经网络的精确计算。

在对模型、超参数等信息进行优化完毕后,就可以借助上述的数据进行态势预测,其流程如下。

(1)将采集到的数据进行预处理。

(2)使用贝叶斯优化。

(3)确定使用基于双向LSTM的态势预测模型。

(4)训练模型。

(5)判断是否达到迭代次数,当没有达到最大迭代次数就继续进行计算输出。

(6)达到迭代次数就输出预测结果。

4 结语

机器学习技术这几年日趋成熟,在网络安全态势感知系统中应用机器学习算法进行评估和预测,可以利用机器自主学习能力对数据进行训练,借助相关模型对其预测,提高网络安全态势评估和预测效果,保障网络环境的运行安全。

参考文献

[1]钱国庆.基于机器学习的网络安全态势感知[D].成都:电子科技大学,2019.

[2]李营.基于机器学习的网络安全态势感知系统的研究与实现[D].北京:北京邮电大学,2020.

[3]李欣涛.基于机器学习的网络安全态势感知系统设计与实现[D].北京:北京邮电大学,2020.

(编辑 沈 强)

Abstract: With the rapid development of information technology, the network environment has become more complex, and there are more and more methods of network attacks, making the security of the cyberspace even more important. In this context, network security situational awareness technology has emerged as a key technology for assessing the current state of network security, insight into network security risks, and predicting the future development of the network. The research on network security situation awareness system can improve the network monitoring ability, emergency response ability, etc. This paper analyzes the current network security situation awareness model and network security situation indicators, uses two-way LSTM network security prediction model, and uses Bayesian optimization method to determine the models hyperparameter, thus improving the accuracy and efficiency of network security situation prediction model.

Key words: network security situation awareness; network security situation prediction; LSTM model