基于无监督学习的工业物联网攻击聚类分析研究

2022-07-07 05:46张娅

数字通信世界 2022年6期

张娅

（宜宾职业技术学院电子信息与人工智能学院，四川宜宾 644003）

0 引言

工业物联网能够将各类传感器融入工业生产过程各个环节，通过网络将采集到的数据进行汇总处理分析，然后生成各种控制指令下达，从而大幅提高制造效率，改善产品质量，降低成本和资源消耗。该领域集成了感知、监控、通信、智能分析和自动控制等技术，实现传统自动制造到智能制造的新飞跃[1]。但是，依赖于网络的工业物联网在网络安全方面面临巨大的挑战，根据国家互联网应急中心发布的《2019年我国互联网网络安全态势综述》白皮书所述，我国现有工业物联网设备中约有41%的系统存在高危漏洞。其中，电力、城市轨道交通等行业系统暴露的问题最为严重。因此，工业物联网系统的网络安全保障成为需要重点研究的问题。

工业物联网的核心是不同层次的网络，包括传感器网络和工业现场总线网络等；从连接方式来看，又可分为无线网络和有线网络两大类[2]。各类网络所采用的协议也有所不同，但这些网络协议对传统网络协议普遍是兼容的，因此工业物联网也极易遭受网络攻击。工业物联网安全保障的主要研究方向集中在认证加密、访问权限和入侵模式识别等几个方面[3]，其中入侵模式识别是发现和阻断网络攻击的首要方式，但由于工业物联网的网络构成复杂，接入系统设备种类繁多，对入侵模式进行有效识别是非常困难的[4]。

基于数据驱动的深度学习方法先天具有优秀的数据特征提取能力，近年来逐步应用于网络安全领域，特别是在网络入侵方面有成功的应用[5,6]。但是，现有的深度学习方法在网络训练时需要大量的先验数据，这对训练数据集的准备提出了很高的要求[7]。而且在实际运行过程中，出现了新的攻击模式时，已经部署的学习网络很难成功识别。

本文针对这一问题，提出了一种基于无监督学习的聚类学习网络，提取网络攻击数据的分布特征，对攻击模式进行聚类分析。该网络利用变分自编码器（Variational AutoEncoder，VAE）的聚类方法，能够很好地适应复杂的工业物联网环境，对各类网络攻击的识别准确率达到了96%以上。

1 变分自动编码器

对于获得的网络攻击数据，假设这些数据隐含更底层的参数特征（如日志信息中所含系数），而且这些参数都服从某些特定的分布，则被称为隐变量（Latent Variable）。基于变分自编码器的聚类方法主要工作是对数据点x的分布P(x)进行建模，并通过分布模型来对数据进行聚类[8,9]。

设数据为x，隐变量为z，则可以生成联合分布模型：

给定一个数据，要推断出后验分布：

式中，L为变分下界：

L的表达形式也可写为

2 无监督学习的网络攻击模式聚类网络

2.1 聚类深度学习网络

本文所采用的网络结构如图1所示，其中的编码网络使用隐变量的近似后验概率，分布模型q(z|x) 采用高斯混合分布模型来近似，模型中的均值和方差等参数可以利用神经网络中的编码网络学习得到。然后根据估计的均值和方差，使用蒙特卡罗方法对隐变量z的分布进行采样，最后利用解码器网络生成预测数据。

图1 聚类神经网络结构

2.2 目标函数

设隐变量z的近似概率分布由混合高斯分布描述，记为

式中，π为混合系数。z的真实后验概率分布也可用混合高斯分布描述，记为

式中，ω为混合系数。则公式（4）中的KL散度可近似为

因此，公式（5）表达的变分下界可以近似为

其中隐变量z的每个维度的变分下界可以记为

由此，可以使用随机梯度下降方法训练模型，并且利用EM算法估计聚类结果。

2.3 聚类估计

由于隐变量z是输入数据x的隐含特征表现，因此可将z的概率分布模型作为x的聚类依据，即z的聚类结果等同于x的聚类结果。记z的聚类概率为

3 仿真实验

3.1 实验数据集

为了测试本文所搭建的深度学习网络对攻击类型的辨识效果，本文选取美国林肯实验室公布的标准数据集NSL-KDD作为实验数据集。NSL-KDD数据集模拟了真实环境中不同条件下的网络攻击数据，数据特征提取由哥伦比亚大学完善，目前已成为网络安全领域公认的标准实验数据集，本文从中选取的样本数据如表1所示。

表1 样本数据概况

本文所采用的实验平台参数如表2所示。

表2 仿真平台配置

3.2 实验结果

为了测试本文设计的聚类深度学习网络性能，本文除完成网络自身测试外，还选择了BP神经网络和贝叶斯网络对相同数据集的特征进行了识别。文章分别统计了3种方法的识别准确率和训练时间，结果如图2和图3所示。从图2可以看出，本文设计的深度学习网络识别率在96%以上，相对于BP神经网络和贝叶斯网络有大幅度的提高。

图2 三种方法对网络攻击行为的聚类准确率对比

从图3可以看出，本文所提出的方法训练时间最少，仅为贝叶斯网络的三分之一，BP神经网络的二分之一，这表明本文方法的收敛速度较快。这是因为经过实验，本文在网络训练前对混合高斯模型的先验均值进行了初始化：首先，按标准高斯分布模型，使用K-means方法进行聚类得出测试数据的的初始聚类中心点；然后，估计出隐变量的先验的均值。这样可以避免网络的变分下界陷入局部最小，提高了收敛速度。

图3 三种方法的训练时间对比

4 结束语

本文提出基于无监督学习的深度学习网络用于对工业物联网中的网络攻击类型进行聚类分析，系用NSL-KDD标准数据集对本文提出的方法进行了验证，并与BP神经网络和贝叶斯网络进行了对比。实验结果表明，本文提出的方法可以达到96%的准确率，可以正确提取出网络数据的深度特征，训练速度快。综上所述，本文提出的深度学习网络对工业物联网的攻击检测性能较好，为实际网络系统的部署应用打下了理论基础。■