多源数据约束性融合的传感器网络安全预测模型

2023-10-09 06:38:30张金龙孙国同

通信电源技术 2023年16期

张金龙，孙国同

（中电科普天科技股份有限公司，广东广州 510310）

0 引言

传感器网络是以传感器为节点，采用无线方式完成通信的自组织网络，广泛应用于生态监测、健康护理、智慧交通以及智慧物流等领域。目前，随着网络攻击不确定性和复杂性的增加，传感器网络的安全预测问题备受关注。传感器网络的数据具有多模态、冗余性以及差异性的特点，且传感器之间存在异构性，给传感器网络的数据融合带来了一定难度。此外，由于安全监控手段多样，不同类型的安全监控设备对传感器的安全评估精度存在一定的差异。文章重点研究如何将传感器提供的信息通过融合后形成对安全监测环境的一致性表述。首先，采用卷积自编码网络（Convolutional Auto-Encode，CAE）对不同模态的异构数据进行编码表示和解码（重构），从而实现不同模态异构数据统一维度的特征表示，解决传感器之间的异构性问题。其次，为有效解决不同模态数据的差异性，以卷积自编码网络为基础，采用无监督交叉模态哈希检索方法（模态内一致性、模态间一致性）约束解码语义（特征重构），将模态内和模态间一致性约束应用于解码（重构）与全局特征学习，解决编码-解码过程前后的特征损失问题，从而提升编码表示的精度。最后，为有效利用标签信息，利用线性回归学习多模态数据的线性回归二进制码，并将其与多模态数据特征进行加权融合，实现安全类别预测。

1 相关技术介绍

1.1 卷积自编码网络

卷积自编码网络实际上是一种卷积自编码器，工作过程与传统的编码器一致。首先通过卷积核自动提取数据特征，并通过编码表示数据语义，其次解码数据语义，最后调整编码和解码的网络参数，使解码的数据与原始数据差异最小，从而实现数据重构。该方法通常称为无监督的编码和解码方法，在参数训练过程中不需要使用标签数据，直接将重构后的数据与原始数据进行比较即可。卷积自编码网络加入卷积核，是为了增强编码器的抗干扰能力，提升自编码器的健壮性[1-3]。卷积自编码网络广泛应用于机器学习、计算机视觉以及模式识别等领域，通过对原始高维数据采取编码降维措施，尽可能保持样本的全局和局部语义特征，利用编码后的特征进行后续分类、降噪、重构以及回归等应用[4-7]。

1.2 交叉模态检索

交叉模态检索的方法来源于跨模态检索/匹配方面的研究成果。随着媒体数据文本、图像和视频等多模态技术的发展，不同模态的数据表现出一定的异构性。如何快速检索这些数据描述的事件和主题，并用于主题检测和信息推荐，成为媒体广泛关注的问题。与传统的单模态检索方法相比，交叉模态检索方法需要构建模态关系模型，学习不同模态数据之间的相似性与差异性，再比对不同模态之间的相似性，从而实现跨模态检索。然而，如何学习异构数据之间的统一特征空间十分重要。这种学习易构数据统一特征空间的方法与矩阵分解、子空间、邻域图以及稀疏表示等方法密切相关[8-13]。交叉模态检索方法通过学习多种模态数据并将其投影到统一特征空间，在统一特征空间中挖掘不同模态数据之间的相似性和差异性，能够发掘不同模态数据之间的关联。

2 多源数据约束性融合的传感器网络安全预测方法

随着大数据技术的迅猛发展，不同来源和不同领域的数据实时融合处理成为可能。与传统的单一数据相比，多源多模态数据能够提供更多的信息。这些信息有些是冗余的，有些是互补的，但是通过对数据之间的补充和修正，能够为用户提供更加准确的信息。此外，不同领域基于多源多模态数据的融合，能够形成对事物相对完整、一致的感知描述，从而提升信息的呈现效果和表达的健壮性。

然而，多模态数据融合往往需要通过数据格式转换、数据重构、特征提取、语义匹配以及数据融合多个步骤，才能实现多模态数据语义上的融合。因此，文章提出一种多源数据约束性融合的方法，包含数据编码、特征提取以及特征融合等过程。首先，通过采用自编码网络编码原始数据，解决多源数据维度不一致的问题；其次，采用模态内一致性、模态间一致性以及基于标签信息的线性回归学习等方法，训练卷积自编码网络的参数和线性回归二进制码，得到数据的全局特征和局部特征；再次，将数据特征与线性回归二进制码加权融合，实现统一特征空间的关联；最后，基于融合后的特征，采用激活函数Sigmoid处理融合后的特征，并结合Softmax对处理后的结果输出概率的最大类别实现类别预测。多源数据约束性融合的传感器网络安全预测技术架构，如图1所示。

图1 多源数据约束性融合的传感器网络安全预测技术架构

2.1 数据输入并采用卷积自编码网络获取编码表示和解码表示

为简化所提方法公式的复杂性，采用2类传感器的数据进行说明。在后期使用过程中，可以将2类传感器扩展到k（k＞2）类传感器。

将这2类传感器的数据输入CAE，与经典的卷积神经网络（Convolutional Neural Networks，CNN）在卷积层之后使用全连接层得到固定长度的特征向量进行分类（全联接层＋Softmax输出）不同，CAE可以接受任意尺寸的输入数据，采用反卷积层采样最后一个卷积层的特征映射，使其恢复到与输入数据相同的尺寸，从而预测数据集合中的每一个维度，同时保留原始输入数据集合中的空间信息，并在采样的特征图中进行逐像素分类。

使用2个CAE分别对第一类传感器数据和第二类传感器采取编码-解码学习措施，从而提取其编码表示和解码表示。

第一类数据的编码表示和解码表示分别为

第二类数据的编码表示和解码表示分别为

2.2 基于全局特征和局部特征保持训练卷积自编码网络的参数θCAE

为训练卷积自编码网络的参数θCAE，需要考虑以下3个问题。

2.2.1 标签表示

标签表示对于自编码网络的参数θCAE的训练有很大帮助。由于不同传感器的2类样本数据本应该具有一致的语义标签信息，可以在有限的标签样本中采用标签监督不同传感器样本数据（或称为不同模态数据）标签的一致性。因此，引入线性回归二进制码拟合不同模态标签数据，即

式中：L为语义标签矩阵；W为回归系数矩阵；B为2类数据解码表示的拼接矩阵，有B=[Uv;Uu]。

2.2.2 数据在编码-解码过程的特征损失问题

针对数据在编码-解码过程存在的特征损失问题，采用模态内相似性衡量同一类传感器样本的局部相似性，保障数据在编码-解码前后的编码表示和解码表示的一致性，即

式中：Uv为第一类传感器数据的解码表示集合；Uu为第二类传感器数据的解码表示集合；为每一类模态数据与解码表示的残差。

2.2.3 提升不同模态数据之间全局特征学习的适应性为提升不同模态数据之间全局特征学习的适应性，在编码过程中尽可能保持原始样本的整体特征。因此，通过描述不同模态间的一致性，实现不同模态数据之间的有效关联，即

式中：W=[Wv;Wu]；Rij为第一类传感器数据xiv与第二类传感器数据yju相同的标签信息。

为求解卷积自编码网络的参数θCAE，整合式（5）、式（6）、式（7），并将模态内和模态间最小化，有

式中：λ1、λ2、λ3为平衡函数，是为了避免出现过拟合而设置的正则化参数。

2.3 将编码特征与回归二进制码进行融合

在求出W、B以及卷积自编码网络的参数θCAE的基础上，结合式（1）和式（3）求解编码表示，得到各类传感器数据的特征后拼接特征。拼接方式参考式（5）的B拼接，得到编码表示的拼接矩阵G，然后结合线性回归二进制码W加权实现特征融合L，即

2.4 传感器网络安全预测

在特征融合的基础上，采用激活函数Sigmoid处理融合后的特征，并结合Softmax对处理后的结果输出概率的最大类别，从而实现类别预测。Sigmoid函数是一种logistic函数，能够将任意的值转换到[0，1]，函数表达式为

在对融合特征值L进行转换后，将其放入softmax函数实现归一化处理，从而确定σ(L)属于第j个分类的概率。在各种类别的概率计算公式为

式中：y为分类类别；P[y|σ(L)|]为n种分类类别的概率值。

3 实验分析

选取某互联网公司的信息物理系统安全态势数据作为数据集，采集公司连续15周的网络边界多种传感器数据信息、网络内部的数据信息以及部分主机的审计日志数据，共437 218条，其中正常数据有418 951条，异常数集据有18 267条。异常数据集的攻击类型包含拒绝服务攻击、漏洞扫描攻击、非法进入攻击以及非法获取攻击4大类。正常数据的类型标记属性为0，拒绝服务攻击、漏洞扫描攻击、非法进入攻击以及非法获取攻击类型标记属性分别为1、2、3、4。安全态势预测类别有安全、轻微危害、一般危害以及非常严重危害4个等级。

为比较不同算法在网络安全态势预测领域的预测精度，将本文模型与融合CNN的格拉姆角场（Gramian Angular Field，GAF）模式识别方法进行对比，通过多次随机抽取30%的正常数据和10%的异常数据进行模型训练与预测，得到的预测精度对比如图2所示[14]。

图2 算法精度对比

由图2可知，多数情况下，所提算法预测精度比融合CNN的GAF算法高。同时，基于10次预测精度的曲线可知，所提算法健壮性较优。此外，由于在处理多传感器数据时充分考虑了传感器数据之间的冗余性和互补性，采用模态内一致性、模态间一致性以及基于标签信息的线性回归学习等方法，训练卷积自编码网络的参数和线性回归二进制码，实现了多种信息之间的补充和修正，从而为安全预测提供相对完整、一致的语义信息。虽然融合CNN的GAF算法在特征提取方面性能较好，但是没有从多模态数据之间一致性、模态内一致性的角度考虑特征的融合，因此在对抗数据的随机性和噪声时略逊一筹。

4 结论

针对现有多传感器数据融合难的问题，提出基于多源数据约束性融合的传感器网络安全预测方法。该方法弥补了传统使用单一传感器数据实现网络安全态势预测的劣势。实验表明，所提方法具有较高健壮性，通过关联多种传感器数据之间的关系，可为系统提供相对完整、一致的语义信息，有利于实现网络安全预测。