收稿日期:2023-10-07
DOI:10.19850/j.cnki.2096-4706.2024.07.034
摘 要:针对现有态势感知技术存在数据处理效率低、数据传输时间长以及预警反应慢等问题,提出一种融合计算迁移模型的态势感知策略。首先引入计算迁移模型,在蒙特卡洛-香浓数学思想的指引下将传感器实时收集的多源异构监测数据分发至边缘层中各突触节点;然后对数据进行特征值提取,得到特征值矩阵;最后采用修正余弦相似度算法所对收集的数据加以分析,并做出相应的决策。实验结果表明,相较于现有方法,该策略可缩减35.3%的数据传输与比较时间,提升了20.22%的对比准确度。
关键词:主动预警;态势感知;多源异构数据;计算迁移模型
中图分类号:TP301.6 文献标识码:A 文章编号:2096-4706(2024)07-0172-07
Research on the Implementation Method of Situational Awareness Strategy Integrating Computational Migration Model
PENG Yongqian
(Department of Big Data and E-Commerce, Qiannan Polytechnic for Nationalities, Duyun 558022, China)
Abstract: Aiming at the problems of low data processing efficiency, long data transmission time and slow warning response of existing situational awareness technologies, a situational awareness strategy incorporating computational migration model is proposed. Firstly, the computational migration model is introduced, and the heterogeneous monitoring data from multiple sources collected by sensors in real time are distributed to each synaptic node in the edge layer under the guidance of Monte Carlo-Shannon mathematical ideas; then the eigenvalue extraction of the data is carried out to obtain the eigenvalue matrix; finally, the modified cosine similarity algorithm is used to analyze the collected data and make the corresponding decisions. The experimental results show that compared with the existing methods, this strategy can reduce the data transmission and comparison time by 35.3% and improve the comparison accuracy by 20.22%.
Keywords: proactive early warning; situational awareness; multi-source heterogeneous data; computational transfer model
0 引 言
态势感知[1-3]以大数据为基础,识别、理解和分析相关的数据信息,并在此基础上对未来的发展趋势进行预测[4,5],进而适时做出下一步的决策。近年来,随着人们对网络安全的愈发重视,态势感知策略的应用越来越广泛,逐渐渗透到金融行业、监管机构及安全分析等领域[6],这些领域无时无刻不在产生大量的时序数据[7,8]。因此,对时序数据进行高效预测是规避安全风险的基础,也是领域研究的热点和难点。但随着监测环境的不断变化,传统的态势感知策略已无法应对愈发复杂的监测环境,处理效率和准确性都有所降低。现有的态势感知策略使用特征矩阵的态势预测方法,通过将收集到的时序数据映射至对应的时序矩阵[9],并通过提取矩阵的特征来实现时序数据[10,11]的相关态势预测。
针对上述问题,本文提出一种融合计算迁移模型[12,13]的态势感知策略(Computational Migration Situational Awareness, CMSA)。主要内容如下:
1)基于工厂运转数据的时序特征,结合采用Transformer模型、多头注意力机制、残差网络算法构建时序特征矩阵,继而提出一种基于特征矩阵全新的态势感知策略(New Situational Awareness, NSA)。
2)在此基础上,针对NSA策略不适用于单一节点数据量大、计算任务繁重的问题,在蒙特卡洛-香农数学思想的指引下提出一种融合计算迁移模型的态势感知策略。
3)在计算迁移模型中,通过三层边缘计算网络模型实现时序数据的高效采集、分配和处理,在保证高准确度的前提下进一步提升处理效率。
1 相关工作
目前,许多学者对态势感知策略进行了深入的研究并取得了一定的研究成果。文献[14]中提出了基于决策树的车联网安全态势预测模型对特定的属性进行分类,使用信息增益率构建决策树,进而实现车联网安全态势预测,该模型能够提高预测的准确性,但却忽略了车辆行驶的长距离性;文献[15]中提出一种基于长短期记忆(LSTM)和多头注意力机制的混合模型,用于预测给定的时间序列,该模型在对称平均绝对百分比误差方面优于大多数测试方法,但却未对时序数据进行特征提取,预警准确性较低;文献[16]中提出一种时空神经网络(GCN-DHSTNet)模型,通过图卷积网络进行建模,基于节点之间的全局空间关系动态学习流量数据的时空特征,进而同时处理交通流中复杂的动态时空依赖关系,该模型有效地捕获了动态时间的相关性,但只能在节点距离较小的情况下使用;文献[17]基于格拉姆角场理论对偏离量变化进行时序相关性理解,建立卷积神经网络模型预测系统未来发展趋势,该方法对后续态势预测的准确率较高,但却未考虑计算负载;文献[18]中提出名为IPSO-ABiLSTM的情况预测模型,该模型将改进的粒子群优化算法(IPSO)和注意力机制与双向长短期记忆(ABiLSTM)相融合,能够快速收敛神经网络的参数,但却未对数据本身进行处理。
2 基于特征矩阵的态势感知策略构建
为实现工厂内时序数据的高效对比以及提取特征值的稳定性,基于Transformer自然语言处理模型,融合多头注意力机制(Multi-Head Attention, MHA)、残差网络算法(Residual Network, ResNet)、全局平均池化算法(Global Average Pooling, GAP)以及修正余弦相似度算法(Adjusted Cosine Similarity, ACS),提出了全新的态势感知策略。
2.1 从监测数据集到监测数据矩阵的映射
考虑到复杂工厂环境中多目标传感器收集的实时数据可能存在差异性,本文将传感器收集到的某时刻监测数据构造为多源异构数据矩阵的形式:
(1)
其中,g表示监测目标编号,k表示某时段内传感器监测的次数,m表示某时段内传感器监测数据的方差,n表示某时段内传感器监测数据的最大值。
由式(1)可得,任意时刻监测设备的M组数据可表示为:
(2)
由式(2)可得,在K时段内构建的多源异构向量Ω可表示为:
(3)
由式(3)可得,在K时段内,L个用户终端发送给计算节点的向量数据集可表示为:
(4)
其中,所构建的多源异构数据集Γ即为监测数据集矩阵。
2.2 监测数据矩阵的态势预测
由上文k时段内各用户终端的向量数值可知,NSA策略时刻都要处理多个矩阵数据,因此特征值提取速度直接决定了数据的处理速度。基于此,本文利用MHA机制和Transformer模型共同提取矩阵的特征值,直接计算任意两个位置之间的依赖关系,进而更好地捕捉长距离的依赖关系,防止过拟合现象的发生。同时,每一个注意力头都可以独立计算权重比,实现多线程处理数据。与此同时,该策略还引入了ResNet算法,通过增加网络的深度进一步提高了特征值的提取准确率。监测数据矩阵的特征值提取如图1所示。
在图1中,ResNet算法对K时段内的监测数据向量集Г = [Ω1,Ω2,…,ΩL]进行特征值提取,而后通过GAP算法处理提取后的特征数据。GAP算法的特点包括:
1)降维。
2)近似的平移不变性。采用ResNet算法对处理后的特征值进行运算,得到一个q×q的特征块,进行全连接处理后得出最终待比较的特征向量。
为进一步简化NSA策略,将上文得出的待比较特征向量的后续处理问题简化为向量之间的相似度计算,通过ACS算法对待比较的特征向量x1与策略中已保存的设备运转正常的特征向量x2进行对比:
(5)
比较过程如图2所示。
图2 特征矩阵的态势预测
由图2可知,采用ACS算法对分割后的单一特征向量进行相似度计算,计算结果的平均值即为最终的相似度结果。如该值低于某个阈值,意味着未来一段时间内被监测设备可能会出现问题,从而主动发出预警信息。
3 融合计算迁移模型的态势感知策略
随着监测数据呈指数级增长,NSA策略对数据的处理速度逐渐下降。为提高数据处理速度,本文提出了CMSA算法。
3.1 CMSA算法要义
在CMSA算法中,通过计算带宽资源处理数据的时间以及传输数据耗时来判断是否需要进行数据跃迁处理。假设用户终端为Xi,i ∈ {1,2,…,N},突触节点为Yi,i ∈ {1,2,…,M},每个用户终端可以将计算任务迁移到一个或多个突触节点中。当用户终端有任务需要计算时,算法将会发送任务迁移请求,将需要计算的任务数据D发送给其他突触节点。突触节点中每个任务都存在如下任务函数:
(6)
其中,Dij表示第i个用户终端给第j个突触节点分配的数据;αij表示突触节点给当前任务分配的算力资源占比;βij表示突触节点给当前任务分配的带宽资源占比;λij表示第i个用户终端给第j个突触节点分配的传输数据时间;σij表示第i个用户终端给第j个突触节点分配的处理数据时间。每增加一个突触节点,其他节点处理的数据量Dj就会被新增的节点平分,即:
(7)
随着其他节点处理数据量的增多,相应的时间σij会减少,而对应的数据传输时间λij会增加。因此CMSA算法的宗旨即是在动态中寻找G(m)的最小值,m为突触节点最佳使用个数,即:
(8)
第i个突触节点处理数据所用时间可表示为:
(9)
每次计算任务执行完毕后,函数信息Tij会被重置。假设各用户终端与突触节点之间的信道环境与噪声皆相同,在蒙特卡洛-香农数学思想下上行链路速率(Uplink Rate, UR)可以表示为:
(10)
其中,H0表示信道增益常量,Pij表示第i个用户终端与第j个突触节点的信号传输功率;Fij表示第i个用户终端与第j个突触节点的信号损耗功率;dij表示第i个用户终端与第j个突触节点的传输距离;S0表示传输信道路径损耗系数。由式(6)和式(10)可知,λij的传输时间可表示为:
(11)
由上述计算式可知,数据在传播至突触节点时,还需考虑传输距离带来的损耗和传输时间。
3.2 CMSA算法架构搭建
CMSA算法是一个拥有三层边缘计算网络的模型,该算法的架构图如图3所示。
第一层是用户层,该层位于模型的最底层,其中包含多个用户块。每个用户块包括一个用户终端和多个种类的传感器,这些传感器用于监测运转机器产生的各类数据,并将数据发送至对应的用户终端进行数据清洗。
第二层是边缘层,该层包含M个计算节点,各节点都是NSA策略的一个突触节点。当数据通过用户终端上传到突触节点时,该策略会对上传的数据执行特征点提取、优化权重比等操作,还会将各个突触节点计算的最终特征权重值上传到云层,便于云层执行下一步的操作。
第三层是云层,该层包含算力更强的服务器,这些服务器是CMSA算法的核心。对机器正常运转时的各特征值信息与突触节点上传的特征值信息进行相似度计算,根据计算结果判断是否需要预警。
4 实验与分析
本文实验环境为24台2 TB存储空间、128 GB RAM、16核24线程i9-13900K CPU的服务器集群,服务器之间采用高速局域网通信,每台服务器均部署CentOS 7.9.112操作系统。实验数据集为基于传感器对某印刷厂海德堡印刷机收集的实时数据,在机器设备的前部、中部、后部分别配置一套传感器组,每组传感器均包含电流、电压、温度、湿度、压力五个类型的传感器,传感器每隔180秒收集一次数据。从数据传输与处理时间、特征值对比准确度、算法鲁棒性三个方面验证CMSA算法所具有的低耗时、高精度和高鲁棒性优点。
4.1 数据预处理
本节主要是对传感器收集的数据执行预处理操作。对于缺失的数据,通过补采方式补全;对于重复数据,基于基本近邻排序算法对其进行滤重;对于错误数据,直接删除不遵守分布或回归方程的值。本次数据预处理模拟收集L个用户终端、K个时间节点、M = 10 000组数据信息,所收集的部分数据信息如图4所示。
4.2 数据传输与处理时间对比
在CMSA模型中,假设有5个突触节点且这5个突触节点均处于同一服务器内,其带宽资源均为50 MB/s,计算资源均为200 MB/s,数据传输功率、损耗功率以及信道增益常量等性能均相同。每个突触节点处理数据时,其带宽资源和计算资源不会发生离散现象,故而αij = 50 MB/s、βij = 200 MB/s。在距离方面,假设后一个突触节点到用户终端的距离均为前一个节点的2倍,设d11 = 1单位距离,使用不同数量突触节点对CMSA算法的影响如表1所示。
由表1中的数据和式(8)可知,当m = 2时,CMSA算法模型获得了最佳数量的突触节点。此时,CMSA算法会采用2个突触节点中的NSA策略来处理数据特征值。为了更加全面地验证上述实验的准确性,本节用计算机仿真出50个突触节点的情况,当各项参数不变时,实验结果如图5所示。
通过对图5实验数据的观察可知,当m = 2时,CMSA算法模型获得了最佳数量的突触节点。
4.3 特征值对比准确度
假设所有测试均在同一环境下进行,第一组:传统神经网络RNN+余弦相似度;第二组:长短期记忆网络LSTM+余弦相似度;第三组:Self-attention(自我注意力)的Transformer+余弦相似度;第四组:CMSA算法模型。为了使实验结果数据更具对比性,在所测试的10 000组数据中,随机修改12%的数据作为设备的故障数据。各算法处理数据结果如图6所示。
由图6可知,在数据处理耗时方面,CMSA算法相比其他三种算法可缩减35.3%的传输与比较时间,这是由于该算法使用了计算迁移模型,能有效利用高并发处理大量时序数据,减少了资源的浪费和时间的耗损;在数据处理准确度方面,CMSA算法相比其他三种算法平均提升了20.22%的对比准确度,这是由于CMSA算法在Transformer的基础上融合了MHA机制和ResNet算法,能够有效避免梯度爆炸、梯度消失等问题的出现,进而提高了特征值提取和数据处理的准确度。
4.4 算法鲁棒性验证
验证CMSA算法的鲁棒性,对比实验沿用上一小节的实验内容。在本节的实验中,分别选取4组实验在相同时间节点处理数据的耗时情况(50个时间节点),如图7所示。
由图7可知,相比第一种算法,CMSA算法去除了梯度消失的陷阱,纠正了特征值提取时将会出现的错误;相比第二种算法,CMSA算法降低了处理数据耗时的波动幅度,增加了系统的鲁棒性;相比第三种算法,CMSA算法降低了处理数据的用时,能够做到更加合理地分配资源。
5 结 论
本文提出一种融合计算迁移模型用于实现工厂主动预警的态势感知策略方法。首先构建一个三层的边缘计算网络模型,各层可满足不同的功能需求,同时引入了计算迁移模型,将传感器收集的实时数据分发至边缘层中的各突触节点;然后提取数据的特征值,得出对应的特征值矩阵;最后提出修正余弦相似度算法进行向量间的相似度比较,并根据比较结果决定是否进行主动预警。实验结果表明,相较于现有方法,本文方法在计算效率、预警准确性等方面具有很大优势,为工厂主动预警的顺利实现提供一条有效途径。
参考文献:
[1] 张红斌,尹彦,赵冬梅,等.基于威胁情报的网络安全态势感知模型 [J].通信学报,2021,42(6):182-194.
[2] KIM J,KONG J,SOHN M,et al. Layered Ontology-based Multi-sourced Information Integration for Situation Awareness [J].The Journal of Super-Computing,2021,77(9):9780-9809.
[3] 陈军,张岳,陈晓威,等.基于模糊灰色认知图的复杂战场智能态势感知建模方法 [J].兵工学报,2022,43(5):1093-1106.
[4] SHWET K,KUMAR M P. India perspective: CNN-LSTM Hybrid Deep Learning Model-based COVID-19 Prediction and Current Status of Medical Resource Availability [J].Soft Computing,2021,26(2):645-664.
[5] ARJOMANDI-NEZHAD A,AHMADI A,TAHERI S,et al. Pandemic-aware day-ahead demand forecasting using ensemble learning [J].IEEE Access,2022,10:7098-7106.
[6] XU H,BERRES A,YOGINATH S B,et al. Smart Mobility in the Cloud: Enabling Real-time Situational Awareness and Cyber-physical Control through a Digital Twin for Traffic [J].IEEE Transactions on Intelligent Transportation Systems,2023,24(3):3145-3156.
[7] WAUCHOPE H S,AMANO T,GELDMANN J,et al. Evaluating Impact Using Time-Series Data [J].Trends in Ecology and Evolution,2020,36(3):196-205.
[8] 张仁斌,左艺聪,周泽林,等.基于多模态生成对抗网络的多元时序数据异常检测 [J].计算机科学,2023,50(5):355-362.
[9] CUI A J,HE C K,CHANG C H,et al. Identification of FSM State Registers by Analytics of Scan-Dump Data [J].IEEE Transactions on Information Forensics and Security,2021,16:5138-5153.
[10] K?HLER J,SCHWENKEL L,KOCH A,et al. Robust and Optimal Predictive Control of the COVID-19 Outbreak [J].Annual Reviews in Control,2021,51:525-539.
[11] CAO Y X,KUANG J,GAO M,et al. Learning Relation Prototype from Unlabeled Texts for Long-Tail Relation Extraction [J/OL].arXiv:2011.13574v1 [cs.CL].[2023-08-01].https://arxiv.org/abs/2011.13574v1.
[12] 陈思光,陈佳民,赵传信.基于深度强化学习的云边协同计算迁移研究 [J].电子学报,2021,49(1):157-166.
[13] HUANG S Z,LIN K Y,HU C L. Intelligent Task Migration with Deep Qlearning in Multi-access Edge Computing [J].IET Communications,2022,16(11):1290-1302.
[14] 唐亮,李飞.基于决策树的车联网安全态势预测模型研究 [J].计算机科学,2021,48(S1):514-517.
[15] ABBASIMEHR H,PAKI R. Improving Time Series Forecasting Using LSTM and Attention Models [J].Journal of Ambient Intelligence and Humanized Computing,2022,13:673-691.
[16] ALI A,ZHU Y,ZAKARYA M. Exploiting Dynamic Spatio-temporal Graph Convolutional Neural Networks for Citywide Traffic Flows Prediction [J].Neural networks,2022,145:233-247.
[17] 林政阳,姜飞,涂春鸣,等.考虑时序相关性的数据驱动电-气综合能源系统态势感知 [J].电网技术,2022,46(9):3385-3394.
[18] ZHAO D M,WU Y X,ZHANG H B. A Situation Awareness Approach for Network Security Using the Fusion Model [J/OL].Mobile Information Systems[2023-08-14].https://doi.org/10.1155/2022/6214738.
作者简介:彭永倩(1998—),女,布依族,贵州贵定人,讲师,硕士研究生,研究方向:计算机网络、雾计算。