基于改进强化学习的无线通信网络传输安全态势感知方法

2024-05-17 07:32倪守娟

通信电源技术 2024年6期

关键词：态势传输节点

张芳，倪守娟，颜艳

（1.青岛民航凯亚系统集成有限公司，山东青岛 266108；2.青岛国际机场集团有限公司，山东青岛 266308）

1 改进强化学习算法设计

为了提高无线通信网络传输的安全态势感知能力，需要设计和实现一种改进的强化学习算法[1-2]。具体的设计结构如图1 所示。

图1 改进算法的设计结构

如图1 所示，在状态表示的改进方面，不仅考虑了当前的多维度状态特征，还将历史信息整合进来，使算法能够更全面地把握当前的无线通信网络传输态势。主要采用深度学习技术，将多维度状态特征和历史信息进行有效整合，使状态表示更加丰富和准确。在动作空间的改进方面，主要设计了多样化的动作，以应对无线通信网络传输中的各种复杂情况。同时，改进算法设计还实现了自适应动作，使算法能够根据当前的网络传输态势自动选择最适合的动作，从而提高网络传输的安全态势感知能力。在奖励机制的改进方面，采用了多目标优化，将短期收益和长期收益进行有效平衡。这使得算法在追求网络安全的同时，也能够关注网络的传输效率。此外，还设计了一种长期激励机制，以鼓励算法在长期的网络运行中保持优秀表现。在策略学习的改进方面，主要从模型驱动的学习和迁移学习2 个方面进行了改进。利用模型驱动的学习，使算法能够更加精确地模拟网络传输中的各种情况，从而提高算法的预测能力。采用迁移学习技术，使算法能够将在一个网络环境中学到的知识应用到另一个网络环境中，从而提高算法的泛化能力。

总之，改进强化学习算法在状态表示、动作空间、奖励机制、策略学习4 个方面都进行了全面的技术性完善和优化，通过这些具体的改进形式，能够使得改进的强化学习算法更好地适应无线通信网络的传输安全需求，提高安全态势感知的准确性和实时性，从而增强网络的整体安全性。

2 无线通信网络传输安全态势感知的模型构建

2.1 模型架构

在构建无线通信网络传输安全态势感知模型时，需要综合考虑多方面的因素，确保网络传输的安全性和可靠性[3]。具体模型架构流程如图2 所示。

图2 模型架构流程

如图2所示，建立模型架构时，先要进行数据采集，收集流量数据、信号强度等多种数据，并对数据进行预处理，消除噪声，提取有用信息。接着通过特征提取中的模式识别技术，从数据中提取反映网络状态和用户行为的特征，并结合支持向量机（Support Vector Machine，SVM）整合威胁情报，识别异常行为和威胁特征，具体的表达式为

式中：w为权重值；ai为拉格朗日乘子；yi为输出标签，通常取值为+1 或-1；xi为输入数据点。

在态势理解层对威胁进行建模，具体可利用逻辑回归的预测计算进行分类和标注，为态势预测提供依据。同时，整合网络外部信息，如天气状况、地理位置等，为模型构建提供更全面的网络使用背景。具体的逻辑回归预测计算为

式中：y为预测的输出值，也称为逻辑回归得分；x为输入的特征量，包含了用于预测的各个特征的值；b为截距项，是逻辑回归模型的另一个参数，对应于所有输入特征值为0 时模型的预测值。当y值接近于1 时，意味着模型预测输出为正类；相反，当y值接近于0 时，意味着模型预测输出为负类。此外，通过动态分析和趋势分析，实时监测与分析网络传输中的变化，预测潜在的安全态势变化。如果动态分析或趋势分析不成功，那么模型将会重新评估分析方法或增加更多的分析维度，直至预测结果准确。最后，态势展示层通过可视化界面，将安全态势感知结果直观展示给网络安全分析师，并根据感知结果发出预警，指导相应响应措施。学习与优化层利用过往安全事件数据，持续优化模型，适应新的安全威胁，并定期更新模型参数和特征库。

2.2 奖励函数设计

在无线通信网络传输安全态势感知模型的构建中，奖励函数的设计是关键组成部分，主要负责指导网络中的节点如何通过各自的行为来优化整个网络的安全态势[4]。奖励函数通常设计为衡量个体行为对整个网络安全的贡献程度，激励节点采取有利于网络安全的行动。具体奖励函数设计组成如下。

2.2.1 安全性能指标

利用基于量子密钥分发（Quantum Key Distribution，QKD）的量子通信协议，来确保通信的保密性。QKD 利用量子态的不确定性来生成和传输密钥，任何试图监听的行为都会被检测到，从而保证密钥的安全和通信的机密性。此外，网络采用分布式架构，及时中断在不安全的环境下发生的分布式拒绝服务（Distributed Denial of Service，DDoS）攻击事件。

2.2.2 行为贡献度

在无线通信网络中，为提高安全态势感知的效率，奖励函数应重点考虑节点的行为贡献度[5]。通过建立信誉积分系统，评估上报信息的准确性和及时性，从而奖励那些能够快速识别并上报威胁的节点。在防御行为方面，主要通过部署入侵检测系统（Intrusion Detection Systems，IDS）和入侵防御系统（Intrusion Prevention System，IPS），检测正在进行的攻击或异常活动，并向网络管理员发出警报，及时隔离受感染的系统，阻止恶意流量或修改网络配置等危险动作。

2.2.3 网络效率指标

采用先进的调制技术并优化传输协议，减少传输延迟和提高数据吞吐量。同时，激励节点使用动态频率选择和频谱感知技术，降低无线通信网络中频率干扰和冲突的概率，提高频谱利用效率。此外，采用机器学习算法来预测和优化网络资源分配，奖励那些能够根据网络负载动态调整发射功率和资源分配策略的节点。

通过以上3 个部分，可以构建一个有效的奖励机制，激励网络中的节点积极参与到网络安全态势感知，共同维护无线通信网络的安全。

3 实验分析

3.1 实验准备

为全面评估基于改进强化学习的无线通信网络传输安全态势感知方法的性能，需搭建一个适合测试的实验环境。实验要准备OPNET 系列的网络模拟器、Intel Xeon 系列的服务器、GeForce 系列的图形处理器；同时还须准备不间断电源，确保实验过程中电源的稳定性和系统的不间断运行；以及用于构建网络拓扑结构，连接模拟无线节点的网络交换机。通过以上设备，可以搭建一个适合测试基于改进强化学习的无线通信网络传输安全态势感知方法的实验环境[6]。

3.2 结果分析

在进行结果分析前，模拟DDoS 攻击，让攻击者通过发送大量伪造请求使服务器被这些请求所占满，导致合法用户无法获得足够的网络服务资源，从而使得网络服务变得不可用。仿真时间为100 s，仿真数据如表1 所示。

表1 仿真数据

如表1 所示，在模拟的DDoS 攻击场景下，强化学习算法通过动态调整网络策略来最小化这些影响。可以看出，强化学习算法在提高传输成功率、减少延迟和丢包率、优化能耗方面取得了一定的效果。这些数据表明，强化学习算法有助于提高网络在遭受攻击时的健壮性和效率。

接着，将改进的强化学习方法与传统的安全管理方法进行对比，评估改进后的方法在传输效率、延迟和丢包率等方面的表现。同时，使用定义的性能指标，对实验结果进行量化分析。具体实验结果对比如表2 所示。

表2 测试实验结果

表2 数据显示，强化学习方法显著提升了无线通信网络的传输效率，从原来的700 Mb/s 增加到850 Mb/s。这一变化表明，强化学习能够更有效地利用无线通信资源，提高数据传输速度和网络容量。此外，平均延迟从30 ms 减少到20 ms，表明强化学习方法提供了更快的响应时间，对于实时应用和用户体验有显著改善。丢包率也从2%降低到0.5%，这显示了强化学习在管理网络拥塞和干扰方面的有效性，增强了网络的可靠性。能耗方面，强化学习方法节省了25%。总之这些结果证明了强化学习技术在无线通信网络管理中的潜力，为网络提供了更加高效、可靠和安全的环境。

4 结论

文章针对无线通信网络传输安全态势感知问题，提出了一种基于改进强化学习的方法。通过设计新的强化学习算法，构建了无线通信网络传输安全态势感知模型，并通过仿真实验验证了方法的有效性。实验结果表明，改进的强化学习方法在传输效率、延迟、丢包率等方面显著优于传统安全管理方法，同时具备更高的能源效率和资源利用率。