基于强化学习的IPv6校园网双栈流量调度方法

2023-08-21 09:57:42杨建袁林德刘磊

无线互联科技 2023年12期

杨建袁林德刘磊

摘要：由于传统方法在IPv6校园网双栈流量调度应用中效果不佳，网络吞吐率比较低，文章提出基于强化学习的IPv6校园网双栈流量调度方法，利用无向图建立IPv6校园网双栈链路拓扑模型，描述双栈链路负载均衡状态，以负载均衡度最大化、双栈链路路径长度最小化为目标建立目标函数，利用强化学习网络模型对目标函数求解，将最优调度策略反馈到模型中执行，以此实现基于强化学习的IPv6校园网双栈流量调度。实验证明，在设计方法应用下IPv6校园网吞吐量达到141.02 Gbps，在IPv6校园网双栈流量调度具有良好的应用前景。

关键词：强化学习；IPv6校园网；双栈流量；吞吐率；无向图

中图分类号：TP393.2 文献标志码：A

0 引言

随着IPv6技术的不断更新与完善，IPv6已经被广泛应用到校园网络系统建设中，IPv6校园网具有高安全性、高灵活性、高弹性等特征，并且能够同时使用IPv6和IPv4两个网络协议。IPv6校园网双栈流量复杂多样，流量种类也越来越多，IPv6校园网络带宽资源有限，如果IPv6校园网双栈流量没有得到合理调度，将会直接影响到校园网络的吞吐能力，因此如何有效分配和调度双栈流量，成为IPv6校园网面临的主要难题。目前，IPv6校园网用户对网络性能要求越来越高，不仅要保证双栈流量成本最低，而且还要保证双栈流量吞吐率达到最大化，提高网络带宽利用率。但是国内关于网络双栈流量调度研究起步比较晚，相关技术与理论还不够成熟与完善，技术水平还比较低，与发达国家相比存在较大的差距。虽然近几年流量调度问题受到研究领域学者的重视与关注，相关学者与专家开展了一系列研究，提出了一些调度方法，但是现行的方法还存在一些缺陷，在实际应用中无法达到预期的调度效果。IPv6校园网吞吐率比较低，传统方法已经无法满足实际需求，为此，本文提出基于强化学习的IPv6校园网双栈流量调度方法。

1 建立IPv6校园网双栈链路模型

此次将IPv6校园网双栈流量调度问题转变为一个线性规划问题，即流量在IPv6校园网中从不同的源节点流向不同的终节点问题，流量调度问题的目标是以最小损耗实现数据流在IPv6校园网中的流通，但是不能超过每个链路的承载能力［1］。利用无向图建立IPv6校园网双栈网络拓扑模型，其用公式表示为：

G=（V，E）（1）

式中：G表示IPv6校园网双栈网络拓扑模型；V表示整个IPv6校园网拓扑中的双栈链路；E表示所有节点，其中包括源节点和非源节点［2］。IPv6校园网双栈流量调度问题，实际就是对现有网络资源分配问题，保证校园网双栈流量业务在运行环境下能够稳定运行［3］。要对校园网双栈流量调度，首先需要了解校园网络双栈资源的使用情况，其计算公式为：

U=∑Ni=1xikizi（2）

式中：U表示IPv6校园网双栈流量业务的整个切片资源占有率，即双栈链路的资源使用率；i表示双栈流量业务数量；N表示所有流量路径集合；xi表示流量业务在切片中与其他业务资源占比；ki表示校园网络流量业务请求；zi表示IPv6校园网中每条双栈链路中的总带宽资源［4］。根据校园网络双栈资源使用情况，确定IPv6校园网双栈链路负载均衡状态，其用公式表示为：

ε=∑maxU-minUu（3）

式中：ε表示IPv6校园网双栈链路负载均衡状态；maxU表示双栈链路资源使用率最大值；minU表示双栈链路资源使用率最小值；u表示IPv6校园网所有业务资源的集合［5］。考虑到IPv6校园网双栈流量是存在瞬时激增或者速减的，负载均衡状态是不稳定的，采用梯度更新的方式对IPv6校园网双栈链路负载状态进行更新，更新后的ε值越大，表示网络双栈链路资源分配越均匀，ε值越小，表示网络双栈链路资源分配越不均匀，根据确定的网络双栈链路负载均衡状态，驱动双栈流量调度优化。

2 建立双栈流量调度目标优化函数

根据IPv6校园网流量资源调度需求，此次以IPv6校园网负载均衡度ε最大化、双栈链路长度最小化为目标，建立两个子目标函数，其用公式表示为：

maxε=∑i=1xi

minh=∑（d，j）∈V djμdj（4）

式中：minh表示IPv6校园网双栈链路长度最小值；（d，j）表示节点d到节点j的双栈链路；dj表示流量业务在双栈链路（d，j）所占的流量比；μdj表示双栈链路（d，j）的权重［6］。将以上两个子目标函数整合为一个，由此可以建立双栈流量调度目标优化函数：

f（x）=maxε+minh（5）

式中：f（x）表示校园网双栈流量调度目标优化函数。

3 基于强化学习的目标函数求解

上文建立的目标函数存在无数个解，需要从众多解中找出最优解，此次采用强化学习技术对目标函数最优解进行求取。根据实际情况建立强化学习网络模型，该模型由强化学习智能体、记忆池组成，将强化学习网络模型接入IPv6校园网双栈链路模型，对其进行控制，具体流量调度过程如图1所示。

如图1所示，将双栈链路模型描述得到的链路负载均衡状态输入强化学习智能体状态空间，通过对目标函数最优解求解，得出一个与状态相应的动作［7］。强化学习网络模型具有一定的学习能力，假设目标函数解集为M，解集中含有m个解，将每个解对应的状态数据样本作为训练样本，输入强化学习智能体，对智能体进行训练，在仿真环境中模拟流量，每次模拟要给出奖励，在记忆池中设置奖励函数，如果智能体模拟的双栈链路满足带宽需求，对其进行奖励，如果不符合带宽需求，则不给予奖励，其用公式表示为：

Reward=1-ρ，ifW=False

0，ifW=True（6）

式中：Reward表示奖励函数；ρ表示奖励系数；W表示本轮双栈流量模拟是否结束；False表示结束；True表示继续。根据实际情况，对智能体迭代次数设定，按照上述流程对智能体进行迭代训练，对各个解进行模拟，当满足迭代要求后，按照奖励对目标函数解进行排序，输出奖励最多的解为最优解，最能满足IPv6校园网双栈链路带宽需求的流量调度策略，将其输入上文建立的IPv6校园网双栈链路模型，执行调度策略，以此完成基于強化学习的IPv6校园网双栈流量调度。

4 實验论证

4.1 实验准备与设计

为了检验本次提出的基于强化学习的IPv6校园网双栈流量调度方法的可行性与可靠性，选择某IPv6校园网为实验对象，该校园网由5台主机、5台路由器构成，网络支持IPv6协议栈，利用本文设计方法对该IPv6校园网双栈流量调度，并选择两种传统方法作为对比，两种传统方法分别为基于遗传算法和基于蚂蚁算法，以下用传统方法1与传统方法2表示。实验令IPv6校园网生成7条双栈链路，由100名网络用户向网络发送数据传输请求，请求发送频率为1.26 Hz，数据传输总量为2 000 Byte，按照上文建立双栈链路模型以及双栈流量调度目标函数，并利用强化学习对目标函数求解，执行最优流量调度策略。在设计方法应用下所有网络请求都得到响应，设计方法可以完成IPv6校园网双栈流量调度任务，以下对具体调度效果进行检验。

4.2 实验结果讨论

实验以网络吞吐率作为3种方法调度性能评价指标，其中网络吞吐率可以反映网络请求处理能力，其计算公式为：

g=cv×100%（7）

式中：g表示IPv6校园网吞吐率；c表示网络流量总请求数量；v表示流量请求处理总完成时间。根据实验网络配置情况，单个链路吞吐率不应低于12.5 Gbps。实验将其作为检验标准，使用上述公式计算出校园网各个双栈链路流量吞吐率，使用电子表格对实验数据记录，具体数据如表1所示。

从上表中数据可以看出，在设计方法应用下IPv6校园网流量吞吐率相对比较高，总吞吐率为141.02 Gbps，单个链路最大吞吐率为20.48 Gbps，远超出规定要求，说明设计方法流量调度效果良好，网络的请求处理能力得到有效保证；而在两种传统方法应用下IPv6校园网吞吐率相对比较低，传统方法1与传统方法2总吞吐率分别为74.56，76.51 Gbps，单个链路最高吞吐率分别为11.14，11.25 Gbps，不仅低于最小限值，而且还远远低于设计方法。因此本次实验证明，设计方法流量调度效果优于传统方法，相比较传统方法更适应于IPv6校园网双栈流量调度。

5 结语

针对现行方法存在的不足与缺陷，本文参考相关文献，将强化学习技术应用到IPv6校园网双栈流量调度中，提出了一个全新的调度思路，有效提高了IPv6校园网吞吐率，实现了对传统方法的优化与创新，丰富了IPv6校园网双栈流量调度理论。由于本文提出的方法尚未在实际中得到大量应用与实践，在某些方面可能存在一些不足之处，今后会在方法优化设计方面展开探究，为IPv6校园网双栈流量调度提供有力的理论支撑。

参考文献

［1］王波，高文炜，徐丹妮，等.一种基于NeSTiNg的TSN强实时流量调度和自动配置方法［J］.微电子学与计算机，2022（11）：62-68.

［2］聂宏蕊，李绍胜，刘勇.时间敏感网络中基于IEEE 802.1Qch标准的优化调度机制［J］.通信学报，2022（9）：12-26.

［3］肖漫漫，刘骥琛，李艳丽，等.软件定义广域网中基于IPv6分段路由的双栈流量调度算法［J］.重庆大学学报，2022（9）：115-125.

［4］沙宗轩，霍如，孙闯，等.基于深度强化学习的转发效能感知流量调度算法［J］.通信学报，2022（8）：30-40.

［5］甘浩宇，陈立丰，郭娘容，等.基于强化学习的5GURLLC承载网切片流量调度优化［J］.电脑知识与技术，2022（13）：9-13.

［6］马枢清，唐宏，李艺，等.基于粒子群优化算法的数据中心网络流量调度策略［J］.电讯技术，2021（7）：865-871.

［7］李宏慧，李炜东，付学良.基于多层虚拟拓扑节能的SDN数据中心网络流量调度算法［J］.计算机应用与软件，2021（4）：124-131.

（编辑王雪芬）

Dual-stack traffic scheduling method of IPv6 campus network based on reinforcement learning

Yang Jian， Yuan Linde， Liu Lei

（Xian Conservatory of Music， Xian 710061， China）

Abstract： Because the traditional method is not effective in dual-stack traffic scheduling application of IPv6 campus network and the network throughput is relatively low， a dual-stack traffic scheduling method of IPv6 campus network based on reinforcement learning is proposed. The dual-stack link topology model of IPv6 campus network was established by using undirected graph to describe the load balancing state of dual-stack link. The objective function was established by maximizing the load balancing degree and minimizing the path length of dual-stack link. The objective function was solved by using the reinforcement learning network model， and the optimal scheduling strategy was fed back into the model for execution. In this way， the dual stack traffic scheduling of IPv6 campus network based on reinforcement learning is realized. The experimental results show that the throughput of IPv6 campus network reaches 141.02 Gbps under the design method， which has a good application prospect in dual-stack traffic scheduling of IPv6 campus network.

Key words： reinforcement learning; IPv6 campus network; double stack flow; throughput rate; undirected graph