深度学习支持下的无线异构网络中继决策分析

2024-04-28 06:36邹易奇

无线互联科技 2024年5期

邹易奇

(西安铁路职业技术学院,陕西西安 710000)

0 引言

在当代通信领域,无线异构网络已成为广域无缝覆盖的关键技术之一。无线异构网络通过整合不同类型的无线接入技术,构建了多层次、多样化的网络架构,显著提升了网络的容量和覆盖范围。中继节点在无线异构网络中扮演着重要的角色,不仅解决了地理位置限制和信号衰减问题,还通过信号的转发和处理,扩大网络的覆盖范围,提高通信质量,因此,合理的中继决策对于改善网络性能至关重要。深度Q网络(Deep Q-Network,DQN)作为深度强化学习(Deep Reinforcement Learning, DRL)的一种经典算法,以其独特的优势在复杂决策问题中显现出巨大潜力。本文旨在探索DQN算法在无线异构网络中继决策中的应用,以实现网络性能的最优化。

1 无线异构网络中的中继节点

无线异构网络是一种融合多种无线接入技术的网络架构,通过协同不同的无线接入网络,实现服务的无缝覆盖。无线异构网络由多种无线接入网络以及这些子网络之间的中继节点组成。在无线异构网络中,子网络之间通过中继节点相互连接和互操作。中继节点位于源节点和目标节点之间,其主要功能是对无线信号进行放大加强后再转发,以扩大网络覆盖范围、提高信号传输质量。中继节点有助于改善网络的热点区域容量,在人流密集的热点区域,大量用户同时访问网络,可能会导致网络拥塞甚至短时中断,设置中继节点区域性分流数据,可以显著增强热点区域的网络容量,设置室分布节点,还能使信号在穿透建筑物时中继放大,改善室内覆盖效果。

2 DQN算法原理与网络结构

DQN是深度强化学习算法之一,其基本思想是建立一个深层神经网络来近似表示Q值函数,采用经验回放和定期复制目标网络进行训练。DQN中的评估网络(Evalution Network,EvalNet)用于估算当前策略的Q值函数,目标网络(Target Network)用于计算期望Q值。EvalNet首先输入当前状态s,输出各可能动作a对应的Q(s,a)。智能体根据探索策略选择动作,环境返回新的状态s′和奖励r,将经历(s,a,r,s′)存入经验回放池。每次从回放池中随机采样训练EvalNet,并定期复制其参数到TargetNet,其损失函数为:

(1)

其中,θ为EvalNet参数;θ′为TargetNet参数;E为期望值;y为目标Q值。通过最小化损失函数训练神经网络,EvalNet能够逼近最优的行动价值函数[3]。

3 基于DQN的无线异构网络中继决策模型

3.1 DQN模型结构及超参数选择

本研究构建了一个基于Tensorflow的DQN模型,用于学习无线异构网络的中继节点布置策略,模型结构如图1所示。

图1 模型结构

模型主要包含2个深度神经网络:评估网络EvalNet和目标网络TargetNet。这2个网络都由输入层、2个全连接隐层和输出层组成。设网络隐层节点数分别为N1、N2,输入状态向量维度为Ns,输出动作数为Na,则2个网络的参数可表示为:

θeval={W1,b1,W2,b2,W3,b3}

(2)

(3)

3.2 状态空间定义

状态空间定义了智能体可观测到的环境信息,是智能体做出动作决策的依据。本研究将状态空间定义为一个Ns维向量s,包含以下状态特征:(1)当前时刻每个中继节点的信道增益gi,维度为Na;(2)每个中继节点的剩余传输能量ei,维度为Na;(3)系统当前时刻的总业务量请求r。则状态表示为:

s=(g1,g2,…,gNa,e1,e2,…,eNa,r)

(4)

该状态空间综合考虑了网络拓扑、信道和业务因素的实时状态,可为中继决策提供全面的环境信息。

3.3 动作空间定义

为解决无线网络的中继决策问题,需要合理定义动作空间[1]。研究将动作定义为中继节点的开关状态组合,采用一个Na维向量a表示,其中:

(5)

对于第i个中继节点,如果ai=1表示开启,ai=0表示关闭。动作空间包含所有可能的开关组合,对于Na个中继节点,动作空间大小为2Na。为实现动作空间,构建一个Actor类,包含2个功能:

(1)从策略网络输出中采样动作。

def sample_action(self,policy_net,s):

action_prob=policy_net(s)

action=torch.multinomial(action_prob,1)

return action

(2)根据概率分布确定概率最高的动作。

def get_action(self,policy_net,s):

action_prob=policy_net(s)

action=torch.argmax(action_prob)

return action

通过定义简明的动作集合,并配合代码实现动作采样功能,该离散动作空间可以明确指导智能体对无线网络中继节点的开启或关闭操作。

3.4 奖励函数设计

奖励函数评估一个动作导致的状态转移所获得的即时奖励。设计无线异构网络中继节点的奖励机制时考虑了传输的成本和收益:

(6)

其中,Rttrans为转发收益;Rtsaving为节能收益;Rtloss为数据丢失罚函数;w1、w2、w3为系数,平衡不同奖励的比重。

如果在t时刻成功转发数据,则有Rttrans=B,其中B为基础奖励。如果等待不转发,则Rttrans=0。节能奖励与节点剩余电量成正比,Rtsaving=α,其中et∈[0,1],为剩余电量,α为系数。当队列溢出导致数据丢失时,有Rtloss=-C,其中C为罚函数系数,否则Rtloss=0。

3.5 DQN算法描述

基于前述的状态空间、动作空间以及奖励函数,无线异构网络中继节点决策的DQN算法实现流程如下:

(1)采用2个相互协作的深度神经网络,即评估网络和目标网络。评估网络用于及时近似Q函数,产生中继节点的开关策略;目标网络的网路参数定期从评估网络复制,用于计算目标Q值,使训练过程更加稳定。2个网络的参数分别表示为θ和θ′。

(3)每C步从评估网复制参数至目标网[2]。如此循环往复,评估网络能够在线逼近无线网络中继的最优策略。

4 中继决策性能分析

为验证所提方法的优势,本文构建了仿真环境,并与典型的经验决策法和随机决策法进行了比较。主要性能指标包括平均吞吐量、传输延迟、丢包率等。仿真参数设置如表1所示。

表1 仿真参数设置

3种方法在不同网络负载条件下的平均吞吐量和丢包率指标如表2所示。

表2 不同算法的吞吐量和丢包率比较

固定中继策略打开所有中继节点,随机中继随机选择开启节点。结果显示,DQN算法可以根据网络状态智能选择最优的中继组合,在所有负载下,DQN算法都实现了最高的平均吞吐量和最低的丢包率,充分利用了网络资源,显著提高了吞吐量水平,同时大幅降低了拥塞丢包概率。

5 结语

本文探索了深度强化学习在无线异构网络中的应用,提出了一个基于DQN的中继节点优化方法。该方法可以根据网络状态动态选择中继,从而改善网络性能。仿真结果表明,与传统方法相比,该方法可以提高网络吞吐量,降低丢包率,提供了一种利用深度强化学习优化无线网络智能化资源的新思路。