谭俊杰,梁应敞
(电子科技大学通信抗干扰技术国家级重点实验室 成都 611731)
随着智能手机等智能终端的普及以及各类应用的出现,人们对无线通信的速率、时延等方面都提出了更高的要求。为了满足更高的通信需求,越来越多的新技术被应用于无线通信网络中,如更高阶的编码调制方案(modulation and coding scheme)、部署缓存(cache)甚至基于无人机(unmanned aerial vehicle, UAV)的空中基站等。并进一步提出了将各类异构的无线网络进行有机整合,再按需分配提升网络整体弹性[1]。这些技术提升了无线网络的承载极限,但也增加了管理维度。与此同时,步入万物互联的时代,终端数量呈现出爆炸式的增长,导致无线网络规模日益庞大。网络规模及管理维度的双重扩增导致复杂度激增,使得传统的基于凸优化或启发式的无线网络管理方法失效。
另一方面,近年来人工智能快速发展,其摒弃了传统的人工数学建模后求解的方法,转而利用数据驱动的机器学习方法直接对数据进行分析和处理。其中,深度学习(deep learning, DL)[2]和深度强化学习(deep reinforcement learning, DRL)[3]是最重要的两类机器学习方法。DL 利用深度神经网络(deep neural network, DNN)挖掘数据中的关联关系,最终实现对未知数据的预测。因此,DL 被广泛应用于计算机视觉及自然语言处理等领域。与DL 不同,DRL 属于机器学习的另一分支,其目的是在复杂的动态环境中进行最优决策。为了实现这一目标,DRL 首先记录下环境与控制信息,然后利用DNN 对历史经验进行分析并学习环境变化规律,最终根据学习到的规律得到最优策略。因此,DRL 在自动化控制领域得到广泛应用。2016 年,Google 打造出基于DRL 的AlphaGo[4]击败了韩国九段棋手李世乭,向世人证明了DRL 的强大实力。
由于信道时变等原因,无线通信网络的管理是在动态变化的无线环境中对网络的众多参数进行优化,实际上就是一个在动态环境中的最优决策问题,与DRL 的设计目标相契合。因此,DRL 是智能无线通信的重要赋能者。DRL 强大的学习与决策能力可以对无线通信网络进行智能管理,使其在复杂的通信环境中都能够精准地匹配用户需求,最终提升网络的实际承载能力和用户通信体验。
本文对DRL 及其涉及的基础知识进行介绍,并从无线通信网络的资源管理、接入控制以及维护3 方面剖析DRL 如何实现智能通信,最后对目前尚未解决的开放问题进行讨论,为进一步研究提供思路。
在正式介绍DRL 之前,首先对它所涉及的基础知识进行回顾。DRL 是一种求解马尔科夫决策过程(Markov decision process, MDP)问题的智能方法,而其技术来源于强化学习(reinforcement learning,RL)和DL。因此,本章分别介绍MDP、RL 和DL。
MDP 是一种对智能体与动态环境交互过程进行数学建模的方法[5]。其中,智能体是决策者,又称为代理。环境则是除智能体外与之关联和互动的其他事物。一般地,智能体需要通过做出各种决策并采取行动以实现自身目标,但是在采取行动的过程中会对环境产生影响,且不同环境状态下智能体得到的结果可能不同。MDP 的提出正是为了分析智能体和环境的复杂交互过程。
MDP 由一系列关键要素构成,包括状态、动作、转移概率、奖赏和策略。
状态:状态是对智能体对所处环境的描述。环境的变化可以由状态的变化来表示。状态一般表示为s 。所有可能的状态则构成了状态空间S。
动作:智能体所做出的决策或所采取的行动称之为动作。动作一般表示为a。智能体可以采取的所有动作构成了动作空间A。
转移概率:智能体采取的动作可能导致环境发生变化,进而使智能体所观察到的环境状态发生改变。状态间的转移所服从的概率即为转移概率。若智能体在状态为 s 时采取动作 a使 得状态变为 s′,转移概率可以表示为 Pa(s,s′)。
奖赏:智能体采取的每一个动作都会使它接近或远离所设定的目标。为了衡量所采取动作的效果,智能体可从环境中观察得到奖赏值。特别的,智能体在状态为 s 时采取动作 a使 得状态变为 s′获得的奖赏值记为 ra( s,s′)。
策略:智能体的决策规则称为策略,记为π。其中, π(a |s)表 示当状态为 s 时选取动作a 的概率。
MDP 的目标为通过优化智能体的策略π 来最大化时间跨度 T内的期望累积奖赏
式中,γ是折扣因子,其取值范围是 [0,1]。 γ控制未来奖赏对智能体在做当前决策时的重要性。极端情况下, γ= 0表示智能体仅最大化当前时刻的奖赏,而 γ=1则表示智能体的目标是最大化未来所有时刻得到的奖赏。此外,若 T为有限值,则表示该MDP为有限时间跨度MDP,即该MDP 会因达到终止态停止运行或运行到某一时刻后停止运行。相应的,T=∞表示该MDP 为无限时间跨度MDP。MDP 的运行过程如图1 所示。
当MDP 中除策略外的其他要素均已知时,可以通过动态规划(dynamic programming, DP)来求解MDP 以获得最大化R 的 最优策略 π∗。典型的方法有策略迭代和值迭代。
1.1.1 策略迭代
对于给定策略 π,由贝尔曼方程(Bellman’s Equation)[5]可得:
利用式(1)对所有状态 s ∈S不断迭代,收敛得到的 Vπ( s)表 示智能体在策略 π下 ,从状态 s出发可得到的期望累积奖赏。对 Vπ(s),s ∈S迭代的过程称为策略评估。
在对策略 π进行策略评估后,可以根据得到的Vπ(s)对策略进行改进。基于贪婪的方法,可以得到改进后的策略 π′:
文献[5]证明通过不断重复地进行策略评估和策略迭代,最终得到的策略会收敛到最大化 R的最优策略 π∗,该方法称为策略迭代。
1.1.2 值迭代
在策略迭代中,策略评估需要利用式(1)重复迭代直至收敛,而每一次策略改进都需要先进行策略评估。因此,策略迭代的计算复杂度较高。为了解决这一问题,值迭代将策略改进融合进策略评估中,将式(1)改写为:
利用式(3)对所有状态 s ∈S迭代直至收敛后,最优策略 π∗可以通过下式得到
以上介绍的两种基于DP 的方法都能有效地求解MDP 并获得最优策略。然而,它们都需要知道转移概率。对于无线通信系统,其系统状态变化受信道变化、用户行为等众多随机因素共同影响。这些随机变量的概率分布难以准确获得。因此,将无线通信网络中的问题建模成MDP,其转移概率通常难以获得。为了解决转移概率缺失的问题,强化学习应运而生。
与需要提前知道转移概率的DP 不同,RL 是通过试错(trial-and-error)来学习环境中存在的规律,进而求解MDP[5]。因此,RL 可在不需要知道转移概率的情况下求解MDP。目前广泛采用的RL方法可以分为基于值的方法和基于策略的方法。
1.2.1 基于值的方法
式(1)可分解为:
其中,
Qπ(s,a)表 示智能体在策略 π下 ,在状态 s采取动作 a可得到的期望累积奖赏,称为状态-动作对⟨s,a⟩的 Q 值。当策略 π为最优策略时,对于任意的状态 s ∈S 和 a ∈ A, 相应的Q 值 Q∗(s,a)是在所有策略下获得的最大Q 值。相反,若已知最大Q 值Q∗(s,a), 那么可以根据下式得到最优策略π∗
根据这一性质,Q 学习利用智能体实际得到的Q 值样本与预测Q 值之间的差值(又称时间差分temporal difference)来迭代地更新Q 值,最终逼近 Q∗(s,a)并 得到最优策略 π∗。具体的迭代公式为
式中,α是控制Q 值更新速度的学习速率。Q 学习的算法伪代码如下。
算法1 Q 学习算法
输入:S,A,α,γ
建立表格储 存 Q( s,a),∀s ∈S,a ∈A,并将 所有Q 值初始化为0
for t=1 : T
观察环境得到状态s ,根据 ε贪婪规则选择动作a
采取动作a,并观察得到新状态 s′和 奖赏ra(s,s′)
根据式(8)更新Q(s,a),∀s ∈S,a ∈A
令s=s′
end for
算法1 中的 ε贪婪规则是指,智能体以ε 的概率选取随机动作,并以1 −ε的概率选取Q 值最大的动作,即 arg maxaQ(s,a)。前者令智能体探索未知的动作,从而学习到潜在的更好的策略,而后者则令智能体充分利用已知的知识来做出最优决策。通过改变 ε的大小可以调整两方面的作用,使得智能体在学习速度和决策的最优性中取得平衡。
以上介绍的Q 学习是一种典型的基于值的RL方法。实际上,基于值的RL 方法还有SARSA、双Q 学习等,这些方法都是通过对Q 值进行估计并利用Q 值得到最优策略。然而,因为基于值的方法需要为所有状态-动作对建立表格储存其Q 值,所以当MDP 的动作或状态空间很大(或为连续空间)会产生维度爆炸的问题。为了解决这一问题,人们提出了基于策略的RL 方法。
1.2.2 基于策略的方法
在基于策略的RL 方法中,动作的选取不再需要对Q 值进行评估。取而代之的是直接对策略进行优化。为了实现这一目标,首先需要将策略参数化,即用一个由参数 θ确定的函数来表示策略π。那么,在状态 s 采取动作a 的 概率可以写为 π(a |s,θ)。如果策略的性能可以由一个标量 J(θ)来量度,那么为了性能最大化,θ应该以关于 J(θ)梯度上升的方向更新,即
下面介绍策略梯度法中的一种典型算法——蒙特卡洛策略梯度法,又称为REINFORCE 算法。若定义 J(θ)为 由 θ确 定策略 π下 从某一状态 s0出发所得到的期望累积奖赏,即 Vπθ(s0),文献[5]可以证明关于θ 的 梯度 ∇J (θ)为
算法2 REINFORCE 算法
初始化θ
for episode=1 : imax
for t=1 : T
观察状态 st,根据选 取动作at,并观察得到新状态 st+1和 奖赏rat(st,st+1)
end for
for t=1 : T
end for
end for
在算法2 中,策略是以回合(episode)为单位进行更新的。在一个回合中,智能体需要用同一策略产生共 T个时刻的一组动作、状态和奖励。然后利用这些信息对 θ和策略进行更新。这导致策略梯度法有两个缺点:1)策略梯度法只适用于有限时间跨度的回合制MDP,然而在实际无线通信网络中,系统的运行可能是无限时间跨度的;2)策略的更新以回合制为单位,使得策略更新速度慢、不同回合下得到的决策方差较大,即稳定性较差。以上两点使策略梯度法不便于在线部署。
综上,虽然基于策略的方法解决了基于值的方法的维度爆炸问题,但同时也带来了新的问题。因此,人们尝试通过将DL 与RL 结合来解决这些问题。
DL 是一种利用深度神经网络(deep neural network, DNN)来表征数据的关系,并最终实现拟合或分类功能的算法。因此,DNN 是DL 的关键。
图2 为DNN 的一个典型结构。如图所示,DNN的基本组成单元是相互连接的神经元。DNN 中的神经元排列具有层次结构,通常包含一个输入层、一个输出层和数个隐层。神经元间的连接强弱关系由权值决定,权值由图2 中神经元间连线表示。图3 示出了神经元间的信息传递过程。其中,每个神经元将与之连接的上一层神经元的输出值乘以相应的权值并求和,再通过一个激活函数将信息传递到下一层连接的神经元。激活函数一般有“sigmoid”[6]“ReLU”[7]“tanh”等。根据DNN的信息传递规则,输入数据被各层神经元逐层加工最终得到输出结果,这个过程称为正向传播。通过对比神经网络输出的预测值和真实训练数据,DNN 可以调整神经网络间的权值以提高预测的准确度,这个过程称为误差反向传播。训练后的DNN 可以表征数据间的关系,进而能对未知输入数据做出准确的预测。
然而,并不是所有的DNN 都能有效地挖掘数据间中存在的关联关系并对未知输入做出准确预测。实际上,神经元的连接方式,即DNN 的结构,是影响DNN 性能的关键因素。神经元的连接方式通常有全连接、卷积连接、池化连接和循环连接等。相应的,以上几种连接方式构成了DNN 中的全连接层(fully-connected layer)、卷积层(convolutional layer)[8]、池化层(pooling layer)[8]和循环层(recurrent layer)[9]。在实际应用中,DNN 的结构是由数据自身的特征来决定的。下面将对这几种构成DNN 的常见层结构进行介绍。
全连接层:全连接是DNN 中神经元最简单的连接方式。如图4 所示,全连接层中的神经元与相邻层的所有神经元均相连。因为全连接层的本质是特征空间的线性变换,所以它对数据的特征没有特别的要求。
卷积层:全连接层因所有神经元的相连而导致权值过于冗余。因此,全连接层在处理某些局部特征相似的数据(如图5)时训练速度和准确率较差。卷积层的提出就是为了处理局部特征相似的数据。卷积层由神经元排列构成多个卷积核。其中,卷积核中每个神经元与上一层神经元相连时共享权值。通过权值共享,卷积层可以从输入信息中匹配与卷积核特征相同的部分,实现局部特征提取。
池化层:池化层一般与卷积层一起出现于处理图像数据的DNN。在进行某些任务时,如图5 分类等,图5 中特征出现的具体位置不影响结果。因此,池化层被用于对卷积层输出结果的合并,标记出数据中存在的哪类特征更明显。
循环层:当数据在时域有序列相关性时,循环层可以捕捉和利用这种相关性。如图6 所示,输入到循环层的信息当处理完后会重新输入到网络中,以使得历史信息和当前信息一起被处理。在实际应用中,循环层的其他变体也得到广泛应用,如长短时记忆(long short-term memory, LSTM)层[10]等。
DRL 的基本思想就是将DL 中的DNN 与RL相结合,以解决RL 中存在的维度爆炸、学习速度慢等问题。同样的,DRL 也可以通过基于值的方法和基于策略的方法来实现。
基于值的RL 方法存在的主要问题是需要建立表格来储存Q 值,而当动作或状态空间很大时会产生维度爆炸的问题。这导致它们无法应用或收敛速度极慢。
为了解决这一问题,人们提出用DNN 来拟合存储Q 值的表格。因此,这类DNN 被称为深度Q 网 络(deep Q-network, DQN)。若 θ表 示DNN 的参 数,则 Q( s,a;θ)表 示 状 态-动 作 对 ⟨s, a⟩的Q 值。当DQN 的参数 θ为最优参数 θ∗时,相应的是Q 值是最大的Q 值,并且最优策略 π∗可以由下式确定
式中,
参数θ 的更新应最小化损失函数,即:
梯度下降法可用于式(14)中对参数 θ的更新。
然而,利用式(12)~式(14)训练DQN 存在两个问题。首先,智能体得到的每个经验仅能用于更新一次参数θ,这导致数据的利用率低下。其次,利用正在训练的DQN 来计算目标值,即式(13),会导致目标值随着每一次 θ的更新而改变。而事实上,目标值是对真实Q 值的估计值,不应该与 θ高度相关。基于以上思想,文献[11]提出经验回放和拟静态目标网络(quasi-static target network)来提高DQN 的训练速度、准确度和稳定性。
在经验回放中,智能体将所有经验放入一个大小为 M 的经验池 M 中,然后在每次更新参数 θ时从M抽 取 B 个经验组成经验集合 B来做批量梯度下降。经验池 M是一个先入先出(first input first output,FIFO)的队列,若放入的经验大于 M,则将最先放入的经验丢弃。在拟静态目标网络中,智能体建立两个DQN,一个用于训练(称为训练DQN),另一个用于计算目标值(称为目标DQN)。目标DQN 和训练DQN 每隔时间间隔 K同步一次。结合这两个技术,θ的更新公式可以写为:
式中,
结合集合经验回放和拟静态目标网络的完整算法流程如算法3 所示,称为深度Q 学习(deep Qlearning)算法。该算法是目前公认基于DQN 的标准DRL 算法,其最初由DeepMind 团队在2015 年提出并证明了其在Atari 游戏上可以达到或超过人类操作的水平[11]。由于Atari 游戏提供的信息游戏屏幕显示的图像数据,为了处理图像数据,DeepMind团队在应用深度Q 学习算法时特别设计了一个包含卷积层、池化层和全连接层的DNN 作为DQN。因此,DQN 的结构应当与需要处理的数据相匹配。算法3 深度Q 学习算法
输入: γ,B,M,K
初始化训练DQN 参数 θ和目标DQN 参数 θ′,令 θ′=θ ;建立一个大小为 M的先入先出队列作为经验池M
for t=1 : T
观察环境得到状态s ,根据ε 贪 婪规则选择动作a
采取动作a,并观察得到新状态 s′和 奖赏ra(s,s′)
将得到的经验s ,a, ra( s,s′)和 s′组 合成经验et,并将 et放入经验池M
从经验池中选取 B个经验形成经验集合 Bt,根据式(15)和式(16)更新θ
若 t m od K==0, 则令θ′=θ
end for
除算法3 所示的深度Q 学习算法外,目前也有一些针对该算法的改进,以获得性能提升。下面简要介绍两种得到广泛应用的改进算法,包括双深度Q 学习(double deep Q-learning)算法[12]和竞争深度Q 学习(dueling deep Q-learning)算法[13]。
双深度Q 学习:在深度Q 学习中,目标值的估计是取估计的Q 值的最大值,而动作的选取也是取令Q 值最大的动作。因此,这会导致Q 值的估计过于乐观,并且该误差会随着时间推移往后传递。为了解决这一问题,文献[12]提出采用两个DQN 轮流且独立地负责动作选取和Q 值估计。相应的DRL 算法称为双深度Q 学习算法。
竞争深度Q 学习:上面所述两种深度Q 学习方法都是对Q 值进行估计,也就是对动作-状态对进行评估。因此,当动作数比较多时,用于估计Q 值的所需的样本数较多,导致训练时间长、决策准确度低等问题。事实上,在某些状态下,无论动作如何选取,导致的结果可能是相近的,无需对各个动作都进行准确的估计。如当无线信道较差时,无论发送端选取多大功率,接收端的信干噪比(signal to interference plus noise ratio, SINR)都达不到最低阈值。针对这种情况,文献[13]提出竞争深度Q 学习。其基本思想是采用两个DQN 分别对状态的价值和在给定状态下各个动作的价值优势进行评估。该文献结果显示,在动作空间较大的复杂问题中,竞争深度Q 学习显示出明显的性能优势。
以上基于值的DRL 方法通过将DNN 用于拟合Q 值来解决维度爆炸问题,且允许状态空间为无限大。然而,这些方法在动作选取时需要在整个动作空间下遍历对应的Q 值,导致它们只适用于有限大小的动作空间,即离散动作空间。针对连续动作空间的MDP,需要基于行动评论家的DRL 方法来求解。
虽然基于策略的RL 方法通过将策略参数化来实现连续动作的选取,但是也带来了数据利用率低、决策稳定性差等问题。与此同时,基于值的方法可以利用每一步得到的经验对策略进行逐步更新,且其依据Q 值进行高稳定性的决策。于是,人们提出了深度确定性策略梯度(deep deterministic policy gradient, DDPG)来将二者结合[14]。其基本思想是采用两个DNN 分别作为动作家(actor)和评论家(critic)。评论家相当于基于值的方法中的Q 值评估,即拟合和估计Q 值,而动作家相当于基于策略方法中的策略参数化,用于找出Q 值与最优动作之间的映射关系。换言之,在DDPG 中,动作选取不再是选择当前状态下Q 值最大的动作,而是让动作家参考评论家评估的Q 值来直接选取。
这一类包含动作家和评论家的DRL 方法统称为基于动作评论家(actor-critic, AC)的DRL 方法。这类方法的其他代表算法有异步优势动作评价(asynchronous advantage actor-critic, A3C)[15]、信赖域策略优化(trust region policy optimization, TRPO)[16]、近端策略优化(proximal policy optimization, PPO)[17]等。
可靠高速的无线通信网络依赖于各类资源的动态协调与配置。当前,为了满足不同的通信需求,人们大量部署了蜂窝网络、无线局域网络、个人短距离通信网络等。这些网络采用了不同的无线电接入技术(radio access technology, RAT),其结构各异且拥有互不共享的独占资源,导致资源整体利用率低。此外,这些异构网络提供的服务单一,难以响应用户多样化的通信需求。为了高效地满足未来多元化的通信需求,异构网络间的资源需要高度整合并根据用户需求精准匹配。
然而,无线环境动态变化,信道或用户需求随时间随机变化。此外,相关的资源分配问题一般都是复杂的非凸问题。这些问题都为无线网络中的资源管理增加了难度。鉴于DRL 是解决动态环境中决策问题的有效方法,人们尝试将其用于管理无线通信中的各类资源,包括频谱资源、功率资源以及网络资源等。
频谱资源是无线通信中最宝贵的稀缺资源。为了在有限的频谱上满足人们对高速率通信的需求,无线网络需要更弹性的频谱资源管理。根据频谱采用时分复用或频分复用的方式,频谱资源的管理也可分为时域或频域上的管理。
对于异构网络采用时分的方式共享同一频谱,如何为不同网络进行合理的时间分配是频谱资源管理的关键问题。理想情况下,各网络应当依据其网络的用户流量需求对频谱进行弹性接入,也就是说,用户需求较大的网络可以占用更长时间的频谱进行传输。然而,异构网络间有一定的独立性,难以迅速交互信令信息来相互协调。针对这一问题,文献[18]研究了长期演进(long term evolution, LTE)蜂窝系统与无线局域网(WiFi)在缺少信令交互情况下的频谱共享问题。其中,LTE 系统通过调整虚拟帧中LTE 的传输时间和WiFi 的传输时间来调节两个网络的频谱资源。LTE 系统的目标是在满足WiFi 网络流量需求的情况下最大化LTE 传输时间,以最大频谱的利用率。传统的方法需要LTE系统从WiFi 网络中获取其具体的流量信息后做出相应的优化。为了避免异构网络间难以实现的直接信息交互,文献[18]发现频谱信息中实际上蕴含了关于WiFi 网络的流量需求等信息,因而提出利用DRL 来根据频谱信息直接对传输时间进行优化。该文献创造性的利用频谱信息中一个帧的最长空闲时间来作为WiFi 网络是否得到充分保护的指标。当该指标低于阈值时,说明WiFi 网络的流量需求没有获得充分满足,相应的DRL 奖赏值设为0,否则奖赏值为LTE 系统的吞吐量。DRL 的动作就是LTE 的传输时间,其动作空间是将虚拟帧长离散化后的向量。DRL 的状态则设计为LTE 系统能观察频谱获得的频谱信息,包括一个帧中的最长空闲时间、总空闲时间、总繁忙时间、历史动作和历史奖赏。最后该文献提出了一个基于DQN 的DRL 算法来求解该问题。由于状态中的信息不包含图像或序列信息,其设计的DQN 采用了一个包含三层全连接层作为隐层的DNN。除文献[18]外,文献[19-21]也提出了基于DRL 的频谱时分接入方案。
除时分复用外,频分复用是另一种复用方式。在这种方式下,频谱被划分成多个正交信道,进而通过为网络或用户分配信道来实现频谱资源管理。文献[22]研究了多用户的信道分配问题。在多信道多用户场景下,多个用户同时使用一个信道进行传输会导致数据包的碰撞,进而发送失败。因此,需要合理地为各个用户匹配所使用的信道,以提高成功传输的概率。该文献提出利用DRL 使用户分布式地协调信道接入策略。每个用户将其在过去多个时刻的包发送历史(即包成功发送与否)作为DRL 的状态。动作空间即选择发送的信道或不发送。若当前时刻的包成功发送,则奖赏设置为1,否则为0。由于状态中包含多个时刻的信息,作者在设计DQN 时采用了LSTM 层来捕捉数据中的时间相关性。此外,为了提高学习性能,文献[22]将竞争深度Q 学习和双深度Q 学习结合,采用了竞争-双深度Q 学习。仿真结果表明,在没有信令交互情况下,用户总能独立地学习到一组互相避让的信道选择方式,提高了信道利用率和用户成功发送概率。
此外,用户也可以通过智能的信道选择来规避比规避干扰。再复杂的通信环境中,用户可能会受到恶意(如干扰器)或非恶意(如电磁泄漏)的干扰,降低了用户的通信速率和使用体验。文献[23]提出了一种基于DRL 的智能干扰规避方案。其利用频谱瀑布图中包含的干扰图案来预测干扰情况,进而预测并选择未受干扰的信道进行传输。作者将用户观测频谱得到的瀑布图作为状态,并设计动作空间为所有可用的信道。若用户当前时刻接收到的SINR 大于阈值,则认为用户在该时刻成功发送,则设回报值为常数 C1,否则为0。同时,由于切换信道会带来额外的开销。因此,若用户相邻时刻更换了信道,则设开销值为常数 C2,否则为0。最终,DRL 的奖赏设计为用户得到的回报值与开销值相减。由于DRL 的状态是图像信息,文献[23]采用了递归卷积层(recursive convolutional layer)来设计DQN。其中,递归卷积层是作者针对频谱瀑布图中的递归特性对卷积层进行的改进,目的是降低计算复杂度和提高算法的运算速度。
上一小节所介绍的频谱资源管理考虑对频谱正交使用,即用户或网络在同一时频点上不重叠。虽然正交使用频谱可以避免相互干扰,但频谱效率难以进一步提升。为最大化网络容量,应当考虑频谱的非正交接入,这就带来了干扰问题。通过功率资源分配可以进行精确的干扰管理,以获得空间复用增益。例如,当某些用户对其他用户的干扰信道较弱时,它们可以以较大功率进行传输,从而在相互干扰较小时获得较高的传输速率。
文献[24]考虑了一个认知无线电(cognitive radio,CR)中的功率控制问题。其中,次用户(secondary user)通过占用主用户(primary user)的频谱来进行通信,提高频谱利用率。然而,主用户是该频谱的合法使用者,其通信质量不应受次用户的损害。为了使主次用户的服务质量(quality-of-service,QoS)都得到满足,作者提出了一个基于DRL 的功率控制方案。在此方案中,次用户部署多个传感器在主用户周围,以感知主用户附近的接收功率。由于传感器得到的接收功率包含了信道、主次用户的发送功率等信息,通过让DRL 分析传感器的数据可以学习到信道的变化与主用户的发送策略,进而调整次用户的发送功率来让主次用户的QoS 都得到满足。DRL 的状态设计为所有传感器获得的接收功率。此外,DRL 的动作空间由将最大发送功率离散化后的所有可选功率构成。当次用户选择功率进行发送后,若主次用户的QoS 都得到满足,则DRL 的奖赏设置为1,否则为0。最后,深度Q 学习算法被用于实现DRL,其中,一个包含三层全连接层的DNN 被用作DQN。
文献[24]针对的是单用户的功率控制问题,无法应用于多用户的场景。为此,文献[25]考虑蜂窝网络的多用户功率资源分配问题,其目标是最大化整个网络的加权总速率(weighted sum-rate,WSR)。由于用户互相干扰,WSR 最大化的问题是NP-hard 问题,难以用优化方法求得全局最优解。除此之外,用户间的信道状态时变且信道信息数据庞大,无法实时上传到一个中央处理单元进行运算。该文献利用DRL 解决了这两个问题。首先,每个用户的奖赏值被设计为该用户自身速率与对其他用户造成的速率损失的差值,这样就将WSR 最大化问题分解成了可以让各个用户分布式求解的子问题。然后,各用户的DRL 状态包含了自身的信道状态、接收功率和对其他用户造成的干扰等信息。通过对这些数据分析,DRL 让各用户预测其未来的信道状态以及其他用户的发送功率,从而选择一个合适的功率来最大化自身的奖赏值。作者提出的DRL 算法是一个离线学习和在线部署的双层架构。在离线训练时,一个中央训练器与各个用户建立高速的回传链路。通过该链路,各个用户及时将自己的状态以及奖赏值向训练器传输并获得一个动作值。当训练完成后,每个用户可以独自利用训练好的DQN 根据输入的状态得到最优的动作,不再需要回传链路交互信息。仿真结果显示,该基于DRL 的方案的性能甚至可以超越传统基于优化的近似最优算法。
文献[26]将文献[25]拓展到了多用户设备到设备(device-to-device,D2D)通信场景。文献[26]在设计DRL 的状态、动作以及奖赏时考虑了多信道的情况,解决了信道与功率资源的联合分配问题。此外,文献[26]也将文献[25]所提的离线学习与在线部署的双层架构改进为在线学习及训练架构,避免了离线学习中回传信息产生的额外开销。
虚拟现实(virtual reality, VR)、3D 全息通信等业务的出现使得无线通信网络不再只是服务于点与点之间的信息交互,而是各类多样化业务的承载方。因此,除了频谱、功率等物理层的资源外,无线网络还包含为网络层或应用层服务的资源,如缓存资源和边缘计算资源等。因此,未来的无线通信网络必然包含多维度的网络资源,导致资源管理更为复杂并使传统方法失效。下面以缓存资源和边缘计算资源为例,介绍如何利用DRL 对网络资源进行高效管理。
为了降低用户获取数据的时延,无线网络可以在靠近用户终端的接入侧部署缓存单元来预加载热门资源。由于缓存的大小是有限的,对哪些数据进行预加载是管理缓存资源的关键问题。文献[27]提出利用DRL 对用户的数据请求进行分析,并根据用户请求规律更换缓存中的文件。在该文献中,作者将DRL 的状态设计为各文件被用户请求的次数,动作则是下一时刻应当被缓存的文件。若缓存的文件没有命中用户请求,网络需要为用户从云端获取文件并产生开销,此时惩罚值为获取该文件的开销,否则惩罚值为0。值得注意的是,这里并没有用到奖赏值,而是惩罚值。因此,DRL 的目标是最小化期望累积惩罚。为了实现这一目标,作者将深度Q 算法进行了修改,将算法3 中所有对Q 值的最大化和反最大化运算都更换为对Q 值的最小化及反最小化运算。其采用的DQN 是包含三个隐层为全连接层的DNN。仿真表明,该文献所提的DRL 缓存策略比目前常用的最近最不常用(least frequently used, LFU)策略、FIFO 策略,以及最近最少使用(least recently used, LRU)策略均能获得更低的开销。
当用户需求更为多样化时,终端设备却在往小体积、低功耗的方向发展,如可穿戴设备等。显然,具有高计算复杂度的业务,如需要实时计算大量3D 画面的VR 等,难以由终端设备独立完成。因此,移动边缘计算(mobile edge computing, MEC)被提出用于解决这一矛盾。在MEC 中,具有强大运算能力的节点被部署于网络接入侧,便于对来自于移动设备的计算请求快速应答。对于一个给定的计算任务,若让终端设备请求MEC 单元远程执行,它将需要向MEC 上传任务数据,带来通信时延,且需要向MEC 提供者交纳服务费用。相反,终端设备本地执行计算任务则会损耗本地电能,以及较高的本地计算时延(本地运算能力通常较MEC弱)。因此,为了以最低的时延和最小的开销完成计算任务,需要合理地分配网络中的计算资源。
文献[28]考虑了物联网(Internet of things, IoT)中的计算资源分配问题。其中,IoT 设备每个时刻采集到的电能和产生的计算任务都是服从一定规律的随机变量。为了满足IoT 设备的计算需求,MEC单元被部署在网络边缘。IoT 设备需要决定任务在本地或在MEC 单元执行。若决定在本地执行,IoT设备还需要决定分配用于计算的功率。若设备分配的计算功率越大,则任务执行速度越快,完成计算任务的时延越低,但同时电能损耗也更大。若决定将任务放在MEC 执行,则IoT 设备需要承受通信时延(由信道决定)和MEC 设备运算的计算时延。计算任务只有在规定时间内完成时才算成功完成。为了最大化计算任务的成功完成率,该文献提出了基于DRL 的计算资源分配方案。在该方案中,IoT 设备利用DRL 决定各个计算任务在本地执行的功率,而功率为0 则表示在MEC 执行。DRL 的状态为当前时刻能量到达的数量,计算任务队列的长度,以及信道状态。最后,DRL 的奖赏值由一个效用函数决定,其考虑了计算时延、成功/失败任务数以及MEC 服务费用等因素。基于这3 个DRL 中的基本元素,作者利用联邦-深度Q 学习算法对这个问题进行了求解。该算法是在深度Q 学习的基础上加入了联邦学习(federated learning)[29],通过让多个DRL 智能体同时学习来加快学习速度。
此外,文献[30-33]也成功地将DRL 用于缓存资源和计算资源的联合优化问题中,说明DRL在管理网络资源上拥有强大的应用前景。
步入万物互联时代,无线通信设备的数量呈现出指数增长的趋势。与此同时,采用不同RAT 的异构网络大量存在,它们均由数目众多的基站组成。特别是对于采用毫米波的网络,由于毫米波基站覆盖范围比较小,运营商需要部署大量小蜂窝基站(small-cell base station, SBS)来保证无线信号的覆盖率。这使得用户接入控制变得复杂,难以获得最优的用户与网络或基站的匹配方式。事实上,因信道变化等原因,用户需要不断切换接入的网络或基站来保持最佳的匹配。因此,接入控制又称为切换控制(handover control)。根据用户是在采用不同RAT的异构网络间切换或同一网络下的不同基站间切换,切换控制可以分为垂直切换(vertical handover)和水平切换(horizontal handover)[34]。
当采用不同RAT 的异构网络相对独立时,它们的资源无法共享。此时,若各网络中的用户需求差异比较大时,它们也无法协调资源来主动地满足各用户的需求。为此,垂直切换将用户重新分配在不同的网络上,从而更合理地利用各网络的资源。文献[35]将DRL 用于移动通信终端在LTE 网络和WiFi 网络的智能垂直切换上。其中,LTE 网络和WiFi 网络的服务费用不同,且终端在不同网络下传输消耗的能量也不同。因此,该文献考虑垂直切换的目标是让终端在满足传输时延要求的情况下最小化传输费用和能量开销。为了实现这一目标,DRL 的状态被设计为当前时刻终端的位置和剩余发送的文件大小,而DRL 的动作则是选择下一时刻传输数据使用的网络。值得注意的是,与文献[27]类似,这里没有设计奖赏值,取而代之的是惩罚值。惩罚值包含了传输费用,能量开销,以及未能在规定时间内完成传输产生的惩罚项。为了让DRL 最小化惩罚值,该文献同样对深度Q 学习算法进行了与文献[27]类似的修改。仿真结果表明,和基于DP 的算法相比,基于DRL 的接入方案可以有效地降低传输费用和能量开销。
除垂直切换外,目前也有文献利用DRL 实现基站间的智能水平切换。文献[36]考虑一个由众多SBS 组成的超密集网络(ultra dense network, UDN)。传统的基站切换算法是让终端设备比较连接基站的参考信号接收功率(reference signal received power,RSRP)与其他基站的RSRP,若其他基站最强的RSRP 比当前基站的RSRP 大于某一阈值,则进行切换。这种切换方法虽然保证了用户接收信号的强度,但是不可避免地造成各基站负载不均,降低了拥塞基站的用户体验。某个基站的负载定义为该基站连接用户的所有请求资源块和该基站可用资源块之比。该文献提出在原有切换规则的阈值上再加入一个偏置值,然后通过调整各基站切换到其他基站的偏置值来实现负载均衡。为了实现这一目标,作者利用DRL 来对偏置值进行优化。DRL 的状态包含了所有基站的负载信息以及它们的边缘用户占所有用户的比值,而DRL 的动作则是从各基站切换到其他基站的偏置值。DRL 的奖赏设置为所有基站的最大负载的倒数。可见,该奖赏值在所有基站达到相同负载时取得最大值,因此DRL 的目标是令所有基站的负载相同。由于DRL 的动作包含连续值,该文献采用了A3C 算法来实现DRL。此外,因为DRL 的动作是一个向量,所以作者还将A3C 中的动作家设计为一个含有多个输出层的DNN来输出向量值。
文献[37]进一步尝试将接入控制与资源分配相结合,考虑了多层基站蜂窝网络中的用户接入与信道分配联合优化问题。当前蜂窝网络中的基站有宏蜂窝基站(macro base station, MBS)、SBS 和微蜂窝基站(pico base station, PBS)3 种。它们具有不同的发射功率,导致其覆盖范围也不同。因此,终端设备在同一个时刻可能同时接收到多个基站的信号。此时,合理地分配用户及信道可以获得最大的空间复用增益,进而最大化网络整体速率。然而,该问题是一个高度非凸的整数优化问题,难以优化求解。为此,该文献首先将该问题建模成多个智能体(即多智体)的博弈问题。其中,多智体的目标函数为自身速率和发送功率开销、切换基站开销的差值。即,各终端设备的目标是在最大化自身速率的同时,最小化发送功率和切换基站次数。基于此目标函数,作者证明了该多智体博弈存在纳什均衡点(Nash equilibrium, NE),并提出利用DRL 对基站和信道进行智能选择来求解该NE。和文献[22]类似,该文献也采用竞争-双深度Q 学习算法来实现DRL,并通过仿真结果证明该算法可以获得比深度Q 学习算法、双深度Q 学习算法更高的网络总速率。
前两章分别对无线通信网络中的智能资源管理和智能接入控制相关文献进行了介绍。它们利用DRL 替代原本基于优化或启发式的传统算法,以保证无线网络在大规模及复杂环境下依然能高效地运行。然而,更为复杂的网络不仅为网络高效运行带来困难,同时也极大地增加了网络维护的难度。特别是当前网络维护仍大量依赖人工参与,其高成本和不及时的响应速度难以满足未来无线通信的需求。因此,实现智能通信同样需要为网络维护赋予智能。下面将以网络故障修复、基站管理以及基站部署规划等三方面为例,说明DRL 如何应用于无线通信网络的智能维护。
随着网络规模增加,网络发生故障的概率也随之增加。传统的网络排错和修复方法需要专家的参与,修复效率比较低。文献[38]尝试将DRL 应用于网络故障自我修复。在一个随机出现故障的网络中,DRL 的目标是在给定的时间内通过选择正确的排错操作来清除故障。DRL 的状态设计为网络中故障数的指示值,分别表示其增加、减少或不变。DRL 的动作空间包含所有可以排除故障的操作。在选择动作后,DRL 会得到一个由排除故障耗费时间决定的奖赏值。该文献采用了深度Q 学习算法来实现DRL,并通过仿真说明基于DRL 的网络故障自修复方法可以有效提升网络可用性。
对于拥有大量基站的网络来说,用户流量的空时分布不均使得其中部分基站可能在某些时候处于空闲的状态。然而,维持空闲基站的运作同样需要耗费电能并产生成本。因此,为了提高网络能量效率和降低成本,无线网络需要依据用户流量需求动态地开启和关闭基站。鉴于流量需求是动态随机的,文献[39]提出利用DL 对各基站的流量进行分析和预测,然后利用DRL 根据预测的流量对基站的开关进行控制。其中,DRL 的状态除了包含流量的预测值外,还包含上一时刻对于基站开关的历史决策信息。DRL 的动作则是控制所有基站的开关组合。可见,动作空间将随基站数量指数增长。当基站数量比较大时,动作空间将会非常庞大。因此,该文献采用可以输出连续动作的DDPG 算法来实现DRL。其中,DDPG 输出的连续动作被离散化后映射为特定的基站开关组合。此外,该文献提出了一个惩罚函数,包含了用户体验损失、能量开销以及开关切换开销。最后,通过使用DDPG算法最小化该惩罚函数,可以在保证用户体验时最小化能量损耗及开关切换次数。除文献[39]外,文献[40]也提出了一个基于DRL 的基站智能休眠策略,以降低网络能耗。
对于某些人口稀疏的地区,部署大量基站来保证无线网络的覆盖率是难以实现的。同时,在固定的基站部署方式下,用户流量的空时分布不均也会导致热点区域网络堵塞的问题。因此,人们提出利用UAV 作为空中基站来服务地面通信终端。然而,UAV 的覆盖范围有限,且用户与空中基站的信道会随着UAV 的移动而改变。这都为UAV 空中基站的部署带来了难度。文献[41]提出利用DRL进行空中基站的部署规划。其中,DRL 的状态包含了UAV 和所有用户的当前坐标,而DRL 的动作空间则是UAV 可以移动的方向,包括x、y、z 轴上的正方向及负方向,以及保持原有位置。当UAV 移动到一个新的位置时,DRL 的奖赏值为空中基站与地面终端设备传输数据的总速率。最后,深度Q 学习算法被用于规划UAV 的飞行轨迹,从而得到最优的空中基站部署规划。
虽然目前初步的研究表明DRL 具有赋能智能通信及满足未来无线通信需求的潜能,但是其在理论和应用上尚有一些开放问题需要解决,如分布式DRL 的非平稳性、非完美数据的影响以及安全与隐私问题。
DRL 本质上一种求解MDP 的方法,而MDP描述的是单个智能体与环境的交互过程。其中,环境状态的改变是由智能体采取的动作以及环境固有的转移概率决定的。也就是说,若给定环境状态和智能体采取的动作,新的环境状态出现的概率随之固定。基于这一特性,DRL 通过分析历史数据来寻找并利用环境的变化规律,从而得到最优决策。
然而,对于未来大规模的无线网络,使用单个智能体收集网络中的所有信息并对所有参数同时做出决策将会导致信息收集困难、响应时延高等问题。因此,分布式的方案,即采用多个智能体对网络参数同时优化,是解决以上问题的有效途径。显然,当存在多个智能体时,环境状态的改变将同时被多智体各自采取的动作所影响。在此时,对于某个智能体而言,其自身所在环境的状态转移概率将不再是确定的。这就是分布式DRL 中的非平稳性。由于目前的DRL 算法在设计时并没有考虑多智体产生的非平稳性,因此直接将它们应用于分布式DRL 可能会导致算法不收敛或结果不稳定等问题。目前采用分布式DRL 方案的研究,如文献[37]尝试通过共享多智体的状态或基于博弈论的思想设计奖赏值等方法解决非平稳性的问题。虽然这些方法在求解特定问题上可以得到较好的结果,目前仍缺乏解决分布式DRL 非平稳性的普适性理论。
DRL 的学习需要智能体从外界获得足够的信息,包括观察环境得到状态以及奖赏值。在无线通信中,由于噪声的存在,智能体对环境的观察会受噪声污染。除此之外,若智能体所需的信息需要由其他设备通过回传链路反馈,其获取的信息也有可能受信道变化等随机因素影响而缺失。这类受污染或缺失的数据被称为非完美数据。目前的研究通常认为智能体所需信息都可完美获得。然而,鉴于无线通信环境的特殊性,研究非完美数据对DRL 学习过程和学习结果的影响具有重要意义。
作为一种数据驱动的机器学习方法,DRL 在对无线网络进行优化的过程中需要对大量的数据进行分析。例如,在智能资源管理的过程中,DRL 智能体需要在获取各个网络、基站甚至终端设备的信息后进行决策。此外,分布式的DRL 方案也需要通过多智体之间的信息共享来缓解非平稳性。然而,在实际应用中,信息共享会带来安全与隐私的问题。例如,网络或基站的拥有者之间可能存在竞争关系,出于商业安全和保护用户隐私的考虑,它们难以进行直接的数据共享。同样的,属于不同的用户设备也存在数据共享的壁垒。
值得注意的是,在当前人工智能快速发展的时代,数据的安全和隐私问题正在受到越来越多关注。例如,欧盟和中国分别在2018 年和2019 年分别出台了《通用数据保护条例》[42]和《人工智能北京共识》来规范人工智能在发展过程中产生的安全与隐私问题。为此,人们提出了多方安全计算(multi-party computation)[43]、差分 隐私(differential privacy)[44]和联邦学习等方法,来解决机器学习中的数据安全与隐私问题。对于无线通信而言,如何依据无线通信的特征将它们与DRL 有机结合是构建未来安全的智能无线通信网络的关键。
本文对深度强化学习进行了介绍,并从资源管理、接入控制以及网络维护三个方面对目前利用深度强化学习实现智能通信的研究进展进行了总结和剖析。目前的研究结果表明深度强化学习是实现智能通信的有效方法。最后,本文对目前尚未解决的开放问题进行了讨论,为未来的研究提供有益的思路。
本文研究工作还得到高等学校学科创新引智计划(B20064)的资助,在此表示感谢。