基于机器学习的认知无线网络优化策略

2020-05-22 13:56:22农汉琦孙蕴琪杨泽宇吴雪雯欧阳键
计算机技术与发展 2020年5期
关键词:无线网络频谱信道

农汉琦,孙蕴琪,黄 洁,杨泽宇,吴雪雯,杨 科,欧阳键

(南京邮电大学 通信与信息工程学院,江苏 南京 210003)

0 引 言

认知无线网络,就是在无线网络的基础上,加上了“认知”的功能,通信系统可以利用这种学习和认知能力,伺机寻找和使用空闲频谱资源,提高频谱资源的使用效率,缓解频谱资源带来的通信压力。

无线通信的发展带来了数据传输速率的逐步提升,与此同时,带宽的需求也在成倍增长。以移动通信为例,传输速率从最早的不足10 kbps提高到即将迎来的第五代移动通信技术,可以提供10 Gbps的数据传输速率,可达到如今4G通信的十倍到百倍[1]。然而,即便调制编码技术在不断更新和改进,频谱资源紧张问题仍然存在。由于国内的频谱资源统一授权使用,某一个通信系统独立使用一个频段,这种方法虽然有效地避免了系统间的干扰,但仍然会出现通信冗余的情况,即频谱上会出现未被利用的冗余频谱资源,称为“频谱空穴”(即暂未被授权用户使用的频谱资源)[2]。因此,如何更有效地利用频谱资源成为了行业关注的焦点。为了解决上述问题,认知无线网络应运而生。

认知无线网络除了具有感知能力和自适应能力,更具有机器学习的能力。其应用遍及人工智能的各个领域[3]。如今认知无线网络在军事和民用领域都得到了应用。例如在军事方面[4],由于战场形式瞬息万变,固定分配带宽容易贻误战机,借助CR能够实现快速地分配频谱资源,避免了系统内部或友军间的电磁干扰;在民用领域,也具有巨大的发展潜力和前景。2017年6月初,工信部确定了5G部署的初始频段:3 300 MHz~3 600 MHz和4 800 MHz~5 000 MHz,共500 MHz带宽[1],而有限的频谱资源必定会使得频谱的供需矛盾日益突出,因此,在5G移动通信系统中,采用认知无线网络对频谱资源的管理将是有效缓解频谱资源供需矛盾的重要手段。

而机器学习的应用范围广泛,文献[5]提出了一种基于遗传算法的定位服务时延估计方案,可降低非直达径环境带来的不利影响,以提高定位服务响应速度以及定位精度。在大数据等新技术产业和无线通信兴起的大背景下,数以亿计的接入点产生的大量数据信息给网络空间带来了巨大困难,机器学习算法为安全领域提供了一系列有效的分析决策工具,而在近年来迅速发展的智慧城市更是通过机器学习算法解决城市中诸多难题。除此之外,机器学习算法的蓬勃发展也使认知无线电的智能化成为了现实[6]。

1 认知无线网络的国内外研究现状

目前,认知无线网络在国内外的通信领域都得到了广泛的应用,但主要的研究还是集中在地面无线通信系统中。认知无线网络的核心技术有频谱检测以及认知路由技术。国内外的学者提出了许多频谱检测的可行方案,例如能量检测、匹配滤波检测等,这些技术大多都用在了地面通信系统当中。

文献[7]确定了构成医疗保健无线通信的条件,提出了一种应用于医院场合的CR系统,从而避免电子医疗设备产生的电磁干扰,保证用户的无线通信质量。文献[8]表明了应用于公共安全网的认知无线网络能够很好地解决在城市公共安全网频段拥挤,不同应急部门设备不兼容等问题,为公共安全网提供了可靠的网络服务。如今随着5G技术的发展与日渐成熟,也可见认知无线网络的重要性。在2017年6月初,工信部确定了5G部署的初始频段共500 MHz带宽[1],而有限的频谱资源使得频谱的供需矛盾日益突出,因此,在5G移动通信系统中,采用了认知无线网络来进行频谱管理,提升了频谱的利用率,有效缓解了频谱资源紧张的压力。除了在民用领域,同样在军事领域,认知无线网络的应用也带来了较大的影响。文献[9]研究指出,在军事方面,由于战场形式瞬息万变,固定分配带宽容易贻误战机,借助CR能够实现快速地分配频谱资源,避免了系统内部或友军间的电磁干扰。

认知无线网络在地面通信的应用成果较为丰富,而对于卫星通信而言,仍属于起步阶段。卫星通信是典型的资源受限网络,并且目前其智能化程度较低。认知无线网络的应用,在提高其智能化程度的同时,还可以解决其突增的业务量与有限的频谱资源的矛盾,从而提高其频谱利用率。文献[10]提出了一种基于非正交多址接入技术的卫星地面综合网络联合优化设计方法,从而最大化系统的和速率。文献[11-12]研究了一种基于软件定义体系结构的认知卫星地面网的安全通信以及功率传输问题,其中网关作为控制中心为无线系统提供资源分配。文献[13]研究了5G蜂窝系统与卫星网络共存于毫米波频段下的波束形成问题的鲁棒性和安全性。文献[14]研究了与蜂窝网络共享下行频谱资源的卫星网络的物理层安全问题。

认知无线网络具有广阔的应用前景,无论是在地面无线通信网络中,亦或是卫星无线通信领域。它可以应用于智能电网,宽带蜂窝网,空闲的广播电视频段都能为这些新兴的业务提供频段。由于认知无线网络在卫星通信中的应用研究的起步比较晚,还具有很大的发展空间。卫星通信是军事通信的重要手段,在一些发达国家,百分之八十的军事信息传递交互通过卫星通信来完成。基于现有卫星通信对环境掌控能力缺乏,智能化程度普及相对低的特点,认知无线网络的应用为未来的卫星通信发展势必会起到很好的铺垫作用。

2 认知无线网络中的机器学习算法

首先,具体来说,认知无线网络利用人工智能技术,使通信系统具有一定的学习能力,在不影响授权频段正常通信的基础上,通过有目的地实时改变某些操作参数使其内部状态适应接收到的无线信号的统计变化,从而接入到授权的频段内,动态地利用其频谱。动态频谱接入是指次级用户(secondary user)动态的搜索“频谱空穴”(spectrum holes)进行通信。这些次级用户也具有认知功能,因此,次级用户要在不对经授权使用频谱的主用户(primary user)造成干扰的情况下,利用其认知能力,对当前空闲的频谱进行感知,再“伺机”接入频谱。与此同时,还必须保证主用户仍具有最高的优先级使用其授权频谱。由此,当前频谱低下的效率得到了极大的改善,而在这一过程中,机器学习起着关键的作用。

强化学习算法、遗传算法以及隐马尔科夫模型在认知无线网络中得到了很大的应用,它们的应用分别使得认知无线网络更好地完成了频谱资源分配、提高频谱的管理效率以及频谱预测的工作。

在前人的工作中,文献[15]指出认知无线网络通过加入了学习引擎及知识库等完成认知的功能,学习引擎可以通过对其经验学习进行知识库积累,存入到知识库中的知识,可以在需要的时候不断使用。由于机器学习算法应用广泛,它们也被用作于认知无线网络的学习引擎。由于传统的能量检测方法在阴影等情况下得到的结果并不可靠,因此文献[16]提出了一种基于机器学习的模块化频谱感知系统,利用非线性门限来解决单节点单天线的频谱感知问题。由于次级用户的到达和离开使得信道存在着动态特性,不同于稳定的信道,因此,为了更好地适应信道变化这一特点来进行频谱的分配,文献[17]提出了一种基于强化学习自动化式的信道和功率分配算法,在强化学习的基础上通过次用户业务的到达与离开来学习最佳策略。目前,强化学习在国际上是十分活跃的研究领域,强化学习的应用使得即使在复杂的控制系统中,学习控制仍为一种强有力的控制手段[18],可以帮助认知无线电实现性能优化。文献[19]提到强化学习的主要特点是能够准确、快速学习到最优策略,模拟真实环境,自适应性强,提高频谱感知以及分配效率,从而最大化系统吞吐量,这些优势充分证明了强化学习将是认知领域里一种很有前景的技术。由于要提高频谱的利用率,次级用户需要通过“机会方式”接入频谱,并且保证不对主用户造成干扰,所以,空闲频谱感知问题成为关键。由此,文献[20]开发了一个基于部分感知马尔可夫决策过程的机会式频谱接入分析架构,它可以很容易消除频谱感知错误并降低与主用户冲突的可能性。当检测到空闲频谱,如何高效公平地分配频谱资源变得至关重要。文献[21]以在遗传过程中的控制干扰为目标,提出认知无线网络频谱分配算法,设计出染色体中的基因表达规则。依据基因表达规则标记显性基因与隐性基因,在下一代染色体中表达显性基因,抑制隐性基因,从而保证染色体的健康,提高算法效率。文献[22]指出遗传算法是模拟自然选择和遗传学机理的计算模型,借鉴了自然界的优胜劣汰的进化规律,产生的最优解像自然中更适应环境的后代种群一样,它的特点在于能够自适应地调整搜索的方向,具有很强的全局优化能力,可以作为解决最优化的搜索启发式算法。

无线认知网络的研究工作主要集中在:频谱的感知、共享、决策、迁移。频谱感知是所有工作的基础。当前的频谱感知方法有:能量检测、匹配滤波器检测,以及多分辨率频谱感知,但在一些特定的情况下,因为是单节点检测方法,结果并不可靠。另外,在信道分配上,传统的无线网络分配及功率效率低。加入了机器学习算法的认知无线网络在实现了高效率的频谱管理的同时,完成了动态的频谱以及功率分配,减少了有限频谱的资源浪费。

通过对国内外涉及认知无线网络文献的学习、标引,文中梳理了认知无线网络中机器学习的应用。下面对一些主要的学习算法进行介绍:Q学习算法、遗传算法和隐马尔可夫模型。

2.1 Q学习算法

Q学习适用于解决动态环境中的决策问题,通过学习的强化训练寻找到达目标的最优动作。

在基本的Q学习算法中,环境由有限状态的离散时间随机系统组成。设全部的状态为S={s1,s2,…,sn},可能的行动为A={a1,a2,…,am}。进入环境之后,Agent处于某一状态s∈S,并在此状态下的可选动作中按某种策略(如贪心策略)选择一个动作a∈A执行。进入下一状态后,Agent将得到一个反馈信号r(s,a),可视为在状态s下执行动作a的即时奖励值,用来更新Q(s,a)、策略π。定义Q(s,a)为:Agent在状态s下执行动作a的总体收益,包括即时奖励和预期未来收益。Agent按照以上步骤不断地学习探索,直到满足一定的收敛条件,就停止更新Q(s,a),结束学习。在做决策时,只需要跟踪在当前状态s下,到达目标状态过程中执行每个操作的Q值,来指导Agent移动。Q值已经包含了未来收益,故无需再考虑状态s的后续状态。总之,Q学习的核心是采取能最大限度地提高总体收益的行动a,并不断更新Q值组成的Q矩阵形成最优决策。Q(s,a)值定义如下:

Q(s,a)=(1-α)Q(s,a)+α[r+γQ(s',a')]

(1)

其中,r为当前状态s下执行a动作的即时奖励值;γ(0<γ<1)为折扣因子,决定未来奖励对当前Q值的影响;α为学习率;Q(s')为s的下一状态下的最大Q值。

在Agent选择动作时,会遇到“探索-利用”困境:“利用”是指选择Q值最大的动作以尽快增加收益,而“探索”是指随机选择一个动作探索其总体收益。文中采用ε-贪心策略,达到平衡“探索”和“利用”的目的。设学习起步阶段的探索概率为ε,则以1-ε的概率选择Q值最大的动作,以ε的概率随机选择其余动作中的一个动作,探索非最优动作带来的收益。ε-贪心策略在初始学习时,主动探索非最优动作,能一定程度地避免“局部最优”。随着不断的学习探索,Agent对环境的认知逐渐清晰准确,可以逐步减少不必要的探索,即减小ε值,以提高学习效率,从而加快Q值收敛。

使用Q学习算法管理CR的频谱:认知无线网络的特点在于实时变化:随时有用户到达和离开环境,业务处于动态变化中。系统需要自适应地调整传输参数(包括发送功率、传输信道等),以适应环境中的通信条件和要求。新到达的用户称为次级用户,其功率发射由基站控制,与基站的通信频段选用无需授权的公共频段,例如ISM频段。Q学习算法适用于此类动态变化的环境,能帮助系统实现信道和功率的实时自适应分配问题。

文中提出的Q学习算法实现动态频谱接入的处理步骤如下:

Q函数的主要参数:学习者所处的状态集合S,可选动作的集合A,动作的即时奖励值r,以及动作选择策略π:S→A。

(1)状态:假设信道不随时间变化,环境中的业务是动态变化的,用户是时间离散的。新用户到达会增加业务,触发Agent选择信道或分配功率,而用户业务的离去不会产生新业务,即不触发动作选择。因此,状态s由下式给出:

s=(新用户的序号,当前接入的用户序号,基站接收的各信道功率总和)

(2)

(2)动作:当新用户到达时,基站需执行两个操作:分配合适的信道;分配适合的功率。这两个动作由下式给定:

A=(P1,P2,…,PM)

(3)

其中,M是总信道数,Pm∈{p1,p2,…,pM},m=1,2,…,M。由于新用户接入时最多只需占用一个信道,因此向量A至多有一个非零元素。

(3)回报r:Agent的决策取决于学习过程中回报的累积值,即总体收益。回报的定义方式很多,此算法认为动作所实现的总体吞吐量越高,相应的回报值越高,故定义回报值为当前业务用户的服务速率之和,可通过下式计算:

r(s,a)=

(4)

其中,f(n),pn分别表示用户n所占用的信道以及发射功率。若用户j不发送信号,则pj为零。φ(n,j)由下式决定:

(5)

从式(5)可以看出,该算法考虑了新来用户的发射功率对正在进行业务的用户的干扰。

每当新来一个用户,Agent(认知基站)就会发起一轮迭代(如图1所示),过程如下:

图1 Q学习算法流程

(1)初始化:初始化折扣因子γ、学习率α以及探索概率ε,Q矩阵为全零。

(2)构建状态空间:新用户到达后,基站需确认新用户的序号和当前接入的用户序号以及基站接收的各信道功率之和。新用户序号由新用户发给基站;其他信息可由基站自身获取。构建的状态空间如式(2)所示。

(3)生成Q值:系统计算当前状态下所有动作对应的Q值,并存入Q矩阵:Qi(s)=(Q(s,a1),Q(s,a2),···,Q(s,am)),此即完成了一次Q值更新。更新须保存,以待下一轮迭代中继续更新Q值。

(4)选择和执行动作:基站选择动作时采用ε-贪心策略,然后基站通过公共控制信道告知用户所选动作对应的信道选择和功率分配策略。用户根据基站的要求,发射指定的功率。

(5)计算回报值:基站根据式(4)计算执行动作后的即时回报并存储其数值。

(6)更新相关参数:每轮迭代结束后,需要更新α,ε以加快Q值收敛。这里设定α,ε按负指数减小。算法收敛的标志为α,ε减为零或者迭代次数达到了预设的门限值。

2.2 遗传算法

遗传算法是一种模拟自然选择过程的搜索算法,通常用于解决优化和搜索问题。遗传算法流程如图2所示。

图2 遗传算法流程

算法从一组初始解开始,定义适应度函数来评估初始解,根据某种选择规则选择某些解进行交叉、变异产生新解。若未得到最优解就返回到第一步,将新生成的解作为新的初始解,一直循环迭代,直到获得最优解。使用不同的适应度函数所得到的结果会有差别。

使用遗传算法进行CR的频谱管理:基于传感器信息或次级用户输入的信息,系统可预定义次级用户的服务质量(quality of service,QoS)需求,选择次级用户参数,包括调制方案、带宽、数据速率、功率利用率等。通过学习和优化这些参数,次级用户可以在不干扰主用户的前提下访问主用户的频谱空穴,从而提高频谱利用率。文中以频率、功率、带宽和调制方案四个参数为例进行频谱管理。每个参数称为一个“基因”,四个参数的组合形成了“染色体”。

遗传算法解决频谱管理问题的步骤如下:

(1)基因组合。

(a)频率基因:假设系统带宽为800 MHz,频带范围为50 MHz~850 MHz,信道带宽为8 MHz,,即步长为8 MHz,共100个频率基因,如表1所示。

表1 频率基因

(b)功率基因:假设功率值范围从-95 dBm到-46 dBm,步长为1 dBm,共50个功率基因,如表2所示。

表2 功率基因

(c)误码率基因:假设误码率(Bit Error Rate,BER)的变化范围为10-1~10-8,步长为10-1,共8个误码率基因,如表3所示。

表3 误码率基因

(d)调制基因:文中只考虑针对特定频谱管理应用的四种调制方式,如表4所示。

表4 调制基因

(2)染色体。

四个基因结合形成一个染色体,或称种群中的单一个体。染色体的结构如表5所示。

表5 染色体结构特征

初始化:随机生成一个初始种群,包含50个初始个体,如表6所示。

表6 初始染色体结构

(3)个体适应度评估。

用加权和方法来计算种群中每个个体的适应度值,从而评估个体适应度。为了简单起见,假设染色体上的每种基因的权重相同。设参数x1、x2、x3、x4分别为频率基因、功率基因、误码率基因和调制基因。每个参数的适应度函数fi由式(6)给出。

(6)

染色体的适应度函数通过式(7)给出。

(7)

适应度越低,遗传算法的优势越明显。若某个染色体的适应度值满足次级用户的QoS要求,则将其作为可行解,若不满足,则从初始群体中选择适应度值较低的染色体,利用变异、交叉[23]等遗传算子生成下一个群体。重复进行这个过程,直到种群满足某个特定条件(例如种群数量最大化或优于当前最佳方案)为止。当终止条件满足时,选择适应度值最高的个体,该个体包含了频谱利用的最优参数。

2.3 隐马尔可夫模型

隐马尔可夫模型(hidden Markov model,HMM)是一种有向图模型,用于探究一个隐含有未知参数的马尔可夫过程,描述一个马尔可夫过程和背后隐藏状态的关系[24]。模型如图3所示。

图3 隐马尔可夫模型

在该模型中,系统被假定为未观察(隐)状态的马尔可夫过程。模型有两个变量序列,隐藏状态序列S=[S1,S2,…,Sn]和观察到的变量序列O=[O1,O2,…,On]。对于每个状态,初始的概率πi可被定义为:

πi=P(Si=si)

(8)

其中Si是隐藏状态集中的任意值。

模型的目标是给定一个观测序列O,获取可能的最佳状态序列S,即最大化P(S|O)。

S*=argmaxs(P(S|O))

(9)

因此一个完全隐马尔可夫模型可以表示为:

λ=(A,B,π)

(10)

其中,A是状态转移概率,即模型在各个状态间转换的概率;B是观察状态转移概率,即模型根据当前状态获得各个观测值的概率;π是初始状态概率,即模型在初始时刻各个状态出现的概率。

基于HMM的频率信道预分配:

为了高效地利用频谱,很多CR系统使用了静默周期(静默周期是指为了精确地感知频谱,CR网络停止所有的信道传输的状态),但即便如此,干扰仍可能产生。为了减少干扰,CR系统采用了频率期望算法,但会降低CR系统吞吐量,因此对于每个期望周期,采用基于HMM的频率信道预分配策略,从而既可以减少干扰时间,也能提高系统吞吐量[25]。

HMM频率信道预分配步骤如下:

通道状态(忙或闲)是观察到的状态,可以表示为O=[0,1],其中0表示通道空闲,1表示通道忙碌,而隐藏状态为分配给通道的一组频率,表示为S=[F1,F2,…,FM]。

假设一个观察序列[10101001…11]对应的隐藏状态序列为[S1,S2,…,Si,…,SN],其中Si∈S。

所以,对于给定的观测序列(O),转移概率(A),发射概率(B)和初始概率(π),基于信道状态或观测序列(O)可以得到最佳可能状态序列或分配频率S*,如式(11)所示,其中使用了马尔可夫假设,即隐藏状态只依赖于前一个状态,与时间无关。

P(S|O)=P(S1|O)P(S2|S1,O)…

P(SN|SN-1,O)

(11)

利用贝叶斯定理计算方程(8)中的条件概率:

(12)

其中,P(O)可以忽略,因为它与S无关,且被视为常数。根据方程(9),可以用马尔可夫假设计算P(S)和P(O|S),并假设当前观测状态只取决于当前隐藏状态。即:

P(S)=P(S1)P(S1|S2)…P(SN|SN-1)

(13)

P(O|S)=P(O1|S1)P(O2|S2)…P(OM|SM)

(14)

根据式(12)、式(13)和式(14),可以得到最终的输出值S*,从而分配频率设置对应观察组的通道状态。

3 结束语

认知无线网络的核心思想是人工智能技术,而机器学习是人工智能技术的核心,是动态管理频谱资源的关键。Q学习利用认知无线网络的动态特性实现了信道和功率分配的自主性;遗传算法通过模拟自然选择过程,在生成解中搜索最优解,高效地管理频谱资源;隐马尔可夫模型能通过训练数据解决认知无线网络中频率信道的预测和预分配问题。随着机器学习技术的发展和完善,认知无线网络将更好地利用频谱资源,在通信、数据交互等领域有更加广泛的应用。

猜你喜欢
无线网络频谱信道
一种用于深空探测的Chirp变换频谱分析仪设计与实现
滤波器对无线网络中干扰问题的作用探讨
一种基于稀疏度估计的自适应压缩频谱感知算法
测控技术(2018年7期)2018-12-09 08:58:22
无线网络的中间人攻击研究
基于导频的OFDM信道估计技术
认知无线电频谱感知技术综述
一种改进的基于DFT-MMSE的信道估计方法
TD-LTE无线网络高层建筑覆盖技术研究与应用
移动通信(2015年17期)2015-08-24 08:13:12
基于MED信道选择和虚拟嵌入块的YASS改进算法
一种基于GPU的数字信道化处理方法