动态频谱接入的Q学习优化算法

2015-12-22 11:36:24严定宇
西安电子科技大学学报 2015年6期
关键词:空闲传输速率频谱

黄 影,严定宇,李 男

(1.西安文理学院数学与计算机工程学院,陕西西安 710068;2.西安电子科技大学综合业务网理论及关键技术国家重点实验室,陕西西安 710071)

动态频谱接入的Q学习优化算法

黄 影1,严定宇2,李 男2

(1.西安文理学院数学与计算机工程学院,陕西西安 710068;2.西安电子科技大学综合业务网理论及关键技术国家重点实验室,陕西西安 710071)

在认知无线电网络的中心架构下针对网络整体性能和用户需求,提出一种基于Q学习的动态频谱接入优化算法.该算法通过认知用户根据Q学习算法提出信道申请和控制节点;根据网络整体性能处理申请两个主要步骤的实施,完成动态频谱的接入.仿真与分析表明,该优化算法在满足用户频谱需求的同时使得网络整体性能得到明显的改善.

认知无线电网络;动态频谱接入;Q学习

随着无线技术的飞速发展,与日俱增的频谱需求使得无线频谱资源面临着紧缺危险[1].而传统的固定频谱分配策略严重限制了用户接入的能力,从而导致了频谱资源的严重浪费.为有效解决网络频谱资源紧缺且利用率不高的问题,认知无线电技术应运而生,其基本功能之一就是整合空闲频谱,为择机使用频谱的用户提供接入服务,提高频谱利用率[2].当次级用户在使用空闲的主用户信道时,必须满足在主用户不做任何改变的情况下,不给主用户带来任何形式干扰的条件,即当信道没有被主用户占用而处于空闲的状态时,次级用户方可以接入空闲信道进行通信;当信道被主用户占用而处于忙碌的状态时,次级用户应立即停止在此信道的通信,并且切换到其他空闲信道继续数据通信.

由于主用户使用频谱的限制,次级用户可用频谱的数量和位置会随时间而不断变化.因此,对于这些“不确定”的频谱资源进行优化分配本质上是一个受限的频谱分配问题.对于认知无线电网络,选择高效、自适应的频谱资源分配方案及管理策略直接关系着网络的正常运行[3].Q学习算法适用于外部环境变化复杂,而奖励易积累计算的场景,其应用的场景非常符合认知无线电网络的动态频谱接入环境,能够为认知无线电网络提供一种动态的、自适应的频谱资源优化方法[4].

现有的基于Q学习的动态频谱接入研究大都集中在对Q学习算法和外部环境建模以及提高算法效率上,而同时考虑用户需求和网络整体性能的研究较少.文献[5]提出利用Q学习算法有效地利用频谱空洞,不需要任何动态环境的先验知识和较多的信息交换,只通过与环境的交互达到高性能的学习方案.而文献[6]则分别通过提出将Q学习算法和拍卖算法相结合的方法来进一步提高算法效率.文献[7]利用Q学习算法和跨层技术设计出一种在认知无线电网络环境下的学习引擎.文献[8]则将Q学习算法用于认知传感器网络中继节点的选举上.这些研究仅从单一角度提高网络性能,如吞吐量、时延和公平性等,但当外部网络环境比较复杂、通信场景多样化时,这些算法就不能针对多个目标起到资源优化的作用.因此,笔者提出一种优化资源的Q学习方案,旨在尽量满足用户需求的同时提升网络整体性能.

1 模型介绍

1.1 认知无线电网络架构模型

文中提出的基于Q学习的动态频谱接入方案,旨在尽量满足用户需求的同时提升网络整体性能,而单个次级用户很难确保周围环境信息的全面性和实时性,不利于网络整体环境的实时获取,因此,文中设计的认知无线电网络架构为一种弱集中式架构,即一定范围内必须存在1个控制节点.控制节点可由次级用户基站充当,也可以由分层网络中具备较强计算能力的簇头节点充当,同时默认次级用户彼此之间存在用于传输控制信息的控制信道,具体网络架构模型如图1所示.

图1 认知无线电网络架构模型

1.2 Q学习算法模型

Q学习算法是Watkins在1989年提出的一种无模型强化学习算法,是强化学习算法中的一个里程碑[9].Q学习算法主要通过马尔科夫决策过程建模,以迭代方法逼近最优解,基本模型如图2所示.Q学习算法的具体步骤如下[10]:

图2 Q学习算法的基本模型

Step 1 初始化Q(s,a),随机生成查找表,初始化参数∂和γ,令t=0.

Step 2 观测当前状态st.

Step 3 按照某种动作选择机制选择动作at,并执行.

Step 4 观测执行完动作at后的下一个状态st+1和奖惩值rt+1.

Step 5 按照下式更新状态动作对(st,at)的Q值函数,得到Qt+1(st,at),即

Step 6 判断是否达到终止条件.若达到终止条件则结束;否则,转Step 3,并且令t=t+1.

2 基于Q学习的动态频谱接入方案

2.1 方案问题描述

认知无线电网络中的动态频谱接入技术,除了面临可用频谱资源随着主用户使用情况而变化的问题外,还面临着认知用户需求实时变化的问题.具体问题描述如下:

(1)环境状态S的问题映射,S={s1,s2,…,sk,…,sn},表示目前认知用户可以二次利用的信道列表,n表示认知用户可达的所有信道数.当sk=1时,表示当前信道k被主用户占用;当sk=0时,表示当前信道k未被主用户占用,是空闲的信道.

(2)动作选择集合A的问题映射,A={a1,a2,…,ak,…,am},系统状态的动作选择主要受两种行为的影响:一种是主用户的行为,即认知用户只能选择那些主用户没有占用的空闲信道接入,不能对主用户已占用的信道的数据通信产生影响;一种是其他认知用户的行为,即认知用户应该尽量选择其他认知用户没有选择的信道接入,进而减小认知用户彼此之间的碰撞概率和认知用户系统资源的浪费.

(3)奖赏值,又称为回报,即应当能够体现出学习的目标.该方案的目标就是在不对主用户系统的通信造成干扰的前提下,降低认知用户彼此之间的冲突概率,进而达到提高系统吞吐量的目的,同时尽量满足认知用户的需求,具体表现为尽量使得各个认知用户获得更高的传输速率.基于此,文中设计的奖赏函数为

当次级用户USi申请信道j,控制节点分配给该用户信道j时,使用式(2a);当次级用户USi申请信道j,控制节点分配给该用户信道k时,使用式(2b);当次级用户USi申请信道j,控制节点没有分配给该用户任何空闲信道进行数据通信时,使用式(2c).

2.2 方案实施步骤

从用户需求和网络整体性能两个角度出发,笔者提出了一种基于Q学习的动态频谱接入方案,即一种面向用户需求和提升网络整体性能的动态频谱接入方案.具体算法流程如图3所示.

图3 优化算法的主要流程图

Step 1 入网初始化:①根据感知结果完成主用户占用信道的初始化;②对各个次级用户在各个传输信道上的传输速率进行初始化;③次级用户信道申请失败记录器全部初始化为0;④将次级用户的优先级全部初始化为0;⑤将所有状态动作对的Q值初始化为0.

Step 2 各个次级用户在数据传输时隙开始时按照自己的Q学习算法计算出将要申请的信道标号,并将信道标号上报给控制节点:①根据感知结果构建状态空间;②根据状态空间调整Q值表大小;③根据贪婪策略进行下一次动作的选择;④将下一个动作得到的下一个状态作为本次信道申请的信道标号;④次级用户根据自己通信需求的紧急程度(gur)修改自己优先级(pri),prii=prii+ guri,guri值越大,次级用户的额外代价越大,将优先级的数值上传给控制节点后,默认prii=0,guri=0.

Step 3 控制节点根据各个次级用户上报信息处理申请:①有且仅有次级用户USi申请信道j,将信道j分配给次级用户USi;②若次级用户USi和USj同时申请信道j,则将信道j分配给优先级较大的次级用户,若次级用户彼此之间的优先级相等,当时,将信道分配给Ns较大的次级用户;当时,将信道分配给传输能力较强的次级用户,其中,N0为判定门限,其具体数值可根据网络具体情况确定;③以剩余随机分配的形式保证所有空闲信道都被分配给次级用户或者所有次级用户都分配到信道;④若次级用户USi分配到信道,则保持Nsi数值不变;否则,令Nsi=Nsi+1.

Step 4 控制节点通过控制信道将分配信息下发给各个次级用户,次级用户利用自己分配到的空闲信道开始数据传输,直至下一个感知时隙的到来.

Step 5 在感知时隙期间,各个次级用户根据分配结果和奖赏函数计算出奖赏值,进而根据更新公式完成Q值的更新调整.

Step 6 判断次级用户是否需要继续进行数据传输,若否,则转Step 7;若是,则转Step 2.

Step 7 次级用户结束数据传输,退出认知无线电网络.

3 仿真分析

文中提出的基于Q学习的动态频谱接入优化算法,主要是从用户需求和网络整体性能两个角度出发,旨在提升网络整体性能的同时尽量满足用户的需求,这里从网络整体性能和用户需求两个方面对文中优化算法进行仿真性能的分析.

仿真时假设认知用户数目多于空闲信道数目,即有5个认知用户,4个空闲信道,各个认知用户在各个信道上有不同的传输速率.假设传输速率为

其中,vij表示认知用户usj在空闲信道i上的传输速率.仿真时,设置式(1)中∂=0.5,ϕ=0.3.

3.1 网络整体性能仿真分析

网络整体性能的衡量指标主要是认知用户在提出信道申请时彼此冲突的概率和系统整体的平均信道传输速率,即每次数据传输时各认知用户在各自信道上传输速率的总和.综合图4和图5可得,虽然简单Q学习方案申请概率比文中优化方案低,能一定程度降低控制节点的计算负担,但系统平均速率低于文中优化方案;拍卖方案虽然在申请重复概率和系统平均速率方面接近或略高于文中的优化方案,但是拍卖方案不具备随着外界环境的变化而自适应调整的能力,给控制节点造成严重负荷,同时也局限了拍卖方案在外部快速变化环境下的使用几率.

图4 提交申请重复概率对比图

图5 系统平均速率对比图

图6 认知用户平均速率对比图

图7 认知用户成功接入概率对比图

3.2 用户需求仿真分析

认知用户需求的衡量指标主要是认知用户传输数据的传输速率和认知用户成功接入空闲信道的概率.从图6和图7可得出,拍卖方案在满足用户需求方面有明显的缺陷,即用户4的平均传输速率和成功信道概率明显低于其他方案,会出现用户4非常不满意当前服务的情况.在认知用户成功接入信道概率方面,文中优化算法与随机方案和简单Q学习方案功能大致相同,但是采用文中优化算法能够使得各个认知用户获得更高的平均传输速率.

仿真与分析表明,相比于随机方案和简单Q学习方案,文中优化方案在满足用户需求方面有了明显改善.

4 结束语

笔者提出了一种基于Q学习的动态频谱接入优化算法,从网络整体性能和用户需求两方面对动态频谱接入进行了优化,同时本优化将控制节点的一部分运算转移到认知用户节点上,在一定程度上将串行运算变成了并行运算,减轻了控制节点的运算负担,缩短了算法的运行时间,为数据通信赢得了更多的时间.

[1]Marinho J,Monteiro E.Cognitive Radio:Survey on Communication Protocols,Spectrum Decision Issues,and Future Research Directions[J].Wireless Networks,2012,18(2):147-164.

[2]Mitola J,Maguire Jr G Q.Cognitive Radio:Making Software Radios More Personal[J].IEEE Personal Communications,1999,6(4):13-18.

[3]Tragos E Z,Zeadally S,Fragkiadakis A G,et al.Spectrum Assignment in Cognitive Radio Networks:a Comprehensive Survey[J].IEEE Communications Surveys and Tutorials,2013,15(3):1108-1135.

[4]Gavrilovska L,Atanasovski V,Macaluso I,et al.Learning and Reasoning in Cognitive Radio Networks[J].IEEE Communications Surveys&Tutorials,2013,15(4):1761-1777.

[5]Xu Y,Wang J,Wu Q,et al.Opportunistic Spectrum Access in Unknown Dynamic Environment:a Game-theoretic Stochastic Learning Solution[J].IEEE Wireless Communications,2012,11(4):1380-1391.

[6]Chen Z,Qiu R C.Q-learning Based Bidding Algorithm for Spectrum Auction in Cognitive Radio[C]//Proceedings of IEEE Southeastcon.Piscataway:IEEE,2011:409-412.

[7]Liu C B,Jiang H,Yang Y C,et al.Q-learning-based Cross-layer Learning Engine Design for Cognitive Radio Network [C]//Proceedings of SPIE:8784.Bellingham:SPIE,2013:878419.

[8]Peng J,Li J,Li S,et al.Multi-relay Cooperative Mechanism with Q-learning in Cognitive Radio Multimedia Sensor Networks[C]//Proceedings of the IEEE 10th International Conference on Trust,Security and Privacy in Computing and Communications.Piscataway:IEEE,2011:1624-1629.

[9]Bkassiny M,Li Y,Jayaweera S K.A Survey on Machine-learning Techniques in Cognitive Radios[J].IEEE Communications Surveys&Tutorials,2013,15(3):1136-1159.

[10]Rummery G A,Niranjan M.On-line Q-learning Using Connectionist Systems[M].Cambridge:University of Cambridge,1994.

(编辑:齐淑娟)

Optimization algorithm for dynamic spectrum access based on Q-learning in cognitive radio networks

HUANG Ying1,YAN Dingyu2,LI Nan2
(1.School of Mathematics and Computer Engineering,Xi’an Univ.of Arts and Science,Xi’an 710068,China;2.State Key Lab.of Integrated Service Networks,Xidian Univ.,Xi’an 710071,China)

Under the centralized cognitive radio network architecture,considering the network performance and users’demands.We propose an optimized dynamic spectrum access algorithm based on Q-learning.The proposed algorithm has two steps,which consist of user request according to Q-learning and the application process according to the overall system performance.Simulation results show that the proposed scheme can improve the overall system performance obviously,and that the user requirements could be satisfied at the same time.

cognitive radio networks;dynamic spectrum access;Q-learning

TN92

A

1001-2400(2015)06-0179-05

10.3969/j.issn.1001-2400.2015.06.030

2014-07-16

时间:2015-03-13

国家自然科学基金资助项目(61172068,61373170);中央高校基本科研业务费专项资金资助项目(JB150317)

黄 影(1977-),女,助理工程师,硕士,E-mail:yhuang@xidian.edu.cn.

http://www.cnki.net/kcms/detail/61.1076.TN.20150313.1719.030.html

猜你喜欢
空闲传输速率频谱
恩赐
诗选刊(2023年7期)2023-07-21 07:03:38
一种用于深空探测的Chirp变换频谱分析仪设计与实现
“鸟”字谜
小读者之友(2019年9期)2019-09-10 07:22:44
一种基于稀疏度估计的自适应压缩频谱感知算法
测控技术(2018年7期)2018-12-09 08:58:22
彪悍的“宠”生,不需要解释
跨山通信中频段选择与传输速率的分析
黑龙江电力(2017年1期)2017-05-17 04:25:16
数据传输速率
CHIP新电脑(2016年9期)2016-09-21 10:31:09
WLAN和LTE交通规则
CHIP新电脑(2016年3期)2016-03-10 14:09:48
认知无线电频谱感知技术综述
新一代全球卫星通信网络将百倍提升传输速率