基于超模博弈的认知无线Ad hoc网络分布式功率控制技术

2021-10-22 02:17:10李湘鲁

重庆大学学报 2021年9期

李湘鲁，侯冬，田杰

(1.中国工程物理研究院电子工程研究所, 四川绵阳 621900;2.电子科技大学自动化工程学院,成都 611731)

数十年来，无线网络技术得到了空前发展，通信终端规模和无线数据业务量也呈现井喷式增长，频谱资源日渐稀缺，频谱分配饱和与频谱利用率低下也亟待解决。认知无线网络(CRN，cognitive radio network)技术允许多个次用户(SU，secondary user)通过频谱感知来探测授权频谱上主用户(PU，primary user)的活动性，利用动态频谱接入(DSA，dynamic spectrum access)来提高频谱利用率，在保证PU通信的前提下增加SU网络传输的业务种类和质量[1-2]。其中，干扰管理的功率控制、吞吐量优化及能量优化问题得到广泛关注。

单跳认知无线Ad hoc网络(CRAHN，cognitive radio ad hoc network)并发通信场景由PU系统和SU系统组成。其中，PU对授权频段具有绝对优先使用权，以一定概率随机使用授权频段信道；而各SU组成的分布式网络，缺乏中心设施的统一资源调度，各节点发射机的不同功率等级将对网络系统带来不同性能影响和网内干扰效果。因此，多个SU节点需通过分布式功率控制方法在最大化提高频谱效率(SE，spectrum efficiency)同时减轻网内干扰。CRAHN中的SU主要采用交织(interweave)、覆盖(overlay)和重叠(underlay)模式来访问授权频谱[1]。在Underlay模式下，SU可使用不超过干扰阈值的功率与PU进行数据并行传输[2]。在Overlay模式下假设PU与SU间存在良好合作关系，SU需要进行频谱感知并同时服务自己与PU的通信业务[3-4]。在Interweave模式下，SU同样使用频谱感知探测频谱空洞，但SU网络独立通信、不需要将额外能量消耗在协助PU上[4]。

CRAHN中的SU系统一般包含多个ST(second-user transmitter)到SR(second-user receiver)的收发通信对，且SU系统将在不影响PU业务QoS前提下，对多种业务数据进行传输，这些SU数据业务和节点不区分优先级，得到各节点地位对等的CRAHN系统。由于可用频谱资源受到限制，所有节点需要共享频谱资源进行并发通信，授权频谱通过采用Interweave模式进行共享。因此，SU系统所有节点需要先通过频谱感知技术判断PU是否占用频谱，若信道为占用状态，则次用户继续等待；反之，次用户对授权频谱进行利用。这种机制可确保SU系统在PU空闲时对授权频谱加以利用，满足SU系统数据传输的需求，也可避免对PU传输造成干扰影响；另一方面，在针对多目标的遥测网络数据传输中，SU可根据信道中干扰强度变化，发现和规避干扰。

目前，有大量CRN频谱效率优化研究的文献[5-9]：1)一些方法针对Underlay频谱共享方式下的CRN系统[10-13]，该模式下PU和SU需要共存。针对Interweave模式的研究一部分聚焦于频谱感知[14-15]、PU检测率和虚警率的改善[16]，但这类性能讨论并未与SU网络容量挂钩；另一部分基于感知-频谱共享研究SU网络遍历容量最大化[17-20]，但文献[17-20]等仅针对单个SU用户进行链路容量优化，而文献[19]需要SU基站进行协同感知的信息融合和判决。因此，需要对多个CR用户在Interweave模式下组成的次用户网络容量优化问题及其功率控制方法进行研究；2)在Interweave模式中，SU网络可在PU空闲时占用授权频谱进行通信，且不用考虑对PU的干扰，在PU空闲时可将SU网络近似看做无线Ad hoc网路。目前已有一些基于博弈理论以网络容量最大化为目标提出相应功率控制算法的研究[21-26]。为简化分析难度，一些研究基于高SINR假设下将香农容量进行了近似[26]，或针对特殊的网络结构(如正交多址NOMA等)进行信道增益等参数的序列假设[21-22]，缺乏对一般SINR条件下博弈模型相关性质的深入分析。因此，需要考虑移动设备所受硬件水平和处理速度的限制，控制各用户间信息交互量并降低算法复杂度，对CRAHN的SU节点之间的干扰进行补偿、并达到SU网络容量最大化目的。

本研究有3个主要贡献：1)根据约束条件建立CRAHN容量模型并转化为等效博弈模型，利用KKT条件引入代表干扰代价的新变量；2)针对不同SINR和用户数条件下的等效博弈模型进行了等效博弈模型的超模性证明；3)提出该场景下基于Gradient Play方法的分布式资源分配算法，并在不同功率、干扰和QoS条件下进行仿真，该算法所需交换信息少，相比Best Response方法具有更稳健的收敛性保证。

1 系统模型

设想一个由单个PU和SU网络组成的通信应用场景。SU网络包含L={1, …,L}条收发通信链路，每条通信链路分别包含一个SU发射机STl和一个SU接收机SRl，SU网络节点均采用Interweave方式与PU共享频谱，在不影响PU业务QoS的前提下，对多SU数据业务进行不区分优先级的单跳并发传输，构成由多个对等SU节点组成的单跳CRAHN系统，如图1所示。假设用户位置均匀分布在可互相影响的同区域内，网络中不存在中心设施，所有SU对一定带宽的授权频谱进行共享。PU具有较高QoS要求，若主系统和次系统同时工作，则次系统将严重影响主系统传输性能，因此，主系统和次系统不能同时工作；另一方面，SU网络中各用户间的并发传输会不可避免地产生用户间干扰(MUI，multi-user interference)。假设SU网络内各SU都可得到信道状态信息(CSI，channel state information)完全知识，以及所有信道遵循块衰落(block fading)方式，即在数据帧周期内信道增益(channel gain)为常数，但不同时隙之间的信道增益可能不同。

图1 4个用户组成的CRAHN网络架构

1.1 频谱感知过程

根据CR技术的Interweave模式思想，每个数据帧(时隙)可分为2个阶段：1)各SU首先进行基于能量探测(energy detection)的频谱感知，判断频谱占用情况；2)若频谱被PU占用，则所有SU保持静默；反之，SU网络中所有节点利用分布式功率控制算法最大程度降低网内干扰、提高SU网络容量。假设频谱空洞时间足够SU网络完成多个时隙的频谱感知和数据传输操作，则系统时隙的组成见图2。

图2 CRAHN系统时隙结构图

其中，τ为频谱感知时间，T-τ为数据传输时间。可知每帧数据时隙包含：1)频谱感知时间为τ，SU需完成PU状态的确定；2)在T-τ数据传输时间内，SU基于频谱感知结果，决定静默或进行基于功率控制的数据传输。由于SU硬件资源有限，系统中各SU采用能量检测来进行频谱感知以降低运算复杂度。假设所有SU间实现了同步且与PU间距离相近，PT发射功率足够强，使得所有SU对频谱可用性判决一致，SUl感知到授权频谱上PU存在性可由以下假设表示[23]

Hl0:rl(i)=nl(i),

(1)

Hl1:rl(i)=s(i)gslp+nl(i),

(2)

1.2 次用户传输容量模型

根据图2所示系统时隙结构，系统以概率(1-Pf)进行数据传输，使用链路香农容量作为系统效用函数。在表示SUl所在链路的香农容量时，该函数是关于SUl接收信干噪比(SINR, signal to interference plus noise power ratio)的函数，即使SINRl可表示为

(3)

式中：p=(p1,…,pL)是所有ST的发射功率矢量;hll表示从STl到SRl的信道增益;hlk表示从STk到STl的信道增益;n0为SRl的背景噪声且其满足高斯分布n0～(0,σ2)，使用Il(p-l)来表示SUl所接收到的来自其他用户干扰MUI的总和。

从式(3)中可以看出，由于次用户网络中自干扰的存在，各次用户l的效用函数关于其他SUk的发射功率变量pk在分母具有强耦合性。因此，当主用户为空闲且没有虚警发生时，基于香农公式可得到次用户Ad hoc网络效用函数——对数效用函数(logarithmic utility function)，每个SUl所在链路的香农容量cl(γl)可表示为

(4)

其中，B为多个SU所占用的总带宽。在SINR远大于1的高SINR场景中，对数效用函数ul(γl)可根据1+γl(p)≈γl(p)将香农容量近似为ul(γl)=θllog(1+γl)≈θllog(γl)，θl为网络系统的服务优先级权重因子。换句话说，香农容量可以近似用对数效用函数log(γl)进行表示。而在低SINR场景，用户数据率关于SINR呈近似线性的关系，即用户效用函数与容量的对数值成比例变化。接着，综合考虑次用户的虚警和PU的活跃概率等因素，可以得到新的SUl所在链路的容量公式[23]

(5)

其中，θ1和θ0为常数，分别为PU忙和空闲的概率。如前所述，次用户系统当且仅当H0假设下次用户l正确感知PU的空闲状态时才有链路容量回报。假设在本场景中，PU的发射功率非常大，且频谱感知时间足够长，则虚警Pf可忽略且为常数，假设在多个数据时隙内PU均未出现，则θ1=0，因此在后续的次用户网络容量最大化推导和分布式功率控制算法设计过程中，均不专门对Pf和θx进行讨论。SU分配的共享带宽Bw也是常数。设θx(1-Pf)Bw=B，即效用函数可转化为ul(γl)=cl(γl)=Blog(1+γl(p))，且频谱效率为

(6)

1.3 系统问题建模

根据网络效用最大化(NUM，network utility maximization)的相关描述，系统需要在每个SUll∈L满足发射功率约束条件的前提下，对SU发射功率矢量p进行控制，以达到SU网络内所有SU效用值总和最大化的目的。需要对链路容量代表的网络效用总和进行优化

(7)

从式(4)和式(7)可知，虽然OP1的约束条件是紧致凸集，但OP1的目标函数由于多用户决策pl之间的耦合性，造成函数ul关于变量p的非凸特性，则OP1是一个非凸优化问题(non-convex problem)。对于该问题一般没有显示解，且其复杂度为NP-Hard[24]。为求解OP1，可定义一种等效的功率控制博弈模型[25]。

2 等效博弈模型及超模性分析

2.1 等效博弈模型及代价因子

假设用户从不交换任何信息且仅选择发射功率来满足自身效用最大化目标的情况，可以得到一个非合作功率控制博弈(NPG，noncooperative power control game)模型，有如下定义

定义1：一个NPG模型可被定义为一个三元组

G=[L,{Pl}l∈L,{ul}l∈L],

(8)

定义2：当满足以下条件

(9)

利用KKT条件求得了代价函数表达式为[26]

(10)

其中，代价因子πj(pj,p-j)为STl向对其产生干扰的SUj(j≠l)收取的价格，因此其值为负。为了精确表示代价函数，类似文献[27]，使用对数yl=logpl对用户决策变量进行代换，用yl表示分贝(decibel，单位dB)，则可得到pl=eyl。这种变换是合理的，因为在无线通信系统中一般使用分贝数来描述发射功率的相对强度。因此，代换得到的变量矢量y与原变量p是一一对应的。经过对变量y的变换，式(3)所表示的SINR表达式可重新写为

(11)

从式(10)和式(11)可得到代价因子πj(pj,p-j)的全新表达式为

(12)

其中，πj完全由用户决策变量所确定。然后，可以得到新的收益函数为

(13)

将式(12)的结果代入式(13)中，可消除代价因子π继续化简得到

(14)

其中，设Alj=(exp(yl)hji)/(exp(yj)hjj)。从式(14)可知，SUl需要最大限度提高其效用函数和代价函数间的差值，权重在数值上等于STl到SRk间信道增益。因此式(8)可变为G=[L,{Pl}l∈L,{Ul}l∈L]，并对此等效博弈模型的超模性、纳什均衡、解的唯一性和相应迭代算法的设计以及收敛性进行分析和讨论。

2.2 博弈模型超模性和纳什均衡

在等效博弈模型G中，每个STl被当作博弈中的玩家制定各自功率策略，每个STl所付代价看作功率的函数。为了进行分布式资源分配算法的设计，需要讨论博弈G的NE存在性和解的唯一性的条件，并对算法收敛性进行证明。由于超模博弈在对NE解收敛性等方面有很多有用性质，因此首先得到如下定理。

定理1：若其他用户策略y-l固定，则支付函数Ul是1个凹函数。

定义3：假设X⊆且T为某偏(有)序集，若函数f在(x,t)上满足f:X×T→对任意x′≥x及t′≥t可满足f(x′,t′)-f(x,t′)≥f(x′,t)-f(x,t)，则称函数f具有差值递增性(Increasing Differences)，即超模性。超模函数具有以下性质:

a)当t增加时，选择更高x的增量增益将更大。

b)差值递增性具有对称性，即若t′≥t，则f(x,t′)-f(x,t)关于x为非递减函数。

c)若函数f为二阶连续可导，则当且仅当对所有x，t′≥t时有f(x,t′)-f(x,t)，或对所有x和t，有fxt(x,t)≥0，则称函数f具有差值递增性。

定义4：若能满足以下条件，则博弈模型G=[L,{Pl}l∈L,{ul}l∈L]可被称为超模博弈。

a)对任意给定p-l，策略空间Pl为某欧氏空间RN中的非空、凸的且紧致子格；

b)ul关于(pl,p-l)具有上半连续性(upper semicontinuous)；

c)效用函数ul具有差值递增性，即对用户策略pl二阶可导且满足

定理3：若博弈模型G=[L,{Pl}l∈L,{Ul}l∈L]为超模博弈，则满足下列性质：

a)NE集合始终存在，且为非空和紧致子格(Sublattice)，可逐个搜索最小和最大的NE值；

b)若SUl从策略空间中最小(或最大)决策值更新策略，则策略值单调收敛到最小(或最大)NE；

c)SUl策略将位于有界区间内。若G存在唯一NE，则策略更新可从初始值全局收敛到唯一NE。

性质a)遵从文献[31]中引理；b)遵从文献[32]中定理；c)的证明详见文献[33]。针对不同SINR情况下不同用户数的认知无线网络需要满足超模性的基本条件进行分析。证明以下定理。

证明：每个SUl策略空间非空，且策略空间为RN空间的子集，所以必为Sublattice子格，因此，必满足定义3条件a)。Ul的函数形式显然连续且二阶可微。当网络用户数L=2时，SUl效用函数为

(15)

式(15)中2个效用函数式具有对称性，分别对两式计算对策略y1和y2的交叉偏微分，省略计算过程可得

其中，式(17)即为L= 2 时，SU2收益函数U1二阶交叉偏导。为区别以往研究仅针对高SNR场景的情况，对一般SNR场景确定了满足超模性的条件。

(18)

(19)

证明：首先证明博弈G的超模性，然后证明收益函数的凹凸性。已知多用户的收益函数如式(14)，分别计算关于yl的二阶偏导(目标函数Hessian矩阵的对角线项)和关于yl与yi的交叉偏导(非对角线项)如下(相关计算步骤从略)

(20)

(21)

a)证明收益函数凹凸性。

(22)

(23)

(24)

(25)

(26)

其中，θj为每个SUj为常数的优先级权重，且γjAlj=Bj>0，由此可解得当满足Bj∈(0,1/2]∪[1,+∞)时，Hll(y)<0，则支付函数为严格凹函数。

b)证明博弈模型超模性。

(27)

3 基于Gradient Play的分布式容量优化算法设计

(28)

当所表示的上述动态模型达到稳定状态，则该状态一定是均衡点。然而，对一般形式的博弈模型，其收敛性能并不令人满意。因此考虑另一种替代机制Gradient Play[34]。相比在前述每一步致力于寻找使性能最优的“最优响应”机制，Gradient Play可看成一种“更优响应”的机制。在这种机制中，每个玩家基于对其他玩家所做决策的结果观察，以梯度方向迭代地调整当前决策。则每个SUl可根据下式更新其策略

(29)

(30)

表1 基于Gradient Play方法的分布式容量优化算法

针对表1，可看到为了实现系统策略状态更新，在每个时隙t，每个用户需要获取的信息有：1)其他用户的功率值pl(t)(每个用户的发射机进行周期性广播)；2)当前信道增益hll(接收机处测量并反馈到发射机)和临近信道增益hjl(每个用户的接收机进行周期的信标广播)；3)接收SINR值γl(t),l∈L(每个用户的接收机周期广播)。每个用户基于以上信息，计算其他用户的代价值并用于后续计算中。从定理3描述的超模博弈的性质出发，只要博弈模型满足超模性且存在NE，即使是非增量式的最优响应算法也可以得到平衡，因此增量式的Gradient Play算法也可以收敛到NE。

定理6：等效超模博弈G=[L,{Pl}l∈L,{Ul}l∈L]可从任意初始值收敛到其NE点。

1)函数值为正(Positivity)：f(x)>0；

2)单调性(Monotonicity)：若x≥x′，则f(x)≥f(x′)；

3)可伸缩性(Scalability)：对所有a>1，均有af(x)≥f(ax)。

其中，x=(x1,x2,…,xN)为NE点。对于所定义的等效超模博弈模型，根据文献[25]，能容易证明最优响应函数BRl(y)满足上述条件。相似地，对于Gradient Play更新函数，对∀yl∈Yl也可证明如下：

因此，等效超模博弈始终会向NE点收敛，定理得证，在仿真实验中选取0.001和0.01步长分别在2用户和30用户上进行了收敛性数值仿真验证。

4 仿真实验及性能对比

在仿真实验中，假设多个SU已经检测到了频谱空洞，基于Gradient Play的分布式容量优化资源分配算法分析SU网络的性能，并假设算法运行过程中PU不出现，基于此假设进行仿真实验并对结果进行分析。首先设置仿真场景，相关参数如下：

1)模拟一个在50 m×50 m方形区域内随机生成的分布式网络，生成1～30对网络用户通信对，每个用户节点的相应收发端随机分布在15 m×15 m的方形区域内；

2)所有网络用户共享相同频谱资源，信道带宽B=64；

5)每个用户选择固定步长为fl= 0.01，且假设θ0= 1和Pf虚警概率为0，将CRAHN近似为Ad hoc；

6)产生1到30个用户传输对，同时对用户之间的距离单位和信号衰减因子等参数进行设置。

如图3所示显示了30个网络用户的链路分布情况，其中蓝色圆圈为发射机，红色方块为相应的接收机，针对不同用户数的每个场景，均通过均匀分布随机生成20组拓扑结构进行比较。

图3 1～30个用户通信收发对的网络模型

图4～图6显示了用户收发对分别为2和30个的时候，网络系统中各用户发射功率分配和对其他用户干扰代价值的典型收敛情况(每条线均代表一个用户的发射功率值或干扰代价值的变化情况)，所有场景均基于随机的参数初始化。其中，用户数不多时(图4的2用户网络)将发射功率和干扰代价在一张图上显示，当用户收发对增加到30个，即通过图5和图6分别将发射功率值和干扰代价值的收敛情况进行分开显示。

图4 2用户无线网络Gradient Play算法的收敛效果仿真

图5和图6分别显示了30用户的网络中各用户发射功率和干扰代价值变化的过程。各用户随着分布式算法迭代次数的增加，根据其他用户的策略状态导致的反馈结果，以增量方式对各自的发射功率进行调节。除了个别用户达到了发射功率最大值1以外，其他大多数用户都在pl=[0, 1]W范围内取得了发射功率值。该场景下，算法的收敛迭代次数在600次以内。

图5 30个用户无线网络中Gradient Play算法对用户功率分配的收敛效果

图6 30个用户无线网络Gradient Play算法对干扰代价值的收敛效果

此外，图6显示了各用户因发射功率更新所得到对其他用户相应的干扰代价值的变化趋势。从图中前40次左右的迭代中，几乎所有用户由于其自私性，都在尽力提高当前链路上的发射功率，因此相应地增大了各自的干扰代价。随着分布式算法迭代次数的增加，根据其他用户的策略状态导致的反馈结果，以增量方式对各自的发射功率进行调节，干扰代价又降低了下来，最终达到均衡点下的稳定状态。该场景下，算法的收敛迭代次数在600次以内。

最后，图7展示了在CRAHN中的不同信噪比条件下，用户收发对从1个提高到30个所带来的网络容量性能变化趋势。从图上可以看出：1)用户数从1个到15个的增加过程中，3种信噪比场景下，网络的总容量都基本处于提高阶段，说明在分布式算法的发射功率控制优化是有效的，能使网络总容量得到提升。其中SNR=30 dB和SNR=40 dB的情况比较类似，而SNR=20 dB场景下的信噪比相比之下网络总容量差别较大，说明分布式算法在这个SNR条件下，针对基于香农容量对数近似公式的网络容量的优化效果并不明显；2)用户数从15个～25个左右时，3种SNR场景的网络总容量呈现一种保持中略有下降的趋势，直到用户数从25个到30个变化过程中，3个SNR条件场景中的网络总容量出现较明显的下降。这是因为随着网络中用户数的增多，网内干扰的比重大大增加，且随着用户数增多造成了用户策略的耦合性增强，用户依靠分布式算法进行的功率调整不容量对网络总容量有太多的贡献；3)在SNR=20 dB的场景中的网络总容量相比较强SNR条件下的网络性能来说，更容易收到用户数增加的影响，因为各用户的最大发射功率不变，而网络SNR偏低，则网内干扰更容易收到各用户发射功率的影响，用户数的增多使得网络内的资源优化共享更加难以协调。因此SNR越低的场景下，网络总容量更容易受到用户数的影响。

图7 认知无线网络中用户数和信噪比变化对网络总容量的影响关系

5 结论

基于超模博弈理论针对CRAHN网络系统容量最大化问题进行了研究，解决了同频点无线Ad hoc网络容量和模型中用户间策略的偶合性问题。首先，根据相关约束条件对无线Ad hoc网络吞吐量之和模型进行了建立，转化为等效博弈模型，并利用KKT条件引入代表干扰代价的新变量，且写出代价关于策略的精确表达式；然后，针对不同SINR条件下的等效博弈模型进行了系统容量模型的超模性证明，后分别基于Best Response和Gradient方法得到分布式资源分配算法。仿真结果表明，在不同的功率、干扰和QoS需求条件下，该方法相比其他同类算法所需要的信息交换更少，相比Best Response算法具有更稳健的收敛性保证。主要贡献在于：首先，根据相关约束条件对无线Ad hoc网络容量和模型进行了建立，然后转化为等效博弈模型，利用KKT条件引入代表干扰代价的新变量；然后，针对不同SINR和用户数条件下的等效博弈模型进行了系统容量模型的超模性证明，后基于梯度法得到分布式资源分配算法。仿真结果表明，在不同的功率、干扰和QoS需求条件下，该方法相比其他同类算法所需要的信息交换更少，相比最优响应方法具有更稳健的收敛性保证。