张涌逸
(太原师范学院 计算机系,山西 晋中 030619)
相关学者有讨论无线传感器网络功率控制的,但他们主要是从降低无线传感器网络的能耗方面来研究的[1]。本文讨论无线的功率控制,是为了充分利用频谱资源,认知无线电频谱分配行为有合作和非合作频谱共享。由于无线传感器网络常常是某个机构部署的,所以给频谱合作共享带来了可能。在认知无线电中合作频谱共享讨论的比较多的是议价博弈和联盟博弈,但本研究引入了多智能体强化学习的方法来讨论无线传感器网络功率控制,实现一个无线传感器网络在功率控制情形全局频谱奖励最大化。
(1)
其中,Aku是信道增益。
如果在一个时间段上讨论每个用户群的发送功率问题。在完全竞争的时候,由于每个用户群都想使得自己得收益最大化,最终每个用户群都会用自己得最大发送功率来发送。这样造成信道之间干扰很大。一个无线传感器网络常常是一个机构部署的,这样就给合作带来了可能。本文不考虑一个用户群收益最大化,而是考虑无线传感器网络收益全局最大化。
本文考虑一个由n个节点构成的无线传感器网络(用N={0,1,…,n-1}表示),共用开放频段,是一个随时间变化得通信网络,节点之间得通信过程可用上面的邻接矩阵Dt来表示。我们把时间划分成一个个时隙,整个通信看成是一个马尔可夫决策过程。此时MDP是一个四元组:。其中S为全局状态的集合,可由邻接矩阵Dt决定。A=P1×P2×…×Pn,Pi为节点i所在用户群的功率。R=R1×R2×…×Rn,Rj为节点j的回报函数,可用(1)式来计算。假设状态和功率的选择是全局性的,而回报只能在局部观察到。
(2)
T是终点。
为实现目标,我们使用了文献[3]中的完全去中心化MARL方法。在文献[3]中使用了actor-critic算法,并且得到了下面的梯度公式。
定理[3](MARL的策略梯度定理)对于任何θ∈Θ,πθ:S×A→[0,1]是策略,让J(θ)是在(2)中定义全局长期平均回报。qθ和Aθ行为价值函数和优势函数。定义了局部优势函数:
(3)
(4)
则J(θ)的策略梯度可写为:
ΔθjJ(θ)=Es~pθ,a~πθ[ΔθjlogπjQj(s,aj)*qθ(s,a)]
=Es~pθ,a~πθ[ΔθjlogπjQj(s,aj)*Iθ(s,a)]
(5)
在actor-critic 算法中,critic算法如下:
(6)
(7)
(8)
(9)
在actor-critic算法中,actor 算法如下:
(10)
(11)
(12)
根据上面的分析,给出算法如下:
Repeat:
for j∈{0,1,…,n-1} do
end for
Forj∈{0,1,…,n-1} do
end for
forj∈{0,1,…,n-1} do
end for
t←t+1。
一直到满足条件。
上面的计算中需要输出下一个时间步的功率pt+1,这会降低去中心化训练的效率。能不能只是用(st,pt,st+1)来更新参数?是可以的。事实上,可以用状态值的TD-error来估计优势函数[3]:
这样,需要估计J(θ)和Vθ。与前面的算法相似,每个节点的维护共享本地参数ut、wt,更新参数:
(13)
(14)
(15)
(16)
上面的优化问题与下式等价:
这两式子的关系导致了为最小化目标(16)参数κt的更新如下:
(17)
(17),(13),(14)和(15)构成critic网络的更新步。
acror网络的更新步变为:
(18)
综上所述,一共有三部分参数需要满足一致性约束,和前面的算法相比多了两部分参数。与上面的算法类似,基于状态值函数的TD-error算法的在线实现要求每个节点的空间复杂度为O(N+nj+L+F),在N很大的情况,大大降低了空间复杂度。具体算法与参考文献[3]算法2类似,此处不再赘述。
为了使无线传感器网络能充分利用频谱资源,我们在无线传感器网络中引入了认知无线电的功能,同时利用了多智能提深度学习中的完全去中心化MARL算法来对无线传感器的节点的无线传输功率进行控制来充分地利用频谱资源,通过一些参数化函数来近似策略和值函数,结合去中心化的网络框架和函数拟合值函数[4],使得算法非常适合大规模的节点情,而且算法是分布式的,不需要集中控制,故适合大规模无线传感器网络。但在无线传感器中引入认知无线电和深度强化学习功能对无线传感器网络的软硬件都提出了要求,增加了节点的成本。