衰减信道下具有严格时延的P2P实时通信传输策略

2023-01-19 03:54田世坤唐胜达
关键词:数据包信道调度

田世坤,唐胜达

(广西师范大学 数学与统计学院,广西 桂林 541006)

无线网络发展的主要方向是宽带数据通信和数据实时交互,互联网和蜂窝通信的增加,对高速通信链接的需求也日益增多[1-2]。网络信息时代的高速发展,导致网络信息种类越来越来复杂,网络安全性挑战亦不容乐观[3]。数据交互的爆炸式增长为基站的宏观调控带来巨大挑战。为解决通信调度相关问题,学者们做了很多努力,相关可用技术包括数字用户线路转换(DSL)[4]、点对点(P2P)无线通信[5-6]、电缆混合系统[7-8]以及卫星链路[9-10]等。由于低成本、易实现、高安全性,P2P通信已变得越来越普及。

P2P无线通信使得网络上的沟通、共享和交互变得更容易、更直接。在P2P无线通信中,利用信道状态信息(CSI)对网络进行跨层优化,并提高信道利用率是无线通信优化的一个重要问题。近年来,电信工程中基于P2P无线通信网络的研究有很大发展,例如,针对长距离P2P链路,文献[11]提出一种满足远程点对点密集波分多路复用(DWDM)链路需求的网络设计方法,降低P2P无线通信的错误率和Q-Factor;在技术应用上,文献[12]提出一种基于CSI的物联网设备的身份认证机制,在衰落信道下考虑数据的实时传输;文献[13]研究在CSI无法观测时的P2P无线传输问题,将调度模型建模为部分可观测的MDP(POMDP)进行研究;文献[14]考虑D2D通信调度问题,研究在随机数据包到达、数据包丢失和异构截止日期等制约下的实时通信策略;基于有限状态的Markov信道模型及ARQ重传协议,文献[15]考虑数据包从用户到基站的实时传输策略,给出了传输策略的阈值结构。

本文提出衰减信道下P2P实时通信模型,与上述文献相比,本文的主要贡献如下:1)提出P2P实时通信模型,具体地,在系统模型中加入CSI,弥补了文献[14]对于CSI相关影响的忽略。考虑CSI对于P2P实时通信系统的影响,将无线传输系统建模为一个有限状态的Markov决策过程(FSMDP)。2)引入拉格朗日数乘因子,基于RBP理论证明无线调度问题的可索引性,为设计衰减信道下P2P基于Whittle索引的实时传输策略提供理论支持。3)基于衰减信道下P2P实时通信系统,给出P2P的实时通信Whittle索引传输策略的封闭表达式,推广了文献[15]最优传输调度策略阈值结构的阈值表达式。

本文其余部分结构如下:第1章描述实时P2P通信模型;第2章构建调度问题的MDP模型;第3章证明P2P实时通信系统的可索引性,并给出Whittle索引封闭解;第4章给出算法分析以及仿真结果;第5章是结语。

1 模型和问题

本文主要考虑衰落信道下P2P实时通信的传输调度问题,下面给出P2P实时通信模型。

1.1 模型

考虑离散时间的通信系统,将时间划分为大小相等的时隙,将时隙集合记为H={0,1,2,…}。由于阴影、多路径传播、多用户干扰和移动性等影响,无线通信信道通常是相关衰落的,类似文献[16-19],设衰减信道模型为X={Xt,t∈H},将衰减信道状态分为M个不重叠区间,每个区间都映射为一个信道状态,记信道状态空间为Γ={γ1,γ2,…,γM},其中M<+∞。假设每个时隙间信道状态不发生改变,不同时隙间信道状态可以发生变化。设信道状态转移概率矩阵为Pc=[pc(γn|γm)]M×M,其中,pc(γn|γm)表示信道状态从γm转移到γn的概率,即

pc(γn|γm)=P(Xt+1=γn|Xt=γm),γm,γn∈Γ。

称X为Markov衰减信道模型,其中,转移概率矩阵可通过观测拟合得到。

本文考虑P2P实时通信,系统将需要传输的数据存储在缓存器中,由发射器在严格时延要求下发送给接收端。在最大容忍时延内,发射器必须完成数据传输,否则将强制结束该数据传输任务,即丢包。设发射端的传输任务(数据)大小为L,最大容忍时延为N, 即发射端需要在N个时隙内完成L个数据包的传输,超过时延的数据包因延时而被丢失。本文假定传输任务中的数据包大小给定,且每个时隙内至多只能发射一个数据包。

如图1所示,在每个时隙内,系统根据当前状态确定是否传输数据包,当系统决定传输数据包时,发射端则将数据包发送给用户。数据包传输受信道状态影响,设p(γm)表示信道状态为γm时数据包传输成功的概率,若传输失败,数据包可允许重传。当N个传输时隙结束时,仍在缓冲区中等待传输的数据包被丢弃,同时,新的传输任务以一定概率到达发射端并开始传输。设Q为新的传输任务到达发射端的概率,不失一般性,设每个到达的传输任务都具有相同的大小和时延。

图1 P2P传输模型Fig. 1 P2P transmission model

在时刻t,记当前正在传输的任务中剩余数据包个数为Bt∈{0,1,…,L},剩余传输时间为Tt∈{0,1,…,N},记st=(Xt,Tt,Bt)为系统t时刻的状态,称为衰减信道下传输任务随机到达的实时P2P通信模型,st为系统在t∈H时刻的状态。本文P2P通信模型是对文献[14]中模型的推广。

S={st,t∈H}

(1)

1.2 问题描述

设at表示在时刻t系统采取的动作,具体地,at=1表示在时刻t发射器传输数据包,at=0表示在时刻t发射器不传输数据包。记A={0,1},称A为系统的动作空间。设每个数据包传输成功时系统可获得收益r>0,否则收益为0。设时刻t信道状态为Xt=γm时的传输成本为c(γm)。对P2P通信模型(1),设g={at(st)|at(st)∈A,st∈S,t∈H}为系统采取的传输策略,用R(st,at)表示在时刻t系统获得的收益,则系统在策略g下的贴现总期望收益为

Vg(st)=

(2)

式中:β∈(0,1)表示贴现因子;[·|st]表示初始状态为st时的条件期望。

(3a)

BtI{Tt-=0}=0,

(3b)

则称g*为系统的最优传输策略,其中,I{·}表示示性函数。约束条件(3b)表示在传输时间截止时刻,传输任务中未传数据包个数为0,即在传输截止时刻,系统需完成所有数据包的传输。

本文主要目标是求最优传输策略g*,使得系统在满足时延约束条件(3b)下,贴现总期望收益(2)最大。

2 调度问题的MDP框架

本章将P2P通信的传输调度问题在MDP构架内重构,同时基于MDP理论给出相应最优传输策略和最大贴现总期望收益算法。

为了在MDP框架下讨论P2P通信问题,首先要将带约束条件(3b)的传输调度问题转换成无约束条件的Markov决策问题。本文采用文献[20]的思想,引入惩罚函数,当任务在给定传输时间内完成时,设惩罚函数为0,而当任务没有在设定的时限内完成时,则系统会得到一个很大惩罚(负收益)。为了获得最大收益,系统将规避那些无法在给定时间内完成传输任务的传输策略,从而保证时延约束条件(3b) 成立。基于这一思想,本文分别从状态空间、动作空间、转移概率及收益函数来重构MDP。

① 状态空间: S={st=(Xt,Tt,Bt),t∈H}。

② 动作空间: A={0,1}。

③ 转移概率: 记P(st+1|st,at)表示采用动作at时,系统状态从st转移到st+1的概率。设当前系统状态st=(Xt,Tt,Bt),其中Xt=γm。考虑如下3种情形:

a)当动作at=1,Tt>1时,设Xt+1=γn,∀γn∈Γ,系统状态转移到st+1=(Xt+1,Tt-1,(Bt-at)+)的概率为pc(γn|γm)p(γm),即数据包传输成功的概率,其中,(x)+=max{0,x};系统状态转移到st+1=(Xt+1,Tt-1,Bt)的概率为pc(γn|γm)(1-p(γm)),即数据包传输不成功的概率。

b)当动作at=0,Tt>1时,则状态以概率pc(γn|γm)转移到st+1=(Xt+1,Tt-1,Bt)。

c)当Tt<1时,数据包不论传输是否完成都会被丢包,即系统以概率Q进入状态(N,L),以(1-Q)进入状态(0,0)。

④ 收益函数:引入惩罚函数f(b),其中b为截止时刻剩余数据包的个数,当b=0时,令f(0)=0,当b≠0时,令f(b)是b的递增凹函数,即剩余数据包越多,产生的惩罚越大,则系统收益Rt(st,at)为

于是,具有约束条件的P2P 通信调度问题转换成了无约束条件的无限时间的贴现MDP模型。V(st)满足如下Bellman方程基于MDP理论可知式(4)存在最优平稳传输策略[21],利用策略迭代(PI)、值迭代(VI)等算法可求解最优策略及最大期望总收益。

(4)

本文研究的P2P实时无线传输模型的状态空间为|S|=|Γ||N||L|,传输任务的增大,或传输任务最大容忍时延的增大,将导致系统状态空间呈指数增长,从而导致求解过程中需要极大计算力和计算时间,这意味着MDP模型遭受了维数灾难。显然在状态空间很大的模型中,值迭代或策略迭代算法的计算难度很大,求解最优策略的成本高。

针对上述问题,本文引入拉格朗日数乘因子,将MDP模型转化为RBP模型,并证明RBP模型的可索引性,进而得出P2P实时通信系统的Whittle索引的封闭表达式,并给出一种时间复杂度低的基于Whittle索引的调度算法。基于Whittle索引的调度算法可以在极少计算成本下得到P2P实时通信系统的调度策略。

3 调度问题的RBP框架

本章基于RBP框架求解近似最优传输策略。

3.1 基于Whittle索引的RBP框架

记Rw(st,at)=R(st,at)+wI{at=0},称Rw为w-补贴收益函数,w为引入的拉格朗日数乘因子,可理解为采取动作0时系统得到的额外补贴。

基于w-补贴收益的最大贴现总期望收益函数Vw(st)可表示为

(5)

为方便表述,给定st∈S ,记

定义2[23]给定状态st∈S ,记w*(st)=inf{w|J0(st)≥J1(st)},称w*(st)是状态st的Whittle索引。

定义3[23]若Πw关于w递增,即对于任意w1、w2∈R,当w1≤w2时,有Πw1⊆Πw2,则称P2P实时通信系统具有可索引性。

3.2 基于Whittle索引的调度策略

对任意st=(xt,Tt,Bt)∈S ,令

J(st)=J0(st)-J1(st)。

(6)

显然,当w=-∞时,J(st)=J(xt,Tt,Bt)=-∞;当w=+∞时,J(st)=+∞。注意到J(st)关于w的连续性,则存在w,使得J(st)=0。因此,证明状态st的Whittle索引唯一存在性,即证方程(6)零解的唯一存在性。

类似文献[15]中定理1和定理2的证明,可得如下引理1。引理1描述了w*(st)的单调性。

引理1若状态st=(Xt,Tt,Bt)∈S ,其中,Xt=γm∈Γ,存在Whittle索引w*(st),则

①w*(st)关于Tt非增;

②w*(st)关于Bt非减。

引理2给定状态st=(Xt,Tt,Bt)∈S ,其中,Xt=γm∈Γ,则

① 当Tt=0时,状态st的Whittle索引存在;

② 当Tt≠0,Bt=0时,状态st的Whittle索引存在;

③ 当Tt=1时,状态st的Whittle索引存在。

证明先证明①。当Tt=0时,必有Bt=0时, 此时

Vw(Xt,0,0)=max{w+βUw,-c(γm)+βUw},

式中Uw=[QVw(Xt+1,N,L)+(1-Q)Vw(Xt+1,0,0)]。故J(Xt,0,0)=w+c(γm),从而

w*(Xt,0,0)=-c(γm)。

(7)

再证明②。当st=(Xt,k,0)时,类似①的证明,有

w*(Xt,k,0)=-c(γm)。

(8)

最后证明③。当Tt=1时,分如下2种情况讨论:

a)当Bt=0时,同①可得

w*(Xt,1,0)=-c(γm)。

(9)

b)当Bt≠0时,有J(Xt,1,Bt)=w-rp(γm)+c(γm)+p(γm)f(Bt-1)-p(γm)f(Bt),从而

w*(Xt,1,Bt)=rp(γm)-c(γm)-p(γm)f(Bt-1)+p(γm)f(Bt)。

(10)

于是Tt=1时命题得证。综上,引理得证。

引理3若状态st=(Xt,Tt,Bt)∈S ,Xt=γm∈Γ存在Whittle索引w*(st),其中,Tt≥2,令

g(st)=Vw(Xt,Tt,Bt+1)-Vw(Xt,Tt,Bt),

(11)

证明当Bt=0时,由引理2,命题显然成立。

当Bt≥1时,有

J(Xt,Tt,Bt)=w-rp(γm)+c(γm)+βp(γm)[g(Xt+1,Tt-1,Bt-1)]。

对J(xt,Tt,Bt)关于w求导,有

又因(Xt,Tt,Bt)存在Whittle索引,故引理得证。

下面给出本文的第1个主要结论(定理1)。

定理1基于RBP框架的P2P传输问题存在Whittle索引。

证明本定理即证任意给定状态st=(Xt,Tt,Bt)∈S ,Xt=γm∈Γ,存在Whittle索引w*(st)。下面用数学归纳法证明。

由引理2知,当Tt=0,1时,命题成立。

假设Tt=k时命题成立,由引理3,有

(12)

下面证明当Tt=k+1时,w*(st)存在。

当Bt=0时,由J(Xt,k+1,0)=w+c(γm),可得w*(Xt,k+1,0)=-c(γm)。

当Bt≥1时,J(Xt,k+1,Bt)=w-rp(γm)+c(γm)+βp(γm)[g(Xt+1,k,Bt-1)],由式(12),得

故当Tt=k+1时,w*(st)存在。综上,对于任意st∈S 都存在Whittle索引。命题得证。

下面给出本文的第2个主要结论(定理2),该结论给出各个状态Whittle索引的封闭表达式。

定理2系统状态st=(Xt,Tt,Bt)∈S 的Whittle索引可表示为

(13)

式中:

同时,对∀γn∈Γ,有ρ=[p(γn)],ζ=[c(γn)]。

证明式(13)前2式由式(7)~(10)可得,接下来只需证明式(13)中第3式,即Tt>1,Bt≠0时状态st的Whittle索引表达式。

由引理1,当Bt=0时,有w*(Xt,Tt,1)≥w≥w*(Xt,Tt,0)=-c(γm),

g(Xt,Tt,0)=rp(γm)-c(γm)+β(1-p(γm))[g(Xt+1,Tt-1,0)]-w。

(14)

当Bt≠0时,有w*(Xt,Tt,Bt+1)≥w≥w*(Xt,Tt,Bt),以及

g(Xt,Tt,Bt)=rp(γm)-c(γm)+β(1-p(γm))[g(Xt+1,Tt-1,Bt)]-w。

(15)

由此可得

g(Xt,1,0)=rp(γm)-c(γm)-(1-p(γm))δ(0)-w,

(16)

g(Xt,1,Bt)=rp(γm)-c(γm)-(1-p(γm))δ(Bt)-w。

(17)

1)当Tt>1,Bt=1时

J(Xt,Tt,1)=w-rp(γm)+c(γm)+βp(γm)[g(Xt+1,Tt-1,0)],

(18)

对∀γn,γn′,…,γnTt-3∈Γ,将式(14)代入式(18)进行Tt-1次替换可得

J(Xt,Tt,1)=w-rp(γm)+c(γm)+βp(γm)[rp(γn)-c(γn)+β(1-p(γn))[rp(γn′)-c(γn′)+…+

β(1-p(γnTt-3))[g(Xt+Tt-1,1,0)]-w]…-w]-w],

代入式(16),并取J(xt,Tt,Bt)=0即可得到定理2。

2)当Tt>1,Bt>1时

J(Xt,Tt,Bt)=w-rp(γm)+c(γm)+βp(γm)[g(Xt+1,Tt-1,Bt-1)]。

(19)

将式(15)代入式(19)进行Tt-1次替换可得

β(1-p(γnTt-3))[g(Xt+Tt-1,1,Bt-1)]-w]…-w]-w],

代入式(17),并取J(Xt,Tt,Bt)=0即可得到定理2。命题得证。

注在P2P实时通信的MDP模型中,w=0。由定理2可计算出所有状态所对应的Whittle索引w*(st),并由此得到基于Whittle索引的调度算法,具体地,当w*(st)>0时,采取动作at=1;否则采取动作at=0。

4 数值模拟

4.1 数值设置

设信道状态空间为Γ={1,2,3},分别表示差、一般、好3种情况,对应的成功传输概率为P=[0.45,0.7,0.85]。设信道状态具有平稳分布Pc=[0.2,0.5,0.3]。对任意信道状态γm∈Γ,令数据包的发送成本函数为:c(γm)=2/γm,贴现因子β=0.85。假设传输任务的大小为L=5,传输任务的最大容忍时延N=10。成功传输一个数据包的收益为r=3,剩余数据包对应的惩罚函数为f(b)=b2I{b≠0}。

4.2 仿真结果及分析

表1给出3个信道状态、不同剩余数据包个数下,剩余传输时间不同时对应状态所采取的动作,其中(a,b,c)这3个分量分别对应3个信道状态下的策略。由表1所给出的策略可以得到最大贴现总收益。图2为基于Whittle索引实时传输算法和基于VI算法的最大贴现总收益的对比。通过对比可以看出,在信道状态较差时,基于Whittle索引的最优调度算法的最大贴现总收益与值迭代算法(VI)相比有些不足,信道状态一般或较好的情况下与值迭代算法相等,由此可得基于Whittle索引的最优调度算法的最大贴现总收益近似于最优。通过仿真实验可得,基于Whittle索引实时传输策略的计算成本是VI算法的0.585 8。同时,由图2可见,通过Whittle索引得到的调度策略与最优调度策略几乎没有区别。

表1 基于Whittle索引的最优调度策略下所有系统状态的动作Tab. 1 Actions of all system states under the optimal scheduling policy based on Whittle index

图2 值迭代算法与基于Whittle索引的最优调度算法的最大贴现总收益Fig. 2 Maximum discounted total return of value iterative algorithm and the Whittle indexbased scheduling algorithm

5 结语

本文研究在分组随机到达、严格时延等约束时衰减信道下P2P的实时通信问题。引入拉格朗日数乘因子将P2P实时传输调度模型建模为RBP模型,证明P2P实时传输调度问题的可索引性,并给出基于Whittle索引的实时传输策略,极大减少了求解最优策略的计算成本。在多用户通信系统中,随着用户状态的增多,状态空间呈指数形式增长,因此,本文提出的传输模型以及处理方式,可以进一步推广到多用户P2P实时传输调度问题中,在多用户情况下仍然有运用价值。

猜你喜欢
数据包信道调度
二维隐蔽时间信道构建的研究*
信号/数据处理数字信道接收机中同时双信道选择与处理方法
民用飞机飞行模拟机数据包试飞任务优化结合方法研究
《调度集中系统(CTC)/列车调度指挥系统(TDCS)维护手册》正式出版
电力调度自动化中UPS电源的应用探讨
基于强化学习的时间触发通信调度方法
C#串口高效可靠的接收方案设计
CTC调度集中与计算机联锁通信接口的分析
一种无人机数据链信道选择和功率控制方法
基于导频的OFDM信道估计技术