黄锦灏,江东华,丁钰真,肖 亮*,范业仙,陈建成
(1.厦门大学信息科学与技术学院,福建 厦门 361005;2.宁德师范学院信息与机电工程学院,福建 宁德 352100;3.厦门盈趣科技股份有限公司,福建 厦门 361006)
物联网技术被广泛应用于医疗保健[1]、智能交通[2]、环境检测[3]等领域,其视频压缩编码和传输方案决定了物联网设备的能量损耗、视频传输质量和用户的网络体验[4].随着第五代移动通信技术[5]和边缘计算[6]的发展,物联网用户广泛关注传输的安全性[7]、隐私性[8]、用户体验度和物联网设备的电池寿命[9].同时,H.264等视频编码标准虽可改善视频的压缩比和对信道的适应性[10],但却增加了传输能耗[11]和要求更短的视频传输时延[12].因此,如何优化物联网设备的视频编码方案,综合提高视频质量、降低设备能耗和时延,成为物联网技术发展的关键问题之一.
能量采集技术通过采集装置将射频信号等环境能量转化为电能,提高了网络设备的电池使用寿命[13].例如,物联网设备根据当前电量水平和能量采集效率优化中继选择以降低成本[14]或者在任务调度中优化采集能量的分配可以执行更多的任务[15].目前,物联网设备基于已知的视频传输模型和无线信道模型等信息来优化视频压缩编码的量化参数[16]和编码码率[17],从而提高视频传输质量.然而,能量采集物联网设备在动态的网络环境中难以精确预估上述信息并据此来优化视频质量.物联网设备应用强化学习技术可以在动态博弈中优化其策略,提高设备的传输质量等效益.例如,物联网设备采用强化学习为用户不同的需求分配缓存资源,不需要预知网络模型即可提高用户的体验质量[18];物联网医疗设备采用强化学习选择感知数据的上传策略,从而保证用户传输模型的隐私[1].
因此,本文中提出了一种基于强化学习的能量采集物联网设备视频编码参数选择方案.该技术选择视频压缩的编码码率和量化参数,将其卸载至边缘设备进行数据处理,旨在提高视频质量,降低计算和传输的能量损耗和时延,并应用能量采集技术对物联网设备补给能量来延长电池寿命.该过程可建模为马尔可夫决策过程,物联网设备根据边缘设备反馈的视频质量和时延,以及当前的无线信道带宽、设备电能和采集的能量等信息,利用强化学习算法动态优化视频编码码率和量化参数.该方案不需要预知视频传输模型和能量采集模型,通过试错来改善视频质量、设备能耗和传输时延等视频传输性能.
考虑一个能量采集物联网视频传输系统由物联网设备和边缘设备组成.物联网设备首先选择合适的视频编码码率和量化参数对视频进行编码,然后将编码后视频传输给边缘设备,最后获得边缘设备反馈的视频质量和时延.在这个过程中应用能量采集技术来对物联网设备提供能量,提高物联网设备完成视频传输任务的概率.
图1 能量采集物联网视频传输模型Fig.1 Video transmission model for IoT devices with energy harvesting
视频编码传输过程主要考虑视频质量、能量损耗和时延.视频质量q(k)包含了视频的压缩质量η(k)和传输质量ν(k),即q(k)=η(k)+ν(k).压缩质量η(k)通过编码后视频的峰值信噪比(peak signal-to- noise ratio, PSNR)来衡量.PSNR是一种常用的客观视频质量评价指标,值越大表示视频质量越高.传输质量ν(k)使用信噪比(signal-to-noise ratio, SNR)来进行衡量.视频传输过程中的能量损耗E(k)会影响物联网设备的电能和任务完成情况.为了避免电量不足导致的任务失败,物联网设备利用能量采集技术进行自产能.
视频传输的时延ω(k)包括排队时延、处理时延、传输时延和传播时延4个部分,根据文献[19],视频传输过程所需带宽不会超过系统总有效带宽,并且实验证明排队时延不会影响视频传输质量,而传播时延和其他部分相比较小,所以在本方案中不考虑将排队时延和传播时延作为优化目标,只关注处理时延(即视频压缩编码时间)和传输时延这两个部分.
根据视频编码传输过程中的q(k)、E(k)、ω(k)和任务失败的额外损耗评估物联网设备的效益u(k),定义单位能量损耗σ、单位时延τ、额外损耗系数γ,则有
u(k)=q(k)-σE(k)-τω(k)-γφ(b(k)-
E(k)+ρ(k)<0).
(1)
其中,φ为指示函数,表示当b(k)-E(k)+ρ(k)<0时物联网设备传输任务失败需要付出的额外损耗.另外,Q函数Q(s(k),x(k))根据当前动作状态对(s(k),x(k))、当前时刻的效益u(k)和下一时刻的值函数V(s(k+1))使用学习速率α和折扣因子δ进行更新,其中学习速率α∈(0,1],折扣因子δ∈(0,1].
基于强化学习的能量采集物联网设备的视频编码参数选择技术的算法步骤如下:
1) 初始化强化学习的参数:学习速率α,折扣因子δ,初始状态s(0),Q函数Q(s(0),x(0))=0和值函数V(s)(1)=0.
2) 根据强化学习对Q,V进行迭代运算.
a) 接收边缘设备反馈的上一时刻视频质量q(k-1)和时延ω(k-1);
b) 观测自身电能b(k)、传输信道带宽B(k)、信道特征g(k)和采集的能量ρ(k);
c) 构建当前时刻的系统状态s(k)=[ρ(k),b(k),B(k),g(k),q(k-1),ω(k-1)];
f) 传输编码后的视频到边缘设备;
g) 观测能量损耗E(k)和下一时刻电能b(k+1);
h) 根据公式(5)评估物联网设备的效益u(k);
i) 根据Q(s(k),x(k))←(1-α)Q(s(k),x(k))+α(u(k)+δV(s(k+1)))更新Q函数Q(s(k),x(k));
j) 根据V(s(k))=maxQ(s(k),x(k))更新值函数V(s(k));
3) 当k=K时停止迭代运算.
(2)
(3)
(4)
其中,视频传输时间t为300 ms,根据文献[25],视频传输所需时延为:
其中,系统模型参数w1为0.01,w2为-1.37,w3为 8.3.视频传输的比特数NB为128 bit.在本文算法中,设置α为0.7,δ为0.8.式(1)中的单位能量损耗系数σ为1,单位时延系数τ为8,额外损耗系数γ为200.为了评估本文算法的性能,对比了文献[26]提出的基于拉格朗日乘子(lagrange multiplier, LM)、忽略无线信道衰落的强化学习(Q-learning)和考虑无线信道衰落的强化学习(Q-leaning-shudow)3种方法的视频质量、物联网设备的效益、能量损耗和时延.
从图2可看出,无线信道衰落对本文强化学习方法的影响不大.忽略无线信道衰落时,相较于基于LM的方案,本文中提出的基于强化学习的能量采集物联网设备的视频编码方案能够使传输的视频质量从33.8 dB 上升到34.9 dB,并在3 s时达到收敛,相较于基于LM的方案,本文中提出的方案能使传输的视频质量提高29.2%(图2(a)).使物联网设备的效益从-1 000 上升到300,并在3 s时达到收敛,与基于LM的方案相比,能使物联网设备的效益提高13倍(图2(b));能量损耗从1.65 J下降到1.40 J,并在3 s时达到收敛,相较于基于LM的方案,本文中提出的方案能使物联网设备的能量损耗下降13.3%;能使物联网设备的时延从1.60 s下降到1.20 s,并在 3 s 时达到收敛,与基于LM的方案相比,能使视频传输所需时延下降25%(图2(d)).
综上所述,本文中所提基于强化学习的能量采集物联网设备的视频编码方案性能明显优于基于LM的方案,即能够更有效地提高视频质量和物联网设备的效益,并且降低能量损耗和时延.
本文中提出了一种基于强化学习的能量采集物联网设备的视频编码技术,物联网设备通过采集外界能量并转化为自身电量来抵消部分能量损耗,并利用强化学习技术进行视频编码参数选择,根据传输信道带宽、电能、上一时刻视频质量等系统状态动态选择视频编码码率和量化参数,提高视频传输性能.仿真结果表明,本文中提出的方案比基于LM的方案能更有效地提高视频质量和物联网设备的效益,并且降低物联网设备的能量损耗和时延.