基于卷积神经网络的视频软广播

2019-12-05 08:35尹文斌范晓鹏

智能计算机与应用 2019年5期

尹文斌范晓鹏

摘要：随着信息技术和互联网技术的不断发展，无线视频广播越来越受到人们的欢迎，成为流行的多媒体应用之一。然而，传统的数字编码和传输方法很难适应于向多个具有不同信道质量的用户同时发送视频的场景，通常会遭遇悬崖效应。近期，一种新颖的无线视频广播方法称为SoftCast被提出，其保存在信道中传输的信号与视频像素值之间所具有线性关系并利用有效的能量分配方法，使得视频重构质量随着信道噪声的增加而平缓下降。在本文中，提出了一种新型的无线视频广播方法，其利用深度卷积网络和基于图像组的稀疏表示模型，通过解码端估计的信道质量，优化视频的解码过程并减轻多种由信源编码和信道噪声造成的视觉失真。通过视频软传输技术，本文提出的方法具有出色的视频广播质量可伸缩性并避免了悬崖效應的发生，同时还能提供视觉友好的主客观重构质量。实验结果表明，本文提出的方法在视频广播场景下能够获得优于传统SoftCast最高1.2 dB的重建质量。

关键词：无线视频广播; 卷积神经网络; 基于图像组的稀疏表示; 视频软广播

【Abstract】 With the continuous development of information technology and Internet technology， video broadcasting is becoming more and more popular in wireless networks. However， the existing digital coding and transmission approaches can hardly accommodate users with diverse channel conditions， which is called the cliff effect. Recently， a novel video broadcasting method called SoftCast has been proposed. It achieves graceful degradation with increasing noise by making the magnitude of the transmitted signal proportional to the pixel value and using a novel power allocation scheme. This paper proposes a novel video broadcast method that exploits deep convolutional networks and group based sparse representation. They utilize the channel condition information generated from decoder to optimize the decoding process and reduce the various artifacts caused by source and channel coding. By utilizing soft video broadcast transmission， it achieves good broadcasting performance， avoids the cliff effect， and also can provide visually friendly subjective and objective reconstruction quality. The experimental results show that the proposed scheme provides better performance compared with the traditional SoftCast with up to 1.2 dB coding gain.

【Key words】 wireless video broadcasting; Convolutional Neural Networks; group based sparse representation; soft video broadcast

0 引言

随着科技的不断发展，人们开始更多地使用图片或者视频来交流和分享信息。在无线通信技术进步的推动下，关于无线视频广播技术研究已然成为当前学界热点，其研发成果也在陆续涌现。与此同时，3G、4G技术的逐渐应用和近年来智能手机与平板电脑的处理能力越来越强而且日趋普及，人们也越来越青睐使用这些移动终端来观看视频，因为这样做更方便、更智能、也更快捷。

传统数字视频广播标准[1]中主要包含2部分。一部分是分层传输方法[2-3]，另一部分则是可伸缩视频编码技术（SVC）[4-5]。其中，可伸缩编码技术是指编码端将视频信号编码为一个基本层（BL）和多个增强层（EL）。分层调制（HM）[6]可用于将基本层和增强层的比特流叠加到一个需要传输的无线信号中，如此一来也就实现了同一编码端对于信道质量不同的用户进行视频广播的目的。传统伪模拟传输应用Softcast[7-8]软广播技术的主要贡献是将所要传输的信号的线性变换直接在模拟信道上进行传输，这些信号只需要执行能量分配而不需要进行量化、编码和调制。因此信道噪声也就直接转化为了重构噪声，具有质量可伸缩性。为了缓解块效应，学者们提出了很多去块效应的后处理方案，大体上可分为2类[9-10]，即：基于图像增强的去块效应方法和基于图像恢复的去块效应方法。总地来说，对于图像增强类的方法，其基本思路是将去块效应视为一种图像增强过程，通过在空域和频域进行滤波来平滑可见的失真效应。对于图像复原类的方法，去块效应通常被表述为一个病态图像优化问题并利用一些图像先验知识和观测数据进行求解。全变差[11]、基于块的稀疏表示[12-14]以及马尔科夫随机场（MRF）均被作为图像先验模型用于寻找原始图像的MAP估计。在各类研究中，文献[15]将量化失真作为高斯噪声，使用FoE作为图像先验来建立图像去块效应最优化问题。深度神经网络在图像处理、视频分析、自然语义理解等方面取得了可观进展。深度神经网络是一种多层的神经网络，通过网络学习，从原始数据中提取不同层级的抽象信息。这种方法自然地体现了底层视觉特征到高层语义特征的演变。使用深度学习方法可以自适应地捕获到目标的多层次表示特征，相比于人工设计的特征，通常有着更好的应用性能。以图像去噪为例，文献[16]提出了一种基于卷积神经网络的图像去噪方法并证明卷积神经网络具有对马尔科夫随机场相近、甚至更高的表达能力。文献[17]成功地将多层感知器应用于图像去噪问题。文献[18]利用稀疏去噪自编码器来处理高斯噪声去除问题，并取得了与K-SVD相近的结果。文献[19]中，提出了一个可训练的非线性映射传递模型，而且可以通过一个前馈神经网络得以实现。

1 提出的基于卷积神经网络的无线视频广播方案

时下，无线视频广播面临3个主要问题就是可伸缩性、鲁棒性和重建视频质量。传统的SoftCast无线视频广播系统虽然能够避免悬崖效应的发生，但是由于其采用基于块的编码方式且信道噪声直接叠加在传输信号上，所以其重构视频中不可避免地含有编码失真和传输失真，极大地降低了重构视频的主客观质量，因此如何去除编码与传输失真是亟待解决的研究课题。针对图像复原问题，稀疏表示理论利用先验知识和重构图像进行稀疏表示优化求解;深度网络模型可以通过强大的特征提取能力对自然图像的深层次特征进行学习，提取降质图像中的有效信息。根据稀疏表示理论，本文拟利用视频帧的局部稀疏性和非局部自相似性，通过基于组的稀疏表示模型减轻信重构视频中的编码失真。基于深度神经网络特性，利用卷积神经网络对视频帧进行紧致而高效的表达，从而区分重构帧中的信道噪声与有效视频信息，以便于提升重构帧质量。实验结果表明，本文提出的方案不仅具有良好的视频广播可伸缩性，还能提供视觉友好的主客观重构质量。

1.1 编码框架

基于卷积神经网络的无线视频广播框架如图1所示。本文提出的基于深度神经网络的无线视频传输方案的编码框架主要包含：视频压缩、视频软传输、基于图像组的稀疏表示以及深度卷积网络。

在编码端，通过BDCT （Block based DCT）去除视频帧中的冗余，对视频进行压缩处理。利用对视频的频域系数的伸缩来最小化信号在信道传输中的总体失真。编码后的信号直接经过稠密的64K-QAM星座图发送给具有不同信道质量的多个用户。传统的数字视频传输方案中，悬崖效应严重影响了各用户的解码体验。在本文提出的方案中，通过软传输的方式直接将编码后的信号发送给客户端，为用户提供具有良好的視频质量可伸缩性。在解码端，其利用LLSE对接收到的信号进行解码。基于图像组的稀疏表示模型能够同时利用视频帧的局部稀疏性和非局部自相似性，本文利用基于图像组的稀疏表示模型降低由BDCT编码所造成的块效应。由于深度神经网络可以通过学习的方式提取不同程度的信道噪声特征，在获得具有平滑属性的解码视频帧后，本文利用卷积神经网络优化由软传输中信道噪声引起的失真。

1.2 基于块的变换

由于视频帧内通常具有较强的空域相关性，本文的方法利用这一性质，通过BDCT变换的方式对视频帧内信息进行紧致表达。传统的视频编码方法需要已知信道条件，根据信道条件选择码率并对频域系数进行量化。这类的量化方案会迫使所有的用户观看质量一致的解码视频。

本文提出的方案将视频帧划分为图像块，再利用BDCT变换将视频帧由空域转换到频域。通常来说，DCT系数具有能量集中的特性，也就是具有较高重要性的低频系数集中的变换系数矩阵的左上角，而具有较低重要性的高频系数集中在系数矩阵的右下角，数值通常是接近或等于零。由于高频DCT系数对于视频帧内信息的影响较轻微，所以采用丢弃DCT系数中的零值的方式对视频数据进行压缩。当带宽受限时，本文的方案会根据DCT系数的分布特性，根据带宽要求进一步丢弃当前最不重要的DCT系数。然而这样的方式需要面临的问题是编码端不得不发送大量的元数据来标识丢弃的DCT系数所在的位置。

为了减少传输被丢弃频域系数位置所需的元数据，本文的方法将不同块的频域系数按照频率划分为band，以band为单元对视频进行压缩。具体来说，可将不同块的同一位置系数放入一个band。而后根据压缩率及带宽需求，以band为单位判别是否丢弃其中的DCT系数。不同图像块变换系数的高频信息通常处于接近或者一致的区域，所以对band进行丢弃操作与对独立的DCT系数进行丢弃操作具有接近的压缩性能，却大幅减少了元数据规模。

1.3 能量分配与传输

1.6 深度神经网络去噪

传统的软传输方案直接将信号通过raw OFDM信道进行发送，可以取得良好的可伸缩性能，为不同用户提供与其信道质量相一致的重构视频。但是由于信道噪声直接叠加在接收的噪声中，会导致重构视频中存在噪声模糊效应。借助于深度神经网络从原始数据中提取不同层级的抽象信息的能力。研究利用卷积神经网络提取由不同信道噪声所形成的特征，对解码端重构的视频进行复原。卷积神经网络的结构如图2所示。

由图3中可以看出，所有基于H.264的传统视频广播方案，无论信道编码率如何，都会遭遇严重的悬崖效应。举例来说，H.264+BPSK方案在CSNR为3～5 dB时表现良好，但是当CSNR低于3 dB时，会导致信道保护编码失效，视频无法解码;而当CSNR高于10 dB时，由于信源编码率的限制，导致CSNR上升时用户的视频质量无法进一步提升。

相反地，SoftCast与本文的方案都较好地避免了悬崖效应，为用户提供了具有良好可伸缩性的平滑性能曲线。随着CSNR的提高，用户解码的视频质量也有相应的提升。但是由于本文利用GSR以及卷积神经网络对重构帧中的失真进行了优化，本文方案的重构质量在全部CSNR范围内都优于SoftCast。

2.3.2 视觉质量

本文方法的主观质量对比如图4所示。在相同CSNR条件下，可以清晰看到本文提出的方案具有更好的重建质量。SoftCast的重构帧中有较为明显的块效应和噪声干扰，而本文方案的重构帧中几乎没有块效应。实验证明，基于GSR的方法表现出优秀的去块效应性能。在相似PSNR条件下，本文方案的重构帧具有平滑的纹理以及清晰的边界，在主观视觉感受上更易于被接受。

本文方案与SoftCast在不同序列上的测试结果如图5所示。由于GSR需要在视频帧内寻找相似块，使得当视频内容运动剧烈时，会在一定程度上影响去块效应结果，例如bus.cif中的测试结果。但是从图5中可以看出，本文的方案具有良好的鲁棒性，对于不同的视频序列都取得了高于SoftCast的重构质量。

2.3.3 多播性能

文中使用3種方案服务一组客户（3个具有不同信道质量的客户），每个客户的CSNR分别为5 dB、10 dB和20 dB。传统的数字视频广播方案采用H.264+BPSK的组合。多播性能的效果对比即如图6所示。由于3个客户中信道最差的CSNR只有5 dB，所以传统方案将必须采用BPSK进行调制，否则会导致CSNR为5 dB的客户无法做到正确解码。在SoftCast与本文方案的对比中，发送端可以同时适应多种信道条件。而在本文方案的测试结果中，虽然客户1的重构质量略低于传统方案，但是其余客户均获得了高于传统方案的视频质量。从图6中可以看出，本文较传统方案具有更好的可伸缩性，较SoftCast有着更好重构质量。

3 结束语

在本文中，提出了基于深度神经网络的无线视频传输方案。针对传统视频软传输系统中存在的不足，利用深度神经网络、基于图像组的稀疏表示和软传输技术设计了一种高效的无线视频广播方案。利用基于图像组的稀疏表示对基于块的编码方案进行低质图像复原处理。充分发挥卷积神经网络对于数据深层特征的挖掘能力，对信道噪声引起失真进行优化。通过软传输的方式，本文方案在广播场景下避免了悬崖效应的发生，并展示了出色的质量可伸缩性。实验结果表明本文提出的基于深度神经网络的无线视频广播方案在性能上明显优于传统数字视频广播系统。

参考文献

[1]Digital Video Broadcasting （DVB）[EB/OL].[2009]. http：//www.etsi.org/deliver /etsien/300700300799/300744/01.06.0160/en300744v010601p.pdf.

[2]SHACHAM N. Multipoint communication by hierarchically encoded data [C]//INFOCOM '92. Eleventh Annual Joint Conference of the IEEE Computer and Communications Societies.Florence， Italy： IEEE， 1992：2107-2114.

[3]MCCANNE S， JACOBSON V， VETTERLI M. Receiver-driven layered multicast[M]//Readings in multimedia computing and networking.San Francisco， CA， USA： Morgan Kaufmann Publishers Inc， 2001：593-606.

[4]WU Feng， LI Shipeng， ZHANG Yaqin. A framework for efficient progressive fine granularity scalable video coding[J]. IEEE Trans. Circuits and Systems for Video Technology，2001，11（3）：332-344.

[5]SCHWARZ H， MARPE D， WIEGAND T. Overview of the scalable video coding extension of the H.264/AVC standard[J]. IEEE Transactions on Circuits and Systems for Video Technology， 2007，17（9）：1103-1120.

[6]JAKUBCZAK S， KATABI D. A cross-layer design for scalable mobile video[C]//Proceedings of the 17th Annual International Conference on Mobile Computing and Networking， MOBICOM 2011. Las Vegas， Nevada， USA： ACM， 2011： 289-300.

[7]JAKUBCZAK S， KATABI D. SoftCast： One-size-fits-all wireless video[J].ACM SIGCOMM Computer Communication Review，2010，41（4）：449-450.

[8]DONOHO D L. Compressed sensing[J]. IEEE Transactions on Information Theory， 2006， 52（4）：1289-1306.

[9]SHEN Meiyin， KUO C C J. Review of postprocessing techniques for compression artifact removal[J]. Journal of Visual Communication and Image Representation， 1998， 9（1）：2-14.

[10]YEH C H， KANG Liwei， CHIOU Yiwen， et al. Self-learning-based post-processing for image/video deblocking via sparse representation[J]. Journal of Visual Communication and Image Representation， 2014，25（5）： 891-903.

[11]BREDIES K， HOLLER M. A totao variation based JPEG decompression model[J]. SIAM Journal on Imaging Science， 2012， 5（1）：366-393.