党乙棋
西南交通大学,四川 成都 611756
视频转码分析探讨
党乙棋
西南交通大学,四川 成都 611756
随着网络带宽技术的急速发展,人们对于多媒体文件的需求越来越大,越来越广,为了适应不同格式、不同终端对多媒体文件的需求,视频转码技术日益完善,不断发展,从MPEG-2到H.264,再到HEVC,性能逐步提高,好的转码方法是伴随着计算性能提示的同时在编码质量和转码速度上得到一个非常好的均衡。从视频转码的原理、关键技术以及视频转码的进展方面作了研究探讨。
视频转码;多媒体;视频编码
随着网络带宽技术的急速发展,信息化聚集程度越来越高,多媒体文件由于其所带来的视觉、听觉上无与伦比的体验,市场应用度越来越高,如视频点播、直播、远程教育、视频会议等。正是由于不同的市场需求以及多样的网络接入对于多媒体文件的存储、传输、适配也产生了各式各样的标准。为了让多媒体文件在不同的标准,不同的条件下向用户传输,多媒体文件必须根据用户环境做出相应的调整,视频转码技术(Video transcoding)[1]正好可以满足上述的需求。一般来讲,视频转码技术就是把一种视频编码方式转换为另外一种编码方式的过程。为了适应不同带宽,异构终端不同的处理能力,视频转码的范围包含十分广泛,涉及到视频的压缩、分辨率、码率、帧率、存储格式等转换。
为了便于传播和满足多业务需求,标准化组织提出并制定了多种视频编码标准,如H.26x系列,MPEG-x系列,HEVC,同等视频感官质量下,大幅度节约了码率。视频编码技术不断的推陈出新,极大的促进了多媒体技术和通信产业的发展,如何将不同格式标准的编码向用户适配条件转码成了研究的热点之一。
对于数字视频流而言,其数据量是巨大的,含有大量的信息冗余,产生信息冗余的原因和类型是多方面的,当图像相邻像素之间具备较强相关性时存在空间上的冗余,在相邻时间内传送的数据会产生时间冗余,而对于具备相似纹理结构时也会产生结构上的冗余。因而,基于高信息熵,去冗余的基本思路,对视频码流进行压缩编码处理,其目的为在保证视频质量的前提下,用尽可能少的比特量对信息视频信息加以描述,以便于信息的传输、处理、存储。
为了不断适应各式各样场合以及不断升级的硬件,不同的组织也不断推出了适应需求的国际视频编码标准,所采用的最广泛的编码框架为基于块的混合视频编码框架,除MPEG-4基于内容之外均有采用,图1为基于块的混合编码基本框架。
图1 基于块的编码框架
混合视频编码中在块的划分下综合使用了离散的余弦变换(DCT)[2-3]或者整数余弦变换(ICT)[4-6]以及基于运动补偿的预测编码技术,不同的处理技术对于消除冗余的作用是不同的,在视频图像序列中帧与帧间的运动关系存在时间上的冗余,可由帧间预测加以去除,同样,在帧内相邻像素间存在相似性存在空间冗余,可用帧内预测加以处理,由于数据出现的概率不同,具备编码冗余,此外,人眼对于图像显著性区域信息的敏感,可以通过变换和量化编码对视觉冗余做处理等。
以H.264标准为例,H.264编码的基本处理单元是一个宏块,最大的宏块为16X16,而每个宏块可以继续划分为不同的子块,有四种划分,通过对划分后的宏块进行进一步划分,可得到宏块最小为4X4[7]。视频处理中,每个宏块或者亚宏块会进行独立的运动补偿,那么在码流中,需要对运动矢量和所选择的分割加以编码和传输才会获得正确的解码。在图像平坦的区域,我们选择大的宏块分割,相应的在多细节的区域的宏块尺寸较小,采用小的子块。
H.264功能分为网络提取层和视频编码层两层,在视频编码的数据进行传输或者存储的时候,先要被映射或者封装进网络提取的数据单元中,由网络提取层包含其序列负荷和头信息,增加网络传输的亲和性。
2.1 视频转码器
为了适应异构网络、不同的接入设备、不同的多媒体视频数据格式间的数据传输,需要对压缩后的码流进行端到端的转换,使压缩后的视频码流更能适应传输的信道和接受端的环境,执行这种操作的设备,称之为视频转码器。针对视频转码的原因归结起来如下:
(1)不同的应用领域视频编码标准应用不同;
(2)网络急速的发展,网络结构复杂,多种接入带宽并存;
(3)多样化的接收端,对于视频播放的有不同的需求,如有的需求高清、有的需求解码速度、有的则都有需求而不同的接收端其缓存,性能有差异,此外对于所支持的视频格式也可能有所不同。
对以上原因进行分类后,视频转码可以分为同一视频标准下进行转码和不同标准间进行转码,前一类操作比较简单,算法度低,后一类算法比较复杂,其转码器的设计也比较复杂[8]。最简单的视频转码器为直连结构,也就是编码器解码器的级联如图2。
图2 直连转码器
正如前文所言,为了应对动态多样的环境对视频的不同需求,如图像质量、带宽、转码速度等,对转码器进行不断改进,按照其结构和作用做出不同的分类,设计上有开环转码结构,闭环转码结构;和开环结构低复杂度不同的是,闭环结构具备漂移误差的补偿反馈电路,反馈电路的存在,降低帧间编码中漂移误差对的累计扩散对 P帧的影响,提高了转码后的图像质量。因此,现在所采用的转码器基本都是采取闭环结构而衍生,作用上有空域转码结构,频域转码结构等。
2.2 视频转码技术
针对不同的需求设计其转码算法也有很多选择。对于同类标准的视频转码,算法主要有码率变换、空域分辨率、时域分辨率变换,对于不同类的转换则要根据其压缩码流和输出标准的特点进行选取,如H.264到现在最流行的HEVC的转换,可以基于统计分析,可以基于区域特征,也可以基于人眼显著性进行分析,此外有效的利用运动矢量也是优化转码的一种方式。
在相同类型的视频转码中,主要实现对图像尺寸的变换以及根据传输环境进行码率控制,其算法上主要有码率转码,结合对运动矢量的重用的空间分辨率转码。在进行数据传输中,由于网络带宽的不同,视频转码器根据信道带宽限制,对传输视频码率进行码率变换,其设计为解码器和编码器的直连,外部框架如图3-1,可依据图像质量、传输码率、转码速度根据不同的需求划分优先级,对全解全编的结构进行简化,在简化结构中可考虑将输入的码流信息在解码后再编码时复用,在码率变换中,保证图像质量的一定前提下,有效的解决再量化误差和漂移误差,降低运算的复杂度,是这类转码器所要研究的重点。
空间分辨率的转码是为了让视频流可以满足在低分辨率频幕上显示。由于输入码流中包含如帧类型、运动矢量、量化步长、模式等信息,我们在下一步解码的时候可以通过变长解码、反量化、反 DCT以及进行运动补偿提取出之前的有用信息交付与新的编码器使用,从而将残差数据编码输出。据统计,将输入码流的运动矢量信息在编码端重用与完全运动估计方法相比可以节约60%~70%的运算量,如何高效的利用运动矢量信息是,减少计算量,提高画质是研究的热点。
对于不同标准之间的转换,为各种各样的网络提供了一个中转,当其压缩算法比较相近的时候转换比较容易,由于标准的不同,大多数情况下源图像中所包含的信息不能直接使用,这就要求不同标准间在设计转码器的时候对两种标准的相似度,压缩码的性质进行比对,如帧间运动补偿,帧内变换算法,帧图像的所对应的区域特性,在变换域特性相同的时候可使用频域转码结构,特性有差异的时候经行个别的研究,但其整体思路为分析标准的不同,采用同一标准下的转码基础框架结构,提取出在转码中对提高转码质量、效率有用的信息通过不同变换变换域系数[9]转换达到目的,此外还要对不同标准间语义信息进行比对。
在视频转码中,除了特性的比对外,有效的重用运动矢量对于优化转码效率起到非常好的作用。由于H.264的高效性,其他格式向 H.264 转码,或者是H.264适应不同的适应带宽、分辨率也是研究的热点,转码的算法思路可通过视觉特性对一些频率特性进行压制,或通过对区域根据其特征进行有效的划分,提前预测出分割单元的预测类型,减少搜索运动矢量的复杂度,优化运动估计,在这一块的算法主要对特征进行聚类分析[10],达到信息重用,快速搜索减少匹配此处,也可以使用 PSO进行块的快速搜索。对于基于块的区域特征转码可先进行区域对应,然后进行区域聚类分析,由此,可根据区域复杂度评级决定搜索的深度和范围,降低全搜索运算量,文献[11]中通过聚类分析对运动矢量经行重用,其不足为没有评比各种聚类分析算法在此设计中的优劣性。对于步入到云计算后,云计算所带来的视频转码大大提升了视频转码的速度,新的结构带来了新的问题,对于计算机性能差别,码块差别分布式匹配问题需要进一步研究,文献[11]对在 MapReduce模型下发明了一种依据转码节点性能差异进行转码耗时优化的算法,文献[12]对基于分块差异性及节点转码性能匹配做了分析,其不足是只对不同视频大小下分片大小的标准做了分析,没有分析基于同类型和不同类型下转码耗耗时的优化。
在流媒体发展越来越火的今天,视频转码作为一项解决场景兼容的存在是不可缺少的,当然随着网络的复杂化,云平台、数据量巨大化,数据接收方要求快速、高质量码流、资源有效的调度方法等多样的问题依然是所要研究的热点。
[1]Vetro A.,Christopoulos C.,Huifang Sun et al.Video transcoding architectures and techniq ues:an overview[J].IEEE Signal Processing Magazi ne,2003,20(2):18-29.
[2]Ahmed N,Natarajan T,Rao K R.Discrete cosine transform [J].IEEE Transactions on Computers,1974,C-23(1):90-93.
[3]Chen W,Smith C H,Fralick S C.Fast computation nal algorithm for the discrete cosine transform[J].IEEE Transactions on Conmmunications,1997,COM-25(9):1004-1009.
[4]张晓晨.DCT算法分析与结构设计[D].上海:上海交通大学,2010.
[5]张璐.整数余弦变换域上的感兴趣区域识别方法研究[D].上海:上海交通大学,2006.
[6]杜耀刚,蔡安妮.DCT域视频转码技术综述[J].电子学报,2005,33(9):1644-1650.
[7]毕厚杰.新一代视频压缩编码标准——H.264/AVC,第一版[M].北京:人民邮电出版社,2005.
[8]XIN Jun,Improved Standard-Conforming Video Transcoding Techniques[D].Seattle:The Universit y of Washington,2002.
[9]M R Hashemi,L Winger,S panchanathan.Compres sed Domain Motion Vector Resampling for Downsca ling of MEPEGVideo[C]//International.Conf.On Image Processing,Kobe Japan:IEEE.1999.276- 279.
[10]蒋炜.H.264到HEVC视频转码技术研究[D].杭州:浙江大学,2013.
[11]西安交通大学.基于 Map-Reduce的视频转码任务调度方法:CN201410386706.6[P].2014-11-19.
[12]毕莎莎,陈清华,高煜红.基于 Hadoop视频转码的任务调度算法[J].无线电通信技术,2014(2):63-66.
Video Transcoding Analysis
Dang Yiqi
Southwest Jiaotong University, Sichuan Chengdu 611756
With the rapid development of networking broadband technology, the demand for multimedia files is becoming increasingly larger and wider.In order to satisfy the requirements of different formats and terminals for multimedia files, video transcoding technology is ever-improved and continuously developing, whose performance keeps making progress, from MPEG-2to H.264, and to HEVC, a good transcoding method will balance the encoding quality and transcoding speed in a proper way accompanying by the computational performance tips.In this paper, the principle,key technology and the development of video transcoding are studied.
Video transcoding; multimedia; video coding
TN919.81
A
1009-6434(2017)3-0154-03
党乙棋(1991—),男,汉族,甘肃省陇南市人,硕士,西南交通大学,研究方向为信息与通信系统。