◎ 数字音频编解码技术国家工程实验室 闫建新
DRA标准及未来音频编码技术展望
◎ 数字音频编解码技术国家工程实验室 闫建新
简单介绍了当前的数字音频多声道编码国家标准GB/T 22726—2008(DRA),DRA音频标准可应用于数字电视、数字音频广播及移动多媒体等领域。同时说明了以DRA技术为基础而派生的几个新编码算法及典型应用场景。最后对未来数字音频编码技术进行了展望和预期。
DRA;数字音频广播;3D音频
1.DRA标准及相关编码算法
DRA是国标GB/T22726—2008《多声道数字音频编解码技术规范》[1]的简称,它是基于人耳的听觉特性对声音信号进行量化和编码的一种感觉音频技术。图1给出了编码框图,其编码过程为:数字音频信号首先通过自适应时频分割,实现对音频信号的最优分解;然后进行联合立体声编码去除声道间的相关性;通过对当前信号的心理声学分析给出最佳掩蔽曲线,从而给出全局比特分配实现谱系数线性量化;依据量化谱系数分布进行自适应分区,并通过Huffman熵编码进一步完成冗余度压缩,最终所有需要传输的信息按照标准规范格式打包成DRA帧。
为了满足各种实际应用的不同需求,以DRA标准编码技术为基础,通过引入近年来新推出的一些增强编码模块,并充分利用DRA帧结构中最后定义的辅助数据单元,可扩展实现以下几种编码算法:
1)DRA低码率(DRA-LO)编码算法
本编码算法主要增加了一个带宽扩展编码模块,用以完成高频部分的参数编码,低频部分仍然采用传统的DRA标准编码,从而构造了一种波形编码和参数编码的混合编码技术,可使得立体声编码的典型码率从128 kbit/s大幅度降至32 kbit/s。
2)DRA超低码率(DRA-UL)编码算法
图1 DRA编码流程图
由于DRA编码算法的编码对象为一般性的声音信号,在低码率且对语音类信号编码时编码效率比传统语音编码算法要低,因此新的DRA超低码率编码算法是在DRA低码率编码算法的基础上进一步引入一个语音编码核。当检测到输入信号为语音类信号时启动语音编码核替代DRA核压缩低频部分;当输入信号为语音和音乐混合信号时,采用自适应切换编码核方式工作;当输入信号为音乐类信号时,仍然只应用DRA编码;高频部分仍然采用DRA-LO中的带宽扩展编码算法。DRA-UL可以进一步将DRA-LO立体声编码的典型码率从32 kbit/s降低到24 kbit/s。DRA-UL适用于数字调幅广播应用,这是因为数字调幅(AM)广播声道条件更窄,它的有效净载荷可能只有20 kbit/s,DRA-UL可使得调幅广播获得接近当前模拟调频的主观声音质量。
3)DRA分层(DRA-LA)编码算法[2]
调频频段数字音频广播信道和调制规范提供了分层调制和不等错信道编码技术,为了匹配这一特性而扩展了一种分层编码算法DRA-LA,可分为两种:一种是直接对DRA的分层;另一种是DRA-LO的分层。对于单声道情况,基本层提供基本的单声道声音质量,增强层可进一步改善声音质量;对立体声信号,基本层提供基本的立体声,增强曾进一步改善立体声质量;对环绕声信号,基本层提供全质量的立体声,增强层提供环绕声道信号。
4)DRA演播室(DRA-ST)编码算法
DRA-ST是一种高保真的音频编码算法,通过多次编解码处理后仍然保持透明的主观声音质量,主要用于演播室内部传输应用,且由于DRA-ST的帧长与当前标准几种视频帧率匹配,因此当作为视频信号的伴音时,能够与图像边界对齐,易于音视频剪辑操作,不会引起同步问题。
表 1给出 DRA,DRA-LO和DRA-UL各种编码算法的主要参数,表2给出了DRA-LA的编码算法的主要参数。
2.DRA标准的应用
为了推广DRA标准的应用,陆续开展了一些应用标准的研究,主要包括IEC 61937-12标准定义了DRA码流打包成适合AES/EBU(或SPDIF)传输时的方式;CEA音频格式扩展标准和HD⁃MI传输标准定义了其他常用传输接口的方式;SMPTE和MP4存储格式标准使得DRA音频可以同视频数据一起封装为一个文件;IETF网络传输标准保证了DRA码流可通过RTP方式传输。此外,《地面数字电视接收机通用规范》为国家标准(GB/T26686—2011)中规定了DRA音频标准为其必选音频标准;同时DRA也是国际蓝光音频可选标准。目前DRA已经广泛应用于CMMB、蓝光、数字电视、中国调频数字广播(Chinese Digital Radio,CDR)以及云音乐系统等领域。
表1 DRA标准、低码率和超低码率3种算法的基本参数
表2 DRA-LA算法基本参数
以DRA在数字电视上的应用为例:
1)在芯片方面,支持DRA解码的数字电视芯片厂商云集,超过30家著名芯片厂商均支持DRA音频解码,覆盖国内市场90%以上,如Intel、东芝、三星和杭州国芯等。
2)在电视终端方面,全球逾50家终端厂商获得DRA授权,如三星、TCL、SONY、长虹、康佳和创维等。
3)在前端播出设备方面,已有大洋、索贝和数码视讯等公司支持DRA标准。
这样,使得DRA在数字电视应用方面形成了一条非常完整的产业链。
另外,在我国调频数字音频广播应用上,已经完成了CDR音频信源编码的行业技术规范,其中包括几种DRA编码算法。表3给出了CDR的几个典型应用场景。
表3 CDR中各DRA标准的应用场景
图2为实际应用中的情况,如果广播的是立体声节目,编码端压缩为基本层和增强层,通过广播信道传输到达收听用户,如果接收环境很好,则用户可以解析基本层和增强层码流,解码输出完美的立体声音质,而如果用户受到遮挡或接收信号微弱等,则只能收听基本层的基本立体声;如果发端播出的是环绕声节目,则在有干扰时收听到完美立体声节目,或者无干扰时可收听真正的环绕声节目。
今天,数字音频编码技术的基本原理已相对成熟,未来几年主要有两个方面的研究工作可进一步提升整体的编码性能:一是对其中一些编码模块的改进;另外一个是通过增加一些小的辅助增强模块。随着新一代视频编码技术H.265的标准化工作,以及如图3所示的超大屏幕和超高清晰度视频的应用[3],使得观众有更宽的观看视角而获得更好的融入体验,特别是将来投影3D及激光成像等会为用户提供更逼真的视频场景,因此为更好地匹配这些视频应用需要更高要求的音频系统,以便获得真实环境所具有包围感和空间感的沉浸式听音效果。
图2 DRA分层编码应用
图3 沉浸式场景
1.未来3D音频系统布局
传统7.1环绕声系统(或5.1系统)如图4左侧所示,一般在地面以上且与人耳平行的平面上,并按照ITU规范来布置5.1和7.1环绕声扬声器,因此实际上这些系统还是二维结构,无法提供真实的三维空间声场效果。未来环绕声系统需要提供真正的三维声场,例如图4右侧的7.1环绕声扬声器布置,在传统5.1环绕声情况下增加了两个上左和上右;图5提供了10.2环绕声系统,它是在传统7.1环绕声系统下增加了一个正后方的扬声器、一个超重低音和一对上方左右扬声器。
ITU标准规定了一种更加逼近真实声场的22.2环绕声系统[4],总共分为上中下3层,上层9个声道,中间层10个声道,下层3.2个声道,如图6所示。IEC和EBU也定义了类似这个系统的标准。图7为22.2环绕声系统分布示意图。
2.3 D音频编解码
3D音频系统可提供更真实的声场环境,除了可用于超高清系统,也满足于家庭影院音频、个人TV音频、虚拟现实音频、游戏音频等需求。3D音频系统的主要编码技术是基于多声道的感觉音频编码算法、基于音频目标的空间编码算法和基于场景的编码算法,此外还有一些引入的新编码工具,包括更多声道相关处理算法和各种渲染技术等。
几个月后,据“线人”说,这名前员工已陆续换了好几份工作,每次时间都不长,每次也都无一例外在朋友圈骂老板。大意都是工作没法弄,老板很变态。
图4 两种7.1环绕声系统
图5 10.2环绕声系统分布示意图
图6 NHK的22.2环绕声系统
图7 22.2环绕声系统分布示意图
1)3D-CO编解码技术
图8最左列为传统的基于声道的感觉音频编码,最右列是基于声音目标的编码过程,而中间列3D-CO(Chan⁃nel&Object)[5]是基于声道和目标的一种编码算法,其中输入信号中既有传统的多个音频声道,也有多个声道加上多种目标。
图8 3D-CO编码类型
3D-CO编码技术框图如图9所示,首先通过渲染器/混合器对输入的声道和目标进行预处理,输出给后面通用感觉音频编码模块(如DRA标准编码)的由3种信号构成:(1)原来的独立音频声道被附加了一些渲染的目标后仍然作为一个独立声道;(2)某些声音目标直接作为一个独立声道;(3)某些相关的声音目标通过基于目标的空间编码器处理,只输出很少几个下混的独立声道给感觉编码器,而提取的空间信息以边信息的方式直接送入复用器。此外针对各个声音目标还有与之相关的元数据需要简单压缩后也送入复用器。
图9 3D-CO编码流程框图
图10是更简化的3D-CO编解码系统结构,对声道和目标的编码的码流输出给解码模块,在解码模块中提供了一个用户接口,用户可对其中一些目标音频进行开/关操作,比如在球赛时可以保证球场的环境声而仅把解说员的声音屏蔽掉。此外可根据播放环境要求通过渲染技术在实际系统配置(如7.1环绕声)获得最佳的重放,例如重放系统可能不是标准位置的扬声器配置,或者用户不是在最佳听音位置等等。
3D-CO解码是编码的反过程,如图11所示。包括传统的感觉音频(如DRA)解码、渲染技术、基于目标的空间解码、目标元数据解码等,所有的独立声道音频信号和目标音频信号最终通过渲染提供直接扬声器输出、格式转换器后的下混输出及耳机输出。
2)3D-HOA编解码技术
而3D-HOA解码技术框图如13所示。首先通过多声道感觉解码恢复N个声道信号,通过空间信息信息参数恢复环境声场,通过主方向声音参数恢复主方向声音分量,最后有一个高阶声音合成模块,恢复出声音信号,可通过渲染技术输出给不同的播放环境(如扬声器、耳机等)。
图10 简化的3D-CO编解码系统结构
图11 3D-CO解码框图
图12 3D-HOA编码技术框图
图13 3D-HOA解码技术框图
3)3D-CO音频解码中两种特别的渲染技术
(1)Zooming技术
Zooming技术是3D-CO解码渲染技术之一,其工作原理如图14所示。图14上图中右下小块的视频是要Zom⁃ming的区域,有两个声音目标,目标1在它内部,目标2在其外部左边。当Zooming后(图14下),对于声音目标需要进行合理渲染使得目标1和目标2出现在合理的位置。
(2)Panning技术
3D-CO的另外一个渲染技术是Panning,参考图15。图左为Panning前,有3个声音目标:目标1、目标2和目标3;在Panning之后,如图15中右边所示,3个声音目标也合理地调整到相应的位置。
4)3D音频编码测试
相比传统5.1或者7.1环绕声编码系统而言,3D音频编码系统的测试应包含更多的指标,比如声场的包围感、真实感、分离度等[4],非常复杂,需要进一步的深入研究和标准化。而目前3D音频编码的测试主要考虑三个方面:高质量、定位和包围感。
图14 Zooming技术原理
MPEG在3D音频编码研究中的基本测试条件:
(1)输入信号:22.2声道(如果包含目标信号,则需要预处理);
(2)测试码率:256 kbit/s,512 kbit/s和1.2 Mbit/s,典型码率是512 kbit/s;
(3)测试方法:MUSHA;
(4)测试条件:扬声器按22.2标准方式放置时,分为最佳听音位置和非最佳听音位置分别测试;渲染后通过扬声器10.1,7.1,5.1还原测试;已经渲染后通过耳机还原测试。
此外,对3D音频编码的低码率测试评估条件仅需调整码率范围为48~128 kbit/s。
本文首先介绍了DRA基本编码框架及编码主要技术参数,然后简单说明了基于DRA标准编码算法扩展的几种编码算法及主要技术参数,同时也给出了各种编码算法的典型应用领域。最后提出了未来数字音频编码发展的一个重要方向,即3D音频编码,其编解码基本原理主要包括基于声道和目标的3D-CO和基于场景的3D-HOA两种模式,且通过复杂的渲染技术可提供最佳的声场还原,同时3D音频解码可提供互动功能,并指出了当前的MPEG 3D音频编码的测试情况。
图15 Panning技术原理
[1]GB/T 22726—2008,多声道数字音频编解码技术规范[S].2008.
[2]闫建新,王磊.DRA分层音频编码技术[J].电视技术,2014,38(17):27-31.
[3] EBU.The super Hi-Vision demos of EBU technical review [C]//Proc.IBC. Beijing:[s.n.],2008.
[4] ITU-R BS.2159-3,Multichannel sound technology in home and broadcasting ap⁃plications[S].2011.
[5] MPEG.Working draft text of MPEG-H 3D audio CO[EB/OL].[2014-08-20]. http://mpeg.chiariglione.org/standards/ mpeg-h/3d-audio.
[6]MPEG.RM0-HOA working draft text[EB/ OL].[2014-08-20]. http://mpeg.chiari⁃glione.org/standards/mpeg-h/3d-audio.
闫建新,博士,教授级高级工程师,数字音频编解码技术国家工程实验室主任。曾参与我国HDTV及DAB等多项数字音视频重大项目的研发工作,是IEC、MPEG等国际标准化音频专家,现已完成多项国内国际音频相关标准的制定。
TN912.3
A
【本文献信息】闫建新.DRA标准及未来音频编码技术展望[J].电视技术,2014,38(22).