黄 力,欧君荣
(广州珠江数码集团有限公司,广东 广州 510010)
2009年4月19日,由广州广晟数码技术有限公司自主研发的具有国际先进水平的DRA(Digital Rise Audio)音频编解码技术,被国家标准委批准成为国家标准(GB/T 22726—2008)。这项技术是中国在数字音频核心技术领域的一项重大突破,对于我国数字音视频产业打破国外技术垄断,提升行业全球竞争力有着重要意义,更为发展我国自主的数字音频产业提供了必要的条件。DRA编解码流程如图1所示[1]。
笔者就在广州珠江数码集团有限公司(以下简称“珠江数码”)的有线电视网中开展DRA应用的模式进行探讨和分析,并提出相应的解决方案。
通过统一集中的网络存储和共享的资源管理器,可实现DRA采集、编辑、审核、储存、播发等流程的一体化操作,其流程如图2所示。
目前市场上基本没有DRA格式的节目源,因此需要进行信号采集。DRA的信号采集有两种方式:1)采用DRA编码器直接将现存的多声轨音频节目编码为DRA格式的音频文件,采用该方式制作出的音频文件质量好,但对节目源要求较高,制作成本也较高(见图3);2)采用转码方式生成DRA音频文件,该方式较为简单快捷,但音效会有所损失(见图4)[1]。
图4 DRA信号采集方式二
DRA技术在应用层面的业务流程与Dolby和DTS非常类似。采用非编系统软件插件方式可以顺利完成DRA制作的相关工作[1]。所选择的非编系统应满足:
1)采集精度支持24 bit采样,内部32 bit数字化处理,以保证声音还原质量。
2)支持真正5.1声道环绕声制作,支持不少于6路音频输入/输出,同时支持左右平衡和声像定位功能。
3)除了对音频进行增益和电平高低调节外,还可对各路输出电平进行编组操作,以同时控制多路音频以及添加音频的各种特技。此外还有多个音频处理模块,实现对音频的多种编辑和调节。
4)能实现精确到采样点的波形编辑,对声音缺陷进行修补,提供采样降噪和消除爆破音特技功能,支持用户自行扩充特技类型。支持音频特技的动态调整,调整特技时能实时监听效果。
5)支持多个第三方音频特效插件和第三方效果器。
目前,我国标清数字电视视频编码格式为MPEG-2,音频部分是以单声道为主的MPEG音频(符合GB/T 17975.3—2002[2]和GB/T 17191.3—1997[3]的第1层和第2层格式)。演播室或录音室输出的多轨5.1PCM音频信号通过后期视频编辑工作站,在合成TS流的过程中,同时嵌入多声轨多格式压缩编码的音频信号组合,如MPEG+DRA,MPEG+DRA+DTS,MPEG+DRA+AC3,MPEG+DRA+DTS+AC3等,制作及复用传输过程对不同组合、不同音频编码都加以相对应的识别符,接收端机顶盒解调识别后按照不同的收听方式,选择音频输出路径及解码方式。
目前,珠江数码的媒资系统是国内首个支持DRA音频封装的媒资平台。该平台在处理DRA ES流在MPEG-2 TS流中的打包方式和MPEG-2音频流打包的方式相同,首先打包成PES(Packetized Elementary Stream),然后形成MPEG-2 TS。复用DRA ES流的必要项包括:stream_ID,stream_type,DRA注册描述符(DRA registration descriptor)和DRA音频流描述符(DRA audio stream descriptor)。stream_ID被包含在PES头中,stream_type、DRA注册描述符和DRA音频流描述符都被包含在节目映射表PMT(Program Map Table)中。下面具体介绍各项内容。
stream_ID:是位于PES头中packet_start_code_prefix之后的一个8 bit字段。对于DRA音频ES流,stream_ID的值应为0xBD,表示private_stream_1。多个DRA流可以使用相同的stream_ID值,这是因为当MPEG-2传输流中是多路节目复用时,每个流指派一个特定的包识别码PID。
stream_type:是PMT中的一个8 bit字段。对于DRA音频ES,stream_type的值应为0x06,表示PES中包含私有数据。
DRA注册描述符:为了唯一地识别DRA音频流,PMT中应使用注册描述符,如表1所示。
表1 DRA注册描述符
DRA音频流描述符:DRA_audio_stream_descriptor的目的是为综合解码接收机提供DRA音频解码配置信息。该描述符位于PSI的PMT中,同MPEG-2描述符的语法一致,以一个8 bit的descriptor_tag和一个8 bit的descriptor_length开始,然后包含DRA音频信息的描述字段如sample_rate_index,num_normal_channels和num_lfe_channels等。descriptor_tag指示描述符的类型,可用来辨识DRA音频流。DRA_audio_stream_descriptor的语法如表2所示。
表2 DRA音频流描述符
表2中:对于DRA音频流描述符,descriptor_tag的值为0xA0;descriptor_length表示DRA音频流描述符的长度,即descriptor_length之后的字节数,对于DRA音频流描述符来说,其最小值是2,即该字段之后至少要包含16 bit的描述符内容;sample_rate_index表示编码音频流的采样率,其具体取值如表3所示。
表3 sample_rate_index对应的音频采样率
此外,num_normal_channels表示DRA音频流的常规声道数,实际的常规声道数等于num_normal_channels+1,有效范围为1~64;num_lfe_channels表示DRA音频流LFE的通道数,有效范围为0~3;dra_version_flag表示DRA的版本号,通常设置成0;text_present_flag表示DRA音频流描述符中是否包含一个描述性的文本字段,如果text_present_flag为1,则后面包含文本字段,如果为0,则不包含文本字段;language_present_flag表示在DRA音频流描述符中是否包含一个3 byte的语言字段,若language_present_flag为1,则后面包含语言字段,若为0,则不包含语言字段;reserved flag是预留的1 bit字段,目前应设置成“0”;text_length表示描述性文本字段的长度,以16 bit的短字为单位;text[i]为文本字段,主要记录关于DRA音频流的文本描述,该文本使用2 byte的Unicode字符集编码;language为3 byte或24 bit长的字段,包含了在ISO 639-2B[4]中所规定的3字符码,根据ISO 8859-1或ISO Latin-1,每个字符编码成8 bit,并且被连续插入到该字段中,该字段编码和ISO/IEC 13818-1[5]对ISO_639_language_descriptor中的MPEG-2 ISO_639_language_code的规定相同;additional_info[i]为可选字段,预留给将来使用。
DRA音频访问单元AU(Access Unit)是一个DRA帧,DRA典型帧包含1 024个音频采样数据,其持续时间可根据采样频率计算得出,即
对于1路MPEG-2传输流,主音频缓冲区大小BSn定义为
式中:BSmux=736 byte,BSoh为PES头大小,BSdec为访问单元缓冲区。
为防止缓冲区上溢,BSoh应不小于最大的PES头大小,BSdec应支持IRD允许的最高比特率。由于PES头大小通常不大于59 byte,因此选用BSoh=64 byte。为了支持IRD允许的最高比特率,BSdec必须不小于相应的最大DRA编码帧长度。例如,为了支持48 kHz音频采样下,256 kbit/s的最高比特率,BSdec应不小于(256 000/8)×(1 024/4 8000)byte=682.7 byte。如果IRD需要支持所有比特率,则BSdec应不小于4 092 byte,即一个DRA常规编码帧的最大帧长度。
DRA原始流在MPEG-2传输流中应是字节对齐的,即DRA编码帧的最初8 bit应包含在MPEG-2传输流中的一个完整的独立字节中。
在DRA节目的存储中,由于DRA本身属多声道音频技术,存储的要求高于普通立体声节目,加上高清技术的应用,对存储的要求则更高。不同的电视节目制作流程对画质和码率的要求是不一样的,为简化起见,这里均采用MPEG-2编码作为参考。
1)原始音频素材文件采用八通道PCM方式存储,每声道384 kbit/s,加上元数据等,按4 Mbit/s计算。
2)节目制作通常需要不止一版的反复编解码,编辑时需要精确定位,所以300 Mbit/s的MPEG-2 I帧是合乎要求的(H.264不低于100 Mbit/s)。节目制作对带宽的要求很高,需采用光纤FC+以太网的双网结构。
3)DRA音频播出文件按500 kbit/s计算。
4)标清DRA视音频播出文件按8 Mbit/s计算。
5)高清视DRA音频播出文件按18 Mbit/s计算。
高清电视对存储容量和带宽的要求约是标清电视的4~8倍,这就要求数据存储设备具有更高的容量、带宽等性能指标,现有技术中只有光纤FC+以太网双网结构能够满足业务的要求。为节目采集与制作提供可靠、高效的带宽。在系统中,需存储以下信号:多声道PCM信号的音频文件、DRA格式的音频文件、标清DRA伴音视频节目和高清视音频节目。系统存储容量的需求大致如表4所示。
表4 各类视音频文件存储容量对比表
在DRA信号播出中,可以分为直播节目和录播节目,分别采用DRA编码器或播出服务器播出,这两种信号都可以直接复用后进入数字电视系统,通过有线方式传送,也可以通过卫星、地面、IP等方式传送。
目前整转型机顶盒由于价格的原因,CPU的处理能力不强,暂时无法支持DRA的解码。另外,由于DRA的市场尚未形成,没有丰富的节目源,因此音响也只支持DTS和Dolby,而不支持DRA。但标清芯片可以支持DRA数字信号的光纤和同轴输出,由机顶盒把DRA信号送到DRA解码器和音响,从而完成DRA信号在用户终端的重现。DRA信号在有线电视网传送至单向DVB-C机顶盒接收的方式以及音频多轨分布分别如图5和图6所示。这一方式的优点是充分利用了市场上标清整转型机顶盒的成熟度,顺利完成了DRA信号的传送。同时,由于标清整转型机顶盒的市场占有量巨大,可以使支持DRA终端的数量在短期内急剧增加,形成良好的市场效应,从而带动音响等相关产业的联动。
DRA作为数字电视伴音的多声轨嵌入及复用集成应用技术方案,由珠江数码研发集成并在全国率先成功应用,目前在机顶盒中看到的界面如图7所示。
图7 DRA应用界面(截图)
该技术在高标清数字电视TS码流内嵌入封装MPEG-2编码视频与DRA环绕声音频轨道信号,属行业内独创,其声音轨道同时含有3种编码方式的声轨可选,包括在全国电视频道中率先采用DRA5.1环绕声音频和DTS5.1环绕声音频作为电视伴音,同时兼容现有DVB-C技术体系的MPEG单声道音频。珠江数码的数字电视DRA伴音嵌入及复用技术,将DRA技术从实验室首次大规模应用在数字电视领域,既为广大用户提供了高质量的音频服务,又为该技术的行业应用及发展提供了成功案例,有效推动了广州广播电视产业的发展。
[1]朱勤伟.DRA技术在数字电视中的应用[J].电视技术,2009,33(1):18-20.
[2]GB/T 17975.3—2002,信息技术运动图像及其伴音信号的通用编码第3部分:音频[S].2002.
[3]GB/T 17191.3—1997,信息技术具有1.5 Mbit/s数据传输率的数字存储媒体运动图像及其伴音的编码第3部分:音频[S].1997.
[4]ISO 639-2,Codes for the representation of names of languages:part2:alpha-3 code[S].1998.
[5]ISO 8859-1,Information technology:generic coding of moving pictures and associated audio information:systems[S].2007.