侯书婷,杨宇,徐品
(中国传媒大学信息工程学院,北京100024)
AES/EBU数字音频传输标准的研究初衷是为了满足专业级设备与家用设备的连接。AES/EBU数字音频传输标准是声频工程协会 (Audio Engineering Society)和欧洲广播联盟 (European Broadcasting Union)一起开发的一个数字音频传输标准,即AES/EBU标准(AES3-1992、ANSI S4.40-1992、IEC-958或AES3-2003)。它是传输和接收数字音频信号的数字设备接口协议。我国的广播电影电视相关标准为GY/T158-2000。
AES/EBU数字音频信号编码流程图如图1所示[1],该标准允许使用平衡或非平衡方式通过电缆传输,亦支持光缆传输。在进行A/D转换之前,为避免混叠失真,保证取样频率fs大于等于画面最高频率的二倍,先要将模拟信号进行低通滤波,使声音信号的最高频率下降至取样频率的一半以下。A/D转换器将模拟音频信号进行取样,量化,编码。AES/EBU系统取样频率支持32kHz至192kHz,量化比特数为16到24bit,当前演播室最常用的取样频率为48kHz取样,即每秒传输48000个音频帧,量化比特数常为20bit或24bit量化。产生的并行数字字节通过串行器转换为串行传输,此时输出的信号为NRZ码。AES/EBU编码器将信号转变为AES/EBU格式,对于不同比特量化的数据,AES/EBU音频帧结构不同(具体在数字音频帧结构部分阐述)。在串行传输并行字节时先传输最低有效位(LSB),因此必须加入字节时钟标志以表明每一个样值的开始。最后为保证信号传输质量,数据流最终需进行双相标志码编码(Bi-phase-mark)。
每一个AES/EBU数字音频帧分为两个子帧,每个子帧32比特量化。每192个音频帧构成一个块。对于48KHz的系统,一个音频帧的时间是20.83μs,则一个音频块的时间为192×20.83μs=4000μs。AES/EBU数字音频帧结构如图2所示。20bit及20bit以下量化的音频帧的每个子帧含有4bit首标(同步数据),4bit附加数据,20bit音频数据,1bitV(有效比特),1bitU(用户比特),1bitC(通道比特),1bitP(奇偶校验比特)[1][2]。
图1 AES/EBU数字音频编码流程图
图2 AES/EBU数字音频帧结构
24bit量化的音频帧的每个子帧包含24bit 音频数据,占用了本用于传输辅助字的4个比特,其余部分的结构与20bit及20bit以下量化的音频帧结构相同。
(1)AES/EBU数字音频编码
①前置同步字
每一个子帧的最开头处为前置同步字,同步字的编码根据该子帧所在块的位置而定。同步字共分X、Y、Z三种,如图2中所示。同步数据为4bit量化,Z表示该子帧为每个音频块的第一帧的子帧1;X表示块内其余帧的子帧1;Y表示每个帧的子帧2[1]。传输时,AES/EBU数据除同步数据外,都需使用BPM(双向标志码)编码。此时,同步数据将以8比特编码序列的形式传输,其具体编码如表1所示[1][2]。
②辅助字(Auxiliarysample bits)
辅助字可作为辅助声道传送其他音频信息,如制作人员的通话或演播室之间的音频交流。每个音频子帧可传送一个辅助声道的信息,每一个辅助声道在4ms(即一个音频块)内可传送4bit×192=768bit附加数据,可组成64个12bit分辨率的音频字节[6]。每个4ms提供64个样值,相当于16kHz的抽样频率。在24bit量化的AES/EBU数字音频系统中,辅助字被音频数据占用,即此时的音频数据有24bit,音频帧里没有辅助字。
③有效样值(V——Validity bit)
如果样值数据是音频且可以进行D/A转换,则此比特值为0。否则,接收设备将有问题的样值输出静音。该比特位并不被所有音频设备产品支持[1][5]。
④用户比特(U——User databit)
用户比特可以以任何的形式被用户所用,这有利于AES/EBU数字音频传输的灵活性发展。在默认情况下,用户比特值为0[1][5]。
⑤通道比特(C——Channel status bit)
提供通道状态信息。由于AES/EBU数字音频支持单通道和双通道(子帧1和子帧2各为不同通道)两种传输模式。对于双通道立体声音频,子帧1和子帧2的通道比特可以根据自己所携带的音频数据不同而不同。通道状态信息包含:音频取样字长度、音频通道数量、取样频率、时间码、源与目标的字母数字显示编码信息、再次强调信息[7]。
由于AES/EBU数字音频块包含192个帧,即包含192个子帧1和192个子帧2两个通道,每个子帧包含通道比特1bit,那么一个音频块的每一个通道就可提供192bit的通道状态块。一个通道状态块(Channel status bit block)包含24个字,每个字8bit量化。其格式如表2所示[2][4]。
⑥奇偶校验比特(P——Parity bit)
提供该子帧比特位从4至31(如图2)的奇偶校验位。该值的设置可令4至31比特位中共有偶数个“0”和偶数个“1”。
(2)AES/EBU 数据特性
抽样频率为48kHz时总数据率为32×2×48000=3.072Mbps。在双相标志码编码后,数据传输率提高到两倍,即为6.144Mbps[8]。双相标志码的频谱能量在6.144MHz的倍频处为0。
表2 通道状态数据格式
续表
续表
同步字包括三个低单元和随之而来的三个连续的高单元。在AES/EBU信号频谱中占据一个低的基频,3.072/3=1.024MHz。
每个音频帧包括64bit,每20.83μs发出一帧。帧中的一个数据比特持续时间为325.5ns,一个双相标志码比特单元时间为163ns。这样,由一些数据流比特叠加产生的眼图眼宽时间为163ns[8]。
(3)AES/EBU接口的电特性
AES/EBU专业格式接口包括XLR、光纤接口和BNC接口[3],其中最常使用的XLR接口电特性示于表3。
表3 AES/EBU专业格式XLR接口特性
XLR又叫卡侬头,接口如图3(a)所示。
(a)XLR卡侬头 (b)F05 光纤传输 (c)BNC图3 AES/EBU专业音频接口
AES/EBU消费级格式接口的特性示于表4,这种消费级格式用于CD和具有数字输入和输出接口的R-DAT中。
(a)RCA莲花头(b)TS插头/大二芯(c)TRS插头/大三芯图4 AES/EBU消费级接口
(4)数字音频信号的传送接口电路
原AES3-1992标准定义了在双绞线音频电缆上传输AES/EBU信号的规格。AES3-3id-1996文件和ANSI/SMPTE 276M-1995标准文件定义和采纳了其他一些传送格式。这些标准都定义了在不平衡同轴电缆上AES3格式化数据的传输。
表4 AES/EBU消费格式RCA接口的特性
① 110Ω双绞线电缆传输电路
AES3-1992建议的传输线路示于图5。
②75Ω同轴电缆传送电路
开发此标准是为了克服双绞线传送时的电缆长度、XLR接插件大小和费用带来的限制,但更重要的是可以用不箝位的模拟视频分配放大器和路由器来传送数字音频信号[5]。但是,绝大多数音频设备都使用卡侬(XLR)接插件,因此必须考虑到需要与BNC端子(图3c)的转接。此外,由于最少需要12MHz带宽来传输双相标志码编码的AES/EBU信号,所以有些模拟传送放大器的带宽可能不够。
(a)75Ω同轴电缆传送接口的特性
图5 AES3-1992传送连接电路
75Ω同轴电缆传送接口的特性列于表5。
表5 75Ω同轴电缆传送接口的特性
(b)AES-3id建议
AES-3id建议的传送线路示于图6[1]。该建议还包括关于电缆性能、电缆均衡器特性的信息。
(c)实际的线路连接
在录音室中应使用平衡电缆馈送可避免接地环路问题。在现有的录音室中已安装的模拟电缆可用于数字音频分配,但电缆长度一般限于100米,具体视电缆类型而定,高质量的双绞线电缆可达到250米。一个数字音频设备输出只能连接一个接收端。
③其它接口协议
除AES/EBU协议外,还有三种接口格式广泛使用:MADI(多声道音频数字接口),SDIF-2(Sony数字接口互连)和SPDIF(Sony Philips数字接口)。
(a)MADI格式
MADI格式在AES 10-1991标准文件和AES-10id-1995中定义,它可以容纳最多56路遵从AES3-1992标准的32bit信号。MADI最早用于点到点的系统,如多轨录音机和数字音频组件以及处理器间的互连,数字路由系统和录音室到录音室的互连。MADI信号很容易转换成AES/EBU子帧,只有最初4bit 与AES/EBU子帧不同。支持抽样频率为32kHz到48kHz,可变化±12.5%,以支持录音机的变速操作。数据传输率固定为125Mbps,对编码数据流提供足够带宽(56路×40bits×48kHz×1.125=121Mbps)。
传输介质可以是宽带宽的同轴电缆(最多50米)或光纤(超过50米)。AES-10id-1995文件给出了光纤接口的说明。
图6 AES3id-1996传送连接
(b)SDIF-2格式
这种格式由Sony开发,用于专业级控制和记录,单声道44.1kHz和48kHz信号的互连,由32bit长度的音频字节组成。前20比特保留作为音频样值,接下来的9比特用来创建控制字,剩下的3比特为同步信息。控制字中包括有关预加重、正常音频还是非音频数据、拷贝禁止、每256音频字节中SDIF音频块同步信息以及用户数据等声道信息[3]。
传输介质是工作在TTL电平上的75Ω同轴电缆,数据率为1.54Mbps。它是一个点对点的互连系统,需要三根同轴电缆来传输左、右声道数据和字节时钟信号。
(c)SPDIF格式
此格式是AES/EBU(AES3-1992)格式协议的消费级版本。为了在专业设备和家用设备间传输数字音频数据开发此标准,在AES3专业设备和AES3家用设备之间需要进行格式转换(数据和电平转换)。
在演播室内,对来自不同音频源的数字音频信号进行混合、插入或组合时,需要将样值与一个基准信号源在相位和频率上同步。同一录音室内的两台设备在各自的输出端可能会产生定时上的缓慢漂移,和视频一样,也需要一个时钟发生器产生基准信号或是从一台设备提供基准给另外一台。
(1)数字音频信号间的同步
不同的数字音频源的同步需要考虑以下两点:
抽样时钟的时间校准或频率同步;
音频信号的帧校准,即相位同步。
AES11-1991建议规定,在录音室环境中数字音频设备的频率同步和相位同步应采用专门的时钟发生器提供基准信号进行频率同步,所有的制作设备都锁定于主基准发生器;小的录音室可使用一台设备的输出作为基准。
图7示出一个数字音频样值与一个AES/EBU数字音频基准信号(DARS)对准的状态。AES-11规定数字音频样值必须与一个基准信号同相,在发送器输出端一个音频帧的同步容差为±5%,在接收器端一个音频帧的同步容差是±25%。定时基准点是X或Z同步字的第一个边沿。
图7 AES/EBU数字音频信号与基准信号的同步
当两个数字音频信号抽样率不同或无法将信号锁定在一起时,可使用抽样率转换和同步器。抽样率锁定且保持整数关系即为同步转换。
(2)数字音频和视频信号间的同步
在电视系统中,数字音频基准信号必须与视频基准信号锁定以使音频和视频信号同步,这样可进行无缝的音频和视频切换[9][10]。表6对三种不同的视频帧速率示出对应的三种不同抽样率每个视频帧内所含的音频样值数,数值表示单位数量的视频帧传输的音频帧数量。
625行和525行标准的视频抽样频率和48kHz音频抽样频率之间的关系为:
数字分量视频抽样频率13.5MHz,FH=15.625kHz,FV=25Hz 时,
表6 每个视频帧对应的音频样值数
48kHz =13.5MHz / 864 / 625×1920
FH=15.734kHz,FV=29.97Hz 时,
48kHz=13.5MHz /858 /525 ×8008/5
在625/25系统中,每一视频帧有确定数目的音频样值(48kHz抽样时有1920个音频样值),音频和视频信号间的相位关系很容易保持,见图8(EBU R83-1996建议)。AES3音频可与从625行基准视频信号中分离出的48kHz基准信号进行鉴相,实现音频与视频信号的锁定。
图8 625行电视系统中的数字音视频同步
在525/60系统中,每一视频帧对应的音频样值数不是整数,而是个小数,按下式可计算得出:33366.67μs/20.8333μs=1601.6。这里,33366.67μs是一个视频帧的时间,20.8333μs是一个音频帧的时间。在5个视频帧后,可获得音频样值的整数(1601.6×5=8008),可利用数字音频帧与视频帧这种关系进行音频与视频信号的锁定。
[1]Michael Robin.The AES/EBU Digital Audio Signal Distribution Standard[S].2004.
[2]Revised AES standard for digital audio — Digital input-output interfacing — Serial transmission format for twochannel linearly represented digital audio data[Z].Audio Engineering Society,Inc,2003.
[3]John Emmett.Engineering Guidelines The EBU/AES Digital Audio Interface[Z].1995.
[4]Specification of The Digital Audio Interface,EBU[Z].2004.
[5]NTI Audio.AES3,AES/EBU,application note[Z].2012.
[6]王伟.数字视音频复用技术[J].电视工程,2007,(3):41-45.
[7]刘越,章文辉.HDTV嵌人数字音频分析软件设计[J].电视技术,2012,(2):12-14.
[8]卢志国.数字音频信号接口技术[J].数字技术与应用,2013,(04).
[9]郑剑虹.嵌入音频[J].音响技术,2006,(04):48-53.
[10]张琪.数字电视制播技术[M].北京:中国广播电视出版社,2003.