高 杰
(南京艺术学院 传媒学院,江苏 南京 210000)
“沉浸”一词最早应用于视觉艺术,指利用人的感官体验和认知体验,营造氛围让参与者身临其境的体验状态。在利用互联媒体进行娱乐的背景下,3D 沉浸式音频通常是指为听者提供除宽度和深度外还具有高度信息的三维(3D)音频体验,听者依靠双耳可以分辨出前、后、左、右、上等方位的音频技术,克服了传统立体声和环绕系统平面化的局限性。近年来,国内外已经开发出多种用于3D 音频的音频格式和录制方式,如Dolby Atmos,Auro-3D,DTS:X,NHK 22.2 以及中国多维声等等[1]。3D 音频从最初应用于影视作品,逐步拓展到音乐、游戏及互联网视频等新领域,应用的领域和数量逐渐增加。2018 年,国际电信联盟发布ITU-R BS.2051-2 标准,推荐了用于音响系统的3D 扬声器配置。在扬声器设置方面,这些3D 音频系统通常在原有水平环绕的基础上增加了顶部扬声器。目前3D 音频的实现方式主要有以下几类:基于通道的音频(Channel Based Audio,CBA),基于对象的音频(Object Based Audio,OBA),基于场景的音频(Scene Based Audio,SBA)或这些方式的组合。
CBA 是基于声道的概念来实现3D 沉浸式音频系统,需要对系统中的每一只扬声器进行固化,才能实现声音的定位和移动效果,传统的5.1,7.1,NHK22.2,Auro-3D 以及中国多维声都是采用此种方式。OBA 则抛开的声道的概念,基于声音对象概念,系统会根据声音的运动轨迹、位置等数据,结合扬声器的数量进行即时的运算,然后把音频流分配到系统中的每一只扬声器中。OBA 不再受扬声器的数量限制,但扬声器的数量越多,运动和位置将会更准确。Dolby Atmos 与DTS:X 就是采用了这两种方式的组合。
随着崭新的3D 沉浸式音频格式的出现,音频内容制作技术也在更新。在传统声学空间录制音乐的背景下,麦克风阵列技术对于呈现录音师和制作人所需的听觉场景的空间特征至关重要。虽然OBA 可以在后期制作中灵活混合音频信号,但是在声学环境中使用麦克风阵列进行CBA 记录需要考虑各种因素,如传声器的间距角度、指向性以及摆放的位置等等。
21 世纪以来,国内外音频工程师和录音工程师已经提出了许多用于CBA 的不同3D 传声器阵列录制系统。其中一些系统是根据听觉感知的科学原理设计的,而另一些系统则是录音师从录音实践中衍生出来的,例如著名的2L 唱片公司提出的“2L-Cube”,中国著名录音师李大康老师提出的“LDK-Cube”等。由于一种技术不太可能同时满足各种不同的录制场景需求,因此对于录音师和制作人而言,了解不同技术的设计原则,以便能够选择最适合的技术来实现艺术目标至关重要。
本文旨在对常见的3D 传声器阵列进行全面的综述,并讨论它们在物理和感知上的差异。传声器阵列的范围仅限于室内声学环境以及室外环境声录制,与ITU-R BS.2051-2 标准中推荐的3D 扬声器配置兼容的阵列。
目前,3D 沉浸式录音传声器阵列大致分为水平和垂直间隔(HVS)、水平间隔和垂直重合(HSVC)以及水平和垂直重合(HVC)阵列三种。HVS 阵列将水平和垂直的传声器间隔一定的距离,通过垂直和水平方向上产生的时间差进行声音的空间营造。如果水平传声器间隔较宽,通道间电平和相位的差异性会更大,具有更强的空间信息。然而,国内外研究表明,在3D 声音再现时,垂直和水平传声器之间的间距对感知空间信息的影响甚小。在此理论的基础上,研究人员采用HSVC 概念设计了一些麦克风阵列,高度传声器和水平传声器处在一个水平面,而水平布置的麦克风间隔以增强空间信息。这一概念要求在中层和上层使用定向传声器(心形或超心形),以实现足够的通道之间的隔离度。HVC 阵列在所有传声器之间没有间距或间距很小,主要依赖通道间电平差进行定向信号源成像。通常被以四面体布局排列的四个心形振膜组成(First Order Ambisonics,FOA),或者在一个小球体的表面安装多个振膜,提供比FOA 更高的空间解析度。
传声器阵列也分为“主传声器”阵列和“环境”阵列。主传声器阵列传统上指的是一组传声器,以一定的间距和角度布置,用于定向源成像和从记录空间中特定位置的角度产生空间信息。在古典音乐录制中,根据乐队的大小以及所需的空间和音调特性,主阵列通常放置在地面上方约2~4 m,通常布置在指挥后方。在3D 主阵列传声器中,阵列的中间层负责前面的声源成像和后面的环境成像。上层通常旨在捕捉环境以及增强感知的空间信息,除非声源在物理上升高(如舞台上方的合唱团)或垂直较大(如管风琴),在这种情况下需要垂直声源成像。有些录音师倾向于依托一个主阵列,也有一些人倾向于增加多个传声器来补充主阵列。
环境阵列仅用于录制漫射声音(反射和混响),而不是直达声,因此通常建议放置在录制场所的混响半径之外[2]。环境阵列可以与主阵列的正面中间层传声器配合使用。此方法的优势在于,由于环境阵列信号几乎不包含直达声,因此可能有更大空间来提升环境声音而不影响主声源的定位。
1.1.1 OCT-3D
OCT-3D 是由THEILE 和WITTEK 提出的4+5+0 阵列,使用OCT-SURROUND(优化的心形三角形环绕)五声道主传声器阵列作为中间层,并在其正上方1 m 处增加4 个朝上的超心形传声器,如图1 所示。OCT 前方3 支传声器中两侧采用超心形传声器,抑制了前方3 支传声器的相关性,主要设计目标是通过最小化通道间串扰来实现稳定的正面成像,后方环绕和中间C 通道使用心形指向传声器。研究表明,环绕传声器阵列的相关性可能有助于增加感知到的声源宽度,实际效果取决于声源的类型。
图1 OCT-3D 传声器阵列
OCT-3D 阵列共需要9 支传声器,其中心形指向3 支,超心形6 支。选择上层超心形传声器是为了减少传声器之间的相关性。THEILE 和WITTEK认为,由于使用ICTD或ICLD进行垂直平移的限制,不可能在中上层之间实现稳定的垂直方向的成像。所以THEILE 和WITTEK 建议,中上层扬声器拾取的应该是反射和混响,而不是直达声。对上层使用朝上的超心形传声器可以充分抑制直达声,从而拾取的主要是弥散的反射声和混响声。
1.1.2 LDK-Cube
LDK-Cube 是李大康教授基于多年的环绕声录音实践总结的一种由大间距主传声器和环境传声器组合而成的3D 传声器阵列[3]。该阵列使用八支传声器组成一个立方体,下层为4 支全指向传声器,上层为4 支心形指向传声器指向天花板,如图2 所示。各传声器之间的间距建议在5 m 以上,对于传声器的选择和摆放位置更加灵活。传声器之间的间距越大,彼此的相关性就越小,拾取到的空间信息也就越多[4]。
图2 DK-Cube 传声器阵列
1.1.3 2L-Cube
2L-Cube 是LINDBERG 开发的一种采用9 支全指向传声器排列在一个正方体上,可实现4+5+0的双层传声器阵列,如图3 所示。正方形的宽度和深度可以根据乐队的大小从0.4 m 到1.2 m 变化,而高度维度保持1 m 不变。中置传声器放置在左右传声器之间的中间位置稍前方。将乐队呈圆形布局,并将2L-Cube 放置在圆形的中心位置,以实现360°成像。LINDBERG 还倾向于调整个别乐手与传声器阵列的距离,以便为不同的音乐作品实现最佳水平平衡。2L 唱片公司使用此种阵列录制并发行大量作品,效果非常不错。
图3 2L-Cube 传声器阵列
2L-Cube 阵列使用9 支全指向形传声器。与单向或双向传声器相比,全指向传声器通常会提供更好的低频响应。此外,上层麦克风的精确垂直方向取决于所需的音调特性。该阵列经常使用均衡器配件(圆球形状)来增加高频的指向性,在垂直方向产生一些ICLD,有助于避免声像位置在垂直平面上向上移动。
1.1.4 Hamasaki Cube
HAMASAKI 和VAN BAELEN 在Hamasaki Square(HS)录音制式的基础上,通过添加4 个向上的超心形传声器来捕捉上层的环境声音,如图4所示。HS 是一种成熟的技术,用于录制常规0+5+0再现的四声道环境声音。其由4 个侧面的8 字形传声器组成,呈正方形排列。研究发现,同时使用前后通道进行环境声记录和再现,与只使用后通道相比,可以产生更大的空间感。由于麦克风朝向侧面,零点朝向前方,HS 可以充分抑制来自舞台的直达声,同时拾取来自横向的早期反射和混响声。
图4 Hamasaki Cube 传声器阵列
根据主观评估结果和基于声像定位估计,建议HS 的大小为2~3 m,这表明在传声器间距为2 m的情况下,在100 Hz 以上可以实现完全的信道分离度。建议在增加的上层以及中层和上层之间使用相同的2~3 m 间距的超心形传声器。此外,还可以在上方正方形的中心额外放置一个朝上的超心形传声器。结果显示,Hamasaki Cube 总体上比Hamasaki Square(HS)更好。
1.2.1 PCMA-3D
PCMA-3D 是HYUNKOOK L 提出的PCMA 设计概念[5]的4+5(7)+0 阵列,如图5 所示。最初的PCMA 为五声道环绕记录中灵活呈现感知距离和水平而设计的。阵列中的每个点都采用以一致方式排列的前向和后向心形传声器。通过将两个不同比例的传声器信号混合,可以创建不同方向和指向性的虚拟麦克风,从而可以灵活地控制每个通道信号的大小与混合比。
图5 PCMA-3D 传声器阵列
国内外研究结果表明,两层传声器之间的间距将不会对3D声音再现中的感知空间产生显著影响,垂直通道间时间差对于垂直成像来说是一个不稳定的因素。这些发现也成为所有其他HSVC 阵列上层配置的理论基础。也就是说,上层和下层传声器之间的间距并不会影响3D 声音的成像。
布局图表明,上层的4 个超心形传声器与其对应的中间层传声器排列在同一水平面上。垂直方向放置的传声器比中间层传声器的电平至少低9.5 dB 左右,防止声像定位向上移动。中间层和上层的心形传声器也可以“背靠背”的方式布置,使得上层的心形传声器背离声源,以获得最大的声道分离度。上层主要捕捉来自天花板的反射声,而中间层捕捉来自前方的直达声和来自后方的反射声。这将在平衡高度通道中的环境级别方面提供灵活性,而不会影响主要在中层的声像定位。这种重合布置的另一个好处是在后期制作中,3D 下混到立体声时几乎不会出现染色的现象。也就是说,当高度传声器信号与其对应的中层传声器信号混合时,将不会产生相互抵消与相位失真。
1.2.2 ORTF-3D
ORTF-3D 是 由WITTEK 和THEILE 提出的4+4+0 阵列。ORTF 是一种成熟的双通道录音技术,使用两支间距为17 cm、角度为110°的心形传声器。SCHOEP 的ORTF-3D 就是使用了窄间距定向传声器的概念。在基于ORTF 的基础上以垂直重合的方式排列的中层和上层各采用四支超心形传声器。麦克风之间的排列紧凑。中上层传声器之间的夹角为90°,由于传声器都为强指向性,提供了足够的通道分离度。另外,ORTF-3D 有室外布置和室内布置两个版本。室内采用方形布局,每对垂直传声器之间的间距为18 cm,夹角为90°,如图6 所示。而户外为矩形布局,宽20 cm,深10 cm,如图7所示。
图6 ORTF-3D 传声器阵列室内布置
图7 ORTF-3D 传声器阵列室外布置
1.2.3 Au3Dio
Au3Dio是由VAIDA提出的4+6+0传声器阵列。中间层由6 支心形传声器组成,呈六边形布局。根据SENGPIEL 的心理声学模型的计算,建议每个相邻传声器之间的间距为62 cm,以便为每个立体声段产生60°的SRA。如图8 所示,前面和后面的传声器都增加了向上的8 字形传声器,以垂直重合的方式排列。8 字形传声器可以直接分配到上层扬声器,在这种情况下,正面心形传声器应该直接指向声源,以最大限度地抑制上层信号中的直达声。
图8 Au3Dio 传声器阵列
心形和8 字形传声器可以配对成MS 制式,从而可以灵活地为中间层和上层分配信号。在这种情况下,需要将传声器阵列布置到声源高度以上。
目前,市面上已有多种HVC 阵列的3D 传声器,大体呈四面体和球形阵列,如RODE NT-SF1(如图9 所示),Sennheiser Ambeo VR(如图10 所示)以及zoom-VR(如图11 所示)。这些传声器可以理解为M/S 制式立体声拾音的三维扩展,采用一定的方式组合多个音头形成的阵列来记录具有高度、深度、宽度信息的多通道信号,称之为A-Format 信号格式,并通过这些通道信息配合Ambisonic Plugin插件去运算并形成一个3D音频,转换成5.1.4,7.1.4,B-Format 或其他3D 环绕声格式的信号。由于振膜间距较小,在高频时会导致所谓的“空间混叠”,导致声音质量以及再现中的声像定位精度和水平方面的显著差异。
图9 RODE NT-SF1 传声器
图10 Sennheiser Ambeo VR
图11 ZOOM-VR 传声器
由于声源类型、记录环境以及回放系统差异很大,因此不可能为所有阵列之间的差异得出一般性结论。然而,通过对现有国内外研究的回顾,可以总结出HSV、HSVC 及HVC 这三种不同类型的物理配置的明显差异。
在HVS 阵列中使用中上层之间的垂直间距的主要动机是漫反射声音的垂直成像,隔离两层之间传声器的相关性。众所周知,隔离度对于水平图像扩展和增强层次是有效的。大多数HVS 阵列似乎都使用了垂直传声器间距的理论[6]。而HSVC 阵列在物理上更紧凑,从而在户外音景或现场音乐会录制情况下使用更加方便。另外一个最大的优势就是3D 到2D 的下混音。当上层信号与其在中间层中的相应传声器直接混合,便于2D 再现时由于重合的性质产生梳状滤波。与HVS 阵列相比,失真度较小,特别是使用全指向传声器。
在灵活性方面,HVS 阵列比HSVC 阵列更具优势,特别是对于大型再现系统。由于间距的原因,可以更灵活地选择麦克风的指向性和摆放位置。较大的间距更有助于控制音色特征。例如,在音乐厅录制大型管风琴时,顶部麦克风信号可能会根据麦克风的垂直位置而有很多变化。上层高度可以用作创造性工具,以产生所需的音色特征。
尽管两种阵列都是在尽可能逼真地录制和再现声场,但HVS 和HSVC 阵列配置和放置背后的动机往往介于真实感和艺术性之间。现实主义和艺术性都是录音的重要因素,与创造身临其境的听觉体验相辅相成。从听众的角度来看,可以为上层设计出各种创造性的声音。例如,在音乐厅录音中,面向观众区域的心形麦克风,往往比相对未经处理的天花板吸收更多的高频,可能会录制到比直接向上的超心形麦克风更柔和的反射声。
总体而言,目前三种类型的3D 沉浸式录音传声器阵列都存在各自的优势与局限性。在实际应用中,还需要更主观和客观的研究来探索3D 沉浸式录音传声器阵列的客观参数,完善沉浸式声音质量评估标准。