空间声拾音方法研究及展望

2020-04-16 05:26于雅诗胡泽
关键词:环绕声传声器双耳

于雅诗,胡泽

(中国传媒大学音乐与录音艺术学院 北京100024)

1 引言

人类在录音技术的领域中已有近两个世纪的学习与实践经验。一百年前,我们从仅有纵深感的单声道时代步入立体声的“面”声场。随后,环绕声技术将听音位从“面”声场的外部被拉入内部,我们被来自前后左右的声音所包围。近年来,高度通道的加入使声音从“面”拓展成了“体”,通过电声重放系统感知到来自三维空间各个方向的声音成为了现实,空间声的时代已经到来。

空间声(Spatialized Audio)技术,是指可以重放三维声空间信息的声重放技术。空间声技术的研究其实已有近百年的历史,但一直没有合适的应用场景。而VR(虚拟现实)与8K、5G等技术的成熟,为空间声的应用与传输提供了可行方案。目前,空间声在游戏、电影电视、音乐录音中都占有举足轻重的位置,是音频技术领域最热门的话题。而如何获取带有空间高度信息的空间声音频,则是广大音频工作者目前最为关心的问题。本文将结合空间声拾音方案实例,简单介绍空间声拾音的三种技术原理。

2 双耳拾音技术

双耳拾音(Binaural Recording)技术是一种能够记录出类似人耳听感的声音信号的方法。这种拾音方法能有效的拾取具有良好空间感和临场感的声音信息。

双耳拾音技术的本质是模拟人耳听音的方式。区别于其他普通的拾音方式,人耳具有精细的空间定位能力。而HRTF(头部相关传输函数)是一个空间声源定位模型,能够反映空间中某点的声源是如何传递到人耳中(一般指到外耳道处)。利用HRTF,我们可以扩展耳机重放时的声像范围,有效避免头中效应,使声音听起来是来自各个方向的。但HRTF感知的准确度取决于HRTF数据库与聆听者本人头部特征的匹配度。

HRTF的定义是:

HL=HL(θ,φ,r,ω,α)=PL/P0

HR=HR(θ,φ,r,ω,α)=PR/P0

(1)

其中,PL、PR是声源在听音者左、右耳产生的复数声压;P0是人头不存在时头中心的复数声压。HRTF是声源的水平方位角θ、仰角φ、声源至人头中心的距离r和声波的角频率ω的函数,且与人头的大小α有关。[1]

目前,双耳拾音技术主要包括如下几种制式:人工头拾音技术、类人工头拾音技术、真人头拾音技术等。

人工头(Dummy Head)也被称为头部和躯干模拟器(Head And Torso Simulator,HATS),是最为常见、应用最广的双耳拾音技术。人工头是由声学材料制成的假人头模型,它有人头和耳朵的形状,某些型号的人工头还有躯干。人工头的形状取的是人类头部以及躯干的平均值。人工头的双耳耳道处安装有两个全指向性传声器,以此来模拟人耳听觉。常见的人工头包括:Neumann的KU100(被广泛用于音乐录音,见图2.1)、GRAS Sound & Vibration的KEMAR(有躯干,常用于HRTF测量,最初用于助听器研究)、Head Acoustics的Aachen Head(有肩部)、Brüel & Kjær的4128D/C(有肩部)。

图1 人工头:Neumann KU100

类人工头是一种只有外耳形状的双耳拾音话筒。它没有人工头传声器的完整头部形状,只有安装了传声器的外耳。这种传声器在拾取声音时因为缺少了头部和躯干的衍射,损失了一部分HRTF参数,空间感的聆听体验会比人工头差一些。3Dio的Free Space Binaural Microphone就是典型的类人工头话筒。

近几年,市面上又出现了多方向的双耳拾音类人工头话筒,以使声音匹配到360°的VR画面上。3Dio的Omni Binaural Microphone(见图2.2)就是其中的一个很好的代表,它由4对耳朵组成,每对相邻的耳朵呈90°夹角,因此它可以捕捉到水平方向上0°、90°、180°、270°四个方向的声音信号。这种拾音制式的出现可以很好的配合VR视频中视角的水平旋转,但并不能改变垂直方向上的角度切换。

图2 类人工头:3Dio Omni

真人头拾音是将两只微型传声器振膜置于听音者的双耳耳道末端,也就是耳膜所处的位置。这种拾音制式的优点就在于其效果十分逼真。相比于其他使用人工头的拾音方式,真人头耳道的存在避免了声波在几何边界条件下产生的失真,有效提升了音色和定位的真实性。值得注意的是,在使用这种话筒录音时,人不能动,需要保持头部和躯干的稳定,否则就会扰乱录音节目的声像。目前,市面上的主要真人头拾音话筒包括:GRAS Sound & Vibration的KB5000、Brüel & Kjær的HATS Type 5128、DPA4560 CORE Binaural Headset Microphone(见图2.3)。

图3 真人头传声器:DPA4560 CORE

双耳拾音技术在音乐录音、VR、及ASMR等诸多领域中都得到了应用。双耳拾音技术在拾取一些听音者熟悉或经历过的场景时,聆听真实感会更为强烈。[2]歌手林俊杰2015年的实验录音《和自己对话》是一张采用了人头录音的专辑。该专辑包括其通过双耳拾音技术录制的歌曲及一些生活中的场景,如音乐厅调音、夜晚的海边等声音。但是,相比于音乐部分的录音,歌迷普遍反应生活场景的空间感效果更真实、更有代入感。

相比于其他空间声拾音技术,双耳拾音技术真实感强,其格式易于传输和播放。而其弊端则在于HRTF参数不匹配的问题,双耳拾音中常使用人工头的HRTF参数,或后期添加的某个HRTF参数,与听音者本人的HRTF不符,可能会导致听音误差与声染色现象。

3 基于Ambisonics的拾音技术

Ambisonics是一种基于球谐函数的球形空间环绕声格式,这种格式包括了水平面以及聆听者头部上方和下方的声源。Ambisonics的独特之处在于,其传输通道不携带扬声器通道信息;在重放时,它可以根据重放系统的布局,将声源方向的信息解码,再输出给回放设备回放。[3]

球谐函数是对球面域内拉普拉斯方程的求解,而其谐波就是拉普拉斯方程的解。球面上的每个函数都是各个阶数球面谐波的和,类似于傅立叶函数,球谐函数构成了一个完整的正交系统。阶数越高,球谐函数的表达就越复杂、越精细。对应到Ambisonics中,再现的声源定位就更精准、细节就更丰富。[4]

零阶球谐函数在极坐标系中的表达就是一个球体;而一阶球谐函数则包括三个分量:三对两个大小相同、外表面相切、平面对称的球体。因此,一阶Ambisonics可以使用传统的话筒直接拾取:将一只全指向传声器、三只分别指向前方、左方、上方的规格与参数相同的8字形传声器的振膜尽量放在同一个点上即可。这种通过四只话筒信号直接组成的一阶Ambisonics也被称为B格式(B-format),四只传声器拾得的四个信号分别对应着W(全指向传声器的信号)、X(面向x轴的8字形传声器的信号)、Y(面向y轴的8字形传声器的信号)、Z(面向z轴的8字形传声器的信号)。这种直接录制B格式的拾音方法为一阶Ambisonics的拾音提供了实践上的可能。

但是,这种直接录制B格式也有一些明显的误差:三只8字形传声器性能上的差异会影响声音高频定位及清晰度、传声器的物理尺寸导致四只传声器互相影响、以及声影现象的产生……为了解决上述困难,1978年,Michael Gerzon与Peter Craven提出了一种声场传声器(Soundfield Microphone,见图4)。[5]声场传声器是由四个紧密相邻、规格相同的心形传声器单元组成的传声器,四个单元呈正四面体排列。四个传声器单元直接拾取的信号分别为:FLU(Front Left Up)、FRD(Front Right Down)、BLD(Back Left Down)、BRU(Back Right Up),它们共同组成了A格式(A-format)。A格式获取的四个信号未经处理是不能使用的。将A格式转换成B格式只需要简单的矩阵转换。[6]

图4 声场传声器Soundfield SPS200

通过改变B格式各分量前的系数,我们可以用B格式衍生出指向任何方向的一阶指向性虚拟传声器。一个B格式可以同时派生出多个具有不同指向性的虚拟话筒。将不同参数的虚拟传声器组合起来就可以得到各种各样的立体声拾音制式和环绕声拾音阵列。[4]B格式可生成的指向性包括:全指向、次心形、心形、超心形、8字形;B格式可生成的重放格式:单声道、立体声、带HRTF函数的双耳技术、5.1、7.1、10.1以及其他任何包括高度信息的各种重放格式;

目前,主流的Soundfield话筒主要有以下几种:

表1 声场传声器

前文简单讨论了一阶Ambisonics的拾音方式。相比于高阶Ambisonics而言,一阶Ambisonics仅有四个分量,还原出的声场空间分辨率较低,声源听感较为模糊、粗糙,甜点区也比较小。此时,就需要更高阶的Ambisonic来为B格式提供一些方向性更强的信息来解决。实践证明,在非常大的听音区内,中等阶数也能达到非常满意的结果。[7]在给定阶数l时,完整的球形系统需要(l+1)2个信号通道。因此,在一阶以上,用单只话筒就不存在直接获得Ambisonics信息的可能性了。高阶差分信号是使用特殊的传声器阵列拾取,通过复杂的数字信号处理技术运算得到的。但是,目前的高阶Ambisonics传声阵列在音色和噪声方面的表现还无法和传统的高质量录音话筒相比。

目前,专业领域主要使用的高阶Ambisonics传声器有以下几种:

表2 高阶Ambisonics传声器

CoreSound OctoMic是二阶Ambisonic话筒,它由8个传声器单元组成,通过VVEncode插件可以输出一组9通道的B格式信号。三阶Ambisonics传声器阵列Zylia ZM-1由19个MEMS传声器单元组成。可以利用Zylia Ambisonics Converter的软件或插件输出B格式。mh acoustics的em32 Eigenmike(见图5)是一个四阶Ambisonic传声器阵列,该阵列是一个装有32个拾音单元的刚性球体,它也有相应的应用程序和插件实现A-B格式转换的功能。

图5 高阶传声器:em32 Eigenmike

比利时乐队GOOSE专辑Synrise的制作中,将Ambisonics技术作为拾音的一部分,并结合了其他多种拾音技术,完成了空间声专辑的拾音工作。他们使用了Sennheiser AMBEO VR传声器,将其安装在摄像机上,并将输出信号通过4个SK6000无线发射器传输。这样,声像就可以随着视角的移动而发生改变。

图6 AMBEO VR传声器与SK6000无线发射器

Ambisonics传声器具有可选指向性,可灵活适应不同扬声器布置的重放系统等优点。但是,目前的低阶Ambisonics传声器仅适用于传送环境氛围信号,难以实现声源的精准定位,定位较为粗糙;高阶传声器目前在设计上有技术困难,市面上产品很少,造价昂贵。[8]

4 多通道拾音阵列

多通道拾音方式类似于传统环绕声的拾音方式,它建立在心理声学与空间感知原理的基础上,是一种由多只普通录音传声器组合成的空间声拾音阵列。目前,在空间声拾音设备的音质与成本限制下,在音乐节目制作中,我们还是主要倾向于使用多通道拾音阵列进行空间声录音。

为获得良好的音质与空间感,多通道拾音阵列应达到的基本目标有:a)所有通道信号之间有良好的分离度,以避免梳状滤波;b)相邻通道之间应存在时间差或电平差,或两者都有,以实现声像定位的需求;c)环境声的拾取应具有不相关性,以获取良好的包围感。

在本文中,多通道拾音阵列分为两种类型,一种是在现有的环绕声或立体声制式的基础上拓展而得的拾音阵列,另一种则是由多只点话筒组合的拾音阵列。

4.1 在现有制式基础上拓展的空间声拾音

1)OCT-3D

OCT-3D(见图7)亦名OCT-9,该阵列包括9只传声器。最初,设计OCT的目的是为了最小化声道间串音(InterChannel Crosstalk,ICC)。OCT的设计者Theile认为,为了保证通道间声像定位的连续性,并尽可能避免声染色,ICC应尽量最小化。他发现,当使用两个指向两侧的超心形传声器时,可以有效地减少串音问题。随后,Theile提出了一种多通道传声器阵列,两只超心形传声器分别作为左声道和右声道,还有一只超心形作为中间声道。[9]这种传声器阵列就叫做OCT(Optimized Cardioid Triangle),它具有良好的声道间分离度和定位。

图7 OCT-3D

在OCT的基础上增加两只指向后方的心形传声器,拓展到5通道的环绕声阵列,即为OCT-Surround。而OCT-3D则是在OCT-Surround上方1m处增加了4只指向上方的超心形传声器。在上层中传声器组中,四只指向上方的超心形传声器呈1m*1m的正方形。其中,左上在左声道的正上方,右上在右声道的正上方。[10]OCT-3D的主要用于录制体育赛事转播与电影中的环境声录音。

2)带高度通道的Hamasaki Square

Hamasaki Square(见图8)是日本NHK的Kimio Hamasaki提出的一种环境声拾音系统。这是一种由4只8字形传声器组成的矩形阵列,这4只传声器均指向外部,避免拾取任何直达声。

图8 Hamasaki Square

而带有高度通道的Hamasaki Square则是在其基础上垂直拓展生成的。上层传声器使用了4只超心形传声器,其水平方向的位置与中层传声器重合。Hamasaki推荐传声器间的间距为2-3m,以获得足够的低频去相干性。[11]该阵列一般安装在厅堂的后部,且处于较高的位置。不过,与其他环境声拾音技术相比,Hamasaki Square对主传声器和环境声阵列之间的距离不太敏感。

3)ORTF-3D

ORTF-3D系统(见图9)由Helmut Wittek和Günter Theile开发,该系统包括8个通道,主要用于录制三维环境声信号。该系统可以理解为是由两个ORTF-Surround上下叠加组成的。在上层和下层传声器组中,各有4个超心形传声器,形成10*20cm的矩形。

图9 ORTF-3D

此外,为了在垂直方向上定位声像,该系统将传声器向上或向下倾斜,形成90度的超心形X/Y拾音对。由于超心形的强指向性,这种双通道重合放置是合理的,且其通道间不相干性及声像定位都非常好。[12]

2 点话筒组成的空间声拾音阵列

1)2L Cube

挪威唱片公司LindbergLyd(2L)提出了一种由8个全指向传声器组成的阵列,2L-Cube(见图10)。2L的录音作品具有其独特的审美体验,其主传声器往往置于乐团的中间,使听众被所有乐器包围。[13]该阵列的设计受DeccaTree影响,各个传声器与重放扬声器直接一一匹配,可用于四个高度通道的重放(例如Auro-3D,4.5.0)。Cube的体积大小视节目类型而定,从40cm(录制小型室内乐时)到120cm(录制大型管弦乐队时)不等。[14]该阵列使用的传声器均为全指向传声器,其低频延展性会很好;然而由于全指向传声器在拾取直达声时几乎不会有电平上的损失,可能会产生通道间串音,导致水平方向定位模糊、垂直方向声像位移。因此,Lindberg更推荐使用大振膜传声器,以生成更加集中在轴向的声像。

图10 2L Cube

2)Bowles Array

Bowles array(见图11)是由David Bowles提出的一种带有高度通道的传声器阵列。它的环绕(水平方向)阵列由4只全指向传声器、中央声道的一只单指向传声器、和一个包括4只超心形传声器高度阵列组成。设计高度阵列的目的在于拾取来自天花板和侧墙较高区域的声反射。因此,高度阵列传声器指向斜上方30度的方向,而不是像OCT-3D阵列或带有高度通道的Hamasaki Square那样直接指向正上方。前面的两只高度传声器主要拾取前方的天花板和高墙反射,后面的两只传声器则负责拾取后部的天花板和高墙反射。[15]

图11 Bowles Array

同其他传声器阵列一样,该阵列的中间层和高度层的距离也视情况而发生变化。这个距离主要取决于声学空间的共鸣及高度层是否会受到屋顶的限制。如果有需要的话,也可以再额外增加一些侧面或中间的超心形传声器。

3)PCMA-3D

PCMA-3D(Perspective Control Microphone Array,透视控制传声器阵列,见图12)是由Huddersfield University (UK)的Dr. Hyunkook Lee提出的一种的三维声拾音方式。该阵列由5只心形传声器和4只超心形传声器组成。心形传声器组成了一个拾取水平环绕声的阵列,而超心形传声器则都垂直指向上方,为高度通道提供环境声。区别于其他拾音制式的是,PCMA-3D是一个所有传声器均在水平面上,但是却具有高度信息的三维声传声器阵列,4只超心形传声器(上左、上右、上左环、上右环)分别与水平方向上的4只心形传声器(左、右、左环、右环)的振膜一一重合。Dr. Hyunkook Lee的研究发现,中层传声器组和上层传声器组之间的间距基本不会对空间感造成什么影响。当两组传声器有一定高度差时,声音会发生梳状滤波效应;而当两组传声器组处于同一水平面时,即间距为0m时,声音并不会产生明显的幅度调制。[16]为防止声像升高过多,高度传声器的电平应比相应水平传声器组低7dB。这样设置上层传声器组电平,可以达到与典型三维声传声器阵列相似的空间感。[17]

图12 PCMA-3D

4)Twins Cube

Twins Cube传声器阵列(也称Zielinsky Cube或AMBEO Cube,见图13)是由Gregor Zielinsky提出的。这种阵列使用了Sennheiser的一款特殊的传声器:MKH800 Twin。Twin有两个具有心形拾取性能的换能器,沿话筒轴背靠背对齐,两个换能器的信号作为话筒的两个声道独立输出。因为每个输出信号可以独立的被输入前置放大器,Twin的指向性可以随时调整。[18]由于每个换能器的前后两个振膜是重合的,在重放时,声音几乎不可能从前方喷射到后方。

图13 Twins Cube

Twins Cube是在Twins Square的基础上形成的。Twin Square由一对在中间层的Twins,和一对位于中间层正上方的上层Twins组成。每个Twin包含两个通道,因此,Twin Square共有8个输出:左、右、左环、右环、上左、上右、上左环、上右环。

Twins Square向后位移,即可得到第二个Square,两个Square组合成一个Twins Cube立方体。它模仿了带有高度通道的重放扬声器系统的配置。录音工程师可以通过控制前后方的Square之间的延迟时间来改变聆听者的空间感。[15]

5)重合Z-传声器技术

PaulGeluso基于Ambisonic和MS拾音技术,提出了一种可以录制多声道高度信息的Z传声器技术。这种技术将一个垂直方向的8字形传声器与水平方向的传声器配对,创建出一个重合的middle-Z(MZ)传声器对。由于Z传声器可以与任何传声器搭配使用,因此在立体声和环绕声拾音技术中可以存在多种MZ传声器对。利用一个基础的MS解码器,就可以获得MZ传声器对的垂直拾音角度,以建立有效的高度通道。[19]

6)NHK重合式传声器

基于NHK22.2重放系统的录音,需要数量巨大的传声器组。NHK为了解决这个问题,提出了一种新的重合式传声器(见图14)。球体的直径为45厘米,用挡板分成8个水平部分和3个垂直部分。传声器单元安装在声学挡板上,具有小角度指向性和恒定的波束宽度,能够减少或消除串声。另外,NHK还通过使用一种信号处理技术消除来自于非目标方向的声音,有效提高了低频信号的指向性。[20]

图14 NHK重合式扬声器

目前,国内外讨论空间声多通道拾音阵列实践的文章非常少,录音师们设置传声器组的主要依据还是心理声学理论、厅堂实际情况及个人工作经验,并没有拘泥于特定的拾音制式。而上述的几种多通道拾音阵列需要进一步的音质主观评价实验,并对其评价结果进行横向对比,以便在日后的录音工作中选择合适的拾音方式。

5 总结与展望

本文通过对三种拾音技术的原理进行阐述,进而介绍了相关业态与实际应用场景。双耳传输技术主要应用HRTF函数,采用人工头等方法录音,该技术在使用耳机重放时声像定位准确;Ambisonics技术则是最适用于VR视频制作的拾音技术,它是在球谐函数的基础上基于声场的谐波分解,其空间位置信息的准确度与阶数有关,而阶数的提升也伴随着传声器设计难度的加大。在实际使用中,只能实现有限阶的Ambisonics录音。目前,我们还主要使用一阶Ambisonic的声场传声器;而多通道拾音阵列是在心理声学基础上构建的空间拾音阵列,它与环绕声阵列的原理非常相像,一些阵列就是在环绕声阵列的基础上拓展得到的。受限于成本,目前大多数三维声音节目都是通过这种技术录制的。

空间声作为近几年才兴起的一种聆听维度,其拾音方法仍有很多需要完善与补充的部分。我们亟需建立一套针对空间声拾音制式的评价体系,平衡听觉体验与技术手段的关系,寻找更好的拾音手段。另外,在双耳拾音的扬声器重放中,目前的串音消除算法仍处于理论阶段,我们需要更稳定的串声消除算法,以及更顺畅的低延时头部跟踪系统。为达到更高的空间分辨率,更高阶的Ambisonics传声器的设计需要突破技术壁垒;同时,也需要Ambisonics传声器与VR视频拍摄设备更好的兼容。

关于空间声理论及相关心理声学概念的研究已有近百年的历史,但直到最近几年,VR、AI等技术的蓬勃发展,空间声技术才初露头角。未来,随着各种媒体技术的蓬勃发展,技术在需求的推动下,空间声在各领域都将有广泛的应用前景。

猜你喜欢
环绕声传声器双耳
轻叩双耳好处多
轻叩双耳好处多
Dirac Live加持!让好效果来得更容易 ROTEL Rotel RAP-1580MKⅡ AV功放/RSP-1576MKⅡ环绕声处理器/RMB-1585五声道功放
哥窑青釉双耳彝炉
简洁又轻松的Soundbar环绕声解决方案
更简单直接的环绕声音效体验 环绕声技术的几个应用
探寻家用环绕声发展的未来究竟是简单还是繁琐
轻叩双耳好处多
群众性大合唱的现场拾音
传声器拾音技术