音乐与科技学科前沿理论与实践研究
——虚拟空间中的3D音频技术

2019-01-05 01:40
交响-西安音乐学院学报 2018年3期
关键词:双耳声源录音

●刘 灏

(上海音乐学院,上海,200031)

虚拟现实技术是当下最前沿并最具实用价值的研究方向和重要课题之一。虚拟现实技术英文简称 Virtual Reality,是一项针对用户感官体验的模拟技术。[1]VR技术具有极强的专业交叉性,一个完整的VR空间的构成涵盖了交互传感技术、网络传输技术、多媒体设计技术等多种不同的技术。VR简单的来说,就是通过计算机终端进行信息采集、汇编、转换来进行模拟的技术手段,在技术飞速发展的今天,VR技术已经被运用到了非常多的现实领域当中,对于音乐空间的多维度音响描述就显得格外有意义。

VR技术的技术核心理念在于:模拟。这是一种类似于仿生学的概念,通过信息技术手段用数据对我们所认知的物理信息进行有机重建。现阶段,VR技术已经被投入到了许多的领域当中。在医学领域中,通过 VR3D建模可以精确的模拟出人体的模型器官,医者可以通过VR技术对人体器官进行解剖分析,也可将此投入到医学教学中。在军事领域中,通过VR技术塑造出极为逼真的战争场景,用于军事演练,比起传统的军事演练更具有安全性与针对性。在艺术领域中,艺术家通过VR技术让用户得到一种沉浸式的艺术体验,艺术家通过数字化信息对用户的感官进行深度的刺激,让平面的艺术欣赏形式多维化、立体化。[2]

对于VR技术来说,模拟环境、感知的深度决定了模拟化技术的成熟与否。如何真正的让用户觉得“真实”是VR技术所面对的最大的问题与挑战。人的感官是多种多样的,就目前的VR技术来说,VR目前着眼于对于用户视觉与听觉的模拟探索中。Janut公司是著名的VR制作研发公司,其针对VR技术进行了大量的制作与研究,而该公司的首席音频工程师亚当·桑默曾说过:“VR技术中,视觉占据一半的地位,而听觉占据剩下一半的地位”通过用户亲临现场对个体之间的交互进行实际观察,这种方法也是人类学家 Bronislaw Malinowski提出和推行的,这从某种意义上决定了交互的本质性概念。[3](P12)。本文我们将着眼于 VR技术中听觉模拟技术层面进行更深入的探索与研究。

一、VR中的听觉构成——3D音频

在虚拟空间的技术领域中,听觉的信息处理占非常大的比重和抽象想象空间的构建。听觉是人的重要感官之一,具有接收物理世界中声波信息的重要属性。听觉决定了人们对于空间的定位认知以及物理声源的方位感知,视觉通过图形的具现化信息来提供空间的构成而听觉则是通过人对于声波的物理反馈来进行的,在构筑虚拟空间时,视觉通过三维绘制直观的成像体验进行塑造,而听觉则完全是通过技术手段来间接性的塑造虚拟空间。

随着技术的不断发展更新,音频已经不再简单的是我们传统上所谓的声音波形,声音频谱,在虚拟技术不断发展的今天,音频已经正式升级成为了 3D音频。3D音频技术是对声场还原度要求最高的技术。例如一位著名音乐家进行了一场音乐会,3D音频技术的目的不是在于简单勾勒出这场音乐会的声场、声像等信息,而是完完全全的为用户模拟再现出音乐会的现场,真正创造出“现实”的听觉体验。

3D音频技术的基础就在于如何模拟还原出“现实”的声音感觉,这里就要提到一个重要的听觉概念-HRTF函数。HRTF函数的英文全名是 Head Related Transfer Function,直译为头部相关传输函数。这个函数定义了声音到双耳传输的整个过程,在物理学上,声源通过振动发出声音信息后,声音在普通空气的介质中以大约340m/s的速度进行传播,人耳在接收到声波后,声音信息还会通过耳廓、耳道、鼓膜等一系列过滤后才能让人接收到最终的声音信息素材。我们真正意义上可以用耳朵来观察这个世界。[4](P15)音信息进行反馈分析,包括分析声音的方位、强弱等。人的大脑像一个巨大的机器终端,而人耳作为这个终端的部件之一,具有一套独特的声音信息过滤采集分析系统,这个系统,就是所谓的HRTF系统,也是一种音效定位算法。

图1、HRTF计算图示①

图2、HRTF函数图示化演示①

这个公式就是HRTF在普通情况下的算法公式。在很多定义HRTF的定义中都会出现这个一样问题,那就是人只有两个耳朵,却能定位来自空间中四面八方的声音,这全部得益于这个分析系统。我们从公式中不难发现,人的左耳与右耳对于声音的感知是分离的,也就是说,左耳与右耳所接收到的音源信号是互有差异的。声音的方位也正是因为同样的声源到达两耳之间的信号强度、时间存在差别,所以人能够通过声音来辨别声源的方位。听觉系统理论上比视觉系统要强的多,在黑暗的环境中,一个发声体向你靠近,你无法用视觉直接捕捉到声源的方位,但是你却可以用听觉来辨别这个声源的具体位置、远近等,从而作出反应。

我们如果想要获取多维声音信息,获得有效的声音方位参数以此创造最为贴近真实的虚拟声音方位,就必须对人体获取声音位置的原理进行掌握。声音定位在声学中最基本的概念就是双耳效应,双耳效应的基本原理在于人们依靠声音信息到达双耳之间的差异值来感知具体声源所在方位。我们再具体的分解双耳效应的理念,其中最重要的概念就是“差值”。

图3、双耳效应概念图①

从图 3看,我们能很直观的感受到声源发出的声音信号到达双耳是存在差异的,能体会到声音信号到达人耳的距离存在差异。这是声音定位的第一个重要的原理,即是ITD(Inter Aural Time Delay)两耳时间延迟量差。这是声音定位中运用两耳时间差的效应,声音在空气中的传播速度大约为 340m/s,我们假设两耳之间的距离大约为30cm,声源在人面对的右侧,声源如图3所示会先到达右耳,而后到达左耳,根据时间与传播速度的关系能得到一个Δt(时间差)除非声源在人面前的正前方位置,那么声源到达双耳的距离相等,声音信息会同时被双耳所接收,所得到的Δt为0,这是声源在人耳正前方的情况,而其他的情况Δt都不会为0。在声学范畴中,著名的哈斯效应曾针对性的对于声音的时间差值进行了研究,这也是许多剧院、舞台设置声音音响系统的重要参照与依据。[5](P20)

对于声音定位信息还有一个重要的差值信息就是音量差。这个差值概念也非常好理解。声音是会衰减的信号。声波在任何介质中传播时,会受到诸如反射、散射等物理影响从而造成声音的衰减。同样的声源所发出来的声音你站在距离1M和距离10M所听到的声音响度是完全不同的,这个声音音量的差值信号在声音定位中这是一个重要的参数信息,称为IAD(Inter Aural Amplitude Difference)两耳音量大小差。同样以图 3为例,声源在我们右侧,除了声音信号的距离因素影响了音量的大小之外,声波传达到左耳时,人脑对声波信号进行了一定量的吸收,自然就存在了一定量的音量差值。

图4、人耳对待声音信息的接收解剖图①

从理论的角度看,ITD和IAD分别从时间差与音量差两个差值量阐述了声音信号的方位信息,大脑对ITD与IAD两种信号进行有机分析与整理能够辨别出声源所在的方向,但是这存在一个颇为致命的问题,就是仅采用这两种参数在进行声音定位时,往往无法对正前方、正后方、头顶以及脚下进行很好的声音信息辨别。从理论数据上来看,声音在这几个方位时到达两耳的信息差为0,这也直接导致了无法从这两个信息差值得出这几个位置的具体方位,此时,耳廓的作用就体现了出来。声音波形是物理世界中的一种基本的波形,遇到物体会发生反射的情况,不同的波形在通过外耳、鼓膜与耳廓时会发生反射形成不同的频率回馈。而耳廓的存在,使得人脑能够分辨出从前方与后方传来的声音信息的不同。ITD、IAD、人的耳廓频率振动参数,组成了声音参数的三个基本概念点,也是3D音效所要考虑的最基本的概念参数。这三个元素是HRTF的重要组成参数。

图5、人耳的构造②

HRTF作为人耳认知声音的重要函数,能够精确地反应声源到达人耳感知的过程与信息,这也是3D音频技术的核心算法概念。如果营造一个虚拟空间,想要完整地重塑出这个空间的声场以及声音信息,就要得到这个空间中所有的 HRTF滤波函数曲线,将这些曲线进行整理得到的滤波矩阵就可以还原出整个声音空间。由于人体的构成各不相同,同样的声源传达到不同的人耳中就会发生变化,所以 HRTF极具个人性与个性化,如何采集到具有一定固定标准的 HRTF函数信息从而制造最为真实的声音空间一直是音乐工程师所研究的课题之一。

二、制作3D音频的探索——双耳录音法

早在20世纪90年代,就有人采用了物理模拟的方式来进行录音以求得真实的 HRTF函数信息,这也就是演变成了“双耳录音”的技术手段。

图6、“双耳录音”演示③

双耳录音的执行方法是采用一个模拟的人形头部来进行演绎的。这种录音方法最早是由 AT&T实验室在1933年创造性地提出。当时AT&T实验室通过模拟制作出了一个类人头的模型,然后以这个人头模拟用户的头部位置进行录音制作。[6](P39)

这是双耳录音的一个基本雏形,经过时间的推移以及演变,双耳录音的录音方式逐渐成熟并且成为了3D音频制作的一种重要的技术手段。

图7、双耳录音所制作的假的人头模型②

双耳录音不同于传统的录音方式,最显而易见的就是这种录音方式可以直接从物理角度模拟出人耳听到声音的方式。前文提到的HRTF函数展示了声音到达人耳需要经过诸多因素的影响,而传统的录音方法不管是再怎么增加麦克风的数量,改变麦克风录音的位置,也无法完全再现人脑对于声音信号的接收方式。而“人头录音”将仿真人头作为人来录制声音,所取得的声音素材进一步接近真人真实听到的声音情况。仿真人头在制作上的构造、形状、密度都是仿造真人来制作的,这个仿真人头有完整的耳部构造,有整个头颅,后来甚至有的仿真人头设计出了肩膀、身体等完整的身体部件,在录音的过程中,两支麦克风被设置在仿真人头的耳部位置。采用仿真人头进行录音时,声源的声音信息传播过来会像传播到真人的耳朵中一样,经过耳部结构的摩擦、肩膀,脑袋等因素的影响传达到耳部中的麦克风中,这样所得到的声音是无限接近于真人所得到的声音的,也可以得到最为逼真的HRTF参数。

人头录音由于使用了两支麦克风进行录音,所以它属于标准的两声道录音方法,所得到的最终音频是标准的两声道,这也就是说,如果我们使用耳机进行感受的话,我们所得到的就是完美的“三维空间音场”。这种所谓的“三维空间音场”能让我们用户准确地感知到声音的方位。这种方位是360度的听觉体验,我们不仅仅是能听到声音“左边”或“右边”的声音,更可以感知到“头顶”、“身后”、“两侧”等多方位的音响信号,这种体验带给用户的沉浸感是非常好的,就好比在录制声音的过程中,让用户直接亲临录制现场,录制的过程模拟了用户大脑记忆的过程,最后在体验的过程中,能够得到无限接近于“现实”的真实感。

图8、360度沉浸式的试听体验③

但是双耳效应录制最大的弊端与现在没有普及开来的原因就在于耳机的欣赏模式。由于双耳效应模拟人脑的左右耳进行录制双声道,所以想到进行最好的3D音效体验只能通过佩戴耳机的模式,如果使用音箱外放,则会完全失去 360度音效环绕的意义。这也是现如今双耳效应所录制的作品所带来的局限性。这一点也造成了双耳录音的模式并没有被广泛地应用到大部分的音像制品中,使用耳机才能得到最佳的听觉效果这一局限性阻碍了双耳录音作品的推广。

目前大部分影院中使用的音响系统为杜比实验室所研发的Dolby Atmos(杜比全景声)系统。这种音响系统不局限于 5.1、7.1声道概念,能够配合电影的实际演出效果来呈现更具有动态的声音效果,营造出更为逼真的效果。[7](P69)例如,电影中的情节是,画面的左侧发生着剧烈的爆炸,右侧是枪林弹雨的画面,那么影院会针对电影的情节让与之对应的音箱发出对应的声音。但是双耳录音所得到的 3D全方位音频完全是根据你的“耳朵”所定制的音响声音,这种定制音频精确地重塑了用户的听觉系统所捕捉到的声音素材,相比与全景声,没有数量众多的扩声设备,就可以再现出自然的3D声音。

图9、杜比全景声的影院设置③

从双耳录音能够完全基于用户听觉体验的录音方式来看,这是对VR技术在听觉领域中最强有力的刺激。这种设计下的音频素材有一种绝对的真实性。这种录音方法似乎在告诉用户,环境、此虚拟空间就是你所亲身经历的现实世界,这样所带来的虚拟体验的可信度将会极大增加,其模拟空间的效果与深度将极大的加强。

三、3D音频在艺术作品中的表现形式

艺术家在追求艺术化作品的同时越来越在乎欣赏用户对于艺术作品的听觉体验。许多电子音乐、舞台艺术家已经把眼光放在了艺术的表现力上。法国籍希腊作曲家Iannis Xenakis是早期先锋派的电子音乐作曲家之一。在他的作品中,他会动用几个设置上百个扬声器来进行演绎。这是一种很直白的艺术表现手法,这种艺术表现手法直白的告诉听众,“我想要制造一个多维度全方位的音响空间”。受限于硬件与环境的束缚,这种全方位的布置是不可能的。由此,3D音频技术登上了舞台。[8](P99)

随着技术的不断更迭,目前的艺术作品也以全新的姿态呈现在世人的面前。越来越多的艺术家在将艺术思维进行呈现的同时也追求着用户所能得到的最佳体验。3D音频技术也同样被运用在目前许多现代化的艺术舞台作品之中。

《开天》是上海音乐学院团队创作的交互式多媒体舞台作品。这部作品取材于中国古典神话,使用两支巴松管、中国大鼓、电子音乐与多媒体实时交互向观众呈现了盘古开天辟地的雄伟场景④。整个作品贯穿3D音频制作的理念,意图为观众创造一个全方位的试听空间。以往的舞台艺术作品,无论是使用预置的音响素材还是舞台现场的实时表演,所提供给观众的艺术感觉始终是平面化的,具有空间上的局限性。

《开天》在创作中十分注重“声音”与“画面”、“演员”与“观众”、“舞台”与“听众席”的交互关系。《开天》在舞台中设置2到3支立麦、投影屏幕,构建了一个完整的立体声回放系统。鼓手与大管手演绎的声音通过立麦采集声音元素后回路进入计算机终端,计算机终端中,经过MAX/MSP以及宿主软件Cubase的实时处理响应得到处理好的声音信号,再通过回路播放来得到最终需要的声音效果。在这个过程中,《开天》为了使观众收到的不仅仅是平面的声音,活用了3D音频技术思维,设计一条音响回路将舞台中演员所感知到的音响素材回放给观众欣赏。这是一个大胆的尝试,在舞台演艺中,舞台中的听觉感知与观众席的音乐感知是有本质区别的。《开天》以舞台作为基准构建声音空间,所有的声音方位信号以舞台为基准而不是以观众看过去的平面为基准,这样带给观众的试听体验更具有代入感,而不是传统意义上的平面欣赏(见谱例①)。

《开天》在实际创作中加入了非常多的电子音色技法。这些电子化的写作技法突破传统的音乐写作思维,加入了大量的频段化的音乐素材以及音乐效果,这些效果想要通过乐器单独发出是不现实的,现场演出时,现场采集到的声音素材经过电脑终端的处理,效果器的控制最后得到艺术家想要的声音效果。可以说,艺术家不仅仅是乐队的指挥家,同时也是控制电脑终端处理的工程师。

图10、MAX/MSP音响控制工程图①

四、3D音频研究的算法指标以及行业标准

随着技术的不断更新,硬件软件的日益更新,越来越多的厂商把焦点距离到了3D音频的制作之中。VR技术的大热以及用户对于试听体验要求的不断提高,音频制作的技术要求也越来越高,能否真实地还原现实的声音状态成为了一些3D音频公司的重要评判标准。

在3D音频核心算法中存在许多重要的算法指标,制作3D音频的根本还是以计算机计算为主,如何取得算法中的准备数据成为了技术突破的重中之重,对于信息的采集程度与精度也成为评判 3D音频技术程度的重要指标。最为基础的指标之一就是 Localization。Localization是定位信号的意思。目前对于声音信号定位的研究,环绕立体声相对比较成熟,可以对 360度的声音环境进行一个优秀的模拟,而目前技术上的难点就在于定位上下360度的声音模拟。VR的最终呈现度是呈现出“现实”,3D音频、音效目前对于平面360度的声音可以进行非常好的模拟,但是对于空间化的360度的模拟还存在问题,如何将空间环绕式的声音模拟做好是行业技术先进的一大标准。

图11、声音定位的标准①

在 Localization参数的指标之外,Propagation与Occlusion也是音频公司技术水平的重要指标。这两个指标分别代表了传输与阻塞两个重要理念。3D音频技术的根本理念是模拟现实中的声音波形,其传输规律也要遵循物理世界的基本规则。声音在物理学传播中会产生反射的效果,在模拟技术中也必然要将这些反射效果给制作出来,这有点类似于对于混响的模拟制作,一个封闭的房间所获取到的反射信号与开阔的环境所得到的反射信号是完全不相同的。Propagation是反应对这些声音反射信号处理的能力参数,目的是为用户提供一个逼真的空间感。Occlusion这个指标比较特殊,它不是单纯的反应声音的物理属性的参数,而是一种映射物理世界的参数信号。举个例子,一个声源发声,你在房间内聆听以及面对面聆听的区别在于你与声源之间有一面墙壁阻断。你与声源之间的交互关系存在着根本的障碍物—墙,有了障碍物的存在,声音信号在传达到人耳的过程中会产生天翻地覆的变化,而这种障碍物对于声音的影响要素就是所谓的 Occlusion因素,目前如果能将 Occlusion做的非常到位,那么这个3D音频所达到的真实程度是非常高的,其技术也是非常领先的。[9](P129)

3D音频技术在设计与创造时的根本在于模拟与还原,在视觉画面中存在有清晰度的概念,而听觉领域中同样存在这种听觉概念。我们能给出高分辨率的图形和像素之间明显的差异,同样音频也存在有这样的对比梯度。目前对于声音素材处理较好的是Ambisonic系统。这个系统于1974年被提出并一直研究发展到今天,其根本算法是基于矢量合成的一种多通路声音系统。这个系统是一个计算系统,它在空间中模拟了足够多的扬声器系统,然后设置一个目标指向,然后让扬声器发出声音记录这些声波对于目标的作用效果,然后搜集数据还原HRTF信息。这类比于视觉领域有点像像素点组合成高清图像的概念,所得到的音频也是非常“清晰”的。

随着VR技术的日益完善,用户体验要求的日益提高,3D音频技术的发展是目前音响工程发展的必然趋势之一。无论是目前大热的VR视频影视,又或者是现在的游戏作品,声音元素已经成为了无可或缺的因素。用户不仅仅是局限于逼真的视觉元素的呈现,对于声音环境的真实还原要求也非常的高,例如现在市场上非常火热的军事模拟游戏绝地求生,完完全全地将声场声音元素作为游戏的一大部分去制作完善了。如何将现实中物理化的声场原汁原味地呈现在电子化的世界中,依然是音响工程师所要探索的重要课题。

注释:

①图示与谱例作者自制。

②图示源于姚国强《电影电视声音创作与录音制作教程》第21页与第39页,北京中国电影出版社2011年版。

③图片来源于网络。

④国家艺术基金项目支持作品,于2017年10月在上海音乐学院学术厅演出。

猜你喜欢
双耳声源录音
虚拟声源定位的等效源近场声全息算法
轻叩双耳好处多
轻叩双耳好处多
Funny Phonics
哥窑青釉双耳彝炉
funny phonics
Listen and Choose
Listen and Color
基于GCC-nearest时延估计的室内声源定位
轻叩双耳好处多