VR声音节目的制作难题及发展趋势
——从VR音频的录制及重放谈起

2020-04-16 05:29魏子凌胡泽

中国传媒大学学报(自然科学版) 2020年6期

魏子凌，胡泽

(中国传媒大学音乐与录音艺术学院北京100024)

1 引言

从19世纪末留声机的发明开始，人们就开始在声音的录制和重放等各个环节上不断地精进。最初，音频都以单声道的形式来记录和重放。1957年，美国Audio Fidelity Record公司正式将立体声概念引入了音频行业，记载着时间差、强度差等信息的立体声逐渐发展起来，其凭借高性价比、系统搭建便捷等优势，广泛地沿用至今。20世纪70年代，平面环绕声诞生，音频在水平方位上得到了大幅扩展，在历经几十年的演变，产生5.0、5.1、7.1等各种格式和标准后，人们逐渐意识到通道数的增加已无法显著提升听觉效果，便开始使环绕声向高度维度发展，配置记载高度信息的扬声器，21世纪初，带有高度扬声器的3D环绕声开始推广，人们有了更好的听觉体验。

除了重放技术的不断提高，音频领域也在随着科学技术和各种视觉媒体的发展而变迁，出现了许多子类技术，VR(虚拟现实)便是其中一个重要的技术。VR的概念最早诞生于1968年由Ivan Sutherland设计出的首台VR原型机，但仅在实验室使用，并未得到推广。[3]随后的几十年间，VR技术得到发展并初步商用，设备快速更新，但VR音频相比之下发展较为落后，受重放设备、技术缺陷、商业成本等方面的制约，尚不足以满足观众对于沉浸式听感与交互体验的需求。本文基于VR技术的原理，对目前主流的VR音频录制及重放方式进行探究，分析其发展的难题所在，并对其未来发展提供展望。

2 从3D环绕声到VR音频

说到VR音频，其相比3D环绕声格式最大的区别就是在3D环绕声基础上把听音者的身份从第三人称转为了第一人称。VR音频相当于用声音构成了一个基于听者自身的真实三维空间，这种第一人称的听感是常规的3D环绕声所无法媲美的，是一种革命性的创新。虽然目前没有很多成熟的VR音频作品或者VR电影长片，但是VR音频一定是音频行业未来的一个发展趋势。笔者认为VR音频的核心有两点：其一是基于当下先进的3D环绕声技术，能够带给听者以精准的声音定位等真实感信息，其二是能够实现第三人称到第一人称的转变，使声音本身为听者服务，笔者也将在下文分别探析这两点的概念和实现方式。

近年来，3D环绕声被广泛用于高端影院等场所，以满足人们沉浸式的听觉体验。目前3D环绕声有两种主流的制作思路：基于声道和基于对象。

基于声道(如Auro 3D)即将全部声音元素分配到现有的扬声器上，通过强度差、时间差等原理实现声像定位的制作方式。对于单声道、立体声混音，基于声道是最常见的制作方法，其不存在复杂的编解码技术，对软硬件的要求也不高，制作起来较方便。但一旦扬声器重放制式与制作环境不一致或者需要进行重放制式之间的转换，声音的上/下变换会成为一个复杂的问题，不仅需要进行一系列复杂的数学运算，而且在变换后也极易造成声像定位、相位等声音基础信息改变。

这时候，李叔和看到付玉掏出卫生纸擦眼睛，付玉的眼有些红，她哭了，她给老田生过孩子。这一瞬间，他发现付玉老了许多。她这一辈子图个啥？

针对直接记录现场三维声场空间信息，有以下三种拾音模式可供选择，它们各有优缺点，使用时需根据实际需求的不同而变化。

3 VR音频的录制

3.1 双耳拾音技术的真人头、人工头或类人工头拾音

声波由声源进入人耳是一个复杂的过程，不同频率的声音会受到人体的耳廓、头部、肩部、躯干等部位的不同影响，产生反射、衍射等复杂的物理现象，形成滤波从而最终产生定位感。每个人的生理结构都会有一些差异，而常规的拾音方式由于未考虑到不同个体这些生理结构的不同而对声音产生的影响，无法针对每位听众的个体差异来针对性地拾音和重放，而人工头拾音通过差异化地模拟出不同听者的头部模型，在人工头或者真人头的仿真耳道内放置微型话筒，使声音的拾取完全基于人体对声音的先行影响，此外还能基于头相关传输函数HRTFs(1)HRTFs：声波从声源到耳膜，途中会经过头部和外耳的作用，这一环节中声压会产生很多变化，上述变化能用一个传输函数表示，这个函数称为头部相关函数HRTFs。HL=HL(θ，φ，r，f)=pL(θ，φ，r，f)/po(r，f)HR=HR(θ，φ，r，f)=PR(θ，φ，r，f)/po(r，f)。信息，这一信息是人工头拾音技术能够在不同听者之间再现三维声场的关键。人工头拾音技术的优势除了以上几点，还有简单便携、操作简便等，但因为人工头包含了HRTFs信息，所以只能采用耳机来重放。若通过扬声器重放，会因为不同听者的不同HRTFs信息产生声染色，导致声场等声音信息的畸变。此外，听者视角转换时，两只双耳话筒容易产生相位问题甚至相位抵消，造成声场的衔接不清晰。

Ambisonics技术的A-B格式转换并不复杂，以一阶为例，我们同样可以类比成MS话筒信号中左右声道信号的转换过程，也就是将四个不同方向拾取到的信号进行叠加来得到M信号信息，三个维度的信号通过正向或反向的叠加来得到三个方向的S信号信息(如图3)。得到一阶 B 格式声音信号后，我们便可借助Ambisonics技术的专用控制单元，通过各声道的不同组合方式和比例控制获得空间任意方向和任意指向性的传声器输出，因此它能产生适合于许多扬声器重放制式的多声道信号。Ambisonics的更高阶分解后，甚至可以看作是多个指向性更尖锐的传声器的多种线形组合，能分解出方向更多、指向性更集中的声音信号。

3.2 基于场景的Ambisonics技术拾音

VR技术的发展一直比较缓慢而曲折，随着其在八九十年代初步被商用，早在1993年就有相关领域的专家乐观地做出预言：“今后的5年内，VR技术将会普及，我们将会看到超过十分之一的人在各种交通工具上佩戴VR设备”，但事实则没有那么乐观，甚至时至今天，我们依然只是在一些高端的小型影厅、展会或实验室中才能见到VR技术的使用。而VR音频的发展对比VR视频则更加曲折，笔者认为其原因有以下几点：

除了人工头拾音，目前市面上还出现了许多类人工头拾音技术，比如3Dio公司的双耳立体话筒，能通过0°、90°、180°、270°的4组话筒来完美匹配360°的画面视角与三维声场信息。这种类人工头的制作和实际应用相比纯人工头较为简便，但由于损失了大量的人体生理结构信息，HRTFs采集的完整性受到了较大的制约，空间定位易存在更多误差，前后方位也会有更多混淆。(如图1)

(1)测定HRTFs难度大：精准测定HRTFs是一个复杂的过程，还涉及场地的限制，因为需要一个无反射声的环境，一般只有在声学装修良好的消声室才能完成，一次一般也只能对一位听音者进行测试。此外，测试过程中还要保证听音者的坐姿、耳机佩戴、塞入耳部的测试话筒极为精确，并且要从各个方向播放扫频信号等参考声音信号，再经过相关软件的计算才能得到每位听音者的HRTFs信息。

在实际录音中，除了使用以上几种拾音技术记录主要的声音空间感之外，往往还需要补充记录许多声音细节，这就需要我们用类似音乐会同期录音主辅拾音方式中的辅助传声器来补充拾音。上面所述的几种拾音方式类似于拾取声音概况以及音乐厅整体空间感信息的主话筒，而在补充拾音的环节，声音可以来源于立麦、吊杆话筒、头戴式话筒、PZM话筒、领夹式话筒等，这些话筒也就相当于辅助话筒。辅助话筒录出来的声音若不是3D格式，需要进行3D的空间化处理，这样才能使其听感上更接近来自3D空间的声音[2]。

图3 一阶Ambisonics系统A-B格式转换

Ambisonics技术的优点是在适应不同格式的扬声器设置上具有很大的灵活度，它输出的信号可以根据需要解码成 2.0、5.1、7.1甚至 22.2等多种不同格式，并且还可编码成 Binaural格式，越高阶的空间解析度越好，重放精度也更高，能记录更多方位的信息，高阶Ambisonics用于VR甚至能支持任何方向的视角转换。但缺点是阶数太低则空间解析度不够好，而阶数的提高则会导致所需通道数、系统输出的数据量以及复杂程度大大提高，从而造成应用成本的提高。[7]

3.3 环绕传声器组拾音

除了上述两种拾音方法之外，目前还有一种比较常见的3D音频拾音技术，就是模仿平面或3D环绕声的拾音制式，或者借鉴环绕声的重放制式，比如借鉴5.1.4的3D环绕声重放制式，在上层架设4支传声器，下层架设5支传声器来达到目的。这种环绕传声器组的拾音方式所拾取到的声音声道分离度较好，更容易减少声道之间的相关性，且成本较低，但是声场连贯度和声场整体感觉却不如前两种拾音方式。

英语课前的准备工作就是收集和处理的过程。学生课前准备就可以初步了解学习内容,提出教材有不懂或困惑的地方。正如爱因斯坦说过“发现问题比解决问题更重要。”，收集问题就是学生激活已有知识和经验,通过字典等工具，分析新问题，为课堂学习做好准备过程。

4 VR音频的重放：耳机重放与人机交互的结合

目前市面上的VR音频大多需要采用耳机来重放，原因有以下几点：首先，耳机能为不同听音者量身定做，不同听音者之间也不会存在声音相互干扰的问题。对应地，HRTFs也是一个非常个性化的指标，只有HRTFs才能很客观真实地反映听者自身的空间听觉，解决VR音频技术应用的核心问题，使重放的声场、空间定位等方面更接近真实听音环境，总之HRTFs对于沉浸式聆听体验至关重要，也只有个性化定制的耳机才能匹配不同听众的差异。现有两种VR音频解决方案(基于对象的解决方案与基于场景的解决方案)都是将HRTFs通过软件开发工具包加载到需处理的音频信号中，计算出点声源在三维空间中的位置信息。而扬声器则很难达到上面的要求，不仅很难达到针对不同听者自适应的要求，还存在相互干扰，以及声学环境的限制，“甜点区”等问题，一旦听音者的位置不在甜点区，听到的声音定位便会发生极大的畸变。

其次，因为声源从耳机到听者耳部传输距离极短，所以耳机在频率响应等许多指标方面相比扬声器更容易实现，比如超低频响应仅需较小的纸盆和很小的驱动能量就很容易传入听者的耳部。而扬声器则不同，声波需跨越较长的一段传输距离才能传入听者耳部，这就对其制作材料提出了很高的要求。此外，声音对重放真实度和质量的要求越高，所需声道数量就越多(如图4)，这也会导致成本的大幅提高。虽然声音可以通过数学公式实现耳机与扬声器重放的转换，但是扬声器在VR音频重放中涉及到的甜点区、频率响应、不同听音者如何实现自适应等局限性如何规避仍然是需要进一步研究的话题。

大陆与台湾虽有海峡相隔，但文化同源，近年来台湾的小学数学教育的研究比较深入，通过上述教材的比较，下述几点将是教材编写和小学数学教学实践需注意的．

图4 立体声重放质量和声道数量的关系

此外，耳机重放更易实现人机交互，在VR技术的时代，对听音者头部动作的捕捉十分重要，以目前比较主流的HMD(头戴显示器)技术为例：HMD技术依靠六个旋转参数来进行人机交互，分别是从左到右的旋转轴(捕捉摇头动作)、从前到后的旋转轴(捕捉前后位移动作)、从上到下的旋转轴(捕捉点头动作)。听音者通过头戴显示器、手持控制器上的陀螺仪传感器或红外摄像头等位置捕捉设备，进而捕捉现实空间中自身的三维运动而映射到虚拟空间的听觉之中。耳机重放更易实现这种人机交互，而扬声器如果想人机交互必然需要实时跟随听众的动作旋转，这时还想保持良好的空间定位等技术指标就十分困难了。

VR音频在经过音频工作站的一系列编辑之后，需进行双耳渲染(binaural render)才能输出给耳机，渲染方法是加入现有的HRTFs信息，这样才能使耳机中的声音重放能更好地再现编辑及缩混时声音在三维空间中的位置。双耳渲染目前主要有两个环节：其一是在制作环节，其二是在客户端。在制作环节中，双耳渲染需要利用工作站中的VR音频制作插件才能完成，比如杜比全景声的VR Renderer，或通过应用上述的HMD技术来监听并进行人机交互。在客户端环节中，客户端自身需能够集成双耳渲染的功能，能够将接收到的B格式、DTX等源信号直接进行双耳渲染，实现虚拟全景声的监听及人机交互。

为了避免以上问题，人们不再通过强度差、时间差等来实现声源在扬声器重放中的定位，而是把一定数量独立的声源(即对象)放置在声场中，通过单独记录其位置、移动轨迹、电平大小等信息来存储和传输，在到达重放环节之前再进行渲染，这种制作思路称为基于对象(如Dolby Atmos，DTS等)。声音对象是一个能在重放中随时调整各个参数的轨道。这种处理方式跳出了扬声器重放制式限制，灵活便利并有较高的准确性，被众多业界人士认为是VR音频制作的未来趋势。但基于对象的制作方式也存在一些问题，比如：受通道的限制，将所有声音元素都作为单点进行处理显得不够合理，此外基于声道的缩混方式由于在终端需要对单个对象进行单独的解码，传统的缩混中有一些需要将声道混合进行处理的操作就无法进行，否则会失去单个对象的位置信息。另外，声音节目中往往有很多无需准确定位的内容，以这种思路进行制作会显得多余而成本较高。

5 VR音频发展的难题

除了的基于声道和基于对象两种声音空间技术之外，在拾音环节，其实还有一种基于场景的空间拾音技术，即Ambisonics技术(基于声场合成及复制技术的原场传声器技术)。该技术在原理上基于球谐函数，即在一个球体的表面模拟不同方向发出的单个声源作为正交基底线性组合叠加建模，在各个基础方向上的分量是一个单方向的球面谐波(2)以一阶Ambisonics B格式为例：W=S·1/√2；X=S·cosθcosφ；Y=S·sinθcosφ；Z=S·sinθ。Ambisonics技术最早在1973年由Gerzon提出，并给出了一阶系统的模型：将四支传声器的振膜按四面体的方式来排列，一般以前-左-上(FLU)、前-右-下(FRD)、后-左-下(BLD)、后-右-上(BRU)的顺序排列。直接被记录下来的4轨音频信号是A格式，但A格式不便于存储和传输，为解决这一问题，需转换成基于WYZX 四轨的B格式信号(即Ambi X格式，其广泛运用于Youtube、Spotify等平台中VR音频的交付)。对于转换后的B格式信号，我们可简单理解成MS制式的立体声拾音制式的三维扩展，M即拾取带有整个方位信息(W信号)的话筒，而S则扩展至了三维空间，三个话筒分别拾取带有前后方位信息/左右方位信息/上下方位信息的S信号，由此就能更精准地定位三维空间中各个方向的声音信息。以上仅为一阶的Ambisonics，高阶的Ambisonics通过增加通道数解决低阶空间解析度不够好的问题(如图2)，其所需通道数与阶数的关系为：通道数=(阶数+1)2.

2012年以来，诸暨市人民法院及下属各个法庭，先后设立了诉讼服务中心，由法官轮流值班，为案件当事人提供法律咨询、纠纷调解、诉讼引导、判后答疑等法律服务。对涉及婚姻家庭纠纷、邻里矛盾、小额债务等案情简单、争议不大的民事纠纷，当事人前来立案时，立案法官会发送《调解劝导书》，劝导其到驻庭调解中心先行调解。2013年以来，各法庭的驻庭调解中心累计促成3460起纠纷诉前调解成功，调解成功率达70%以上，自动履行率达98.34%。[6]

混凝土的养护时间至少为14 d，降温梯度应保持在≯1.1 ℃/d。同时必须满足以下两个条件：混凝土中心温度与表面温度相差<25 ℃；表面温度与环境温度相差<15 ℃时，方可拆除保温层和模板。

(2)人机交互精度不足：以捕捉听者头部六个旋转参数的HDM技术为例，一旦某一个旋转参数出现了些许误差，则听音者每一次朝向该方向的头部运动很可能都会造成误差，微小的误差如果逐渐累积，累积到一定程度后会导致整个声场出现明显的畸变，这会成为一个严重的问题。此外，六个旋转参数其实依然难以保证对人全部意图进行捕捉，比如现有技术多数是捕捉听音者的头部运动，而其他身体部位的运动包括耳部的移动容易被忽略。总之，人机交互的精度问题是亟待解决的。

临床操作技能是传染病临床教学活动的重要组成部分,因此在临床教学时应结合临床实际开展技能训练。首先,要求医学生必须熟悉临床操作技能的具体步骤、适应症、禁忌症、注意事项等。其次,在模型上由带教老师进行正确、规范、熟练的演示,在演示过程中带教老师应着重加强对重点、难点、注意事项等环节的讲解。如遇实体病例时,在取得患者同意的前提下,让医学生观摩实体操作过程。最后进行临床操作技能考核,以此增强医学生对临床操作技能知识的掌握。

(3)音频定位不够精确：虽然如今3D环绕声在各方面已经有了较成熟的发展，但是实现精准的声像定位仍然是一个老生常谈的问题，3D音频的声道较多，声道的堆积带来的声道之间声音信息的相关性会不可避免地造成定位的模糊。另外人机交互时随着听者头部的移动，声像定位的移动也无法做到无缝衔接，或者说十分“顺滑”，这些都是未来需要改善的问题。

(4)成本与利润不匹配：这个可以说是最直接导致VR音频发展缓慢的因素。通过上述分析我们可以发现，不管是每一位听音者HRTFs的测定、信息的存储、运算并分配到听音的设备中、还是人机交互的设备，以及相关的VR影视、VR音乐等声音节目的制作，都需要消耗极高的成本，即使采用耳机重放，每位听音者也都需要一套设备，这些成本的累积会是一个不菲的数目。而目前应用VR技术所带来的利润并不能够折抵高昂的成本。

(5)视觉技术与听觉技术的发展程度不相符：其实，纵观影视行业与其他声音行业(音乐行业、现场演出行业等)的发展，我们可以很明显地发现：影视行业中声音技术的发展和应用要早于其他声音行业。这个现象中一个重要的原因就是观众在影视节目中更多的是视觉感知而非听觉感知。正如我国的资深电影理论家周传基所述：“人对外界的感受，有80%来自于视觉，剩下20%才主要来自于听觉”。所以在影视中，听觉只是为视觉所服务的，为了更好地适配飞速发展的视频技术，音频技术才会更加主动地自我更新。而且，在视听结合的节目中，一个感官维度的技术的缺陷会被其他感官在一定程度上弥补。现有的VR录制及重放技术依然难免存在听觉随听者自身移动的不自然感或声场的割裂感，有时只有在结合视觉时听者才不会明显觉察出这种割裂感，一旦没有视觉，这种割裂感会变得非常明显，而从这又可以看出，VR音频技术对于纯粹依靠听觉的声音节目的要求会更高。

6 VR音频未来发展趋势

6.1 个性化与多感官结合

由于VR音频技术极大依赖听者的HRTFs、头部移动等自身的信息，针对VR声音节目的重放，个性化是不可缺失的一个环节，而配套的听音场合就是定制化影厅、小型听音室或家庭影院等。此外，由于相关声音技术的发展目前还不够成熟，VR声音节目的欣赏还需要依赖其他感官的作用，如视觉与听觉的结合，通过视觉的刺激来弥补听觉上的些许割裂感等，针对纯粹依靠听觉感知的音频节目，则需要3D音频定位、人机交互等技术更加成熟后才能逐步实现。

6.2 更加依赖基于对象的声音空间技术

VR声音节目中，听众是主角，听众可自由选择他们视角的方向，而声音会随着他们视角的变化而变化，观众也会更容易被声场各处变化多端的声音所吸引，比如音乐剧节目中，观众们正沉浸在乐队的演奏中，而台上的某一位演员突然入镜，观众的视线很容易会被吸引过去，而这时基于对象的空间定位技术就很重要了，其相比基于声道的声音空间技术具有很高的灵活度和准确度。音频工程师可以根据声音节目的具体情境，将声音对象准确地放置到特定的位置。

吉西他滨1 000 mg/m2，第1、8、15天静脉滴注，每4周重复1次；或替吉奥(S-1) 80mg/m2，第1～28天口服，休息14 d，共应用6周期。推荐化疗时间6个月，放化疗的间隔为2～3周。

7 小结

本文简要分析了VR音频技术到来前的3D音频技术积累，从音频录制及重放的角度讲述了基于虚拟现实的3D音频技术制作手段，最后分析了VR音频发展的技术难题以及未来的发展趋势。随着人们需求的提高和技术的发展，VR技术在未来将会获得越来越多的关注，现有的制作及重放工具也会逐渐发展完善，其将为听者提供更加真实的声场空间，实现更高的声音精度和质量，实现更为精准、效率更高的人机交互技术，以及多感官的共同作用，最终带给人们更好的体验，也将会在越来越多的场合如游戏、影视、音乐中广泛使用。

VR声音节目的制作难题及发展趋势——从VR音频的录制及重放谈起