3D音频技术的还音原理分类研究

2022-07-13 07:15尚科臣

河西学院学报 2022年2期

尚科臣

（安徽师范大学音乐学院，安徽芜湖 241000）

1 引言

3D（3-Dimension）音频技术，即三维音频技术，它是指与传统单声道、立体声、环绕声技术相对，以听音者为中心，在其所感知的双耳前后（纵深）、左右（水平）、上下（高度）三个维度上均可感知到声音信息的技术.在不考虑房间因素影响的条件下，传统的单声道技术的职能可以归为听音者可感知正前方的声音信息；传统的立体声技术职能则归结为位于听音者前方60°范围内的锥形空间（即扬声器系统）或者180°范围内（即耳机系统）的声音信息；环绕声技术则覆盖听音者水平环绕360°范围空间内的声音信息.而3D音频技术的出现比较深刻地改变了听音效果，它与上述三种技术最大的区别是加入了高维度信息，使传统覆盖听音者水平360°的听音区域扩展至听音者所在的整个三维空间，令听音者沉浸在整个虚拟3D声场中，带来无与伦比的逼真享受.

人耳对空间内声源位置的感知，主要是由双耳效应、哈斯效应、德·波埃效应等决定的.简单来讲，对于某一固定声源发出的声音，在自由场内的听音者，人耳对其方位的感知主要受双耳间的时间差（ITD Inter Aural Time Delay）、强度差（IAD Inter Aural Amplitude Difference）及音色差几个因素的影响［1］.人类双耳之间的间距大约为17cm.当声源处在人头正前方或者正后方时，双耳至声源的物理距离一致，因而时间差大致为0；当声源偏离上述位置，左右耳至声源距离产生变化，双耳间信号存在时间差.同时，当声源偏离正前方、正后方时，一只人耳在声源偏向的一侧，另一只人耳处在人头遮挡区域内，处在遮挡区域内的人耳听到的声音与声源偏向一侧的相比，就存在一定的听音强度差.在人头部的遮挡产生强度差IAD的同时，耳廓的遮挡也会产生一定的强度差.不仅如此，人头、耳廓的遮挡也会对声音信号的特定频段的传送和听音产生影响，造成人的双耳间信号存在音色差异.

不论声源处在空间内什么位置，当人耳接收来自声源的声音信号时，双耳间信号的时间差ITD、强度差IAD、音色差异共同作用于人脑听觉中枢，让听音者感知到声源所处的物理方位.而立体声、环绕声、3D音频技术等均在还音时让听音者产生上述三个因素中的一种或几种，这些因素作用于听音者听觉中枢，能让听音者感知到声源所处的位置.但实际在日常生活中，人耳对声源的定位远非前文所述受几个因素影响那么简单，实际的空间特性、声源特性，介质特性、视觉补充等等众多因素，都会影响实际人对声源方位的感知，人类听觉系统是一种复杂而精密的感受系统，直到今天，在人类听觉方面仍然有许多未知的领域.

因此，从还音原理的角度出发对各种音频技术加以整理和分类，能够帮助人们更加深入地认识音频技术的优缺点，有利于人们根据不同的场合按照需要选取音频技术，也有利于从业人员能够针对性地优化和改进现有音频技术，达到技术上的进步和完善.由于目前市面上存在着多声道、多维度的新兴音频技术市场，也有名目繁多、良莠不齐的现象，本文特别针对这种情况，从还音原理的角度出发，对3D音频技术进行了分析和归类.

2 3D音频技术的还音原理与实例

还音是指通过各种技术和设备手段，把收录在各种光碟和磁带等介质里的声音信号，由数字信号或电磁模拟信号再还原为声音的过程，它是一个技术性较强的过程.目前市面上常见的技术名目虽然繁多，根据其还音特性，均可归纳为以下三大类：基于声道及声道群的3D音频技术、基于波场合成的3D音频技术和基于人头相关传递函数的3D音频技术.

2.1 基于声道及声道群的3D音频技术

基于声道及声道群的3D音频技术是目前应用最多、最为普及以及上下变换兼容性最好的一种技术，其还音原理是基于传统的声道概念，同时会在现场增加更多不同高度的扬声器.还音时，单个扬声器可以作为一个声道或由多个扬声器共同组成一个声道，声音素材可以在某个声道中回放，或在不同声道间自由运动.这些都将取决于声音设计师的实际需求.常见的技术如Dolby Atmos全景声、NHK22.2、Auro3D、及我国具有自主知识产权的WANOS全景声技术［2］.

Dolby Atmos全景声技术在传统5.1声道影院布局的基础上，增加了观众头顶上方的扬声器组，并且增加环绕声扬声器及低音扬声器的数量. 在声道方面杜比提出“声音对象（Object）”及“音床（Bed）”的概念.在原理上，“声音对象”可以在任何单个扬声器之处出现，“音床”则是可以由多个扬声器组合，进行声音回放.其本质还是基于传统声道及声道的组合，即声道群.在声音设计时，诸如快速移动的声音素材，可以通过“声音对象”的方式将素材自由分配到相关扬声器并在它们之间移动，形成精确的声像定位.比如影片中快速飞过观众头顶的飞机轰鸣声、子弹穿梭的声音等等.那些诸如氛围性音效、音乐等声音素材，可以通过“音床”的方式，实现多个扬声器组合成声道群回放，增加包容感与氛围感.

Dolby Atmos 全景声技术是目前相对普及率最高的3D 音频技术，有显著的优点，图1 是Dolby Atmos全景声扬声器系统布局的俯视图［3］.它是传统影院式5.1系统的升级，这就为现有环绕声系统改造提供了便利.同时Dolby Atmos 全景声系统也可兼容回放传统环绕声格式音频，为不同还音格式提供了很好的兼容性.但是目前Dolby Atmos全景声技术的专利仍然在美国的Dolby公司，不论新建这样的影院，还是影片采用此标准制作，均需交纳一定的专利使用费，因此Dolby Atmos全景声技术在我国三线以下城市的普及度并不是很高，大量的小影院依然采用的是传统的环绕声技术.

图1 Dolby Atmos全景声扬声器系统布局俯视图

2.2 基于波场合成（WFS）的3D音频技术

基于波场合成（WFS Wave Field Synthesis）的3D音频技术目前的应用还处于探索阶段，波场合成是指利用大量的扬声器单元，依据波动基础理论的惠更斯原理来还原原始声场的技术.惠更斯原理是1678年由物理学家惠更斯提出的，即波从一个给定的波阵面向前传播，该波阵面上每一个点都是同相位的，每一个点都可以看成是发出新的次波的波源，这些次波在任何位置处的新的波面的包络就可以看成是新的波前.因此，可认为音波是由原始声源传播出来的或者是由分布在波前的二次声源传播出来的［4］.

要还原一个原始音波场，势必需要大量分布在空间内、按照特定算法设计安装的扬声器阵列，同时需要严格控制每个扬声器的辐射特性及频率响应特性，以保证多个扬声器的声音在空间内传播时避免出现相互的干扰现象.而扬声器阵列的设置需要符合空间奈奎斯特定理的要求，也就是说，假设若要精确还原某一频率的声音，扬声器之间的间距应该小于这个频率对应的波长的一半.根据这个定理计算，若要还原人耳听力上限20kHz的音频信号，需要的扬声器的中心轴间距大约为8.5mm，若要实现这样小的一个扬声器中心轴间距，以现有扬声器制造技术还非常难以达到.若想减少扬声器数量或增大扬声器间距，就会使得在超过空间奈奎斯特定理的频率信号处产生失真.这就使得真正能够应用这一原理的技术非常稀少.

目前大多数技术还停留在实验室阶段，如2007年德国柏林工业大学为H0104演讲大厅安装的由832只扬声器构成的扬声器阵列，但是仍然不能满足空间奈奎斯特定理的要求.同时，在构建由大量扬声器组成的扬声器阵列时，多个扬声器输入信号的传输与路由分配也是一个巨大而复杂的工程［5］.

现今出现在市场上的常见的波场合成技术是由德国IOSONO公司提出，并与上海费迪曼逊四维公司的合作下推广的“四维全息声”技术.图2是费迪曼逊四维公司实验室示意图.该技术系统大致由水平、侧上及顶部三层扬声器组成，旨在还原原始音波场.共用了125只扬声器，在水平一层的扬声器排布较为紧密，在侧上及顶部扬声器的排布非常稀疏.即便是在水平平面，这样的扬声器间距也与奈奎斯特空间定理相差很多.因此对于高频的声场重建，该系统也无能为力，但这并不代表该系统没有实际应用价值.在日常的声源中，较高频段（10kHz-20kHz）更多的是泛音成分，在针对没有很多高频成分的声源的还原时，该系统还是能够产生较为满意的效果.若考虑实际应用价值，这样一个由大量扬声器构成的系统，无论在造价、系统维护、适用场景等因素与其他技术相比，其竞争力还是较小，因而在实际采用的案例依然十分稀少.

图2 费迪曼逊四维公司实验室

2.3 基于人头相关传递函数（HRTF）的3D音频技术

人头相关传递函数（HRTF Head Related Transfer Function）是指从自由场中声源到听众人耳道内部位置之间的声学传递函数，它不但对这一传输过程进行了函数的描述，而且在耳机或扬声器回放中创建沉浸式虚拟声学环境.综合人头部三维形状、耳廓形状等对原始声音的影响，人头相关传递函数HRTF与人头部的大小形状、双耳间距大小形态等因素息息相关.因而HRTF的特性与不同人头部特征有明显关联.若要重现听音者对自然声场内声源的感知特性，只要能够采集到听音者的特性HRTF，就可以重现这一声音.现有常见的使用耳机来还音的3D音频技术，绝大多数都是基于HRTF的技术.若使用扬声器系统还原基于HRTF技术的3D音频，当扬声器重放的信号到达听音者时会重复叠加HRTF，同时扬声器间的声道信号存在串扰，也会对重放产生不利影响，因而HRTF 3D 音频更多采用耳机来还音.现有技术一般是采集人头相关脉冲响应HRIR（Head Related Impulse Response），HRIR是HRTF的时域表示，不同高度、不同距离、不同方位的信号均需分别采集，形成一定数量的HRIR 库.在还音时，调用对应的HRIR 采用卷积的方式，还原经HRTF 运算后的信号.但这个技术也存在一定缺陷，如前文所述，HRTF 是一个高度个性化的系列参数，不同性别、种族、年龄的人之间的HRTF相差甚远.因此，现有的技术一般只能采集有限数量的人群，而无法做到针对性很强的个性化.同时，目前已有的HRTF数据库大多是针对特定型号的人头模型进行采集，也无法针对听音者进行个别优化.

目前常见的基于人头相关传递函数HRTF的3D音频技术有声灵多媒体科技（上海）有限公司开发的Smyth SVS虚拟仿真多声道音频技术、美国WAVES公司开发的NX虚拟环绕声技术.

Smyth SVS技术利用空间内任意位置最多16个扬声器分别回放扫频信号，经放置在听音者耳道内的传声器拾取听音者由自身HRTF渲染后的信号，经反卷积后得到HRIR.在耳机回放时，处理系统只需调用对应声道的HRIR，经卷积运算后输出，便得到逼真的虚拟声场.该系统的优点是可以采集个性HRTF，而且原始多声道的扬声器位置可任意摆放，经耳机还原后定位与声场空间感效果极佳.不过，它的缺点也十分明显，它不能定位生成非原始扬声器所在位置的声源，且原始声源的最多数量为16个.HRIR必须由先前固定摆放的扬声器回放扫频信号后得到.

WAVES的NX技术与Smyth SVS技术类似，只不过虚拟声道数量有限，为预置的常见单声道、立体声、5.1和7.1声道及Ambisonics虚拟声场几种.虚拟扬声器位置可以在水平方向自由调节，也可以搭配头部运动追踪器，实现模拟人头部运动时耳机内声场的同步变化，效果逼真.同时还预置了耳机型号，可以针对特定耳机进行频响曲线修正，也具有房间空间感的调节选项.图3是Waves NX 插件界面示意图.在HRTF 库的运用方面，用户可以测量头围大小，输入系统，系统以匹配最佳HRTF，做到了有限的个性化.在听感方面，虚拟环绕声声道的定位较为准确，总体听感较好.它的缺点和Smyth SVS技术类似，无法做到生成一个可以还原任意位置及数量声源的虚拟声场，有虚拟声源可选位置及数量的局限.略有不同的是，Ambisonics 格式信号的处理，必须事先由支持Ambisonics技术的特殊传声器录制，而后经由对应的扬声器进行回放或使用耳机回放NX技术虚拟的声场，本质上是一种对原始空间内物理声源的录制和回放重塑的过程，但其局限性在于它无法直接构建一个特定声场，并将所需声源定义在任意位置上.

图3 Waves NX插件界面

3 结论

本文对目前常见的3D音频技术从还音原理上进行了总结和归类，将其划分为三大类，即基于声道及声道群的3D音频技术、基于波场合成的3D音频技术和基于人头相关传递函数的3D音频技术.这三类音频技术各有其鲜明的优缺点，主要体现在以下三方面：

1）从还音效果上讲，波场合成技术是从物理学角度出发，依据惠更斯原理，理论上其还音效果最接近原始声场.听音者的听音区域不受限制，在不同听音位置接收到的听感均不相同，最接近原始声场内的听音状态.其缺点是，在实际应用中难以实现大量近距离扬声器的阵列组合，对于高频还音效果不佳，制造成本高昂，普及难度大，目前还停留在实验室研究阶段.

2）基于声道及声道群的3D音频技术是原有立体声、环绕声系统的扩展，兼容性佳、实现容易、成本可控，是目前应用最为广泛的技术.但是，在实现精确声像定位方面与波场合成技术相比略有欠缺.此技术系统由多层扬声器组成，一般适用于影剧院、户外演出等大型场合，个人用户实现成本较高.

3）基于人头相关传递函数的3D音频技术使用耳机还音，成本低，终端易于实现，还音效果好，十分适用于个人用户.但其相关技术还有待发展，相对应的处理软硬件系统有待普及.目前，它是很有发展前景的3D音频技术.