徐春阳 康 健 XU Chunyang, KANG Jian
过去的几十年,声景生态学的研究表明了良好的声学环境对社会发展有积极正面的影响,声景对建成环境研究的发展使得人们对城市噪声控制有了新的理解。声景研究人员将声学环境作为一个整体进行研究,更加关注人们如何主观感知环境[1-6]。
近年来,声景标准的概念化已在全球范围内逐步进行讨论和完善。2008年始,国际标准化组织(International Organization for Standardization, ISO)成立了工作组[7],制定了ISO 12913-1:2014[8],ISO/TS 12913-2:2018[9]和ISO/TS 12913-3:2019[10]。这三个国际标准依次阐述了声景的概念化和定义,评估和测量方法,以及结果分析。尤其是ISO/TS 12913-2,强调了声景评价中主要的调查方法。对于声景的记录和再现,该标准提供了一些基本建议,例如双耳录音以及问卷中的心理学度量。对于城市中不同的开放空间,例如城市街道[11-13]与广场[14-15],已有的研究对声音在这些空间中传播的过程进行了模拟与预测。但在这些开放空间中,重现经过客观模拟的声音并没有经过充分的主观验证,而且在目前声景标准中尚未给出明确的声音重现技术指导与规范。
由于早期的虚拟现实研究与视觉显示及设计紧密相关,因此大多数虚拟现实应用都专注于研究视觉渲染,音频通常作为补充信息添加到虚拟现实体验中,而没有完全合理或真实的参考依据[16]。虚拟现实是一种感知条件可控的评价手段,与实地调查相比,不易受到外界环境变化干扰。同时在环境可控的实验室中优化声景数据收集的研究相对较少[17-18],研究人员对于再现虚拟声学环境的整体理解仍然有限。
基于这些问题,本文提出一个虚拟现实下的可听化框架,通过文献综述归纳声景研究中针对虚拟现实体验中仍未解决的问题,设计可听化实验重现视听交互体验,并对可听化结果进行主观评价校验,从而验证这一框架在可听化设计中的可行性,为完善虚拟现实可听化中的技术指标提供思路与参考。
视觉与听觉之间的相互作用可以显著影响人们在虚拟体验下对城市环境的感知。可听化是一种重现声音的技术,良好的可听化设计将会为虚拟现实使用者提供一个更加沉浸式的体验环境。在物理空间中,声源通过振动发出声音,通过介质传播,最终传递到双耳被人们所接收并感知。在虚拟现实的声景评价领域,可听化框架的讨论仍然基于相似的流程,但对声景重现而言,选择合适的声音回放方式使人耳接收并感知到声音是第一
步,声音首先需要在经过主观校验的系统中回放。确定回放方式后,声传播与声源才可以依次进行主观评价(图1)。因此,面向声景的虚拟现实可听化框架需要首先探究声音回放方式,通过对声传播的模拟,最后对声源进行模拟,设计实验并进行主观评价给出声景重现过程中的简化细节或替代方案[19]。本文提出的可听化决策框架将结合现有技术以及研究,通过再现沉浸式的虚拟声学环境,实现客观模拟与主观评价的统一。
图1 声传播路径与可听化设计框架Fig. 1 sound propagation path and framework of soundscape auralization
基于图1的框架,为归纳声景可听化中不同的研究方向,本文进行了文献综述,总结主观评价与客观模拟中尚未明确的问题[18]。通过Scopus数据库检索同行评议文章,研究主题包括“声景(soundscape)”“声环境(sound environment)”“可听化(auralization)”“主观评价(subjective evaluation)”和“虚拟现实(virtual reality)”,检索结果显示12篇相关文章(表1)。通过文献检索发现可听化研究主要集中于三个方面:一是声音回放系统的比较(单耳与双耳,静态与动态,耳机与扬声器等);二是声音在不同城市空间中传递的模拟与优化(声传播算法、材料的声学参数、声反射次数等);三是声源本身的模拟(具有一定尺度的声源)。
表1 声景可听化技术对比[20-31]Tab. 1 soundscape auralization technology comparison
对于不同的声音回放系统,凯瑟琳·古斯塔维诺(Catherine Guastavino)等人[20]在2005年同时进行了在法国巴黎与南特的现场问卷,通过2.1扬声器系统声景回放与 Ambisonics多扬声器回放以确定两种可听化技术的生态有效性。Ambisonics是一种基于声场的球谐分解的声音再现技术,用于记录和播放空间音频。Ambisonics使收听者能够体验到对空间声场的精确复制,该技术是由英国牛津大学的迈克尔·格松(Michael Gerzon)在20世纪70年代首次提出。徐春阳(Chunyang Xu)和康健(Jian Kang)[21]在2019年对单双声道回放在声景评价中的不同感知指标进行了系统的比较。他们发现单双耳回放在环境总体印象,听觉舒适度,愉悦度,烦恼度,多事件度和响度的主观评分上显示出良好的一致性。洪朱英(Joo Young Hong)等人[22]在2019年对双耳静态(一阶Ambisonics静态双耳耳机回放),双耳动态双声道(一阶Ambisonics头部追踪双耳回放)与双耳动态多声道(二维一阶Ambisonics八角形扬声器阵列)进了对比,他们发现一阶Ambisonics头追踪双耳回放和二维一阶Ambisonics八角形扬声器阵列可以在虚拟现实中重现足够的空间听觉保真度,以进行声景评估。在虚拟环境下的声景评估采用头戴式显示器作为视觉传达方式时,一阶Ambisonics头部追踪双耳回放是二维一阶Ambisonics八角形扬声器阵列的可行替代方案。
对于声景可听化中声源与声传播存在的问题,卡尔·西斯勒(Carl Schissler)等人[23]在2016年开发了一种基于头部相关传输函数(HRTF)模拟体积声源的空间音频技术,他们通过蒙特卡洛投影法使用正交基函数替代声源投影函数和HRTF中的解析解,从而对声源进行采样。在2017年,杰玛·桑切斯(Gemma Sanchez)等人[24]在虚拟现实中对步行穿越高速公路桥梁上的噪声体验进行了案例研究。他们将不同视觉设计的声屏障匹配对应不同材料的声学参数,通过简化的二维时域有限差分法(FDTD)来计算这些声屏障的传递损失。他们指出,视觉设计对整体欣赏的评估有很大影响,较矮的声屏障搭配合理的视觉设计可以有效地增加愉悦感。
根据不同的视听呈现手段,不同的可听化技术可能会导致人们对声音以及外部环境的感知差异。因此,不同声景可听化技术间的性能差异,以及对应的主观评价可比性都需要更加深入以及系统的研究与梳理,这些尚未明确的问题也是声景研究人员目前面临的挑战。本文将对可听化研究中主要的三个方面,即声音回放方式、声传播过程与声源模拟,设计可听化实验并进行主观评价,从而完善对虚拟现实下声景可听化框架的深入理解来重现更加沉浸的交互体验。
在可听化框架中,重现声景的第一步是选择适当的声音回放方式,一个良好的声音回放系统将会增强人们对虚拟现实体验的沉浸感。对于人耳而言,单声道声音与双声道声音在空间信息的传达上有着巨大的差别。为了比较这两种声音回放方式因空间信息的传达能力的差异在声景评价中的表现,需要进行声景记录、回放与主观评价以确定这两种声音回放方式真实感的生态有效性。
为记录具有代表性的城市声景,本研究在英格兰谢菲尔德市区进行了实地考察,根据不同城市空间功能与客观环境,最终选取了12个具有代表性的地点[21](图2)。这些地点包括了休闲、教育、交通和商业等功能,并在声级上横跨49.9-70.8 dB(A)。单声道与双声道传声器同时连接可携带录音机,摄像机与录音机同时工作记录在每个地点记录3 min的视听资料。主观评价在实验室环境中进行,招募了25名谢菲尔德当地的居民,他们都熟悉这些记录下来的城市空间,通过耳机对单双声道记录的城市声音进行回放,可以根据他们对这些城市空间的印象对不同回放方式下呈现的视听场景进行主观评价。
图2 单双耳声道声音评价中12个记录地点Fig. 2 twelve places for binaural and monaural sound subjective evaluation
十二个地点的真实感评价如图3所示[21],双声道的真实感(realism)平均值在一些地点中明显高于单声道回放,例如在克鲁克斯谷公园与冬季花园。在克鲁克斯谷公园记录声音环境时,野鸭与其他动物会在记录地点的周围并发出叫声。冬季花园是一个相对密封的温室,但其公共游览与参观等属性仍被认为是谢菲尔德市区公共空间的一部分,内部行人穿梭与交谈等声音也与记录地点处于相对较近的位置。对比单声道回放,双声道在这些地点中记录了更加全面的声学信息,显著地提升了声景回放的真实感。当考虑到这12个地点真实感的总体评价时,双声道比单声道的结果高19%,且通过t检验发现这种提升是具有统计学意义的(t=6.064,p< 0.05)[21]。考虑到双耳回放在空间音频中广泛使用,搭配头戴式显示器可以实现更多自由度的声景体验。因此,在虚拟现实支持下的声景评价中,双耳回放会与视觉表达的空间信息更匹配。
图3 单双耳声道下不同地点的真实感主观评价Fig. 3 subjective ratings for binaural and monaural sounds in different places
在选择合适的回放方式后,声传播过程中主观评价校验是可听化框架中的第二个问题。声传播过程中,声音的反射是影响最终人耳接收到信号重要的因素之一。为了调查不同尺寸不同公共功能广场下声音反射次数对主观感知的影响,本研究在英格兰伦敦市区进行了田野调查,并最终选取了四个公共广场[30],分别是位于金丝雀码头的卡博特广场(Cabot Square)、国王十字的粮仓广场(Granary Square)、圣保罗教堂旁的主祷文广场(Paternoster Square)和伦敦大学学院校园广场(UCL Campus),如图4所示。对这四个广场进行重新建模并在游戏引擎中实现可视化与可听化的交互。在声学空间模拟中对这四个重新建模的广场的建筑立面与地面赋予不同的声学参数,并通过调节不同的反射次数来获得声源到评价点的一阶Ambisonics脉冲响应。将这些脉冲响应与原始喷泉声音进行卷积,并附着在游戏引擎评价点上以实现动态双耳回放。在佩戴头戴式虚拟现实显示器的条件下,30位伦敦居民对放置在这四个广场的喷泉声音的沉浸感(immersion)进行了主观评价。
图4 四个用于声景重现的伦敦市中心的广场Fig. 4 four squares in central London for soundscape reproduction
评价结果如图5所示[30],在卡博特广场与粮仓广场中,参与者的沉浸感评价在不同声音的反射次数下没有明显差异,但在主祷文广场与伦敦大学学院校园内,沉浸感从一阶至二十阶反射时有了明显的提升,且这种提升具有统计学意义(方差分析p<0.05)[30]。卡博特广场与粮仓广场面积大于6 000 m2,而主祷文广场与伦敦大学学院校园的面积小于1 700 m2且这两处广场围合程度较高。对于声传播过程中的可听化,在面积较大的广场(例如大于6 000 m2)中采用较低的反射次数(小于20次)甚至衰减的直达声可以在虚拟现实下带来相似的沉浸感体验从而实现快速可听化减少实时计算负担。对于面积相对较小的广场(小于2 000 m2),声音在这些空间中将显著受到不同材料的局部扩散条件和吸声系数的影响,目前仍然需要大于20次的反射次数实现可听化,而且需要基于空间声学条件进一步精细化地分析反射次数对沉浸感的影响。可听化中的声传播模拟未来将统一实地测量、主观评价和数值模拟方法的结果。
图5 反射次数对不同声音的沉浸感主观评价的影响Fig. 5 impact of reflection orders for immersion in different squares
在了解到声传播过程中声学参数变化引起相应主观感知的变化后,声源模拟是声景可听化框架中的最后一步。对于城市中不同类型的声源,它们的频谱特征、空间位置、体积和几何形状都不相同。许多声源在远场时被认为是点声源,而对于城市开放空间而言,声源的近场体验也同样重要。在讨论近场时,需要考虑声源的尺度,而不能简单地近似为一个点声源。因此,模拟具有一定尺度的声源时也需要主观评价进行校验。
本文将城市空间中一些非点声源简化为线声源讨论,包括人群、线性水幕(water blade)与围挡的施工现场[19],并赋予这三种情景对应的三种声音,即交谈声、水幕喷泉声以及建筑噪声:交谈声被认为是声环境中被感知为中性偏好的声音;水幕喷泉被认为是花园广场中常用的人造景观,其声音通常被认为有改善声环境的作用;建筑噪声是城市中常见的噪声投诉目标,这种声音常常使当地居民备受烦恼。每种线声源的长度为10 m,并通过5、21、101个点声源来模拟三种不同的情景,每个点声源平均间距依次为2.5 m、0.5 m和0.1 m。将每种声音与对应声源的模型放置于虚拟构建的花园广场中,如图6所示,并植入虚拟现实游戏引擎之中,对人群、线性水幕与围挡的施工现场附着对应的动画以增强真实体验。测试者最终通过头戴式虚拟现实显示器进行声环境的沉浸感主观评价。虚拟环境中评价地点与线声源的距离为5 m,小于声源的尺度,三种线声源与之对应的离散化的点声源空间分辨率为22.5o、4.5o和0.9o。通过头戴式虚拟现实视觉显示器与耳机,一共有34名参与者对放置在花园广场的三种不同类型声音的沉浸感进行了主观评价。
图6 虚拟现实下重现的花园广场Fig. 6 the reproduced garden square under VR experience
评价结果如图7所示[19],三种声音的变化趋势大体趋同。用5个以及21个点声源来模拟同样长度的线声源,其沉浸感明显低于101个点声源的情况。从听觉空间分辨率的角度来看,心理声学中的最小可听角(minimum audible angle, MAA)通常被认为在1o左右,也就是人耳可以分辨水平方位1o以上的声源位置。虚拟城市环境中对不同情景的主观评价的结果基本与心理声学听觉空间分辨率基本一致,可听角从22.5o或4.5o降低至0.9o时,三种声音的沉浸感都有了显著提升(方差分析p<0.05)[19]。因此在虚拟现实可听化用多个点声源模拟有限长度的线声源时,保证足够的点声源数量将会提升空间分辨率(例如在同一水平面小于1o),这样将会让收听者无法分辨这些线声源中独立点声源的位置从而营造足够沉浸的声景评价体验。
图7 点声源个数对不同声音的沉浸感主观评价的影响Fig. 7 impact of interpolated source number for immersion under different sounds
真实感与沉浸感评价相比,真实感反应评价过程中的场景与真实存在的场景的相似程度,沉浸感评价体现由声音改变引起的对于环境沉浸程度变化。对于没有真实地点参考的场景而言,参与实验的测试者对于声音是否“真实”并没有准确的评价依据,真实感评价并不适用于这些场景的声景评价。因此,在设计声景评价的场景时,选择合适的感知指标是主观评价过程中重要的一环。
本文提出了一个面向声景的虚拟现实可听化框架。该框架设计了不同的声音回放、声传播和声源模拟方法,并通过可听化实验的主观评价结果表明这一基本框架的可行性。本文建立了主观感知与客观参量之间的有效连结,为虚拟环境下的城市声音设计提供了系统的证据:对声音回放来说,在虚拟现实支持下的声景评价中,双耳回放将更加匹配听觉与视觉信息从而增加声景体验中的真实感;对于声传播模拟而言,在一些面积较大的广场中(>6 000 m2),采用较少的反射次数(例如小于20次)可以在虚拟现实体验中保持较高的沉浸感;对于声源模拟而言,用多个点声源模拟具有一定尺度的声源时,点声源间小于1o的水平分辨率将会将会显著提升声景评价中的沉浸感。
可听化设计中得到的结论将为实际的声景评价提供积极的声学理论指导,同时也将结合更轻量化和更智能的可穿戴虚拟现实设备,对声景评价的理论与方法进行深入探索,融入到声景生态中以塑造可持续发展的城市生态未来。
图表来源:
图1-7:作者拍摄绘制
表1:作者绘制