基于视听结合的徽州园林声景优化研究
——以檀干园为例

2024-04-15 11:21:38徐嘉雯

园林 2024年4期

王珺严敏徐嘉雯

（合肥工业大学建筑与艺术学院，合肥 230601）

徽州园林经历了千年兴衰，如今正逐渐淡出人们的视野，而檀干园作为当前保存最为完整的徽州古典园林之一，对其声景的优化研究具有重要的文化价值与现实意义。从视听结合出发，以声级、声源、声景感知三个方面构建声景评价体系，并以图像语义分割为支撑，从空间环境、自然环境、人工环境三个维度筛选出8项视觉指标构建视觉评价体系。最后根据檀干园声景评价与视觉评价的关联性分析，总结檀干园的声景现状特征。研究表明，秉承徽派建筑风格是檀干园的基本特色，依山迎水的布局形成了其以自然声为主的宜人听境，而紧临城市道路的交通现状使园林声景体验受交通噪声干扰，同时人工设备的不合理设置产生的突兀声源，也严重降低了园林入口的视听体验。因此，根据檀干园的声景现状，针对性地提出强化徽派风格、巧设隔声墙体、强化视觉层次、优化入口视听环境、提升维护水平等5点优化策略，以期能为徽州园林声景的优化研究提供参考。

徽州园林；声景；语义分割；视听结合；优化研究；感知评价

徽州园林，作为江南园林的主要流派之一，源自徽州地区，深植于徽州地域文化。以其独具特色的徽派建筑风格为核心，融入山水自然的意趣，形成了极具地方特色的园林风格。徽州园林起源于南宋时期，明清时期因徽商的崛起而发展到鼎盛[1-2]，然自清末徽商衰落以来，徽州园林逐渐衰败，再加之太平天国运动的重创，现存的徽州园林已然寥寥无几。而作为现存为数不多的徽州园林之一且素有“小西湖”之称的檀干园，对其声景的保护研究于徽州园林遗产保护具有重要的历史价值与现实意义[3-4]。

20世纪20年代，芬兰地理学家格兰诺（Granoe）将“sound”与“scape”相结合，创造了声景（soundscape）一词[5]。随后加拿大作曲家Schafer在1977年出版的《世界的音调》一书中再次提出声景观的概念[6]。国内，秦佑国[7]从人、环境、声音三者关系出发，综合多学科的定义界定了声景学的范畴。吴硕贤院士[8]将声景定义为诉诸于听觉的风景，结合国内外声景研究的趋势，综合论述了当前园林声景学的主要研究方法。国际标准化组织（International Organization for Standardization）于2014年将声景定义为“在某个场境下，个人或群体对声境的感知、体验和（或）理解”[9]。因此，视觉作为声景的重要组成部分，通过视觉指标的设计能一定程度上反映出视觉环境对声景的影响。近些年来，声景研究也开始涉及人工智能技术的应用[10]，其中语义分割（Semantic Segmentation）技术的应用最为广泛。Zhao等[11]以语义分割为基础构建声景评价体系，从而对更大尺度的城市声景进行预测，最终较为准确地评估了深圳与新加坡的声景分布特征。

综上，视觉与听觉是当前声景研究的两个主要维度，由此引发本研究的视角——视听结合的声景研究。檀干园作为徽州园林的代表，选址于徽州独特的乡村地，檀干溪穿园而过，林木葱郁、流水潺潺、鸟语花香，视听环境良好，再加上历史悠久的徽派建筑景观，是一座声景条件优越的徽州园林。但园林声景的地域化特征不足，声景的体验感欠缺，有待进一步改善与优化。以檀干园为研究对象，分别从视听两个层面对园林声景现状进行评价与关联性研究，从而总结檀干园的声景特征，进一步优化其声景环境、改善声景质量，并提出檀干园声景优化策略。

1 研究基础与调查

1.1 研究对象

檀干园坐落于黄山市徽州区唐模村落之东，是徽州地区保存较为完整的清代园林。民国《歙县志》记有：“清初建，乾隆间增修，有池亭花木之胜，并宋明清初人法书石刻极精。鲍倚云馆许氏双水鹿喧堂时常宴集于此，题咏甚多。程读山诗注言‘檀干园亭涵烟浸月，大有幽致’。鲍瑞骏题二额，俗称小西湖，今重修改公园。”可知，园林建于始清朝初年，民国改为公园，许氏富商为其母亲仿杭州西湖风景建造，民间又称“小西湖”。园林于2019年被国务院列为第八批全国重点文物保护单位[12]，现今仍是一座风景优美、人文气息浓厚的游赏性花园。

檀干园因其建于檀溪之上而得其名，又因位于村落水口处，故有水口园林之称。园林占地约十余亩，内有东、西二湖，水系与村落相连，园林与徽州村落相伴而生，依托于徽州村落优越的山水选址，拥有天籁之音的自然声景，是徽州园林的典型特征。园林空间组织自成一体，自东边重檐八角石亭——沙堤亭为起点，串联起园林十余处自然与人文景观，如姊妹亭、花香洞里天、玉带桥、镜亭、许氏文会馆、响松亭、同胞翰林坊、槐荫树等，流水声、鸟鸣声、蝉声等声音资源丰富。园内的核心景观为“镜亭”，与长堤、长廊相连，建筑体量小巧而精致，四面环水，视听俱佳。檀干园空间起承转合、开合有致，结合多样的声景类型，为本文的声景优化研究提供了大量的素材。

1.2 研究过程

如图1所示，首先通过实地调查筛选出檀干园中具有代表性的研究样本，然后分别收集样本中声级、声源、视频、图像等数据；在样本数据的基础上，对声级、声源进行数据统计，再通过声景感知实验量化声景感知指标；同时，通过语义分割环境对图像进行语义解析并构建视觉评价指标；然后通过关联性分析，验证、统计分析声景与视觉评价之间的相关性，并采用SPSS软件对声景感知问卷进行信效度检验；最终分别探究声级、声源、声景感知与视觉环境之间的联系，并以此总结檀干园的声景现状，从而提出优化策略。

图1 研究过程Fig. 1 Research process

1.3 研究数据调查

1.3.1 研究样本

在采集数据之前，还需对研究样本的数量与范围进行规范，以确保样本数据能客观地反映檀干园的声景现状。因此，先对檀干园整体视听环境进行走访调查，调查发现，园林中的景点为游客主要活动与交流的场所，故选择园林中的主要景点作为研究样本，对研究檀干园声景现状研究具有现实价值。同时，为确保调查样本数据能反映园林整体声景，研究样本之间距离还应在视听感知的范围之内，故样本的间距应小于在25 m。结合以上原则，檀干园共获取了19个样本，编号为T1-T19。同时，为便于总结园林整体特征，根据样本的在园林景区中的布局，如图2所示，将样本分为入口（T1–T3）、园林内院（T4–T10）、湖边步道（T11–T15）、出口（T1–T3）等4个区域（T16–T19）。

图2 檀干园研究样本分布图Fig. 2 Study sample distribution map of the Tangan Garden

1.3.2 样本数据采集

研究样本的数据采集时间为2023年7月9日–11日，8：00-16：00，数据采集的内容包括：（1）声级数据的测量：通过华盛昌DT-8852声级计对每个研究节点进行5 min的声级数据采集，同时为保证样本采集的声级能够反映全天整体水平，故分别采集三天中不同时间段的声级，重复三次并取平均值；（2）声源数据收录：利用专业录音笔对每个研究节点进行5 min的声源收录，用以在声源数据收集时使用；（3）全景图收录：利用专业相机拍摄收录每个研究样本中的360°全景图片，以此作为语义分割的输入数据；（4）视频收录：通过专业相机分别采集5 min的视频作为声景评价实验的基础。此外，在数据采集中还应遵循以下原则：（1）选取游客量适中的7月进行，从而防止在人流过多或过少时数据的缺乏客观性和原真性；（2）在对声环境和视觉环境进行测量时，为保证测量数据与人眼和人耳的高度统一，测量设备需保持在距离地面1.5 m以上的高度[13]；（3）采集期间均为无雨晴朗天气，从而避免极端天气对数据的影响；（4）所拍摄内容能客观反映拍摄节点的整体环境特征[14]。

2 研究方法

2.1 声景感知实验

2.1.1 感知指标筛选

声景感知评价是指通过多种声景感知指标的设计有效地探究不同声境对人主观感知的影响。Axelsson等[15]提出了一个声景感知情感质量的二维模型，将丰富度与愉悦度指标作为声景感知的两个维度坐标，通过4个象限的划分清晰地描述了声景感知的内容。然而，声景对于不同地域，其适应性指标可能是一个潜在的第三维度[16]。在不同地域中，其地理环境、历史文化、建筑风格等不同，形成了各自的地域特色，故选择特色度作为感知声景的地域特色的程度描述词，并以此作为声景感知的第三维度坐标。此外，视觉和听觉的和谐程度也是影响声景感知的关键指标[17]。综上，声景感知评价采用由丰富度、愉悦度、特色度、视听和谐度等构成的9级量表。

2.1.2 实验环境与要求

在确定感知评价指标后，为确保音频的准确性，对收录的檀干园总计15个节点的视频与音频进行校正，通过声级计调整实验室播放的样本声级与实际测量声级一致，实验背景噪声还须控制在30 dB以下，从而减少外来声源对实验的影响。为提高实验效率，增加音频的精度，对收录的5 min音频进行剪辑，最终保存每个节点3 min的视频。然后在满足基本声学要求的语音室中进行声景感知评价实验[18]，同时实验要求实验人员佩戴专业耳机，并在观看每个研究节点的视频后对每个节点的声景进行声景感知评价。本实验评价人员为40人，年龄范围在20 ～43岁，男女比例为1：1，实验人员由建筑学、城乡规划、风景园林专业的师生构成。同时在实验之前，根据国际声景标准ISO/TS12913对实验人员进行培训，以确保声景评价的实验人员具有高度的声音敏感性与专业性，从而使评价的数据具有准确性、统一性和科学性[9]。

2.2 图像的语义分割

2.2.1 语义分割模型与数据集的选择

本研究选用PSPNet（Pyramid Scene Parsing Network）街景图像语义分割模型。PSPNet模型是通过特征提取网络对图像进行特征提取，随后，利用金字塔池化技术在不同池化核上执行池化操作，最终通过双线性上采样将各个池化结果统一至相同尺寸，从而生成语义级的像素预测图[19]（图3）。对相较于FCN（Fully Convolutional Network）算法，PSPNet算法考虑到不同区域的上下文信息集合，通过金字塔池化模块，使用金字塔场景解析网络来发挥全局上下文信息的能力，因此在进行场景解析时更加准确。

图3 PSPNet网络结构Fig. 3 PSPNet network architecture

PSPNet街景图像语义分割模型主要是通过“Anaconda+PyCharm”构建的运行环境，以此对檀干园19个样本空间的360°全景图进行语义解析（图4），采用ADE20K数据集，其数据集具有多达150种语义分类，超过2.5万张街景图像，能精确地对复杂的场景进行语义解析。

图4 语义分割示意图Fig. 4 Semantic segmentation schematic

2.2.2 构建视觉评价指标

为进一步讨论视觉景观要素与园林场景之间的关系，如表1所示，分别从空间环境、自然环境、人工环境三个角度构建视觉评价指标，包含天空开敞度、界面丰富度、道路通畅度、绿视率、蓝视率、土壤裸露程度、建筑比例、人群比例等视觉指标[14]。

表1 视觉评价指标Tab. 1 Visual evaluation indicators

2.3 统计分析

2.3.1 问卷信效度检验

声景感知实验收集19个节点的有效声景主观评价表共计760份，为保证数据的科学性与可靠性，采用Cronbach’s α系数对问卷数据进行信度检验，Alpha系数为0.747（＞0.7），说明数据具有较好的一致性，数据可靠，满足信度要求。再利用因子分析检验问卷的结构效度，结果显示KMO为0.751，Bartlett的球形度检验达到显著水平（P＜0.001），数据符合效度要求[20]。

2.3.2 相关性检验

根据檀干园声景评价与视觉图像语义分割的结果，分别统计19个样本中声级、感知评价指标的平均值，再通过SPSS（IBM，v26.0）软件，采用斯皮尔曼相关性对声景感知指标与视觉评价指标进行相关性检验。

3 檀干园声景评价与分析

3.1 声级分析

既往研究表明，声级大小会直接影响人的感知，当平均声级在55 dB以下时，人们感觉比较安静，而在55 ～65 dB时，人们对声音的感受比较适中，而当声级超过65 dB时，人们的感觉则比较吵闹[16]。如图5所示，通过声级数据测量，檀干园各节点平均A声级Leq维持在41.24 dB与61.29 dB之间，多数节点声级维持在55 dB以下，且整体波动性很小，从19个样本声级的分布情况来看，入口区域、湖边步道区域声级最高，如T1西入口、T2姊妹亭、T13湖边休息台、T16水口等样本最为显著；内院区域声级低，如T4内院竹园、T8许氏文会馆等样本声级远低于整体水平。

图5 檀干园声级分布Fig. 5 Sound level distribution in the Tanggan Garden

3.2 声源评价分析

Schafer根据不同声源在场所中的影响程度将声源分为标志声、基调声、信号声，这也为当前声景研究中声源的分类提供了基础的框架[6]。标志声是指区域内最能反映场所特性的声源；基调声是指在特定区域内频繁出现的声源，作为其他声源的背景而存在；信号声也称前景声，是指区域较为突出可引起人们注意的声源[21]。基于Schafer的声源分类，对檀干园19个样本声源进行统计，并通过整合4个区域的声源构成（图6），对园林整体声源特征进行总结分析，整体呈现以下特征：（1）从标志声来看，檀干园入口区由水泵声、风声、交谈声构成；园林内院区域以交谈声、风声为主；湖边步道区域由交通声为主；出口区域则以流水声占比最高。（2）从基调声来看，4个区域以蝉声、鸟叫声、流水声等自然声为主，这体现了徽州园林融于自然、依山傍水的优良自然生态背景，而T1西入口的水泵声则显得与整体不符。（3）从信号声来看，园林各个区域中交通声出现频率最高，这点在紧临城市干道的湖步道区域尤为突出。

图6 檀干园声源构成Fig. 6 Sound source composition of the Tangan Garden

3.3 声景感知评价分析

声景感知实验，采用了檀干园4个区域19个样本的感知指标，再分别对每个样本的平均感知指标进行统计，结果如表2所示。在此基础上，使用Arcgis软件对声景感知指标进行核密度分析并可视化。

表2 檀干园声景感知评价指标Tab. 2 Evaluation indicators for soundscape perception in the Tangan Garden

如图7所示，檀干园声景感知4项指标整体分布趋势较为密切，整体呈现以下特征：（1）靠近园林内院区域感知指标较高，典型代表为T4内院竹园、T5花香洞里天、T7镜亭等样本空间；（2）靠近入口(T1–T2)、湖边步道（T11–T15）等区域的样本声景感知指标较低；（3）此外，局部样本的声景感知与整体存在差异性表征，如园林内院区域的T8许氏文会馆内院、T9许氏文会馆高台、T10响松亭声景丰富度感知评价较低，出口区域样本（T17、T19）其声景丰富度、愉悦度感知高于整体水平。

图7 檀干园声景感知指标核密度分析Fig. 7 Kernel density analysis of soundscape perception indicators in the Tangan Garden

4 基于图像语义分割的视觉评价

通过PSPNet街景图像语义分割模型对檀干园19个样本的视觉环境全景图像进行语义解析，统计结果显示，檀干园中图像语义解析的元素总类别为29种，再根据天空开敞度、界面丰富度、道路通畅度、绿视率、蓝视率、土壤裸露程度、建筑比例、人群比例等8项视觉指标的筛选出13类元素，其中花卉元素占比为0，故保留12类元素。最后经过统计方法的运算，分别得出檀干园8项声景评价指标（表3）。

表3 檀干园视觉指标Tab. 3 Visual indicators of the Tangan Garden

将檀干园19个样本8项视觉评价指标的数据导入Arcgis平台中进行核密度分析，如图8所示，檀干园视觉评价指标分布情况整体保持统一，并呈现以下特征：（1）从整体来看，靠近园林内院区域各项视觉评价指标高于整体水平；（2）入口区域、湖边步道区域各项视觉评价指标低，其中T1檀干园西入口、T12湖边临路、T14湖边空地二等样本的视觉评价指标地域整体水平；（3）部分样本的视觉评价指标与整体趋势存在差异性，如T12湖边临路、T14湖边空地二等节点绿视率远高于平均水平。

5 檀干园声景视听交互关联性分析

5.1 量化指标的相关性检验

为进一步论证声景与视觉环境之间的联系，基于SPSS软件对檀干园声级、感知指标与视觉指标进行斯皮尔曼相关性分析，结果如表4所示，声级和道路畅通度（p<0.1）、建筑比例（p<0.1）、人群比例（p<0.1）具有负相关性，和蓝视率（p<0.05）具有显著正相关性；声景丰富度与界面丰富度（p<0.1）具有正相关性；声景愉悦度与绿视率呈现显著负相关性，和界面丰富度（p<0.01）、建筑比例（p<0.01）、人群比例（p<0.05）具有显著正相关性；声景特色度与绿视率（p<0.01）具有显著负相关性，和界面丰富度（p<0.01）、建筑比例（p<0.05）具有显著正相关性；视听和谐度与绿视率具有负相关性，和界面丰富度具有正相关性。

5.2 檀干园声景视听结合关联性分析

上文通过SPSS相关性，对声级、感知评价指标与视觉评价指标的相关性，结合上述对檀干园声景与视觉评价指标分布特征分析，分别探究声级、声源、声景感知评价与视觉评价之间的关联性。

（1）从声级与视觉评价指标来看，声级与建筑比例存在一定负相关，表明在园林空间中，建筑作为围合与限定空间的手段，能有效降低声级的水平。此外，声级还与蓝视率存在显著正相关，这表明水元素增加了园林空间的整体声级水平。

（2）结合声源评价与视觉评价指标来看，交通声作为与整体声源突出存在，主要集中在湖边步道区域中，这与以自然声为主的园林整体声源存在显著的差异性。同时，在湖边步道区域中，T12湖边临路、T14湖边空地二等节点的绿视率远高于平均水平，这表明高植被覆盖的绿化水平不足以隔绝交通声对园林的影响。

（3）从声景感知与视觉评价指标的相关性来看，声景感知指标与界面丰富度呈现正相关，表明视觉元素越丰富越能够强化声景的感知；声景感知指标与绿视率存在明显负相关，即檀干园中树木、草地、植物、花卉等元素降低了整体声景的感知，这与檀干园植物配置单调、缺乏维护和美化息息相关；声景感知指标与建筑比例存在明显正相关，这体现出檀干园依托于徽派建筑风格的艺术美感能有效提升声景的感知；声景愉悦度、特色度、和谐度与人群比例存在显著正相关，说明一定程度上的人景相融能增加园林中的声景体验；此外，视听和谐度与土壤裸露程度正相关，这说明在土壤裸露的园林空间中，因自然化水平跟高、人工干预少，使得其视听环境更为和谐。

6 基于视听结合的徽州园林保护与优化策略

结合前文，基于视听结合的檀干园声景现状的分布特征可知，在檀干园中，扎根于徽派地域文化的地域背景，使其以徽派建筑为核心的园林风格营造了良好的历史氛围，同时园林整体依山迎水的布局，也形成了以自然声为主的宜人听境。而紧临城市道路的交通现状，使园林声景体验深受交通噪声干扰，同时人工设备的不合理设置产生的突兀声源，严重降低了园林入口的视听体验。因此，根据声景与视觉评价关联性分析，探讨了檀干园中声景与视觉环境之间存在联系，并以此作为檀干园声景优化的主要依据，针对园林中声景与视觉环境存在显著差异性的样本，综合提出5点优化策略：

（1）秉承徽派风格，强化以徽派建筑风格为核心的园林特色。结合声景与视觉要素的关联性分析发现，建筑比例与声景感知呈显著正相关，这表明在园林的感知中，以徽派建筑风格为主的园林风格，极大地提升了园林的声景体验。

（2）利用建筑隔声，巧设隔声围墙，削减交通噪声干扰。结合前文可知，适当设置建筑物围合，可降低声级的干扰，因此在园林北侧紧邻城市道路附近，设置具有徽派建筑特征的围墙，不仅能削弱交通声的干扰，同时还能提升徽派特色。

（3）强化视觉层次，增加景观丰富度，提升声景体验。在檀干园中，视觉丰富度能提升园林的声景感知，檀干园中绿视率占比最高且与声景感知负相关，故应适当设置景观小品，提升视觉的层次，增加景观视野的丰富度，塑造“隔而不塞，通则不达”的空间意境，丰富园林的声景体验。

（4）优化入口空间，改善视听环境，减少突兀声源。入口空间作为园林游览的开端，是游览的第一印象空间，因此入口空间的声景感知尤为重要。而在檀干园入口空间中，水泵声作为突兀声源与以自然声为主的园林整体存在显著的差异性，同时入口空间的声景感知低于整体水平。因此结合前文，可通过设置景观小品，丰富视觉体验，提升整体声景水平。另外，还可通过迁移水泵等基础设施，减少突兀声源，改善视听环境。

（5）提升维护水平，美化自然环境，增添园林艺术感。经上文分析可知，檀干园中树木、草地等元素降低了整体声景体验，主要是因为园林自然环境缺乏维护与美化，故应当提升维护水平，结合徽派建筑特征，对自然景观进行美化维护，增强园林整体的艺术感。

7 总结

本研究选取徽州园林檀干园为研究对象，以视听结合为出发点，将声景与图像语义分割技术融合，深入分析檀干园的声景现状，并以此剖析檀干园声景中存在的问题，从而提出保护与优化策略。近年来，随着人工智能技术在计算机视觉领域的迅速发展，基于文字的图像生成技术得以实现，这为基于视听结合的徽州园林声景研究提供了新的可能性。

注：文中图表均由作者绘制。

基于视听结合的徽州园林声景优化研究——以檀干园为例