双耳强度差的空间水平方位角感知特性研究

2021-09-28 11:23郭文静
软件导刊 2021年9期
关键词:双耳方位角声源

郭文静,王 恒,张 聪

(武汉轻工大学数学与计算机学院,湖北武汉 430023)

0 引言

随着互联网技术及计算机技术的快速发展,VR(Virtu⁃al Reality,虚拟现实)、3D 影院、立体环绕音乐等走向大众,使得3D 音视频技术成为热门研究领域。为获得更好的空间沉浸感和更高的编码效率,学者对3D 音频的双耳线索空间方位感知特性进行了较多研究。人类感知声源位置最基本的理论是John[1]提出的证实人耳判断声源方位的基于双耳线索差“双工理论”。耳时间差(Interaural time differ⁃ence,ITD)在低频声源定位上起着主导作用,双耳强度差(Interaural level difference,ILD)在高频起着主导作用;Yost[2]证实了在0°和±90°之间的ITD 的JND 值与水平方位角呈线性相关。超过±90°时,声像会出现在多个位置,通常在头部两侧,具有ILD 刺激的水平方位角与高达4~15db 的ILD 的JND 值线性相关;Grantham 等[3]证实M 最小可听角(MAA)阈值在水平面最低,垂直面的MAA 阈值最大。在特定频率区域内,对角线60°呈现的音频信号的ILD 可能比水平呈现的具有相同水平面范围的音频信号ILD 更大;Co⁃rey[4]证明 双耳线索ITD 和ILD 的JND 值随着双 耳频 率之间的差异变大而增大,其值随着频带的宽度变窄而增加;Hartmann 等[5]证实自然产生的ILD 物理上强度足够大,对低于1 000Hz 的声源定位产生影响。当ILD 增大到较大时,前后方位会产生混淆,音调定位于过渡段的关系比与IPD(interaural phase difference,双耳相位差)的关系更直接;Watanabe 等[6]证实了头相关传输函数(HRTF)与ITD/ILD的个性化可能受到非个人HRTF 频谱的影响;Goupell 等[7]证明由于耳间去相关,ILD 的JND 大大增加。如果添加了分辨良好的异质性干扰物,则ILD 的JND 取决于频率,并且当目标频率接近1 000Hz 或4 000Hz 时性能最差;Laback等[8]证实ILD 感知中各种时间影响,包括双耳效应,很大程度上归因于单耳周围听觉处理,包括不同前后边界的目标ILD 阈值以及具有不同耳间相关性的ILD 阈值;Chantal等[9]测量了低频或低频干扰(模拟听觉目标)的耳间时间差(ITD)和耳间强度差(ILD)的辨别阈值,证明双耳干涉(在ILD 更为一致)和物理光谱重叠(在地球上)的影响,在1 000~3 000Hz之间减少光谱重叠会持续提高相对灵敏度。

人的听觉系统在辨别空间的声源方向主要依赖双耳线索ITD 和ILD,当声源在水平方向移动时,双耳时间差(ITD)和双耳强度差(ILD)的值也在发生改变,但人耳不一定立刻感知到这时声源位置的改变。只有当双耳线索ITD或ILD 达到某一个阈值时,即恰可感知值(Just noticeable difference,JND)[10],人的双耳才会感知到空间声源位置发生了改变。大量研究发现,双耳线索ILD 和ITD 的恰可感知值JND 会受到音频信号的频率、信号类型、声源距离等因素影响。对于高频率音频信号,水平方位声源位置起明显定位作用的是双耳强度差(ILD),低频率音频信号则是双耳时间差ITD 在水平方位上作用明显,而有些频率是双耳线索共同作用[11]。参考音的角度改变也会影响双耳线索的JND 值。研究表明,声源从中垂线向人耳两侧移动时,双耳强度差(ILD)的JND 是减小的,双耳对声源的定位也越来越模糊[12]。

以上研究表明人耳听觉系统在声源定位过程中,利用双耳强度差(ILD)对空间方位角的感知是敏感的,也有相关理论证明水平方位角上的声源与双耳强度差(ILD)和频率存在关系[13],但研究存在以下不足:①笼统选取某一频段的频率研究双耳强度差(ILD)的感知特性,缺少对频率细致的分类研究;②鲜有考虑以水平方位角作为参考音频进行双耳强度差(ILD)感知特性研究。本文结合以往对双耳强度差(ILD)与频率等因素对声源定位的影响研究,以水平方位角媒介选取5 个频带(包括低频、中频、高频)下9个角度的音频作为参考音,并根据提取规则生成的测试音组成测试序列,进行双耳强度差(ILD)感知特性研究,得到频率与水平方位角和双耳强度差(ILD)的函数关系,以进一步提高空间音频编码质量。

1 空间音频编码

传统的双声道单层面立体声技术已不能满足市场需求。为了获得更好的立体感受与空间沉浸感,需要在多个独立声道的数字音频回放系统中增加播放音频的独立声道数,然而声道数的增加有利也有弊,有利的是能够增强音频的空间感,不利的是数据量会变得很大。传统的音频编码技术将多声道音频信号分离,分离后形成独立的单个声道信号再进行编码,这种编码方式带来巨大的数据量,给存储和传输带来巨大压力,让编码效率变低。空间音频编码采用下混技术,将多声道信号转换为单声道信号并提取空间参数表征声源位置(ITD、ILD、IC),实现了高效编码,降低了编码率,提高了传输速率,最后人们能完全听到逼真的“现实”声音而不是“现实主义”的声音。

空间感知线索双耳时间差(ITD)、双耳强度差(ILD)和耳间相关性(IC)[14]提取方法为,用时频分离多声道的音频信号,再划分多声道音频信号的子带频谱,最后从划分出的子带频谱中提取空间参数。针对双耳强度差ILD 线索的提取,设x1(t)和x2(t)为输入信号对应的子带能量比,计算公式如下:

空间音频编码技术主要针对3 个空间参数进行提取:双耳时间差ITD、双耳强度差ILD 和耳间相关性IC。双耳时间差主要作用在低频,因此ITD 的提取主要在低频区域,双耳强度差主要作用在高频,所以ILD 的提取主要在高频区域,耳间相关性IC 在全频带范围提取。目前空间音频编码领域主要关注的问题是空间参数的提取和量化,本文针对这一问题对水平方位角的双耳强度差(ILD)进行感知特性实验。考虑人耳对不同频带的敏感度不同,提取双耳强度差(ILD)的空间参数,在各个频段对方位角的双耳强度差(ILD)进行编码。该方法大大减少了空间声场信息的冗余,从而降低了码率。

2 实验设置

2.1 音频数据预处理

音频数据库设计和改进是进行空间方位感知研究的关键,获取和处理音频数据的方法有很多,但是大多数都是根据音频的信号类型、音频的频率、滤波技术、音频格式等属性。文献[2]ILD 的值分别选取为0dB、9dB、15dB,在水平方位上测量方位角与双耳强度差(ILD)的关系;文献[5]针对低频250~750Hz 正弦音的自由场源定位,研究了双耳强度差(ILD)作用;文献[6]从听者的人体测量学参数估计听觉时间差(ITD),通过将非个性化HRTF 的ILD 替换为听众的HRTF 实现HRTF 的个性化;文献[15]利用临界频带选取250Hz、500Hz、1 000Hz 和4 000Hz 的窄带噪声进行双耳强度差(ILD)的JND 值测试;文献[16]选取频率在20~15.5kHz 范围内的正弦纯音,利用临界频带划分原则将音频信号划分成24 个频带,分别对双耳线索ITD 和ILD 的JND 值进行测试。

这些实验的音频参数表明,目前对音频数据库建立的最优参数还没有标准规范。本实验针对以往研究,选取5个频带(350Hz,1 000Hz,1 600Hz,2 500Hz 和4 000Hz)9 个水平方位角(0°,10°,15°,20°,30°,45°,60°,75°,90°)的参数进行实验。

2.2 实验方法

本文实验采用改进的心理学测听系统2AF(Two alter⁃native forced-choice,强迫性二选一)[17]和2down/1up[18]。要求受试者听一段包含参考音和测试音的测试序列,然后根据自己的主观感受在一秒内做出选择哪个声音更偏向他左耳。2down/1up 也是心理学自适应测试的一种方式,每一个受试者都会经过多组听音识别方位的训练,上一次的听音选择结果会对下一组测试序列生成产生影响。

2.3 实验步骤

本实验以水平方位角为媒介,对双耳强度差(ILD)的JND 值进行测试和分析。利用HRTF 函数获取关键技术[19]研究较多,本文利用武汉大学胡瑞敏等[20]发明的一种三维空间感知敏感度的测量装置实现改变声源相对于人工头的方位角,实现随测随走,大大提高了测试效率。利用人工头录音,首先按照频率将9 个方位角的音频分成5 组,每组有9 个角度的参考音和系统生成的测试音,组合成测试序列让受试者进行测听。一轮测试下来总共需要进行45组测试。测试实验基于Windows10 的MFC 对话框系统进行,系统流程如图1 所示。

Fig.1 Flow of experiment图1 实验流程

3 实验结果与分析

3.1 原始数据处理

测试时间2 个月,受试者6 人,进行5 个频带下9 个方位角的双耳强度差(ILD)感知特性测试。对6 名受试者测试结果取平均值,得到9 个水平方位角在5 个频率下所对应的双耳强度差(ILD)的恰可感知值JND,如表1 所示。

Table 1 The JND values of interaural level difference(ILD)of 9 horizontal azimuths of 5 frequencies(dB)表1 9 个水平方位角5 个频率下双耳强度差(ILD)的JND 值(dB)

3.2 水平方位角的双耳强度差(ILD)测试数据分析

3.2.1 水平方位角的ILD 与频率的关系

由图2(彩图扫OSID 码可见)可知,水平方位角的ILD与频率存在着明显的关系。当方位角为0°和90°时,水平方位角的ILD 波动不是很明显,其值大约在0.2dB 左右,表示这两个角度人耳对音频方位的感知很敏感,准确感受到声源的变化;水平方位角大于45°时,水平方位角的ILD 随着频率的增加而增加,表示人耳对声源的感知越来越不敏感,在4 000Hz 时出现极大值,这时人耳对60°和75°的方位感知很模糊,甚至无法辨别声源位置;此外,当水平方位角在45°以下时,水平方位角的ILD 整体上随着频率的增大而逐渐减小,人耳对声源的感知越来越敏感,水平方位角的ILD 在1 000~1 600Hz 时出现缓慢上升趋势,在4 000Hz 时出现极小值,表示人耳此时对声源的感知很敏感,能准确判别声源的方位。可以看出,1 600Hz 和4 000Hz 是比较特殊的频率,水平方位角的ILD 在这两个频率出现极值点。另外以方位角45°为分界点,分成两种曲线变化趋势,理论分析可知,在低频范围内,人耳利用双耳强度差(ILD)感知方位变化作用不明显,在高频范围内,人耳利用双耳强度差(ILD)感知方位变化的作用比较明显。但是当水平方位角靠近人耳左耳附近(90°)时,人耳对声源的方位感知越来越模糊。高频段在90°附近的音频测试过程中出现嘶嘶的杂音,测试人员都不能很好地辨别测试序列,影响了测试的真实结果。

3.2.2 水平方位角与ILD 的关系

由图3 可以看出,水平方位角和ILD 的关系受频率影响。当处于低音频段1 600Hz 以下时,随着音频序列水平方位角从人耳中垂面0°到左耳90°的移动,ILD 的值也由大变小。当方位角在10°以下时,ILD 呈现直线上升趋势,人耳对声源的感知越来越不敏感;在10°~30°范围内,水平方位角的ILD 的值波动幅度不大,但是水平方位角的ILD 值大约在4dB,表示人耳在这个角度范围内对测试序列的辨别不是很清晰;在30°以上时,水平方位角的ILD 出现直线下降趋势,直到60°以上出现缓慢下降趋势,人耳逐渐对声源的方位感知越来越敏感。当处于高频段2 500Hz 以上时,随着水平方位角从0°上升到90°,水平方位角的ILD 值呈现先增加后减小的变化。在60°以下,随着角度的增加其ILD 值也逐渐增加,在45°~60°时出现直线上升趋势,人耳在这个角度范围内对方位的感知越来越不敏感。在60°以上的水平方位角,ILD 值随着角度的增加逐渐下降,人耳对声源的辨别越来越清晰。理论分析可知,人耳对利用双耳强度差(ILD)在低频段对声源辨别没明显作用,在高频段起主要作用,但是由实验可知,除了频率的影响,水平方位角的角度对人耳辨别方位起着明显作用,在靠近人耳附近的声源利用双耳强度差(ILD)感知声源比较敏感,利用双耳强度差(ILD)在45°以下声源的位置辨别作用不是很明显。

Fig.2 Relationship between horizontal azimuth and frequency and ILD图2 水平方位角与频率和ILD的关系

Fig.3 Relationship between horizontal azimuth and ILD图3 水平方位角与ILD 的关系

3.3 水平方位角的双耳线索感知特性曲面拟合

本实验在测试双耳强度差(ILD)的JND 值花费了大量时间,而获得的数据也是在不同频率下水平方位角的双耳线索值离散的点,还不能准确描述3 个属性之间的关系。目前,国内外学者对离散点的处理主要利用逼近、插值和拟合3 种技术[21]。曲面拟合主要利用已知的有限点构造未知点,这些未知点符合原来曲面变化规律。插值是离散函数逼近的重要方法,利用插值可以通过函数在有限个已知点的值上估算出函数在其他未知点处的近似值。目前主流的插值法有最邻近插值法、三次样条插值法、线性插值法、立方插值,本文采用三次样条插值法。在数值分析中,这种插值方式主要利用分段多项式进行插值,这个多项式就是样条,可以使插值误差最小[22]。

假设有以下节点:

样条曲线S(x)是一个分段定义的公式。给定n+1 个数据点,共有n 个区间,三次样条方程满足以下条件:

(1)在每个分段区间[xi,xi+1](i=0,1,…,n-1,x 递增),S(x)=Si(x) 都是一个三次多项式。

(2)满足S(xi)=yi(i=0,1,…,n)。

(3)S(x),导数S'(x),二阶导数S''(x)在[a,b]区间都是连续的,即S(x)曲线是光滑的。

所以n 个三次多项式分段可以写作:

其中,ai,bi,ci,di代表4n 个未知系数。

为了获得更全面的数据,利用插值法对双耳强度差(ILD)、水平方位角以及频率进行曲面插值,获得一个三维的曲面进行全面分析。首先是频率的插值,测试频率选取5 个频段的音频信号,这5 个频率分别位于低频、中频和中高频段,根据Bark 频带划分,选取这5 个频带的临界频率作为插值点。频率插值点如表2 所示。

Table 2 Selection of interpolation frequency表2 插值频率选择

然后是水平方位角的角度插值。因为双耳线索的JND值会随着水平方位角的角度从人耳中垂面(0°)到左耳(90°)移动而逐渐增大,所以水平方位角的角度越大,选取的插值点就会越稀疏。根据双耳感知的对称性原理,本实验进行0°到90°方位的测量,在测得水平方位角的双耳强度差(ILD)的恰可感知值JND 值的基础上,选取的插值点角度如表3 所示。

Table 3 Selection of interpolation angles表3 插值角度选择

最后根据选取的插值点,利用三次样条插值法绘制水平方位角与双耳强度差(ILD)以及频率的三维曲面图。

对曲面图4 进行分析,可得出水平方位角与频率以及水平方位角的ILD 之间存在如下关系:

(1)从参考音水平方位角看,当声源从人耳的中垂面(0°)向左耳(90°)移动时,人耳利用双耳强度差(ILD)感知声源方位是比较敏感的。

Fig.4 Cubic spline interpolation surface of horizontal azimuth and frequency and ILD图4 水平方位角与频率和ILD 的三次样条插值曲面

(2)从频率(50~4 800Hz)上看,理论研究表明人耳在高频段辨别声源方位双耳强度差(ILD)起着主导作用,本实验也符合这一规律。但是在中低频(4 000Hz)以下,水平方位角的双耳强度差(ILD)在靠近人耳附近(45°以下)的值比靠近左耳(90°)附近的值低,表示人耳在低频段靠近人耳附近的声源利用双耳强度差(ILD)感知比较敏感,随着声源移动到左耳附近感知会迟钝;在高频段(4 000Hz 以上)呈现相反趋势,人耳利用双耳强度差(ILD)感知水平方位角45°以下要比感知水平方位角45°以上的迟钝,表明人耳在高频段辨别靠近左耳附近(45°~90°)的声源位置比较准确。

4 结语

在空间音频编码中,双耳强度差(ILD)对空间音频定位起着重要作用。过去对空间音频双耳强度差(ILD)的恰可感知值JND 研究存在以下几个问题:①频带选择范围窄;②将双耳强度差(ILD)和双耳时间差(ITD)混合在一起测试恰可感知差异值;③不能准确得到双耳强度差(ILD)与方位角相互关系,提出以水平方位角为媒介,对水平方位角的双耳强度差(ILD)的恰可感知值JND 进行感知特性测试。针对上述问题的实验结果表明,以水平方位角为媒介对声源进行定位不仅取决于双耳强度差(ILD),水平方位的角度变化也对双耳感知声源方位有着重要影响。因此,当多声道音频信号量化编码使用空间音频编码技术时,不仅可以利用双耳线索参数和恰可感知值JND 对多声道音频信号的音频信息进行高效压缩编码,还可根据水平方位的角度提供方位信息,减少数据冗余,从而降低音频信号传输的数据量,提高音频数据传输质量。本文由于实验时间限制,目前只针对水平方位角的双耳强度差(ILD)的感知特性进行了研究,后续将对水平方位角的双耳时间差(ITD)和耳间相关性(IC)对声源方位的影响进行探索,为空间音频编码研究提供更完善的数据支撑。

猜你喜欢
双耳方位角声源
轻叩双耳好处多
虚拟声源定位的等效源近场声全息算法
轻叩双耳好处多
哥窑青釉双耳彝炉
近地磁尾方位角流期间的场向电流增强
基于GCC-nearest时延估计的室内声源定位
轻叩双耳好处多
运用内积相关性结合迭代相减识别两点声源
向量内外积在直线坐标方位角反算中的应用研究
力-声互易在水下声源强度测量中的应用