运动声源的双耳录音声像定位效果分析

2016-01-27 02:00仝欣齐娜

仝欣,齐娜

(中国传媒大学传播声学研究所,北京,100024)



运动声源的双耳录音声像定位效果分析

仝欣,齐娜

(中国传媒大学传播声学研究所,北京,100024)

摘要:分析了不同运动方式下双耳录音的声像定位效果,录音采用的声学头模是由中国传媒大学自行研制的,头部尺寸符合中国人的平均生理参数。共录制、评价了三种声源状态下的定位效果:静止、射线运动和横向运动。主观评价实验结果表明运动声源有助于将声像定位在头外,在一定程度上改善了头中定位效应,但声源运动并不能有效地减少声像前后混淆率和上下混淆率。此外,不同的声源运动方式也影响着声像定位的正确率,横向运动比射线运动的声像方向定位正确率高9%。

关键词:双耳录音;声像定位;声像混淆;头中效应

1引言

将微型传声器置于真人(或人工头模)的耳道入口处或鼓膜处进行拾音的方式称为双耳录音。在实际应用中,多采用人工头模代替真人进行双耳录音。目前市场上的人工头模几乎全部都是根据西方人的平均生理尺寸或“标准”数据设计而成的。由于HRTF是与生理结构和尺寸密切相关的,而人体生理尺寸的统计结果又和种族、地域等有关,中国人与西方人的头部生理尺寸参数存在明显的差异性,所以按照西方人平均尺寸参数设计的人工头模对于中国人来说并不是十分适用。基于此现状,中国传媒大学传播声学研究所根据中国人面部尺寸的国家标准设计制作了符合中国人平均生理参数的仿真头模[1]。考虑到全尺寸的结构仿真头模造价偏高,以及实际应用的场合,在保留其主要声学特性的基础之上对仿真头模的头部以及肩部等细节结构进行了一定的简化,设计制作了一个简化声学头模[2](如图1所示)。头模上安装的耳廓模型,是根据对200对成年人耳廓进行测绘分析后制作的“平均耳”[3]。相关实验显示该声学头模的录音效果在一定程度上可以与仿真头模等效[4]。本文研究的主要目的就是通过主观声像定位实验来探究声源运动时该声学头模双耳录音的空间定位效果。

目前国内外已有大量研究表明,人工头模双耳录音的声像定位效果要比真实声源情况下差。Laws和Platte[5]采用Neumann KU80录制了语音信号,并与真实声源进行对比。真实声源听音时,被试判断的方向几乎与实际方向一致,且在0°和180°时没有前后混淆现象,头中定位率只有5%。而采用人工头模得到的双耳录音在回放时最多有60°的定位偏差,且出现52%的前-后混淆率和12.5%的后-前混淆率,头中定位率为11%。Poulsen[6]采用噪声和语音作为刺激信号也得到类似的结果:听真实声源时无定位错误,而采用Neumann KU80和KEMAR的双耳录音出现很多混淆,两种人工头模的录音分别有28%和41%的前后混淆率,以及33%和29%的相邻角度混淆。Boerger等人[7]的实验结果则指出人工头录音的前-后和后-前混淆大约分别为28%和47%。Wightman和Kistler[8]采用个性化HRTF进行录音,也存在11%的前后混淆,而真实声源听音情况下仅为6%。杨天琪[4]对比分析了基于中国人平均生理参数的仿真头模和声学头模的双耳录音定位效果。结果显示,仿真头模定位在头外的比率在40%~50%之间,简化声学头模定位在头外的比率更低,只有30%左右。杨天琪等人[9]的另一个实验结果表明仿真头模的平均前后混淆率在30%左右。

由此可见双耳录音普遍存在声像混淆和头中定位效应[10]。然而,在目前公开发表的文献中,都是对静态声源进行定位实验,未见有关动态声源定位效果评价方面的研究。本文的主要工作就是通过主观声像定位实验来分析声源运动时声学头模双耳录音的空间定位效果。

图1 声学头模

2声学头模双耳录音

本文工作中进行双耳录音时均采用图1所示的声学头模,双耳耳道入口处分别装有DPA 4060全指向微缩传声器,传声器输出直接接入ROLAND EDIROL R4-Pro便携式专业录音机,录音采样率为44.1kHz,量化精度为16bit。

共选择了五种具有不同声学特性的录制环境,环境编号、名称等详细信息以及录制过程中声学头模在各个环境中的摆放位置和朝向见表1,声学头模耳道入口处距地面的高度为1.5m。

录音时采用的声源为连续敲击的竹板声,分别录制了声源静止时以及按照射线方向和横向方向运动的情况。静止声源距声学头模距离为1.5m,录制了全空间26个方向:水平方位角分别为0°、45°、90°、135°、180°、225°、270°和315°,俯仰角分别为90°、45°、0°、-45°和-90°的方向(采用顺时针球坐标系[11],其水平方位角和俯仰角的定义如图2所示)。图3给出了声源做射线运动的示意图,声源从声学头模处出发,沿着26个射线方向由近及远或由远及近地运动(图中只画出了一个方向),26个射线方向与静止声源所在方向一致。图4所示为声源做横向运动的示意图,在俯仰角分别为45°、0°、和-45°三个平面上分别录制水平方位角为0°、45°、90°、135°、180°、225°、270°和315°,总计24个方向。声源在各个方向上距声学头模1.5m处做垂直于该射线方向保持在同一高度上的的双向水平运动(图中只画出了一个方向)。

表1 录制环境说明

(a)水平方位角

(b)俯仰角图2 顺时针球坐标系

图3 射线运动

图4 横向运动

3主观听感实验

主观听感实验在符合标准的听音室内进行,被试为22~26岁的声学专业研究生,男女各10名,均无听力缺陷,左右耳听阈无明显差别。重放采用Auido-Technica ATH-CK7入耳式耳塞,测量耳塞重放信号的声压级,使其保持在70~75dB(A)。实验信号包括声源静止情况以及两种不同运动方式下的双耳录音素材,实验信号随机打乱进行重放。听音时要求被试坐正,头部保持直立状态,不要随意摇动。

被试需要判断所听声音信号的方向,在26(静止时)或24(横向运动时)个方向中强迫选择一个,还要判断头中定位情况,在头内、头皮和头外三个范畴中强迫选择一个;声源射线运动部分,被试只需要判断所听到声音信号的方向,在26个方向中强迫选择一个,不需要判断头中定位情况。因为头中定位情况与声源距离有很大的关系,而做射线运动的声源有明显的远近变化,无法得到稳态的头中定位情况。

4实验结果分析

图5为声源静止以及进行射线运动和横向运动时水平方向定位的平均正确率。因为声学头模是左右对称的,为方便分析,将水平方位角0°定义为正前方,45°和315°定义为斜前方,90°和270°定义为正左/右方,135°和225°定义为斜后方,180°定义为正后方。在计算声源静止和射线运动时未包含俯仰角为±90°的信号,这两个俯仰角方向并无水平方位角的差别,而横向运动信号中本身就不包含俯仰角±90°。三种声源状态所得到的实验结果相似:正左/右方向正确率最高,平均达到97%;其次是正后方和斜后方,正确率达80%左右(除声源静止时的正后方);正前方的方向定位正确率最低,不到20%。同时实验结果表明,声源运动时后方声源比前方声源的水平方向定位正确率高。对于正后方声源来说,声源射线运动和横向运动时较声源静止时水平方向正确率分别有15%和21%的提高。

图5 水平方向定位正确率

图6为声源静止时,声源在垂直方向上的定位结果,共包括五个俯仰角:水平面(俯仰角0°)、斜上方(俯仰角45°)和斜下方(俯仰角-45°)、正上方(俯仰角90°)和正下方(俯仰角-90°)。可以看出无论声源在哪个俯仰角方向,大部分声像都定位在水平面上。这说明,声学头模录音的声像在垂直方向上有较严重的畸变,不仅有上下混淆,还有向上或向下偏移的现象。图中黑色圆圈标注的是各个俯仰角的声源在重放时垂直方向上的声像定位正确率。其中,水平面上的声源俯仰角定位正确率最高为54%,也存在相当一部分声源定位到斜上方和斜下方;其次是斜上方和斜下方声源,俯仰角正确率分别为34%和25%;正上方和正下方的声源俯仰角定位正确率最低,分别为13%和5%。声源做射线运动时的俯仰角定位情况(见图7)与声源静止时的实验结果十分相似。

图6 声源静止时的俯仰角定位情况

图7 声源射线运动时的俯仰角定位情况

图8为声源横向运动时,定位在各个俯仰角的比率。与射线运动相似,大部分声像都定位在水平面上。水平面声源的俯仰角正确率最高,为51%,定位在斜上方和斜下方的比率分别为29%和20%;斜上方声源的正确率40%比斜下方声源的正确率25%高,且斜下方声源比斜上方声源更容易发生上下混淆。

图8 声源横向运动时的俯仰角定位情况

图9为声像发生前后混淆和上下混淆的情况。由图可以看出声源无论是静止状态还是运动状态,前-后混淆率要远高于后-前混淆率,即前方的声音比后方的声音更容易发生前后混淆,前方声音更容易定位在后方。下-上混淆率高于上-下混淆率,即下方声音更容易定位到上方。总体来看,平均前后混淆率明显高于上下混淆率,即前后混淆现象更严重些。总体来说,声源的运动状态对前后混淆率和上下混淆率没有太大的影响,声源运动并不能有效地改善方向定位混淆的现象。

图9 声像定位混淆率

图10为各个录制环境下的方向定位正确率。从图中可以看出,声源静止时五种环境的正确率基本相等,40%左右;声源做射线运动时,五种环境的正确率相差不大,在44%~47%之间。可见环境对声源静止和做射线运动时的方向定位感知影响并不大。声源横向运动时,环境1的方向定位正确率最高,为63%,其次是环境2,环境4的正确率最低,为48%。五个环境的混响时间分别为:0.28s、1.65s、2.40s、2.20s和3.22s。计算五种环境下横向运动方向定位总正确率和混响时间的Pearson相关系数,为-0.91。说明横向运动方向定位正确率与混响时间成较大的负相关,即混响时间越大,横向运动方向定位正确率越低。三种声源运动方式的平均方向定位正确率分别为40%、45%和54%。总体看来,声源运动有助于提高方向定位正确率,其中声源做横向运动比做射线运动的声像方向定位正确率高9%。

图10 不同录制环境的方向定位正确率

图11为声源静止和声源做横向运动时,声像头中定位的情况。从图中可以看出,声源做横向运动时将近90%的声像定位在头外,比声源静止时高13%;声源静止时更容易定位在头内和头皮。因此运动声源有助于将声像定位在头外,在一定程度上改善了头中定位效应。

图11 静止声源与运动声源的头中定位情况

5结论

本文通过一系列主观实验得到声源做射线和横向运动时,水平方位角、俯仰角和录制环境对声学头模双耳录音听感效果的影响,并与声源静止时的结果做比较分析。结果表明:声源运动时的方向定位正确率高于声源静止情况,且声源运动方式直接影响定位正确率,声源横向运动时比射线运动的声像方向定位正确率高。声源做横向运动时,大部分声像定位在头外,比声源静止时定位在头外的比率高出13%。声源运动有助于改善头中定位效应。

在声学头模的实际使用中,利用双耳录音的空间定位特性合理摆放声学头模的位置、朝向等可以在一定程度上改善双耳录音的空间听感效果。

参考文献

[1]齐娜.一种中国人仿真头模[P].中国:201120555311.6,2011-12.

[2]齐娜.一种中国人声学头模[P].中国:201120555787.X ,2011-12.

[3]齐娜,李莉,赵伟.中国成年人耳廓形态测量及分类[J].声学技术,2010(5):518-522.

[4]杨天琪,齐娜.声学头模双耳录音听感效果分析[J].电声技术,2013(1):70-72.

[5]Laws P,Platte H J.Spezielle Experimente zur kopfbezogenen Stereophonie[C]//DAGA.1975,75:365-368.

[6]Poulsen T,Blauert J.Hörvergleich Unterschiedlicher Kunstkopf-systeme:Wissenschaftliche Grundlagen der Kopfbezogenen Stereofonie-Bericht über das Vorkollokvium zur DAGA’78 in Bochum[J].Rundfunktechn Mitteilungen,1978,22:211-214.

[7]Boerger G,Blauert J,Laws P.Sterephone Kopfhörerwiedergabe mit Steuerung bestimmter übertragungsfaktoren durch Kopfdrehbewegungen[J].Acustica,1977,39:21-26.

[8]Wightman F L,Kistler D J.Headphone simulation of free‐field listening.II:Psychophysical validation[J].The Journal of the Acoustical Society of America,1989,85(2):868-878.

[9]杨天琪,仝欣,孟子厚.固定声源仿真头录音的声像定位[C].2011年声频工程学术交流年会论文集,2011,9:207-211.

[10]Begault D R,Wenzel E M.Headphone localization of speech[J].Human Factors:The Journal of the Human Factors and Ergonomics Society,1993,35(2):361-376.

[11]谢菠荪.头相关传输函数与虚拟听觉[M].北京:国防工业出版社,2008.

(责任编辑:马玉凤)

Spatial Localization Performances of Moving Sound in Binaural Recording

TONG Xin,QI Na

(Communication Acoustic Laboratory in Communication University of China,Beijing,100024)

Abstract:The spatial localization performance with different moving patterns in binaural recording was analyzed.The acoustical dummy head used here was designed by Communication University of China.The size of the dummy head kept meeting the national standards and was in accordance with the average physiological parameters of Chinese people.Three kinds of sound sources were recorded and analyzed:stationary sound,radial-straightline-movement sound and crosswise-straightline-movement sound.The result of subjective listening test showed that the movement of the sound contributes to localize the sound image outside the head and weaken inside-the-head effect to some extent.However,the movement of the sound cannot reduce the front-back confusion and up-down confusion effectively.Besides,different movement styles of sound source will affect the localization accuracy,and the rate of accuracy was 9% higher when sound source moving linearly in crosswise direction than in radial direction.

Keywords:binaural recording;sound localization;sound image confusion;inside-the-head effect

作者简介:仝欣(1988-),女(汉族),黑龙江人,中国传媒大学博士研究生.E-mail:tongxin@cuc.edu.cn

项目基金:国家科技支撑计划项目“听觉呈现系统效果测试与评价(项目编号:2012BAH38F03-03)”

收稿日期:2015-03-07

中图分类号:TN912.12

文献标识码:A

文章编号:1673-4793(2015)05-0044-06