庄启雷, 黄青华
(上海大学通信与信息工程学院,上海 200072)
基于三线交点球麦克风阵列的远场多声源定位
庄启雷, 黄青华
(上海大学通信与信息工程学院,上海 200072)
设计一种三线交点球麦克风阵列,利用该阵列进行球面声压采样,实现了基于平面波分解的三维空间远场多声源定位.声源定位对比实验结果表明,采用 98元的三线交点球麦克风阵列进行远场多声源定位,可以提高声源定位的精度和空间分辨率,且对环境噪声具有良好的鲁棒性.
声源定位;平面波分解;三线交点球麦克风阵列
假设函数 f(θ,φ)在单位球面上是平方可积的,则其球傅里叶变换对可以表示为
式中,S2为单位球面,(·)*表示取共轭,Ymn为球谐函数,其定义为
式中,Pm
n为联合勒让德函数[12].
球谐函数是正交的基底函数,故
式 (4)为球谐函数的连续正交性表示,而球麦克风阵列是对球面上连续函数的空间采样.对于一个确定的球麦克风阵列,有 L个麦克风被分别固定在阵列球体表面的 (θl,φl)处 ,则有
式中,wl为采样点的权值,N为该阵列满足球谐正交性的最高阶数[13].可以将式 (5)看作球谐函数正交性的离散形式,同时又是采样点权值的线性方程组.因此,可以借助式 (5)来求解各个采样点的权值.
声源定位是根据球麦克风阵列采集到的球面声压值来估计声源空间方位信息的过程.本研究使用球麦克风阵列实现含噪环境下的远场多声源的定位,因此首先要建立含噪环境下远场声源的球面声压模型,并利用得到的声压值进行声源定位.
2.1 含噪环境下远场声源的球面声压模型
假设空间中一个远场声源 S,产生一束波数向量为 k的平面波,以 (ϑ,φ)方向入射到半径为 a的刚性球麦克风阵列表面,定义观察方向为 r=(r,θ,φ).该平面波入射模型如图 1所示.
图 1 平面波入射模型Fig.1 Planar wave front imp inging on a spher ical aper ture
单位幅度的平面波在观察点 r处的入射声压可用球谐函数表示为
式中,hn(kr)为 n阶的第一类球汉开尔函数.入射声场与散射声场发生叠加,因此,刚性球面声压应为入射声压与散射声压的代数和,即
基于式 (6)~(8),本研究建立了含噪环境下远场多声源的球面声压模型.假设空间中有 T个远场声源,分别产生幅度为 At的平面波从 (ϑt,φt)方向入射到刚性球面,与球面周围的环境噪声ε(θ,φ)叠加形成混叠声场,得到的球面声压可以表示为
2.2 三维空间远场多声源定位
根据建立的含噪环境下远场声源的球面声压模型可知,球面声场是由一定数目的远场声源与球面周围的环境噪声叠加形成的混叠声场,此混叠声场可表示为无穷多的平面波的叠加,即
球面声压 p(kr,θ,φ)的球傅里叶变换 pnm为
则球面上入射平面波的幅值可表示为
在实际情况中不可能获取空间中每一点的声压,只能通过球麦克风阵列进行球面声压的采样.假设所使用的球麦克风阵列上麦克风的数目为 L,阵列的阶数为 N,则有
式中,wl为第 l个麦克风对应的权值,p(θl,φl)为第l个麦克风采集到的声压值.由于使用的球麦克风阵列的阶数为 N,因此需对式 (13)中的球傅里叶反变换进行 N阶截断,得到球面上入射平面波的幅值为
声源直射方向的入射平面波幅值必定会大于非声源直射方向,因此,在声源直射方向会出现入射平面波幅值的峰值点.只要在球面空间中搜索该极大值,其对应的球面位置坐标即为远场声源的来波方向,从而可获得远场声源的空间方位信息.
将入射平面波幅值的精确表达式 (13)与经球麦克风阵列离散采样得到的截断近似表达式 (15)进行对比,可以得到:空间中远场声源定位的精度主要受到球傅里叶反变换中截断阶数大小的影响,该截断阶数即为所使用的球麦克风阵列的阶数.因此,在利用球麦克风阵列进行空间多声源定位时,可以通过提高球麦克风阵列的阶数来提高定位的精度.球麦克风阵列的阶数取决于阵列的空间结构以及阵列上麦克风数目的多少[15].虽然可以通过增加麦克风的数目来提高阵列的阶数,但也同时增加了信号采集的路数,必然会导致定位算法计算复杂度的增加.而通过优化阵列的空间结构可以在不增加麦克风数目的情况下提高阵列的阶数,这显然是一个更优的选择.因此,本研究设计了一种低阵列冗余度的三线交点球麦克风阵列对空间声场进行采样,并利用该采样信号进行空间多声源定位,以期提高空间声源定位的精度.
根据声源定位应用中对球麦克风阵列的要求,本研究提出了一种三线交点球麦克风阵列的设计方法.为了描述方便,以球麦克风阵列承载球体的球心为坐标原点,建立空间直角坐标系.直角坐标与球坐标之间的对应关系如图 1所示,即
分别以空间直角坐标系的 3条坐标轴为轴线,在承载球体表面上作 3组等夹角的大圆.这 3组大圆数目相等,均为 K个,并且满足 K=2k,k=1,2,…,此 3组大圆分别表示如下:
①关于 z轴旋转对称的一组大圆可表示为
②关于 x轴旋转对称的一组大圆可表示为
此 3组大圆相交所得到的 3个大圆的共交点即为三线交点球麦克风阵列上麦克风的位置点.每个麦克风都位于 3个大圆的共交点处,因此,可以通过解 3个大圆组成的方程组得到每个麦克风的位置坐标.
对于不同的 K值,可以得到不同的三线交点数目.根据三线交点球麦克风阵列的结构,可以得到阵列上麦克风的数目满足以下规律:
为了展现三线交点球麦克风阵列高空间分辨率的性能优势,将三线交点球麦克风阵列与其他类型的球麦克风阵列进行仿真对比实验.为了更具说服力,应选取麦克风数目近似相等的球麦克风阵列进行对比,故选取K=8时对应的98元三线交点球麦克风阵列与 100元等角度分布的球麦克风阵列进行对比分析.文献[15]对等角度分布的球麦克风阵列的空间结构进行了详细描述.98元三线交点球麦克风阵列的结构如图 2所示.
图 2 98元三线交点球麦克风阵列结构Fig.2 Structure of 98-element tr ijunctional spher ical m icrophone array
可以看出,98元三线交点球麦克风阵列关于坐标系的 3条坐标轴都旋转对称.由于对称点具有相等的权值,因此,该阵列仅有 6个不等的权值.根据球谐函数的离散正交性表示式 (5)可得到权值的线性方程组,即
求解该线性方程组,可得到 6个不相等的权值,分别为w1=0.154 0,w2=0.107 1,w3=0.114 4,w4=0.142 8,w5=0.135 4,w6=0.115 1.
只要得到 98元三线交点球麦克风阵列的每个麦克风的位置坐标及其对应的权值,即可利用该阵列进行球面声压采样,并利用此采样信号实现三维空间远场多声源定位.
4.1 无噪环境下的多声源定位
仿真实验环境如下:在无噪的环境下,空间中有3个单位幅度的远场声源,球面的入射方向 (ϑ,φ)分别为 (66°,99°),(113°,238°),(96°,293°).使用球半径为 10 cm的 98元三线交点球麦克风阵列对球面声场进行离散采样,根据此采样信号估计声源的方位.同时使用球半径为 10 cm的 100元等角度分布的刚性球麦克风阵列进行对比实验,得到的仿真实验结果如图 3所示,图中,△为真实声源方位,·为估计方位.
图 3 无噪环境下远场多声源定位Fig.3 L ocalization of m ultiple far-f ield sound sources in the noise-free environment
由仿真实验结果可知,利用 98元三线交点球麦克风阵列进行声源定位实验时,估计得到的声源方位为 (65°,98°),(113°,238°),(95°,295°),3个声源的方位估计误差分别为 (1°,1°),(0°,0°),(1°,2°),此时的声源定位误差非常小.然而利用 100元等角度分布的球麦克风阵列进行声源定位实验时,估计得到的声源方位为 (70°,102°),(108°,275°),出现了声源混叠的现象,导致对声源个数的错误估计.
阵列的空间分辨率是衡量球麦克风阵列性能的一个重要参数,为球麦克风阵列单位平面波响应的第一零值夹角宽度的 1/2[11].球麦克风阵列的阶数决定了球麦克风阵列的空间分辨率.100元等角度分布的球麦克风阵列和 98元三线交点球麦克风阵列的空间分辨率对比如图 4所示.
可以看出,虽然两个阵列拥有近似相等的麦克风数目,但 98元三线交点球麦克风阵列的空间分辨率要远远优于100元等角度分布的球麦克风阵列.正是由于阵列空间分辨率的差异造成了声源定位实验结果的差异.
图 4 阵列空间分辨率对比Fig.4 Compar ing of the array spatial resolution
4.2 含噪环境下的多声源定位
为分析环境噪声对声源定位的影响,本研究在不同信噪比 (signal-to-noise ratio,SNR)环境下分别进行声源定位实验.仿真实验环境设置如下:空间中有 3个单位幅度的远场声源,其坐标分别位于球面入射方向 (ϑ,φ)的 (66°,99°),(113°,238°),(96°,293°);球麦克风阵列周围的环境噪声分别设定为信噪比 rSN=10,1,0,-1,-5,-10 dB.使用球半径为10 cm的 98元三线交点球麦克风阵列对球面声场进行离散采样,根据此采样信号来估计声源的方位,得到的仿真实验结果如图 5所示,图中,△为真实声源方位,·为估计方位.
将不同信噪比环境下进行声源定位实验得到的声源估计方位与声源真实方位进行比较,即可得到声源方位的估计误差如表1所示.可以看出,在不同信噪比环境下,使用本研究方法均能够得到准确的定位结果,环境噪声对定位结果没有造成明显的影响,这表明本声源定位方法对环境噪声具有良好的鲁棒性.
本研究使用球麦克风阵列实现基于平面波分解的三维空间远场多声源定位,并对该方法进行了理论和实验分析,得到以下结论:
(1)本声源定位方法的定位精度和空间分辨率主要取决于定位中所使用的球麦克风阵列阶数的大小,使用的球麦克风阵列的空间分辨率不足可导致声源的混叠,造成对声源个数的错误估计;
图 5 含噪环境下远场多声源定位Fig.5 L ocalization of multiple far-f ield sound sources in the noisy environm ent
表1 不同信噪比环境下远场多声源定位结果比较Table 1 Compar ison of localizing results of multiple far-f ield sound sources under the environment of d ifferent SNR
(2)通过优化阵列的空间结构可以实现在不增加麦克风数目的情况下提高定位的精度,因此,低冗余度空间结构的球麦克风阵列的设计对该声源定位方法非常重要;
(3)基于平面波分解的声源定位方法对环境噪声具有良好的鲁棒性.
[1] ZHANG C,FLORENCIO D,BA D E,et al.Maximum likelihood sound source localization and beamforming fordirectional microphone arrays in distributed meetings[J].IEEE TransMultimedia,2008,10(3):538-548.
[2] CHO Y,YOOK D,CHANG S,et al.Sound source localization for robot auditory systems[J].IEEE Trans Consumer Electron,2009,55(3):1663-1668.
[3] BRANDSTEIN M S,WARD E D B.M icrophone arrays:signal processing techniques and applications[M].Berlin:Springer-Verlag,2001:157-180.
[4] 崔玮玮,曹志刚,魏建强.声源定位中的时延估计技术[J].数据采集与处理,2007,22(1):90-99.
[5] MUKWEVHO T,JORDAAN J,NOEL G.Advanced beamforming techniques for acoustic source localization[C]∥IEEEAFRICON 2009.2009:1-6.
[6] ARGENTIERI S,DANES P.Broadband variations of the MUSIC high-resolution method for sound source localization in robotics[C]∥Proceedings of the 2007 IEEE/RSJ International Conference on Intelligent Robots and Systems.2007:2009-2014.
[7] TEUTSCH H, KELLERMANN W. Detection and localization of multiple wideband acoustic sources based on wavefield decomposition using spherical apertures[C]∥Proceedings of the 2008 IEEE International Conference on Acoustics, Speech, and Signal Processing.2008:5276-5279.
[8] 林志斌,徐柏龄.基于球麦克风阵列的三维空间多声源定位 [J].南京大学学报:自然科学版,2006,42(4):384-394.
[9] MEYER J,ELKO GW.A sphericalmicrophone array for spatial sound recording[J].J Acoust Soc Am,2002,111(5):2346-2346.
[10] L I Z Y,DURA ISWAM IR.Flexible and op timal design of sphericalmicrophone arrays for beamforming[J].IEEE Trans Audio Speech Lang Process,2007,15(2):702-714.
[11] PARK M,RAFAELY B.Sound-field analysis by planewave decomposition using spherical microphone array[J].JAcoust Soc Am,2005,118(5):3094-3103.
[12] DRISCOLL J R,HEALY D M.Computing Fourier transforms and convolutions on the 2-sphere[J].Adv App l Math,1994,15(2):202-250.
[13] W ILL IAMS E G.Fourier acoustics:sound radiation and nearfield acoustical holography [M]. New York:Academic Press,1999:183-234.
[14] RAFAELY B.Plane-wave decomposition of the sound field on a sphere by spherical convolution[J].JAcoust Soc Am,2004,116(4):2149-2157.
[15] RAFAELY B. Analysis and design of spherical microphone arrays[J]. IEEE Trans Speech Audio Process,2005,13(1):135-143.
L oca liza tion of M ultiple Sound Sources in Far F ield UsingTr ijunctiona l Spher ica l M icrophone Array
ZHUANG Q i-lei, HUANG Q ing-hua
( School of Communication and Information Engineering, Shanghai University, Shanghai 200072, China)
A trijunctional spherical m icrophone array is designed to samp le the sound field. A multip lesound sources localization algorithm is realized by p lane-wave decomposition in the three-dimensionalspaces w ith this array. Experimental results show that, using 98-element trijunctional sphericalm icrophone array to locate multip le far-field sound sources can imp rove the accuracy and spatialresolution of the sound source localization. In addition, this method is robust to the environmental noise.
sound source localization; p lane-wave decomposition; trijunctional spherical m icrophone array
TN912.35
A
1007-2861(2011)02-0125-07
10.3969/j.issn.1007-2861.2011.02.004
2010-04-06
国家自然科学基金资助项目 (61001160);上海市科委自然科学基金资助项目 (08ZR1408300);教育部博士点基金资助项目(20093108120018)
黄青华 (1978~),女,讲师,博士,研究方向为 3D音频信号处理、盲信号处理.E-mail:qinghua@shu.edu.cn
(编辑:丁嘉羽)
近年来,声源定位因其在视频会议、智能机器人以及语音增强等领域的广泛应用前景而日益成为研究的热点[1-2].基于麦克风阵列的声源定位是利用一定空间结构的麦克风阵列采集空间声场信号,通过对多路声场信号进行分析和处理,来获取声源的空间方位信息.目前已出现了多种基于麦克风阵列的声源定位方法,这些方法主要可分为 3类[3]:①基于时延估计的声源定位方法,该方法具有计算量小、易于实现的优点,但只适用于单声源的定位,对多声源定位的效果较差[4];②基于最大输出功率的可控波束形成技术的定位方法,该方法可用于多声源的定位,但需要声源和背景噪声的先验知识,而在实际应用中往往很难获得这种先验知识[5];③基于高分辨率谱估计技术的定位方法,该方法理论上能够对声源方向进行有效估计,但计算复杂度非常高,且不适用于宽带声源的定位[6].
传统的声源定位方法都是通过直接对麦克风阵列采集的声场信号进行分析和处理,来获取声源的空间方位信息,而声源和环境噪声在阵列表面的散射混叠必定会对定位造成很大的干扰,进而影响定位的精度和准确性.基于平面波分解的三维空间多声源定位方法,不直接对麦克风采集到的信号进行分析,而是先将声场正交分解到球谐域中[7],进而获取直射声场的声压,并利用此直射声场进行空间声源的定位,从而可消除声场在阵列表面散射对声源定位产生的影响[8].此外,球麦克风阵列由于具有三维空间旋转对称的空间结构,可广泛应用于声场采集、波束形成以及空间声场分析等领域[9-11].基于此,本研究设计了一种三线交点球麦克风阵列,并利用该阵列进行三维空间远场多声源的定位.