文小军,吉建华,钟林波,伍守豪,王艳芬
1.深圳大学 信息工程学院,广东 深圳 518060
2.深圳市现代通信与信息处理重点实验室,广东 深圳 518060
基于时延估计的声源定位算法实验研究
文小军,吉建华,钟林波,伍守豪,王艳芬
1.深圳大学 信息工程学院,广东 深圳 518060
2.深圳市现代通信与信息处理重点实验室,广东 深圳 518060
麦克风阵列信号处理是阵列信号处理的重要分支,其在声源定位上的应用是目前阵列信号处理方向的一个研究热点。目前,基于麦克风阵列的声源定位算法,按照定位原理主要分为三大类[1]:(1)基于最大输出功率的可控波束形成技术;(2)基于到达时间差(TDOA)定位技术;(3)基于高分辨率谱估计的定位技术。第一类方法,常基于背景噪声和声源信号的先验知识限制了算法的应用;第三类算法来源于高分辨谱估计技术,其定位性能好,但计算复杂度高,不利于实时实现;第二类算法,计算复杂度较低,硬件实现成本少,因而备受关注[2-4]。目前,针对第二类算法,大部分研究都集中在理论研究与软件仿真[5-6],针对实测数据的实验相对较少。仿真研究中,文献[7]分析了在时延估计时可能出现的估计偏差增加一个扰动时间差进行预估计,未有真实环境的实验说明,对应用缺少指导,且其主要目的为减少MUSIC算法的搜索复杂度。在实测数据的研究中,对任意信号入射角度常选用相同的误差判决门限筛选定位结果,如文献[8]进行了大量实测数据实验,对不同情况下算法的定位性能进行了对比分析,但对定位结果的筛选均以与参考角度的绝对误差为10°作为筛选依据,且其阵列长度较大不利于便携设备的应用;文献[9]针对近场情况做了大量实验,对定位结果均以绝对误差为5°作为筛选依据,且阵列长度同样较大。
本文在阵列长度较短情况下,对不同入射角度采用不同的角度筛选判决门限,利用真实语音环境中采集的人声进行声源定位实验研究,希望对实际工程应用提供一定参考。
基于到达时间差的定位算法[10],主要由时延估计和声源定位两部分组成[11]。第一步通过不同的时延估计方法估计出两路信号之间的相对时延,其中运用最广泛的方法是广义互相关函数法(Generalized Cross-Correlation,GCC)。广义互相关函数法首先对两路信号求傅里叶变换(FFT),对其中一路FFT数据取共轭,然后计算两路信号之间的互功率谱,根据不同的需求选择不同的加权因子对互功率谱进行加权,使互相关函数在两路信号之间的时延处峰值更为明显。将频域信号转换到时域,得到广义互相关函数,找到相关函数的峰值位置,即为信号之间的相对时延。其估计过程如图1所示。
图1 GCC算法流程示意图
第二步,根据第一步计算得到的时延,利用阵元与声源位置的几何关系得到声源的位置[12]。以均匀直线阵列为例,假设声源距阵列的距离满足远场条件,阵元拓扑结构如图2所示。
图2 均匀直线阵列结构示意图(远场)
由图2可知,此时的声源位置可由式(1)计算得到:
其中,τ为相邻阵元接收信号的时延差,c为声速,常温下空气中取340 m/s,d为阵元间距。
实际应用中,假定估计的峰值位置为第n个采样点,系统的采样率为 fs,则估计的时延结果表达式为:
由于噪声等其他因素的影响,往往不能得到准确的时延点,且一定为整数倍采样点对应的时延误差。因此,本文以实际估计时延采样点数±1点作为定位结果的判断门限。设阵元间距为5 cm和15 cm,采样速率均为48 kHz,则对应可能出现的时延点数范围分别为[-7,7]和[-21,21],此时不同采样点时延对应的估计角度是仅可能出现的定位结果,如表1、2所示。
表1 d=5 cm时不同时延点数对应的估计角度
表2 d=15 cm时不同时延点数对应的估计角度
根据三角函数的性质,负时延采样点与对应正时延采样点的定位角度存在互补关系,因此仅列出正时延采样点对应时延的结果。由表1、2显然可知,此时的判决门限不固定,且筛选条件更为合理。
该文选用ADI公司生产的ADSP-BF533开发板作为信号的采集模块,数据采集的原理如图3所示。
图3 数据采集硬件结构示意图
ADSP-BF533开发板的4个音频接口连接4个麦克风,外界声源信息通过内置的音频编解码器AD1836编码转化为数字信号,通过SPORT口以DMA方式输送到SDRAM,再由UART口连接PC机的串口发送到PC机,利用Matlab软件进行实测数据的定位实验。
声源定位的实验环境为一间普通实验室,墙壁未作任何声学处理。实验室内存在各种噪声,如键盘敲击声、桌椅移动声、计算机风扇声及旁边公路的汽车发动机噪声等。本文选用的阵列由4个各向同性的麦克风组成,麦克风均匀分布在一条直线上,阵元间距5 cm,声源(人)距离参考麦克风3 m。采集信号的时域图形如图4所示,选用常用典型的信号入射角度,分别测试不同阵元间距情况下第二类算法的定位性能,利用本文提到的方法,即以距离信号入射角度最近的两个时延点对应的角度作为定位中可能出现的结果的判决门限,计算20次得到可能结果的集合,进而求得定位结果的均方根误差如图5所示。
图4 采集信号的时域波形
图5 不同阵元间距对应定位结果的均方根误差
由图5可以得出以下结论:(1)在阵元数较少,阵列长度较短情况下,基于时延估计的声源定位算法在[60°,120°]范围内具有较高的定位精度,而靠近阵列两端(接近0°或180°)时,性能较差,符合均匀直线阵的特点[13]。(2)[60°,120°]范围以外时,定位结果的均方根误差将骤然上升,表明定位结果出现不稳定现象。(3)随着阵元间距的增大,阵列的分辨力增强,此时均方根误差变小且变化速率更平缓。
在阵元间距为15 cm,对应可能出现的定位结果见表2,对比传统方法与本文所用方法结果如图6所示。
图6 与传统方法对比结果
在图6中,传统方法选用固定误差为 ±5°时:(1)[30°,150°]之间由于此时 ± 5范围内可能出现的时延点数已多于两个点,因此所得曲线高于本文方法曲线。(2)在30°和150°时,刚好是两个时延点,因此与本文所得结果重合。(3)靠近0°或180°时,由于相邻时延点对应角度差大于±5°,因此传统方法仅可能得到一个结果,均方根误差趋近0,但由均匀线阵的特性易知,这显然是不合理的。(4)传统方法中,当固定误差增大为±15°时,各点均方根误差明显大于本文方法,靠近0°或180°时,呈下降趋势,与均匀直线阵列的特点不符。
本文通过硬件采集真实语音数据,结合软件算法实现声源定位,通过对信号不同入射角度以±1个对应采样点误差范围作为结果的判决门限,得出了不同阵元间距情况下定位结果的均方根误差,并以此分析了第二类算法在阵元数少,阵列长度较短情况下的性能。与传统固定误差范围的方法进行对比,验证了本文方法的合理性。相比单纯的理论仿真,本文所用数据为真实语音环境数据,因此得出的结论对实际工程应用具有一定的参考价值。
[1]Potanmitis I,Chen H,Tremoulis G.Tracking of multiple moving speakers with multiple microphone arrays[J].IEEE on Speech and Audio Processing,2004,12(5):520-529.
[2]Knapp C H,Carter G C.The generalized correlation method for estimation of time delay[J].IEEE,Acoust,Speech,Signal Processing,2000,24(8):320-327.
[3]Reed F A,Feintuch P L,Bershad N J.Time delay estimation using the LMS adaptive filter-dynamic behavior[J].IEEE,Acoustics,Speech,Signal Processing,2006,29:561-571.
[4]Youn D H,Ahmed N,Carter G C.On using the LMS algorithm for delay estimation[J].IEEE,Acoustics,Speech,Signal Processing,2006,30:798-801.
[5]Carter G C,Nuttall A H,Cable P G.The Smoothed Coherence Transform(SCOT)[J].Proceedings of IEEE,2005,61:1497-1498.
[6]Cadzow J A,Kim Y S,Shie D C.General direction-ofarrival estimation:a signal subspace approach[J].IEEE,Aerospace and Electronic Systems,1989,25(1):31-46.
[7]崔纬纬.基于麦克风阵列的声源定位与语音增强方法研究[D].北京:清华大学,2008.
[8]陈颖.基于麦克风阵列的声源定位算法研究及DSP实现[D].河北秦皇岛:燕山大学,2012.
[9]苏立娟.基于麦克风阵列的声源定位技术研究与ARM实现[D].河北秦皇岛:燕山大学,2011.
[10]Brandstein M S,Silverman H F.A practical methodology for speech source localization with microphone arrays[J]. Computer,Speech,and Language,2004,11(2):951-958.
[11]王宏禹,邱天爽.自适应噪声抵消和时间延迟估计[M].辽宁大连:大连理工大学出版社,2003.
[12]居太亮.基于麦克风阵列的声源定位算法研究[D].成都:电子科技大学,2006.
[13]王永良,陈辉,彭应宁,等.空间谱估计理论与算法[M].北京:清华大学出版社,2004.
WEN Xiaojun,JI Jianhua,ZHONG Linbo,WU Shouhao,WANG Yanfen
1.College of Information Engineering,Shenzhen University,Shenzhen,Guangdong 518060,China
2.Shenzhen Key Lab of Advanced Communications and Information Processing,Shenzhen,Guangdong 518060,China
In general,because the microphone array can get more information of the acoustic source,more attention is dedicated on acoustic source location.When the acoustic source near the ends of array,the uniform-linear-array’s resolution is gradually reduced.It is unreasonable that the signal incident angle is different,but the reference range is the same.By analyzing the characteristics of uniform linear array,the time delay is been used to filter the results.The experimental results verify the reasonableness of method.Because the experimental array number is less and the length of array is short, the results also have a certain reference value for the practical application.
microphone array;acoustic source location;delay estimation;uniform linear array;experimental research; ADSP-BF533
麦克风阵列因其相对于单麦克风能够获取更多声源信息,在声源定位的应用上正日益得到人们的极大关注。均匀线阵中,针对信号入射方向靠近阵列的两端阵列分辨力将逐渐降低,利用基于时延估计的声源定位算法时,对不同的信号入射角度以相同的角度误差作为结果筛选的依据的做法,显然不合理。通过分析均匀线阵的特点,当信号以不同角度入射时,以时延点数误差作为不同角度估计结果的筛选门限,并通过实测数据实验,验证了方法的合理性。由于实验使用阵元数少且阵列长度较短,因此实验结果对阵列信号处理的实际工程应用具有一定的参考价值。
麦克风阵列;声源定位;时延估计;均匀线阵;实验研究;ADSP-BF533
A
TN912.3
10.3778/j.issn.1002-8331.1301-0190
WEN Xiaojun,JI Jianhua,ZHONG Linbo,et al.Experimental research of microphone array acoustic source location algorithm based on time delay estimation.Computer Engineering and Applications,2014,50(23):212-214.
深圳市基础研究项目(No.JC201005280625A)。
文小军(1988—),男,硕士研究生,主要研究方向:宽带信号处理;吉建华(1970—),男,博士研究生,教授,主要研究方向:宽带通信与网络;钟林波(1988—),男,硕士研究生,主要研究方向:宽带信号处理;伍守豪(1973—),男,博士研究生,高级工程师,主要研究方向:宽带移动通信与阵列信号处理;王艳芬(1989—),男,硕士研究生,主要研究方向:噪声消除与语音增强。
2013-01-17
2013-03-25
1002-8331(2014)23-0212-03
CNKI网络优先出版:2013-04-11,http://www.cnki.net/kcms/detail/11.2127.TP.20130411.1555.002.html