二值子带加权时延估计及其应用

2013-07-22 02:52林青廖逢钗

赤峰学院学报·自然科学版 2013年13期

关键词：麦克风频带声源

林青，廖逢钗

（三明学院数学与计算机科学系，福建三明365004）

二值子带加权时延估计及其应用

林青，廖逢钗

（三明学院数学与计算机科学系，福建三明365004）

阐述了基于广义互相关(GCC)的互功率谱相位(CPSP)时延估计算法的基本原理，指出它在处理麦克风阵列接收信号时，使用整个频带估计时延存在的不足.提出了二值子带加权互功率谱相位时延估计算法(BSBW-CPSP).首先，在时域对所有通道的接收信号进行子带分解；之后，根据目标信号非活动时，各个子带的能量大小，给每个子带赋予一个二值权重；接着，在所有权重为1的子带分别利用CPSP算法估计时延；最后，求它们的平均值作为最终的时延估计值，并把它应用于声源定位.实验结果表明，与CPSP算法相比，BSBW-CPSP时延估计算法具有更高的精度，算法是有效可行的.

麦克风阵列；声源定位；二值子带加权；广义互相关；时延估计

声源定位技术是根据传声器接收到的数据自动确定声源的位置.声源定位技术具有广阔的应用前景，它在鲁棒语音识别[1]、智能机器人、可视电话、视频会议、助听设备等领域有着广泛的应用[2].目前，利用麦克风阵列的声源定位是最常见的方法，它经过分析与处理麦克风阵列采集的多路声音信号，估计出一个或多个声源在平面或空间中的坐标.

麦克风阵列信号处理的核心思想是：在时域和频域的基础上增加一个空间域，对接收的声源信号进行空时处理.基于麦克风阵列的声源定位技术大致可分为三类：基于最大输出功率的可控波束形成的定位技术[3,4]；基于子空间的定位技术；基于时延估计(Time Delay estimation，TDE)的定位技术[2].其中，基于时延估计的声源定位方法是应用最为广泛的方法，它算法简单，容易实时实现.TDE声源定位的关键技术是时延估计，它的精确性直接决定了声源定位系统的有效性.它首先估计出声源到达麦克风阵列各阵元的相对时间差，再利用时间差算出声源到达各阵元的距离差，最后用搜索或几何算法确定声源的位置[5].

本文在研究广义互相关（Generalized Cross Correlation, GCC）时延估计的基础上，提出了二值子带加权CPSP时延估计算法(Binary Sub-Band Weighted Cross Power SpectruMPhase,BSBW-CPSP).并通过实验验证算法可以有效改善声源定位的精度.

1 GCC时延估计方法

在不考虑空间混响等因素影响的情况下，麦克风阵列中第i个麦克风接收到的信号xi(t)可表示为

其中s(t)是目标声源信号，αi为声波传播的衰减系数(0＜αi＜1)[6].τ是第i个麦克风接收的信号相对于第一个麦克风的时间延迟，ni(t)为第i个麦克风接收的噪声，M是麦克风阵列的阵元数，并假设s(t)和ni(t)(i=1,2,Λ,M)彼此不相关.

广义互相关（GCC）函数时延估计算法[7]是运用最广泛且最简单的一种算法.GCC算法的实现流程如图1所示.麦克风阵列的不同阵元间接收到信号的相对时延是通过计算它们之间的互相关函数，并检测互相关函数的峰值获得.但在实际应用中，由于背景噪声等因素的干扰，互相关函数相应的峰值会减弱，甚至有可能出现伪峰，这样加大了峰值检测的难度.广义互相关（GCC）函数法是通过求得两信号之间的互功率谱，并在频域内给予一定的加权，在一定程度上抑制了噪声和反射干扰的影响，使相关函数在时延处的峰值更为突出，再反变换到时域，得到两信号之间的互相关函数，最终可估计出两信号间的相对时延.

假设S为声源，考察M1、Mi两个麦克风，它们接收的信号分别为x1(t)、xi(t)，接收的噪声信号分别为n1(t)和ni(t).τ为目标声源传播到两个麦克风的时间差.采用传统的GCC算法，可得信号x1(t)和xi(t)的互相关函数Rx1xi(τ)为

其中，Gx1xi(ω)=E{X1(ω)Xi*(ω)}是麦克风M1、Mi接收信号的互相关谱，ψ1i(ω)是权函数，Φx1xi(ω)=ψ1i(ω)Gx1xi(ω)为广义互相关谱，这样x1(t)、xi(t)相对时延为

式(2)选取不同的权函数ψ1i(ω)可得到不同的时延估计算法.在实际应用中，可根据实际的声学环境选择相应的权函数，使得互相关函数Rx1xi(τ)有个比较尖锐的峰值，得到较好的时延估计效果.文献[7]给出了各种GCC加权函数，并阐明了它们的优缺点.其中互功率谱相位(Cross Power SpectruMPhase，CPSP)算法使用的加权函数是：

图1 GCC算法的实现流程图

该加权函数相当于白化滤波，它使信号的互功率谱变得平坦，从而锐化信号的广义互相关函数.

2 BSBW-CPSP声源定位算法

CPSP算法是在信号的整个频带上进行时延估计.在实际声场中，有些频带可能噪声很大，信噪比很低，甚至几乎没有目标信号成分，在这种情况下，CPSP的时延估计精度不可避免要受到影响.下面提出BSBW-CPSP算法，算法流程如图2所示.

图2 BSBW-CPSP定位算法的原理框图

带通滤波器模块是对阵列各阵元接收的信号分别进行频带分解.它使用的频带分解滤波器是椭圆滤波器[8]：

其中，函数ellipord可以得到数字椭圆型滤波器的最小阶数N和截止频率wn,并使滤波器在通带内(0,wp)的波纹系数小于通带最大衰减Ap,阻带内(ws,1)的波纹系数大于阻带最小衰减As.ellip函数的功能是设计滤波器,它利用ellipord函数得到的最小阶数N和截止频率wn,可以设计低通、或带通滤波器.返回参数b和a分别是椭圆滤波器系统函数分子多项式和分母多项式的系数.

VAD（Voice Activity Detect语音活动检测）用于辅助检测各频带噪声强还是弱，决定哪些频带用于时延估计，哪些频带将被舍弃.在静音时（目标信号非活动时），检测各个频带的能量，能量大的频带，噪声大，信噪比低，在时延估计时，放弃该频带的估计结果.据此可以得到各个频带的二值加权系数：

这里，k是频带分解后的频带数，下标l表示第几个频带.

把所有子带的估计结果求平均，得最终的估计结果：

算出各阵元间接收信号的相对时延后，利用三角几何关系就可以推算声源的位置[9].

3实验

3.1 实验原理

实验是在一间普通的实验室进行.以实验室的一个墙角为坐标原点O，建立直角坐标系，Ox和Oy分别与两面墙与地面的两条交线平行.实验时，麦克风阵列的拓扑结构和声源S的位置如图3所示.三个麦克风M1、M2、M3的坐标分别是(0,60.7),(0,0)和(60.2,0)(单位：cm)，d1、d2、d3分别是目标声源S到M1、M2、M3的距离.

实验装置的原理框图如图4所示：由麦克风阵列、信号预处理、A/D同步数据采集和时延估计四个模块组成.麦克风阵列是三个电容式麦克风，信号预处理模块是三个信号放大器，数据采集模块采用BC425同步数据采集模块. BC425是一款USB2.0总线14位8路同步并行数据采集模块，可以最高80KHz/通道（周期12.5μs）的速度对8个输入通道进行模数转换.BC425内置512K Byte FIFO缓冲区，支持实时不间断数据采集.它提供内、外部触发采集及多种时钟模式.

经过BC425同步采集后的数据传输到时延估计模块，该模块中的软件利用不同的时延估计与定位算法计算出声源的位置.

图4 声源定位装置的原理框图

假设声源S到M1、M2的距离差为△d12，声源S到M2、M3的距离差△d23，e12、e23分别是△d12、△d23的估计误差.下面实验是通过比较不同算法△d12、△d23大小，判断各种算法的时延估计效果.实验时，频带分解后的频带数k＝3.

3.2 实验结果

表1至表5是实验得到的数据和处理结果.BSBW-CPSP表示本文提出的二值子带加权CPSP时延估计算法.实验结果表明，在不同噪声源位置、不同信噪比的情况下，相比于CPSP算法，使用BSBW-CPSP算法，声源定位的效果有明显改善.

表1 不同算法声源定位结果比较（SNR=7.39dB，单位：cm）

表2 不同算法声源定位结果比较（SNR=4.69dB，单位：cm）

表3 不同算法声源定位结果比较（SNR=7.35dB，单位：cm）

表4 不同算法声源定位结果比较（SNR=4.72dB，单位：cm）

表5 不同算法声源定位结果比较（SNR=0.75dB，单位：cm）

4 结论

麦克风阵列接收的信号在时域上分解成多个频带，利用VAD模块给出各频带的二值权重，然后在权重为1的各个子带上用CPSP算法估计时延，最后求它们的平均值作为最终的时延估计值.实验结果表明，BSBW-CPSP算法，相对于CPSP算法的时延估计结果更为精确.

〔1〕Yamada,S.Nakamura and K.Shikano.Distant-talking speech recognition based on a 3-D Viterbi search using a microphone array[J].Speech Audio Processing,2000,(10): 48-56．

〔2〕廖逢钗，李鹏，刘文举.采用听觉滤波器的宽带MUSIC声源定位方法[J].声学学报,2012(6):642-650.

〔3〕M.Wax,T.Kailat.0IptimuM10 calization of multiple sources by passiVe afrays[J].Speech and Signal Processing,1983,31(5):1210～1217．

〔4〕陈可，汪增福.基于声压幅度比的声源定位[J].计算机仿真学报，2004，21(1)：85~89．

〔5〕Dirk Bechler,Kristian Kroschel.Reliability Criteria Evaluation for TDOA Estimates in a Variety of Real Environments[C].Conf.Acoustics,Speech and Signal Processing(ICASSP).Pennsylvania,Philadelphia,USA,2005: 985-988．

〔6〕戎晓政，刘加.声源定位中的时延估计方法研究[J].电声基础学报,2010，34(2)：42-46．

〔7〕王宏禹，邱天爽，自适应噪声抵消和时间延迟估计[M].大连：大连理工大学出版社，1999．

〔8〕张晨燕,申维新.利用MATLAB函数设计IIR数字滤波器[J].中国民航飞行学院学报,2006,17(1):24-28.

〔9〕Feng-chai LIAO,Su-xia CHEN.Intelligent mobile robots localization systeMcombined ZigBee and distributed microphone array[C].Jianping Chen.ISISE2012. USA:IEEE Computer Society CPS,2012:52-55.

TN119.7

1673-260X（2013）07-0116-03

福建省自然科学基金(2009J01296)；三明学院大学生创新实验项目（ZL1113/CS）