采用压缩感知的麦克风阵列远场声源方位估计

2018-06-05 08:15黄惠祥

兵器装备工程学报 2018年5期

曾帆，黄惠祥，童峰

(厦门大学水声通信与海洋信息技术教育部重点实验室，福建厦门 361100)

基于麦克风阵列的声源方位估计技术在音/视频会议、语音增强、数字助听器、狙击手定位[1]、车辆/直升机定位[2]等领域应用十分广泛，而狙击手、车辆/直升机定位等远场应用场景给声源方位估计带来更大的挑战。

传统麦克风阵列声源定位技术主要分为3类：基于最大输出功率的可控波束形成的声源定位技术[3]、基于高分辨率谱估计的声源定位技术[4]、基于时延估计的声源定位技术[5]。

广义互相关方法(GCC)是传统的时延估计方法，该方法易于实现，但在低信噪比或者混响环境中性能急剧降低。基于高分辨率谱估计的声源定位方法一般用于处理窄带信号，对于宽带自然语音信号应用受限。相位变换加权的可控响应功率(SRP-PHAT)和延时-累加(DS)声源方位估计均属于波束形成的声源定位技术，其中SRP-PHAT结合了可控响应功率和相位变换加权的优点[6,7]，DS原理简单，运算量小，但是当混响和噪声较强时，传统的声源定位算法性能降低，无法正确估计声源位置。

当信号是稀疏或者可压缩时，可线性投影到低维空间，并通过一定的重构算法对信号进行CS重建[8]。考虑到声源方向向量具有稀疏性，众多学者在压缩感知DOA估计理论和实际应用方面展开了广泛研究。文献[9]提出了一种时域压缩采样的DOA估计算法。文献[10]提出了基于压缩感知的单快拍海底声源DOA估计。文献[11]将基于CS的DOA估计应用于声矢量阵列。文献[12]将压缩感知DOA估计应用于卫星干扰源定位。文献[13]将压缩感知理论用于麦克风阵列声源定位。

文献[13]建立了一种室内混响环境中麦克风阵列接收信号的稀疏表示模型，以声源可能存在位置的冲激响应作为特征构建字典，利用正交匹配追踪(OMP)算法重建信号，最后通过搜索矢量最大元素对应的空间位置确定声源位置。但该文仅进行仿真实验，仿真结果表明在高混响低信噪比环境下，CS-OMP定位精度明显优于SRP-PHAT。同时，该方法需要事先测量各声源可能存在方位的冲激响应，实际推广应用。文献[14]在混响和噪声背景下，通过对延迟相关矩阵进行自适应特征分解，从其零空间中辨识出冲激响应。

在上述工作基础上，本研究首先将稀疏恢复方程混合矩阵中的房间冲激响应(RIP,room impulse response)[15]分解为时延部分和混响部分，并将其中混响部分移动至方向向量中，表明：通过频域叠加抑制混响部分影响，在远场条件下可直接利用阵列阵元间时延关系构造观测矩阵，并进行了室内远场条件下声源方位估计实测实验，对SRP-PHAT、DS、CS-OMP、FCS-OMP在不同信噪比下的方位估计性能进行对比和评估。

1 算法

在远场环境中，麦克风阵列接收到的信号可用声源信号和声传播冲激响应的卷积结果与环境噪声之和表示，即M元线性麦克风阵列，阵元间距为d，第m个阵元接收到的信号xm(n)为

xm(n)=hm(rs,n)*s(n)+wm(n)，m=1,2,…,M

(1)

式中：n为离散时间序列；rs为声源位置；s(n)为声源信号；wm(n)为环境噪声信号；hm(rs,n)为rs到第m个阵元的房间冲激响应RIP。在xm(n)中hm(rs,n)需事先测量，给实际应用带来不便。

通过将RIP分解为时延部分和混响部分，则式(1)可写为

xm(n)=hdm(rs,n)*hrm(rs,n)*s(n)+wm(n)

(2)

式中：hdm(rs,n)为时延部分，hrm(rs,n)为混响部分：以线性麦克风阵列为例，即

m=1,2,…,M

(3)

式中：θ为信号入射方向与阵列夹角；c为声速；fs为采样率[16-17]。则阵元接收信号xm(n)经加窗和离散傅里叶变换后，若冲激响应长度远小于窗函数长度，可得到接收信号的频域表示，将频域模型用矢量表示为：

X(k)=H(rs,k)S(k)+W(k)=

Hd(rs,k)Hr(rs,k)S(k)+W(k)

(4)

式中，X(k)={X1(k),X2(k),…,XM(k)}T为阵元接收信号的频域矢量，H(rs,k)={H1(rs,k),H2(rs,k),…,HM(rs,k)}T为rs处的频域传输响应矢量，Hd(rs,k)={Hd1(rs,k),Hd2(rs,k),…,HdM(rs,k)}T为rs处RIP中时延部分的频域矢量，Hr(rs,k)={Hr1(rs,k),Hr2(rs,k),…,HrM(rs,k)}T为rs处RIP中混响部分的频域矢量，W(k)={W1(k),W2(k),…,WM(k)}T为环境噪声信号的频域矢量。

以声源可能存在位置的RIP作为特征构建字典D(k)，则式(4)可改写为

(5)

X(k)≈Dd(k)S′(k)+W(k)

(6)

式中：

(7)

(8)

2 实验

2.1 实验设置

实验在大小为30 m×20 m×6 m的实验室大厅进行，房间混响时间T60用赛宾公式[18]近似估算约为2.4 s。麦克风阵列为阵元间距13.5 cm的4元均匀线阵，语音信号为TIMIT标准语音信号[19]，由Marshall蓝牙音箱播放，采样率为16 kHz。阵列与声源处于同一水平线且距离声源处10 m，将麦阵正前方0°～180°区域离散为13个空间位置即每间隔15°作为声源可能存在的位置。

声源信号分别采用频率范围为0～4 kHz的白噪声和频率范围为300～3 400 Hz的TIMIT标准语音信号，信号时域/时频图见图1。原始阵列接收到的白噪信号和语音信号信噪比分别为11.5 dB和10.5 dB，通过对原始阵列接收信号叠加实录噪声构造不同信噪比下的阵列接收信号，用于比较SRP-PHAT、DS、CS-OMP及本文FCS-OMP方法在不同信噪比下的声源方位估计性能。其中，通过实测获得声源各可能方位到麦克风阵列的信道冲激响应以用于CS-OMP方法构造稀疏恢复方程。各算法实验参数设置如表1所示。

图1 声源信号时域/时频图

采样率16 kHz信号处理帧长128加窗汉明窗OMP算法频点阈值30

2.2 实验结果与分析

实验结果如图2、图3、图4所示。图2、图3分别是当声源为白噪声和语音信号时不同信噪比下，FCS-OMP、CS-OMP、DS、SRP-PHAT将声源分别位于13个方向的指向性结果按照不同方向进行调整对齐累加后的定位指向性结果，图4是当语音信号SNR=2.5 dB时，FCS-OMP与CS-OMP在不同频点数下的性能比较。

图2(a)是在原始信噪比条件下各算法对远场白噪声源的方位估计结果，图2(b)、图2(c)是信噪比降低条件下，各算法对远场白噪声源的方位估计结果。从图2(a)可以看出，FCS-OMP和CS-OMP曲线尖锐程度几乎重叠，且明显高于SRP-PHAT和DS。随着信噪比降低，FCS-OMP曲线的尖锐程度逐渐高于CS-OMP，且仍高于SRP-PHAT和DS。

图3给出了各算法对远场语音声源在不同信噪比条件下的方位估计结果。由图3(a)、图3(b)可见，当语音信号信噪比为10.5 dB和4.9 dB时，FCS-OMP的曲线尖锐程度明显高于SRP-PHAT和DS，但低于CS-OMP，但在图3(c)中，当SNR=2.5 dB时，FCS-OMP曲线的尖锐程度高于其他3种算法，这是由于在远场低信噪比条件下测量获得的冲激响应质量下降，使算法性能降低，但本文利用阵列空间关系构造冲激响应能很好地解决该问题，使算法在低信噪比环境下仍保持较好的性能。

图4给出了不同频点数下，语音信号信噪比为2.5 dB时FCS-OMP与CS-OMP性能的曲线图。从图4(a)可以看出，当频点阈值η=10时，FCS-OMP的曲线尖锐程度明显高于CS-OMP，而且CS-OMP几乎不能估计出声源的方位，这是由于此时频点数较低，实测的冲激响应与真实值之间误差很大，导致算法性能降低；而当η=20时，由图4(b)可知，此时FCS-OMP曲线的尖锐程度小于CS-OMP，这可能是由于此时的频点数使得实测的冲激响应更接近于真实值；当η=30时，FCS-OMP曲线尖锐程度又高于CS-OMP，这是由于随着频点数的增加，空间位置信息获取越多，FCS-OMP构造的冲激响应越接近真实值，使得FCS-OMP算法的性能越好，而CS-OMP算法实测的冲激响应与真实值之间误差较大。

图2 不同信噪比条件下白噪声源远场方位估计结果

图3 不同信噪比条件下语音声源远场方位估计结果

图4 不同频点数下FCS-OMP与CS-OMP的性能

3 结论

将压缩感知麦克风阵列声源定位方法应用于远场场景，并通过RIP分解与重组表明：基于频点叠加可直接利用阵列空间关系构造声源各可能方位对应的冲激响应进行稀疏恢复。实验结果表明，与SRP-PHAT，DS算法比较，本研究提出的FCS-OMP算法在远场低信噪比环境中有更好的方位估计性能。与传统CS-OMP算法相比， FCS-OMP算法采用构造冲激响应替代实测，应用更为方便，可保证远场条件下的估计性能。

[1] 蒋婷，刘建平，张一闻.基于多麦克风阵列的枪声定位算法研究[J].计算机应用与软件,2012,29(13):229-231.

[2] 左佑，于胜云，黄浩，等.低空目标光纤麦克风阵列无源测向技术[J].电子信息对抗技术，2013,28(3)：18-21.

[3] WAX M,KAILATH T.Optimum localization of multiple sources by passive arrays[J].Acoustics Speech & Signal Processing IEEE Transaction on,1983,31(5):1210-1217.

[4] GUSTAFSSON T,RAO B D,TRIVEDI M.Source Localization in Reverberant Environments:Modeling And Statistical Analysis[J].IEEE Transactions on Speech and Audio Processing,2003,11(6):791-803.

[5] HUANG L,WU S J,ZHANG L R.A Novel MUSIC Algorithm for Direction-of-Arrive Estimation without the Estimate of Covariance Matrix and Its Eigende Composition [C]//Proceedings

of IEEE International Conference on Vehicular Technology,Intercontinental Hotels Dallas,Dallas Texas,2005,1:16-19.

[6] DIBIASE T H.A high-accuracy,low-latency technique for talker localization environments using microphone arrays[D].Providence,Rhode Island,USA:Brown University,2000.

[7] ZHAO Xiaoyan,TANG Jie,ZHOU Lin,et al.Accelerated steered response power method for sound source localization via clustering search [J].Science China Physics,Mechanics and Astronomy,2013,56(7):1329-1338.

[8] CANDèS E J,WAKIN M B.An introduction to compressive sampling[J].IEEE Signal Processing Magazine，2008,25(2):21-30.

[9] GURBUZ L C,CEVHER V,MCCLELLAN J H.Bearing estimation via spatial sparsity using compressive sensing[J].IEEE Transaction on Aerospace and Electronic Systems,2012,48(2):1358-1369.

[10] XENAKI A,GERSTOFT P,MOSEGAARD K.Compressive beam-forming[J].The Journal of the Acoustical Society of America，2014，136(1)：260-271.

[11] 付金山，李秀坤.声矢量阵 DOA 估计的稀疏分解理论研究[J].哈尔滨工程大学学报，2013，34(3)：280-286.

[12] 赵宏伟，刘波，刘恒.用于卫星干扰源定位的压缩感知DOA估计方法[J].火力与指挥控制，2016,41(10)：25-28.

[13] 赵小燕，周琳，吴镇扬.基于压缩感知的麦克风阵列声源定位算法[J].东南大学学报(自然科学版),2015,45(2)：203-207.

[14] 张奕,殷福亮.混响和有色噪声环境下的顽健时延估计方法[J].通信学报,2008,29(5)：6-12.

[15] RÉMI MIGNOT,GILLES CHARDON,LAURENT DAUDET.Low frequency interpolation of room impulse responses using compressed sensing[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2014,22(1):205-216.

[16] 李芳兰,周跃海,童峰,等.采用可调波束形成器的GSC麦克风阵列语音增强方法[J].厦门大学学报(自然科学版),2013,52(2):186-189.

[17] 陈磊,江伟华,童峰，等.一种可跟踪移动声源方向的麦克风阵列语音增强算法[J].厦门大学学报(自然科学版),2015,54(4):551-555.

[18] 张武威.关于室内混响时间的计算问题[J].电声技术,2005(3):17-20.

[19] GAROFOLO J,LAMEL L,FISHER W,et al.TIMIT Acoustic-Phonetic Continuous Speech (MS-WAV version)[J].Journal of the Acoustical Society of America,1993,88(88):210-221.