陈 磊,江伟华,童 峰*,洪青阳
(1.厦门大学水声通信与海洋信息技术教育部重点实验室,2.厦门大学信息科学与技术学院,福建厦门361005)
一种可跟踪移动声源方向的麦克风阵列语音增强算法
陈 磊1,江伟华1,童 峰1*,洪青阳2
(1.厦门大学水声通信与海洋信息技术教育部重点实验室,2.厦门大学信息科学与技术学院,福建厦门361005)
麦克风阵列语音增强技术已在语音信号处理中得到广泛研究.但在智能家居等领域中,当说话人等声源移动导致声源方向相对麦克风阵列发生变化时,由此产生的信号泄露将严重影响消噪性能.本文提出了一种基于麦克风阵列进行移动声源方向跟踪和噪声消除的联合算法,该方法利用两个平行滤波器组构成梯度迭代的移动声源方向跟踪器,并将该声源跟踪器嵌入广义旁瓣抵消器结构中从而进行声源方向梯度迭代跟踪和麦克风阵列语音增强的联合实现.在实验室噪声背景下移动声源的语音增强结果表明了该方法的有效性.
语音增强;麦克风阵列;梯度迭代;广义旁瓣抵消器
由Griffiths和Jim提出的广义旁瓣抵消器(generalized sidelobe canceller,GSC)[1]是一种常用的麦克风阵列噪声消除方法[2],在语音信号处理领域得到广泛的研究和应用[3],如视频会议[4]、现代助听器[5]、智能机器人[6]等,使用麦克风阵列处理声音信号已成为一个热点[7].Gannot等[]提出了基于传输函数GSC的麦克风阵列语音增强结构以处理不同的声学传输函数.李芳兰等[]提出了采用可调波束形成器(adjustable generalized sidelobe canceller,AGSC)麦克风阵列语音增强算法.针对传统麦克风阵列孔径有限的问题,由分布在空间中多个节点组成的分布式麦克风阵列成为当前的研究热点[].
由于声源固定时容易获得较高的声源方向估计性能,上述麦克风阵列语音增强算法在声源固定时表现出良好的降噪效果.但在智能家居、视频会议、移动机器人等场合中当说话人等声源移动时,声源方向相对麦克风阵列发生变化,由此导致的声源方位估计误差引起的信号泄露将严重影响消噪性能.广义互相关(generalized cross-correlation,GCC)[12-13]被广泛应用于移动声源方位估计,但存在对信噪比要求较高、混响环境下定位性能下降等问题;Nadiri等[14]采用球面调和函数(spherical harmonics,SH)提高严重混响条件下的声源定向性能,但该算法需要采用较为复杂、阵元数较多(>32元)的球形麦克风阵列.
同时,传统上声源方向估计和语音增强处理由相互独立的测向算法和增强算法分别完成,因此在方向估计阶段无法利用语音增强来改善方向估计精度,而方向估计精度又直接影响语音增强效果.基于此,本文提出了可跟踪声源方向的麦克风阵列语音增强算法,该算法采用两个平行滤波器组作为梯度导引的声源方向跟踪器,利用梯度信息进行声源方向的迭代跟踪,并将此跟踪器嵌入GSC结构中,从而实现声源方向梯度迭代跟踪和语音增强的联合实现,改善算法在声源移动时的语音增强性能.实验室背景噪声下移动声源的语音增强实验结果证明了本文算法的有效性.
GSC结构如图1所示,由非自适应支路和自适应支路组成.图中上方的非自适应支路采用系数固定的滤波器对按照声源方位时延补齐后的各通道信号X(n)进行滤波处理,得到初步增强的参考信号d(n)·下方自适应支路通过阻塞矩阵B对各通道信号进行自适应滤波,去除其中的目标语音成分,得到噪声干扰信号U(n)·GSC中输出的误差信号即为阵列输出,即:
图1 GSC经典算法结构框图Fig.1 Structure of classical GSC algorithm
其中h为归一化期望信号导向矢量,hhH=1·U(n)为(M ̄1)×1维矢量,B为(M ̄1)×M(M为麦克风阵列阵元数)维行满秩阻塞矩阵,满足
GSC自适应支路系数Wk调节可利用最小均方(least mean square,LMS)或归一化最小均方(normalized LMS,NLMS)算法实现.
针对声源相对麦克风阵列移动时方向变化造成的声源方位估计误差,本文提出利用由两个平行滤波器组成梯度迭代的声源方向估计器,利用声源方向的梯度信息调整麦克风阵列各通道时延值实现声源方向的梯度迭代跟踪,保证在声源移动条件下的GSC语音增强性能.
本文提出的内嵌声源方向跟踪器GSC算法结构如图2所示.考虑M(以M为偶数的情况为例)个麦克风组成的阵列孔径为d的均匀直线阵,设声场为远场传播模型,声波以平行波方式传播·记X(n)=[x1(n),x2(n),…,xM(n)]T为阵列接收数据矢量,di(n)、Ui(n)分别为第i个平行滤波器输出的参考信号及噪声干扰信号,Wi为每个GSC的维纳滤波器系数,εi(n)为GSC输出的期望信号,其中i=1,2·定义α(n)为声源方向角估值序列,ns为声源方向角估值更新周期,则具体的波束指向控制方法如下:
1)初始化α(0)、ns、Δα·令两个平行滤波器对应的声源方向角估值分别为α1=α(n) ̄Δα,α2=α(n)+ Δα,分别代表声源方向角减小及增加的趋势,以用于梯度计算·
2)通道间时延补偿.对两个平行滤波器的输入语音序列以各自的声源方向角估值对应的通道时延值进行各通道间的时延补偿:
其中,c为空气中声速,fs为采样频率,[]表示取整· τi(αi)为第i个平行滤波器对应的时延值,以采样点数表示;xi,j(αi,n)为第i个平行滤波器对第j个麦克风阵元接收信号进行时延补偿后的信号,j=1,2,…,M·
3)根据NLMS算法分别计算两个平行滤波器的估计误差,更新各自的滤波器系数:
图2 本文算法结构框图Fig.2 Illustration of the proposed algorithm
式中L为滤波器长度.
4)如果n=m×ns(m为整数,m≥1),则利用输出语音段能量为代价函数计算声源方向角相对代价函数的梯度delta(n),其中v为声源方向角梯度导引迭代的步长因子:
则声源方向角的梯度导引迭代公式为
本文算法为了避免声源方向角梯度信息中随机噪声的影响,每隔ns个采样点对此采样点范围内梯度取均值后进行一次梯度导引迭代.
5)以梯度迭代[15]获得当前声源方向角α(n+1)对应的通道时延值对阵列接收信号X(n)进行时延补偿,并利用GSC进行自适应噪声抵消.
6)算法梯度迭代收敛后,可获得声源方向角并输出对应于此声源方向的语音增强信号y(n);随着声源的移动,梯度迭代过程可实现对声源方向的跟踪及语音增强.
在本文算法参数中,考虑到麦克风阵列阵元数较小时,阵列波束主瓣较宽,同时说话人移动速度通常有限,因此,根据捕获、梯度迭代跟踪声源方向的不同要求,本文算法对声源方向左右偏移量Δα采用2种设置,即:在初始化时Δα取较大的值,如本文例中取Δα(大值)=π/6,以在较大范围内粗略捕获说话人的初始方位;实现声源方向捕获后Δα设置为较小值,如本文例中取Δα(小值)=π/20,以实现对声源方向的梯度迭代跟踪·
同时,为了避免噪声干扰源引起方向跟踪错误,算法在静音段不进行目标的跟踪,在通过传统的基于短时能量和短时过零率的双门限端点检测算法[]检测到语音段后在已获取目标方位的基础上重新进行目标信号的捕获.
3.1 实验设置
本文在实验室中利用实测数据对技术方案进行了测试,并将本文算法与GCC方法[13]及AGSC[9]获取声源方向进行语音增强效果进行比较.其中,考虑到算法复杂度,AGSC算法只进行初始声源方向估计,本文算法与GCC算法则在声源移动过程中进行声源方向跟踪计算.
实验室大小约为7 m×3.2 m×3 m,房间背景噪声级为57.4 dB(A).麦克风阵列为由4个麦克风组成的间距d=14 cm的均匀直线阵.
实验平面示意图如图3所示,说话人语音由移动的音箱播放,距麦克风1,2,3,4组成的四元麦克风阵列中心2.0 m;考虑到本文算法针对的是声源移动的场景,实验中设置播放说话人语音的音箱从A点匀速移动到B点,A、B两点间的距离为2.0 m(由于设置的声源移动路线平行于麦克风阵列,移动过程造成的语音幅度变化不大);固定噪声源位于C点,由音箱播放,噪声类型为幅度基本平稳的电吹风噪声.麦克风阵列和音箱距地面的高度均为1.1 m.
图3 实验系统设置平面示意图Fig.3 Configuration of the experimental system
实验中采用的麦克风为单指向性的驻极体麦克风,阵列语音采样频率为16 k Hz,采样时间为6 s.实验算法中相关参数设置如表1所示.文中语音段的端点检测采用文献[15]的检测算法.
表1 算法参数设置Tab.1 Setting of algorithm parameters
3.2 实验结果及分析
图4给出了本文算法利用梯度迭代及GCC算法获得的声源方向角变化曲线.图4曲线中声源方向角保持不变部分对应的是信号的静音段,在静音段不进行声源方向跟踪.由于NLMS算法收敛需要一定时间,同时由于在静音段算法停止跟踪,在说话人移动过程中算法获取的目标信号入射角变化曲线并不光滑,并且出现了波动,然而从图4中仍可以看出其变化趋势与实验中目标声源移动的方向变化基本一致;由于存在明显的背景噪声影响了相关效果,图4中GCC算法声源测向虽总体趋势正确,但性能低于本文方法.
图4 本文算法与GCC算法获取的移动声源方位角曲线Fig.4 Varying azimuth of the moving speaker obtained with the proposed and the GCC method
图5 含噪语音及各算法语音增强效果示意图Fig.5 Noisy speech and the enhanced speech obtained with different algorithms
图5 给出了带噪实验语音及3种算法的输出结果,其中图5(a)为带噪语音信号时域波形,图5(b)、(c)、(d)分别为带噪语音信号经过AGSC算法、GCC算法及本文算分估计声源方向语音增强后的时域波形.
由于AGSC算法仅根据初始声源方向进行波束对准,因此当说话人发生移动后,声源方向误差会造成目标信号泄漏的现象,使算法的语音增强性能急剧下降(如图5(b)的2和4.5 s处语音);GCC算法由于受背景噪声对相关性能的影响,在语音信号信噪比较低时声源方向估计误差下降,影响了语音增强效果(如图5(c)中2 s处语音).
本文算法由于考虑了移动说话人的方位变化,其对目标语音方向的跟踪能力确保了在声源移动时语音增强性能的稳定性.从图5(b)~(d)的对比可看出,本文算法在声源移动状态下语音增强性能得到改善.
针对声源移动对麦克风阵列语音增强算法性能的影响,本文提出了内嵌梯度迭代声源方向跟踪器的GSC麦克风阵列语音增强算法,它具有声源方向跟踪能力.该算法采用两个嵌入GSC结构的平行滤波器,利用梯度信息进行麦克风阵列波束指向的迭代调整,以实现对声源方向的跟踪,并在此基础上进行噪声消除.实验室噪声背景下移动说话人的麦克风阵列语音增强实验表明了本文算法的有效性.
本文算法相较于常规GSC语音增强算法及GCC算法的优势是考虑了目标声源的方位变化,通过内嵌梯度迭代方向估计器对声源进行方位跟踪,从而削弱了因目标信号泄露所造成的GSC语音增强效果下降的影响.同时也需指出,虽然梯度迭代算法具有工作量小、存储变量少、对初始点要求不高等优点,但收敛较慢,不适于声源移动较快的应用场景.
[1] Griffths L J.An alternative approach to linear constrained adaptive beamforming[J].IEEE Transactionson Antennas Propagat,1982,1(30):27-34.
[2] 高杰,胡广书,张辉.基于GSC结构的多麦克风数字助听器的自适应波束形成算法[J].北京生物医学工程,2006,25(3):269-273.
[3] Gannot S,Cohen I.Speech enhancement based on the general transfer function GSC and postfiltering[J].IEEETransactions on Speech and Audio Processing,2004,12(6):561-571.
[4] 舒雪娇,陈景发,敬代波.语音DOA技术在视频会议系统中的应用[J].电子技术与软件工程,2014,22:138-139.
[5] 张戌宝,吴毓祥.现代助听器的方向性麦克风降噪技术和性能(1)[J].听力学及言语疾病杂志,2015,23(5):1-6.
[6] 吴玉秀,孟庆浩,曾明.基于声音的分布式多机器人相对定位[J].自动化学报,2014,40(5):798-809.
[7] 张自嘉,李贺,花晓蕾,等.基于波束形成算法的声源定位与DSP实现[J].压电与声光,2015,37(1):117-121.
[8] Gannot S,Burshtein D,Weinstein E.Signal enhancement using beamforming and nonstationary with applications to speech[J].IEEE Transon Signal Processing,2001,49(8):1614-1626.
[9] 李芳兰,周跃海,童峰,等.采用可调波束形成器的GSC麦克风阵列语音增强方法[J].厦门大学学报:自然科学版,2013,52(2):186-189.
[10] Markovich-Golan S,Gannot S,Cohen I.Distributed multiple constraints generalized sidelobe canceller for fully connected wireless acoustic sensor networks[J].IEEE Transactions on Audio Speech&Language Processing,2013,21(2):343-356.
[11] 李林剑,陈华伟.一种分布式双麦克风线阵声源定位方法[J].应用声学,2014,33(5):412-418.
[12] Tian Ye,Chen Zhe,Yin Fuliang.Distributed Kalman filter-based speaker tracking in microphone array networks[J].Applied Acoustics,2015,89:71-77.
[13] Wan Xiwang,Wu Zhenyang.Sound source localization based on discrimination of cross-correlation functions[J].Applied Acoustics,2013,74:28-37.
[14] Nadiri O,Rafaely B.Localization of multiple speakers under high reverberation using a spherical microphone array and the direct-path dominance test[J].Audio Speech&Language Processing IEEE/ACM Transactions on,2014,22(10):1494-1505.
[15] Wu F Y,Tong F.Gradient optimization p-norm-like constraint LMS algorithm for sparse system estimation[J]. Signal Processing,2012,93:967-971.
[16] 路青起,白燕燕.基于双门限两级判决的语音端点检测方法[J].电子科技.2012,25(1):13-19.
A Microphone Array Speech Enhancement Algorithm with Tracking Capability Upon Moving Speakers
CHEN Lei1,JIANG Wei-hua1,TONG Feng1*,HONG Qing-yang2
(1.Key Laboratory of Underwater Acoustic Communication and Marine Information Technology of the Ministry of Education,Xiamen University,2.School of Information Science and Engineering,Xiamen University,Xiamen 361005,China)
Microphone array speech enhancement methods such as generalized sidelobe canceller(GSC)algorithm GSC have been widely investigated and applied in fields of audio signal processing.However,when speakers move,the performance of the classic GSC algorithms will seriously deteriorate by leaking of the speech due to errors of the direction of speaker.In this paper,a novel method,which uses two parallel filters embedded in GSCstructure to track the direction of the speaker,is proposed to ensure the denoise performance of the GSC algorithm at the presence of moving speaker.The direction tracking of moving speakers is iteratively updated by gradient descent to facilitate the low complexity implementation.Experimental speech-enhancement results under moving speakers are provided to validate the effectiveness of the proposed method.
speech enhancement;microphone array;gradient iteration;generalized sidelobe canceller
TN 912.3
A
0438-0479(2015)04-0551-05
10.6043/j.issn.0438-0479.2015.04.020
2014-11-06 录用日期:2015-04-28
国家自然科学基金(61105026);福建省高校产学合作重大项目(2015H6019)
*通信作者:ftong@xmu.edu.cn
陈磊,江伟华,童峰,等.一种可跟踪移动声源方向的麦克风阵列语音增强算法[J].厦门大学学报:自然科学版,2015,54(4):551-555.
:Chen Lei,Jiang Weihua,Tong Feng,et al.A microphone array speech enhancement algorithm with tracking capability upon moving speakers[J].Journal of Xiamen University:Natural Science,2015,54(4):551-555.(in Chinese)