刘凤增
【摘 要】由于多麦克风越来越多地部署到同一个设备上,基于双麦克风和麦克风阵列的多通道语音增强研究有了较大的应用价值。介绍了自适应噪声对消法、FDM等双通道语音增强方法和波束形成、独立分量分析等麦克风阵列语音增强方法,对各个方法的原理、发展和优缺点进行了详细分析和总结,对多通道语音增强深入研究有一定帮助。
【关键词】语音增强;双通道;麦克风阵列;波束形成
1.引言
语音是人们通讯交流的主要方式之一。我们生活的环境中不可避免地存在着噪声,混入噪声的语音会使人的听觉感受变得糟糕,甚至影响人对语音的理解。在语音编码、语音识别、说话人识别等系统中,噪声也会严重影响应用的效果。语音增强成为研究的一个问题,其模型如图1所示。
图1 语音增强模型
按照采集信号的麦克风数量分类,语音增强方法可被分为单通道(single channel)、双通道(dual-channel)、麦克风阵列(microphone array)三种类型。一般来说,麦克风越多,去噪的效果越好。早期,大部分通信/录音终端都只配有一个麦克风,因此单通道语音增强吸引了大量研究者的目光,方法较为成熟。但单通道方法的缺点是缺少参考信号,噪声估计难度大,增强效果受到限制。近年来随着麦克风设备的小型化和成本的降低,双麦克风和麦克风阵列越来越多地被部署。研究者的注意力也在从单通道语音增强向双通道和麦克风阵列语音增强转移,这里对已有的多通道语音增强算法作以简单介绍。
2.双通道语音增强方法
在语音增强中,一个关键的问题就是获得噪声。在单通道语音增强中,噪声是通过从带噪语音信号中估计得到的,估计算法较为复杂且估计噪声总是与真实噪声存在差异,这就限制了增强效果的提高。为了获得真实噪声,简单的做法就是增加一个麦克风来采集噪声。从带噪语音信号中减去采集噪声来得到语音信号,这种方法叫做自适应噪声对消法(ANC,adaptive noise canceling),是最原始的最简单的双通道语音增强算法。针对双麦克风开发的算法不多,主要有噪声对消法、一阶差分麦克风(FDM,first-order differential microphone)及基于FDM改进得到的自适应零陷波束形成法( ANF,adaptive null-forming)。
2.1 自适应噪声对消法
噪声对消法采用两个麦克风,一个麦克风采集带噪语音,另一个采集噪声信号,用带噪信号减去噪声信号,得到语音信号。减操作一般在频域进行,如果采集到的噪声与带噪信号中的噪声足够相似,甚至可以在时域上直接相减。以上是在理想情况下,实际中两个麦克风的位置不同,两路信号之间存在着延迟、不同衰减、干扰,但两路中的噪声成分都来自于同一噪声源,噪声之间仍然具有很强的相关性。利用相关性,采用LMS数字滤波器结合减操作,则可实现自适应噪声对消。自适应噪声对消法适合于平稳的噪声环境,如果噪声是非平稳的则会严重影响其效果。该方法假设噪声与语音是不相关的,若噪声与语音相关,LMS滤波的系数应在语音间歇期间进行刷新,这里需要用到发声活动检测(voice activity detection),增加了方法的复杂度,效果也不够理想。自适应噪声对消法的另一个缺点是会引入音乐噪声。
2.2 FDM方法
FDM方法与噪声对消相似,不同的是根据麦克风位置对两路信号进行差分计算,输出更精确的带噪语音信号和参加噪声信号。对得到的两组信号进行自适应噪声对消,得到增强后语音。自适应滤波可能不收敛,这将极大影响增强效果,且收敛速度慢也会使实时增强难以实现。因此,文献利用单通道增强算法代替自适应噪声对消法,带噪语音信号作为单路输入,参考噪声信号作为估计噪声,解决了收敛问题及收敛过程中的噪声泄露问题。
噪声对消和FDM都是相关去噪,假设噪声和语音是独立不相关的,噪声和噪声之间是相关的。
3.麦克风阵列语音增强方法
麦克风阵列语音增强,主要采用阵列信号处理技术进行增强,其中有波束形成(Beamforming)和独立分量分析(ICA,independent component analysis)。波束形成法在20世纪八十年代中期开始被用于语音信号处理。波束形成是空间滤波技术,它从麦克风阵列获得的一组信号中找出一个特定方向的信号,而把其他方向的信号忽略掉。波束形成方法可以分为三种:固定波束形成,自适应波束形成,结合后置滤波(Postfiltering)的波束形成。
3.1 固定波束形成
固定波束形成(FB,fixed beamformer)分为延时求和波束形成和滤波求和波束形成,它是因权值或滤波器权重是固定的而得名。固定波束形成由三个模块组成:延时估计模块,延时补偿模块,加权/滤波相加模块,其原理结构如图2所示:
图2 固定波束形成原理图
图中,当为一固定常数时为延时求和波束形成,当w代表滤波器冲击响应时为滤波求和波束形成。固定波束形成法结构简单,实现容易,适合平稳背景噪声,但由于w是固定的,不能自适应地处理噪声多变的情况,对高斯白噪声等非相关噪声处理效果较好,不能处理相关噪声。
3.2 自适应波束形成法
自适应波束形成法(Adaptive Beamforming)是为多变的噪声环境设计的,它根据输入信号调整滤波器权重,使波束方向零陷对准噪声方向。该方法采用优化的方法来估计语音信号,优化的准则有最大信噪比,最小均方误差,线性限制最小方差等。Frost基于线性约束最小方差(LCMV,Linearly Constrained Minimum Variance )准则提出了一种波束形成方法,它的自适应机制是带约束的最小均方(LMS,Least-mean-sqare)适应。其原理结构如图3所示:
图3 Frost波束形成原理图
LCMV波束形成包括四部分:时延估计,时延补偿,带约束的最优化滤波,求和输出。为克服Frost方法的约束,Griffiths和Jim提出了一种广义旁瓣消除器(GSC ,Generalized Sidelobe Canceller)自适应波束形成,它把约束和最小化分为两部分。其原理结构如图4所示:
图4 GSC波束形成原理图
GSC波束形成将Frost算法改进为上下两通道加自适应滤波的形式。上通道是一个固定波束形成器,用于产生带噪语音信号;下通道是一个阻塞矩阵,用以产生参考噪声;对两路信号进行自适应滤波得到语音信号。时域的GSC假设各麦克风接收到的是语音信号的不同延迟版本,因此又叫做延迟广义旁瓣消除器(D-GSC)。频域的GSC由Gannot等人发明,叫做转移函数广义旁瓣消除器(TF-GSC)能够处理更为复杂的声场转移函数(ATFs,acoustic transfer functions)。 Frost和GSC波束形成算法能较好的处理相干噪声,但对于非相干的噪声处理效果不佳。
3.3 后置滤波波束形成
后置滤波波束形成可以有效地处理非相干噪声,它由zelinski在1988年提出。其原理结构如图5所示:
图5 后置滤波波束形成原理图
在GSC的自适应滤波阶段,由于采用LMS滤波器,要求噪声之间是相关的。后置滤波法用维纳滤波器代替了LMS滤波,实现对非相干和漫射噪声的消除。
3.4 独立分量分析
ICA是在研究盲源分离过程中出现的一种全新的信号处理和数据分析方法。ICA能够从混合信号中分离出各个独立分量,它不需要知道源信号和传输信道的参数,仅仅通过分析观测到的混合信号的统计特性。ICA的原理如图6所示。
图6 ICA原理图
图中展示的是有个源信号,用个麦克风来采集,表示源信号,为每个麦克风采集的混合信号。混合矩阵表示混合信号是由源信号的线性叠加得到的,混合矩阵式未知的,在现实中,它是由信源位置和麦克风位置决定的。ICA对个混合信号进行处理,分解混合信号恢复个独立的源信号。用ICA进行信号分离必须满足以下条件:
(1)麦克风数量大于等于源信号数量,及;
(2)源信号之间是相互独立的;
(3)混合信号是独立源信号的线性叠加;
(4)属于高斯分布的源信号最多只有一路;
带噪语音中的噪声一般是加性的,即使是乘性的也可以通过求对数转换为加性的;噪声和语音的产生过程是不相关的。因此可将带噪语音认为是独立源语音和独立源噪声的线性混合信号,应用ICA来进行语音增强。对于多声源噪声情况也是适用的。