声源定位中三种常用语音增强算法的对比分析

2021-11-11 08:32:20肖刚祥周妙琪刘俊李军成

电子元器件与信息技术 2021年7期

肖刚祥，周妙琪，刘俊，李军成

(湖南人文科技学院数学与金融学院，湖南娄底 417000)

0 引言

有关声音的处理是一门重要的学科，涉及到了生活中的方方面面，比如监控安保、军事侦察、人工智能等等。然而在生活中不仅仅有人们感兴趣的声音，还有许许多多的噪声，因此，通过语音增强技术来增强特定的声源信号（即感兴趣的声音），同时抑制其他的声源信号（即不想要的噪声）就成了迫切需求。

在声源定位中，为了加强声音采集与运用的效率，语音增强是非常关键的一个环节。目前，声源定位中的语音增强的方法有很多，但总的来说可分为单通道语音增强法和多通道的语音增强法两类。在单通道语音增强算法中，较为典型的有谱减法[1-3]，而在多通道语音增强算法中，较为常用的有维纳滤波法[4-6]、子空间法[7-9]等。本文的主要目的是分析谱减法、维纳滤波法、子空间法等三种声源定位中常用的语音增强算法在不同噪声、不同信噪比情形下的去噪能力，为声源定位时选取合适的语言增强算法提供一定的参考。

1 三种常用语音增强算法的对比分析

本文利用MATLAB软件进行仿真实验。输入的干净语音为“多么痛的领悟”（时间为3秒的男声），其波形图和语谱图如1所示。

图1 干净语言信号的波形图和语谱图

为了对比分析谱减法、维纳滤波法、子空间法等三种语音增强算法的效果，本文分别给干净语音添加white噪声、volvo噪声、babble噪声等三种不同的噪声，并在不同输入信噪比的情形下进行语音增强效果的比较。

1.1 添加white噪声的情形

给干净语言添加white（白）噪声后，其波形图和语谱图如2所示。

图2 添加white噪声后语言信号的波形图和语谱图

为了说明三种方法去噪的有效性，将输入信噪比取为15db，三种方法得到的语言信号波形图和语谱图如图3所示。

图3 输入信噪比取为15db时含white噪声语言信号去噪后的波形图和语谱图

由图3可知，当输入信噪比为15db时，这三种方法都具有较好的语音增强能力，其中利用谱减法增强后的语音与干净语音的波形图和语谱图最为接近。为了进一步对比分析三种方法对含white噪声语言信号的去噪效果，将输入信噪比由-50db逐渐增加到50db时，可得输入信噪比与输出信噪比的关系曲线如图4所示，其中横坐标为输入信噪比，纵坐标为输出信噪比，黑色线条为谱减法的结果，红色线条为维纳滤波法的结果，黄色线条为子空间法的结果。

图4 添加white噪声下三种算法的效果对比

由图4可知，在添加white噪声的情形下，

(1) 随着输入信噪比的提高，谱减法的输出信噪比提高的速度比其它两种方法快很多。

(2) 当输入信噪比高于20db时，谱减法的语音增强效果开始趋于稳定；当输入信噪比高于0db时，子空间的语音增强效果开始趋于稳定；当输入信噪比高于5db时，维纳滤波方法的语音增强效果趋于稳定。

(3) 当输入信噪比低于-1db时，子空间法的语音增强效果最好；当输入信噪比高于-1db低于13db时，维纳滤波的语音增强的效果最好；当输入信噪比高于13db时，谱减法的语言增强效果最好。

1.2 添加volvo噪声的情形

给干净语言添加volvo噪声后，其波形图和语谱图如5所示。

为了说明三种方法去噪的有效性，将输入信噪比取为15db，三种方法得到的语言信号波形图和语谱图如图6所示。

图5 添加volvo噪声后语言信号的波形图和语谱图

图6 输入信噪比取为15db时含volvo噪声语言信号去噪后的波形图和语谱图

由图6可知，当输入信噪比为15db时，这三种方法都具有较好的语音增强能力，其中利用维纳滤波法增强后的语音与干净语音的波形图和语谱图最为接近。为了进一步对比分析三种方法对含volvo噪声语言信号的去噪效果，将输入信噪比由-50db逐渐增加到50db时，可得输入信噪比与输出信噪比的关系曲线如图7所示，其中横坐标为输入信噪比，纵坐标为输出信噪比，黑色线条为谱减法的结果，红色线条为维纳滤波法的结果，黄色线条为子空间法的结果。

图7 添加volvo噪声下三种算法的效果对比

由图7可知，在添加volvo噪声的情形下，

(1) 随着输入信噪比的提高，谱减法的输出信噪比提高的速度比其它两种方法快很多。

(2) 当输入信噪比大于20db时，谱减法的语音增强效果开始趋于稳定；当输入信噪比大于5db时，维纳滤波法的语音增强效果开始趋于稳定；当输入信噪比大于0db时，子空间法的语音增强效果开始趋于稳定。

(3) 当输入信噪比低于-3db时，子空间法的语音增强效果最好；当输入信噪比高于-3db低于12db时维纳滤波方法的语音增强效果最好；在输入信噪比高于19db时，谱减法的语音增强效果最好。

1.3 添加babble噪声的情形

给干净语言添加babble噪声后，其波形图和语谱图如8所示。

图8 添加babble噪声后语言信号的波形图和语谱图

为了说明三种方法对含babble噪声语言信号的去噪能力，将输入信噪比取为15db，三种方法得到的语言信号波形图和语谱图如图9所示。

图9 输入信噪比取为15db时含babble噪声语言信号去噪后的波形图和语谱图

由图9可知，当输入信噪比为15db时，三种方法都具有较好的语音增强能力，其中利用谱减法增强后的语音与干净语音的波形图和语谱图最为接近。为了进一步对比分析三种方法对含babble噪声语言信号的去噪效果，将输入信噪比由-50db逐渐增加到50db时，可得输入信噪比与输出信噪比的关系曲线如图10所示，其中横坐标为输入信噪比，纵坐标为输出信噪比，黑色线条为谱减法的结果，红色线条为维纳滤波法的结果，黄色线条为子空间法的结果。由图10可知，在添加babble噪声的情形下，

图10 添加babble噪声下三种算法的效果对比

(1) 随着输入信噪比的提高，谱减法的输出信噪比提高的速度比其它两种方法快很多。

(2) 当输入信噪比高于20db时，谱减法的语音增强效果开始趋于稳定；当输入信噪比高于0db时，子空间法的语音增强效果开始趋于稳定；而维纳滤波方法的语音增强效果浮动较大，当输入信噪比高于30db时，其语音增强效果才开始趋于稳定。

(3) 当输入信噪比低于5db时，子空间算法的语音增强效果最好；当输入信噪比高于5db低于14db时，维纳滤波法的语音增强效果最好；当输入信噪比高于14db时，谱减法的语音增强效果最好。

2 结语

本文利用MATLAB软件对谱减法、维纳滤波算法、子空间等三种声源定位中常用的语音增强算法进行了对比分析。通过给干净语音添加white噪声、volvo噪声、babble噪声等三种不同的噪声，在不同输入信噪比的情形下对三种方法的语音增强效果进行了比较，得到了三种语音增强方法的特性，为声源定位时语音增强算法的选择提供了一定的依据。