基于自适应滤波法与谱减法的语音增强的研究

2021-06-08 08:43:06王小标

温州大学学报(自然科学版) 2021年1期

王小标，王错，刘君

(西安理工大学机械与精密仪器工程学院，陕西西安 710048)

原始语音信号在传输过程中不可避免地会受到背景噪声信号的干扰，因此，语音信号接收端接收到的是包含背景噪声信号的语音信号[1]．由于语音信号中的背景噪声会严重影响语音识别的精度[2]，并且会增加语音信号处理的计算复杂度，因此在语音识别和处理过程中，需要进行语音增强，消除语音信号中的背景噪声，进一步提高语音识别的精度[3-4]．目前，语音增强算法有很多，按时间顺序可分为传统算法和新型算法．传统语音增强算法包括谱减法、卡尔曼滤波法、自适应滤波法等[5]．传统语音增强算法已很成熟，并且通过不断改进，语音增强效果也得到了进一步提升[6]．随着计算机和信号处理技术的发展，许多新型语音增强算法相继涌现，如小波变换法、基于经验模态分解的语音增强算法、最大似然估计法等[7]．新型语音增强算法更加注重噪声特征分析和统计，根据噪声特性分析结果，使噪声信号和原始语音信号分离，从而进一步得到原始语音信号[8-9]．

目前，传统语音增强算法仍然应用于语音信号处理中．谱减法是研究者最为青睐的语音增强算法之一，是一种非参数语音增强算法，属于传统算法中的经典算法[10]．谱减法的核心在于噪声的处理部分，理解和分析噪声的类型和特征是使用谱减法的前提，该算法计算简单、实时性高、语音信号的输出信噪比高．但是，在使用谱减法进行语音增强的过程中会产生“音乐噪声”问题，这一直是研究的热点问题[11]．本文提出一种谱减法和自适应滤波法相结合的方法，采用该方法可以进一步提高语音增强效果，并且解决“音乐噪声”问题．

1 语音增强算法研究与实现

1.1 基本谱减法

设定处理语音信号的时间序列为x(n)，经过加窗与分帧处理后，得到第i帧语音信号xi(m)，帧长设定为N．任何一帧语音信号xi(m)的离散傅里叶变换（Discrete Fourier Transform，DFT）为[12]：

要对Xi(k)求出每帧语音信号的幅值与相角，幅值是|Xi(k)|，相角为：

已知前导无话段（噪声段）时长为IS，对应的帧数为NIS，可以求出该噪声段的平均能量值为：

谱减算法为：

（4）式中，a与b是两个常量，a称为过减因子常量，b称为增益补偿因子常量[12]．

图1 谱减法的原理示意图

1.2 自适应滤波研究与实现

自适应滤波器使用前段的信号参数来分析滤波器参数，然后自动调整下一时刻滤波器参数，将有用信号与不需要的信号进行分离，从而获得有用信号，这是自适应滤波器的去噪原理[13]．

自适应滤波器算法流程如图2所示．算法的核心是根据前段语音信号噪声的特性不断修改滤波器的参数，从而达到最优滤波．其中，n为时间变量，x(n)为原始信号输入，经过自适应滤波器以后系统输出信号为y(n)，d(n)为期望响应，信号的误差信号为e(n)．设计滤波器时，合理选择收敛因子参数和梯度的计算是该算法的重点和难点，这需要大量的计算来确定[14]．

图2 自适应滤波器的原理流程图

2 新型语音增强算法的实现

本文提出的新型语音增强算法是将谱减法和自适应滤波法相结合进行语音增强的一种算法，称为新型谱减算法．该算法首先使用传统谱减算法对带噪声的语音信号进行语音增强，得到含有“音乐噪声”的语音信号，然后根据语音信号前段无声段的“音乐噪声”的特性进一步调整自适应滤波器的参数，从而消除语音增强过程中谱减法产生的“音乐噪声”，实现最优滤波．新型谱减算法的原理流程图如图3所示．

图3 新型谱减算法的原理流程图

3 仿真结果及分析

为了验证本文提出的新型谱减算法的语音增强效果，本文使用MATLAB软件进行仿真实验．语音库数据由不同信噪比的语音信号组成，语音信号的采样频率为8 kHz，语音预处理包括分帧、加窗，帧长为200 ms，帧移为80 ms，相邻帧之间有75%重叠，即帧间叠加128个采样点．通过对比语音增强前后语音信号的信噪比和语谱图来说明语音增强效果的优劣[15-16]．图4和图5分别是原始语音信号和噪声语音信号的语谱图．通过观察可以发现，纯语音信号的语谱图的频率分布是非常规则的，由于没有背景噪声干扰，所以纯语音信号的语谱图只有有声段有频率的分布，在无声段没有频率的分布；含有背景噪声的语音信号的语谱图，在整个时域上都会出现频率分布并且有原始语音信号丢失的现象．因此，根据语谱图中频率在有声段和无声段的分布情况可以判断使用新型谱减算法进行语音增强之后是否能够去除残留的“音乐噪声”．

图4 原始语音信号的语谱图

图5 噪声语音信号的语谱图

对纯净原始语音信号叠加0 dB宽带噪声信号并且使用传统谱减法进行语音增强之后，输出信号的信噪比为8.666 3 dB，效果图和语谱图分别如图6和图7所示．通过分析可以得出结论，采用传统的谱减法进行语音增强会产生“音乐噪声”问题．

图6 传统谱减算法的效果图

图7 传统谱减算法的语谱图

使用本文提出的新型谱减算法进行语音增强之后，效果图如图8所示，输出信噪比增加到了12.365 4 dB．

从语谱图（见图9）可以看出，采用新型谱减算法进行语音增强之后，语音信号只在有声段有频率分布．

图8 新型谱减算法的效果图

图9 新型谱减算法的语谱图

建立不同信噪比的仿真语音库，分别使用传统谱减法和本文提出的新型谱减算法进行语音增强处理，然后对传统算法和新型谱减算法的输出信噪比进行统计分析，通过对比两种算法的语音增强语谱图和输出信噪比，可以得出结论，对于仿真语音库数据而言，新型的谱减算法比传统的谱减算法的输出信噪比要高（见图10）．

4 真实环境数据库实验及分析

本文提出的新型谱减算法是针对真实的语音环境条件设计的，所以需要使用真实环境语音库数据来验证新型谱减算法的有效性．本次验证实验语音库数据如表1所示．

真实环境语音库中的语音信号初始信噪比大小未知，因此，不能采用比较信噪比大小的方法来评定语音增强效果的优劣．在实际应用中，可以根据语音质量评分标准来判断算法的语音增强效果优劣．语音质量评分准则见表2．

表1 真实环境语音库

表2 语音质量评分标准

按以上标准，分别采用传统谱减算法和新型谱减算法求得每一个场景下的语音质量评分，并取其平均值，结果见图11．从图11可以看出，新型谱减算法的语音增强效果明显优于传统谱减算法的效果．

图10 输出信噪比的对比图

图11 语音质量评分对比图

5 总结

本文提出一种将自适应滤波法和谱减法相结合的语音增强算法——新型谱减算法．该方法首先采用谱减法对噪声语音进行处理，然后根据信号前段无声段的噪声特性来进一步确定自适应滤波算法的收敛因子和梯度，从而解决了使用传统谱减算法进行语音增强过程中产生的“音乐噪声”问题，并且进一步提高了语音信号的输出信噪比．仿真语音库数据实验结果表明，采用新型谱减算法能够输出更高信噪比的语音信号，并且能够解决“音乐噪声”的问题，进一步提高语音增强效果．采用真实环境语音库数据对新型谱减算法语音增强效果进行验证，结果表明，采用新型谱减算法比采用传统谱减算法输出的语音质量要好，真实生活环境中语音信号的背景噪声可以采用新型谱减算法去除．