MMSE—LSA语音增强算法的研究及实现

2018-09-10 06:37:02赵宏志安朋博杜丽霞

现代信息科技 2018年2期

赵宏志安朋博杜丽霞

摘要：语音增强是解决语音噪声污染的一种有效手段。本文简单介绍了现有的基于语音短时对数谱的最小均方误差（MMSE-LSA）进行估计的语音增强算法。利用幀间平滑定义平滑系数来对先验信噪比进行连续估计，在减少语音失真机会的同时，能够有效地抑制残留噪声。文章还通过MATLAB仿真分析其优劣，并结合算法的优点来达到语音增强的最佳效果，从而提高语音信号的可懂度和识别率。

关键词：语音增强；MMSE-LSA；帧间平滑；MATLAB仿真

中图分类号：TP391.42；TN912.3 文献标识码：A 文章编号：2096-4706（2018）02-0118-02

Research and Implementation of MMSE-LSA Speech Enhancement algorithm

ZHAO Hongzhi，AN Pengbo，DU Lixia

（School of Electronics and Information Engineering，Lanzhou Jiaotong University，Lanzhou 730070，China）

Abstract：Speech enhancement is an effective means to solve speech noise pollution.This paper briefly introduces the existing speech enhancement algorithm based on the minimum mean-squared error （MMSE-LSA） estimation of speech short-time log spectrum，then improve the speech enhancement algorithm based on MMSE-LSA，to improve the effect of speech enhancement，and the enhanced speech is more in line with human hearing.Using inter-frame smoothing to define the smoothing coefficient continuously estimates the a priori SNR，which can effectively suppress the residual noise while reducing the opportunity for speech distortion.The advantages and disadvantages are analyzed through MATLAB simulation，and the advantages of the algorithm are combined to achieve the best effect of speech enhancement，thereby improving the intelligibility and recognition rate of the speech signal.

Keywords：speech enhancement；MMSE-LSA；inter-frame smoothing；MATLAB simulation

0 引言

语音信号是人类传播信息和表达感情的重要媒体，是听觉器官对声音传播介质机械振动地感知，也是人类最重要、最有效、最常用和最方便的通信方式。但是语音信号在传送过程中会受到不同程度的干扰，这会影响语音的质量与自然度。因此需要从带噪语音信号中提取出尽可能纯净的原始语音，并对带噪语音信号进行语音增强处理，从而达到抗噪效果。

本文以基本的MMSE-LSA算法为基础，结合其优点提出了新的增强算法，并对其进行了大量的仿真实验，实验结果说明该方法对语音有显著的增强效果。

1 短时对数谱的MMSE语音增强算法

设带噪信号为y（t）=s（t）+d（t），0≤t≤T，其中s（t）为纯净语音信号，d（t）为平稳、加性、高斯白噪声。令Yk=Rkexp（jθk），Sk=Akexp（jαk），分别表示带噪语音y（t）、信号s（t）和噪声d（t）进行FFT后的第k个频谱分量；Rk、Ak分别表示帯噪语音和纯净语音信号的幅值。语音增强的任务就是利用已知的噪声功率谱信息，从y（t）中估计出s（t），即由Yk估计出Sk。这里仅需求出频谱幅度的对数，然后对纯净语音的短时对数谱作最小均方误差估计。处理后的语音由估计得到的幅度谱和相位重建。因而估值问题可以简化为估计Ak。Ak的估计式为：?k=exp{E[lnAk|Yk]}。

设Zk=lnAk，则有：

（1）

为求均方误差最小值。通过计算的到增益函数可以写成：

（2）

其中ξk、γk分别是先验信噪比和后验信噪比。

2 先验信噪比的求解及进行帧间平滑

先验信噪比ξk的求解是由前一帧先验信噪比ξk-1与当前后验信噪比γk共同决定的。然而MMSE-LSA估计量是在假定先验信噪比ξk和噪声方差λd（k）己知的条件下得到的。在实际系统中，这些参数通常由估计得到。在语音起始段和结束段时不能很好地跟踪先验信噪比的变化。因此，先验信噪比和在频域进行频谱的平滑是问题的关键。

2.1 先验信噪比的估计

引入直接决策（Decision-Directed）算法对先验信噪比进行估计，同时决定前一帧先验信噪比ξk-1与当前后验信噪比γk对当前帧先验信噪比的贡献。根据先验信噪比与后验信噪比的关系为ξk（n）=γk（n）-1，由此可得：

（3）

在该式中，pd（k，n-1）表示噪声能量；Ak（n-1）表示n-1个分帧中第k个分量的语音频谱幅度；α为直接决策系数，。由于语言信号的短时平稳性，α的取值应该随着当前后验信噪比和前一帧的先验信噪比的变化而变化。但由于直接决策算法估计出的当前帧的增益函数只与前一帧有关，因而不能较好地匹配当前帧。由此需要在帧与帧之间进行增强处理时，要更加平滑以减少各点之间的不连续性。

2.2 帧间平滑处理

由于对当前帧的平滑需要利用后一帧的信息，因此在需要实时处理的情况下，采用一个两点的平滑滤波器，假设待平滑频域样点序列为Si=[si，0，si，1，si，2，…，si，N-1]，其中N为频点个数。待平滑帧前一帧频域样点序列为Si-1=[si-1，0，si-1，1，si-1，2，…，si-1，N-1]，则经由平滑处理后，当前帧频域样点序列为，其中。定义平滑因子α（k，n），首先定义前一帧的先验信噪比为ξk-1，当前帧的后验信噪比为γk，并定义代价函数J为增强后语音与纯净语音s（n）的均方误差，即：

（4）

令J对因子α的偏导数为0，可得：α（k，n）=1-?[ξ（k-1，n），γ（k，n）]，其中函数：

（5）

则可得先验信噪比为：

（6）

考虑帧间平滑可得：

（7）

3 算法实现及仿真结果

通过MATLAB对算法进行仿真，并对时域波形和语谱图进行观察分析，可知优化后的MMSE-LSA与原来的算法相比，能够有效地滤除背景噪声并且减少原始语音信号的失真。图1是原始语音信号及加噪语音信号和增强后语音信号波形。试验对不同信噪比條件下的含噪语音进行了增强，通过观察语音信号的时域波形图和语谱图，发现新算法能够在有效滤除背景噪声的情况下保持原始语音信号的较小失真，从而有效地改善语音质量。

图1 增强后的波形对比图

4 结论

本文主要研究了基于短时对数谱的语音增强（MMSE-LSA）算法，以及算法中先验信噪比的估计和帧间平滑。试验表明该新算法在保证较小失真的情况下，比较明显地降低了噪声，在性能上比原MMSE-LSA算法有较大的优势，并且运算量不大，适用范围广。

参考文献：

[1] 朱先和，杨世平.基于小波变换对信号噪声的处理研究 [J].电子科技，2016，29（6）：128-131.

[2] Hu Y，Loizou P C. Speech enhancement based on wavelet thresholding the multitaper spectrum [J].IEEE Transactions on Speech & Audio Processing，2004，12（1）：59-67.

[3] 李轩，张瑜，关庆阳.卫星信道MMSE和LS均衡算法性能比较 [J].电子科技，2015，28（7）：84-86.

[4] Hasan M K，Zilany MSA，Khan M R. DCT speech enhancement with hard and soft thresholding criteria[J]. Electronics Letters，2002，38（13）：669-670.

[5] 杨龙.几种单通道的语音增强算法研究 [J].科技视界，2015（26）：155+222.

[6] Wang Y，Han K，Wang D L. Exploring Monaural Features for Classification-Based Speech Segregation [J].IEEE Transactions on Audio Speech & Language Processing，2013，21（2）：270-279.

[7] Xu T，Wang W. A block-based compressed sensing method for underdetermined blind speech separation incorporating binary mask [C]// IEEE International Conference on Acoustics Speech and Signal Processing，2010，130（5）：2022-2025.