基于听觉掩蔽效应的改进型维纳滤波算法

2020-07-29 12:35孙坤伦夏秀渝孙文慧

计算机与网络 2020年13期

孙坤伦夏秀渝孙文慧

摘要：针对低信噪比非平稳噪声环境，提出了基于听觉掩蔽效应的改进型维纳滤波算法。采用能熵比法对带噪语音信号进行端点检测，据此进行实时噪声谱估计。采用经典维纳滤波算法得到近似纯净语音以计算听觉掩蔽阈值，根据掩蔽阈值动态调整改进型维纳滤波器的一组参数，通过维纳滤波得到增强语音。通过客观评价指标SNR，PESQ测试以及主观试听测试可知，该算法不仅提高了语音信号的信噪比，而且减少了语音的失真，提高了语音的感知质量。

关键词：听觉掩蔽效应；语音增强；维纳滤波；能熵比

中图分类号：TP391.4文献标志码：A文章编号：1008-1739（2020）13-68-4

0引言

近年来，语音增强技术广泛应用于远程视频会议、智能手机等各个领域。由于外界各种噪声的存在，语音信号难免会受到干扰。如何有效消除语音信号中所混有的外界的噪声和提高语音质量一直是语音信号处理重要的研究课题。

传统的谱减法[1]及其改进型谱减法在去除噪声的同时不可避免地带来了音乐噪声。相比较谱减法，虽然维纳滤波法[2]很大程度上消除了音乐噪声的影响，但是在非平稳噪声环境和低信噪比的情况下，维纳滤波法在对噪声消除和抑制的同时往往会导致语音失真比较严重。

针对传统算法存在的不足，提出了基于听觉掩蔽效应[3]的改进型维纳滤波算法。利用人耳的听觉掩蔽效应，可以很好地降低语音信号在降噪过程中带来的失真，提高了语音质量。

1语音增强系统

基于听觉掩蔽效应的改进型维纳滤波算法，语音增强系统流程图如图1所示。

本文语音增强系统对带噪语音信号的处理过程大致分为以下4个步骤进行：

①实时噪声估计：利用能熵比端点检测法，判断输入信号的每一帧是语音帧还是噪声帧，如果是噪声帧则更新噪声功率谱。

②掩蔽阈值计算：根据传统的维纳滤波算法得到近似纯净的语音信号，然后由听觉掩蔽模型计算掩蔽阈值。

③改进型维纳滤波参数调整：根据掩蔽阈值自适应地调整维纳滤波参数和设定的维纳滤波器系数的下限min。

④语音合成：采用改进的维纳滤波算法增强语音幅度谱，结合带噪语音信号的相位谱通过逆傅里叶变换，可得到时域上增强后的语音。

2传统型维纳滤波算法

5仿真结果及分析

本实验原始语音数据是在安静环境下录制的，录制的原始语音采样频率为16 kHz，所选取的采样精度为16 bits，分帧时采用汉宁窗且帧长为320点、帧移160点。噪声选自NOISEX-92数据库，噪声包括white，volvo，factory三种类型。将不同类型的噪声信号和原始语音信号按照不同程度混合生成不同信噪比（5 dB，0 dB，-5 dB）的带噪语音信号进行试验仿真。

将录制的原始语音信号和非平稳factory噪声混合生成信噪比为0 dB的带噪语音信号。原始语音信号的时域波形和频域语谱图如图2所示，混合后生成的带噪语音信号时域波形和频域语谱图如图3所示。采用传统维纳滤波算法和本文基于听觉掩蔽效应的改进型维纳滤波算法增强后的语音时域波形及其对应的频域语谱图分别如图4和图5所示。

在反映人耳感知语音听觉质量方面，信噪比不是很好的参考指标。因此本文还采用了语音质量感知评价指标（PESQ）[7]对以上2种算法进行对比，对比结果如表2所示。PESQ指标是将增强后的语音与一个代表最好质量（通常为纯净语音）的参考语音进行比较，这种比较考虑人耳的听觉感知特性（响度、音质和音色），会得到一个差异值，差异值越小PESQ的分越高，MOS分数也越高。

通過对比表1中3种算法输出信噪比可以发现，相比较传统的谱减和维纳滤波算法，采用本文算法增强后的语音信噪比有明显提高。通过表2实验数据对比可知，本文算法相比较传统维纳滤波算法PESQ得分提高了近0.4分，说明本文算法增强后的语音质量明显提高。同时通过主观试听测试表明，在低信噪比非平稳噪声的情况下，采用本文算法增强后的语音相比较传统谱减法和维纳滤波法增强后的语音，音乐噪声残留的更小，而且增强后的语音听起来更加舒适，自然度和感知质量有了进一步提高。

6结束语

提出的语音增强算法从语音客观评价指标信噪比、语音质量感知质量评价指标和主观试听测试3个方面的实验数据对比可以得出，本文算法在消除噪声和降低语音失真度方面明显优于传统的语音增强算法，在低信噪比非平稳噪声环境下，效果显著。

参考文献

[1]王莉，胡剑凌，徐盛.基于听觉掩蔽效应的语音增强算法的研究[J].电声技术，2006（7）：39-42.

[2] LOIZOU P C.语音增强：理论与实践[M].高毅，肖莉，邓方，等，译.成都：电子科技大学出版社，2012..

[3]蔡军，李飞，张毅.基于听觉掩蔽效应的语音增强算法[J].计算机工程，2017，43（7）：288-292，297.

[4]宋知用.MATLAB在语音信号分析与合成中的应用[M].北京：北京航空航天大学出版社，2013.

[5] JOHNSTON J D.Transform Coding of Audio Signals Using Perceptual Noise Criteria[J].IEEE J Selected Areas Communication，1988，6（2）：314-323.

[6] PAINTER T，SPANIAS A. Perceptual Coding of Digital Audio[J]. Proceedings of the IEEE，2000，88（4）：451-512.

[7]刘海滨，吴镇扬，赵力，等.非平稳环境下基于人耳听觉掩蔽特性的语音增强[J].信号处理，2003（4）：303-307.

[8] RIX A W，BEERENS J G，KIM D-S，e tal. Objective Assment of Speech and Audio Quality-technology and Applications[J]. IEEE Transactions on Audio，Speech，and Language Processing，2006，14（6）： 1980-1901.

计算机与网络2020年13期

计算机与网络的其它文章: 《天涯明月刀》发布新文创三维升级计划; 机器学习如何推动5G网络; 区块链技术在网络信息安全中的的应用及展望; 宁夏提升一网通办水平最大程度实现“一次办”; 湖北省上线税费智能监控平台; 北京市将清理行政审批中的隐性门槛